How can I find diseases that are involved in the amplification of a specific gene?


표피성장인자수용체(EGFR)의 증폭과 관련이 있는 질병에는 어떠한 것들이 있을까?
보통 표피성장인자수용체(EGFR)가 증폭되었을 때 어떤 질병과 관련이 있는지 알아보기 위해서 먼저 인터넷 또는 논문 검색을 하게된다. 인터넷 또는 논문 검색을 통해 찾은 정보들은 무수히 많고 그것을 하나하나 살펴보고 정리하는 것도 만만치 않은 일이다. 그래서 표피성장인자수용체가 증폭되었을 때 생길 수 있는 질병만 선택해서 찾고 한번에 Pathway까지 그릴 수 있는 방법을 소개하고자 한다.


Step to follow


Step 1. 표피성장인자수용체(EGFR) 검색

PathwayStudio 검색창에서 표피성장인자수용체인 EGFR을 검색한다. 검색된 EGFR을 복사한 후 새 Pathway 문서에 붙여넣기 한다.

사용자 삽입 이미지
Step 2. Pathway 옵션 설정

표피성장인자수용체(EGRF)에 의해 나타나는 질병을 모두 찾고 Pathway로 나타내기 위해 옵션 설정 과정을 거친다. Advanced Build Pathway Wizard 에서 Add Neighbors > Directionality: “downstream” > Entity type: “disease” > Filter Parameters: “regulation” 순으로 선택한다.

사용자 삽입 이미지
Step 3. Relation 속성을 이용한 검색 기능

Pathway에서 “amplif”가 포함된 Regulation 관계만 찾기 위해 pathway 검색 tool에서 “Find Relation by Attribute”를 클릭한다. 찾고자 하는 Attribute에 대해 설정하는데 논문의 문장에 "amplif"가 포함된 것만 찾기위해 Attribute를 Sentence로 선택하고 Operation은 "includes", Value는 "amplif"로 설정하고 검색을 한다. 검색 결과 Reference sentence에 "amplif(amplification/amplified)"가 포함된 Relation만 파란색으로 표시된것을 확인할 수 있다.

사용자 삽입 이미지
Step 4. 선택된 Pathway만 보기

복잡한 Pathway에서 선택된 것만 자세히 보기 위해 Edit에서 Copy를 하고 새 Pathway 문서에 붙여넣기 한다. 그러면 EGFR이 증폭했을 때 생길 수 있는 질병에 대한 pathway만 확인 할 수 있다.

사용자 삽입 이미지

아래 동영상보기를 하시면 4개의 Step을 한 번에 보실 수 있습니다.






Posted by 人Co

2010/10/11 09:09 2010/10/11 09:09
, , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/82

HGMD professional

Next generation sequencing의 발달로 인한 personal genomics가 가능해지면서 더욱 관심을 보이고 있는 데이터베이스가 있다. Biobase HGMD 데 이터베이스가 바로 그것으로 Human의 유전적 돌연변이에 의한 질병정보를 약 100,000만개 정도 담고 있다.

사용자 삽입 이미지

Figure 1. Biobase HGMD. Human의 유전적 변이에 의한 질병 정보 데이터베이스

HGMD는 현재 유전체 서열상의 변이로 인한 질병의 병변 및 유전자의 이름 그리고 유전체상의 위치 정보를 문헌정보에 근거하여 서비스하고 있다. 이러한 정보는 OMIM, Entrez Gene 그리고 Human Gene Nomenclature Committee를 포함한 대표 web-base 데이터들과 링크를 통해 변이에 의한 표현형, 구조적 정보들이 함께 제공되고 있다. 그 자세한 내용은 아래와 같다.


Feature


  • Up-to-date Mutation Data

  • Full Coverage of PubMed journals
  • Gene Centric Search
  • Mutation Centric Search
  • Reference Centric Search
  • Boolean Full Text Searching
  • View Mutation Data by Type
  • View Mutation Data by Disease/Phenotype
  • cDNA Sequences
  • Extended cDNA Sequences
  • Expanded Gene-specific Information
  • Expanded Mutation-specific Information
  • Advanced Search Tools
  • Mutation Viewer/Maps
  • Genomic Coordinates for Missense/Nonsense Mutations
  • Search for Functional Polymorphisms
  • HGVS Nomenclature for Missense/Nonsense Mutations
  • Links to Entrez dbSNP (using rs numbers)
  • Provision of Additional Literature References
  • Search/Display of Gene Ontology Terms
  • Downloadable Version

 HGMD Professional은 위와 같이 변이 정보에 대한 서열 정보, SNP정보, HGVS nomenclature 정보를 링크를 통해 서비스하고 있으며 이들의 조절 메카니즘과 관련된 transcription factor 정보도 함께 지원하고 있다. 더욱이 이러한 모든 정보의 근간이 되는 문헌정보를 함께 제공하고 있어 그 신뢰성이 매우 높다 하겠다.


HGMD tutorial


Expanded Search Engine : 최신의 데이터를 사용자 편의에 의한 주제 중심의 인터페이스로 제공하고 있다. 키워드 방식을 이용한 특정 유전자, 질병의 상태, 변이정보, 문헌정보를 통한 검색이 가능하며 알파벳 인덱싱을 통한 검색도 가능하다.


 

사용자 삽입 이미지

 Figure 2. HGMD advance search. 유전자명, 질병, 변이정보 등을 이용한 keyword 검색이 가능하다. 또한 특정 chromosome내에 존재하는 변이정보를 한 번에 검색 할 수도 있다.


또한 특정 chromosome 내에 존재 하는 모든 변이정보를 한 번에 확인 할 수 도 있으며 이들 정보는 모두 다운 로드 기능을 통해 local PC에 저장이 가능하여 필요할 때 언제든지 활용이 가능 하다(Figure 2).


키워드 검색을 통한 유전자 검색의 경우 Figure 3에서 보여 지는 것과 같이 관련 유전자에서 동반 되는 모든 변이 정보를 확인할 수 있다. Splicing에 의한 변이정보, small deletion, small insertion 그리고 SNP에 의한 정보도 함께 검색 할 수 있다. 또한 transcription factor 정보도 링크되어 다양한 원인에 의해 유발되는 유전적 질환의 생화학적 정보를 통합적으로 확인 할 수 있다.


사용자 삽입 이미지

Figure 3. 유전자 검색. 유전자 검색을 통한 다양한 변이 정보 및 질병의 병변, 유전체상의 위치정보, 유전자 발현 조절 정보를 확인 할 수 있다.


Biochemical information : Human의 변이 정보는 구분된 카테고리 정보에서 keyword로 검색이 가능하며 이들의 정보는 이후 모두 다운로드가 가능하다. 질병의 phenotype을 비롯한 유전체 상의 위치 정보, dbSNP와 같은 기존 참조 데이터베이스의 정보, motif, regulation, 참조 문헌 정보까지 한 번에 확인할 수 있다.


사용자 삽입 이미지

Figure 4. 변이 정보 검색 결과. 유전적 변이에 의한 DNA서열의 변화, 단백질 서열 변이, 참조 데이터베이스, phenotype, gene ontology, 참조 문헌 정보를 모두 다운 받을 수 있다.


Personal genomics 시대에 가장 필수적인 데이터베이스중 하나인 Biobase HGMD는 개인의 잠재적인 유전적 질환의 탐색부터 현재 발병중인 질환에 대한 치료 연구를 위해 많은 기초 데이터를 제공할 것으로 여겨진다. 많은 논문과 데이터베이스를 집대성하여 유전적 질환의 통합적 정보를 제공하고 있는 HGMD는 앞으로 더 많은 연구자들에게 도움이 될 것이다.






Posted by 人Co

2010/05/13 19:17 2010/05/13 19:17

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.



3-3. Semantic Network for Integrated Biology Data

 
 여있는 유전체 데이터와 각종 실험을 통해서 얻어진 수많은 데이터 사이에서 새롭게 응용할 수 있는 지식은 무엇일까? 인터넷이 발달된 최근에는 인터넷 쇼핑이 괄목할 만한 성장을 보이고 있으며, 고객들에게 좀 더 좋은 정보를 제공하고자 다양한 알고리즘 및 분석기법을 적용하고 있다. 예를 들어서 상품을 주문한 고객의 구매 목록에 대한 특징을 찾아서 비슷한 성향의 신제품이 있으면 자동으로 고객에게 이메일로 상품광고를 전달하는 것과 같은 맞춤형 광고기법이 한 예일 것이다.

이와 맞물려 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 방법을 찾고자 하는 연구들이 진행되고 있으며, 이와 관련한 의미론적 지식 정보 추출을 위한 시스템이 개발되고 있다. 또한 최근의 연구 동향은 단순히 데이터를 생성하고 쌓아두는 것 보다 각 생물학 데이터들의 연관관계를 도출하여 어떻게 각 데이터들을 연결하여 새로운 정보를 발굴할 것인가라는 ‘How to link between the data’에 초점이 맞추어져 있다.

축적된 생물학 데이터에서 새로운 의미를 발굴할 수 있도록 지원하는 시스템 가운데 Biomax Informatics AG사 BioXM 지식관리 시스템을 꼽을 수 있다. BioXM 은 연구실 및 센터의 다양한 생물, 생명, 의학 관련 데이터에서 의미론적 정보를 추출할 수 있도록 데이터의 시맨틱 네트워크를 구축하는 플랫폼이다(그림 2).

사용자 삽입 이미지
그림 2. 데이터의 시멘틱 네트워크 흐름도

이미 미국 국립암센터(NCI)와 연계하여 시스템을 운용, 활용하여 암에 관련된 실험정보 및 분석정보, 문헌정보를 통합한 시스템을 구축한 바 있다(그림 3).

사용자 삽입 이미지
그림 3. BioXM의 데이터 통합 개념

이와 같은 지식관리 시스템은 기존에 구축한 수많은 실험정보, 분석정보, 문헌정보들 사이의 연관관계를 도출하여 새로운 의미를 찾고자 하는 바램을 충족시켜준다. 대다수의 시스템들이 RDBMS 형식의 데이터베이스로 구축되어 있으므로, 모든 데이터의 통합에 의한 새로운 형태의 의미를 발굴하기 위해서는 기존 시스템보다 더 확장된 형태의 데이터베이스 구축 및 IT 시스템 구축이 선행되어진다. 하지만 이와 같이 단순히 시스템의 확장 구축을 통해서는 얻어질 수 있는 데이터의 유기적 연관관계는 한계를 보이게 된다. 또한 데이터베이스의 확장이 진행될수록 생물학자들의 지식이 더 많이 요구되지만 IT와 BT 전문가의 상호 생각의 차이로 인해 최종적으로는 생물학자들이 원하는 형태가 아닌 별개의 시스템으로 구축되는 경우가 다반사이다. 이에 반해 BioXM 지식관리 시스템은 기존 데이터들을 새로운 데이터베이스 스키마를 설계하여 통합 연계하는 것이 아니라 각 생물학 데이터의 기존 의미를 알고 있는 연구자가 퍼즐을 맞춰가는 방식과 같이 edge와 node의 꼬리에 꼬리를 무는 방식으로 데이터들을 선택하여 서로 연계된 데이터들을 통합하고 관리하는 지식관리시스템이다. 이와 같은 방식으로 BioXM은 Genomics, Transcriptomics, Proteomics 등 다양한 omics 데이터들과 문헌정보 등을 손쉽게 통합할 수 있을 뿐만 아니라 다양한 방법으로 데이터를 조합하여 연구자가 알고자 원하는 질문에 알맞은 답을 얻도록 지원한다.

사용자 삽입 이미지
그림 4. Object와 Relation에 대한 개략적인 데이터 모델


그림 5는 환자에 관한 질병과 질병에 관련된 유전자와 대상 약물 및 임상실험과 같은 다양한 정보를 이용하여 그래픽 사용자 인터페이스 형태로 모델링을 구현한 사례를 보이고 있다. 지금 그림에서 보이고 있는 데이터 이외에 다양한 정보가 있을 경우에도 동일한 방법으로 모델링을 구현하여 좀 더 폭넓은 데이터 연관 관계도를 생성할 수 있다.

사용자 삽입 이미지
그림 5. BioXM 데이터 모델링 구현


BioXM 지식관리 시스템의 특징 및 장단점은 표 1과 같다.

사용자 삽입 이미지
암을 연구하는 연구자들은 자신이 가지고 있는 데이터를 이용하여 다음과 같은 다양한 궁금증을 표현할 수 있으며, BioMax사의 BioXM과 같은 시스템을 이용하여 각 데이터들의 네트워크를 구축하면 궁금증에 대한 답변을 얻을 수 있을 것이다. 이와 같은 지식 발굴 시스템은 다음과 같은 문제점을 해결하는데 도움을 줄 수 있다(그림 6).

사용자 삽입 이미지
사용자 삽입 이미지
그림 6. BioXM 시스템을 이용한 지식 네비게이션


다음 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다. 많은 관심 부탁드립니다.



Posted by 人Co

2010/04/01 15:00 2010/04/01 15:00