[구버전] 人Co BLOG

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅳ- Gene Network Discovery by Text-mining

Posted at 2010/04/05 15:44
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다.

3-4. Gene Network Discovery by Text-mining

최근의 생물학 연구의 이슈는 데이터를 생산하는 것보다 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 부분에 있다. 즉 데이터의 ‘생산’에서 ‘연결’로 생물정보학의 관점이 옮겨가고 있다고 할 수 있다. 따라서 다양한 분야의 실험데이터, 문헌데이터, 공개데이터 등을 네트워크 형식으로 연결하여 새로운 지식을 발굴할 수 있는 시스템이 주목받고 있다.

현재 NCBI의 PubMed에는 18,000,000건 이상의 논문들이 수록되어 있으며, 하루에도 수 십편의 논문들이 새롭게 업데이트되고 있다. PubMed에 수록되어 있는 저널들은 의학, 생명, 생물에 관련된 연구 논문들이며, 오랜 기간에 걸쳐 저널의 정보에 대한 공신력이 검증된 논문들이라고 할 수 있다. 따라서 연구자가 새로운 주제를 기반으로 하여 연구를 시작하고자 할 경우, 가장 선행되어져야 하는 것은 논문 리뷰라고 할 수 있다. 다른 사람이 비슷한 연구를 수행한 경험이 있는지, 어떠한 방법에 의해서 연구가 진행되었는지, 또한 그 결과는 어떠하였는지 등을 참조하게 된다. 이와 같은 논문 리뷰가 선행된 후 자신의 연구 방향을 설정하게 된다. 그만큼 다른 사람에 의해서 분석되어진 연구 정보가 최근 들어서는 상당히 중요하다고 할 수 있다. 더구나, 최근에는 인터넷을 이용한 데이터의 정보교환이 활발하여 엄청나게 많은 문헌 정보들을 손쉽게 찾아볼 수 있기 때문에 일정한 부분에서는 직접 실험을 하지 않더라도 그와 유사한 실험을 수행한 결과물을 얻을 수 있다. 따라서 이와 같은 문헌 정보의 모래 언덕을 잘 살펴서 보물을 찾아낼 수 있는 방법들이 주목을 받고 있다.

한 예로 Ariadne사의 MedScan과 Pathway Studio는 텍스트 마이닝이라는 컴퓨터 알고리즘을 이용하여 주어진 문헌 정보에서 유전자와 질병, 화학물질, 세포내 프로세스, 대사회로와 같은 엔티티(Entity)들의 관계를 자동으로 추출하여 테이블과 다양한 그래프로 관계들을 보여주는 프로그램으로 대사회로, 유전자 조절 네트워크, 단백질 상호작용 맵과 같은 실험결과를 이해하는데 상당히 유용하다(그림 7). Pathway Studio는 척추동물, 식물 연구의 생물학적 연관관계, ontology와 pathway들의 정보를 포함하고 있는 ResNet 데이터베이스와 자연언어처리기술을 이용하여 과학문헌을 자동으로 읽고 생물학적인 관계를 추출하는 기능을 가진 MedScan으로 구성되어 있다. MedScan의 경우에는 약 1천개의 논문 초록을 대상으로 생물학적인 관계를 추출하는데 2~3분밖에 걸리지 않으므로, 대량의 수집된 논문에서 특정한 바이오마커를 발굴하거나 특정 단백질 또는 질병과 관련된 네트워크 정보를 검토하기에는 상당히 유용하다고 할 수 있다.

보통 하나의 유전자와 관계하는 다양한 정보를 찾아보기 위해서는 수많은 데이터베이스와 문헌, 웹사이트를 검색하여 그 연관관계를 하나씩 도출해야 되지만, Pathway Studio와 같은 프로그램은 그와 같은 일련의 시간과 노동력이 상당히 투자되어야 하는 업무를 효율적으로 지원함으로써 연구자의 보다 빠르고 충실한 결과물을 얻을 수 있도록 지원한다.

그림 7. Architecture of MedScan and Pathway Studio

그림 8은 Cholestasis에 관련된 약물과 단백질 등의 연관관계를 Pathway Studio를 이용하여 연구자가 쉽게 이해할 수 있는 방식의 그래프로 재구성한 것이다. 이와 같은 방법으로 복잡한 질병과 약물, 단백질 및 대사 작용의 네트워크를 시각적으로 이해하기 쉽게 제공하고 있다.

그림 8. Pathway Studio workflow diagram

그림 9는 EMB라는 유전자를 대상으로 관련 있는 다양한 유전자 및 질병, 약물, 세포내 프로세스 등을 연결한 그래프로서 연결되어있는 라인을 클릭하면 그림과 같이 연관관계를 표현하는 문헌정보를 확인할 수 있어 연관관계의 정확성 및 신뢰성을 뒷받침하고 있다.

그림 9. Entity와 Relation의 네트워크 및 관련 문헌의 확인

그림 10은 PubMed에서 Curcumin과 Prostate Cancer에 관련된 논문을 검색하여 수집된 수 십 여 편의 논문에서 MedScan의 텍스트 마이닝 알고리즘을 이용하여 네트워크를 재구성한 것이다. 그림에서 보는 것과 같이 Curcumin과 Prostate Cancer 사이에 있는 단백질이 Prostate Cancer를 억제하는 역할을 한다는 정보를 검증된 문헌을 통해서 확인하는 것이다.

그림 10. MedScan을 통한 문헌정보의 네트워크 구성

다음 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.

Posted by 人Co

Tag: Ariadne, EMB, Entity, insilicogen, MedScan, NCBI, Network, NGS, Ontology, Pathway Studio, PubMed, Relation, ResNet, Text-mining, 문헌, 바이오마커, 엔티티, 인실리코젠, 자연언어처리기술, 텍스트 마이닝
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/67

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅲ- Semantic Network for Integrated Biology Data

Posted at 2010/04/01 15:00
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.

3-3. Semantic Network for Integrated Biology Data

쌓여있는 유전체 데이터와 각종 실험을 통해서 얻어진 수많은 데이터 사이에서 새롭게 응용할 수 있는 지식은 무엇일까? 인터넷이 발달된 최근에는 인터넷 쇼핑이 괄목할 만한 성장을 보이고 있으며, 고객들에게 좀 더 좋은 정보를 제공하고자 다양한 알고리즘 및 분석기법을 적용하고 있다. 예를 들어서 상품을 주문한 고객의 구매 목록에 대한 특징을 찾아서 비슷한 성향의 신제품이 있으면 자동으로 고객에게 이메일로 상품광고를 전달하는 것과 같은 맞춤형 광고기법이 한 예일 것이다.

이와 맞물려 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 방법을 찾고자 하는 연구들이 진행되고 있으며, 이와 관련한 의미론적 지식 정보 추출을 위한 시스템이 개발되고 있다. 또한 최근의 연구 동향은 단순히 데이터를 생성하고 쌓아두는 것 보다 각 생물학 데이터들의 연관관계를 도출하여 어떻게 각 데이터들을 연결하여 새로운 정보를 발굴할 것인가라는 ‘How to link between the data’에 초점이 맞추어져 있다.

축적된 생물학 데이터에서 새로운 의미를 발굴할 수 있도록 지원하는 시스템 가운데 Biomax Informatics AG사 BioXM 지식관리 시스템을 꼽을 수 있다. BioXM 은 연구실 및 센터의 다양한 생물, 생명, 의학 관련 데이터에서 의미론적 정보를 추출할 수 있도록 데이터의 시맨틱 네트워크를 구축하는 플랫폼이다(그림 2).

그림 2. 데이터의 시멘틱 네트워크 흐름도

이미 미국 국립암센터(NCI)와 연계하여 시스템을 운용, 활용하여 암에 관련된 실험정보 및 분석정보, 문헌정보를 통합한 시스템을 구축한 바 있다(그림 3).

그림 3. BioXM의 데이터 통합 개념

이와 같은 지식관리 시스템은 기존에 구축한 수많은 실험정보, 분석정보, 문헌정보들 사이의 연관관계를 도출하여 새로운 의미를 찾고자 하는 바램을 충족시켜준다. 대다수의 시스템들이 RDBMS 형식의 데이터베이스로 구축되어 있으므로, 모든 데이터의 통합에 의한 새로운 형태의 의미를 발굴하기 위해서는 기존 시스템보다 더 확장된 형태의 데이터베이스 구축 및 IT 시스템 구축이 선행되어진다. 하지만 이와 같이 단순히 시스템의 확장 구축을 통해서는 얻어질 수 있는 데이터의 유기적 연관관계는 한계를 보이게 된다. 또한 데이터베이스의 확장이 진행될수록 생물학자들의 지식이 더 많이 요구되지만 IT와 BT 전문가의 상호 생각의 차이로 인해 최종적으로는 생물학자들이 원하는 형태가 아닌 별개의 시스템으로 구축되는 경우가 다반사이다. 이에 반해 BioXM 지식관리 시스템은 기존 데이터들을 새로운 데이터베이스 스키마를 설계하여 통합 연계하는 것이 아니라 각 생물학 데이터의 기존 의미를 알고 있는 연구자가 퍼즐을 맞춰가는 방식과 같이 edge와 node의 꼬리에 꼬리를 무는 방식으로 데이터들을 선택하여 서로 연계된 데이터들을 통합하고 관리하는 지식관리시스템이다. 이와 같은 방식으로 BioXM은 Genomics, Transcriptomics, Proteomics 등 다양한 omics 데이터들과 문헌정보 등을 손쉽게 통합할 수 있을 뿐만 아니라 다양한 방법으로 데이터를 조합하여 연구자가 알고자 원하는 질문에 알맞은 답을 얻도록 지원한다.

그림 4. Object와 Relation에 대한 개략적인 데이터 모델

그림 5는 환자에 관한 질병과 질병에 관련된 유전자와 대상 약물 및 임상실험과 같은 다양한 정보를 이용하여 그래픽 사용자 인터페이스 형태로 모델링을 구현한 사례를 보이고 있다. 지금 그림에서 보이고 있는 데이터 이외에 다양한 정보가 있을 경우에도 동일한 방법으로 모델링을 구현하여 좀 더 폭넓은 데이터 연관 관계도를 생성할 수 있다.

그림 5. BioXM 데이터 모델링 구현

BioXM 지식관리 시스템의 특징 및 장단점은 표 1과 같다.

암을 연구하는 연구자들은 자신이 가지고 있는 데이터를 이용하여 다음과 같은 다양한 궁금증을 표현할 수 있으며, BioMax사의 BioXM과 같은 시스템을 이용하여 각 데이터들의 네트워크를 구축하면 궁금증에 대한 답변을 얻을 수 있을 것이다. 이와 같은 지식 발굴 시스템은 다음과 같은 문제점을 해결하는데 도움을 줄 수 있다(그림 6).

그림 6. BioXM 시스템을 이용한 지식 네비게이션

다음 연재에서는 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

Posted by 人Co

Tag: BioXM, Genomics, insilicogen, NCI, Network, NGS, Object, omics, Proteomics, Relation, Smantic, Transcriptomics, 대사회로정보, 인실리코젠, 임상실험, 질병
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/66

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅱ- Data Management for Web 2.0 Era

Posted at 2010/03/30 14:53
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
5. Genome Annotation
   6. Next Generation Bioinformatics
7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.

3-2. Data Management for Web 2.0 Era

최근 들어 웹 2.0에 대한 논란이 뜨겁다. 비단 IT에서 뿐만 아니라 일상생활에서도 웹 2.0이라는 용어는 어렵지 않게 들을 수 있게 되었다. ‘O'Reilly Media’에서 2003년 처음 사용하기 시작하면서부터 대중화 된 웹 2.0에 대한 정의를 위키피디아에서는 이렇게 정의하고 있다. 단순한 웹사이트의 집합체를 웹 1.0으로 보고 있다면, 웹 2.0은 웹 애플리케이션을 제공하는 하나의 완전한 플랫폼으로의 발전이다(그림 1)[2].

그림 1. Web 2.0이란?

웹 2.0이 세상에 알려진 지 불과 몇 년 밖에 되지 않았으나, 이제는 누구나가 쉽게 웹 2.0 으로 구축된 사이트에 자신의 데이터를 올리거나 다른 사람의 데이터를 다운로드 받는 등 이전보다 능동적으로 웹을 활용하고 있다. 위키라는 개념으로 접근한 웹 2.0은 대영백과사전으로 알려져 있는 브리태니커 백과사전보다 더 많은 정보를 담고 있어 세계 최대의 백과사전으로 기네스북에 기록되어 있다. 2001년 1월 출범하여 2006년 12월에 기네스북에 인정되기까지 불과 6년의 짧은 기간에 엄청난 정보가 모이게 된 가장 큰 원동력은 웹 2.0 시대에 맞춰 운영자가 절대 개입하지 않는다는 원칙하에 모든 방문자가 스스로 글을 읽고 쓸 수 있게 한 것이다. 정보의 양을 기준으로 한다면 다양한 사람들이 생산하는 데이터가 한 명이 작성한 글보다 훨씬 클 수 있으며, 다양한 사람들에 의해서 읽혀지고 수정되어 보다 정확한 정보들로 탈바꿈할 수 있다는 것이다.

(주)인실리코젠에서는 웹 2.0 시대에 맞추어 위키 시스템을 활용한 홈페이지 형식의 지식관리시스템을 재구성하였다. 이를 이용하여 프로젝트 단위의 연구에서 공동 연구자들 사이의 데이터 공유 또는 미팅과 관련된 로그 관리 등을 효율적으로 운영하고 있다. 개별 연구자들이 각자 분석업무를 업로드하고 관련 연구자들이 업데이트된 데이터를 다운로드 받거나 웹상에서 오류나 문제점을 수정, 지적하여 최종적으로는 다양한 연구 전문가 그룹에 의한 완성된 연구 결과를 도출하는 방식을 취하고 있다. 이와 같은 방식의 연구 관리는 데이터가 실험실에 존재하는 것이 아니라 웹상에 존재하면서, 인터넷만 연결된 환경에서는 장소, 시간에 관계없이 공통의 주제를 가지고 분석 업무를 수행하고 데이터를 보완 할 수 있다는 장점이 있다. 한 사람의 불완전한 지식에서 시작하여 공동 연구자 또는 다른 전문가의 지식을 포함하여 완전한 지식을 유도하는 방향을 추구하고 있는 것이다.

이처럼 다양한 분야의 생물학 영역에서도 웹 2.0의 장점을 백분 발휘하여 데이터를 축적하고, 보완하고, 관리하는 흐름을 엿볼 수 있다. 최근에는 웹 2.0의 장점에 덧붙여서 다양한 분야에서 생산된 데이터를 어떻게 의미론적으로 재분류할 수 있는가에 보다 많은 관심이 집중되고 있다. 기존에 존재하는 지식 자원을 연구자가 검색, 통합 및 관리하기 편리하도록 의미기반 온톨로지 사이트로 구축하는 것이다. 그리하여, 최근의 많은 포탈검색사이트에서 입력된 검색어에 관한 다양한 관련 정보를 추출하여 보여주는 의미론적 검색 방법을 개발하였으며, 한국인들이 가장 많이 검색하는 네이버에서도 의미검색사이트를 개발하여 서비스하고 있다.

다음 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.

많은 관심 부탁드립니다.

참고문헌

2. http://ko.wikipedia.org/wiki/Web2.0

Posted by 人Co

Tag: Bioinformatics, NGS, 웹 2.0, 위키, 위키피디아, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/65

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅰ - Next Generation Bioinformatics

Posted at 2010/03/29 17:30
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학인 'Next Generation Bioinformatics'에 대해 알아보겠습니다.

3-1. Next Generation Bioinformatics

Applied Biosystems, Illumina 그리고 Roche 등과 같은 분석장비 개발회사에서 출시한 Next Generation Sequencers의 출현으로 전통적인 유전체 데이터 분석법에 새로운 변화와 도전이 요구되고 있다. 이러한 Sequencer들은 전에는 생각할 수 없었던 많은 양의 시퀀스 데이터를 쏟아내고 있고 이것은 생물정보학과 전산 생물학에 다양한 변화와 혁신을 초래하였다.

Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학, 즉 ‘Next Generation Bioinformatics’에 대한 준비를 해야 할 것이다. NGS 데이터를 다룰 수 있는 충분한 저장장치, 관리 솔루션 그리고 생물정보학 분석 파이프라인 구축이 성공적인 NGS 연구에 필수적인 요소이다.

현재 대다수의 생물정보학 전문가들은 생물학자들이 다루기 힘든 커맨드 라인 방식의 데이터 처리로 실험 연구자들과의 분석 결과 검토를 위한 자료를 따로 작성하고 있다. 이는 생물학 데이터가 NGS의 도입에 의해 폭발적으로 증가된 상황에서는 매우 소모적인 것으로 실험 연구자들이 쉽게 분석결과를 검토하고 판별할 수 있는 플랫폼 개발이 요구되며, 직관적이거나 그래픽 사용자 인터페이스에 대한 요구를 좀 더 다양하게 충족시켜야 함을 나타낸다. 뿐만 아니라 대부분의 초기 분석이 리눅스와 같은 유닉스 환경에서 이뤄지고 있고, 생물학적 의미론을 분석하는 단계에서는 대부분 실험 연구자들이 이용하는 윈도우 환경에서 이뤄지므로 이들 간의 유기적인 데이터 교류를 위한 포맷 변화도 필요한 실정이다. 따라서 운영체제에 상관없이 NGS 데이터를 분석할 수 있으며, 서로 다른 운영체제에서도 데이터를 자유롭게 입출력을 할 수 있는 시스템 마련이 필요하다. 또한 공동 연구 및 컨소시엄을 통한 분석 방법이 늘어나는 추세이므로, 분석 데이터를 공동으로 관리할 수 있는 데이터베이스의 구성, 분석 프로그램의 표준화 및 정규화 그리고 많은 프로그램들을 연계한 효율적인 데이터 분석 파이프라인 구축 또한 요구된다.

앞으로 NGS 데이터는 임상 진단과 개인 맞춤 의약 연구에 직접적으로 이용되어질 전망이다. 이에 앞서 언급된 차세대 생물정보학에 대한 다양한 요구들이 쏟아질 것이다. 이러한 문제들이 해결되지 않는다면 조만간 생물정보학이 생물학 관련 연구에 큰 걸림돌이 될 수 있을 것이다[1].

다음 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Kwok-Wing Stephen Tsui (2009) Next Generation DNA Sequencing and Bioinformatics: Bottlenecks and Opportunities. The Third International Symposium on Optimization and Systems Biology

Posted by 人Co

Tag: Applied Biosystems, Bioinformatics, Illumina, insilicogen, NGS, Roche, Sequencer, 웹 2.0, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/64

[Quipu Issue Paper] Genome Annotation Ⅶ - Professional Curation

Posted at 2010/03/26 09:59
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재는 Genome Annotation의 마지막 내용으로 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional Curation에 대해 알아보겠습니다.

2-4-3. Professional Curation

A. 상동성 기반의 Annotation 수정

수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이 발생한다. 따라서 이러한 부분은 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거쳐 최종적인 유전체 분석을 수행하게 된다. 분석 가능한 소프트웨어로는 Apollo[2] 와 Pedant-Pro가 있다. Apollo는 오픈 소스로 제공되며, Berkeley Drosophila Project 수행을 위해 Sanger Institute에서 개발하였다.

유전자의 구조 정보를 편집하기 위한 프로그램으로 evidence 데이터의 alignment 정보와 structural annotation 결과 형성된 Consensus Gene Model 정보를 같이 보며 수정 작업을 수행 한다(그림 12).

그림 12. Apollo. Consensus gene model의 정확성을 manually curation 한다. 유전자의 길이, 위치를 직접 편집하면서 가능한 AS form과 유전자 모델을 만들며, 이를 다시 xml혹은 GFF 형태로 저장하여 genome browser에 이용할 수 있도록 하였다.

입력 포맷으로 GFF3, Ensemble, XML 형식이 가능하며 Chado 데이터베이스로부터 직접 데이터를 읽어 들일수도 있다. 또한 삽입(Insertion), 삭제(Deletion), 확장(Extension), 분리(Split), 결합(Merge), 이동 그리고 변환(Replacement) 등 가능한 모든 유연한 편집 모드를 이용하여 유전자의 구조 정보를 편집할 수 있다. 또한 편집 시 필요한 주석 태그를 덧붙일 수 있는 것 또한 장점이라 할 수 있다.

B. 기능 분석 결과의 수정(functional annotation)

서열 상동성 및 도메인 정보를 통해 분석되어진 유전자의 기능 정보에서 전문가의 분석에 의존하여 알고리즘에 의한 오류를 수정하거나 분석 정보를 편집, 수정할 수 있다. 이전 페이지에서 언급한 Pedant-Pro에서는 이와 같은 전문가의 수정 기능과 수정된 정보의 업데이트 기능을 지원하고 있어서 최종적으로 가장 정확한 유전체 분석 정보를 얻을 수 있다(그림 13). 수치상 상동성이 높은 단백질로 유전자 매핑이 이루어져야 하므로 발현 정보, 도메인 정보 등을 종합하여 단백질의 기능을 수정해야 할 때 이용하게 된다. 이러한 작업은 대부분 생물학적 지식을 갖춘 다수의 전문가들에 의해 진행되게 된다. 따라서 전문가에 의한 기능 분석 수정에 대한 이력 정보를 관리하는 것 또한 중요하다고 할 수 있다.

그림 13. Pedant-pro annotaton edition

다음주 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하는 Bioinformatics Knowledge Management에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external
sources. BMC Bioinformatics. 7, 62.
5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78-94.
6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using
EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
967–974.
15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

Tag: alignment, Apollo, Curation, Gene Model, Genome Annotation, GFF3, Iisilicogen, NGS, Pedant-Pro, Sanger Institute, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/63

[Quipu Issue Paper] Genome Annotation Ⅵ - Functional annotation(비교유전체 분석)

Posted at 2010/03/24 10:32
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석에 대해 알아보겠습니다.

B. 비교유전체 분석

서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석의 가장 기본적인 분석은 ortholog 분석이다. Ortholog란 한 개체가 진화되어 여러 종으로 분화되었을 때, 유전자의 기능이 그대로 보존되어 서로 유사한 기능을 수행하는 것을 의미한다. 미생물의 경우 단순 ortholog 분석에서 확장되어 오페론 단위의 유전자 그룹을 유전체 상의 위치 정보와 함께 분석하는 Positional linkage 방법이 매우 정확하게 분석되고 있다(그림 10).

그림 10. Positional linkage. 미생물의 경우 보통 operon상에서 유사한 기능을 수행하는 단백질들끼리 서로 이웃하여 존재하므로 이를 positional linkage를 통해 정보를 확인한다.

진화론적인 연관관계 분석 시 이웃하고 있는 유전자의 배열과 조성을 통해 종간 변이 단계를 분석하게 된다. 좀 더 나아가 특정 ortholog 그룹의 유전자들의 존재 유무를 다수의 종에서 분석하여 프로파일링을 수행하고 그 프로파일을 이용하여 유연관계를 밝히는 phylogenetic 프로파일링 기법도 최근 매우 정확히 유전자의 기능을 예측하는 알고리즘으로 알려지고 있다. 비슷한 단백질 프로파일을 갖는 것은 비슷한 기능을 갖는다는 의미를 보여주기 때문에 유전자 기능 분석 시 이용되고 있다(그림 11).

그림 11. Phylogenetic 프로파일링

다음 연재에서는 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이 발생한다. 이러한 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional Curation에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external
sources. BMC Bioinformatics. 7, 62.
5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78-94.
6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using
EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
967–974.
15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

Tag: Curation, Genome Annotation, insilicogen, NGS, operon, Ortholog, phylogenetic, Positional linkage, 인실리코젠, 진화
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/62

[Quipu Issue Paper] Genome Annotation Ⅴ- Functional annotation(상동성 기반의 Annotation)

Posted at 2010/03/22 11:19
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자의 기능을 분석하는 Functional annotation 중에 먼저 상동성 기반의 Annotation에 대해 알아보겠습니다.

2-4-2. Functional annotation

A. 상동성(homology) 기반의 Annotation

유전체 서열에서 유전자의 위치와 구조 정보를 파악하여 유전자의 서열을 분석한 뒤 그 서열 정보를 통해 유전자의 기능을 유추 한다. 가장 보편적으로 유전자의 기능을 분석하는 방법이 상동성 기반의 분석이다. 다만, 상동성 분석에 기반한 유전자 기능 유추 시 사용되는 데이터베이스에 따라 노이즈 발생률이 차이가 나므로 데이터베이스 구축에 많은 노력을 기우려야 한다. 분석하려고 하는 종과 동일한 종의 단백질 서열을 1차 데이터베이스로 구축하고 다음으로 유연 관계가 가까운 종을 대상으로 2차 데이터베이스를 만드는 피라미드 형태의 데이터베이스 구축이 필요하다. 또한 각 데이터베이스에 맞는 상동성 경계 값(cutoff) 조정이 필요하다. 단백질 수준에서의 상동성은 보통 높게는 1e-200에서 낮게는 1e-4 까지 적절한 수준으로 조정을 하게 된다. 그러나 DAN 수준에서의 상동성은 아무리 높은 e-value 경계 값이라도 신뢰할만한 정보가 되지 않는다고 말한다. 따라서 e-value 뿐만 아니라 identity, HSP coverage 등이 상동성 레벨을 정하는 기준이 되기도 한다.

분석에 이용되는 데이터베이스는 그 특성에 따라 약간의 차이가 있다(표 1). 단백질의 기능 규명을 위해 단백질의 1차 구조인 서열 정보부터 2차 구조정보인 도메인 정보, 3차 구조정보에 해당하는 PDB 정보 등 다양한 데이터베이스가 이용된다. 뿐만 아니라 세포내 위치 정보를 통해 기능을 유추하기도 하므로 세포내 위치 정보까지 가능한 모든 정보를 분석할 수 있는 흡사 유전자 기능 백화점과 같은 유전자 기능에 대한 정보 분석이 요구된다. 이러한 통합적인 유전자 기능 분석을 수행하기 위해서는 다양한 알고리즘과 데이터베이스, 분석 프로그램들의 유기적인 네트워크가 구축되어야 하며, 수많은 데이터의 입출력이 이루어지므로 데이터의 효율적인 관리를 위한 시스템도 연계되어야 되므로 상당히 복잡한 대규모 분석 시스템이 요구된다. BioMax사에서는 초기 인간 유전체 기능 분석부터 수백 종의 미생물, 다양한 척추동물, 식물 등의 기능 분석을 수행한 Pedant-Pro(http://www.biomax.com/products/pedantpro.php)라는 유전체 구조, 기능 분석 자동화 시스템을 서비스하고 있다.

Pedant-Pro에서는 크게 세 가지 카테고리로 구성된 데이터베이스를 통해 단백질의 기능을 규명하고 있다. 첫 번째, 단백질의 1차 구조인 서열정보를 이용한 분석으로 GO, MetaCat, FunCat, EC, COGs 데이터베이스를 활용한다(표 2).

단백질의 기능 분석은 DAG 구조를 이용한 계층화 방법으로 다중 기능을 수행하는 단백질의 특성에 맞게 GO와 FunCat을 이용하고 있으며, 그 중 MetaCat은 metabolization 분석에 이용되며 EC는 단백질의 enzymatic function에 각각 초점을 두어 이차적인 세포내 대사회로 분석의 기초자료를 제공하고 있다. COGs는 종간의 ortholog 그룹 정보를 데이터베이스로 구축한 것으로 유사 기능을 갖는 단백질들을 그룹화하여 기능을 유추하는데 도움을 주고 있다. 두 번째로는 단백질의 이차구조정보를 이용한 분석이다. 단백질의 hydrophobicity에 기반을 둔 transmembrane helice 및 site prediction을 수행하는 HMMTOP, TMHMM 그리고 단백질의 signal peptides 및 cleavage site를 예측하는 SignalP 분석이 이에 해당된다.

그림 8. Pedant-Pro 유전자 기능 분석 결과 리포트.

Pedant-Pro의 유전자 구조, 기능 분석 리포트는 웹으로 확인할 수 있으며, 윈도우 방식의 디렉토리/폴더 구조로 각 분석 결과들이 구성되어 있으므로, 연구자가 쉽게 다양한 정보를 습득할 수 있다. 분석 결과 리포트는 다양한 공개 데이터베이스와의 연계 정보와 단백질의 도메인 정보, FunCat과 같은 기능 분류 정보등과 같은 다양한 특징적인 정보들을 볼 수 있다. 또한 단백질의 1차, 2차, 3차 구조에 대한 정보와 단백질의 Paralog 클러스터 정보 등을 확인할 수 있다.

단백질의 서열 정보에 기반하여 얻어진 단백질 내의 도메인 정보는 프로파일 과정을 통해 서로 비슷한 도메인 프로파일을 갖는 단백질들 간의 클러스터 분석에 이용된다. 단순 서열 상동성에서 벗어나 좀 더 구체화된 기능을 중심으로 유전자의 기능을 유추하는 방법을 Pedant-Pro에서 제시하고 있다(그림 9). 유사한 방법으로 synteny 구조를 이용한 ortholog 분석이 있다. 유연관계가 가까운 종과의 synteny 분석을 이용해 유전자의 기능 뿐 아니라 염색체 내의 물리적 위치정보까지 이용하여 유전자의 기능을 규명하게 된다. 이들 방법들은 종간 ortholog 분석에 기초한 비교유전체 분야에 주로 이용되며 그 자세한 내용은 다음에서 다루도록 한다.

그림 9. 도메인 profile을 이용한 protein cluster 분석

다음 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

Posted by 人Co

Tag: annotation, biomax, COG, FunCat, GO, homology, insilicogen, MetaCat, NGS, PDB, Pedant-Pro, Pfam, Uniprot, 단백질, 비교유전체, 상동성, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/61

[Quipu Issue Paper] Genome Annotation Ⅳ- 유전체 모델 결합(Gene model merging)

Posted at 2010/03/19 10:24
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene Model을 결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다.

B-3. 유전체 모델의 결합(Gene model merging)

앞서 설명한 유전자 예측 프로그램을 통해서 얻어진 Predicted Gene Model(PGM)과 mRNA, EST, 단백질 서열을 유전체에 매핑하여 얻어진 Evidenced Gene Model(EGM)을 합쳐 Consensus Gene Model(CGM)을 만든다. 각 유전자 모델마다 가중치를 다르게 설정하여 동일한 위치에서 중복적으로 지지를 받아 높은 score 합계를 갖는 유전자 모델이 CGM으로 채택이 된다[3].

일반적으로 EGM이 PGM 보다 높은 가중치를 가지며 EGM 가운데에서도 full-length mRNA > protein> mRNA > EST 순으로 우선 순위를 배정한다. PGM도 evaluation을 통해 프로그램별 우선순위를 정해주기도 한다. CGM을 만드는 과정은 full-length mRNA를 가장 우선 순위로 채택하되, full-length mRNA가 없을 경우 단백질과 EST, PGM이 제공하는 정보를 통해 complete CGM을 형성한다(그림 5).

그림 5. Consensus Gene Model making

몇 가지 예시를 통해 대표 되는 유전자 모델 형성 과정을 알아보도록 하자.
첫 번째 full-length mRNA를 통해 얻어진 EGM이 partial 단백질과 ESTs에 의해 공통적으로 exon/intron 정보를 제공 받아 complete CGM을 형성하였다(그림 6의 case1). 다음은 mRNA EGM이 없고 단백질 EGM이 가장 높은 가중치를 갖는 유전자 모델이 되어 EST 가 제공하는 3’ 정보를 통해 complete CGM을 형성한 경우 이다. 이때 EST EGM은 단백질 EGM의 partial 형태로 동일한 exon/intron 구조를 보이고 있다. 세 번째는 mRNA, 단백질 모두 존재하지 않고 partial ESTs EGM 만 존재할 때 EST EGM 하나 하나는 모두 낮은 가중치이나 동일한 위치에서 동일한 exon/intron 구조로 여러 ESTs EGM이 지지하고 있으므로 CGM을 형성할 수 있다. 또한 일정부분 동일한 유전자 구조를 갖는 PGM으로부터 3’ 정보를 제공 받아 complete CGM을 형성하였다. 마지막 네 번째 경우 세 번째 경우와 동일하게 PGM과 EST EGM이 존재하는 가운데 두 gene model이 서로 상이한 exon/intron구조를 보이고 있어 어떠한 CGM도 만들 수 없는 상황을 보여주고 있다. 만약 PGM 만이 존재할 경우라도 여러 프로그램을 통해 얻어진 PGM이 모두 동일한 exon/intron 구조를 갖는다면 CGM을 형성 할 수 있다. 대부분의 genome annotation에서 evidence 데이터를 충분히 갖추고 진행되기란 쉽지 않다. 따라서 종종 Evidenced Gene Model(EGM) 없이 Predicted Gene Model(PGM) 만으로 Consensus Gene Model(CGM)을 만드는 경우가 존재한다.

그림 6. Consensus gene model 만들기

이러한 유전자 모델을 형성하는 프로그램으로는 Tigr에서 공개 소스로 제공하는 EVModeler[9]가 있다. Perl 스크립트로 구성된 프로그램은 GFF3 포맷의 gene model 정보를 입력받아 정해진 gene model별 가중치를 토대로 Consensus Gene Model을 제시한다.

C. Alternative splicing analysis

다양한 유전자 모델을 통해 Consensus Gene Model을 형성하고 나면 이후 alternative splicing 분석을 위해 transcripts를 분석한다[12]. mRNA, ESTs, 단백질, NGS reads 서열이 제공하는 다양한 transcripts를 consensus gene model (CGM)에 비교하여 alternative transcript model을 제시 한다. 이후 조직 특이적인 alternative transcripts나 cancer specific alternative transcripts 분석으로 biological meaning에 초점을 두고 분석을 진행하게 된다[3].

그림 7. Alternative splicing 분석

다음 연재에서는 유전자의 기능을 분석하는 방법 중에 먼저 상동성 기반의 Annotation에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

Posted by 人Co

Tag: Alternative splicing, Consensus Gene Model, EST, Evidenced Gene Model, EVModeler, Gene model merging, GFF3, insilicogen, mRNA, NGS, Predicted Gene Model, Tigr, 유전자 예측, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/60

[Quipu Issue Paper] Genome Annotation Ⅲ- 유전체 정렬(Genome alignment)

Posted at 2010/03/17 09:31
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자 모델을 얻는 과정으로 서열 정보를 이용하여 유전체를 정렬(Genome alignment)하는 방법에 대해 알아보겠습니다.

B-2. 유전체 정렬(Genome alignment)

유전체 상에서 유전자의 위치 및 구조 정보를 파악하는데 가장 중요한 정보를 제공하는 것이 mRNA를 비롯한 실제 서열정보이다. 유전체 프로젝트를 수행하면서 Full-length mRNA 시퀀싱을 함께 진행하는 이유라고 할 수 있다. 그 외 단백질과 ESTs 서열도 유전자 구조 정보를 제공하는 좋은 재료이다[11]. 최대한 많은 양의 실제 데이터(evidence data)를 확보하여 유전체 서열과의 유사성(similarity)을 조사하고 그 위치를 파악한다. DNA 서열의 경우 BLAT[13], Sim4[14], GMAP[16], AAT[15]가 주로 이용되고, 단백질 서열의 경우 BLAST와 wise2 package에 존재하는 Genewise[17]를 이용한다. 유전체 서열이 매우 크므로 일차적으로 빠르게 매핑할 수 있는 BLAT이나 BLAST 등으로 대략의 위치를 설정하고 그 외 다른 프로그램을 이용하여 좀 더 정교한 2차 매핑을 수행하는 경우도 있다.

이때, 서열상의 유사성에 의해 유전자 모델(Evidenced Gene Model)이 결정되므로 HSP length, coverage, identity와 같은 파라미터 조건을 엄격하게 설정하여 정확한 Evidenced Gene Model(EGM)을 만드는 것이 일반적이다. 또한 언급한 대부분의 프로그램은 모두 exon/intron 신호를 인지하며 local alignment을 수행하고 있어 intron이 존재하는 유전체 서열에 매핑 하기에 모두 적절한 프로그램이다.

특히 genewise의 경우 매핑과 동시에 가능한 유전자 모델을 제시한다. 따라서 유전체 서열과 유연 관계가 가까운 이종의 단백질 서열을 매핑 하여도 좋은 결과를 얻을 수 있다. 다만, 이후 진행되는 consensus gene model을 만들 때 score를 적절히 조절 해야만 한다. 다양한 프로그램을 통해 얻어진 유전자 모델 정보는 모두 동일한 형태의 파일 포맷을 유지하는 것이 좋다. 대부분의 프로그램이 공통적으로 지원하는 파일 형태는 GFF3 포맷이다(그림 4).

그림. 4 GFF3 파일 포맷.
seqld/source(tool name)/type/start/end/score/strand/phase/attributes

다음 연재에서는 앞서 설명한 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene Model을 결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

Posted by 人Co

Tag: AAT, BLAST, BLAT, EGM, Evidenced Gene Model, exon, Genewise, Genome alignment, GFF3, GMAP, insilicogen, intron, NGS, Sim4, 유전체 정렬, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/59

[Quipu Issue Paper] Genome Annotation Ⅱ- 반복서열 분석, 유전자 모델링(유전자 예측)

Posted at 2010/03/16 10:56
Filed under 생물정보

연재 순서

A. 반복서열 분석

진핵생물의 유전체 서열 중 반복 서열이 가장 많은 영역을 차지하고 있다. Transposon elements를 포함하여 simple repeat region, low complexity 영역이 전체 유전체의 약 70~ 80% 가량 해당된다. 따라서 반복서열 영역을 우선적으로 선별한 뒤 마스킹 작업을 통해 반복서열 영역에서의 유전자 예측은 예외로 처리한다. 물론, 반복서열 영역 내에도 단백질로 코딩 되는 부분이 존재 하지만, 극히 일부에 해당하기 때문에 추후에 따로 수행한다. 반복서열의 마스킹 작업은 주로 RepeatMasker (http://www.repeatmasker.org/) 분석 프로그램을 이용하여 진행한다. RepeatMasker는 유사성 기반의 검색을 통해 반복서열 데이터베이스에 존재하는 서열과 비교하여 유전체 내에 존재하는 transposon element와 retrotransposon element, rolling circles를 추출하고, TRF(tandem repeat finder)라는 서브 프로그램에 의해 단순반복 서열을 규명한다. 이때 종별로 특이적인 패턴을 가지는 반복서열이 (http://www.girinst.org/) 존재하므로 주기적으로 최신의 반복서열 데이터베이스를 업데이트하여 분석하는 것이 좋다. 2009년 11월 현재 Human을 포함하여 모두 26종에 대한 반복서열 데이터베이스를 제공하고 있으며, 연구자가 원하는 형태의 데이터베이스를 따로 구성하여 사용할 수도 있다.

B. 유전자 모델링

단백질로 코딩되는 유전자의 위치를 결정하는 일차적인 단계로 일반적으로 Ab initio 방식과 매핑 방식을 결합하여 사용한다. 이는 수학적 알고리즘을 통해 유전자의 위치를 예측하는 유전자 예측 과정과 실제 시퀀싱하여 밝혀진 mRNA, ESTs, 단백질 서열을 유전체 서열에 매핑하여 유전자 모델을 얻는 과정으로 구성된다.

B-1. 유전자 예측

유전자 예측 과정은 대부분 HMM 모델을 이용하여 서열상의 exon과 intron을 예측한다. exon과 intron사이의 ‘GT-AG’라는 splice signal을 인식하고 프로모터 영역과 3’ signal을 인지하는 방식으로 예측을 수행한다. 각 종마다 유전자 모델이 다르므로 정확한 유전자 모델을 설정하고 트레이닝 과정을 통해 종 특이적인 매트릭스를 형성하여 유전자 예측을 수행한다. 이때 예측 프로그램에 따라 연구자가 직접 매트릭스를 생성할 수 있도록 트레이닝을 수행할 수 있는 프로그램을 지원하는 공개용 예측 프로그램(Augustus[4], SNAP[10], GlimmerHMM[7])과 유료로 매트릭스를 구축, 제공하는 유전자 예측 프로그램(Fgenesh[6]), 그리고 주기적으로 업데이트된 매트릭스를 제공하는 프로그램(GeneId[8])으로 구분할 수 있다. 이들 중에서 가장 많이 사용되는 Softberry사의 Fgenesh는 다른 예측 프로그램에 비해서 정확성 및 신뢰성이 높아 국제적인 유전체 프로젝트에서도 이용되고 있다. Fgenesh는 유전자 예측 프로그램에서 가장 핵심이 되는 매트릭스를 제작하여 유료로 서비스하고 있으며, 일반적으로 매트릭스를 제작하는데 약 한 달 정도 분석을 수행한다. 고객은 mRNA, EST, 단백질 서열을 유전체 서열에 매핑 작업을 통해 정확한 유전자 모델을 제공하게 되고, Softberry사에서는 고객이 제공한 데이터와 공개되어 있는 서열을 대상으로 해당 유전체의 대표적인 유전자 모델 집단을 만든 후 매트릭스를 제작하게 된다. 이때, 제작된 매트릭스의 evaluation 자료도 함께 제공한다. 이후 유전자 예측 과정은 리눅스 환경에서 매우 간단하고 빠르게 진행된다. 분석 결과 또한 그림 3에서 보여 지는 것과 같이 유전자별로 TSS(transcription start site), CDS, polyA 등으로 유전체상의 위치 정보와 방향 정보를 알기 쉬운 구조로 제공하고 있다.

그림 3. Fgenesh 분석 결과

공개용 예측 프로그램으로 EBI에서 개발한 GeneId와 고전적인 예측 프로그램인 GenScan, GlimmerHMM과 Augustus 등이 주로 이용된다. 이들 모두 유전자 예측 프로그램의 사용 시에는 간단한 명령어로 유전자 예측을 수행한다. Augustus의 경우 분석 속도가 다른 프로그램들에 비해 느린 단점이 있다. 유전자 예측은 일반적으로 하나의 프로그램만을 사용하지 않고 여러 개의 프로그램을 동시에 사용하여 여러 개의 유전자 예측 모델을 생성한다. 이 후 유전자의 엑손, 인트론 단위로 규정화 되어있는 scoring 방식을 통해 여러 프로그램에서 중복적으로 예측된 유전자 모델을 우선적으로 채택하게 된다. 이러한 scoring 방식은 뒷부분에서 자세히 다루도록 한다.

다음 연재에서는 서열 정보를 이용하여 유전체를 정렬(Genome alignment)하는 방법에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

Posted by 人Co

Tag: Ab initio, alignment, Augustus, exon, Fgenesh, GeneId, GenScan, GlimmerHMM, insilicogen, intron, NGS, RepeatMasker, SNAP, 반복서열 분석, 유전자 모델링, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/58

Search Results for '인실리코젠'

76 POSTS

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅳ- Gene Network Discovery by Text-mining

3-4. Gene Network Discovery by Text-mining

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅲ- Semantic Network for Integrated Biology Data

3-3. Semantic Network for Integrated Biology Data

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅱ- Data Management for Web 2.0 Era

3-2. Data Management for Web 2.0 Era

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅰ - Next Generation Bioinformatics

3-1. Next Generation Bioinformatics

[Quipu Issue Paper] Genome Annotation Ⅶ - Professional Curation

2-4-3. Professional Curation

A. 상동성 기반의 Annotation 수정

B. 기능 분석 결과의 수정(functional annotation)

[Quipu Issue Paper] Genome Annotation Ⅵ - Functional annotation(비교유전체 분석)

B. 비교유전체 분석

[Quipu Issue Paper] Genome Annotation Ⅴ- Functional annotation(상동성 기반의 Annotation)

2-4-2. Functional annotation

A. 상동성(homology) 기반의 Annotation

[Quipu Issue Paper] Genome Annotation Ⅳ- 유전체 모델 결합(Gene model merging)

B-3. 유전체 모델의 결합(Gene model merging)

C. Alternative splicing analysis

[Quipu Issue Paper] Genome Annotation Ⅲ- 유전체 정렬(Genome alignment)

B-2. 유전체 정렬(Genome alignment)

[Quipu Issue Paper] Genome Annotation Ⅱ- 반복서열 분석, 유전자 모델링(유전자 예측)

A. 반복서열 분석

B. 유전자 모델링

B-1. 유전자 예측

Categories

Recent Posts

Archives

Tag Cloud

Site Stats