[구버전] 人Co BLOG

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅴ- Centralization for High-throughput Data Analysis

Posted at 2010/04/09 09:42
Filed under 생물정보

연재 순서

이번 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

3-5. Centralization for High-throughput Data Analysis

최근 들어 분석하고자 하는 데이터의 용량이 기하급수적으로 늘어남에 따라 데스크탑 컴퓨터 사양으로 분석하기가 어려워지고 있다. 따라서 생물정보 전문가들의 도움이 많이 요구되지만, 한 두 명의 생물정보 전문가들이 처리하기에는 분석하고자 하는 데이터가 급격하게 증가되고 이를 활용한 연구 분야가 다양하여 대규모의 생물정보 전문가를 가용하고 있는 센터가 아닌 곳에서 모든 분석을 지원하는 것은 쉽지가 않다. 또한 유전체 분석과 같은 대규모 프로젝트가 컨소시엄 형식으로 수행되고 있는 상황에서는 다른 연구팀과의 상호 협조를 통한 공동 연구가 중요하며, 이를 위한 데이터의 공유와 관리도 중요시되고 있다. 따라서 연구자들이 공동으로 데이터를 업데이트하거나 다운로드할 수 있는 데이터베이스와 대규모의 용량을 분석할 수 있는 서버, 그리고 서버에서 분석한 결과를 개별 컴퓨터에서 확인할 수 있는 시스템의 유기적인 관계가 요구된다. 하지만 생물데이터의 형식과 이를 분석하는 프로그램의 종류가 다양하므로 데이터의 공유와 관리, 그리고 분석 프로그램의 연계가 상당히 복잡하다.

대다수의 생물학자들이 윈도우 운영체제의 컴퓨터를 사용하고 있으며 Vector NTI, DNA Star와 같은 생물데이터를 분석하는 상용화 프로그램을 많이 이용하고 있다. 하지만 이런 상용화 소프트웨어는 윈도우에서만 사용가능하며, 분석하는 데이터의 용량 및 길이에 제한을 두고있으므로, 대규모의 데이터를 분석하는 것은 적절하지 않다.

CLC bio사에서는 대규모의 NGS 데이터 및 대규모의 데이터를 서버에서 분석할 수 있는 CLC Genomics Server(그림 11)와 데스크탑 컴퓨터에서 결과를 확인하고 Vector NTI, DNA Star와 같은 다양한 분석 프로그램에서 나온 결과 데이터를 사용할 수 있는 CLC Genomics Workbench를 개발하였다.

그림 11. Genomics Server 시스템 아키텍처

CLC Genomics Workbench에서 CLC Genomics Server에 NGS 데이터 및 대규모 분석 데이터를 업데이트하고 분석을 수행한 뒤 CLC Genomic Server에서 분석되어진 결과를 CLC Genomics Workbench에서 확인할 수 있는 플러그인이 있다. 이를 활용하면 대규모 리소스를 필요로 하는 데이터의 분석과 데스크탑 컴퓨터에서 가능한 데이터 분석을 구분하여 연구 업무의 효율성을 증대시킬 수 있다. 또한 윈도우, 리눅스, 매킨토시 등 운영체제에 관계없이 설치가 가능하기 때문에 다양한 운영체제에서 데이터를 분석하는 연구자들이 분석결과를 공유할 수 있다. 대부분의 상용화 프로그램은 연구자들이 원하는 분석 알고리즘이 없을 경우 이후 버전의 업그레이드 내용을 기다리거나, 다른 프로그램을 이용하여 분석할 수밖에 없으므로 분석의 일관성을 유지하기 어렵고, 번거로움이 가증되었다.

하지만, CLC Genomics Server에서는 External Application 플러그인을 적용하여 CLC Genomics Workbench에 설치되어 있지 않는 알고리즘 및 분석법을 커맨드라인 방식으로 설치한 후 간단한 설정을 통해 별도의 인터페이스를 만들지 않더라도 CLC Genomics Workbench에서 데이터의 입력과 출력을 수행할 수 있으며, 분석 결과를 다른 분석에 응용할 수 있다.

그림 12는 CLC Genomics Server에서 external application 모듈을 설정하는 것을 보이고 있으며, 그림 13은 external application을 통해서 구축한 새로운 모듈을 이용하여 분석하는 화면을 보이고 있다. 이와 같이 서버급에서 분석할 수 있는 시스템과 데스크탑 컴퓨터에서 분석할 수 있는 프로그램의 연계를 통해서 생물학자들이 복잡하고 다양한 데이터를 분석하는데 많은 도움을 줄 수 있을 것이다.

그림 12. External Application of CLC Genomics Server. 자주 사용되는 커맨드라인 방식의 프로그램은 CLC Genomics Server의 External Application 설정을 통해 별도의 인터페이스를 만들지 않고 CLC Genomics Workbench에서 수행할 수 있다. 이를 이용하여 사용자에 맞춰진 workbench로 재구성할 수 있다.

그림 13. CLC Genomics Workbench 플러그인 적용. External application 플러그인으로 구축된 새로운 모듈은 CLC Genomics Workbench에서 분석이 가능하다.

저희 (주)인실리코젠 Codes팀은 최신 생물정보학관련 연구 동향에 대한 기술 소식지(Quipu Issue Paper)를 발간하고 이 소식지를 통하여 빠르게 발전하는 NGS 시대에 다양한 변화를 습득하고 하시는 연구에 조금이나마 도움이 되길 바라면서 지난 2월부터 약 2개월에 걸쳐 저희 회사 블로그 Quipu(http://www.insilicogen.com/blog/)를 통해 연재를 진행하였습니다. 지난 2개월 동안 최신 생물정보학관련 연구 동향에 대한 기술 소식지 블로그 연재에 많은 관심 가져주셔서 진심으로 감사드리며 저희 (주)인실리코젠은 앞으로도 생물정보 분야에서 끊임없이 노력하는 기업이 되겠습니다.

(주)인실리코젠 Codes팀 배상
Tel: 031-278-0061 / E-mail: codes@insilicogen.com

Posted by 人Co

Tag: CLC bio, CLC Genomics Serer, CLC Genomics Workbench, Codes, DNA Star, External Application, High-throughput, insilicogen, NGS, quipu, VectorNTI, 인실리코젠 블로그
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/68

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅳ- Gene Network Discovery by Text-mining

Posted at 2010/04/05 15:44
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다.

3-4. Gene Network Discovery by Text-mining

최근의 생물학 연구의 이슈는 데이터를 생산하는 것보다 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 부분에 있다. 즉 데이터의 ‘생산’에서 ‘연결’로 생물정보학의 관점이 옮겨가고 있다고 할 수 있다. 따라서 다양한 분야의 실험데이터, 문헌데이터, 공개데이터 등을 네트워크 형식으로 연결하여 새로운 지식을 발굴할 수 있는 시스템이 주목받고 있다.

현재 NCBI의 PubMed에는 18,000,000건 이상의 논문들이 수록되어 있으며, 하루에도 수 십편의 논문들이 새롭게 업데이트되고 있다. PubMed에 수록되어 있는 저널들은 의학, 생명, 생물에 관련된 연구 논문들이며, 오랜 기간에 걸쳐 저널의 정보에 대한 공신력이 검증된 논문들이라고 할 수 있다. 따라서 연구자가 새로운 주제를 기반으로 하여 연구를 시작하고자 할 경우, 가장 선행되어져야 하는 것은 논문 리뷰라고 할 수 있다. 다른 사람이 비슷한 연구를 수행한 경험이 있는지, 어떠한 방법에 의해서 연구가 진행되었는지, 또한 그 결과는 어떠하였는지 등을 참조하게 된다. 이와 같은 논문 리뷰가 선행된 후 자신의 연구 방향을 설정하게 된다. 그만큼 다른 사람에 의해서 분석되어진 연구 정보가 최근 들어서는 상당히 중요하다고 할 수 있다. 더구나, 최근에는 인터넷을 이용한 데이터의 정보교환이 활발하여 엄청나게 많은 문헌 정보들을 손쉽게 찾아볼 수 있기 때문에 일정한 부분에서는 직접 실험을 하지 않더라도 그와 유사한 실험을 수행한 결과물을 얻을 수 있다. 따라서 이와 같은 문헌 정보의 모래 언덕을 잘 살펴서 보물을 찾아낼 수 있는 방법들이 주목을 받고 있다.

한 예로 Ariadne사의 MedScan과 Pathway Studio는 텍스트 마이닝이라는 컴퓨터 알고리즘을 이용하여 주어진 문헌 정보에서 유전자와 질병, 화학물질, 세포내 프로세스, 대사회로와 같은 엔티티(Entity)들의 관계를 자동으로 추출하여 테이블과 다양한 그래프로 관계들을 보여주는 프로그램으로 대사회로, 유전자 조절 네트워크, 단백질 상호작용 맵과 같은 실험결과를 이해하는데 상당히 유용하다(그림 7). Pathway Studio는 척추동물, 식물 연구의 생물학적 연관관계, ontology와 pathway들의 정보를 포함하고 있는 ResNet 데이터베이스와 자연언어처리기술을 이용하여 과학문헌을 자동으로 읽고 생물학적인 관계를 추출하는 기능을 가진 MedScan으로 구성되어 있다. MedScan의 경우에는 약 1천개의 논문 초록을 대상으로 생물학적인 관계를 추출하는데 2~3분밖에 걸리지 않으므로, 대량의 수집된 논문에서 특정한 바이오마커를 발굴하거나 특정 단백질 또는 질병과 관련된 네트워크 정보를 검토하기에는 상당히 유용하다고 할 수 있다.

보통 하나의 유전자와 관계하는 다양한 정보를 찾아보기 위해서는 수많은 데이터베이스와 문헌, 웹사이트를 검색하여 그 연관관계를 하나씩 도출해야 되지만, Pathway Studio와 같은 프로그램은 그와 같은 일련의 시간과 노동력이 상당히 투자되어야 하는 업무를 효율적으로 지원함으로써 연구자의 보다 빠르고 충실한 결과물을 얻을 수 있도록 지원한다.

그림 7. Architecture of MedScan and Pathway Studio

그림 8은 Cholestasis에 관련된 약물과 단백질 등의 연관관계를 Pathway Studio를 이용하여 연구자가 쉽게 이해할 수 있는 방식의 그래프로 재구성한 것이다. 이와 같은 방법으로 복잡한 질병과 약물, 단백질 및 대사 작용의 네트워크를 시각적으로 이해하기 쉽게 제공하고 있다.

그림 8. Pathway Studio workflow diagram

그림 9는 EMB라는 유전자를 대상으로 관련 있는 다양한 유전자 및 질병, 약물, 세포내 프로세스 등을 연결한 그래프로서 연결되어있는 라인을 클릭하면 그림과 같이 연관관계를 표현하는 문헌정보를 확인할 수 있어 연관관계의 정확성 및 신뢰성을 뒷받침하고 있다.

그림 9. Entity와 Relation의 네트워크 및 관련 문헌의 확인

그림 10은 PubMed에서 Curcumin과 Prostate Cancer에 관련된 논문을 검색하여 수집된 수 십 여 편의 논문에서 MedScan의 텍스트 마이닝 알고리즘을 이용하여 네트워크를 재구성한 것이다. 그림에서 보는 것과 같이 Curcumin과 Prostate Cancer 사이에 있는 단백질이 Prostate Cancer를 억제하는 역할을 한다는 정보를 검증된 문헌을 통해서 확인하는 것이다.

그림 10. MedScan을 통한 문헌정보의 네트워크 구성

다음 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.

Posted by 人Co

Tag: Ariadne, EMB, Entity, insilicogen, MedScan, NCBI, Network, NGS, Ontology, Pathway Studio, PubMed, Relation, ResNet, Text-mining, 문헌, 바이오마커, 엔티티, 인실리코젠, 자연언어처리기술, 텍스트 마이닝
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/67

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅲ- Semantic Network for Integrated Biology Data

Posted at 2010/04/01 15:00
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.

3-3. Semantic Network for Integrated Biology Data

쌓여있는 유전체 데이터와 각종 실험을 통해서 얻어진 수많은 데이터 사이에서 새롭게 응용할 수 있는 지식은 무엇일까? 인터넷이 발달된 최근에는 인터넷 쇼핑이 괄목할 만한 성장을 보이고 있으며, 고객들에게 좀 더 좋은 정보를 제공하고자 다양한 알고리즘 및 분석기법을 적용하고 있다. 예를 들어서 상품을 주문한 고객의 구매 목록에 대한 특징을 찾아서 비슷한 성향의 신제품이 있으면 자동으로 고객에게 이메일로 상품광고를 전달하는 것과 같은 맞춤형 광고기법이 한 예일 것이다.

이와 맞물려 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 방법을 찾고자 하는 연구들이 진행되고 있으며, 이와 관련한 의미론적 지식 정보 추출을 위한 시스템이 개발되고 있다. 또한 최근의 연구 동향은 단순히 데이터를 생성하고 쌓아두는 것 보다 각 생물학 데이터들의 연관관계를 도출하여 어떻게 각 데이터들을 연결하여 새로운 정보를 발굴할 것인가라는 ‘How to link between the data’에 초점이 맞추어져 있다.

축적된 생물학 데이터에서 새로운 의미를 발굴할 수 있도록 지원하는 시스템 가운데 Biomax Informatics AG사 BioXM 지식관리 시스템을 꼽을 수 있다. BioXM 은 연구실 및 센터의 다양한 생물, 생명, 의학 관련 데이터에서 의미론적 정보를 추출할 수 있도록 데이터의 시맨틱 네트워크를 구축하는 플랫폼이다(그림 2).

그림 2. 데이터의 시멘틱 네트워크 흐름도

이미 미국 국립암센터(NCI)와 연계하여 시스템을 운용, 활용하여 암에 관련된 실험정보 및 분석정보, 문헌정보를 통합한 시스템을 구축한 바 있다(그림 3).

그림 3. BioXM의 데이터 통합 개념

이와 같은 지식관리 시스템은 기존에 구축한 수많은 실험정보, 분석정보, 문헌정보들 사이의 연관관계를 도출하여 새로운 의미를 찾고자 하는 바램을 충족시켜준다. 대다수의 시스템들이 RDBMS 형식의 데이터베이스로 구축되어 있으므로, 모든 데이터의 통합에 의한 새로운 형태의 의미를 발굴하기 위해서는 기존 시스템보다 더 확장된 형태의 데이터베이스 구축 및 IT 시스템 구축이 선행되어진다. 하지만 이와 같이 단순히 시스템의 확장 구축을 통해서는 얻어질 수 있는 데이터의 유기적 연관관계는 한계를 보이게 된다. 또한 데이터베이스의 확장이 진행될수록 생물학자들의 지식이 더 많이 요구되지만 IT와 BT 전문가의 상호 생각의 차이로 인해 최종적으로는 생물학자들이 원하는 형태가 아닌 별개의 시스템으로 구축되는 경우가 다반사이다. 이에 반해 BioXM 지식관리 시스템은 기존 데이터들을 새로운 데이터베이스 스키마를 설계하여 통합 연계하는 것이 아니라 각 생물학 데이터의 기존 의미를 알고 있는 연구자가 퍼즐을 맞춰가는 방식과 같이 edge와 node의 꼬리에 꼬리를 무는 방식으로 데이터들을 선택하여 서로 연계된 데이터들을 통합하고 관리하는 지식관리시스템이다. 이와 같은 방식으로 BioXM은 Genomics, Transcriptomics, Proteomics 등 다양한 omics 데이터들과 문헌정보 등을 손쉽게 통합할 수 있을 뿐만 아니라 다양한 방법으로 데이터를 조합하여 연구자가 알고자 원하는 질문에 알맞은 답을 얻도록 지원한다.

그림 4. Object와 Relation에 대한 개략적인 데이터 모델

그림 5는 환자에 관한 질병과 질병에 관련된 유전자와 대상 약물 및 임상실험과 같은 다양한 정보를 이용하여 그래픽 사용자 인터페이스 형태로 모델링을 구현한 사례를 보이고 있다. 지금 그림에서 보이고 있는 데이터 이외에 다양한 정보가 있을 경우에도 동일한 방법으로 모델링을 구현하여 좀 더 폭넓은 데이터 연관 관계도를 생성할 수 있다.

그림 5. BioXM 데이터 모델링 구현

BioXM 지식관리 시스템의 특징 및 장단점은 표 1과 같다.

암을 연구하는 연구자들은 자신이 가지고 있는 데이터를 이용하여 다음과 같은 다양한 궁금증을 표현할 수 있으며, BioMax사의 BioXM과 같은 시스템을 이용하여 각 데이터들의 네트워크를 구축하면 궁금증에 대한 답변을 얻을 수 있을 것이다. 이와 같은 지식 발굴 시스템은 다음과 같은 문제점을 해결하는데 도움을 줄 수 있다(그림 6).

그림 6. BioXM 시스템을 이용한 지식 네비게이션

다음 연재에서는 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

Posted by 人Co

Tag: BioXM, Genomics, insilicogen, NCI, Network, NGS, Object, omics, Proteomics, Relation, Smantic, Transcriptomics, 대사회로정보, 인실리코젠, 임상실험, 질병
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/66

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅱ- Data Management for Web 2.0 Era

Posted at 2010/03/30 14:53
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
5. Genome Annotation
   6. Next Generation Bioinformatics
7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.

3-2. Data Management for Web 2.0 Era

최근 들어 웹 2.0에 대한 논란이 뜨겁다. 비단 IT에서 뿐만 아니라 일상생활에서도 웹 2.0이라는 용어는 어렵지 않게 들을 수 있게 되었다. ‘O'Reilly Media’에서 2003년 처음 사용하기 시작하면서부터 대중화 된 웹 2.0에 대한 정의를 위키피디아에서는 이렇게 정의하고 있다. 단순한 웹사이트의 집합체를 웹 1.0으로 보고 있다면, 웹 2.0은 웹 애플리케이션을 제공하는 하나의 완전한 플랫폼으로의 발전이다(그림 1)[2].

그림 1. Web 2.0이란?

웹 2.0이 세상에 알려진 지 불과 몇 년 밖에 되지 않았으나, 이제는 누구나가 쉽게 웹 2.0 으로 구축된 사이트에 자신의 데이터를 올리거나 다른 사람의 데이터를 다운로드 받는 등 이전보다 능동적으로 웹을 활용하고 있다. 위키라는 개념으로 접근한 웹 2.0은 대영백과사전으로 알려져 있는 브리태니커 백과사전보다 더 많은 정보를 담고 있어 세계 최대의 백과사전으로 기네스북에 기록되어 있다. 2001년 1월 출범하여 2006년 12월에 기네스북에 인정되기까지 불과 6년의 짧은 기간에 엄청난 정보가 모이게 된 가장 큰 원동력은 웹 2.0 시대에 맞춰 운영자가 절대 개입하지 않는다는 원칙하에 모든 방문자가 스스로 글을 읽고 쓸 수 있게 한 것이다. 정보의 양을 기준으로 한다면 다양한 사람들이 생산하는 데이터가 한 명이 작성한 글보다 훨씬 클 수 있으며, 다양한 사람들에 의해서 읽혀지고 수정되어 보다 정확한 정보들로 탈바꿈할 수 있다는 것이다.

(주)인실리코젠에서는 웹 2.0 시대에 맞추어 위키 시스템을 활용한 홈페이지 형식의 지식관리시스템을 재구성하였다. 이를 이용하여 프로젝트 단위의 연구에서 공동 연구자들 사이의 데이터 공유 또는 미팅과 관련된 로그 관리 등을 효율적으로 운영하고 있다. 개별 연구자들이 각자 분석업무를 업로드하고 관련 연구자들이 업데이트된 데이터를 다운로드 받거나 웹상에서 오류나 문제점을 수정, 지적하여 최종적으로는 다양한 연구 전문가 그룹에 의한 완성된 연구 결과를 도출하는 방식을 취하고 있다. 이와 같은 방식의 연구 관리는 데이터가 실험실에 존재하는 것이 아니라 웹상에 존재하면서, 인터넷만 연결된 환경에서는 장소, 시간에 관계없이 공통의 주제를 가지고 분석 업무를 수행하고 데이터를 보완 할 수 있다는 장점이 있다. 한 사람의 불완전한 지식에서 시작하여 공동 연구자 또는 다른 전문가의 지식을 포함하여 완전한 지식을 유도하는 방향을 추구하고 있는 것이다.

이처럼 다양한 분야의 생물학 영역에서도 웹 2.0의 장점을 백분 발휘하여 데이터를 축적하고, 보완하고, 관리하는 흐름을 엿볼 수 있다. 최근에는 웹 2.0의 장점에 덧붙여서 다양한 분야에서 생산된 데이터를 어떻게 의미론적으로 재분류할 수 있는가에 보다 많은 관심이 집중되고 있다. 기존에 존재하는 지식 자원을 연구자가 검색, 통합 및 관리하기 편리하도록 의미기반 온톨로지 사이트로 구축하는 것이다. 그리하여, 최근의 많은 포탈검색사이트에서 입력된 검색어에 관한 다양한 관련 정보를 추출하여 보여주는 의미론적 검색 방법을 개발하였으며, 한국인들이 가장 많이 검색하는 네이버에서도 의미검색사이트를 개발하여 서비스하고 있다.

다음 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.

많은 관심 부탁드립니다.

참고문헌

2. http://ko.wikipedia.org/wiki/Web2.0

Posted by 人Co

Tag: Bioinformatics, NGS, 웹 2.0, 위키, 위키피디아, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/65

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅰ - Next Generation Bioinformatics

Posted at 2010/03/29 17:30
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학인 'Next Generation Bioinformatics'에 대해 알아보겠습니다.

3-1. Next Generation Bioinformatics

Applied Biosystems, Illumina 그리고 Roche 등과 같은 분석장비 개발회사에서 출시한 Next Generation Sequencers의 출현으로 전통적인 유전체 데이터 분석법에 새로운 변화와 도전이 요구되고 있다. 이러한 Sequencer들은 전에는 생각할 수 없었던 많은 양의 시퀀스 데이터를 쏟아내고 있고 이것은 생물정보학과 전산 생물학에 다양한 변화와 혁신을 초래하였다.

Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학, 즉 ‘Next Generation Bioinformatics’에 대한 준비를 해야 할 것이다. NGS 데이터를 다룰 수 있는 충분한 저장장치, 관리 솔루션 그리고 생물정보학 분석 파이프라인 구축이 성공적인 NGS 연구에 필수적인 요소이다.

현재 대다수의 생물정보학 전문가들은 생물학자들이 다루기 힘든 커맨드 라인 방식의 데이터 처리로 실험 연구자들과의 분석 결과 검토를 위한 자료를 따로 작성하고 있다. 이는 생물학 데이터가 NGS의 도입에 의해 폭발적으로 증가된 상황에서는 매우 소모적인 것으로 실험 연구자들이 쉽게 분석결과를 검토하고 판별할 수 있는 플랫폼 개발이 요구되며, 직관적이거나 그래픽 사용자 인터페이스에 대한 요구를 좀 더 다양하게 충족시켜야 함을 나타낸다. 뿐만 아니라 대부분의 초기 분석이 리눅스와 같은 유닉스 환경에서 이뤄지고 있고, 생물학적 의미론을 분석하는 단계에서는 대부분 실험 연구자들이 이용하는 윈도우 환경에서 이뤄지므로 이들 간의 유기적인 데이터 교류를 위한 포맷 변화도 필요한 실정이다. 따라서 운영체제에 상관없이 NGS 데이터를 분석할 수 있으며, 서로 다른 운영체제에서도 데이터를 자유롭게 입출력을 할 수 있는 시스템 마련이 필요하다. 또한 공동 연구 및 컨소시엄을 통한 분석 방법이 늘어나는 추세이므로, 분석 데이터를 공동으로 관리할 수 있는 데이터베이스의 구성, 분석 프로그램의 표준화 및 정규화 그리고 많은 프로그램들을 연계한 효율적인 데이터 분석 파이프라인 구축 또한 요구된다.

앞으로 NGS 데이터는 임상 진단과 개인 맞춤 의약 연구에 직접적으로 이용되어질 전망이다. 이에 앞서 언급된 차세대 생물정보학에 대한 다양한 요구들이 쏟아질 것이다. 이러한 문제들이 해결되지 않는다면 조만간 생물정보학이 생물학 관련 연구에 큰 걸림돌이 될 수 있을 것이다[1].

다음 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Kwok-Wing Stephen Tsui (2009) Next Generation DNA Sequencing and Bioinformatics: Bottlenecks and Opportunities. The Third International Symposium on Optimization and Systems Biology

Posted by 人Co

Tag: Applied Biosystems, Bioinformatics, Illumina, insilicogen, NGS, Roche, Sequencer, 웹 2.0, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/64

[Quipu Issue Paper] Genome Annotation Ⅶ - Professional Curation

Posted at 2010/03/26 09:59
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재는 Genome Annotation의 마지막 내용으로 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional Curation에 대해 알아보겠습니다.

2-4-3. Professional Curation

A. 상동성 기반의 Annotation 수정

수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이 발생한다. 따라서 이러한 부분은 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거쳐 최종적인 유전체 분석을 수행하게 된다. 분석 가능한 소프트웨어로는 Apollo[2] 와 Pedant-Pro가 있다. Apollo는 오픈 소스로 제공되며, Berkeley Drosophila Project 수행을 위해 Sanger Institute에서 개발하였다.

유전자의 구조 정보를 편집하기 위한 프로그램으로 evidence 데이터의 alignment 정보와 structural annotation 결과 형성된 Consensus Gene Model 정보를 같이 보며 수정 작업을 수행 한다(그림 12).

그림 12. Apollo. Consensus gene model의 정확성을 manually curation 한다. 유전자의 길이, 위치를 직접 편집하면서 가능한 AS form과 유전자 모델을 만들며, 이를 다시 xml혹은 GFF 형태로 저장하여 genome browser에 이용할 수 있도록 하였다.

입력 포맷으로 GFF3, Ensemble, XML 형식이 가능하며 Chado 데이터베이스로부터 직접 데이터를 읽어 들일수도 있다. 또한 삽입(Insertion), 삭제(Deletion), 확장(Extension), 분리(Split), 결합(Merge), 이동 그리고 변환(Replacement) 등 가능한 모든 유연한 편집 모드를 이용하여 유전자의 구조 정보를 편집할 수 있다. 또한 편집 시 필요한 주석 태그를 덧붙일 수 있는 것 또한 장점이라 할 수 있다.

B. 기능 분석 결과의 수정(functional annotation)

서열 상동성 및 도메인 정보를 통해 분석되어진 유전자의 기능 정보에서 전문가의 분석에 의존하여 알고리즘에 의한 오류를 수정하거나 분석 정보를 편집, 수정할 수 있다. 이전 페이지에서 언급한 Pedant-Pro에서는 이와 같은 전문가의 수정 기능과 수정된 정보의 업데이트 기능을 지원하고 있어서 최종적으로 가장 정확한 유전체 분석 정보를 얻을 수 있다(그림 13). 수치상 상동성이 높은 단백질로 유전자 매핑이 이루어져야 하므로 발현 정보, 도메인 정보 등을 종합하여 단백질의 기능을 수정해야 할 때 이용하게 된다. 이러한 작업은 대부분 생물학적 지식을 갖춘 다수의 전문가들에 의해 진행되게 된다. 따라서 전문가에 의한 기능 분석 수정에 대한 이력 정보를 관리하는 것 또한 중요하다고 할 수 있다.

그림 13. Pedant-pro annotaton edition

다음주 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하는 Bioinformatics Knowledge Management에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external
sources. BMC Bioinformatics. 7, 62.
5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78-94.
6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using
EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
967–974.
15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

Tag: alignment, Apollo, Curation, Gene Model, Genome Annotation, GFF3, Iisilicogen, NGS, Pedant-Pro, Sanger Institute, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/63

[Quipu Issue Paper] Genome Annotation Ⅵ - Functional annotation(비교유전체 분석)

Posted at 2010/03/24 10:32
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석에 대해 알아보겠습니다.

B. 비교유전체 분석

서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석의 가장 기본적인 분석은 ortholog 분석이다. Ortholog란 한 개체가 진화되어 여러 종으로 분화되었을 때, 유전자의 기능이 그대로 보존되어 서로 유사한 기능을 수행하는 것을 의미한다. 미생물의 경우 단순 ortholog 분석에서 확장되어 오페론 단위의 유전자 그룹을 유전체 상의 위치 정보와 함께 분석하는 Positional linkage 방법이 매우 정확하게 분석되고 있다(그림 10).

그림 10. Positional linkage. 미생물의 경우 보통 operon상에서 유사한 기능을 수행하는 단백질들끼리 서로 이웃하여 존재하므로 이를 positional linkage를 통해 정보를 확인한다.

진화론적인 연관관계 분석 시 이웃하고 있는 유전자의 배열과 조성을 통해 종간 변이 단계를 분석하게 된다. 좀 더 나아가 특정 ortholog 그룹의 유전자들의 존재 유무를 다수의 종에서 분석하여 프로파일링을 수행하고 그 프로파일을 이용하여 유연관계를 밝히는 phylogenetic 프로파일링 기법도 최근 매우 정확히 유전자의 기능을 예측하는 알고리즘으로 알려지고 있다. 비슷한 단백질 프로파일을 갖는 것은 비슷한 기능을 갖는다는 의미를 보여주기 때문에 유전자 기능 분석 시 이용되고 있다(그림 11).

그림 11. Phylogenetic 프로파일링

다음 연재에서는 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이 발생한다. 이러한 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional Curation에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external
sources. BMC Bioinformatics. 7, 62.
5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78-94.
6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using
EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
967–974.
15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

Tag: Curation, Genome Annotation, insilicogen, NGS, operon, Ortholog, phylogenetic, Positional linkage, 인실리코젠, 진화
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/62

[Quipu Issue Paper] Genome Annotation Ⅴ- Functional annotation(상동성 기반의 Annotation)

Posted at 2010/03/22 11:19
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자의 기능을 분석하는 Functional annotation 중에 먼저 상동성 기반의 Annotation에 대해 알아보겠습니다.

2-4-2. Functional annotation

A. 상동성(homology) 기반의 Annotation

유전체 서열에서 유전자의 위치와 구조 정보를 파악하여 유전자의 서열을 분석한 뒤 그 서열 정보를 통해 유전자의 기능을 유추 한다. 가장 보편적으로 유전자의 기능을 분석하는 방법이 상동성 기반의 분석이다. 다만, 상동성 분석에 기반한 유전자 기능 유추 시 사용되는 데이터베이스에 따라 노이즈 발생률이 차이가 나므로 데이터베이스 구축에 많은 노력을 기우려야 한다. 분석하려고 하는 종과 동일한 종의 단백질 서열을 1차 데이터베이스로 구축하고 다음으로 유연 관계가 가까운 종을 대상으로 2차 데이터베이스를 만드는 피라미드 형태의 데이터베이스 구축이 필요하다. 또한 각 데이터베이스에 맞는 상동성 경계 값(cutoff) 조정이 필요하다. 단백질 수준에서의 상동성은 보통 높게는 1e-200에서 낮게는 1e-4 까지 적절한 수준으로 조정을 하게 된다. 그러나 DAN 수준에서의 상동성은 아무리 높은 e-value 경계 값이라도 신뢰할만한 정보가 되지 않는다고 말한다. 따라서 e-value 뿐만 아니라 identity, HSP coverage 등이 상동성 레벨을 정하는 기준이 되기도 한다.

분석에 이용되는 데이터베이스는 그 특성에 따라 약간의 차이가 있다(표 1). 단백질의 기능 규명을 위해 단백질의 1차 구조인 서열 정보부터 2차 구조정보인 도메인 정보, 3차 구조정보에 해당하는 PDB 정보 등 다양한 데이터베이스가 이용된다. 뿐만 아니라 세포내 위치 정보를 통해 기능을 유추하기도 하므로 세포내 위치 정보까지 가능한 모든 정보를 분석할 수 있는 흡사 유전자 기능 백화점과 같은 유전자 기능에 대한 정보 분석이 요구된다. 이러한 통합적인 유전자 기능 분석을 수행하기 위해서는 다양한 알고리즘과 데이터베이스, 분석 프로그램들의 유기적인 네트워크가 구축되어야 하며, 수많은 데이터의 입출력이 이루어지므로 데이터의 효율적인 관리를 위한 시스템도 연계되어야 되므로 상당히 복잡한 대규모 분석 시스템이 요구된다. BioMax사에서는 초기 인간 유전체 기능 분석부터 수백 종의 미생물, 다양한 척추동물, 식물 등의 기능 분석을 수행한 Pedant-Pro(http://www.biomax.com/products/pedantpro.php)라는 유전체 구조, 기능 분석 자동화 시스템을 서비스하고 있다.

Pedant-Pro에서는 크게 세 가지 카테고리로 구성된 데이터베이스를 통해 단백질의 기능을 규명하고 있다. 첫 번째, 단백질의 1차 구조인 서열정보를 이용한 분석으로 GO, MetaCat, FunCat, EC, COGs 데이터베이스를 활용한다(표 2).

단백질의 기능 분석은 DAG 구조를 이용한 계층화 방법으로 다중 기능을 수행하는 단백질의 특성에 맞게 GO와 FunCat을 이용하고 있으며, 그 중 MetaCat은 metabolization 분석에 이용되며 EC는 단백질의 enzymatic function에 각각 초점을 두어 이차적인 세포내 대사회로 분석의 기초자료를 제공하고 있다. COGs는 종간의 ortholog 그룹 정보를 데이터베이스로 구축한 것으로 유사 기능을 갖는 단백질들을 그룹화하여 기능을 유추하는데 도움을 주고 있다. 두 번째로는 단백질의 이차구조정보를 이용한 분석이다. 단백질의 hydrophobicity에 기반을 둔 transmembrane helice 및 site prediction을 수행하는 HMMTOP, TMHMM 그리고 단백질의 signal peptides 및 cleavage site를 예측하는 SignalP 분석이 이에 해당된다.

그림 8. Pedant-Pro 유전자 기능 분석 결과 리포트.

Pedant-Pro의 유전자 구조, 기능 분석 리포트는 웹으로 확인할 수 있으며, 윈도우 방식의 디렉토리/폴더 구조로 각 분석 결과들이 구성되어 있으므로, 연구자가 쉽게 다양한 정보를 습득할 수 있다. 분석 결과 리포트는 다양한 공개 데이터베이스와의 연계 정보와 단백질의 도메인 정보, FunCat과 같은 기능 분류 정보등과 같은 다양한 특징적인 정보들을 볼 수 있다. 또한 단백질의 1차, 2차, 3차 구조에 대한 정보와 단백질의 Paralog 클러스터 정보 등을 확인할 수 있다.

단백질의 서열 정보에 기반하여 얻어진 단백질 내의 도메인 정보는 프로파일 과정을 통해 서로 비슷한 도메인 프로파일을 갖는 단백질들 간의 클러스터 분석에 이용된다. 단순 서열 상동성에서 벗어나 좀 더 구체화된 기능을 중심으로 유전자의 기능을 유추하는 방법을 Pedant-Pro에서 제시하고 있다(그림 9). 유사한 방법으로 synteny 구조를 이용한 ortholog 분석이 있다. 유연관계가 가까운 종과의 synteny 분석을 이용해 유전자의 기능 뿐 아니라 염색체 내의 물리적 위치정보까지 이용하여 유전자의 기능을 규명하게 된다. 이들 방법들은 종간 ortholog 분석에 기초한 비교유전체 분야에 주로 이용되며 그 자세한 내용은 다음에서 다루도록 한다.

그림 9. 도메인 profile을 이용한 protein cluster 분석

다음 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

Posted by 人Co

Tag: annotation, biomax, COG, FunCat, GO, homology, insilicogen, MetaCat, NGS, PDB, Pedant-Pro, Pfam, Uniprot, 단백질, 비교유전체, 상동성, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/61

[Quipu Issue Paper] Genome Annotation Ⅳ- 유전체 모델 결합(Gene model merging)

Posted at 2010/03/19 10:24
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene Model을 결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다.

B-3. 유전체 모델의 결합(Gene model merging)

앞서 설명한 유전자 예측 프로그램을 통해서 얻어진 Predicted Gene Model(PGM)과 mRNA, EST, 단백질 서열을 유전체에 매핑하여 얻어진 Evidenced Gene Model(EGM)을 합쳐 Consensus Gene Model(CGM)을 만든다. 각 유전자 모델마다 가중치를 다르게 설정하여 동일한 위치에서 중복적으로 지지를 받아 높은 score 합계를 갖는 유전자 모델이 CGM으로 채택이 된다[3].

일반적으로 EGM이 PGM 보다 높은 가중치를 가지며 EGM 가운데에서도 full-length mRNA > protein> mRNA > EST 순으로 우선 순위를 배정한다. PGM도 evaluation을 통해 프로그램별 우선순위를 정해주기도 한다. CGM을 만드는 과정은 full-length mRNA를 가장 우선 순위로 채택하되, full-length mRNA가 없을 경우 단백질과 EST, PGM이 제공하는 정보를 통해 complete CGM을 형성한다(그림 5).

그림 5. Consensus Gene Model making

몇 가지 예시를 통해 대표 되는 유전자 모델 형성 과정을 알아보도록 하자.
첫 번째 full-length mRNA를 통해 얻어진 EGM이 partial 단백질과 ESTs에 의해 공통적으로 exon/intron 정보를 제공 받아 complete CGM을 형성하였다(그림 6의 case1). 다음은 mRNA EGM이 없고 단백질 EGM이 가장 높은 가중치를 갖는 유전자 모델이 되어 EST 가 제공하는 3’ 정보를 통해 complete CGM을 형성한 경우 이다. 이때 EST EGM은 단백질 EGM의 partial 형태로 동일한 exon/intron 구조를 보이고 있다. 세 번째는 mRNA, 단백질 모두 존재하지 않고 partial ESTs EGM 만 존재할 때 EST EGM 하나 하나는 모두 낮은 가중치이나 동일한 위치에서 동일한 exon/intron 구조로 여러 ESTs EGM이 지지하고 있으므로 CGM을 형성할 수 있다. 또한 일정부분 동일한 유전자 구조를 갖는 PGM으로부터 3’ 정보를 제공 받아 complete CGM을 형성하였다. 마지막 네 번째 경우 세 번째 경우와 동일하게 PGM과 EST EGM이 존재하는 가운데 두 gene model이 서로 상이한 exon/intron구조를 보이고 있어 어떠한 CGM도 만들 수 없는 상황을 보여주고 있다. 만약 PGM 만이 존재할 경우라도 여러 프로그램을 통해 얻어진 PGM이 모두 동일한 exon/intron 구조를 갖는다면 CGM을 형성 할 수 있다. 대부분의 genome annotation에서 evidence 데이터를 충분히 갖추고 진행되기란 쉽지 않다. 따라서 종종 Evidenced Gene Model(EGM) 없이 Predicted Gene Model(PGM) 만으로 Consensus Gene Model(CGM)을 만드는 경우가 존재한다.

그림 6. Consensus gene model 만들기

이러한 유전자 모델을 형성하는 프로그램으로는 Tigr에서 공개 소스로 제공하는 EVModeler[9]가 있다. Perl 스크립트로 구성된 프로그램은 GFF3 포맷의 gene model 정보를 입력받아 정해진 gene model별 가중치를 토대로 Consensus Gene Model을 제시한다.

C. Alternative splicing analysis

다양한 유전자 모델을 통해 Consensus Gene Model을 형성하고 나면 이후 alternative splicing 분석을 위해 transcripts를 분석한다[12]. mRNA, ESTs, 단백질, NGS reads 서열이 제공하는 다양한 transcripts를 consensus gene model (CGM)에 비교하여 alternative transcript model을 제시 한다. 이후 조직 특이적인 alternative transcripts나 cancer specific alternative transcripts 분석으로 biological meaning에 초점을 두고 분석을 진행하게 된다[3].

그림 7. Alternative splicing 분석

다음 연재에서는 유전자의 기능을 분석하는 방법 중에 먼저 상동성 기반의 Annotation에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

Posted by 人Co

Tag: Alternative splicing, Consensus Gene Model, EST, Evidenced Gene Model, EVModeler, Gene model merging, GFF3, insilicogen, mRNA, NGS, Predicted Gene Model, Tigr, 유전자 예측, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/60

[Quipu Issue Paper] Genome Annotation Ⅲ- 유전체 정렬(Genome alignment)

Posted at 2010/03/17 09:31
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 유전자 모델을 얻는 과정으로 서열 정보를 이용하여 유전체를 정렬(Genome alignment)하는 방법에 대해 알아보겠습니다.

B-2. 유전체 정렬(Genome alignment)

유전체 상에서 유전자의 위치 및 구조 정보를 파악하는데 가장 중요한 정보를 제공하는 것이 mRNA를 비롯한 실제 서열정보이다. 유전체 프로젝트를 수행하면서 Full-length mRNA 시퀀싱을 함께 진행하는 이유라고 할 수 있다. 그 외 단백질과 ESTs 서열도 유전자 구조 정보를 제공하는 좋은 재료이다[11]. 최대한 많은 양의 실제 데이터(evidence data)를 확보하여 유전체 서열과의 유사성(similarity)을 조사하고 그 위치를 파악한다. DNA 서열의 경우 BLAT[13], Sim4[14], GMAP[16], AAT[15]가 주로 이용되고, 단백질 서열의 경우 BLAST와 wise2 package에 존재하는 Genewise[17]를 이용한다. 유전체 서열이 매우 크므로 일차적으로 빠르게 매핑할 수 있는 BLAT이나 BLAST 등으로 대략의 위치를 설정하고 그 외 다른 프로그램을 이용하여 좀 더 정교한 2차 매핑을 수행하는 경우도 있다.

이때, 서열상의 유사성에 의해 유전자 모델(Evidenced Gene Model)이 결정되므로 HSP length, coverage, identity와 같은 파라미터 조건을 엄격하게 설정하여 정확한 Evidenced Gene Model(EGM)을 만드는 것이 일반적이다. 또한 언급한 대부분의 프로그램은 모두 exon/intron 신호를 인지하며 local alignment을 수행하고 있어 intron이 존재하는 유전체 서열에 매핑 하기에 모두 적절한 프로그램이다.

특히 genewise의 경우 매핑과 동시에 가능한 유전자 모델을 제시한다. 따라서 유전체 서열과 유연 관계가 가까운 이종의 단백질 서열을 매핑 하여도 좋은 결과를 얻을 수 있다. 다만, 이후 진행되는 consensus gene model을 만들 때 score를 적절히 조절 해야만 한다. 다양한 프로그램을 통해 얻어진 유전자 모델 정보는 모두 동일한 형태의 파일 포맷을 유지하는 것이 좋다. 대부분의 프로그램이 공통적으로 지원하는 파일 형태는 GFF3 포맷이다(그림 4).

그림. 4 GFF3 파일 포맷.
seqld/source(tool name)/type/start/end/score/strand/phase/attributes

다음 연재에서는 앞서 설명한 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene Model을 결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

Posted by 人Co

Tag: AAT, BLAST, BLAT, EGM, Evidenced Gene Model, exon, Genewise, Genome alignment, GFF3, GMAP, insilicogen, intron, NGS, Sim4, 유전체 정렬, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/59

Search Results for '분류 전체보기'

375 POSTS

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅴ- Centralization for High-throughput Data Analysis

3-5. Centralization for High-throughput Data Analysis

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅳ- Gene Network Discovery by Text-mining

3-4. Gene Network Discovery by Text-mining

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅲ- Semantic Network for Integrated Biology Data

3-3. Semantic Network for Integrated Biology Data

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅱ- Data Management for Web 2.0 Era

3-2. Data Management for Web 2.0 Era

[Quipu Issue Paper] Bioinformatics Knowledge Management Ⅰ - Next Generation Bioinformatics

3-1. Next Generation Bioinformatics

[Quipu Issue Paper] Genome Annotation Ⅶ - Professional Curation

2-4-3. Professional Curation

A. 상동성 기반의 Annotation 수정

B. 기능 분석 결과의 수정(functional annotation)

[Quipu Issue Paper] Genome Annotation Ⅵ - Functional annotation(비교유전체 분석)

B. 비교유전체 분석

[Quipu Issue Paper] Genome Annotation Ⅴ- Functional annotation(상동성 기반의 Annotation)

2-4-2. Functional annotation

A. 상동성(homology) 기반의 Annotation

[Quipu Issue Paper] Genome Annotation Ⅳ- 유전체 모델 결합(Gene model merging)

B-3. 유전체 모델의 결합(Gene model merging)

C. Alternative splicing analysis

[Quipu Issue Paper] Genome Annotation Ⅲ- 유전체 정렬(Genome alignment)

B-2. 유전체 정렬(Genome alignment)

Categories

Recent Posts

Archives

Tag Cloud

Site Stats