연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학인 'Next Generation Bioinformatics'에 대해 알아보겠습니다.


3-1. Next Generation Bioinformatics

 
 Applied Biosystems, Illumina 그리고 Roche 등과 같은 분석장비 개발회사에서 출시한 Next Generation Sequencers의 출현으로 전통적인 유전체 데이터 분석법에 새로운 변화와 도전이 요구되고 있다. 이러한 Sequencer들은 전에는 생각할 수 없었던 많은 양의 시퀀스 데이터를 쏟아내고 있고 이것은 생물정보학과 전산 생물학에 다양한 변화와 혁신을 초래하였다.

 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학, 즉 ‘Next Generation Bioinformatics’에 대한 준비를 해야 할 것이다. NGS 데이터를 다룰 수 있는 충분한 저장장치, 관리 솔루션 그리고 생물정보학 분석 파이프라인 구축이 성공적인 NGS 연구에 필수적인 요소이다.

 현재 대다수의 생물정보학 전문가들은 생물학자들이 다루기 힘든 커맨드 라인 방식의 데이터 처리로 실험 연구자들과의 분석 결과 검토를 위한 자료를 따로 작성하고 있다. 이는 생물학 데이터가 NGS의 도입에 의해 폭발적으로 증가된 상황에서는 매우 소모적인 것으로 실험 연구자들이 쉽게 분석결과를 검토하고 판별할 수 있는 플랫폼 개발이 요구되며, 직관적이거나 그래픽 사용자 인터페이스에 대한 요구를 좀 더 다양하게 충족시켜야 함을 나타낸다. 뿐만 아니라 대부분의 초기 분석이 리눅스와 같은 유닉스 환경에서 이뤄지고 있고, 생물학적 의미론을 분석하는 단계에서는 대부분 실험 연구자들이 이용하는 윈도우 환경에서 이뤄지므로 이들 간의 유기적인 데이터 교류를 위한 포맷 변화도 필요한 실정이다. 따라서 운영체제에 상관없이 NGS 데이터를 분석할 수 있으며, 서로 다른 운영체제에서도 데이터를 자유롭게 입출력을 할 수 있는 시스템 마련이 필요하다. 또한 공동 연구 및 컨소시엄을 통한 분석 방법이 늘어나는 추세이므로, 분석 데이터를 공동으로 관리할 수 있는 데이터베이스의 구성, 분석 프로그램의 표준화 및 정규화 그리고 많은 프로그램들을 연계한 효율적인 데이터 분석 파이프라인 구축 또한 요구된다.

앞으로 NGS 데이터는 임상 진단과 개인 맞춤 의약 연구에 직접적으로 이용되어질 전망이다. 이에 앞서 언급된 차세대 생물정보학에 대한 다양한 요구들이 쏟아질 것이다. 이러한 문제들이 해결되지 않는다면 조만간 생물정보학이 생물학 관련 연구에 큰 걸림돌이 될 수 있을 것이다[1].
 

다음 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.  많은 관심 부탁드립니다.



참고문헌

1. Kwok-Wing Stephen Tsui (2009) Next Generation DNA Sequencing and Bioinformatics: Bottlenecks and Opportunities. The Third International Symposium on Optimization and Systems Biology

Posted by 人Co

2010/03/29 17:30 2010/03/29 17:30
, , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/64

[Quipu Issue Paper] Epigenomics Ⅱ - ChIP-seq

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주 연재에서는 Next Generation Sequencing의 세 번째 Application인 Epigenomics 중에 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site를 동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.

2-3-2. ChIP-seq


 CHIP(chromatin-immunoprecipitation)은 특정 유전체 영역에 binding 하는 히스톤이나 전사 인자(Transcription Factors, TFs)와 같이 특정 DNA서열에 binding 하는 단백질과 genomic fragments를 분리하기 위해 많이 응용 되어 왔다. 이 기술은 빠르게 발전하여 large-scale의 TF-DNA interactions 혹은 chromatin packaging (histone modification을 통한 genomic DNA와의 packaging) 연구에 중심 기술로 자리 잡았다. CHIP-Seq은 기존의 CHIP-chip에서 보여 지던 해상도의 한계와 chip에 올려 진 프로브에 대한 한계를 극복하는 방법으로 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site를 동정하는 방법으로 발전하였다(그림 3). 그 결과 genome wide epigenetic study가 가능하게 되었다.

사용자 삽입 이미지
그림 3. CHIP-Seq을 이용한 단백질 binding site 규명.
Genomic DNA와 특정 단백질의 binding 후 단백질 specific antibody를 이용하여 
분리한다. 이후 단백질을 제거하고 NGS 기술을 이용하여 시퀀싱 한다[5].

 CHIP-seq은 실험적으로 짧은 DNA 절편에 binding하는 특성 때문에 non-specific binding complex의 background 처리가 반드시 필요하다. 이를 해결하기 위해 실험적으로는 antibody 만을 사용한 대조군을 설정하여 비교하는 방법과, 통계학적으로는 주어진 단백질이 주어진 위치에 정확하게 binding 할 확률을 계산하도록 하는 것이다. 이때 genome 전체 서열(g)에 주어진 서열(t)이 정확하게 mapping될 확률은 t/g로 포아송 분포 (poisson distribution) 혹은 negative binomial distribution을 이용하여 추정하게 된다[3].
 이후 consensus binding sequence를 도출하게 되면 이를 데이터베이스로 하여 다른 종의 분석에 이용할 수 있게 된다. 이렇게 TF와 그에 관련된 정보로 전문화 하여 구축된 데이터베이스 중 거의 유일한 곳이 BIOBASETRANSFAC이다(그림4)[6].

사용자 삽입 이미지
그림 4. TRANSFAC.
Transcription factor와 binding site 및 관련
pathway정보를 담고 있는 유일한 TF database.

 TRANSFAC은 genome내의 유전자 upstream 분석에 기초 자료를 제공하여 유전자 조절 메카니즘 분석에 필수적으로 이용되고 있다. 실험적으로 검증된 TF의 정보를 manual curation을 통해 고품질의 데이터를 쌓아가고 있으며, 그간 CHIP-chip 방식의 데이터로 밝혀지던 정보들이 CHIP-seq 방식의 데이터로 전환 되면서 더욱 빠르게 진행되고 있어 이를 이용한 BIOBASE의 데이터베이스 또한 더욱 빠르게 쌓여갈 것으로 예상된다. 뿐만 아니라 이미 human의 경우 모든 유전자의 upstream을 분석하여 binding 가능한 TF를 제공하고 있으며, 이를 이용한 pathway 분석에도 많은 데이터와 분석 프로그램을 제공하고 있다. 그중 TRANSPATH는 affymatrix data를 이용한 발현 분석 시 DEGs의 pathway를 분석하는데 해당 유전자의 upstream에 존재하는 TFs와 관련 pathway를 분석하여 세포내 전체적인 유전자의 기능을 살펴볼 수 있도록 하였다[6].

 이러한 CHIP-Seq은 다양한 플랫폼에서 분석이 가능한 가운데, CLC NGS Cell을 이용하여 assembly를 진행하게 되면 genbank 형식의 ‘.gbk' 파일을 reference로 사용하여 GUI 형태로 유전체 전체의 분포를 확인할 수 있어 데이터 해석의 용이함을 얻을 수 있다(1-2. Assemble 참조). 또한 비슷하게 Illumina의 Genome Analyzer의 경우 ChIP-seq 분석을 통해 얻어진 작은 서열들을 ELAND를 이용하여 유전체에 정렬하게 되고 그 결과는 UCSC genome browser를 통해 유전체 내의 위치와 분포를 확인할 수 있다(그림 5).

사용자 삽입 이미지
그림 5. UCSC genome browser를 통한 TF binding site의 유전체 내 위치 확인.
붉은색으로 정렬된 바는 NGS로 시퀀싱 되어진 reads로
유전체와의 reference assemble를 통해 위치를 확인한다.[4]





다음 연재에서는 약 2주에 걸쳐 유전체 내의 유전자 위치와 기능을 해독하는 과정인 genome annotation에 대해 알아보겠습니다.
많은 관심 부탁드립니다.


참고문헌

 1. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 2. Weber M, Schubeler D. (2007) Genomic patterns of DNA methylation: targets and function of an epigenetic mark. Curr Opin Cell Biol. 19, 273-80
 3. Roch 454 : Applications - Epigenetics
 (http://www.454.com/applications/ChIP-seq-methylation-epigenetics.asp)
 4. Illumina : Applications - Gene Regulation and Epigenetic Analysis
 (http://www.illumina.com/applications.ilmn#dna_protein_interaction_analysis_chip_seq)
 5. Appied Biosystems : Applications & Technologies - The SOLiD System
 (http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiD-System-Sequencing-A/index.htm)
 6. Kel, A., Voss, N., Jauregui, R., Kel-Margoulis, O. and Wingender, E. (2006) Beyond microarrays: Find key transcription factors controlling signal transduction pathways BMC Bioinformatics. 7, S13



Posted by 人Co

2010/03/12 08:18 2010/03/12 08:18