연재 순서 1. Assembly 2. Variation study 3. Expression study
4. Epigenomics
5. Genome Annotation
6. Next Generation Bioinformatics
7. Data Management for web 2.0 Era
8. Semantic Network for Integrated Biology Data
9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis
이번주부터 2주간 진행되는 연재에서는
Next Generation Sequencing의 두 번째 Application인
Expression study에 대해 알아보도록 하겠습니다.
2-2. Expression Study
Functional genomics의 유전자 발현 연구 분야에도
NGS는 예외 없이 새로운 방향을 제시하면서
transcriptome 분야를 포함하여 많은 부분에서 PCR이나 마이크로어레이 기술을 대체 하고 있다. 이러한
NGS 기술은 분석 할 종의 서열 정보가 없어도 분석 가능하여 어떤 생물종도 연구에 이용할 수 있다는 장점을 가지고 있다. 뿐만 아니라 한 번의 시퀀싱으로 수많은 read를 얻는 높은 coverage를 가지기 때문에 단 시간에 적은 비용으로 전체 염기서열을 결정할 수 있는 이점이 있다. 이러한 장점들은 마이크로어레이를 이용한 종전의 분석법에서 나타난 여러 문제점을 보완하면서 다양한 방향으로 연구를 수행할 수 있게 하였다. Development stage, stress, tissue와 같이 특정 컨디션에서의 유전자 발현 양상을 보는 것에서부터 조직 특이 유전자 분석, house keeping 유전자 분석, 유전자 발현을 이용한 ortholog 분석, SNP 분석 그리고 alternative splicing 분석에 이르기까지 다양한 분야에 걸쳐 분석이 가능하게 되었다[1].
발현 분석은 언제, 어디서, 어느 정도로 유전자들이 발현되는 지를 전사 수준에서 총체적으로 탐색 하는 것을 목적으로 한다. 따라서 원하는 컨디션이 반영된 mRNA를 추출하여 라이브러리를 제작하게 되고, 무작위 적으로 시퀀싱 하여 얻어진 서열을 클러스터링을 통해 발현 양을 추정하게 된다[2, 4, 5, 17, 18, 19].
전사 수준에서의 발현 패턴 분석을 위해 mRNA sequencing을 통해
세포내 유사한 발현 패턴을 보이는 유전자들을 분석
이러한 방법은 기존의 ESTs를 활용한 발현 분석과 동일한 방법으로, 클러스터링 방법 또한 EST 클러스터링과 같이 유전체 서열이 존재하는 경우 references assembly을 수행하여 유전자 영역을 기준으로 클러스터링을 수행하게 되고, 만약 유전체 서열이 존재하지 않을 경우 de novo assembly을 수행 하게 된다. 단 de novo assembly의 경우 assembly의 정확성을 위해 short reads 보다는 Roche 454의 long reads를 이용하는 것이 보다 정확한 결과를 얻을 수 있다(1-2. Assembly 참조)[17, 18, 19].
클러스터링이 완료되면 각 클러스터 별로 포함되어 있는 NGS reads의 개수를 발현 수치 값으로 환산하여
Digital Expression Profile(DEP)를 작성하게 되며 이는 마치 마이크로어레이의 intensity를 이용한 분석법과 같이 분석하게 된다[17, 18]. 이때, 실험적인 바이어스와 생물학적 컨디션을 고려한 다양한 통계적 방법이 이용된다.
다음 연재에서는
Expression study 중에 먼저 여러 조직에서 다양한 발형 양을 보이는 유전자의 경우 각 조직마다의 발현양을 계산하는 방법인
Digital Expression Profile(DEP) 작성하는 방법에 대해 알아보도록 하겠습니다.
많은 관심 부탁드립니다.
참고문헌1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)
Posted by 人Co