연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 약 2주에 걸쳐 유전체 내의 유전자 위치와 기능을 해독하는 과정인 Genome Annotation에 대해 연재가 될 예정입니다. 오늘은 Genome Annotation 중에서도 첫번째 단계인 유전체 서열 내에서 유전자의 위치와 구조 정보를 밝혀내는 Structural annotation에 대해 알아보겠습니다.

2-4. Genome Annotation


 2009년 현재 human을 비롯한 mammalian에서 microbial까지 많은 유전체 프로젝트가 완료되었거나 진행되고 있으며, NCBI의 사이트에서 그 내용을 확인할 수 있다. 이렇게 다양한 종에서 완료되었거나 진행 중인 유전체 프로젝트는 NGS 시대를 맞이하여 더욱 가속화 되었다. 유전체 프로젝트는 유전체 서열을 시퀀싱을 통해 추출하는 단계와 유전체 내의 유전자 위치와 기능을 해독하는 단계로 구성된다. 여기서 유전체 내의 유전자 위치와 기능을 해독하는 과정을 genome annotation이라고 정의하며, genome annotation은 세 가지 과정으로 구분할 수 있다. 유전체 내의 유전자에 대한 구조적 정보를 분석하는 structural annotation, 유전자의 기능을 규명하는 functional annotation, 그리고 마지막으로 수학적 알고리즘으로 밝혀지지 않는 부분을 생물학 전문가가 면밀히 분석하는 manual curation 과정으로 구성되어 있다. 이번 장에서는 genome annotation에 대한 세 가지 과정에 대하여 구체적으로 알아보고자 한다.

 2-4-1. Structural annotation

 
 Genome annotation의 첫 번째 단계인 structural annotation은 유전체 서열 내에서 유전자의 위치와 구조 정보를 밝혀내는 것을 목적으로 하여 유전체 서열 전체의 유전자 지도를 완성한다. 유전체 서열에는 실제 단백질을 코딩하는 유전자 영역과 그 외 나머지 영역으로 크게 나눠진다. 그중 유전자는 exon과 intron으로 나눠지고 유전자의 발현을 조절하는 프로모터 영역이 일반적으로 유전자의 앞단에 위치하고 있다(그림 1).

사용자 삽입 이미지
그림 1. Structural annotation.
유전체 내의 유전자의 위치 정보와 상세 구조정보를 규명한다.

 또한 유전체 서열의 상당 부분을 차지하고 있는 반복 서열과 transposon elements 들도 유전체의 다양한 영역에 존재하고 있다. 인간 유전체의 경우 약 30억 쌍의 염기서열 중 실제 단백질로 코딩되는 영역인 엑손 영역은 전체 염기 중 단 1%에 불과하다. 99%의 나머지 서열은 non-cording RNA, intron, repeat, regulation 영역이 대부분 차지하고 있다. 따라서 유전체에서 여러 가지 형태의 서열들에 대한 위치 정보를 다양한 데이터베이스와 알고리즘을 이용하여 분석하고 있으며, 과정은 다음과 같다(그림 2).

사용자 삽입 이미지
그림 2. Structural annotation 워크플로우.
Ab initio 와 유전체 매핑을 결합한 방식.




다음 연재에서는 진핵생물의 유전체 서열 중 가장 많은 영역을 차지하는 반복서열 분석법과 유전자 모델링 중에서 유전자의 위치를 예측하는 유전자 예측에 대해 알아보겠습니다.
많은 관심 부탁드립니다.


참고문헌

 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/15 13:34 2010/03/15 13:34

[Quipu Issue Paper] Epigenomics Ⅱ - ChIP-seq

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주 연재에서는 Next Generation Sequencing의 세 번째 Application인 Epigenomics 중에 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site를 동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.

2-3-2. ChIP-seq


 CHIP(chromatin-immunoprecipitation)은 특정 유전체 영역에 binding 하는 히스톤이나 전사 인자(Transcription Factors, TFs)와 같이 특정 DNA서열에 binding 하는 단백질과 genomic fragments를 분리하기 위해 많이 응용 되어 왔다. 이 기술은 빠르게 발전하여 large-scale의 TF-DNA interactions 혹은 chromatin packaging (histone modification을 통한 genomic DNA와의 packaging) 연구에 중심 기술로 자리 잡았다. CHIP-Seq은 기존의 CHIP-chip에서 보여 지던 해상도의 한계와 chip에 올려 진 프로브에 대한 한계를 극복하는 방법으로 단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site를 동정하는 방법으로 발전하였다(그림 3). 그 결과 genome wide epigenetic study가 가능하게 되었다.

사용자 삽입 이미지
그림 3. CHIP-Seq을 이용한 단백질 binding site 규명.
Genomic DNA와 특정 단백질의 binding 후 단백질 specific antibody를 이용하여 
분리한다. 이후 단백질을 제거하고 NGS 기술을 이용하여 시퀀싱 한다[5].

 CHIP-seq은 실험적으로 짧은 DNA 절편에 binding하는 특성 때문에 non-specific binding complex의 background 처리가 반드시 필요하다. 이를 해결하기 위해 실험적으로는 antibody 만을 사용한 대조군을 설정하여 비교하는 방법과, 통계학적으로는 주어진 단백질이 주어진 위치에 정확하게 binding 할 확률을 계산하도록 하는 것이다. 이때 genome 전체 서열(g)에 주어진 서열(t)이 정확하게 mapping될 확률은 t/g로 포아송 분포 (poisson distribution) 혹은 negative binomial distribution을 이용하여 추정하게 된다[3].
 이후 consensus binding sequence를 도출하게 되면 이를 데이터베이스로 하여 다른 종의 분석에 이용할 수 있게 된다. 이렇게 TF와 그에 관련된 정보로 전문화 하여 구축된 데이터베이스 중 거의 유일한 곳이 BIOBASETRANSFAC이다(그림4)[6].

사용자 삽입 이미지
그림 4. TRANSFAC.
Transcription factor와 binding site 및 관련
pathway정보를 담고 있는 유일한 TF database.

 TRANSFAC은 genome내의 유전자 upstream 분석에 기초 자료를 제공하여 유전자 조절 메카니즘 분석에 필수적으로 이용되고 있다. 실험적으로 검증된 TF의 정보를 manual curation을 통해 고품질의 데이터를 쌓아가고 있으며, 그간 CHIP-chip 방식의 데이터로 밝혀지던 정보들이 CHIP-seq 방식의 데이터로 전환 되면서 더욱 빠르게 진행되고 있어 이를 이용한 BIOBASE의 데이터베이스 또한 더욱 빠르게 쌓여갈 것으로 예상된다. 뿐만 아니라 이미 human의 경우 모든 유전자의 upstream을 분석하여 binding 가능한 TF를 제공하고 있으며, 이를 이용한 pathway 분석에도 많은 데이터와 분석 프로그램을 제공하고 있다. 그중 TRANSPATH는 affymatrix data를 이용한 발현 분석 시 DEGs의 pathway를 분석하는데 해당 유전자의 upstream에 존재하는 TFs와 관련 pathway를 분석하여 세포내 전체적인 유전자의 기능을 살펴볼 수 있도록 하였다[6].

 이러한 CHIP-Seq은 다양한 플랫폼에서 분석이 가능한 가운데, CLC NGS Cell을 이용하여 assembly를 진행하게 되면 genbank 형식의 ‘.gbk' 파일을 reference로 사용하여 GUI 형태로 유전체 전체의 분포를 확인할 수 있어 데이터 해석의 용이함을 얻을 수 있다(1-2. Assemble 참조). 또한 비슷하게 Illumina의 Genome Analyzer의 경우 ChIP-seq 분석을 통해 얻어진 작은 서열들을 ELAND를 이용하여 유전체에 정렬하게 되고 그 결과는 UCSC genome browser를 통해 유전체 내의 위치와 분포를 확인할 수 있다(그림 5).

사용자 삽입 이미지
그림 5. UCSC genome browser를 통한 TF binding site의 유전체 내 위치 확인.
붉은색으로 정렬된 바는 NGS로 시퀀싱 되어진 reads로
유전체와의 reference assemble를 통해 위치를 확인한다.[4]





다음 연재에서는 약 2주에 걸쳐 유전체 내의 유전자 위치와 기능을 해독하는 과정인 genome annotation에 대해 알아보겠습니다.
많은 관심 부탁드립니다.


참고문헌

 1. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 2. Weber M, Schubeler D. (2007) Genomic patterns of DNA methylation: targets and function of an epigenetic mark. Curr Opin Cell Biol. 19, 273-80
 3. Roch 454 : Applications - Epigenetics
 (http://www.454.com/applications/ChIP-seq-methylation-epigenetics.asp)
 4. Illumina : Applications - Gene Regulation and Epigenetic Analysis
 (http://www.illumina.com/applications.ilmn#dna_protein_interaction_analysis_chip_seq)
 5. Appied Biosystems : Applications & Technologies - The SOLiD System
 (http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiD-System-Sequencing-A/index.htm)
 6. Kel, A., Voss, N., Jauregui, R., Kel-Margoulis, O. and Wingender, E. (2006) Beyond microarrays: Find key transcription factors controlling signal transduction pathways BMC Bioinformatics. 7, S13



Posted by 人Co

2010/03/12 08:18 2010/03/12 08:18

 난 2월 26일(금) Systems Biology 전문 소프트웨어 개발회사인 Ariadne Genomics사에서 Anton Yuryev 박사가 내한하였습니다. Anton Yuryev 박사는 이번 세미나에서 nutrigenomics, toxicogenomics와 biomarker발굴 연구에 응용할 수 있는 Pathway Studio 프로그램의 다양한 분석 활용에 대해 소개해주셨습니다.

 세미나는 26일 하루 동안 서울과 대전 두 곳에서 바쁘게 진행되었습니다. 먼저 오전에 서울대학교 약학대학에서는 서울 근교 지역에서 여러 분들이 참석을 해주셨습니다. 서울대학교 분석약학실의 권성원 교수님의 Anton박사 약력 소개와 이어 (주)인실리코젠의 Codes팀 박준형 팀장님께서 이날 세미나의 취지에 대해 말씀해 주시는 것으로 세미나가 시작되었습니다. Anton박사는 Pathway Studio에 대한 간략한 소개와 skin care에 대한 새로운 idea, 다양한 물질에 대한 toxicity mechanism, drug action mechanism, disease pathway 등 다양한 case study를 Pathway Studio 이용하여 어떻게 분석할 수 있는지에 대해 설명해 주셨습니다.

사용자 삽입 이미지
1시간 30분간의 서울에서의 세미나 일정을 마치고 간단하게 점심을 먹고 대전으로 향했습니다. 점심을 먹는 동안에는 김연아 선수의 프리스케이팅 경기가 있었습니다. Anton Yuryev 박사님께 김연아 선수에 대한 소개도 해드리고 함께 경기를 지켜보았습니다. 김연아 선수의 좋은 성적으로 기분 좋게 대전으로 출발할 수 있었던 것 같습니다.

 전에서는 한국생명공학연구원에서 세미나가 진행되었는데 한국생명공학연구원분들과 KAIST 그리고 멀리 부산에서도 참석하여 함께 자리를 빛내주셨습니다. 세미나에 대한 소개를 시작으로 Anton Yuryev 박사의 세미나가 시작되었습니다. 세미나는 서울에서와 마찬가지로 Pathway Studio에 대한 간략한 소개와 drug epositioning and combination therapy design이라는 주제에 중점을 둔 case study 내용으로 진행되었습니다. 세미나가 끝나고 멀리 있어서 자주 찾아뵙지 못하는 분들과 반갑게 대화를 나누는 시간도 잠시 가졌습니다.

사용자 삽입 이미지
  렇게 26일의 서울과 대전의 바쁜 일정을 마치고 27일(토)에는 Anton Yuryev 박사께서 직접 저희 회사에 방문해 주셔서 내부 세미나를 진행해주시기도 하였습니다. 한층 더 업그레이드된 ResNet Database curator, MedScan 기술, 그리고 Pathway Studio의 API에 대해 Training을 받았습니다. 저희 회사에서 앞으로 Pathway Studio 컨설팅을 하는데 있어서 도움이 될 수 있는 내용에 대해 배우는 중요한 시간이 되었습니다.

사용자 삽입 이미지
  다시 한 번 바쁘신 와중에도 지난 26일(금)에 세미나에 참석해 주신 모든 분들께 진심으로 감사드리며, 이번에 개최된 세미나가 많은 분들께 유익한 시간이 되었기를 바랍니다. 앞으로도 저희 (주)인실리코젠에서는 세미나를 진행함에 있어 부족한 점들을 지속적으로 보완하여 세미나에 참여하시는 모든분들께 보다 새롭고 다양한 정보를 제공할 수 있도록 노력하겠습니다. 발표 내용이나 PathwayStudio에 대한 문의사항이 있으시면 언제든지 대표전화(031-278-0061) 또는 Codes팀(codes@insilicogen.com)으로 문의하여 주십시오.

감사합니다.




Posted by 人Co

2010/03/09 17:46 2010/03/09 17:46

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주 연재에서는 Next Generation Sequencing의 세 번째 Application으로 유전자의 염기서열에는 변화를 주지 않으면서 유전자의 발현 등에 영향을 주어 개체의 차이를 나타내게 하는 현상에 대해 연구하는 Epigenomics의 분석 방법에 대해 알아보겠습니다.

2-3. Epigenomics


 2003년 인간 유전체에 대한 서열해독 이후로, 유전체에 대한 기능적 분석에 연구가 증가하면서, 이른바 post genomics시대가 도래하고 유전체 연구와 함께 이들의 발현과 작용에 대한 연구들이 활발해 지고 있다.  Epigenetics라는 분야는 이러한 흐름을 주도하는 분야로서, 유전되는 DNA서열로만 설명이 불가능한 부분의 해석을 돕고, 보다 발전적인 유전체 연구를 목적으로 진행되고 있다. Epigenetics에서 가장 주요하게 여겨지는 부분은 유전자의 발현으로서, 유전자가 유전체에 존재하지만, 발현여부에 따라 세포내 역할이 달리지고, 달라진 발현양상은 유전물질처럼 후대에게도 영향을 주는 것이다. 이는 기존의 유전체가 답하지 못했던 물음에 실마리를 제공하면서, 유전체를 좀 더 잘 이해하기 위한 수단으로 이용되고 있다[1].

사용자 삽입 이미지
그림 1. DNA methylation에 의한 유전자 발현 및 억제

 Epigenomic study의 연구대상으로 가장 대표되는 것이 DNA-methylation이다. DNA strand에서 CpG island가 있고 이중 cytosine이 5-methyl cytosine으로 modification 되는 현상이다. 이러한 methylation 현상은 유전체 전반에 걸쳐 일어나는 것으로 유전자의 단백질 코딩 영역이나 전사 조절 부위에서 관찰이 되며 이는 곧 유전자의 발현에 관여하게 된다[2]. 대표적인 예로 X-염색체 inactivation을 통한 유전자 dosage 조절이나 발달과정에서 필요한 유전자들의 발현을 성장 시기에 맞춰 선택적으로  조절 하는 것이 이에 해당 한다. 뿐만 아니라 외부의 retro virus나 transposon의 발현 억제와 cancer에 의한 repressor 유전자의 inactivation 기작 역시 DNA methylation을 통해서 이루어지고 있어 질병과 관련하여 유전체 연구에서 중요하게 다뤄지고 있다. 

2-3-1. Methylation Analysis


 Genome methylation을 알아보기 위한 기존의 방법은 Methylation Sensitive Restriction Enzyme (MSRE)을 이용하거나,  살펴보고자 하는 특정 영역에 해당하는 프라이머를 작성하여 PCR을 수행 하는 방법 등이 이용되었다. 그러나 NGS 기술의 발달로 epigenetics 분야의 연구 또한 대량의 functional gene study가 일반화 되어가고 있다. 가장 대중적인 방법은 genomic DNA를 추출하여 bisulfate를 처리한 후에 NGS를 통한 대량 sequencing을 수행하는 것이다(그림 2).

사용자 삽입 이미지
그림 2. Genomic DNA의 bisulfate처리로 methylation 여부를 확인.
Methylation 되어 있지 않은 cytosines은 bisulfite 처리로 uracil로 바뀌게 되고 반면,
methylation 되어 있는 cytosines에는 변화가 없어 genome상의 서열변화로 methylation 여부를 확인한다[3].

시퀀싱 된 NGS reads는 reference assembly를 통해 유전체 내의 전체적인 5-methyl cytosine의 분포를 확인 하는데 이용하게 된다. 이러한 분석은 ABI-SOLiD, Illumina의 Solexa 그리고 Roche 454 모두 가능한 플랫폼이긴 하나 long reads 시퀀싱을 수행하는 Roche 454가 조금 더 유용하게 이용되고 있다[3].

다음 연재에서는  단백질에 binding된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site를 동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.
많은 관심 부탁드립니다.



참고문헌


 1. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 2. Weber M, Schubeler D. (2007) Genomic patterns of DNA methylation: targets and function of an epigenetic mark. Curr Opin Cell Biol. 19, 273-80
 3. Roch 454 : Applications - Epigenetics
 (http://www.454.com/applications/ChIP-seq-methylation-epigenetics.asp)
 4. Illumina : Applications - Gene Regulation and Epigenetic Analysis
 (http://www.illumina.com/applications.ilmn#dna_protein_interaction_analysis_chip_seq)
 5. Appied Biosystems : Applications & Technologies - The SOLiD System
 (http://www3.appliedbiosystems.com/AB_Home/applicationstechnologies/SOLiD-System-Sequencing-A/index.htm)
 6. Kel, A., Voss, N., Jauregui, R., Kel-Margoulis, O. and Wingender, E. (2006) Beyond microarrays: Find key transcription factors controlling signal transduction pathways BMC Bioinformatics. 7, S13


Posted by 人Co

2010/03/08 11:26 2010/03/08 11:26

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 두 번째 Application인 Expression study 중에 유전자와 엑손의 발현 및 발현된 유전자의 각종 변이 등을 한 번에 연구할 수 있는 RNA-Seq 분석에 대해 알아보겠습니다.

2-2-6. RNA-Seq Analysis


 Serial Analysis of gene Expression(SAGE), Cap Analysis of gene expression (CAGE), 그리고 Massively Parallel Signature sequencing(MPSS)은 특정 유전자의 발현 양 정보를 얻고자 하는 목표로 수행되는 방법들이다. 이러한 방법들은 많이 이용되고 있지만 Sanger 방법에 바탕을 둔 것으로 높은 비용과 짧은 reads는 reference 서열에 유일하게 매핑하기 힘들다는 문제점을 가지고 있다. 이러한 문제점들을 극복하기 위한 방법으로는 유전자와 엑손의 발현 및 발현된 유전자의 각종 변이 등을 한 번에 연구할 수 있는 RNA-Seq기술이 있다[1].

표 1에서 보는 것과 같이 RNA-Seq을 분석 할 수 있는 프로그램에는 여러 가지 소프트웨어가 있는데 그 중에 CLC Genomics Workbench는 annotation된 Reference 유전체 서열과 mRNA 시퀀싱 reads를 바탕으로 새로운 엑손의 발굴뿐만 아니라 유전자 발현 레벨을 계산할 수 있다. RNA-Seq 분석은 몇 가지 단계로 수행된다. 먼저, Reference 서열에서 모든 유전자를 추출한다. 이 때 유전자 서열의 다른 annotation들은 보존된다[23].

사용자 삽입 이미지
다음으로 영역 주변의 엑손-엑손 경계를 추출한다. 그 다음으로 모든 엑손-엑손 junctions plus에 대한 Reference assembly가 수행된다. 이 assembly로부터 각각의 유전자에 대해 발현 수치가 계산되고 putative exon을 확인할 수 있다. 발현 수치는 RPKM(reads per kilobase of exon model per milion mapped reads)방법으로 측정된다(그림 9).

사용자 삽입 이미지
그림 9. RNA_seq analysis.
(a) exon-exon junction+gene 서열을 reference 서열로 한다.
(b) NGS reads의 reference assembly를 통한 alignment를 통해
새로운 각 엑손 단위 혹은 유전자 단위의 발현양을 확인한다.


다음 연재에서는 한정적인 유전자를 좀 더 다양하게 활용할 수 있는 Alternative splicing 분석에 대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌


1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by 人Co

2010/03/04 08:59 2010/03/04 08:59
, , , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/51

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 어제에 이어 Next Generation Sequencing의 두 번째 Application인 Expression study에 대한 내용으로 Differentially Expressed Genes(DEGs) Functional annotation 중에 Text-mining을 통한 대사회로 분석Promoter 영역 분석을 통한 발현 조절 메카니즘 분석에 대해 알아보겠습니다.

B. Text-mining을 통한 대사회로 분석


 대사회로 분석은 세포내 유전자들이 생물학적으로 기능이 유사하거나 동일한 조절 기작을 통해 동일 시간상에서 유사한 발현 양상을 보일 것이라는 가정 하에 이루어진다. 선별된 유전자들(DEGs) 사이에서의 대사회로 분석을 통하여 대사회로 내에서 유전자들의 발현양상에 따라 up-regulation 혹은 down-regulation 되는지 분석할 수 있다. 또한 이들 간의 signal 관계가 upstream에 존재하는지 down- stream에 존재하는지 여부를 분석할 수 있다. 이러한 분석이 가능한 프로그램으로는 Ariadne사의 Pathway Studio가 있다[16].

사용자 삽입 이미지
그림 7. DEG 유전자의 pathway 분석

DEGs를 이용한 pathway 분석으로 유전자간의 조절 관계와 upsteam, downstream 단백질을 GUI를 통한 그래픽으로 확인이 가능하다[16].

Pathway Studio는 차등발현유전자들을 조절하는 상위 조절인자를 분석하거나 차등발현유전자들이 공통적으로 작용하고 있는 질병, 세포내 프로세스 등을 분석할 수 있는 유용한 프로그램이다. 


C. Promoter 영역 분석을 통한 발현 조절 메카니즘 분석


 선별된 유전자에 대해서 유전자의 발현 양을 조절하고 세포내의 항상성 유지를 위해 여러 유전자들 간의 긴밀한 네트워크를 통해 이뤄지는 유전자 조절 메카니즘을 분석한다. 유전자의 구조 중에서 특히 유전자의 기능에 중요한 영향을 미치는 부분은 유전자의 발현을 조절하는 프로모터 영역이다. 프로모터를 포함한 유전자의 upstream에 존재하는 전사인자  binding site의 예측을 통해 유전자의 발현 조절이 어떠한 메카니즘을 통해 이뤄지는지를 분석한다.

사용자 삽입 이미지
그림 8. Upstream regulation 분석.
TransFac을 활용한 DEGs의 upstream에 존재하는 공통된 transcription factor를 탐색

가장 대표적인 프로그램으로 BIOBASE사의 TRNASFAC을 꼽을 수 있다[15]. 실험적으로 검증된 전사인자들로 생물 전문가의 꼼꼼한 검증을 통해 구축된 데이터베이스는 현재 인간을 중심으로 식물, 효모R에 이르기까지 계속해서 확대 되고 있다. TRANSFAC의 서브 프로그램인 Patch와 Match를 활용하면 미지의 유전자 upstream 서열의 binding 가능한 전사인자를 검색할 수 있고, 이는 유전자 네트워크에서의 생물학적인 의미를 찾을 수 있는 기초 데이터가 된다.

다음 연재에서는 유전자와 엑손의 발현 및 발현된 유전자의 각종 변이 등을 한 번에 연구할 수 있는 RNA-Seq기술에 대해 알아보겠습니다.

많은 관심 부탁드립니다.

참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by 人Co

2010/03/03 10:03 2010/03/03 10:03

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이 번주 연재에서도 지난주에 이어 Next Generation Sequencing의 두 번째 Application인 Expression study에 대한 내용으로 연재가 진행될 예정입니다. 오늘은 서로 다른 종에서 동일한 기능을 수행하는 ortholog 유전자를 분석하는 방법과 Differentially Expressed Genes(DEGs) Functional annotation 중에 Gene Categorization을 이용한 Hypergeometric test에 대해 알아보겠습니다.

2-2-4. Ortholog Analysis



 서로 다른 종에서 동일한 기능을 수행하는 유전자들의 관계를 ortholog 유전자라고 한다. 일반적인 분석법으로는 서열 유사성을 근간으로 분석이 진행된다. COG 알고리즘에 의하면 최소 세 종 이상의 유전자가 서로 top match로 연결이 될 때 비로소 하나의 ortholog 그룹을 형성하는 것으로 분석하고 있다[18]. 그러나 이러한 분석법에는 어느 정도의 노이즈가 존재 하므로 이를 해결하려는 시도로 여러 가지 분석법이 소개 되었다. 그중 서열 유사성에 synteny를 접목한 분석법과 발현 패턴을 이용한 분석법이 있다. 여기서는 발현 패턴을 이용한 분석법에 대해 알아보자.

동일한 기능을 수행한다면 동일한 발현 패턴으로 조절될 것이라는 가정 하에 일정 수준 이상의 서열 유사성을 갖는 유전자들끼리 DEP를 활용한 Pearson’s correlation coefficient를 분석하여 ortholog 유전자를 찾는 방법이다. 다음은 Pearson's correlation coefficient 인 ‘r’을 구하는 수식이다.

사용자 삽입 이미지
두 단계로 진행되는 분석으로 일차 분석은 서열 유사성 검사이다. 단백질 수준으로 BLAST를 수행하여 일정 수준 이상의 homology를 갖는 유전자는 모두 분석 대상으로 한다.
그림 3의 unigene 1과 가장 서열상 유사한 유전자를 human을 대상으로 분석하고자 할 때 보통 e-value를 파라미터로 하여 일정 수준(‘1e-10’)을 통과하는 유전자를 2차 분석 대상자로  분류한다. 2차 분석에서는 DEP를 활용한 Pearson’s correlation coefficient를 분석한다.

사용자 삽입 이미지
그림 6. DEP를 활용한 ortholog 유전자 분석.
Tomato와 arabidopsis 유전자 간의 DEP를 5개의 조직에 대해 작성하여 서열 유사성과 발현 패턴을 비교하여 ortholog 유전자를 분석하였다. (a) 서열유사성으로는 tomato의 TC-116371 (peroxidase)과 arabidopsis의 TC- 183341 이 가장 유사하지만 발현패턴과 함께 비교하면 TC183911이 ortholog 유전자가 됨을 확인수 있었다. (b), (c) 모두 동일한 결과를 보이고 있다[2].

 단, DEP의 라이브러리 구성이 두 종간에 서로 일치하여야 한다. Cluster 1(Unigene 1)의 DEP와 human의 후보 유전자 DEP를 1:1로 correlation 분석을 진행하여 coefficient value ‘r’이 ‘1’에 가까울수록 서로 유사한 상관관계를 가지며, ‘-1’에 가까울수록 반대되는 상관관계를 가지고, ‘0’에 가까울수록 상관관계가 없는 것으로 해석한다[10, 19] 이러한 결과는 그림 6의 예제에서 보다 정확한 ortholog 분석 결과를 보여 주고 있다.

2-2-5. Differentially Expressed Genes (DEGs) Functional annotation


 앞서 소개한 DEP를 활용하여 유전자 발현 패턴을 분석하면 특정 컨디션에서 높은 발현을 보이는 Differentially Expressed Genes(DEGs)을 얻을 수 있다. 같은 맥락의 조직특이 유전자들도 이에 해당 하는 것으로 이들은 특정 조건으로 묶인 만큼 공통된 생물학적 기능을 갖을 것이라 기대 하고 있다. 이를 분석 하기 위해 gene categorization을 이용한 통계학적 분석과 텍스트 마이닝을 통한 대사회로 분석 및 발현 조절 부위 분석을 진행하게 된다.


A. Gene Categorization을 이용한 Hypergeometric test


Gene Ontology(GO)와 같이 organism 내의 모든 유전자를 카테고리화하여 유전자 구성이 어떻게 되는지를 분석하는 것은 유전자의 기능 분석에서 일반적인 분석법 중 하나이다. 이러한 카테고리 구성 방식은 GO와 함께 MIPS의 FunCat도 많이 이용되고 있는데, 이들을 이용하여 DEG와 같은 특정 요건으로 묶인 유전자들의 기능이 어떤 카테고리에 집중되어 있는지를 hypergeometric test를 이용하여 분석한다[12, 13]. Hypergeometric test의 확률 값을 구하는 수식은 다음과 같다.

사용자 삽입 이미지
여기서 ‘N’은 organism 전체의 유전자 개수를 의미하며 ‘n’은 DEGs의 개수를 의미 한다. 그리고 ‘K’는 전체 유전자 중 특정 카테고리 X(예:GO:00000345)에 해당하는 유전자 개수 이며, ‘i’는 DEGs 그룹 중 특정 카테고리 X에 해당하는 유전자 수를 의미한다. P-value cutoff와 enrichment를 이용하여 통계학적으로 유의한 유전자의 기능을 규명한다. 이러한 분석은 다중 검정을 통해 발생할 수 있는 오류를 보정 하게 된다(2-2-3. 조직특이 유전자 분석 참조).


다음 연재에서는  Differentially Expressed Genes(DEGs) Functional annotation 중에 Text-mining을 통한 회사대로 분석, Promoter 영역 분석을 통한 발현 조절 메카니즘 분석RNA-Seq 분석 방법에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by 人Co

2010/03/02 09:44 2010/03/02 09:44

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 두 번째 Application인 Expression study 중에 Digital Expression Profile(DEP)를 활용한 Expression pattern 분석Tissue Specific Gene 분석에 대해 알아보겠습니다.


2-2-2. Expression Pattern Analysis


 DEP를 활용하여 마이크로어레이 분석과 동일하게 다양한 조건에서의 유전자 발현을 분석한다. Fold change를 이용한 DEG 산출 및 hierarchical clustering, self-organizing maps, K-means clustering, PCA(Principle component analysis) 분석을 통해 의미 있는 발현 패턴들을 정교하게 표현하기도 하고, 이들 패턴들 간의 관계를 분석하기도 한다.
그림 4에서 보여 지는 것과 같이 모든 조직에서 일정한 비율로 발현되는 유전자는 house- keeping 유전자의 후보가 될 수 있으며, 유독 특정 조직에서만 발현되는 유전자들도 관찰 할 수 있다[2].

사용자 삽입 이미지
그림 4. DEP를 활용한 유전자 발현 패턴 분석. 
Hierarchical clustering을 수행하여 동일한
패턴을 보이는 유전자들끼리 클러스터링 수행

조직뿐만 아니라 약물에 대한 반응성 실험을 수행 할 경우에도 time-series 라이브러리를 제작하고 여러 샘플을 한 번에 시퀀싱 할 수 있는 Multiplex Identifiers(MIDs)를 이용하여 단 시간에 많은 데이터로 이 같은 분석을 진행할 수 있다. Roche 454의 경우 192에서 최대 2300 개의 샘플을 한 번에 로딩하여 시퀀싱이 가능할 정도로 유연성이 있으므로 다양한 조건을 대상으로 분석에 활용할 수 있는 이점이 있다[9].

 이러한 발현 분석은 종전의 마이크로어레이 분석 프로그램으로 분석이 가능하다. 대표적인 예로 Agilent사의 GeneSpring GX을 들 수 있다[14]. 기본적인 통계학적 분석으로 ANOVA 분석, multiple testing corrections, FDR prediction 그리고 Tukey and Student-Newman-Keuls post hoc test 가 가능하며, 그래픽 데이터 표현으로는 2D/3D scatter plots, 2D dendrograms, 염색체 지도, pathway 다이어그램, 그리고 분류별 보기 기능으로 다양하게 표현이 가능하다.

사용자 삽입 이미지
그림 5. GeneSpring GX.
유전자 발현데이터 분석 프로그램으로 다양한 통계 분석과 가시화 프로그램이 수행된다.


발현 패턴 분석으로는 gene trees, experiment trees, self-organizing maps, K-means clustering, QT clustering, 그리고 PCA 분석이 가능한 것으로 알려져 있다. 이 모든 기능은 데스크탑 컴퓨터에서 분석이 가능하며, 사용자 편의성이 강조된 인터페이스로 구성되어 있어, 비전문가도 쉽게 분석을 수행할 수 있다.

2-2-3. Tissue Specific Gene Analysis


 조직 특이 유전자는 특정 조직에서 그 유전자의 세포내 평균 발현 양 보다 특이적으로 높게 발현 되어 특정 조직의 성격을 결정지을 수 있는 유전자를 선별하는 것을 목적으로 한다.
따라서 NGS reads를 이용하여 분석하고자 할 때에는 조직별 라이브러리 제작 시 아무런
영향을 주지 않은 정상적인 발현 상태의 라이브러리를 제작해야하며, normalization이나 subtraction과 같은 인위적인 선출 방식의 시퀀싱이 아닌 무작위적인 방식의 시퀀싱이 진행되어야만 한다. 무작위 적으로 일어나는 사건에 대한 확률 값을 계산하므로 포아송 분포(poisson distribution)를 이용한 Audic’s test를 통해 조직 특이 유전자를 선별한다[8]. 다음은 Audic’s test를 이용한 확률 값을 구하는 수식이다.

사용자 삽입 이미지
  이 때, 다양한 cutoff 파라미터를 통해 확률적으로 유의한 유전자를 선별하는데, p_value, enrichment, frequency 그리고 클러스터내의 minimum reads count 등을 이용 할 수 있다. 이중 p_value는 유의 수준을 나타내는 것으로 0.001의 cutoff는 유의 수준 99.9%를 의미하게 된다. 그러나 조직 특이 유전자 선별을 위해 한 두 개의 유전자를 대상으로 연관성 분석이 진행 되는 것이 아니라 앞서 언급된 파라미터를 통과한 모든 클러스터를 대상으로 연관성 분석이 진행하므로 검사의 개수가 증가할수록 임의로 발생하는 오류 또한 증가하여 p_value의 의미가 감소하는 문제점이 발생하게 된다. 이를 극복하기 위해 Bonferroni correction, False Discovery Rate(FDR), 그리고 Permutation test와 같은 다중 검정을 수행하게 된다[6, 7].

실제 분석을 위해 앞서 작성한 Cluster Member Matrix(CMM; DEP작성시 초기 matrix)를 이용하여 각 클러스터별로 x, y, N1, N2을 지정하여 계산할 수 있다[16]. 예를 들어 그림 3의 표에서 클러스터 1의 유전자가 ‘OC’ 조직에 특이적인 발현 양을 보이는지를 검사 한다고 했을 때 대상 조직의 reads 개수인 y 는 ‘10’이 되고 그 외 나머지 조직에 해당하는 reads 개수인 x 는 ‘82’가 된다. 그리고 N2, N1 은 각각 해당 조직 전체 reads 개수와 나머지 조직의 전체 reads 개수인 ‘55,840’과 ‘184,301’에 해당한다. 이러한 분석은 하나의 클러스터마다 검사해야할 조직 개수만큼 수행된다.


이번주에 이어서 다음 주에 진행될 연재에서도 Expression study의 다양한 분석 방법에 대해 연재가 될 예정입니다. 많은 관심 부탁드립니다. 


참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by 人Co

2010/02/25 09:24 2010/02/25 09:24

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에  다양하게 구축되어 운영되고 있는 SNP 및 variation 데이터베이스에 대해 알아보도록 하겠습니다.


2-1-4. Variation Database


 다양하게 얻어진 각종 variation 데이터들은 기존에 구축되어진 데이터베이스와 비교하거나 이미 알려진 유전자 구조 정보를 활용함으로써 조금 더 유용한 정보를 얻을 수 있다. 따라서 대량의 유전변이형 정보를 체계적으로 수집하고 일반 연구자에게 전달하기 위해서는 다양한 variation 데이터베이스를 구축하여 언제든 활용할 수 있는 시스템으로 서비스 되어져야 한다. 현재 다수의 연구기관 및 연구그룹에서 SNP 및 여러 variation 관련 데이터베이스가 만들어져 운영되고 있다(표 3).

사용자 삽입 이미지
dbSNP는 미국 NCBI에서 관리하는 세계 최대의 SNP 데이터베이스로 rs#를 부여받은 human의 SNP만해도 7,344,853개(build130, 2009년 12월)가 수록되어 있다. 따라서 이렇게 축적된 대량의 SNP 데이터가 연구자들에게 제공됨에 따라 새롭게 특정 후보 유전자의 SNP를 다시 발굴할 필요 없이 대부분의 SNP 정보를 데이터베이스를 통하여 쉽게 이용할 수 있다(그림 6).

사용자 삽입 이미지
또한 좀 더 나아가 HGMD는 문헌에 보고된 모든 생식세포내의 질병을 유발하는 돌연변이들과 질병관련/기능성 다형성들을 기록하고 있다. 사실상 이는 학계에서 이용 가능한 중추적인 질병관련 돌연변이 데이터베이스로써, 암호화 시의 단일 염기쌍 치환(예, 미스센스 돌연변이와 넌센스 돌연변이), 인간 핵 유전자의 조절 및 접합관련 부위, 미세결실과 미세삽입, 결실과 삽입(indels), 반복 확장, 그리고 심한 유전자 손상(결실, 삽입 그리고 복제) 및 복합적 유전자 재배열에 관한 자료들을 제공하고 있다. 학술적으로 또는 비영리적인 목적으로 사용자 등록 후 무료로 이용 가능하다. 단, 이 돌연변이의 정보들은 데이터베이스에 최초로 추가된 후 2년 6개월 후에 공용 웹사이트에서 제공되기 때문에 최신 버전을 이용하려면 BIOBASE GmbH사로부터 인증을 받아 상업적 및 학술적 이용자에게 제공된다. 최신 돌연변이 자료 이외에도, HGMD Professional은 공용 사이트에서 제공하지 않는 첨단 검색 도구와 유전자 및 돌연변이에 대한 특별한 정보를 부가적으로 제공하고 있다(그림 7). HGMD Professional은 3개월 단위로 업데이트된다.

그 외 variation 정보를 위한 데이터베이스는 앞서 소개한 몇몇 큰 데이터베이스와 수백 가지의 유전자 각각에 대한 특화된 데이터베이스로 다원화 하여 존재하고 있다. 이들 정보의 통합 필요성이 인식 되면서 2006년 6월부터 전 인류의 유전자 변이에 대한 정보를 모으고 이를 카달로그화 하여 제공하고자 하는 국제적인 Human Variome Project(HVP, http://www.humanvariomeproject.org)가 출범되었고, 이를 통해 variome 연구는 개인의 유전적 차이 및 질병과의 관련성이 더 정확하게 밝혀져 질병에 대한 개인 간 차이 발생에 대해 더 세밀하고 진보한 해답을 얻을 수 있을 것으로 전망하고 있다.



참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

2010/02/21 19:19 2010/02/21 19:19
, , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/44

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.

 2-1-1. SNP (Single Nucleotide Polymorphism) Analysis


 인간 유전체 상에 가장 많이 존재하는 형태의 다형성은 유전체상의 특정 염기서열 하나의 변화이며, 흔히 SNP(Single Nucleotide Polymorphism) 또는 단일염기다형성이라고 부른다. 한 논문에서는 SNP를 검출하는 방법을 다섯 가지로 요약해 나타냈다(표 2)[3]. 이러한 방법들의 공통된 특징은 유전자 또는 염색체 부위를 증폭한 산물에 대한 염기서열을 분석하고 여러 염기서열을 정렬하여 염기서열 차이로서 SNP 존재 여부를 확인하는 것이다. 이러한 관점으로 볼 때 정렬되는 서열이 많을수록 통계적으로도 안정적이며 명확한 variation을 분석할 수 있게 된다. 따라서 제한된 시간 동안 가장 많은 서열을 생산할 수 있는 NGS는 이에 가장 부합하는 분석 도구가 될 것이다.

사용자 삽입 이미지

또한 HapMap project에서 발표한 human 유전체의 SNP 분포를 확인해 보면 공개된 SNP의 약 34.1%에 해당하는 SNP가 30bp 안에 군집하여 분포한다는 것이다(그림 2)[8]. 이는 종전의 마이크로어레이 방식에서 NGS 방식의 SNP 탐색으로의 전환이 매우 필수적임을 시사한다. 그 이유는 마이크로어레이에 심어질 프로브 서열 내에 또 다른 SNP가 포함될 가능성이 매우 높으며 이러한 SNP는 고정되어 있는 프로브 서열로 인해 탐색이 되지 않는 치명적인 제한점을 NGS 방식의 시퀀싱을 통해 매우 효율적으로 해결할 수 있기 때문이다.

사용자 삽입 이미지
그림 2. Human Genome의 SNP 분포.
30bp 내에 많은 SNP이 군집을 이루며 모여 있다.

 Variation 분석에 적합하도록 시퀀싱이 수행되고 나면 실제 많은 reads를 이용한assembly가 수행되고 그 결과를 바탕으로 서열을 비교하여 variation 부분을 탐색하게 된다. 그 중 SNP 분석의 경우, 시퀀싱 중에 일어난 오류에 기인한 mis-match인지 variation으로 인한 mismatch 인지를 구별하기 위한 여러 가지 파라미터를 설정하게 된다. Mismatch frequency 및 coverage(해당 위치의 서열 coverage)를 중심으로 잠재적인 SNP를 선별하게 된다. 이때, 조금 더 정확한 SNP를 구별하기 위해 viewer를 통해 서열 퀄리티를 확인하는 경우도 발생하게 되는데, 다양한 플랫폼에서 생성된 reads들은 고유의 포맷을 유지하고 있고 대부분의 open source로 제공되는 프로그램들은 특정 플랫폼의 데이터만을 다루도록 하고 있어 이를 확인하기에는 어려움이 따른다. 또한 특정 SNP가 cSNP 인지 여부나 더 나아가 단백질 서열까지 변화되는 synonymous SNP 인지 여부를 판단하기에는 생물정보학자의 도움이 절실히 요구된다. 그러나 이러한 과정 모두를 해결해 줄 수 있는 프로그램들이 계속해서 개발되어지고 있다. 그 중 CLC NGS Cell과 CLC Genomics Workbench는 NGS 데이터의 assembly와 사용자 편의의 인터페이스를 통해 분석된 SNP의 아미노산 서열 변화 확인을 위한 translation 분석, SNP 검증을 위한 PCR 프라이머 디자인, in-silico 클로닝 등의 통합 분석을 생물정보 전문가가 아닌 일반 연구자들 스스로 진행할 수 있도록 하고 있다. 뿐만 아니라 assembly를 수행할 때 reference 서열을 이미 annotation이 완료된 ‘.gbk’ 데이터로 진행할 수 있어, SNP로 생각되는 유전자의 위치 및 이미 등록된 SNP 정보들까지도 표시하여 함께 확인할 수 있기 때문에 NGS 기술을 이용한 SNP 분석에 추천할 만한 분석 파이프라인이라고 하겠다(그림 3).

사용자 삽입 이미지
그림 3. SNP 탐색을 위한 CLC Genomics Workbench



다음 연재에서는 SNP(Single Nucleotide Polymorphism) 이외에 정상 표현형인 인간의 유전체에 존재하면서 유전적 다양성에 기여하고, 암 또는 많은 질병 감수성과도 연관될 가능성이 높은 유전자 복제수(Copy number) 변이 분석법에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.


참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

2010/02/17 14:37 2010/02/17 14:37



« Previous : 1 : ... 3 : 4 : 5 : 6 : 7 : 8 : Next »