연재 순서

   1. Assembly
   2. Variation study
  3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

A. 반복서열 분석


 핵생물의 유전체 서열 중 반복 서열이 가장 많은 영역을 차지하고 있다. Transposon elements를 포함하여 simple repeat region, low complexity 영역이 전체 유전체의 약 70~ 80% 가량 해당된다. 따라서 반복서열 영역을 우선적으로 선별한 뒤 마스킹 작업을 통해 반복서열 영역에서의 유전자 예측은 예외로 처리한다. 물론, 반복서열 영역 내에도 단백질로 코딩 되는 부분이 존재 하지만, 극히 일부에 해당하기 때문에 추후에 따로 수행한다. 반복서열의 마스킹 작업은 주로 RepeatMasker (http://www.repeatmasker.org/) 분석 프로그램을 이용하여 진행한다. RepeatMasker는 유사성 기반의 검색을 통해 반복서열 데이터베이스에 존재하는 서열과 비교하여 유전체 내에 존재하는 transposon element와 retrotransposon element, rolling circles를 추출하고, TRF(tandem repeat finder)라는 서브 프로그램에 의해 단순반복 서열을 규명한다. 이때 종별로 특이적인 패턴을 가지는 반복서열이 (http://www.girinst.org/) 존재하므로 주기적으로 최신의 반복서열 데이터베이스를 업데이트하여 분석하는 것이 좋다. 2009년 11월 현재 Human을 포함하여 모두 26종에 대한 반복서열 데이터베이스를 제공하고 있으며, 연구자가 원하는 형태의 데이터베이스를 따로 구성하여 사용할 수도 있다. 

B. 유전자 모델링


 단백질로 코딩되는 유전자의 위치를 결정하는 일차적인 단계로 일반적으로 Ab initio 방식과 매핑 방식을 결합하여 사용한다. 이는 수학적 알고리즘을 통해 유전자의 위치를 예측하는 유전자 예측 과정과 실제 시퀀싱하여 밝혀진 mRNA, ESTs, 단백질 서열을 유전체 서열에 매핑하여 유전자 모델을 얻는 과정으로 구성된다.

 B-1. 유전자 예측


 유전자 예측 과정은 대부분 HMM 모델을 이용하여 서열상의 exon과 intron을 예측한다. exon과 intron사이의 ‘GT-AG’라는 splice signal을 인식하고 프로모터 영역과 3’ signal을 인지하는 방식으로 예측을 수행한다. 각 종마다 유전자 모델이 다르므로 정확한 유전자 모델을 설정하고 트레이닝 과정을 통해 종 특이적인 매트릭스를 형성하여 유전자 예측을 수행한다. 이때 예측 프로그램에 따라 연구자가 직접 매트릭스를 생성할 수 있도록 트레이닝을 수행할 수 있는 프로그램을 지원하는 공개용 예측 프로그램(Augustus[4], SNAP[10], GlimmerHMM[7])과 유료로 매트릭스를 구축, 제공하는 유전자 예측 프로그램(Fgenesh[6]), 그리고 주기적으로 업데이트된 매트릭스를 제공하는 프로그램(GeneId[8])으로 구분할 수 있다.  이들 중에서 가장 많이 사용되는 Softberry사의 Fgenesh는 다른 예측 프로그램에 비해서 정확성 및 신뢰성이 높아 국제적인 유전체 프로젝트에서도 이용되고 있다. Fgenesh는 유전자 예측 프로그램에서 가장 핵심이 되는 매트릭스를 제작하여 유료로 서비스하고 있으며, 일반적으로 매트릭스를 제작하는데 약 한 달 정도 분석을 수행한다. 고객은 mRNA, EST, 단백질 서열을 유전체 서열에 매핑 작업을 통해 정확한 유전자 모델을 제공하게 되고, Softberry사에서는 고객이 제공한 데이터와 공개되어 있는 서열을 대상으로 해당 유전체의 대표적인 유전자 모델 집단을 만든 후 매트릭스를 제작하게 된다. 이때, 제작된 매트릭스의 evaluation 자료도 함께 제공한다. 이후 유전자 예측 과정은 리눅스 환경에서 매우 간단하고 빠르게 진행된다. 분석 결과 또한 그림 3에서 보여 지는 것과 같이 유전자별로 TSS(transcription start site), CDS, polyA 등으로 유전체상의 위치 정보와 방향 정보를 알기 쉬운 구조로 제공하고 있다.

사용자 삽입 이미지
그림 3. Fgenesh 분석 결과


공개용 예측 프로그램으로 EBI에서 개발한 GeneId와 고전적인 예측 프로그램인 GenScan, GlimmerHMM과 Augustus 등이 주로 이용된다. 이들 모두 유전자 예측 프로그램의 사용 시에는 간단한 명령어로 유전자 예측을 수행한다. Augustus의 경우 분석 속도가 다른 프로그램들에 비해 느린 단점이 있다. 유전자 예측은 일반적으로 하나의 프로그램만을 사용하지 않고 여러 개의 프로그램을 동시에 사용하여 여러 개의 유전자 예측 모델을 생성한다. 이 후 유전자의 엑손, 인트론 단위로 규정화 되어있는 scoring 방식을 통해 여러 프로그램에서 중복적으로 예측된 유전자 모델을 우선적으로 채택하게 된다. 이러한 scoring 방식은 뒷부분에서 자세히 다루도록 한다.


다음 연재에서는 서열 정보를 이용하여 유전체를 정렬(Genome alignment)하는 방법에 대해 알아보겠습니다. 많은 관심 부탁드립니다.


참고문헌


 1. Lowe, T.M. and Eddy, S.R. (1997) tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. Nucleic Acids Res. 25, 955-964.
 2. Lewis SE, et al. (2002). Apollo: a sequence annotation editor. Genome Biology. 12, research0082
 3. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 13, 229-243
 4. Stanke M, Schoffmann O, Morgenstern B, Waack S. (2006) Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external  
 sources. BMC Bioinformatics. 7, 62. 
 5. Burge, C. and Karlin, S. (1997) Prediction of complete gene structures in human genomic DNA.  J. Mol. Biol.   268,  78-94.
 6. Salamov AA, Solovyev VV. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res. 10, 516–522.
 7. Majoros, W.H., Pertea, M., and Salzberg, S.L. TigrScan and GlimmerHMM: two open-source ab initio eukaryotic gene-finders Bioinformatics 20, 2878-2879.
 8. G. Parra, E. Blanco, and R. Guigó, (2000) Geneid in Drosophila Genome Research 4, 511-515.
 9. Haas BJ, Salzberg SL, Zhu W, Pertea M, Allen JE, Orvis J, White O, Buell CR, Wortman JR. (2008) Automated eukaryotic gene structure annotation using  
 EVidenceModeler and the Program to Assemble Spliced Alignments. Genome Biology 9, R7
 10. Korf I. (2004) Gene finding in novel genomes. BMC Bioinformatics. 5, 59.
 11. Kan, Z., Rouchka, E.C., Gish, W., and States, D. 2001, Gene structure prediction and AS analysis using genomically aligned ESTs, Genome Res. 11, 889–900.
 12. Eyras, E., Caccamo, M., Curwen, V., and Clamp, M. 2004, ESTGenes: AS from ESTs in Ensembl, Genome Res. 14, 976–987.
 13. Kent, W.J. 2002, BLAT-The BLAST-Like Alignment Tool, Genome Res. 12, 565–664.
 14. Florea, L., Hartzell, G., Zhang, Z., Rubin, G.M., Miller, W. 1998, Computer program for aligning a cDNA sequence with a genomic DNA sequence, Genome Res. 8,
 967–974.
 15. Huang X, Adams MD, Zhou H, Kerlavage AR. (1997) A tool for analyzing and annotating genomic sequences. Genomics. 46, 37–45.
 16. Wu TD, Watanabe CK. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences. Bioinformatics. 21, 1859–1875.
 17. Birney E, Clamp M, Durbin R. (2004) GeneWise and Genomewise. Genome Res. 14, 988–995.

Posted by 人Co

2010/03/16 10:56 2010/03/16 10:56