연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이 번주 연재에서도 지난주에 이어 Next Generation Sequencing의 두 번째 Application인 Expression study에 대한 내용으로 연재가 진행될 예정입니다. 오늘은 서로 다른 종에서 동일한 기능을 수행하는 ortholog 유전자를 분석하는 방법과 Differentially Expressed Genes(DEGs) Functional annotation 중에 Gene Categorization을 이용한 Hypergeometric test에 대해 알아보겠습니다.

2-2-4. Ortholog Analysis



 서로 다른 종에서 동일한 기능을 수행하는 유전자들의 관계를 ortholog 유전자라고 한다. 일반적인 분석법으로는 서열 유사성을 근간으로 분석이 진행된다. COG 알고리즘에 의하면 최소 세 종 이상의 유전자가 서로 top match로 연결이 될 때 비로소 하나의 ortholog 그룹을 형성하는 것으로 분석하고 있다[18]. 그러나 이러한 분석법에는 어느 정도의 노이즈가 존재 하므로 이를 해결하려는 시도로 여러 가지 분석법이 소개 되었다. 그중 서열 유사성에 synteny를 접목한 분석법과 발현 패턴을 이용한 분석법이 있다. 여기서는 발현 패턴을 이용한 분석법에 대해 알아보자.

동일한 기능을 수행한다면 동일한 발현 패턴으로 조절될 것이라는 가정 하에 일정 수준 이상의 서열 유사성을 갖는 유전자들끼리 DEP를 활용한 Pearson’s correlation coefficient를 분석하여 ortholog 유전자를 찾는 방법이다. 다음은 Pearson's correlation coefficient 인 ‘r’을 구하는 수식이다.

사용자 삽입 이미지
두 단계로 진행되는 분석으로 일차 분석은 서열 유사성 검사이다. 단백질 수준으로 BLAST를 수행하여 일정 수준 이상의 homology를 갖는 유전자는 모두 분석 대상으로 한다.
그림 3의 unigene 1과 가장 서열상 유사한 유전자를 human을 대상으로 분석하고자 할 때 보통 e-value를 파라미터로 하여 일정 수준(‘1e-10’)을 통과하는 유전자를 2차 분석 대상자로  분류한다. 2차 분석에서는 DEP를 활용한 Pearson’s correlation coefficient를 분석한다.

사용자 삽입 이미지
그림 6. DEP를 활용한 ortholog 유전자 분석.
Tomato와 arabidopsis 유전자 간의 DEP를 5개의 조직에 대해 작성하여 서열 유사성과 발현 패턴을 비교하여 ortholog 유전자를 분석하였다. (a) 서열유사성으로는 tomato의 TC-116371 (peroxidase)과 arabidopsis의 TC- 183341 이 가장 유사하지만 발현패턴과 함께 비교하면 TC183911이 ortholog 유전자가 됨을 확인수 있었다. (b), (c) 모두 동일한 결과를 보이고 있다[2].

 단, DEP의 라이브러리 구성이 두 종간에 서로 일치하여야 한다. Cluster 1(Unigene 1)의 DEP와 human의 후보 유전자 DEP를 1:1로 correlation 분석을 진행하여 coefficient value ‘r’이 ‘1’에 가까울수록 서로 유사한 상관관계를 가지며, ‘-1’에 가까울수록 반대되는 상관관계를 가지고, ‘0’에 가까울수록 상관관계가 없는 것으로 해석한다[10, 19] 이러한 결과는 그림 6의 예제에서 보다 정확한 ortholog 분석 결과를 보여 주고 있다.

2-2-5. Differentially Expressed Genes (DEGs) Functional annotation


 앞서 소개한 DEP를 활용하여 유전자 발현 패턴을 분석하면 특정 컨디션에서 높은 발현을 보이는 Differentially Expressed Genes(DEGs)을 얻을 수 있다. 같은 맥락의 조직특이 유전자들도 이에 해당 하는 것으로 이들은 특정 조건으로 묶인 만큼 공통된 생물학적 기능을 갖을 것이라 기대 하고 있다. 이를 분석 하기 위해 gene categorization을 이용한 통계학적 분석과 텍스트 마이닝을 통한 대사회로 분석 및 발현 조절 부위 분석을 진행하게 된다.


A. Gene Categorization을 이용한 Hypergeometric test


Gene Ontology(GO)와 같이 organism 내의 모든 유전자를 카테고리화하여 유전자 구성이 어떻게 되는지를 분석하는 것은 유전자의 기능 분석에서 일반적인 분석법 중 하나이다. 이러한 카테고리 구성 방식은 GO와 함께 MIPS의 FunCat도 많이 이용되고 있는데, 이들을 이용하여 DEG와 같은 특정 요건으로 묶인 유전자들의 기능이 어떤 카테고리에 집중되어 있는지를 hypergeometric test를 이용하여 분석한다[12, 13]. Hypergeometric test의 확률 값을 구하는 수식은 다음과 같다.

사용자 삽입 이미지
여기서 ‘N’은 organism 전체의 유전자 개수를 의미하며 ‘n’은 DEGs의 개수를 의미 한다. 그리고 ‘K’는 전체 유전자 중 특정 카테고리 X(예:GO:00000345)에 해당하는 유전자 개수 이며, ‘i’는 DEGs 그룹 중 특정 카테고리 X에 해당하는 유전자 수를 의미한다. P-value cutoff와 enrichment를 이용하여 통계학적으로 유의한 유전자의 기능을 규명한다. 이러한 분석은 다중 검정을 통해 발생할 수 있는 오류를 보정 하게 된다(2-2-3. 조직특이 유전자 분석 참조).


다음 연재에서는  Differentially Expressed Genes(DEGs) Functional annotation 중에 Text-mining을 통한 회사대로 분석, Promoter 영역 분석을 통한 발현 조절 메카니즘 분석RNA-Seq 분석 방법에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by 人Co

2010/03/02 09:44 2010/03/02 09:44

NGS 분석전략 세미나 개최 후기

 지난 2월 5일, 저희 (주)인실리코젠의 Codes팀은 "Practical bioinformatics pipeline for NGS data"라는 주제로 세미나를 개최하였습니다.

사용자 삽입 이미지
이번 교육은 당사에서 발간한 Quipu Issue Paper 2호의 "NGS 시대의 분석전략 2"을 중심으로 최근 가장 이슈가 되고 있는 NGS 데이터의 assembly, 그리고 그 이후에 진행할 수 있는 다양한 분석들에 대한 내용들을 크게 3가지 세션으로 나누어 구성하였습니다. 또한 생물정보 분야의 중심 역할을 하고 있는 한국생명공학연구원 국가생물자원정보관리센터(KOBIC)의 많은 연구원분들을 대상으로 진행되었습니다.

사용자 삽입 이미지
NGS 데이터의 assembly는 유전체 분석에 있어서 데이터 플랫폼의 종류와 어떤 어셈블러를 사용하느냐에 따른 분석 전략 및 파이프라인은 꼭 필요할 것이라 생각합니다. 이에 첫 번째 세션De novo assemblyReference assembly에 사용되고 있는 여러 가지 어셈블러들의 종류, 장단점 비교, 실제 데이터 벤치마킹 결과 등에 대한 내용으로 준비하였고, 발표 중간중간 관련 사항에 대한 질문과 열띤 토론으로 참석하신 연구원분들의 많은 관심을 받았습니다.

사용자 삽입 이미지
두번째 세션 SNP 분석 방법 및 최근 capture array 분석의 실제 연구사례, 관련 솔루션 등을 소개한 variation 분석 파트와 EST 데이터를 이용한 functional annotation, Organism-specific 분석, Ortholog/Paralog 유전자 분석방법 등에 대한 expression 분석 파트로 구분되어 진행되었으며 마지막 세션은 NGS와 생물정보 파이프라인을 이용한 Genome annotation에 대한 내용으로 현재 NGS 염기서열 결정 이후 문제점 및 이슈를 분석하고 효율적인 전략들을 소개하였습니다. 또한 structural annotation과 functional annotation의 분석 방법 및 실제 Codes팀의 분석 컨설팅 파이프라인 관련하여도 설명 드릴 수 있는 좋은시간이 되었습니다.

사용자 삽입 이미지
이렇게 바쁜 와중에도 하루의 일정을 직접 방문하여 소화해주신 KOBIC 연구원분들께 감사의 인사를 드리며, 진행된 교육으로 인해서 NGS 데이터를 분석하고 연구하시는데 조금이나마 도움이 되었으면 하는 바램입니다. 또한 "NGS시대의 분석전략 3"의 발간도 부탁하실 정도로 기술소식지와 세미나에 큰 관심을 보여주셔서 더욱 뜻 깊은 시간이었고, 앞으로도 이러한 교육의 자리를 많이 준비하도록 노력하겠습니다.

사용자 삽입 이미지
책자로 발간되었지만, 이번 세미나 내용을 포함한 NGS시대의 분석전략은 더욱 많은 연구자분들께 유익한 정보를 제공해 드리고자 블로그 연재도 계속 진행중입니다. 이와 관련한 자세한 문의사항은 저희 (주)인실리코젠의 Codes팀에게 연락 부탁드립니다.

(Tel: 031-278-0061, E-mail: codes@insilicogen.com)



Posted by 人Co

2010/02/25 17:37 2010/02/25 17:37
, , , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/48

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 두 번째 Application인 Expression study 중에 Digital Expression Profile(DEP)를 활용한 Expression pattern 분석Tissue Specific Gene 분석에 대해 알아보겠습니다.


2-2-2. Expression Pattern Analysis


 DEP를 활용하여 마이크로어레이 분석과 동일하게 다양한 조건에서의 유전자 발현을 분석한다. Fold change를 이용한 DEG 산출 및 hierarchical clustering, self-organizing maps, K-means clustering, PCA(Principle component analysis) 분석을 통해 의미 있는 발현 패턴들을 정교하게 표현하기도 하고, 이들 패턴들 간의 관계를 분석하기도 한다.
그림 4에서 보여 지는 것과 같이 모든 조직에서 일정한 비율로 발현되는 유전자는 house- keeping 유전자의 후보가 될 수 있으며, 유독 특정 조직에서만 발현되는 유전자들도 관찰 할 수 있다[2].

사용자 삽입 이미지
그림 4. DEP를 활용한 유전자 발현 패턴 분석. 
Hierarchical clustering을 수행하여 동일한
패턴을 보이는 유전자들끼리 클러스터링 수행

조직뿐만 아니라 약물에 대한 반응성 실험을 수행 할 경우에도 time-series 라이브러리를 제작하고 여러 샘플을 한 번에 시퀀싱 할 수 있는 Multiplex Identifiers(MIDs)를 이용하여 단 시간에 많은 데이터로 이 같은 분석을 진행할 수 있다. Roche 454의 경우 192에서 최대 2300 개의 샘플을 한 번에 로딩하여 시퀀싱이 가능할 정도로 유연성이 있으므로 다양한 조건을 대상으로 분석에 활용할 수 있는 이점이 있다[9].

 이러한 발현 분석은 종전의 마이크로어레이 분석 프로그램으로 분석이 가능하다. 대표적인 예로 Agilent사의 GeneSpring GX을 들 수 있다[14]. 기본적인 통계학적 분석으로 ANOVA 분석, multiple testing corrections, FDR prediction 그리고 Tukey and Student-Newman-Keuls post hoc test 가 가능하며, 그래픽 데이터 표현으로는 2D/3D scatter plots, 2D dendrograms, 염색체 지도, pathway 다이어그램, 그리고 분류별 보기 기능으로 다양하게 표현이 가능하다.

사용자 삽입 이미지
그림 5. GeneSpring GX.
유전자 발현데이터 분석 프로그램으로 다양한 통계 분석과 가시화 프로그램이 수행된다.


발현 패턴 분석으로는 gene trees, experiment trees, self-organizing maps, K-means clustering, QT clustering, 그리고 PCA 분석이 가능한 것으로 알려져 있다. 이 모든 기능은 데스크탑 컴퓨터에서 분석이 가능하며, 사용자 편의성이 강조된 인터페이스로 구성되어 있어, 비전문가도 쉽게 분석을 수행할 수 있다.

2-2-3. Tissue Specific Gene Analysis


 조직 특이 유전자는 특정 조직에서 그 유전자의 세포내 평균 발현 양 보다 특이적으로 높게 발현 되어 특정 조직의 성격을 결정지을 수 있는 유전자를 선별하는 것을 목적으로 한다.
따라서 NGS reads를 이용하여 분석하고자 할 때에는 조직별 라이브러리 제작 시 아무런
영향을 주지 않은 정상적인 발현 상태의 라이브러리를 제작해야하며, normalization이나 subtraction과 같은 인위적인 선출 방식의 시퀀싱이 아닌 무작위적인 방식의 시퀀싱이 진행되어야만 한다. 무작위 적으로 일어나는 사건에 대한 확률 값을 계산하므로 포아송 분포(poisson distribution)를 이용한 Audic’s test를 통해 조직 특이 유전자를 선별한다[8]. 다음은 Audic’s test를 이용한 확률 값을 구하는 수식이다.

사용자 삽입 이미지
  이 때, 다양한 cutoff 파라미터를 통해 확률적으로 유의한 유전자를 선별하는데, p_value, enrichment, frequency 그리고 클러스터내의 minimum reads count 등을 이용 할 수 있다. 이중 p_value는 유의 수준을 나타내는 것으로 0.001의 cutoff는 유의 수준 99.9%를 의미하게 된다. 그러나 조직 특이 유전자 선별을 위해 한 두 개의 유전자를 대상으로 연관성 분석이 진행 되는 것이 아니라 앞서 언급된 파라미터를 통과한 모든 클러스터를 대상으로 연관성 분석이 진행하므로 검사의 개수가 증가할수록 임의로 발생하는 오류 또한 증가하여 p_value의 의미가 감소하는 문제점이 발생하게 된다. 이를 극복하기 위해 Bonferroni correction, False Discovery Rate(FDR), 그리고 Permutation test와 같은 다중 검정을 수행하게 된다[6, 7].

실제 분석을 위해 앞서 작성한 Cluster Member Matrix(CMM; DEP작성시 초기 matrix)를 이용하여 각 클러스터별로 x, y, N1, N2을 지정하여 계산할 수 있다[16]. 예를 들어 그림 3의 표에서 클러스터 1의 유전자가 ‘OC’ 조직에 특이적인 발현 양을 보이는지를 검사 한다고 했을 때 대상 조직의 reads 개수인 y 는 ‘10’이 되고 그 외 나머지 조직에 해당하는 reads 개수인 x 는 ‘82’가 된다. 그리고 N2, N1 은 각각 해당 조직 전체 reads 개수와 나머지 조직의 전체 reads 개수인 ‘55,840’과 ‘184,301’에 해당한다. 이러한 분석은 하나의 클러스터마다 검사해야할 조직 개수만큼 수행된다.


이번주에 이어서 다음 주에 진행될 연재에서도 Expression study의 다양한 분석 방법에 대해 연재가 될 예정입니다. 많은 관심 부탁드립니다. 


참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by 人Co

2010/02/25 09:24 2010/02/25 09:24

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 두 번째 Application인 Expression study 중에 Digital Expression Profile(DEP) 작성하는 방법에 대해 알아보도록 하겠습니다.

2-2-1. Digital Expression Profile (DEP)


 동일한 유전자로 부터 발현된 mRNA의 양은 중복된 NGS reads의 개수를 계산함으로써 알 수 있다. 따라서 클러스터링 과정을 통해 중복된 reads를 동일 유전자에서 유래한 하나의 서열로 만들 수 있고 이렇게 형성된 unigene의 reads count profile은 결국 mRNA의 expression profile과 동일시 볼 수 있다[3]. 여러 조직에서 다양한 발현 양을 보이는 유전자의 경우 각 조직마다의 발현양은 시퀀싱된 reads 개수를 계산하는 방법으로 Digital Expression Profile(DEP)의 초기 데이터인 Cluster member matrix를 만들 수 있다(그림 2)[10, 17]. 앞서 언급한 마이크로어레이 분석에서도 Intensity value를 실제 분석에 앞서 다양한 정규화과정(Normalization)을 수행하는 것과 같이 DEP에서도 두 단계의 정규화과정을 통해 최종적인 DEP를 완성한다[2].

사용자 삽입 이미지
그림 2. Cluster Member Matrix(CMM).
Clustering을 통한 유전자 발현 counting. De novo assembly를 통해
각 cluster(consensus sequence) 마다의 NGS reads를 조직별로 counting 하여
Digital Expression Profile(DEP)의 초기데이터인 clutser member matix를 완성한다.

A. Library Normalization

 특정 라이브러리가 다른 라이브러리들에 비해 유독 많이 시퀀싱되어 reads의 양이 많다면, 클러스터링을 통해 얻어진 클러스터 내의 reads 또한 다른 라이브러리에 비해 많이 나타날 것이다. 이는 실제 세포내의 발현 양이라기보다는 데이터 세트 자체의 시퀀싱 개수가 많아서 생기는 것이므로 라이브러리별로 특정 유전자가 그 조직에서 얼마만큼의 발현이 이뤄졌는지를 비율을 통해 나타내야 한다. 따라서 특정 클러스터의 reads 개수에서 그 라이브러리 전체 reads 개수 만큼을 나눠주는 정규화방식이다.

B. Unigene Normalization

 Library normalization 수행으로 각 라이브러리에서의 발현 비율로 unigene의 발현 정도를 얻을 수 있다. 그러나 이때 house-keeping 유전자의 경우에 늘 많이 발현되는 유전자이므로 전체적으로 발현 비율이 높다. 반면 그렇지 않은 유전자의 경우 수치가 전체적으로 낮게 나타난다. 이럴 경우, 수치상의 차이가 너무 크기 때문에 라이브러리별 혹은 컨디션별로 유전자의 발현 패턴을 보고자 할 때 너무 높은 발현 수치로 인해 상대적으로 낮은 수치로 일정 패턴을 갖는 유전자는 그 의미가 퇴색되어진다. 이러한 점을 정규화 하기 위해 median value로 나눠주거나, log ratio 취하여 유전자간 수치적 차이를 최소화 하게 한다. Median value 정규화 과정은 그림 3에서 보는 것과 같이 각 클러스터(unigene) 별로 1차 library 정규화 결과 값들을 대상으로 그 중간 값인 0.000341853(media value)로 나눠준다. 그러면 중간 정도의 발현 값을 보이는 라이브러리인 ‘ZG’ 에서는 값이 ‘1’이 나오고 되고, 세포내 전체적인 평균 발현 보다 높은 발현은 ‘1’보다 높은 수치로 정렬되며, ‘1’ 이하는 낮은 발현을 나타내게 된다. 이렇게 두 단계의 정규화 수행 후 최종적인 DEP를 완성하게 된다.

사용자 삽입 이미지
그림 3. Digital Expression Profile (DEP).
Cluster Member Matrix(CMM)을 바탕으로 두 단계의
normalization 과정을 통해 표준화된 expression value로 환산 된다.


이렇게 완성된 DEP는 다양한 발현 패턴 분석에서부터 조직 특이 유전자 그리고 Ortholog 분석에도 이용된다.

다음 연재에서는 Expression study 중에 Digital Expression Profile(DEP)를 활용한 Expression pattern 분석에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.


참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)


Posted by 人Co

2010/02/23 09:50 2010/02/23 09:50



« Previous : 1 : ... 2 : 3 : 4 : 5 : 6 : Next »