« Previous : 1 : ... 30 : 31 : 32 : 33 : 34 : 35 : 36 : 37 : 38 : Next »

NGS 분석전략 세미나 개최 후기

 지난 2월 5일, 저희 (주)인실리코젠의 Codes팀은 "Practical bioinformatics pipeline for NGS data"라는 주제로 세미나를 개최하였습니다.

사용자 삽입 이미지
이번 교육은 당사에서 발간한 Quipu Issue Paper 2호의 "NGS 시대의 분석전략 2"을 중심으로 최근 가장 이슈가 되고 있는 NGS 데이터의 assembly, 그리고 그 이후에 진행할 수 있는 다양한 분석들에 대한 내용들을 크게 3가지 세션으로 나누어 구성하였습니다. 또한 생물정보 분야의 중심 역할을 하고 있는 한국생명공학연구원 국가생물자원정보관리센터(KOBIC)의 많은 연구원분들을 대상으로 진행되었습니다.

사용자 삽입 이미지
NGS 데이터의 assembly는 유전체 분석에 있어서 데이터 플랫폼의 종류와 어떤 어셈블러를 사용하느냐에 따른 분석 전략 및 파이프라인은 꼭 필요할 것이라 생각합니다. 이에 첫 번째 세션De novo assemblyReference assembly에 사용되고 있는 여러 가지 어셈블러들의 종류, 장단점 비교, 실제 데이터 벤치마킹 결과 등에 대한 내용으로 준비하였고, 발표 중간중간 관련 사항에 대한 질문과 열띤 토론으로 참석하신 연구원분들의 많은 관심을 받았습니다.

사용자 삽입 이미지
두번째 세션 SNP 분석 방법 및 최근 capture array 분석의 실제 연구사례, 관련 솔루션 등을 소개한 variation 분석 파트와 EST 데이터를 이용한 functional annotation, Organism-specific 분석, Ortholog/Paralog 유전자 분석방법 등에 대한 expression 분석 파트로 구분되어 진행되었으며 마지막 세션은 NGS와 생물정보 파이프라인을 이용한 Genome annotation에 대한 내용으로 현재 NGS 염기서열 결정 이후 문제점 및 이슈를 분석하고 효율적인 전략들을 소개하였습니다. 또한 structural annotation과 functional annotation의 분석 방법 및 실제 Codes팀의 분석 컨설팅 파이프라인 관련하여도 설명 드릴 수 있는 좋은시간이 되었습니다.

사용자 삽입 이미지
이렇게 바쁜 와중에도 하루의 일정을 직접 방문하여 소화해주신 KOBIC 연구원분들께 감사의 인사를 드리며, 진행된 교육으로 인해서 NGS 데이터를 분석하고 연구하시는데 조금이나마 도움이 되었으면 하는 바램입니다. 또한 "NGS시대의 분석전략 3"의 발간도 부탁하실 정도로 기술소식지와 세미나에 큰 관심을 보여주셔서 더욱 뜻 깊은 시간이었고, 앞으로도 이러한 교육의 자리를 많이 준비하도록 노력하겠습니다.

사용자 삽입 이미지
책자로 발간되었지만, 이번 세미나 내용을 포함한 NGS시대의 분석전략은 더욱 많은 연구자분들께 유익한 정보를 제공해 드리고자 블로그 연재도 계속 진행중입니다. 이와 관련한 자세한 문의사항은 저희 (주)인실리코젠의 Codes팀에게 연락 부탁드립니다.

(Tel: 031-278-0061, E-mail: codes@insilicogen.com)



Posted by 人Co

2010/02/25 17:37 2010/02/25 17:37
, , , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/48

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 두 번째 Application인 Expression study 중에 Digital Expression Profile(DEP)를 활용한 Expression pattern 분석Tissue Specific Gene 분석에 대해 알아보겠습니다.


2-2-2. Expression Pattern Analysis


 DEP를 활용하여 마이크로어레이 분석과 동일하게 다양한 조건에서의 유전자 발현을 분석한다. Fold change를 이용한 DEG 산출 및 hierarchical clustering, self-organizing maps, K-means clustering, PCA(Principle component analysis) 분석을 통해 의미 있는 발현 패턴들을 정교하게 표현하기도 하고, 이들 패턴들 간의 관계를 분석하기도 한다.
그림 4에서 보여 지는 것과 같이 모든 조직에서 일정한 비율로 발현되는 유전자는 house- keeping 유전자의 후보가 될 수 있으며, 유독 특정 조직에서만 발현되는 유전자들도 관찰 할 수 있다[2].

사용자 삽입 이미지
그림 4. DEP를 활용한 유전자 발현 패턴 분석. 
Hierarchical clustering을 수행하여 동일한
패턴을 보이는 유전자들끼리 클러스터링 수행

조직뿐만 아니라 약물에 대한 반응성 실험을 수행 할 경우에도 time-series 라이브러리를 제작하고 여러 샘플을 한 번에 시퀀싱 할 수 있는 Multiplex Identifiers(MIDs)를 이용하여 단 시간에 많은 데이터로 이 같은 분석을 진행할 수 있다. Roche 454의 경우 192에서 최대 2300 개의 샘플을 한 번에 로딩하여 시퀀싱이 가능할 정도로 유연성이 있으므로 다양한 조건을 대상으로 분석에 활용할 수 있는 이점이 있다[9].

 이러한 발현 분석은 종전의 마이크로어레이 분석 프로그램으로 분석이 가능하다. 대표적인 예로 Agilent사의 GeneSpring GX을 들 수 있다[14]. 기본적인 통계학적 분석으로 ANOVA 분석, multiple testing corrections, FDR prediction 그리고 Tukey and Student-Newman-Keuls post hoc test 가 가능하며, 그래픽 데이터 표현으로는 2D/3D scatter plots, 2D dendrograms, 염색체 지도, pathway 다이어그램, 그리고 분류별 보기 기능으로 다양하게 표현이 가능하다.

사용자 삽입 이미지
그림 5. GeneSpring GX.
유전자 발현데이터 분석 프로그램으로 다양한 통계 분석과 가시화 프로그램이 수행된다.


발현 패턴 분석으로는 gene trees, experiment trees, self-organizing maps, K-means clustering, QT clustering, 그리고 PCA 분석이 가능한 것으로 알려져 있다. 이 모든 기능은 데스크탑 컴퓨터에서 분석이 가능하며, 사용자 편의성이 강조된 인터페이스로 구성되어 있어, 비전문가도 쉽게 분석을 수행할 수 있다.

2-2-3. Tissue Specific Gene Analysis


 조직 특이 유전자는 특정 조직에서 그 유전자의 세포내 평균 발현 양 보다 특이적으로 높게 발현 되어 특정 조직의 성격을 결정지을 수 있는 유전자를 선별하는 것을 목적으로 한다.
따라서 NGS reads를 이용하여 분석하고자 할 때에는 조직별 라이브러리 제작 시 아무런
영향을 주지 않은 정상적인 발현 상태의 라이브러리를 제작해야하며, normalization이나 subtraction과 같은 인위적인 선출 방식의 시퀀싱이 아닌 무작위적인 방식의 시퀀싱이 진행되어야만 한다. 무작위 적으로 일어나는 사건에 대한 확률 값을 계산하므로 포아송 분포(poisson distribution)를 이용한 Audic’s test를 통해 조직 특이 유전자를 선별한다[8]. 다음은 Audic’s test를 이용한 확률 값을 구하는 수식이다.

사용자 삽입 이미지
  이 때, 다양한 cutoff 파라미터를 통해 확률적으로 유의한 유전자를 선별하는데, p_value, enrichment, frequency 그리고 클러스터내의 minimum reads count 등을 이용 할 수 있다. 이중 p_value는 유의 수준을 나타내는 것으로 0.001의 cutoff는 유의 수준 99.9%를 의미하게 된다. 그러나 조직 특이 유전자 선별을 위해 한 두 개의 유전자를 대상으로 연관성 분석이 진행 되는 것이 아니라 앞서 언급된 파라미터를 통과한 모든 클러스터를 대상으로 연관성 분석이 진행하므로 검사의 개수가 증가할수록 임의로 발생하는 오류 또한 증가하여 p_value의 의미가 감소하는 문제점이 발생하게 된다. 이를 극복하기 위해 Bonferroni correction, False Discovery Rate(FDR), 그리고 Permutation test와 같은 다중 검정을 수행하게 된다[6, 7].

실제 분석을 위해 앞서 작성한 Cluster Member Matrix(CMM; DEP작성시 초기 matrix)를 이용하여 각 클러스터별로 x, y, N1, N2을 지정하여 계산할 수 있다[16]. 예를 들어 그림 3의 표에서 클러스터 1의 유전자가 ‘OC’ 조직에 특이적인 발현 양을 보이는지를 검사 한다고 했을 때 대상 조직의 reads 개수인 y 는 ‘10’이 되고 그 외 나머지 조직에 해당하는 reads 개수인 x 는 ‘82’가 된다. 그리고 N2, N1 은 각각 해당 조직 전체 reads 개수와 나머지 조직의 전체 reads 개수인 ‘55,840’과 ‘184,301’에 해당한다. 이러한 분석은 하나의 클러스터마다 검사해야할 조직 개수만큼 수행된다.


이번주에 이어서 다음 주에 진행될 연재에서도 Expression study의 다양한 분석 방법에 대해 연재가 될 예정입니다. 많은 관심 부탁드립니다. 


참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)

Posted by 人Co

2010/02/25 09:24 2010/02/25 09:24

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 두 번째 Application인 Expression study 중에 Digital Expression Profile(DEP) 작성하는 방법에 대해 알아보도록 하겠습니다.

2-2-1. Digital Expression Profile (DEP)


 동일한 유전자로 부터 발현된 mRNA의 양은 중복된 NGS reads의 개수를 계산함으로써 알 수 있다. 따라서 클러스터링 과정을 통해 중복된 reads를 동일 유전자에서 유래한 하나의 서열로 만들 수 있고 이렇게 형성된 unigene의 reads count profile은 결국 mRNA의 expression profile과 동일시 볼 수 있다[3]. 여러 조직에서 다양한 발현 양을 보이는 유전자의 경우 각 조직마다의 발현양은 시퀀싱된 reads 개수를 계산하는 방법으로 Digital Expression Profile(DEP)의 초기 데이터인 Cluster member matrix를 만들 수 있다(그림 2)[10, 17]. 앞서 언급한 마이크로어레이 분석에서도 Intensity value를 실제 분석에 앞서 다양한 정규화과정(Normalization)을 수행하는 것과 같이 DEP에서도 두 단계의 정규화과정을 통해 최종적인 DEP를 완성한다[2].

사용자 삽입 이미지
그림 2. Cluster Member Matrix(CMM).
Clustering을 통한 유전자 발현 counting. De novo assembly를 통해
각 cluster(consensus sequence) 마다의 NGS reads를 조직별로 counting 하여
Digital Expression Profile(DEP)의 초기데이터인 clutser member matix를 완성한다.

A. Library Normalization

 특정 라이브러리가 다른 라이브러리들에 비해 유독 많이 시퀀싱되어 reads의 양이 많다면, 클러스터링을 통해 얻어진 클러스터 내의 reads 또한 다른 라이브러리에 비해 많이 나타날 것이다. 이는 실제 세포내의 발현 양이라기보다는 데이터 세트 자체의 시퀀싱 개수가 많아서 생기는 것이므로 라이브러리별로 특정 유전자가 그 조직에서 얼마만큼의 발현이 이뤄졌는지를 비율을 통해 나타내야 한다. 따라서 특정 클러스터의 reads 개수에서 그 라이브러리 전체 reads 개수 만큼을 나눠주는 정규화방식이다.

B. Unigene Normalization

 Library normalization 수행으로 각 라이브러리에서의 발현 비율로 unigene의 발현 정도를 얻을 수 있다. 그러나 이때 house-keeping 유전자의 경우에 늘 많이 발현되는 유전자이므로 전체적으로 발현 비율이 높다. 반면 그렇지 않은 유전자의 경우 수치가 전체적으로 낮게 나타난다. 이럴 경우, 수치상의 차이가 너무 크기 때문에 라이브러리별 혹은 컨디션별로 유전자의 발현 패턴을 보고자 할 때 너무 높은 발현 수치로 인해 상대적으로 낮은 수치로 일정 패턴을 갖는 유전자는 그 의미가 퇴색되어진다. 이러한 점을 정규화 하기 위해 median value로 나눠주거나, log ratio 취하여 유전자간 수치적 차이를 최소화 하게 한다. Median value 정규화 과정은 그림 3에서 보는 것과 같이 각 클러스터(unigene) 별로 1차 library 정규화 결과 값들을 대상으로 그 중간 값인 0.000341853(media value)로 나눠준다. 그러면 중간 정도의 발현 값을 보이는 라이브러리인 ‘ZG’ 에서는 값이 ‘1’이 나오고 되고, 세포내 전체적인 평균 발현 보다 높은 발현은 ‘1’보다 높은 수치로 정렬되며, ‘1’ 이하는 낮은 발현을 나타내게 된다. 이렇게 두 단계의 정규화 수행 후 최종적인 DEP를 완성하게 된다.

사용자 삽입 이미지
그림 3. Digital Expression Profile (DEP).
Cluster Member Matrix(CMM)을 바탕으로 두 단계의
normalization 과정을 통해 표준화된 expression value로 환산 된다.


이렇게 완성된 DEP는 다양한 발현 패턴 분석에서부터 조직 특이 유전자 그리고 Ortholog 분석에도 이용된다.

다음 연재에서는 Expression study 중에 Digital Expression Profile(DEP)를 활용한 Expression pattern 분석에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.


참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)


Posted by 人Co

2010/02/23 09:50 2010/02/23 09:50

[Quipu Issue Paper] Expression Study Ⅰ

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번주부터 2주간 진행되는 연재에서는 Next Generation Sequencing의 두 번째 Application인 Expression study에 대해 알아보도록 하겠습니다.


2-2. Expression Study

 

 Functional genomics의 유전자 발현 연구 분야에도 NGS는 예외 없이 새로운 방향을 제시하면서 transcriptome 분야를 포함하여 많은 부분에서 PCR이나 마이크로어레이 기술을 대체 하고 있다. 이러한 NGS 기술은 분석 할 종의 서열 정보가 없어도 분석 가능하여 어떤 생물종도 연구에 이용할 수 있다는 장점을 가지고 있다. 뿐만 아니라 한 번의 시퀀싱으로 수많은 read를 얻는 높은 coverage를 가지기 때문에 단 시간에 적은 비용으로 전체 염기서열을 결정할 수 있는 이점이 있다. 이러한 장점들은 마이크로어레이를 이용한 종전의 분석법에서 나타난 여러 문제점을 보완하면서 다양한 방향으로 연구를 수행할 수 있게 하였다. Development stage, stress, tissue와 같이 특정 컨디션에서의 유전자 발현 양상을 보는 것에서부터 조직 특이 유전자 분석, house keeping 유전자 분석, 유전자 발현을 이용한 ortholog 분석, SNP 분석 그리고 alternative splicing 분석에 이르기까지 다양한 분야에 걸쳐 분석이 가능하게 되었다[1].

발현 분석은 언제, 어디서, 어느 정도로 유전자들이 발현되는 지를 전사 수준에서 총체적으로 탐색 하는 것을 목적으로 한다. 따라서 원하는 컨디션이 반영된 mRNA를 추출하여 라이브러리를 제작하게 되고, 무작위 적으로 시퀀싱 하여 얻어진 서열을 클러스터링을 통해 발현 양을 추정하게 된다[2, 4, 5, 17, 18, 19].


사용자 삽입 이미지
그림 1. 유전자 발현 패턴 분석.
전사 수준에서의 발현 패턴 분석을 위해 mRNA sequencing을 통해
세포내 유사한 발현 패턴을 보이는 유전자들을 분석


 이러한 방법은 기존의 ESTs를 활용한 발현 분석과 동일한 방법으로, 클러스터링 방법 또한 EST 클러스터링과 같이 유전체 서열이 존재하는 경우 references assembly을 수행하여 유전자 영역을 기준으로 클러스터링을 수행하게 되고, 만약 유전체 서열이 존재하지 않을 경우 de novo assembly을 수행 하게 된다. 단 de novo assembly의 경우 assembly의 정확성을 위해 short reads 보다는 Roche 454의 long reads를 이용하는 것이 보다 정확한 결과를 얻을 수 있다(1-2. Assembly 참조)[17, 18, 19].

 클러스터링이 완료되면 각 클러스터 별로 포함되어 있는 NGS reads의 개수를 발현 수치 값으로 환산하여 Digital Expression Profile(DEP)를 작성하게 되며 이는 마치 마이크로어레이의 intensity를 이용한 분석법과 같이 분석하게 된다[17, 18]. 이때, 실험적인 바이어스와 생물학적 컨디션을 고려한 다양한 통계적 방법이 이용된다.


다음 연재에서는 Expression study 중에 먼저 여러 조직에서 다양한 발형 양을 보이는 유전자의 경우 각 조직마다의 발현양을 계산하는 방법인 Digital Expression Profile(DEP) 작성하는 방법에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.


참고문헌

1. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. (2008) Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 7, 621-628.
2. Fei Z, Tang X, Alba RM, White JA, Ronning CM, Martin GB, Tanksley SD, Giovannoni JJ. (2004) Comprehensive EST analysis of tomato and comparative genomics of fruit ripening. Plant J. 40, 47–59
3. Rensink WA, Lee Y, Liu J, Iobst S, Ouyang S, Buell CR. (2005) Comparative analyses of six solanaceous transcriptomes reveal a high degree of sequence conservation and species-specific transcripts. BMC Genomics. 6, 124
4. Ronning,C.M. et al. (2003) Comparative analyses of potato expressed sequence tag libraries. Plant Physiol. 131, 419–429
5. Guo J, Zhu P, Wu C, Yu L, Zhao S, Gu X. (2003) In silico analysis indicates a similar gene expression pattern between human brain and testis. Cytogenet Genome Res. 103, 58-62
6. Benjamini, Y., Daniel Yekutieli. (2001) The control of the false discovery rate in multiple hypotheses testing under dependency. Annal. Stat. 4(29), 1165–1188
7. Tsai CA, Hsueh HM, Chen JJ. (2003) Estimation of false discovery rates in multiple testing: application to gene microarray data. Biometrics. 59, 1071-81
8. Audic S, Claverie JM. (1997) The significance of digital gene expression profiles. Genome Res. 7, 986–995
9. Roche 454 : Products & Solutions - Multiplexing
(http://www.454.com/products-solutions/experimental-design-options/multiplexing.asp)
10. Tatusov RL, Koonin EV, Lipman DJ. (1997) A genomic perspective on protein families. Science. 278, 631-637
11. Kato T, Murata Y, Miura K, Asai K, Horton PB, Koji T, Fujibuchi W. (2006) Network-based de-noising improves prediction from microarray data, BMC Bioinformatics. 7, S4
12. Noh SJ, Lee K, Paik H, Hur CG. (2006) TISA: tissue-specific alternative splicing in human and mouse genes. DNA Res. 5, 229-243
13. Zeeberg BR, Feng W, Wang G, Wang MD, Fojo AT, Sunshine M, Narasimhan S, Kane DW, Reinhold WC, Lababidi S, Bussey KJ, Riss J, Barrett JC, Weinstein JN. (2003) GoMiner: a resource for biological interpretation of genomic and proteomic data, Genome Biol. 4, R28
14. GeneSpring GX : Products & Services - GeneSpring GX Software
(http://www.chem.agilent.com/en-US/products/software/lifesciencesinformatics/genespringgx/pages/default.aspx)
15. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüss M, Reuter I, Schacherer F. (2000) TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research. 28, 316-319
16. PathwayStudio : Products-pathway Studio
(http://www.ariadnegenomics.com/products/pathwaystudio/)
17. Eveland AL, McCarty DR, Koch KE. (2007) Transcript profiling by 3'-untranslated region sequencing resolves expression of gene families. Plant Physiol. 146, 32-44.
18. Torres TT, Metta M, Ottenwälder B, Schlötterer C. (2008) Gene expression profiling by massively parallel sequencing. Genome Res. 1, 172-7.
19. Vega-Arreguín JC, Ibarra-Laclette E, Jiménez-Moraila B, Martínez O, Vielle-Calzada JP, Herrera-Estrella L, Herrera-Estrella A. (2009) Deep sampling of the Palomero maize transcriptome by a high throughput strategy of pyrosequencing. BMC Genomics. 10, 299.
20. Wang ET, Sandberg R, Luo S, Khrebtukova I, Zhang L, Mayr C, Kingsmore SF, Schroth GP, Burge CB. (2008) Alternative isoform regulation in human tissue transcriptomes. Nature. 2456, 70-76.
21. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD. (2003) Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science. 302, 2141-2144.
22. Ledford H. (2008) Human genes are multitaskers. Nature. 456, 9.
23. CLC Genomics Workbench: RNA-Seq analysis
(http://www.clcbio.com/index.php?id=1330&manual=RNA_Seq_analysis.html)




Posted by 人Co

2010/02/22 13:46 2010/02/22 13:46

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에  다양하게 구축되어 운영되고 있는 SNP 및 variation 데이터베이스에 대해 알아보도록 하겠습니다.


2-1-4. Variation Database


 다양하게 얻어진 각종 variation 데이터들은 기존에 구축되어진 데이터베이스와 비교하거나 이미 알려진 유전자 구조 정보를 활용함으로써 조금 더 유용한 정보를 얻을 수 있다. 따라서 대량의 유전변이형 정보를 체계적으로 수집하고 일반 연구자에게 전달하기 위해서는 다양한 variation 데이터베이스를 구축하여 언제든 활용할 수 있는 시스템으로 서비스 되어져야 한다. 현재 다수의 연구기관 및 연구그룹에서 SNP 및 여러 variation 관련 데이터베이스가 만들어져 운영되고 있다(표 3).

사용자 삽입 이미지
dbSNP는 미국 NCBI에서 관리하는 세계 최대의 SNP 데이터베이스로 rs#를 부여받은 human의 SNP만해도 7,344,853개(build130, 2009년 12월)가 수록되어 있다. 따라서 이렇게 축적된 대량의 SNP 데이터가 연구자들에게 제공됨에 따라 새롭게 특정 후보 유전자의 SNP를 다시 발굴할 필요 없이 대부분의 SNP 정보를 데이터베이스를 통하여 쉽게 이용할 수 있다(그림 6).

사용자 삽입 이미지
또한 좀 더 나아가 HGMD는 문헌에 보고된 모든 생식세포내의 질병을 유발하는 돌연변이들과 질병관련/기능성 다형성들을 기록하고 있다. 사실상 이는 학계에서 이용 가능한 중추적인 질병관련 돌연변이 데이터베이스로써, 암호화 시의 단일 염기쌍 치환(예, 미스센스 돌연변이와 넌센스 돌연변이), 인간 핵 유전자의 조절 및 접합관련 부위, 미세결실과 미세삽입, 결실과 삽입(indels), 반복 확장, 그리고 심한 유전자 손상(결실, 삽입 그리고 복제) 및 복합적 유전자 재배열에 관한 자료들을 제공하고 있다. 학술적으로 또는 비영리적인 목적으로 사용자 등록 후 무료로 이용 가능하다. 단, 이 돌연변이의 정보들은 데이터베이스에 최초로 추가된 후 2년 6개월 후에 공용 웹사이트에서 제공되기 때문에 최신 버전을 이용하려면 BIOBASE GmbH사로부터 인증을 받아 상업적 및 학술적 이용자에게 제공된다. 최신 돌연변이 자료 이외에도, HGMD Professional은 공용 사이트에서 제공하지 않는 첨단 검색 도구와 유전자 및 돌연변이에 대한 특별한 정보를 부가적으로 제공하고 있다(그림 7). HGMD Professional은 3개월 단위로 업데이트된다.

그 외 variation 정보를 위한 데이터베이스는 앞서 소개한 몇몇 큰 데이터베이스와 수백 가지의 유전자 각각에 대한 특화된 데이터베이스로 다원화 하여 존재하고 있다. 이들 정보의 통합 필요성이 인식 되면서 2006년 6월부터 전 인류의 유전자 변이에 대한 정보를 모으고 이를 카달로그화 하여 제공하고자 하는 국제적인 Human Variome Project(HVP, http://www.humanvariomeproject.org)가 출범되었고, 이를 통해 variome 연구는 개인의 유전적 차이 및 질병과의 관련성이 더 정확하게 밝혀져 질병에 대한 개인 간 차이 발생에 대해 더 세밀하고 진보한 해답을 얻을 수 있을 것으로 전망하고 있다.



참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

2010/02/21 19:19 2010/02/21 19:19
, , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/44

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에  Targeted Sequencing (Sequence Capture) 기술에 대해 알아보도록 하겠습니다.

2-1-3. Targeted Sequencing (Sequence Capture)


 최근 염기서열 분석은 전체 유전체의 염기서열 분석에만 치중하지 않고, 관심이 있는 특정 유전체의 일부분을 분석하고자 하는 경향이 대두되고 있다. 또한 NGS가 출현하면서 염기서열 분석의 작업량이 증가하자 PCR을 이용한 타겟 시퀀싱에서 병목현상을 일으키기 시작하였다. 이러한 문제를 해결하기 위해 ‘Sequence Capture’라는 기술이 개발되었고 Roche NimbleGen에서 처음 상용화 되어 관심 있는 특정 유전체의 일부분을 선택적으로 분석을 할 수 있어 NGS를 이용한 유전체 분석에서 중요한 부분을 차지하게 이르렀다.

Sequence Capture 기술은 타겟으로 하는 유전체의 각 부위와 상보적으로 결합하도록 디자인된 프로브가 올려져있는 DNA chip과 분석하고자 하는 샘플의 유전체 서열간의 hybridization을 진행하여 특이적으로 결합한 DNA 절편들을 분리 후 NGS를 이용하여 직접적으로 시퀀싱을 진행하는 방식이다(그림 5).

사용자 삽입 이미지
그림 5. Sequence Capture 원리.
Genome 서열을 무작위 적으로 절단하여 엑손 영역만이 프로브로 심겨진 DNA chip에 hybridization한다. 이 후 DNA chip의 프로브 서열과 결합된 유전체의 엑손 서열을 chip에서 분리하여 NGS 방식의 시퀀싱으로 서열을 결정한다.

NGS로 염기서열을 분석하기 때문에 타겟 서열의 coverage가 굉장히 많이 향상되어 원하는 부분의 정확한 서열 정보를 얻을 수 있다. 이러한 Sequence Capture 방법을 이용하여 워싱턴주립대학과 Agilent사의 연구팀이 공동으로 Target Capture Array로부터 Illumina GA를 사용하여 8명의 HapMap Individual과 4명의 희귀질환인 Freeman-Sheldon syndrome (FSS)을 가진 환자의 엑손 영역만을 시퀀싱하여 protein coding variation을 찾은 연구를 수행하였다[8].

그 결과 Freeman-Sheldon syndrome(FSS)의 원인 유전자로 알려진 MYHS 유전자만이 정상인과 환자 사이에서 차이를 보인다는 것을 확인하였다[7]. Human의 전체 유전체는 30억 염기쌍이지만 그 중 유전자 영역인 엑손은 전체 염기의 약 1%에 해당하는 3천만 염기쌍 정도 이다. NGS 기술로 인해 유전체 시퀀싱이 쉽고 빠르게 되었다고는 하지만, 아직 높은 비용이기 때문에 이러한 엑손 시퀀싱으로 유전체 전체를 대상으로 보고자 하는 영역만을 보다 빠르고 저렴하게 분석할 수 있다는 것이 매우 고무적이라 하겠다.

다음 연재에서는 variation의 마지막 다양하게 구축되어 운영되고 있는 SNP 및 variation 데이터베이스에 대해 알아보도록 하겠습니다.
많은 관심 부탁드립니다.

참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153












Posted by 人Co

2010/02/19 10:13 2010/02/19 10:13
, , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/43

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에 CNV (Copy Number Variation) 분석법에 대해 알아보도록 하겠습니다.

 2-1-2. CNV (Copy Number Variation) Analysis                                    


 SNP가 유전적 다형성의 대명사로 여겨졌지만 이외에도 정상 표현형인 인간의 유전체에 유전자 복제 수(copy number) 변이가 존재하여 유전적 다양성에 기여하고, 암 또는 많은 질병 감수성과도 연관될 가능성이 높다는 연구 결과가 보고되면서 유전체의 구조적 변이에 대한 관심이 대두되었다. CNV(Copy Number Variants)는 reference 유전체와 비교해서 copy number의 차이를 보이는 1kb 이상의 DNA 조각으로 정의하며, 평균 크기는 29kb에서 523kb 정도로 예상된다고 한다.

현재 전체 유전체에서 CNV를 발굴하는 방식 중 가장 흔히 사용되는 방식은 CGH (comparative genomic hybridization)의 원리에 DNA 칩의 기술을 접목시킨 array-CGH이다. 마이크로어레이 기반 CGH 실험 분석 목적은 모든 유전체 안에서 각각의 유전자 조각들이 반복 횟수 변화를 보이는 부분을 선별해 내거나 반복 횟수의 양적 변화를 찾는 것이다. 이렇게 마이크로어레이 플랫폼을 이용해 발굴된 CNV는 분석에 이용된 플랫폼 의존 특성을 가지게 되어 최종 데이터의 질적인 측면과 연관되어 분석 결과의 치우침 문제를 유발할 수 있다. 또한 hybridization 효율이 프로브 마다 다양하고, 실제 copy number의 프로브 서열이 아닐 가능성도 고려해야 하는 한계에 봉착하였다. 이에 이를 극복할 만한 대안이 필요한 상황에서 NGS 기술의 보급은 CNV 발굴의 차세대 플랫폼으로 등장하였다. 앞서 언급된 NGS 기술을 통한 SNP 분석과 마찬가지로 유전체 서열과 다양한 fragment size의 paired-end reads를 assembly 함으로써 시퀀싱 coverage를 이용한 잠재적인 CNV를 분석할 수 있다(그림 4).

사용자 삽입 이미지
그림 4. aCGH와 CNV-seq 방법의 분석 과정 비교


그러나 SNP와 같이 하나의 염기서열 차이로 변이를 확인하는 것이 아니기 때문에 assembly 분석 시 시퀀싱 오류로 인하여 다른 부분에 정렬되어 잘못된 variation을 검출하게 되는 가능성도 배제할 수는 없다. 따라서 최근 Robust 통계 모델을 기본으로 하면서 aCGH와 NGS 기술의 이점들만 조합하여 효율적인 CNV 분석에 대한 논문이 발표되었고 이러한 방법을 이용하여 두 개체(Dr. J. Craig Venter와 Dr. James Watson) 사이의 CNV를 분석한 평가 결과도 함께 확인할 수 있어 이 후 aCGH와 NGS 기술을 접목한 CNV 분석 방법이 충분히 발전할 것으로 생각된다[4]. 이렇게 진행한 연구 방법과 결과들은 웹사이트를 통하여 무료로 이용할 수 있다(http://tiger.dbs.nus.edu.sg/CNV-seq).

다음 연재에서는 전체 유전체의  염기서열 분석이 아닌 관심있는 특정 유전체의 일부분을 분석하는 방법인 Sequence Capture 기술에 대해 알아보도록 하겠습니다.
많은 관심 부탁드립니다.




참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

2010/02/18 09:17 2010/02/18 09:17
, , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/42

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.

 2-1-1. SNP (Single Nucleotide Polymorphism) Analysis


 인간 유전체 상에 가장 많이 존재하는 형태의 다형성은 유전체상의 특정 염기서열 하나의 변화이며, 흔히 SNP(Single Nucleotide Polymorphism) 또는 단일염기다형성이라고 부른다. 한 논문에서는 SNP를 검출하는 방법을 다섯 가지로 요약해 나타냈다(표 2)[3]. 이러한 방법들의 공통된 특징은 유전자 또는 염색체 부위를 증폭한 산물에 대한 염기서열을 분석하고 여러 염기서열을 정렬하여 염기서열 차이로서 SNP 존재 여부를 확인하는 것이다. 이러한 관점으로 볼 때 정렬되는 서열이 많을수록 통계적으로도 안정적이며 명확한 variation을 분석할 수 있게 된다. 따라서 제한된 시간 동안 가장 많은 서열을 생산할 수 있는 NGS는 이에 가장 부합하는 분석 도구가 될 것이다.

사용자 삽입 이미지

또한 HapMap project에서 발표한 human 유전체의 SNP 분포를 확인해 보면 공개된 SNP의 약 34.1%에 해당하는 SNP가 30bp 안에 군집하여 분포한다는 것이다(그림 2)[8]. 이는 종전의 마이크로어레이 방식에서 NGS 방식의 SNP 탐색으로의 전환이 매우 필수적임을 시사한다. 그 이유는 마이크로어레이에 심어질 프로브 서열 내에 또 다른 SNP가 포함될 가능성이 매우 높으며 이러한 SNP는 고정되어 있는 프로브 서열로 인해 탐색이 되지 않는 치명적인 제한점을 NGS 방식의 시퀀싱을 통해 매우 효율적으로 해결할 수 있기 때문이다.

사용자 삽입 이미지
그림 2. Human Genome의 SNP 분포.
30bp 내에 많은 SNP이 군집을 이루며 모여 있다.

 Variation 분석에 적합하도록 시퀀싱이 수행되고 나면 실제 많은 reads를 이용한assembly가 수행되고 그 결과를 바탕으로 서열을 비교하여 variation 부분을 탐색하게 된다. 그 중 SNP 분석의 경우, 시퀀싱 중에 일어난 오류에 기인한 mis-match인지 variation으로 인한 mismatch 인지를 구별하기 위한 여러 가지 파라미터를 설정하게 된다. Mismatch frequency 및 coverage(해당 위치의 서열 coverage)를 중심으로 잠재적인 SNP를 선별하게 된다. 이때, 조금 더 정확한 SNP를 구별하기 위해 viewer를 통해 서열 퀄리티를 확인하는 경우도 발생하게 되는데, 다양한 플랫폼에서 생성된 reads들은 고유의 포맷을 유지하고 있고 대부분의 open source로 제공되는 프로그램들은 특정 플랫폼의 데이터만을 다루도록 하고 있어 이를 확인하기에는 어려움이 따른다. 또한 특정 SNP가 cSNP 인지 여부나 더 나아가 단백질 서열까지 변화되는 synonymous SNP 인지 여부를 판단하기에는 생물정보학자의 도움이 절실히 요구된다. 그러나 이러한 과정 모두를 해결해 줄 수 있는 프로그램들이 계속해서 개발되어지고 있다. 그 중 CLC NGS Cell과 CLC Genomics Workbench는 NGS 데이터의 assembly와 사용자 편의의 인터페이스를 통해 분석된 SNP의 아미노산 서열 변화 확인을 위한 translation 분석, SNP 검증을 위한 PCR 프라이머 디자인, in-silico 클로닝 등의 통합 분석을 생물정보 전문가가 아닌 일반 연구자들 스스로 진행할 수 있도록 하고 있다. 뿐만 아니라 assembly를 수행할 때 reference 서열을 이미 annotation이 완료된 ‘.gbk’ 데이터로 진행할 수 있어, SNP로 생각되는 유전자의 위치 및 이미 등록된 SNP 정보들까지도 표시하여 함께 확인할 수 있기 때문에 NGS 기술을 이용한 SNP 분석에 추천할 만한 분석 파이프라인이라고 하겠다(그림 3).

사용자 삽입 이미지
그림 3. SNP 탐색을 위한 CLC Genomics Workbench



다음 연재에서는 SNP(Single Nucleotide Polymorphism) 이외에 정상 표현형인 인간의 유전체에 존재하면서 유전적 다양성에 기여하고, 암 또는 많은 질병 감수성과도 연관될 가능성이 높은 유전자 복제수(Copy number) 변이 분석법에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.


참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

2010/02/17 14:37 2010/02/17 14:37

[Quipu Issue Paper] Variation study Ⅰ

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 주 Quipu Issue Paper 기술 소식지에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study에 대해 5번에 걸쳐 연재될 예정입니다.  다양한 variation study에 대한 소개에 앞서 오늘은 NGS reads를 이용한 assembly에 기반을 둔 variation 분석은 어떻게 이루어지는지 알아보도록 하겠습니다.  

2. Application of Next Generation Sequencing


 2-1. Variation Study


 Next Generation Sequencing 기술은 이제 유전체 연구의 밑바탕이 되고 있다. 수백 Mega base에서 Giga base에 이르기까지 엄청난 양의 염기서열 분석을 수행해내면서 전체 염기서열 결정 및 re-sequencing을 통해 유전체 상의 여러 가지 변이 연구를 활발히 하게 하였다. 이는 시간과 가격적으로 효과적인 마커를 개발할 수 있을 뿐만 아니라 개인 맞춤 의학에 빠르게 다가갈 수 있도록 하고 있다. NGS를 이용한 variation 연구는 대부분 양쪽 말단 서열을 동시에 해독하는 방법인 paired-end 시퀀싱을 사용하고, 평균 시퀀스 배수를 유전체의 20~40X로 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과 정렬을 통해 비교하는 것이 보통이다. 이 후 분석된 막대한 양의 정보들 가운데 의미 있는 SNP나 CNV 분석을 위한 이차적 분석에 전문적 수준의 생물정보학적 도구가 필수적으로 이용되고 있다.

 NGS reads를 이용한 variation 분석은 기본적으로 assembly에 기반을 둔다. 특정 원하는 영역의 서열만을 골라 시퀀싱 하는 amplicon 시퀀싱 방법과 유전체 서열 전체를 대상으로 시퀀싱하는 두 가지 방법 모두 일차적으로 assembly를 수행하고 이후 서열간의 비교 분석을 통해 variation 분석을 진행한다. 따라서 대부분의 assembler는 assembly 뿐만 아니라 이후 SNP와 같은 variation 분석이 가능하도록 추가 기능을 제공하고 있다. 그러나 서열 하나 정도의 variation이 아닌 넓은 범위에 걸쳐 발생하는 variation은 single reads 혹은 짧은 fragment의 paired-end 시퀀싱으로는 한계가 있다. 이를 극복하기 위해 분석 목적에 따라
시퀀싱 타입을 다양하게 디자인하고 있다.

사용자 삽입 이미지
그림 1. NGS reads를 alignment를 이용한 genome 서열 내의 variation 탐색.
다양한 fragment size 설정으로 SNP, CNV 및 구조적 variation 탐색이 가능하다.

 일반적으로, variation 분석에는 fragment size를 다양하게 구성한 paired end 시퀀싱을 추천한다. SNP 뿐만 아니라 CNV와 같은 넓은 지역에서의 variation과 구조적 변화까지 분석하기에는 길이에 제한이 있는 single reads 보다는 다양한 길이로 구성된 paired reads를 이용하여 기준이 되는 reference 서열에 모두 alignment가 수행될 수 있도록 하는 것이 효율적이기 때문이다. 그림 1에서 보여 지는 것과 같이 reference 서열과 비교했을 때 1.5kb의 insertion이 존재하는 경우 500bp fragment의 paired-end 서열은 한쪽만 alignment 되고 다른 한쪽은 alignment가 수행되지 않을 것이다. 그러나 2kb fragment paired-end 서열의 경우  양쪽 서열이 모두 reference 서열에 alignment 되면서 1.5kb의 insertion이 일어났음을 인지할 수 있게 된다. 또한 양쪽 서열의 alignment 방향을 체크하여 inversion이 일어났는지도 확인이 가능하다[7]. 표 1에서는 분석 목적에 따른 최적화된 NGS reads 타입을 소개하고 있다[5]. 현재 paired-end의 fragment size는 200bp에서 5kb 까지 가능한 수준이다. 그 중 2-5 kb의 long fragments의 시퀀싱은 fragment 양 끝 말단을 ligation 하여 circular 형태로 만들고 이후 다시 circular 형태의 서열을 400-600bp 길이로 절편을 만들어 그중 양쪽 끝 말단의 서열을 포함하고 있는 fragment만을 선별하여 시퀀싱을 수행한다[5]. 이러한 방법은 긴 서열 중 필요한 양쪽 끝 말단만을 추출하여 시퀀싱의 샘플로 이용하는 것으로 ‘mate paired ends’라 하며, 시퀀싱의 품질을 높이는 하나의 방법이 된다.

사용자 삽입 이미지
결론적으로, ‘1-2. Assembly’ 에서도 언급 하였듯이 variation을 목적으로 분석하는 경우에는 분석하려는 서열들 간의 차이를 인지하고 이를 반영한 assembly가 수행되어야 한다. 따라서 reference assembly 수행에서도 reference 서열과 시퀀싱 된 reads간의 차이는 SNP와 같은 서열하나일 수도 있고 CNV나 구조적 변형 같은 넓은 범위의 variation도 있기 때문에 표 1에서 언급한데로 다양한 길이의 fragment size로 분석하는 것이 언급된 모든 variation을 분석하기에는 가장 적합하다[5].

다음 연재에서는 다양한 variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.

참고문헌

 1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
 2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
 3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
 4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
 5. Illumina : SNP Genotyping and CNV Analysis
  (http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
 6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
 7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
 8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
 9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
 10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
 11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153














Posted by 人Co

2010/02/16 14:19 2010/02/16 14:19
, , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/40

프로그래밍언어 파이썬(Python)과 웹프레임워크 장고(Django)는 당사 KM팀의 주요 개발 환경입니다. LabKM을 비롯한 다양한 프로젝트들이 파이썬과 장고를 이용하여 구현되었고, 개발중에 있습니다. 파이썬은 그 넓은 활용성과 다양한 적용분야와 활용사례에도 불구하고 국내에는 잘 알려지지 않았는데, 마침 파이썬이 어떤 언어인지 좀 알려달라는 고객분의 요청이 있어 간략히 소개하고자 합니다.

파이썬에 관하여,

파이썬은 동적형결정 객체지향 언어로 빠른 생산성과 다양한 라이브러리를 보유한 프로그래밍 언어입니다. 구글 내부에서 가장 많이 사용하는 언어로도 알려져 있습니다. 생물정보분야 및 각종 과학기술분야에 관련 라이브러리들이 잘 갖추어져 있어서, 과학기술용 어플리케이션을 만드는데 용이합니다.

개괄적인 설명은 위키피디아를 참조하시면 좋습니다.
 * 국문 : 파이썬
 * 영문 : Python

파이썬에 관련된 아래 포스팅들을 보시면, 실무경험자의 다양한 평가들을 확인할 수 있습니다.
 * 파이썬, 이슈에서 벗어나 대세로 자리매김
 * 프로그래밍 지형도를 바꾸는 파이썬
 * 파이썬을 배워야 하는 이유
 * 지식관리팀 주 개발환경 파이썬, 장고
 * 장고(Django)로 쉽고 빠른 웹개발

생물정보분야에도 많이 사용됩니다. 다음의 자료들을 확인해보세요.
 * 생물학 + 전산학 = 생물정보학 :
 * Python programming for Bioinformatics :
 * Python for Bioinformatics (서적)

인실리코젠에서 구축한 시스템 사례들도 있습니다.
 * 국립문화재연구소 고대유전자원정보시스템  (since 2009-11)
 * 국방부조사본부  6-25전사자유전자정보검색시스템 (본부 내부, 2009-11)
 * 가축유전자원시험장 가축유전자원종합관리시스템 (since 2009-01)
 * KIST 독성유전체분석시스템 (since 2009-02)
 * 대한환경위해성보건과학회 온라인논문투고 및 학회홈페이지 (since 2008-10)
 * 대한독성유전단백체학회 온라인논문투고 및 학회홈페이지 (since 2007-06)

인실리코젠 KM팀은 생물정보(과학기술용) 파이썬 라이브러리를 발전시키고 기술을 축적하며, 다양한 사용자의 요구사항의 반영이 용이하도록 준비함으로써 수준높은 웹 어플리케이션을 구현하고자 합니다. 많은 성원을 부탁드립니다.

Posted by 人Co

2010/02/12 17:17 2010/02/12 17:17
, ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/39



« Previous : 1 : ... 30 : 31 : 32 : 33 : 34 : 35 : 36 : 37 : 38 : Next »