[Quipu Issue Paper] Variation study Ⅰ
- Posted at 2010/02/16 14:19
- Filed under 생물정보
연재 순서
1. Assembly
2. Variation study
3. Expression study
4. Epigenomics
5. Genome Annotation
6. Next Generation Bioinformatics
7. Data Management for web 2.0 Era
8. Semantic Network for Integrated Biology Data
9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis
이번 주 Quipu Issue Paper 기술 소식지에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study에 대해 5번에 걸쳐 연재될 예정입니다. 다양한 variation study에 대한 소개에 앞서 오늘은 NGS reads를 이용한 assembly에 기반을 둔 variation 분석은 어떻게 이루어지는지 알아보도록 하겠습니다.
Next Generation Sequencing 기술은 이제 유전체 연구의 밑바탕이 되고 있다. 수백 Mega base에서 Giga base에 이르기까지 엄청난 양의 염기서열 분석을 수행해내면서 전체 염기서열 결정 및 re-sequencing을 통해 유전체 상의 여러 가지 변이 연구를 활발히 하게 하였다. 이는 시간과 가격적으로 효과적인 마커를 개발할 수 있을 뿐만 아니라 개인 맞춤 의학에 빠르게 다가갈 수 있도록 하고 있다. NGS를 이용한 variation 연구는 대부분 양쪽 말단 서열을 동시에 해독하는 방법인 paired-end 시퀀싱을 사용하고, 평균 시퀀스 배수를 유전체의 20~40X로 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과 정렬을 통해 비교하는 것이 보통이다. 이 후 분석된 막대한 양의 정보들 가운데 의미 있는 SNP나 CNV 분석을 위한 이차적 분석에 전문적 수준의 생물정보학적 도구가 필수적으로 이용되고 있다.
NGS reads를 이용한 variation 분석은 기본적으로 assembly에 기반을 둔다. 특정 원하는 영역의 서열만을 골라 시퀀싱 하는 amplicon 시퀀싱 방법과 유전체 서열 전체를 대상으로 시퀀싱하는 두 가지 방법 모두 일차적으로 assembly를 수행하고 이후 서열간의 비교 분석을 통해 variation 분석을 진행한다. 따라서 대부분의 assembler는 assembly 뿐만 아니라 이후 SNP와 같은 variation 분석이 가능하도록 추가 기능을 제공하고 있다. 그러나 서열 하나 정도의 variation이 아닌 넓은 범위에 걸쳐 발생하는 variation은 single reads 혹은 짧은 fragment의 paired-end 시퀀싱으로는 한계가 있다. 이를 극복하기 위해 분석 목적에 따라
시퀀싱 타입을 다양하게 디자인하고 있다.
일반적으로, variation 분석에는 fragment size를 다양하게 구성한 paired end 시퀀싱을 추천한다. SNP 뿐만 아니라 CNV와 같은 넓은 지역에서의 variation과 구조적 변화까지 분석하기에는 길이에 제한이 있는 single reads 보다는 다양한 길이로 구성된 paired reads를 이용하여 기준이 되는 reference 서열에 모두 alignment가 수행될 수 있도록 하는 것이 효율적이기 때문이다. 그림 1에서 보여 지는 것과 같이 reference 서열과 비교했을 때 1.5kb의 insertion이 존재하는 경우 500bp fragment의 paired-end 서열은 한쪽만 alignment 되고 다른 한쪽은 alignment가 수행되지 않을 것이다. 그러나 2kb fragment paired-end 서열의 경우 양쪽 서열이 모두 reference 서열에 alignment 되면서 1.5kb의 insertion이 일어났음을 인지할 수 있게 된다. 또한 양쪽 서열의 alignment 방향을 체크하여 inversion이 일어났는지도 확인이 가능하다[7]. 표 1에서는 분석 목적에 따른 최적화된 NGS reads 타입을 소개하고 있다[5]. 현재 paired-end의 fragment size는 200bp에서 5kb 까지 가능한 수준이다. 그 중 2-5 kb의 long fragments의 시퀀싱은 fragment 양 끝 말단을 ligation 하여 circular 형태로 만들고 이후 다시 circular 형태의 서열을 400-600bp 길이로 절편을 만들어 그중 양쪽 끝 말단의 서열을 포함하고 있는 fragment만을 선별하여 시퀀싱을 수행한다[5]. 이러한 방법은 긴 서열 중 필요한 양쪽 끝 말단만을 추출하여 시퀀싱의 샘플로 이용하는 것으로 ‘mate paired ends’라 하며, 시퀀싱의 품질을 높이는 하나의 방법이 된다.
결론적으로, ‘1-2. Assembly’ 에서도 언급 하였듯이 variation을 목적으로 분석하는 경우에는 분석하려는 서열들 간의 차이를 인지하고 이를 반영한 assembly가 수행되어야 한다. 따라서 reference assembly 수행에서도 reference 서열과 시퀀싱 된 reads간의 차이는 SNP와 같은 서열하나일 수도 있고 CNV나 구조적 변형 같은 넓은 범위의 variation도 있기 때문에 표 1에서 언급한데로 다양한 길이의 fragment size로 분석하는 것이 언급된 모든 variation을 분석하기에는 가장 적합하다[5].
다음 연재에서는 다양한 variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.
많은 관심 부탁드립니다.
참고문헌
1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
5. Illumina : SNP Genotyping and CNV Analysis
(http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153
1. Assembly
2. Variation study
3. Expression study
4. Epigenomics
5. Genome Annotation
6. Next Generation Bioinformatics
7. Data Management for web 2.0 Era
8. Semantic Network for Integrated Biology Data
9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis
이번 주 Quipu Issue Paper 기술 소식지에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study에 대해 5번에 걸쳐 연재될 예정입니다. 다양한 variation study에 대한 소개에 앞서 오늘은 NGS reads를 이용한 assembly에 기반을 둔 variation 분석은 어떻게 이루어지는지 알아보도록 하겠습니다.
2. Application of Next Generation Sequencing
2-1. Variation Study
Next Generation Sequencing 기술은 이제 유전체 연구의 밑바탕이 되고 있다. 수백 Mega base에서 Giga base에 이르기까지 엄청난 양의 염기서열 분석을 수행해내면서 전체 염기서열 결정 및 re-sequencing을 통해 유전체 상의 여러 가지 변이 연구를 활발히 하게 하였다. 이는 시간과 가격적으로 효과적인 마커를 개발할 수 있을 뿐만 아니라 개인 맞춤 의학에 빠르게 다가갈 수 있도록 하고 있다. NGS를 이용한 variation 연구는 대부분 양쪽 말단 서열을 동시에 해독하는 방법인 paired-end 시퀀싱을 사용하고, 평균 시퀀스 배수를 유전체의 20~40X로 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과 정렬을 통해 비교하는 것이 보통이다. 이 후 분석된 막대한 양의 정보들 가운데 의미 있는 SNP나 CNV 분석을 위한 이차적 분석에 전문적 수준의 생물정보학적 도구가 필수적으로 이용되고 있다.
NGS reads를 이용한 variation 분석은 기본적으로 assembly에 기반을 둔다. 특정 원하는 영역의 서열만을 골라 시퀀싱 하는 amplicon 시퀀싱 방법과 유전체 서열 전체를 대상으로 시퀀싱하는 두 가지 방법 모두 일차적으로 assembly를 수행하고 이후 서열간의 비교 분석을 통해 variation 분석을 진행한다. 따라서 대부분의 assembler는 assembly 뿐만 아니라 이후 SNP와 같은 variation 분석이 가능하도록 추가 기능을 제공하고 있다. 그러나 서열 하나 정도의 variation이 아닌 넓은 범위에 걸쳐 발생하는 variation은 single reads 혹은 짧은 fragment의 paired-end 시퀀싱으로는 한계가 있다. 이를 극복하기 위해 분석 목적에 따라
시퀀싱 타입을 다양하게 디자인하고 있다.
그림 1. NGS reads를 alignment를 이용한 genome 서열 내의 variation 탐색.
다양한 fragment size 설정으로 SNP, CNV 및 구조적 variation 탐색이 가능하다.
다양한 fragment size 설정으로 SNP, CNV 및 구조적 variation 탐색이 가능하다.
일반적으로, variation 분석에는 fragment size를 다양하게 구성한 paired end 시퀀싱을 추천한다. SNP 뿐만 아니라 CNV와 같은 넓은 지역에서의 variation과 구조적 변화까지 분석하기에는 길이에 제한이 있는 single reads 보다는 다양한 길이로 구성된 paired reads를 이용하여 기준이 되는 reference 서열에 모두 alignment가 수행될 수 있도록 하는 것이 효율적이기 때문이다. 그림 1에서 보여 지는 것과 같이 reference 서열과 비교했을 때 1.5kb의 insertion이 존재하는 경우 500bp fragment의 paired-end 서열은 한쪽만 alignment 되고 다른 한쪽은 alignment가 수행되지 않을 것이다. 그러나 2kb fragment paired-end 서열의 경우 양쪽 서열이 모두 reference 서열에 alignment 되면서 1.5kb의 insertion이 일어났음을 인지할 수 있게 된다. 또한 양쪽 서열의 alignment 방향을 체크하여 inversion이 일어났는지도 확인이 가능하다[7]. 표 1에서는 분석 목적에 따른 최적화된 NGS reads 타입을 소개하고 있다[5]. 현재 paired-end의 fragment size는 200bp에서 5kb 까지 가능한 수준이다. 그 중 2-5 kb의 long fragments의 시퀀싱은 fragment 양 끝 말단을 ligation 하여 circular 형태로 만들고 이후 다시 circular 형태의 서열을 400-600bp 길이로 절편을 만들어 그중 양쪽 끝 말단의 서열을 포함하고 있는 fragment만을 선별하여 시퀀싱을 수행한다[5]. 이러한 방법은 긴 서열 중 필요한 양쪽 끝 말단만을 추출하여 시퀀싱의 샘플로 이용하는 것으로 ‘mate paired ends’라 하며, 시퀀싱의 품질을 높이는 하나의 방법이 된다.
결론적으로, ‘1-2. Assembly’ 에서도 언급 하였듯이 variation을 목적으로 분석하는 경우에는 분석하려는 서열들 간의 차이를 인지하고 이를 반영한 assembly가 수행되어야 한다. 따라서 reference assembly 수행에서도 reference 서열과 시퀀싱 된 reads간의 차이는 SNP와 같은 서열하나일 수도 있고 CNV나 구조적 변형 같은 넓은 범위의 variation도 있기 때문에 표 1에서 언급한데로 다양한 길이의 fragment size로 분석하는 것이 언급된 모든 variation을 분석하기에는 가장 적합하다[5].
다음 연재에서는 다양한 variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.
많은 관심 부탁드립니다.
참고문헌
1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
5. Illumina : SNP Genotyping and CNV Analysis
(http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153
Posted by 人Co
- Tag
- 454, Assembly, NGS, Sequencing, SNP, Solexa, SOLiD, variation, 생물정보, 인실리코젠
- Response
- No Trackback , No Comment
- RSS :
- https://post-blog.insilicogen.com/blog/rss/response/40