[구버전] 人Co BLOG

[Quipu Issue Paper] Variation study Ⅲ - CNV(Copy Number Variation) Analysis

Posted at 2010/02/18 09:17
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에 CNV (Copy Number Variation) 분석법에 대해 알아보도록 하겠습니다.

2-1-2. CNV (Copy Number Variation) Analysis

SNP가 유전적 다형성의 대명사로 여겨졌지만 이외에도 정상 표현형인 인간의 유전체에 유전자 복제 수(copy number) 변이가 존재하여 유전적 다양성에 기여하고, 암 또는 많은 질병 감수성과도 연관될 가능성이 높다는 연구 결과가 보고되면서 유전체의 구조적 변이에 대한 관심이 대두되었다. CNV(Copy Number Variants)는 reference 유전체와 비교해서 copy number의 차이를 보이는 1kb 이상의 DNA 조각으로 정의하며, 평균 크기는 29kb에서 523kb 정도로 예상된다고 한다.

현재 전체 유전체에서 CNV를 발굴하는 방식 중 가장 흔히 사용되는 방식은 CGH (comparative genomic hybridization)의 원리에 DNA 칩의 기술을 접목시킨 array-CGH이다. 마이크로어레이 기반 CGH 실험 분석 목적은 모든 유전체 안에서 각각의 유전자 조각들이 반복 횟수 변화를 보이는 부분을 선별해 내거나 반복 횟수의 양적 변화를 찾는 것이다. 이렇게 마이크로어레이 플랫폼을 이용해 발굴된 CNV는 분석에 이용된 플랫폼 의존 특성을 가지게 되어 최종 데이터의 질적인 측면과 연관되어 분석 결과의 치우침 문제를 유발할 수 있다. 또한 hybridization 효율이 프로브 마다 다양하고, 실제 copy number의 프로브 서열이 아닐 가능성도 고려해야 하는 한계에 봉착하였다. 이에 이를 극복할 만한 대안이 필요한 상황에서 NGS 기술의 보급은 CNV 발굴의 차세대 플랫폼으로 등장하였다. 앞서 언급된 NGS 기술을 통한 SNP 분석과 마찬가지로 유전체 서열과 다양한 fragment size의 paired-end reads를 assembly 함으로써 시퀀싱 coverage를 이용한 잠재적인 CNV를 분석할 수 있다(그림 4).

그림 4. aCGH와 CNV-seq 방법의 분석 과정 비교

그러나 SNP와 같이 하나의 염기서열 차이로 변이를 확인하는 것이 아니기 때문에 assembly 분석 시 시퀀싱 오류로 인하여 다른 부분에 정렬되어 잘못된 variation을 검출하게 되는 가능성도 배제할 수는 없다. 따라서 최근 Robust 통계 모델을 기본으로 하면서 aCGH와 NGS 기술의 이점들만 조합하여 효율적인 CNV 분석에 대한 논문이 발표되었고 이러한 방법을 이용하여 두 개체(Dr. J. Craig Venter와 Dr. James Watson) 사이의 CNV를 분석한 평가 결과도 함께 확인할 수 있어 이 후 aCGH와 NGS 기술을 접목한 CNV 분석 방법이 충분히 발전할 것으로 생각된다[4]. 이렇게 진행한 연구 방법과 결과들은 웹사이트를 통하여 무료로 이용할 수 있다(http://tiger.dbs.nus.edu.sg/CNV-seq).

다음 연재에서는 전체 유전체의 염기서열 분석이 아닌 관심있는 특정 유전체의 일부분을 분석하는 방법인 Sequence Capture 기술에 대해 알아보도록 하겠습니다.
많은 관심 부탁드립니다.

참고문헌

1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
5. Illumina : SNP Genotyping and CNV Analysis
(http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137

11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

Tag: aCGH, Assembly, CNV, NGS, SNP, variation, 마이크로어레이, 생물정보분석
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/42

[Quipu Issue Paper] Variation study Ⅱ - SNP(Single Nucleotide Polymorphism) Analysis

Posted at 2010/02/17 14:37
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 연재에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.

2-1-1. SNP (Single Nucleotide Polymorphism) Analysis

인간 유전체 상에 가장 많이 존재하는 형태의 다형성은 유전체상의 특정 염기서열 하나의 변화이며, 흔히 SNP(Single Nucleotide Polymorphism) 또는 단일염기다형성이라고 부른다. 한 논문에서는 SNP를 검출하는 방법을 다섯 가지로 요약해 나타냈다(표 2)[3]. 이러한 방법들의 공통된 특징은 유전자 또는 염색체 부위를 증폭한 산물에 대한 염기서열을 분석하고 여러 염기서열을 정렬하여 염기서열 차이로서 SNP 존재 여부를 확인하는 것이다. 이러한 관점으로 볼 때 정렬되는 서열이 많을수록 통계적으로도 안정적이며 명확한 variation을 분석할 수 있게 된다. 따라서 제한된 시간 동안 가장 많은 서열을 생산할 수 있는 NGS는 이에 가장 부합하는 분석 도구가 될 것이다.

또한 HapMap project에서 발표한 human 유전체의 SNP 분포를 확인해 보면 공개된 SNP의 약 34.1%에 해당하는 SNP가 30bp 안에 군집하여 분포한다는 것이다(그림 2)[8]. 이는 종전의 마이크로어레이 방식에서 NGS 방식의 SNP 탐색으로의 전환이 매우 필수적임을 시사한다. 그 이유는 마이크로어레이에 심어질 프로브 서열 내에 또 다른 SNP가 포함될 가능성이 매우 높으며 이러한 SNP는 고정되어 있는 프로브 서열로 인해 탐색이 되지 않는 치명적인 제한점을 NGS 방식의 시퀀싱을 통해 매우 효율적으로 해결할 수 있기 때문이다.

그림 2. Human Genome의 SNP 분포.
30bp 내에 많은 SNP이 군집을 이루며 모여 있다.

Variation 분석에 적합하도록 시퀀싱이 수행되고 나면 실제 많은 reads를 이용한assembly가 수행되고 그 결과를 바탕으로 서열을 비교하여 variation 부분을 탐색하게 된다. 그 중 SNP 분석의 경우, 시퀀싱 중에 일어난 오류에 기인한 mis-match인지 variation으로 인한 mismatch 인지를 구별하기 위한 여러 가지 파라미터를 설정하게 된다. Mismatch frequency 및 coverage(해당 위치의 서열 coverage)를 중심으로 잠재적인 SNP를 선별하게 된다. 이때, 조금 더 정확한 SNP를 구별하기 위해 viewer를 통해 서열 퀄리티를 확인하는 경우도 발생하게 되는데, 다양한 플랫폼에서 생성된 reads들은 고유의 포맷을 유지하고 있고 대부분의 open source로 제공되는 프로그램들은 특정 플랫폼의 데이터만을 다루도록 하고 있어 이를 확인하기에는 어려움이 따른다. 또한 특정 SNP가 cSNP 인지 여부나 더 나아가 단백질 서열까지 변화되는 synonymous SNP 인지 여부를 판단하기에는 생물정보학자의 도움이 절실히 요구된다. 그러나 이러한 과정 모두를 해결해 줄 수 있는 프로그램들이 계속해서 개발되어지고 있다. 그 중 CLC NGS Cell과 CLC Genomics Workbench는 NGS 데이터의 assembly와 사용자 편의의 인터페이스를 통해 분석된 SNP의 아미노산 서열 변화 확인을 위한 translation 분석, SNP 검증을 위한 PCR 프라이머 디자인, in-silico 클로닝 등의 통합 분석을 생물정보 전문가가 아닌 일반 연구자들 스스로 진행할 수 있도록 하고 있다. 뿐만 아니라 assembly를 수행할 때 reference 서열을 이미 annotation이 완료된 ‘.gbk’ 데이터로 진행할 수 있어, SNP로 생각되는 유전자의 위치 및 이미 등록된 SNP 정보들까지도 표시하여 함께 확인할 수 있기 때문에 NGS 기술을 이용한 SNP 분석에 추천할 만한 분석 파이프라인이라고 하겠다(그림 3).

그림 3. SNP 탐색을 위한 CLC Genomics Workbench

다음 연재에서는 SNP(Single Nucleotide Polymorphism) 이외에 정상 표현형인 인간의 유전체에 존재하면서 유전적 다양성에 기여하고, 암 또는 많은 질병 감수성과도 연관될 가능성이 높은 유전자 복제수(Copy number) 변이 분석법에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.

참고문헌

11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

Tag: CNV, cSNP, HapMap project, NGS, SNP, variation, 단일염기다형성, 생물정보학, 염기서열, 유전자 복제수 변이, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/41

[Quipu Issue Paper] Variation study Ⅰ

Posted at 2010/02/16 14:19
Filed under 생물정보

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

이번 주 Quipu Issue Paper 기술 소식지에서는 Next Generation Sequencing의 첫 번째 Application인 Variation study에 대해 5번에 걸쳐 연재될 예정입니다. 다양한 variation study에 대한 소개에 앞서 오늘은 NGS reads를 이용한 assembly에 기반을 둔 variation 분석은 어떻게 이루어지는지 알아보도록 하겠습니다.

2. Application of Next Generation Sequencing

2-1. Variation Study

Next Generation Sequencing 기술은 이제 유전체 연구의 밑바탕이 되고 있다. 수백 Mega base에서 Giga base에 이르기까지 엄청난 양의 염기서열 분석을 수행해내면서 전체 염기서열 결정 및 re-sequencing을 통해 유전체 상의 여러 가지 변이 연구를 활발히 하게 하였다. 이는 시간과 가격적으로 효과적인 마커를 개발할 수 있을 뿐만 아니라 개인 맞춤 의학에 빠르게 다가갈 수 있도록 하고 있다. NGS를 이용한 variation 연구는 대부분 양쪽 말단 서열을 동시에 해독하는 방법인 paired-end 시퀀싱을 사용하고, 평균 시퀀스 배수를 유전체의 20~40X로 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과 정렬을 통해 비교하는 것이 보통이다. 이 후 분석된 막대한 양의 정보들 가운데 의미 있는 SNP나 CNV 분석을 위한 이차적 분석에 전문적 수준의 생물정보학적 도구가 필수적으로 이용되고 있다.

NGS reads를 이용한 variation 분석은 기본적으로 assembly에 기반을 둔다. 특정 원하는 영역의 서열만을 골라 시퀀싱 하는 amplicon 시퀀싱 방법과 유전체 서열 전체를 대상으로 시퀀싱하는 두 가지 방법 모두 일차적으로 assembly를 수행하고 이후 서열간의 비교 분석을 통해 variation 분석을 진행한다. 따라서 대부분의 assembler는 assembly 뿐만 아니라 이후 SNP와 같은 variation 분석이 가능하도록 추가 기능을 제공하고 있다. 그러나 서열 하나 정도의 variation이 아닌 넓은 범위에 걸쳐 발생하는 variation은 single reads 혹은 짧은 fragment의 paired-end 시퀀싱으로는 한계가 있다. 이를 극복하기 위해 분석 목적에 따라
시퀀싱 타입을 다양하게 디자인하고 있다.

그림 1. NGS reads를 alignment를 이용한 genome 서열 내의 variation 탐색.
다양한 fragment size 설정으로 SNP, CNV 및 구조적 variation 탐색이 가능하다.

일반적으로, variation 분석에는 fragment size를 다양하게 구성한 paired end 시퀀싱을 추천한다. SNP 뿐만 아니라 CNV와 같은 넓은 지역에서의 variation과 구조적 변화까지 분석하기에는 길이에 제한이 있는 single reads 보다는 다양한 길이로 구성된 paired reads를 이용하여 기준이 되는 reference 서열에 모두 alignment가 수행될 수 있도록 하는 것이 효율적이기 때문이다. 그림 1에서 보여 지는 것과 같이 reference 서열과 비교했을 때 1.5kb의 insertion이 존재하는 경우 500bp fragment의 paired-end 서열은 한쪽만 alignment 되고 다른 한쪽은 alignment가 수행되지 않을 것이다. 그러나 2kb fragment paired-end 서열의 경우 양쪽 서열이 모두 reference 서열에 alignment 되면서 1.5kb의 insertion이 일어났음을 인지할 수 있게 된다. 또한 양쪽 서열의 alignment 방향을 체크하여 inversion이 일어났는지도 확인이 가능하다[7]. 표 1에서는 분석 목적에 따른 최적화된 NGS reads 타입을 소개하고 있다[5]. 현재 paired-end의 fragment size는 200bp에서 5kb 까지 가능한 수준이다. 그 중 2-5 kb의 long fragments의 시퀀싱은 fragment 양 끝 말단을 ligation 하여 circular 형태로 만들고 이후 다시 circular 형태의 서열을 400-600bp 길이로 절편을 만들어 그중 양쪽 끝 말단의 서열을 포함하고 있는 fragment만을 선별하여 시퀀싱을 수행한다[5]. 이러한 방법은 긴 서열 중 필요한 양쪽 끝 말단만을 추출하여 시퀀싱의 샘플로 이용하는 것으로 ‘mate paired ends’라 하며, 시퀀싱의 품질을 높이는 하나의 방법이 된다.

결론적으로, ‘1-2. Assembly’ 에서도 언급 하였듯이 variation을 목적으로 분석하는 경우에는 분석하려는 서열들 간의 차이를 인지하고 이를 반영한 assembly가 수행되어야 한다. 따라서 reference assembly 수행에서도 reference 서열과 시퀀싱 된 reads간의 차이는 SNP와 같은 서열하나일 수도 있고 CNV나 구조적 변형 같은 넓은 범위의 variation도 있기 때문에 표 1에서 언급한데로 다양한 길이의 fragment size로 분석하는 것이 언급된 모든 variation을 분석하기에는 가장 적합하다[5].

다음 연재에서는 다양한 variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.

참고문헌

1. 이종극 (2006) 질병유전체분석법(Genetic Variation and Diseases)
2. Eck SH, Benet-Pagès A, Flisikowski K, Meitinger T, Fries R, Strom TM. (2009) Whole genome sequencing of a single Bos taurus animal for single nucleotide polymorphism discovery. Genome Biol. 10(8), R82.
3. Ganal MW, Altmann T, Röder MS. (2009) SNP identification in crop plants. Curr Opin Plant Biol. 2, 211-217
4. Xie C, Tammi MT. (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics. 10, 80
5. Illumina : SNP Genotyping and CNV Analysis
(http://www.illumina.com/documents/products/datasheets/datasheet_genomic_sequence.pdf)
6. Bentley DR. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008 456, 53-59
7. Ng SB. et al. (2009) Targeted capture and massively parallel sequencing of 12 human exomes. Nature. 461, 272-276
8. Koboldt DC, Miller RD, Kwok PY. (2006) Distribution of human SNPs and its effect on high-throughput genotyping. Hum Mutat. 3, 249-254.
9. 박종화 (2009) 변이체학을 위한 생정보학 분석도구. Medical POSTGRADUATES. 3(37), 131-133
10. 유향숙, 김선영 (2009) Variome 국제연구동향. Medical POSTGRADUATES. 3(37), 134-137
11. 임선희, 정연준. (2009) 새로운 유전체 변이의 등장 : 유전자 복제수 변이. Medical POSTGRADUATES. 3(37), 149-153

Posted by 人Co

Tag: 454, Assembly, NGS, Sequencing, SNP, Solexa, SOLiD, variation, 생물정보, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/40

[Quipu Issue Paper] Assembly Ⅱ - De novo assembly

Posted at 2010/02/12 08:54
Filed under 생물정보

연재 순서

1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
10. Centralization for High-throughput Data Analysis

Quipu Issue Paper 기술 소식지 두 번째 연재로 NGS Assembly 중에 De novo assenbly에 대해 알아보도록 하겟습니다.

1-1-2. De novo assembly

Human genome project 이후 다양한 종에서 Whole Genome Sequencing(WGS)이 진행되고 있다. 고전적인 방법으로 BAC library를 제작하여 샷건 시퀀싱으로 진행되던 방식이 NGS 시대에 들어 새롭게 진화하였다. 일예로 Dr. Andreas는 ‘Corynebacterium kroppenstedtii’의 유전체 시퀀싱을 단 7.5 시간 만에 수행하고 자동화된 genome annotation 파이프라인을 통해 단 3일 만에 논문으로 발표하였다[13]. 그러나 아쉽게도 미생물을 제외한 대부분의 종에서는 아직까지 NGS를 이용한 de novo assembly로 유전체 시퀀싱을 완성한 팀은 없다. 짧은 reads의 제한적인 정보로 복잡한 유전체 구조를 모두 밝히기엔 어려움이 따른다. 따라서 reference가 없는 새로운 종을 시퀀싱 할 경우에는 짧은 reads를 생성하는 Solexa나 SOLiD보다는 Roche 454를 이용한 long reads 시퀀싱이 유용하다. 2009년 10월 현재 Roche 454의 GS Titanium의 경우 평균 read 길이가 350bp에 달하고 최대 700bp까지 시퀀싱을 수행한다고 한다[8]. 단, 유전체 구조상 반복 서열 영역과 같은 서열상의 정보로만 분석 되지 않는 부분은 paired-end reads의 fragment size를 다양하게 디자인하여 long reads와 함께 분석 하여야 한다. 이렇게 de novo assembly의 경우 long reads와 short paired-end reads를 동시에 처리할 수 있어야 하므로 assembler 또한 이들 모두를 처리할 수 있어야 한다.

대표적인 de novo assembler로 Velvet(Solexa bundle program)[9], Newbler(454 bundle program)[10], ABySS[11], CLC NGS Cell, 그리고 고전적인 프로그램인 Phrap을 들 수 있다. 이들 assembler의 특징에 대해 좀 더 자세히 살펴보기 위해 다음의 몇 가지 조건을 기준으로 살펴보았다. 단, phrap의 경우 NGS reads의 특성상 대량의 데이터를 처리하기엔 메모리와 속도 면에서 비교하기가 어려울 만큼 효율적이지 않은 점을 고려하여 이후 비교 분석에서는 제외하였다.

최근 de novo assembler의 개발이 가속화 되면서 human 유전체를 대상으로 de novo assembly에 성공한 사례가 발표 되었다. CLC NGS Cell[12]과 ABySS[11]가 그 주인공으로 Illumina의 paired-end reads를 분석에 이용하여 38X의 human 유전체를 완성 하였다고 밝혔다. 그 두 프로그램의 결과를 비교해 보면 표 4와 같다. CLC NGS Cell은 최근 2.0에서 3.0 beta 버전으로 업그레이드되면서 de novo assembly에 놀라울 만큼의 결과를 향상 시켰다[12]. 단적으로 38X나 되는 많은 데이터를 de novo assembly로 분석하는데 단 78시간(CPU time)밖에 소요되지 않았다는 것만으로도 매우 놀라운 일이다(표 4).

이는 ABySS와 비교했을 때 약 172배가 빨라진 결과이다[12]. 뿐만 아니라 분석된 contig의 품질을 살펴보면 100bp 이상 되는 contig는 ABySS 보다 많으며 최대 contig 길이 면에서 1.7배 긴 contig를 생성하고 있다. N50 또한 서로 비슷한 결과를 보여 주고 있어 단순히 빠른 속도만을 내세우는 프로그램이 아닌 분석 결과에 대한 정확성 면에서도 믿음을 주고 있다. 이를 한 번 더 검증하기 위해 짧은 유전체를 대상으로 Velvet과의 정확성 테스트를 다시 수행하였다. 그 결과 Velvet의 부정확한 assembly에 비해 CLC NGS Cell은 모두 정확한 assembly를 수행하였음을 확인 할 수 있었다(표 5)[12].

비슷한 결과로 Shizosaccharomyces pombe 132, Fungi 유전체를 대상으로 테스트한 결과에서도 CLC NGS Cell이 Velvet 보다는 좋은 결과를 보였다(표 6). 마지막으로 long reads와 short reads를 동시에 분석하여 복잡한 유전체 구조를 분석 할 때 서로 다른 데이터 플랫폼이 함께 분석되어야 한다. 이를 위해 GS titanium과 Illumina 데이터(Solexa)를 다양한 비율로 구성한 테스트 세트를 이용하여 분석하였다(표 7).

분석 결과 long reads 구성이 많을수록 긴 contig를 구성하는 것을 확인할 수 있었다. 그러나 여기서 보여지진 않았으나 반복서열 영역과 같은 시퀀싱이 쉽지 않은 영역의 데이터를 long reads 보다는 short reads에서 확인할 수 있었다. 따라서 두 가지 플랫폼의 장점을 모두 수용할 수 있는 assembler를 선택하여 분석의 정확성을 높이는 것이 좋을 듯하다.

1-1-3. Workflow

NGS 데이터의 분석 단계는 크게 pre-processing, assembly, 그리고 assembly를 이용한 이차 분석으로 나눠진다. Pre-processing 단계에서는 다양한 플랫폼으로부터 single reads, long reads, paired reads 그리고 unpaired reads들의 정보를 assembly 단계에 적용하기 위한 작업을 수행한다. 대부분의 assembler는 대용량의 데이터 처리를 위해 index 파일을 자체 프로그램에 맞게 생산하는 단계를 거치거나, 다양한 플랫폼에서 생산된 데이터를 특정 포맷의 입력 포맷으로 전환하는 과정을 수행한다. 그러나 이러한 과정은 자칫 시퀀싱 자체의 raw 정보를 유실하는 경우가 발생할 수 있으므로 assembler의 기능을 면밀히 살펴 최대한 정보를 그대로 보존할 수 있는 assembler를 선택하는 것이 좋다. 그중 CLC NGS Cell은 대부분의 시퀀싱 raw 파일을 입력 포맷으로 지원하므로 이러한 정보 손실을 줄여 줄 수 있는 이점이 있다. 더욱이 zip file 형태의 파일을 바로 입력 포맷으로 지원하므로 분석 단계에서의 파일 관리가 수월한 점도 장점이라 하겠다.

다음으로 assembly 과정에 대해 알아보자. NGS reads의 assembly는 제한적인 computing power를 고려하여 데이터를 여러 개로 분리하여 반복 수행하게 된다. 이후 이들 assembly 결과를 하나로 합치는 과정을 통해 전체적인 assembly을 완성한다. 대부분의 프로그램이 한 번의 명령어 수행으로 contig 서열 혹은 assembly 파일을 얻을 수 있다. 그림 3. CLC NGS Cell workflow. 다양한 입력 포맷을 지원하므로 assembly 수행을 위한 여러 단계의 전처리 과정이 없으며 assembly 이후 한 번의 스크립트 수행을 통해 원하는 다양한 정보를 이차적으로 생산할 수 있다.

마지막으로 assembly 결과를 이용한 다양한 이차정보 분석이다. SNP와 같은 variation 분석, assembly 결과를 보여주는 그래픽 인터페이스 그리고 assembly quality 정보 분석이 주로 수행된다. 그 중 assembly quality는 reference assembly의 경우 assembly에 참여된 reads의 coverage와 fold로 나타낼 수 있으며 de novo assembly의 경우 N50 및 fold value가 지표가 될 수 있다. 이러한 분석 역시 간단한 명령어 수행으로 대부분의 프로그램에서 수행하고 있다(그림 3).

그림 3. CLC NGS Cell workflow. 다양한 입력 포맷을 지원하므로 assembly 수행을 위한 여러 단계의 전처리 과정이 없으며 assembly 이후 한 번의 스크립트 수행을 통해 원하는 다양한 정보를 이차적으로 생산할 수 있다.

또한 그림 4는 alignment 결과와 그에 따른 SNP evidence를 그래픽 인터페이스를 통해 보여주고 있다. CLC NGS Cell은 reference assembly 수행 시 유전자 구조 및 기능 정보를 담고 있는 NCBI의 genbank 포맷의 파일을 reference 파일로 입력 받을 수 있는데, 이를 이용하게 되면 assembly 수행 후 결과를 CLC Genomics Workbench를 통해 유전자 위치와 alignment 된 reads 정보를 따로 그래픽 인터페이스를 제작하지 않고도 쉽게 확인 할 수 있다. 또한 SNP 정보를 함께 CLC Genomics Workbench를 통해 확인할 수 있어 바로 프라이머를 제작하는 등의 차후 분석이 가능하도록 돕고 있다.

그림 4. CLC Genomics Workbench를 이용한 alignment view 와 SNP view. Reference assembly 수행 시 annotation 정보가 있는 .gbk 파일을 이용하여 분석한 후 assembly 파일을 Genomics Workbench를 통해 확인하면 유전자의 위치와 함께 alignment reads의 상세정보를 확인 할 수 있다. 아울러 SNP 정보 중 cSNP의 경우 translation 정보를 활용하여
non-synonymous/synonymous SNP를 구분하여 분석 할 수 있다.

다음주 연재에서는 Assembly에 이어서 Assembly를 수행하고 이후 서열간의 비교 분석을 통해 variation 분석을 진행하는 variation study에 대해 알아보도록 하겠습니다.
많은 관심 부탁드립니다.

참고문헌

1. Li R, Li Y, Kristiansen K, Wang J. (2008) SOAP: short oligonucleotide alignment program. Bioinformatics 24, 713–714 (http://soap.genomics.org.cn/index.html)
2. Li H, Ruan J, Durbin R. (2008) Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res 18, 1851–1858 (http://maq.sourceforge.net/index.shtml)
3. Lin H, Zhang Z, Zhang MQ, Ma B, Li M. (2008) ZOOM! Zillions of oligos mapped. Bioinformatics 24, 2431–2437 (http://www.bioinfor.com)
4. CLC NGS Cell : http://www.clcbio.com
5. White paper on reference assembly on the CLC NGS Cell 2.0 (www.clcbio.com)
6. Palmieri N, Schlötterer C. (2009) Mapping accuracy of short reads from massively parallel sequencing and the implications for quantitative expression profiling. PLoS One. 28, 4(7):e6323.
7. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
8. Roche 454 : http://www.454.com/
9. Zerbino DR, Birney E. (2008) Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 18, 821–829.(http://www.ebi.ac.uk/~zerbino/velvet/)
10. Newbler : 454 bundle program
11. Birol I, Jackman SD, Nielsen CB, Qian JQ, Varhol R, Stazyk G, Morin RD, Zhao Y, Hirst M, Schein JE, Horsman DE, Connors JM, Gascoyne RD, Marra MA, Jones SJ. (2009) De novo transcriptome assembly with ABySS. Bioinformatics. 21, 2872-2877
12. White paper on de novo assembly in CLC NGS Cell 3.0 beta (www.clcbio.com)
13. Andreas T., Eva T., Thomas B., Alexander G., Ulrike L. and Alfred P. Ultrafast de novo sequencing of the human pathogen Corynebacterium urealyticum with the Genome Sequencer System (http://www.454.com/downloads/protocols/Whole_Genome_Sequencing_And_Assembly.pdf)
14. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
15. Kent WJ. (2002) BLAT--the BLAST-like alignment tool. Genome Res. 4, 656-664.
16. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
17. Langmead B, Trapnell C, Pop M, Salzburg SL. (2009) Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 3, R25
18. Jiang H, Wong WH. (2008) SeqMap: mapping massive amount of oligonucleotides to the genome. Bioinformatics. 20, 395-396.

Posted by 人Co

Tag: 454, Assembler, de novo assembly, NGS, Solexa, WGS, 생물정보학, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/37

[Quipu Issue Paper] Assembly Ⅰ - Reference assembly

Posted at 2010/02/09 11:17
Filed under 생물정보

Quipu Issue Paper 기술 소식지 첫 번째 연재로 NGS Assembly 중에 Reference assenbly에 대해 알아보도록 하겟습니다.

1. Next Generation Sequencing?

1-2. Assembly

Next Generation Sequencing(NGS)으로 인한 무제한적인 서열 데이터 생산은 이후 생물정보학적 분석의 가장 큰 도전 과제가 되었다. 일차적으로 많은 양의 데이터 관리부터 분석과정 마다의 computing 속도가 문제로 제기 되었다. 그중 가장 첫 번째 단계가assembly이다. NGS 서열의 assembly는 그 목적에 따라 크게 reference assembly와 de novo assembly로 구분 지어진다. Reference assembly의 경우 variation 및 epigenetics 연구에 주로 이용되고 de novo assembly의 경우 기존의 genome project에서 진행하던 whole genome sequencing에 이용되고 있다. 세부적인 내용을 다음에서 알아보자.

1-2-1. Reference assembly

Re-sequencing을 통한 기존의 reference 서열과의 비교로 유전체 상의 variation 연구를 목적으로 진행하는 시퀀싱은 주로 single reads를 얻는 시퀀싱 보다는 paired-end 시퀀싱이 수행된다. 그 이유는 다양한 질병 관련 유전자의 SNP 및 CNV 분석을 위해서는 single reads 보다는 paired-end reads가 더 유용하기 때문이며, 이들 데이터는 앞서 언급한 다양한 플랫폼에서 생산되고 있다. 이렇게 생산된 NGS 데이터를 분석할 수 있는 프로그램은 오픈 소스로 제공 되는 것과 그렇지 않은 것들로 여러 개가 존재한다. 그 중 오픈 소스로 제공하는 SOAP[1], MAQ[2] 그리고 ZOOM[3]은 paired-end short read에 최적화 되어 있고, Newbler는 long reads인 454 reads에 최적화 되어 있다. 이렇게 대부분 특정 NGS 플랫폼에서 생산된 데이터만을 다룰 수 있도록 고정화되어 있는 것에 반해 CLC bio사의 CLC NGS Cell[4]은 언급된 모든 플랫폼의 데이터를 분석할 수 있는 장점이 있다[14]. 이들 프로그램에 대하여 좀 더 자세히 알아보자.

NGS assembly 프로그램을 평가하는데 있어 가장 큰 이슈는 분석 속도와 결과의 정확성, 그리고 그 외 분석의 용이성을 들 수 있다. 이들에 대한 비교 분석을 위해 표 1에서 보여 지는 paired-end의 short reads을 대상으로 여러 가지 분석을 수행하였다. 이러한 분석은 64-bit Xeon E5420 CPUs에 32 GB memory system에서 수행되었다[1].

첫 번째인 분석 속도에서는 CLC NGS Cell이 가장 빠른 것으로 평가 되었다(표 2)[5].
SIMD 기술을 이용한 병렬 데이터 처리로 속도 면에서 월등히 높은 성능을 나타내었다. 그 외 SOAP의 경우 reference 서열을 2-bit로 전환하여 index 파일을 이용한 연산 처리로 좋은 결과를 보이고 있다(2009.11 현재 SOAP의 경우 업그레이드를 통해 분석 속도가 많이 향상 되었다).

특히, Maq의 경우 Illumina와 SOLiD의 paired-end reads를 대상으로 human 유전체에 맵핑할 경우 CPU time으로 10 시간 동안 백만 개 paired-end reads를 assembly 할 수 있다고 밝혔다[2]. 같은 시험을 위해 자체적으로 SOLiD reads를 대상으로 CLC NGS Cell을 이용하여 분석했을 때 CPU time으로 5시간 28분에 분석이 완료됨을 확인하였다. 두 번째로 NGS read의 alignment 비율 및 정확성을 살펴보았다. 최근 논문 PLoS ONE에 기재된 ‘Mapping Accuracy of Short Reads from Massively Parallel Sequencing and the Implications for Quantitative expression Profiling’에서는 BLAT[15], SSAHA2[16], Bowtie[17], SeqMap[18], MAQ, CLC NGS Cell을 대상으로 다양한 종의 데이터로 프로그램의 정확성을 다각도로 분석한 결과를 발표 하였다[6]. 그 결과 그림 1에서 보여 지는 것과 같이 SSAHA2와 CLC NGS Cell이 높게 평가되었다. 이 중 SSAHA2는 Sanger institute에서 개발된 프로그램으로 현재 SOLiD data를 제외한 모든 플랫폼의 데이터를 분석할 수 있다[7]. 기본적으로 Smith-Waterman alignment를 수행하며 2-bit로 전환하여 정확한 assembly를 수행한다. 그 다음 CLC NGS Cell은 모든 플랫폼의 데이터를 처리함과 동시에 SSAHA2와 같이 안정적으로 reads 길이에 관계없이 정확한 assembly를 수행하고 있다. 또한 특이할만한 점은 yeast, drosophila, arabidopsis 그리고 human을 대상으로 한 다양한 데이터로 short reads와 long reads(>50bp)에 대한 프로그램 성능을 비교 하였음에도 불구하고(MAQ: short read만이 분석 가능), 프로그램별로 일관성 있는 결과를 보여주고 있다는 것이다. 각기 다른 종과 read 길이로 약간의 차이는 보이나 전반적으로 동일한 분석 패턴을 보이고 있어, 이는 곧 데이터의 특성보다는 프로그램별 알고리즘의 차이가 분석 결과에 더 많은 영향을 미치는 것으로 해석된다. 따라서 NGS를 이용한 분석에서 다양한 프로그램을 이용하여 분석 파이프라인을 구축하는 것 보다는 사전에 충분한 테스트를 통해 동일한 알고리즘으로 구성된 프로그램을 이용하는 것이 결과의 안정성과 정확성을 높일 수 있는 하나의 방법이 될 수 있겠다.

NGS를 이용한 연구에서 특히 re-sequencing을 하는 경우 대부분 유전체 상의 variation 연구를 목적으로 진행된다. 따라서 re-sequencing된 데이터는 기존의 reference 서열과는 다른 variation을 가지는 특성이 있으므로 이를 고려한 assembly 알고리즘이 필요하다.

그림 1. 프로그램별 다양한 데이터 셑으로 구성된 reference assembly 시험 결과. 회색바는 alignment 된 비율, 붉은색바는 부정확한 alignment를 각각 나타낸다

그림 2. Reads의 다양한 mutation 비율에 따른 mapping의 정확성 시험. Drosophila genome과 transcripts를 reference로 하여 reads의 mutation 비율을 각각 3%, 6%, 9%로 조정하여 mappping을 수행. 회색바는 alignment된 reads의 비율을 의미하며 붉은색 바는 부정확하게 alignment된 비율을 나타낸다.

그림 2에서는 각 프로그램별 variation을 고려한 assembly 결과를 보여주고 있다[6]. Drosophila의 transcripts와 유전체 서열을 각각 reference로 하고 mutation 비율이 각기 다른 NGS reads를 맵핑하여 프로그램의 정확성을 확인 하였다. 이도 역시 CLC NGS Cell과 SSAHA2가 가장 우수한 결과를 보이고 있다. 그러나 CLC NGS Cell의 경우 mutation 비율에 상관없이 안정적인 정확성을 보이고 있는 반면, SSAHA2는 mutation 비율이 커짐에 따라 정확성이 떨어지는 문제점을 들어내고 있다. 따라서 SSAHA2를 이용할 경우 사전에 데이터의 특성을 미리 파악하여 적절히 이용하는 것이 좋을 듯하다.

마지막으로 분석의 용이성을 여러 가지 측면으로 살펴보았다. NGS 분석을 목적으로 개발된 MAQ, SOAP, 그리고 CLC NGS Cell은 모두 웹에서 다운로드가 가능하다. 이 중 CLC NGS Cell은 압축만 해제하면 바로 실행할 수 있는 바이너리 파일을 제공하고 있고, SOAP과 MAQ은 각각 압축 해제 후 compile을 통해 쉽게 설치가 가능하다.

이 후 분석에 필요한 입력 데이터 형식은 CLC NGS Cell이 가장 호환성이 좋아 FASTA, FASTQ, csfasta(SOLiD), Scarf, Sff의 모든 형식의 파일을 입력 받을 수 있었으며 SOAP과 MAQ은 각각 프로그램에 맞는 형식이 따로 존재하여, 이들 형식으로 전환할 수 있는 프로그램을 따로 제공하고 있는 실정이다. 이때 paired-end reads의 경우 분석 결과의 신뢰성과 정확성을 높이기 위해 assembly 수행 전에 서열이 쌍으로 존재하는지 여부를 체크하게 되는데, 이를 점검할 수 있는 프로그램을 CLC NGS Cell과 MAQ은 제공하고 있다. 이는 분석자에게 NGS reads의 전처리 과정을 수월하게 진행할 수 있게 하는 편의성도 고려된 것이다.

Reference 서열 또한 CLC NGS Cell은 FASTA 형식과 genbank 형식의 파일을 바로 입력 받을 수 있는 장점을 가지고 있으며, 나머지 프로그램은 각각의 형식으로 전환할 프로그램을 제공하여 한 번의 분석 단계를 더 수행하도록 되어있다. 그 외 분석에 필요한 옵션사항은 약간의 차이를 보일뿐 큰 차이는 없었으나, 다음 분석을 위한 assembly 결과 파일의 데이터 호환성에서는 CLC NGS Cell과 MAQ이 SOAP보다는 우위를 나타내었다. 마지막으로 NGS 분석 프로그램에서 중요하게 체크해야 할 사항 중에 하나는 assembly 과정을 나눠 진행하고 이후에 결과를 하나로 합쳐 볼 수 있는 기능이 있는지를 살펴보는 것이다.

제한된 computing power로 이처럼 큰 사이즈의 유전체 서열과 NGS reads를 분석해야 하므로 한 번에 데이터를 분석 한다는 것은 매우 어려운 일이다. 따라서 가능한 분산 처리로 데이터를 나눠 분석하고 이들을 통합할 수 있는 기능이 있어야만 한다. 다행히 이러한 기능은 CLC NGS Cell(join_assemblies)과 MAQ(mapmerge)에서 제공을 하고 있었다. 이들 각각의 특징은 표 3에서 자세히 확인할 수 있다.

다음 연재에서는 Reference assembly에 이어서 NGS Assembly 중에 de novo assembly에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.

참고문헌

1. Li R, Li Y, Kristiansen K, Wang J. (2008) SOAP: short oligonucleotide alignment program. Bioinformatics 24, 713–714 (http://soap.genomics.org.cn/index.html)
2. Li H, Ruan J, Durbin R. (2008) Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res 18, 1851–1858 (http://maq.sourceforge.net/index.shtml)
3. Lin H, Zhang Z, Zhang MQ, Ma B, Li M. (2008) ZOOM! Zillions of oligos mapped. Bioinformatics 24, 2431–2437 (http://www.bioinfor.com)
4. CLC NGS Cell : http://www.clcbio.com
5. White paper on reference assembly on the CLC NGS Cell 2.0 (www.clcbio.com)
6. Palmieri N, Schlötterer C. (2009) Mapping accuracy of short reads from massively parallel sequencing and the implications for quantitative expression profiling. PLoS One. 28, 4(7):e6323.
7. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
8. Roche 454 : http://www.454.com/
9. Zerbino DR, Birney E. (2008) Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 18, 821–829.(http://www.ebi.ac.uk/~zerbino/velvet/)
10. Newbler : 454 bundle program
11. Birol I, Jackman SD, Nielsen CB, Qian JQ, Varhol R, Stazyk G, Morin RD, Zhao Y, Hirst M, Schein JE, Horsman DE, Connors JM, Gascoyne RD, Marra MA, Jones SJ. (2009) De novo transcriptome assembly with ABySS. Bioinformatics. 21, 2872-2877
12. White paper on de novo assembly in CLC NGS Cell 3.0 beta (www.clcbio.com)
13. Andreas T., Eva T., Thomas B., Alexander G., Ulrike L. and Alfred P. Ultrafast de novo sequencing of the human pathogen Corynebacterium urealyticum with the Genome Sequencer System (http://www.454.com/downloads/protocols/Whole_Genome_Sequencing_And_Assembly.pdf)
14. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
15. Kent WJ. (2002) BLAT--the BLAST-like alignment tool. Genome Res. 4, 656-664.
16. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
17. Langmead B, Trapnell C, Pop M, Salzburg SL. (2009) Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 3, R25
18. Jiang H, Wong WH. (2008) SeqMap: mapping massive amount of oligonucleotides to the genome. Bioinformatics. 20, 395-396.

Posted by 人Co

Tag: Assembly, Bioinformatics, CLC NGS Cell, Codes, de novo assembly, MAQ, NGS, Reference assembly, SOAP, 생물정보학, 인실리코젠
Response: No Trackback , 1 Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/36

[Quipu Issue Paper] NGS 시대의 분석전략 Ⅱ 연재 안내

Posted at 2010/02/05 09:18
Filed under 생물정보

안녕하십니까?

생물정보 컨설팅 전문기업 (주)인실리코젠입니다.
저희 (주)인실리코젠 Codes팀은 최신 생물정보학관련 연구 동향에 대한 기술 소식지(Quipu Issue Paper)를 발간하고 있습니다. Frederick Sanger에 의해서 시퀀싱 기술이 개발된 이후 오랜 기간 동안 많은 종의 유전정보가 밝혀져 왔습니다. Human Genome Project가 완성되었으며, 아직도 수많은 동물, 식물, 미생물에 대한 시퀀싱이 전 세계에 걸쳐 진행되고 있습니다. 최근에는 생산성을 획기적으로 개선한 Next Generation Sequencing (NGS) 기술이 개발되어 기존에 비해 시간과 비용을 비약적으로 줄일 수 있게 되었습니다. NGS 기술은 단순히 시퀀싱의 방법만을 바꿔놓은 것이 아니라 유전체 연구의 새로운 토대를 만들어가고 있습니다. 하지만 아직도 NGS 기술이 기존의 분석 방법에서 어떠한 변화를 가져오는 것인지, 어떠한 분석 전략이 필요한 것인지 궁금해하는 연구자분들도 많은 것이라 생각됩니다. 'NGS 시대의 분석 전략 2'라는 제목으로 발간된 Quipu Issue Paper 2호에서는 앞서 말씀드린 NGS에 대한 기본적인 이해를 도울 수 있도록 다양한 변화를 습득하고 하고 계시는 연구에 조금이나마 도움이 되기를 바랍니다. 앞으로도 생물정보 분야에서 끊임없이 노력하는 기업이 되겠습니다.

기술 소식지 연재는 블로그를 통해 2월 8일부터 시작되어 약 9주에 걸쳐 진행될 예정입니다. 연재 순서는 아래와 같습니다.

많은 관심 부탁드립니다.
감사합니다.

연재 순서

Assembly
Variation study
Expression study
Epigenomics
Genome Annotation
Next Generation Bioinformatics
Data Management for web 2.0 Era
Semantic Network for Integrated Biology Data
Gene Network Discovery by Text-mining
Centralization for High-throughput Data Analysis

(주)인실리코젠 Codes팀
Tel : 031-278-0061 / E-mail : codes@insilicogen.com

Posted by 人Co

Tag: 454, Codes, NGS, Solexa, SOLiD, 생물정보학, 인실리코젠
Response: No Trackback , 1 Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/35

PathwayStudio 사용자 교육 후기

Posted at 2009/09/03 08:01
Filed under 생물정보

ARIADNE GENOMICS사의 Pathway 분석 제품인 PathwayStudio의 사용자 교육이 8월 31일(월) 오전 11시부터 당사 회의실에서 있었습니다. 이번 사용자 교육은 한국생명공학연구원과 중앙대학교에서 몇몇 연구원분들이 참석한 가운데 저희 회사 생물정보실의 박준형 팀장님께서 진행을 해주셨습니다. 저희 회사의 소개로 발표가 시작되었고, 약 3시간에 걸쳐서 진행된 교육은 직접 시연을 통해 PathwayStudio 사용법을 자세하게 살펴보는 시간이었습니다.

시연의 내용으로는 PathwayStudio의 인터페이스 소개에서부터 기본 사용법과 유용한 기능들에 대해 알아보고 기능들을 활용해서 단백질, Small molecules, Cell processes 등 다양한 Entity 사이에 어떠한 관계를 가지고 있는지 Pathway를 직접 그리면서 시연해 주셨고, 최근에 이슈가 되고 있는 텍스트마이닝 기법을 이용한 MedScan을 활용하여 NCBI PubMed의 문헌정보 뿐만 아니라 자신이 가지고 있는 PDF, TXT 파일에서 자동으로 생물학적 상호작용에 대한 정보를 추출하는 방법에 대해서도 배워보았습니다. 특히 연구자의 마이크로어레이데이터와 실험데이터를 이용하여 pathway를 재구성 하는 내용은 참가자들로부터 많은 관심을 받았습니다.

사용자 교육을 하고 계신 박준형 팀장님과 교육에 참여하고 있는 참석자분들

사용자 교육 중간에는 다함께 점심을 먹으며 저희 회사 이야기와 참여하신 분들의 연구실 이야기 등 화기애애한 이야기를 주고받는 시간을 갖기도 했습니다. 점심시간 이후에도 교육이 계속 진행되었고, 교육에 참여하신 분들이 그 동안 PathwayStudio를 사용하면서 궁금하셨던 점에 대해 질문하시고 박준형 팀장님께서 질문에 대해 직접 시연으로 답변을 해주셨습니다. 이번 사용자 교육은 일방적인 Presentation 발표와는 달리 직접 PathwayStudio 사용 방법에 대해 시연을 함으로써 양방향 커뮤니케이션이 가능하여 사용자 입장에서 좀 더 유익한 시간이 되었을 것이라고 생각합니다. 앞으로도 사용자와 소통할 수 있는 교육의 자리가 많이 만들어졌으면 합니다. 마지막으로 사용자 교육을 마치고 저희 회사 이미지월 앞에서 그날 참석하신 분들과 함께 찍은 기념사진을 담아보았습니다.

사용자 교육에 참여한 모든 분들과 기념사진

Posted by 人Co

Tag: Bioinformatics, Metabolic Pathway, Natural Language Processing, 대사회로, 생물정보학, 자연어처리
Response: No Trackback , 7 Comments
RSS :: https://post-blog.insilicogen.com/blog/rss/response/26

진단 시험법의 패러독스

Posted at 2009/08/27 08:56
Filed under 생물정보

통계적으로 우수한 진단 시험법의 이면에 대한 생물정보실의 강병철 박사의 경험에 대한 이야기 입니다.
-- quipu

이번 달 초에 둘 째 아이를 임신중인 아내의 혈액검사에서 다운증후군 위험율이 높다는 진단이 나왔다. 확진을 위해서 양수를 샘플링해서 태아의 핵형검사 결과를 했고 지난 19일에 그 결과를 확인하러 갔다. 검사 결과를 기다리는 10여일간 아내는 꽤 걱정스러워했고, 난 아래의 역설을 들며 걱정말라고 위로했다. 하지만, 솔직히 불안한 마음 어쩔 수 없었다. 지식과 마음에는 분명한 간극이 존재한다...

진단 시험법의 역설은 정확도가 높은 진단 검사법도 실제의 정확도를 다시 볼 필요가 있다는 점을 보여준다. 아래의 예를 보자.

만약 '암'을 검사하는 매우 좋은 진단법이 있다고 가정하자. 암환자가 검사를 받으면 99%의 확률로 양성 반응을 보이며 암이 없는 환자가 검사를 받으면 99%로 음성 반응보인다. 즉, 1%의 오류율을 보이는 매우 정확한 방법이다. 여기서, 다시 인구 1만명당 1명이 암을 가진다고 가정할 때, 어떤 사람이 검사를 받았고, 결과가 양성으로 나왔다. 이런 경우에 그 사람이 진짜 암환자일 확률은?

정말 좋은 검사법으로 보여진다! 하지만 실제 임의의 사람이 위 검사법으로 검사하고 양성으로 나올 때 실제 암이 걸렸을 확률은 단지 1% 조금 못된다. (참고: [베이즈 정리])

여기서,

P(C | +)는 우리가 얻고자하는, 검사결과가 양성일 때 암일 확률이고,
P(+ | C)는 암환자의 양성율로 이 예제에서는 99%, 즉, 0.99이며,
P(C)는 사전확률이라는 용어로 표현되며 집단중에서 실제 암환자의 비율로 본 예제에서는 1 / 10000 이다.
P(N) = 1 - P(C), 집단중에서 정상인의 비율
P( + | N)은 위양성율(false positive)로 본 예제에서는 1%이다.

실제 계산을 해 보면 P(C | +)는 0.0098로 위의 검사법을 임의의 사람에게 검사하고 양성이 나왔을 경우, 실제 암일 확률은 1%도 안되는 것이다.

In [1]: PosCancer = 0.99
         # P(C|+)
In [2]: AllCancer = 1.0 / 10000
         # P(C)
In [3]: AllNormal = 1 - AllCancer
         # P(N)
In [4]: PosNormal = 0.01
         # P(+|N)
In [5]: CancerPos = ( PosCancer * AllCancer ) / ( PosCancer * AllCancer + PosNormal * AllNormal)
In [6]: print CancerPos     # P(C|+)
0.00980392156863

사실 병원에서는 다운증후군 혈핵검사를 할 때 80%의 정확도가 있다고 설명한다(60% 정확도 검사는 의료보험이 되지만, 80%는 되지 않는다). 그리고, 여기서 양성이 나오면 거의 대부분의 산모는 70 ~ 80 만원의 비용을 내고 핵형검사를 할 수 밖에 없다.

불안과 공포를 과학으로 포장해서 팔면 장사가 잘된다.

-- 강병철 (생물정보실)

Posted by 人Co

Tag: 다운증후군, 베이즈정리, 생물정보학, 진단시험법, 확률
Response: No Trackback , 5 Comments
RSS :: https://post-blog.insilicogen.com/blog/rss/response/24

10 Steps to Success in Bioinformatics

Posted at 2009/08/04 07:22
Filed under 생물정보

지난 7월에 스웨덴 스톡홀름에서 개최된 ISMB 2009에서 맨 마지막 Keynote 연좌인 "Webb Miller" 박사가 주제를 발표하기 전에 생물정보학자로서 성공할 수 있는 10가지 단계에 대해서 언급하였다. 생물정보학을 먼저 공부하신 노학자님의 경륜을 느낄 수 있는 좋은 시간이였다.

Become a biologist (생물학자가 되어라)
Value your number of citations above your number of publications (논문 편수 보다는 인용수에 가치를 두어라)
Collaborate and do it with great collaborators (위대한 협력자와 협력하고 협력하라)
Do not expect a warm welcome from everyone (모든 사람에게 따뜻한 환대를 기대하지 마라)
Be a good collaborator (우수한 협력자가 되어라)
Distribute and maintain software and/or run web servers that your personally continue (개인적인 소프트웨어나 웹서버를 배포하고 유지하는 것을 지속하라)
Alternate between working on specific datasets and writing general-purpose software (특정 데이터셋에 대한 일과 범용 소프트웨어 개발을 번갈아 하라)
Write some of your own software (조금은 당신 자신의 소프트웨어를 개발하라)
Don’t give up (포기하지 마라)
Be excited about your work (당신일을 즐겨라)

Posted by 人Co

Tag: Bioinformatics, ISMB 2009, 생물정보팀
Response: No Trackback , 4 Comments
RSS :: https://post-blog.insilicogen.com/blog/rss/response/20

차세대염기서열분석기술(NGS) 비교와 생물정보학에서의 도전

Posted at 2008/09/18 16:15
Filed under 생물정보

차세대 염기서열 분석기기 비교

차세대 염기서열 분석법(NGS; Next Genertation Sequencing)은 분석속도와 비용에 있어 생명과학 분야에 혁신을 가져올 것으로 예상된다. 아래 표는 현재까지 출시된 NGS 기술을 간략하게 비교해 보았다. Roche사의 454 기술은 새로운 종의 유전체 분석에 더 적합하고, Illumina나 ABI사의 기술은 알려진 유전체에서 variation을 연구하는데 더 적합할 것으로 생각된다.

기술	Roche 454 GS FLX	Illumina Genome Analyzer	ABI SOLiD Platform
응용분야	새로운 유전체 분석, resequencing, 발현체분석, 유전자조절연구, epigentic changes, 메타지놈 및 미생물다양성 연구, paleogenomics analysis	Resequencing, 발현체 분석, 유전자 조절 연구, ChIP, 작은 유전체에 대한 새로운 시퀀싱(paired-end 방법), epigenetic changes	Targeted resequencing, 유전자 발현, microRNA 발굴, ChIP, 전체 유전체 재분석(resequencing)
가시화	Light from chemical reaction	형광 표지에 의한 색상	4가지 형광 표지
Read length (한번에 읽을 수 있는 bp)	200 ~ 300	25 ~ 40	35
1회 분석시 생성 서열	80 million 이상	1 billion 이상	3 billion 이상
1회 분석 시간 (Run time)	7.5 hr	3 days, 6 days (paired-end 분석의 경우)	fragment lib: 4 days Mate pairs lib. : 8 days
샘플 수	1회 분석시 2, 4, 13 샘플처리 가능	8 샘플	1 ~ 16 샘플
Single-read 정확도	99.5%	99.9%	97%
오류의 종류	Homopolymer errors, phase errors, chimaeras, duplicated fragments	리드 말단에서 정확도가 떨어지는 경향이 있음	Mis-incorporated bases
Multiplexing	최대 16 samples/plate, bar-coding tag 개발중	8 samples/slid, bar-coding tag 개발중	4 samples/slide, bar-coding tag 개발중
Paried-end reads	가능; 리드 사이즈 250 bp, 인서트 크기는 가변	가능; 리드 사이즈 25bp, 인서트 사이즈 250bp, 500bp contiguous fragments, 1~15kb pairs library pairsings	가능; 리드 사이즈 25bp, 인서트 사이즈 3kb~8kb

생물정보학에서의 도전

생물정보학적인 입장에서 NGS는 과거의 이슈를 새롭게 부각켰다. 한동안 생물정보 분야에서 정보 처리 속도와 염기서열 데이터 통합은 이미 해결된 문제처럼 보였으나, NGS가 등장하면서 새로운 도전에 직면한다. 즉, NGS 기기를 1회 작동시키면 8천만에서 30억 bp의 염기서열이 쏟아지는데, 이를 한 주에 1~2회만 운용해도 그 자료랑은 엄청난 분량이된다. 이러한 상황에서 대규모의 서버를 구성해서 처리하는 것은 당연한 접근법이지만, 국내 실정에서 이를 위해 필요한 인력과 고정 비용을 생각하면 결코 만만치 않은 것이다.

대표적인 어셈블리 소프트웨어인 phred/phrap/consed도 NGS 데이터를 다룰 수 있도록 개정되 고 있다고 한다. 워싱턴 대학에서 제공되고 있는 phred/phrap은 2000년 이후로 알고리즘 측면에서는 이렇다할 업데이트가 없는 실정이지만, consed는 꾸준한 업데이트로 기능이 향상되고 있다. 하지만 consed를 사용해본 독자라면 윈도와 다른 그래픽 유저 인터페이스에 조금 실망하고 그 메뉴얼의 방대함에 질려본 적이 있을 것이다.

최근 서버가 아닌 노트북이나 데스크탑에서 NGS 데이터를 믿을 수 없느 속도로 처리할 수 있는 소프트웨어가 소개되었다. 덴마크의 CLC Bio사에서 제공하는 CLC Genomics Workbench라 는 제품으로대형 서버에서 병렬처리형 phred/pharp에서 수 일이 걸리던 어셈블리를 몇 가지 제약은 있지만, 단 수 시간만에 처리한다. 비교 성능이 믿기 어려울 만큼 빨라 과연 지금 소개해야 할지 의문이 들 정도이다. 포화상태인 것 처럼 보이던 어셈블리 분야에서 혁명을 이끌어 냈다는 생각이 든다. 현재 덴마크 NGS 연구 그룹에서 소프트웨어 플랫폼으로 활용되고 있다고 한다(기사읽기).

또한 FGENESH FGENESH+라는 유전자 예측 소프트웨어로 유명한 Softberry Inc에서도 NGS를 OligoZip를 출시하였다. 미생물 유전체 분석을 실제로 수행한 결과는 기존의 어셈블리 프로그램보다 우수한 clustering 결과를 얻었다고 한다¹. Solexa sequencing을 통해서 얻어진 작은 서열들을 모아서 reference가 없는 새로운 genomic 서열 구성하거나, 동일종 또는 비슷한 종의 서열을 참고로 genomic 서열 구성할 수 있다. 그리고, 주어진 유전자에 대하여 돌연변이 검출이나 SNP discovery에도 효과적이라고 한다.

인간유전체 발표후에 기대에 비해서 체감할 수 있는 변화가 미비했었지만, NGS의 출현으로 생물정보학의 역할에 대해서 환기되는 새로운 전기가 될 것으로 기대하며 NGS와 관련 프로그램에 대해서 간략히 살펴보았다.

1 Bioinofrmatics, 2007, 23(4):500-501

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/12

Search Results for '생물정보'

80 POSTS

[Quipu Issue Paper] Variation study Ⅲ - CNV(Copy Number Variation) Analysis

2-1-2. CNV (Copy Number Variation) Analysis

[Quipu Issue Paper] Variation study Ⅱ - SNP(Single Nucleotide Polymorphism) Analysis

2-1-1. SNP (Single Nucleotide Polymorphism) Analysis

[Quipu Issue Paper] Variation study Ⅰ

2. Application of Next Generation Sequencing

2-1. Variation Study

[Quipu Issue Paper] Assembly Ⅱ - De novo assembly

1-1-2. De novo assembly

1-1-3. Workflow

[Quipu Issue Paper] Assembly Ⅰ - Reference assembly

1. Next Generation Sequencing?

1-2. Assembly

1-2-1. Reference assembly

[Quipu Issue Paper] NGS 시대의 분석전략 Ⅱ 연재 안내

PathwayStudio 사용자 교육 후기

진단 시험법의 패러독스

10 Steps to Success in Bioinformatics

차세대염기서열분석기술(NGS) 비교와 생물정보학에서의 도전

차세대 염기서열 분석기기 비교

생물정보학에서의 도전

Categories

Recent Posts

Archives

Tag Cloud

Site Stats