« Previous : 1 : 2 : 3 : 4 : 5 : Next »

A Superior Solution for Microbial Genomics - 5



일반 미생물에서부터 난배양성 미생물들까지 모두 확인할 수 있는 방법으로 샘플을 자연상태에서 직접 채취하여 시퀀싱 하는 방법을 metagenome이라고 합니다. NGS가 발전하면서 간단하게 샘플의 16s rRNA를 추출 후 시퀀싱을 하여 해당 샘플내에 존재하는 미생물의 종류와 존재 비율을 알 수 있습니다.
CLC Microbial Genomics Module은 16s rRNA 데이터베이스를 다운로드 하는 것부터 OTU clustering, alpha/beta diversity, PERMANOVA 분석까지 가능하게 해주며 미리 구성되어져 있는 워크플로우를 이용해 시퀀싱 raw data를 넣어주는 것만으로 분석이 완료가 됩니다.

지금부터 보여드릴 데이터는 용의자의 신발 두 켤레에서 나온 흙과 범행현장이라고 예측되는 곳의 토양 샘플의 16s rRNA를 시퀀싱하여 metagenome 분석을 응용한 것입니다. 시퀀싱 데이터를 모듈에 내장되어 있는 'Data QC and OTU Clustering'이라는 워크플로우에 넣어주면 trimming부터 OTU clustering까지 자동으로 진행되게 됩니다.



OTU clustering을 위한 워크플로우



이 워크플로우의 분석 결과로 data trimming report와 OTU clustering 결과를 볼 수 있는데 이 결과는 sunburst chart나 bar chart로 제공됩니다. 각 샘플별 clustering 결과에 metadata를 추가하여 특정 그룹으로 묶어 그룹간의 비교가 가능합니다.




그룹간의 OTU clustering bar chart

이후 OTU clustering 결과를 가지고 데이터의 taxonomy가 충분히 맵핑 되었는지 확인하기 위해 alpha diversity 분석을 수행하고, 샘플간 혹은 그룹간의 유사도를 보기 위해 beta diversity를 수행하게 됩니다. 그리고 MUSCLE 알고리즘을 이용한 alignment를 진행하고 phylogeny tree를 그려서 각 시퀀스간의 연관성을 확인합니다.



 

Diversity 확인 및 phylogeny tree 분석을 위한 워크플로우



두번째 워크플로우 분석 결과중 하나인 beta diversity의 결과를 함께 봅시다. Metadata를 이용하여 그룹을 지어주면 같은 그룹끼리 같은 색상으로 바뀌게 되며 그룹간 샘플간의 비교분석이 가능합니다. 아래의 그림에서 파란색 동그라미와 노란색 동그라미는 각각 다른 그룹을 의미하지만 유사도의 거리를 따졌을 경우 비슷한 것을 확인 할 수 있습니다 (일치라도 해도 될 정도로 유사함). 따라서 파란색과 노란색은 같은 토양 샘플이라고 잠재적 결정을 내릴 수 있으며, 용의자는 A 부츠를 신고 1번 site에 간 적이 있었다고 결론을 지을 수가 있겠습니다.




Beta diversity 분석 결과



1
6s rRNA를 이용한 metagenome 분석은 이러한 범인을 찾는데에 응용하는 것 외에도 특정 질병이 잘 걸리는 장내 환경을 조사해볼 수도 있고, 특정 작물이 잘 자라거나 특별히 잘 자라지 않는 토양에서의 미생물 분포를 알아볼 때도 사용할 수 있습니다.

CLC Microbial Genomics Module을 이용하여 우리눈에 보이지 않는 미생물들의 구성과 그 microbial community의 역할 및 특징들을 알아보고 싶으시면 지금 바로 trial 해보세요!


 <  이전화 보기  >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/08/30 09:55 2016/08/30 09:55
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/215

A Superior Solution for Microbial Genomics - 4



PacBio 플랫폼을 이용한 whole genome sequencing 데이터를 가지고 CLC Genome Finishing Module을 이용해서 고급단계의 de-novo assembly가 가능합니다. 현재 다양한 시퀀싱 장비들이 출시되어있지만 가장 긴 read 결과를 자랑하는 PacBio의 raw data(H5 포맷)의 경우에는 기존의 CLC Genomics Workbench만으로 분석이 불가능한 포맷이며 기존 장비에서 생산되는 데이터의 포맷들과는 다른 특징들을 가지고 있어서 PacBio 시퀀싱 결과를 다루기 위한 또 다른 분석툴이 필요하게 되었습니다.


CLC Genomics Finishing Module Workflow



GFM_tech_note.pdf

CLC Genomics Finishing Module Workflow 자세히 보기




PacBio 장비의 데이터는 길이가 긴 장점이 있지만 데이터의 에러율이 타 플랫폼에 비해 많이 높습니다. 이러한 점을 보완하기 위하여 CLC Genome Finishing Module에는 error correction 분석 툴이 있으며 이를 이용하여 보정된 서열들을 가지고 de-novo assembly를 수행하게 됩니다. 이렇게 만들어진 contig들은 reference가 있는 경우 이를 기준으로 alignment가 가능하고(reference가 없어도 alignment가능) alignment 결과에서 오버랩 되는 부분들을 직접 보고 두 개의 contig 매뉴얼하게 연결할 수 있습니다. 따라서 직접 연구자들이 눈으로 보고 contig의 개수를 줄이면서 유전체 서열의 finishing 작업을 수행할 수 있습니다.


Contig Joining 



De-novo assembly를 진행 후 contig 분석을 통해서 low coverage 또는 broken pair 영역 또는 gap 부분에 대한 추가적인 확인이 필요할 경우가 생깁니다. 보통 해당 부분을 증폭하여 re-sequencing을 진행하는 절차를 진행하는데, 이때 필요한 primer design 툴도 함께 제공하고 있습니다. 해당 영역에 새로운 sequence read가 추가되면 다시 처음부터 분석을 해야할까요? 그렇지 않습니다. CLC Genome Finishing Module은 기존의 assembly데이터에 새로운 sequence read를 특정한 contig에만 다시 맵핑하여 필요 영역을 채워나갈 수 있습니다.


Create Amplicon Tool을 사용하여 amplify할 부분을 확인

기존 PacBio 시퀀싱 데이터의 분석 결과에 대해서 만족스럽지 못하셨다면 CLC Genome Finishing Module을 한 번 이용해보는 것은 어떨까요? 당사로 연락주시면 2주간의 trial 라이선스를 제공해 드립니다. 단, CLC Genome Finishing Module은 CLC Genomics Workbench를 기반으로 한 모듈 이라는 점 명심해주세요.

 <  이전화 보기 |  다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/06/02 07:48 2016/06/02 07:48
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/214

A Superior Solution for Microbial Genomics - 3

우리 몸을 구성하는 세포의 반 이상이 미생물 군집들로 차지하고 있습니다. 따라서 미생물의 분류학적, 유전적 기질은 사람, 동물 그리고 식물의 건강과 밀접한 관계를 가지고 있습니다.

특히 아직은 미생물의 유전적 기능 구성에 대한 정보가 구축되기에 어려움이 있고, 현재 metagenomics 분석 도구들도 기능적 구성이나 샘플간 변화 등을 정확하게 예측하기 위해 노력하고 있습니다. [Lindgreen et al. 2015].

만약 metagenome data를 de novo assemble 할 수 있고, 신뢰할 수 있는 기능 예측 결과를 통해 통계적으로 유의하게 변화된 것을 밝히는 분석도구가 있으면 어떨까요? 이러한 분석 도구가 NGS 데이터의 분석 표준이 되고 미생물 분석을 위해 최적화된다면 연구자분들에게 굉장한 도움을 줄 수 있을 것입니다.

미생물의 metagenomics 분석을 위한 플러그인인 CLC Microbial Genomics Module의 기능과 성능을 확인해 보세요.


결과 정확도

Figure 1. Metagenome 내 높은 정확도의 유전자 기능 예측 및 추적

2016년 1월에 Nature Scientific Reports에 14개의 다른 whole metagenome 분석 도구의 평가 결과에 대해 개재했습니다. 공개된 테스트 데이터를 이용해서metagenome의 기능적 분석이 가능한 5개를 선별하여 CLC Microbial Genomics Module과 비교했습니다. CLC Genomics Workbench에서 제공된 edge 테스트를 이용하여 통계적 분석을 진행하였고, photosynthesis, nitrogen fixation, pathogenesis에 대하여 분석을 진행하였습니다. (*는 통계학적으로 유의한, 정확한 변화를 일관적으로 예측하는 도구를 가리킵니다.)

Metagenomic 데이터를 바탕으로 미생물 군집에서 유전자 기능을 찾는 것은 어렵습니다. 더욱이 다른 metagenome 샘플간의 기능적 성질의 변화를 정확하게 측정하는 것은 더 어렵습니다. QIAGEN 솔루션은 미생물 유전체 분석에서 기능적인 차이를 정확히 찾고 정량화 할 수 있습니다. 또한 샘플간의 통계적으로 유의한 차이를 비교할 수 있도록 해줍니다.

여러 샘플의 비교는 샘플간의 기능적 변화를 찾고, 유사하거나 다른 기능적 요소를 분석하는데 쓰입니다.

Figure 2: 미생물 샘플들 전반에 걸친 기능적 비교

Metagenome에서 기능적 변화를 찾는 알고리즘은 많이 알려져 있지 않고, 기준이 되는 우수한 모델의 데이터셋이 없기 때문에 어려운 일입니다. 이런 어려움을 극복하기 위해 해당 연구결과에서는 기능을 파악하고 있는 두 합성 미생물 군집으로부터 각각 세개의 데이터셋(A1, A2, A3, B1, B2, B3)들을 만들었습니다.

Figure 2에서 보이는 것과 같이, CLC Microbial Genomics Module은 예측된 기능적 요소들의 비율을 바탕으로 두 개의 군집을 구분 할 수 있습니다.


Metagenome assembly 품질

새로운 Meatgenome assembler에서는 고품질의 어셈블리 결과를 생성하고 유전자 기능을 확인할 수 있습니다.

아래의 Table에서 CLC Microbial Module의 metagenome assembler와 다른 툴에서 misassembly, INDEL, mismatch error 등 다양한 지표들에서 어떤 차이가 나는지 비교해 줍니다.

Table 1 : Metagenome assembly의 품질 

QIAGEN metagenome assembler는 더욱 정확한 annotation을 가능하게 합니다. 데이터셋의 실제 길이는 209,845,413 base입니다.

 

실행 시간과 자원 효율성 계산

샘플의 크기가 크거나 데이터의 양이 많을때는 분석 실행시간과 요구되는 리소스가 매우 중요합니다.

테스트 데이터를 가지고 CLC Microbial Genomics Module의 어셈블러와 다른 어셈블러를 비교하였을 경우 분석 시간이 더 짧고 효과적이게 리소스를 이용하는 것을 확인하였습니다.

Figure 3. 최고의 metagenome assembly 분석도구


다른 metagenome 어셈블러들과 분석 시간과 리소스 사용면에서 비교하였을 때 우수한 결과를 보였습니다. (*MegaHit는 분석시간을 늘리면서 컴퓨터 메모리 소비를 줄이고 있습니다.)

 
분석에 소요하는 시간 축소


CLC Genomics Workbench 내의 workflow라는 기능을 이용하면 분석에 소요되는 시간과 노력을 크게 줄일 수 있습니다. 한번에 여러개의 데이터를 넣어줄 수도 있어 분석에 소요되는 시간과 동력을 절감시켜 줍니다.

Figure 4. 효율적인 workflow 기능


 <  이전화 보기 다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/25 17:03 2016/05/25 17:03
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/213

A Superior Solution for Microbial Genomics - 2


 
미생물의 유전체 정보를 알고 있다면 그 미생물을 어떻게 활용할 수 있을지 혹은 다른 strain 및 특징은 무엇인지 쉽게 확인 할 수 있습니다.
 
PacBio라는 NGS 플랫폼의 개발로 미생물의 de-novo 유전체 분석이 이전보다 더 활발해졌지만 기존에 활용하던 NGS 장비의 포맷과는 전혀 다른 raw 데이터 포맷(H5)을 지원하기 때문에 연구자들이 직접 분석하기 어려웠던 부분을 CLC Genome Finishing Module에서 수행할 수 있습니다.

Genome finishing에 있어서 short read들 만으로 contig 연결이 어려웠던 부분에 PacBio 데이터를 reference로 삼아 align이 가능하며, raw 데이터 수준의 PacBio 데이터의 error correction과 de novo assembly 기능이 추가되어 더욱 효율적으로 미생물 유전체 서열을 완성할 수 있습니다.

CLC Genome Finishing Module을 활용한 PacBio raw data의 error correction과의 de novo assembly의 성능 비교 테스트 결과는 아래와 같습니다.



HGAP과의 벤치마킹 자료를 바탕으로 CLC Genome Finishing Module은 laptop 환경에도 불구하고 running time과 메모리 활용이 훨씬 적은 것을 알 수 있습니다. 또한 모듈내에 함께 제공되는 워크플로우를 통해 더욱 연구자들이 쉽고 빠르게 분석할 수 있는 환경을 제공하고 있습니다.
 
현재 가지고 계신 데이터가 있으시다면, 한번 try 해보세요!


(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/18 15:35 2016/05/18 15:35
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/211

A Superior Solution for Microbial Genomics - 1


미생물은 말 그대로 굉장히 작은 생물들이지만 환경과 생체에 미치는 영향력은 결코 작지 않으며, 미생물이 이 지구상에서 차지하는 비율 혹은 인체에서 차지하는 비율은 전체의 50%가 넘습니다. 다양한 환경에서 그 환경에 맞는 특정 미생물들이 살고 있고 이러한 미생물의 유전학적인 분석은 특정 유용 물질의 대량생산 하는 새로운 기술로서 개발하거나, 환경이나 질병 등에 대한 분석에 활용할 수 있습니다. 현재 다양한 NGS 플랫폼이 발달하면서 타 생물체보다 간단한 유전자 구조를 가지고 있는 미생물은 비교적 생물정보 분석도 용이하여, 전체 유전체 서열과 기능을 밝히거나 다양한 환경적 시료에서의 군집 분석을 많이 수행하고 있습니다.

1. Whole Genome 분석 솔루션



새로운 유전체의 서열을 조립하는 de novo assembly는 굉장히 복잡하고 어려운 일 중에 하나입니다. 하지만 PacBio 시퀀싱 플랫폼이 현재 굉장한 길이의 서열을 생산하면서 미생물 유전체 연구에 많이 활용되고 있습니다. Whole Genome 분석 솔루션은 다양한 NGS 플랫폼의 데이터의 GUI 형태의 de novo assembly 결과로부터 PacBio 데이터를 통한 scaffold 구축, 매뉴얼 gap filling 작업을 통한 미생물 유전체 서열을 확보할 수 있으며 ORF 예측 및 해당 서열의 blast, GO ontology 분석까지 가능하도록 패키지화 하였습니다.


2. Metagenome 분석 솔루션

미생물 군집을 분석하기 위해서는 16s rRNA 서열을 시퀀싱하거나 whole metagenome을 시퀀싱하여 진행합니다. Metagenome 분석을 위한 public tool들도 존재하지만 커맨드라인 기반으로 진행되기 때문에 일반 생물학자들이 사용하는데는 어려움이 많습니다. Metagenome 분석 솔루션은 NGS 플랫폼으로 시퀀싱한 데이터를 쉽게 분석할 수 있도록 미리 세팅되어진 워크플로우가 존재하여 OTU-clustering 및 diversity 분석 결과를 얻을 수 있습니다. 뿐만 아니라 whole metagenome 분석을 지원하여 de-novo assembly를 통한 contig 서열을 바탕으로 CDS와 gene을 예측하고 GO term 맵핑이나 BLAST를 수행하여 예측된 유전자 기능을 파악할 수 있습니다.


다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/11 19:43 2016/05/11 19:43
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/209


Cancer Research의 자동화를 이룰 수 있는 막강한 툴과 데이터베이스의 콜라보레이션!

지금부터 특별한 프로모션이 진행됩니다.
Cancer에 최적화된 분석 프로그램인 CLC Cancer Research Workbench와 Ingenuity만의 큐레이션된 지식기반 DB를 토대로 하는 분석도구인 Ingenuity Variant Analysis 패키지를 저렴한 가격으로 만나볼 수 있습니다.

자세히 보기 : http://www.insilicogen.com/wiki/QIAGEN_Promotion
제품 문의 : marketing@insilicogen.com

2014년 12월 26일까지 한정판매를 하오니 많은 관심 부탁드립니다.


Posted by 人Co

2014/11/24 19:37 2014/11/24 19:37
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/168

지난 11일, CLC bio사에서는 Drug discovery를 위한 새로운 솔루션을 릴리즈 하였습니다. 그 이름은 바로 "CLC Drug Discovery Workbench" 입니다. 기존의 Workbench들은 NGS를 비롯한 시퀀싱 데이터의 분석을 촛점으로하여 계속적으로 업그레이드가 되고 있지만, 이전 Molegro사의 합병을 통해 Molegro virtual docker라는 솔루션을 리뉴얼하여 새로운 타입의 Workbench로서 출시 하였습니다.


CLC Drug Discovery Workbench는 이름 그대로 새로운 약물 개발을 위한 스크리닝 도구로서 활용할 수 있습니다. 타겟 단백질과 리간드의 결합 모델을 분석함으로서 interaction 및 docking 분석을 수행하여 단백질의 3D 구조를 확인하고 기존 Workbench의 protein 서열 분석 툴도 포함되어 있어 binding되는 서열 구조도 함께 확인할 수 있다고 합니다.

그럼 CLC Drug Discovery Workbench로 어떻게 분석되는지 살펴 볼까요?













또한 CLC bio는 "CLC Cancer Research Workbench"라는 새로운 Workbench도 곧 출시할 예정입니다.



CLC Cancer Research Workbench는 암 연구에 포커싱된 informatics 솔루션으로 NGS를 기반으로 한 amplicon, exom, whole genome sequencing 데이터를 이용하여 체세포 돌연변이 및 유전적인 질환과 약물반응, 또는 새로운 oncogene 등을 분석할 수 있으며, 돌연변이 관련 reference database를 이용하여 직접 분석한 돌연변이 데이터들과 비교 분석이 가능하도록 설계되었습니다.



그리고 일반 생물학자들도 쉽게 분석할 수 있도록 GUI 형태의 인터페이스를 제공하므로 암과 관련한 모든 연구자분들이 보편적으로 사용할 수 있는 솔루션으로서 자리매김 할 수 있을 것이라 생각됩니다.



올 4월에 릴리즈 될 예정이니 많은 관심 부탁드리며, 구체적인 기능 등은 공식 릴리즈 후에 소식 전해드리도록 하겠습니다.

그 외 생물정보 소프트웨어에 대한 문의사항도 언제나 (주)인실리코젠 마케팅팀(marketing@insilicogen.com)으로 연락주십시오.

감사합니다.









작성자 : Codes사업부 Consulting팀

김경윤 팀장


Posted by 人Co

2014/02/21 16:43 2014/02/21 16:43
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/147

2013 NGS market survey!

CLC bio사에서 지난 1월에 2013년도 NGS market survey 결과를 발표하였습니다.
NGS 시장 동향을 파악하는데 유용한 자료로 함께 공유하고자 소개해드립니다.
총 231명을 대상으로 NGS 시장조사를 실시한 결과입니다.



- Response rate: 미국이 23.4%로 가장 많은 비중을 차지하고 있습니다.
- Organization type : 2012년도와 비교한 결과 Academic organization은 7.5% 감소, Governmental은 37.5% 증가, Industry는 25.6% 증가하였습니다.


주로 여떤 연구를 수행하는가?
 


Primary application focus
- Basic research : 25.5% (가장 많은 비율을 차지)
- Microbial research : 18.6%
- Bioinformatics : 17.7%

응답자의 86%가 NGS 분석을 수행하고 있으며, 이는 2012년도(73%)보다 증가하였습니다.

2011년도(57%) -> 2012년도(73%) -> 2013년도(86%)


Illumina continues dominance


Illumina의 HiSeq 장비가 가장 많은 부분을 차지하고 있으며, Life Tech의 Ion Torrent PGM 장비가 작년 6위에서 3위로 상승하였습니다.


In-house NGS instruments


각 기관마다 NGS 장비를 얼마나 보유하고 있는지에 대한 통계치를 보여주고 있습니다. 기관의 27.9%가 NGS 장비를 더 구입할 계획을 가지고 있다고 합니다.


Preferred open source tool


UCSC Genome Browser가 여전히 1위를 차지하고 있으며, SAMtools 또한 많이 사용되고 있습니다. 대부분의 open source tool이 증가 추세를 보이고 있음을 확인할 수 있습니다.


Primary application focus


RNA-Seq Expression은 20.1%의 많은 증가율을 보이며 1위를 차지하였습니다.(작년은 whole genome sequencing) De novo sequencing은 작년에 비해 16.7% 증가하여 2위를 차지하였습니다.

해당 내용은 아래의 첨부파일을 통해 다시 보실 수 있습니다.



작성자 : 브랜드마케팅실 Marketing팀
컨설턴트 송하나

Posted by 人Co

2014/02/21 16:26 2014/02/21 16:26
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/146

차세대 염기서열 분석 기술은 더 짧은 시간에 더 적은 비용으로 더 많은 염기서열을 결정할 수 있는 플랫폼이 계속적으로 업그레이드 되면서, 생물정보 분석은 이제 선택이 아닌 필수가 되었습니다. 또한 NGS 데이터의 분석 단계는 크게 pre-processing, assembly 그리고 assembly를 이용한 이차 분석으로 나누어 볼 수 있는데 이러한 분석 단계들을 하나의 툴에서 모두 진행하고 그 결과를 그래픽하게 확인할 수 있다면 NGS 데이터를 다루는 생물학자들이 훨씬 더 수월하게 연구를 진행할 수 있을 것입니다. 이를 위한 목적으로 개발된 CLC bio사의 CLC Genomics Workbench는 GUI 기반의 데스크탑 솔루션으로 각 NGS 플랫폼에서 제공하는 다양한 데이터셋을 지원하여 assembly를 비롯한 이후 이차분석까지 한번에 수행할 수 있는 통합형 생물정보 분석 도구입니다.

PART 1. Variant Detection

NGS 데이터를 이용한 최근 연구들을 살펴보면 resequencing 분석에 포커싱이 맞춰지고 있으며, 이러한 연구 동향에 발맞추어 CLC Genomics Workbench의 툴들도 resequencing 분석에 초점을 맞춘 SNP, Indel detection 툴이 업그레이드되었습니다.



Variant 분석에 대한 업그레이드 내용을 이야기하기 전에 read mapping 결과를 재조정할 수 있는 툴인 ‘Local realignment’를 먼저 소개합니다. 이전에는 beta 버전으로 제공되었지만 지난 달 업그레이드가 되면서 CLC Genomics Workbench의 정식 툴이 되었습니다. Read mapping을 수행하는 과정에서 align 되지 않았던 끝 부분을 realign하여 보다 정확한 read mapping 결과를 제공해줍니다. 자, 그럼 결과를 직접 눈으로 확인하는 것이 더 신뢰가 가겠죠?



위의 그림에서 [A]는 처음 read mapping을 수행했으며, 1,2,5번째 read의 4개의 염기가 제대로 align 되지 않아 gap이 생겨난 것을 확인할 수 있습니다. [B]는 [A]의 데이터를 가지고 ‘Local realignment’ 결과 화면을 보여주고 있습니다. [A]에서 gap이 발생했던 염기부분이 다시 realign된 것을 확인할 수가 있습니다. 이처럼 realign을 통해 정확한 mapping 데이터를 기반으로 이 후 variant 분석을 수행한다면 분명 고퀄리티의 결과를 얻을 수 있을 것입니다.

CLC Genomics Workbench에서의 SNP detection은 두 가지 알고리즘으로 분석을 수행할 수 있습니다. 하나는 확률을 계산하는 ‘Probabilistic Variant Detection’, 또 하나는 quality를 계산하는 ‘Quality-based Variant Detection’의 분석 툴입니다. 이러한 두 가지 분석 툴 중에 데이터의 특성에 적합한 것으로 선택하여 분석한다면 더욱 정확한 잠재적인 SNP를 발굴할 수 있습니다.

또한 새로운 버전에서는 SNP처럼 단일 염기가 아닌 더 넓은 범위의 영역에 대한 InDel(insertion, deletion)이나 structural variant를 detection 할 수 있는 ‘InDels and Structural Variants’ 툴이 추가되었습니다. 기존 beta 버전에서는 HiSeq 플랫폼의 paired read로 mapping된 데이터만 input으로 지원했던 부분이 Roche 454 플랫폼에서 생산되는 single read의 mapping 데이터도 input으로 지원되어 다양한 데이터셋의 hybrid assembly 결과도 indel 분석이 가능해졌습니다.



그리고 variant 분석 후 발굴된 SNP 후보들이 이미 알려진 variant 정보와 비교하여 필터링 할 수 있는 ‘Filter against known variants’와 이미 알려진 variant 정보를 추가할 수 있는 ‘Annotate from known variants’의 툴 기능도 향상되었습니다.

Read mapping을 통하여 분석된 variation들을 mapping된 서열 단위에서 그 결과를 뷰어할 수 있지만, track이라는 새로운 뷰어를 제공하여 브라우저 형태의 역할을 할 수 있도록 도와주고 있습니다. 이 또한 다양한 기능 업데이트를 통해 더 효율적으로 분석 결과를 확인할 수 있습니다.

이러한 track 툴을 활용하면 위에서 보는 바와 같이 한 종의 genome 내 다양한 정보들(Gene, CDS, Transcript, mRNA, Exon, Variation)을 한 화면에서 확인할 수 있고, 아래의 그림과 같이 Trio analysis 툴을 이용하여 부모에게서 자녀로 유전되는 SNPs 정보나 mutation 정보, 그로 인해 나타나는 질병 등에 대한 분석 후 그 정보를 한번에 확인할 수 있습니다.




PART 2. Workflow

앞서 이야기한 variation 분석은 만약 여러 샘플에 대한 분석을 개별적으로 진행하려면, 단순한 분석을 여러번 수행함으로 시간이 많이 소요됩니다. 이렇게 여러 샘플의 데이터를 각각 동일한 분석 과정을 수행해야할 경우, workflow라는 기능을 이용하면 빠른 시간안에 쉽게 분석을 완료할 수 있습니다. 아래의 그림과 같이 분석해야하는 툴(기능)들을 선택하고, 각 툴을 순서대로 나열한 다음 각 분석단계의 output 파일을 다음 분석과정의 input 데이터로 연결만 시키면 하나의 workflow가 만들어집니다.


이렇게 만들어진 workflow를 이용하여 분석하고자하는 샘플 데이터만 선택해주면 일련의 과정대로 클릭 몇 번 만으로 결과 데이터를 얻을 수 있으며, workflow를 installer로 변환하여 toolbox내에 하나의 툴로써 추가할 수 있어 실험실 내에서 정규화된 분석 파이프라인을 직접 제작할 수 있습니다. 그리고 이러한 workflow를 통해 만들어지는 output 데이터를 원하는 포맷의 파일로 별도의 export가 가능합니다.





PART 3. 3D Molecule Viewing

CLC Genomics Workbench 내에는 NGS 데이터를 분석하는 툴 외에도 일반 서열 데이터를 기준으로 분석할 수 있는 다양한 생물정보 툴들이 통합되어 있습니다. 이 중 Molecule Viewer는 Protein Data Bank(PDB) database에 저장되어 있는 단백질과 다른 분자들의 structure inspection과 visualization을 수행할 수 있도록 합니다. 이 전에는 CLC Genomics Workbench를 이용하면 단백질의 3D 구조의 뷰어만 확인할 수 있었습니다. 하지만 이번 업그레이드를 통하여 3D 구조의 뷰어뿐만 아니라 서열 정보와 연동되어 3D 구조상에서 선택된 영역이 어떤 서열로 이루어져 있는지 함께 뷰어가 가능해졌습니다. Domain 및 binding site 분석하시는 연구자분들이 늘 서열과 함께 분석되어졌음 좋겠다 하셨었는데, 이젠 굉장히 유용하게 사용될 수 있겠지요?

뿐만 아니라 Protein, Ligands, Water molecules, Internolecular bonds 등의 원하는 molecule 정보만을 선택하여 뷰어할 수도 있다고 합니다.





PART 4. Phylogenetic trees


이번에 소개해드릴 기능은 계통분석을 수행하는 실험실에서는 아주 반가운 소식이 아닐까 합니다. 사실 계통분석은 굉장히 어렵고도 다양한 알고리즘이 존재하여 현재는 전문적인 소프트웨어들을 많이 사용하고 있고, CLC Genomics Workbench를 통해서는 서열을 정렬한 후 기본적인 tree까지만 제공하며 분석 결과의 수정이 어려웠던 부분이 있었습니다. 허나 이번 업그레이드를 통하여 Phylogenetic tree module이 plug-in으로 새로 추가되어 좀 더 전문화되고, 분석 결과를 그래픽하게 확인할 수 있게 되었습니다.



Phylogenetic tree module은 Plug-in을 통하여 다운로드 받으신 후 ‘Create Tree’ 툴로 실행합니다. 실행 과정에서는 이전 버전과 달라진 부분은 없으며 뷰어 옵션을 지정할 수 있는 Side panel을 통해 tree 결과의 뷰어 설정을 변경할 수 있습니다.
Tree layout이 아래 그림과 같이 다섯가지로 선택할 수 있어 원하는 형태의 tree구조를 figure 자료로 사용할 수 있게 되었습니다.



또한 이 뿐만이 아니라 메타데이터의 수정도 가능해졌습니다. 이전 버전에서 이 기능을 문의하셨던 사용자분들도 굉장히 많았었는데요, 새 버전에서는 node, label 세팅 기능의 추가로 인해 사용자가 원하는 tree 그림을 그릴 수 있게 되었습니다.

이상으로 CLC Genomics Workbench 프로그램의 주요한 업그레이드 내용을 소개해드렸습니다. 블로그를 통해 모든 정보를 알려드리기가 어려워 아쉬운점이 있지만, 소개해드린 기능 이외에도 업그레이드 및 개선된 기능들이 많이 있으니 아래의 사이트를 방문하시면 더욱 자세한 정보를 확인할 수 있습니다.

http://www.clcbio.com/products/latest-improvements/

그리고 언제든지 생물정보 소프트웨어에 대하여 문의사항이 있으신 분들은
(주)인실리코젠의 마케팅팀(Marketing@insilicogen.com)을 찾아주시기 바랍니다!
감사합니다.


작성자 : Marketing팀 송하나

Posted by 人Co

2013/09/30 16:46 2013/09/30 16:46
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/139

ChIP-Seq 분석은 어떻게 하는건가요?

ChIP-Seq


ChIP 은 Chromatin Immunoprecipitation의 약자로 세포내에서 이뤄지는 단백질과 DNA간의 상호작용을 알아내는 주요한 방법으로 특정 단백질과 binding 하는 DNA sequence 를 알아내는 것을 목적으로 합니다. 특정 단백질과 결합된 DNA을 면역학적 방법인 antibody를 이용하여 침강시킨후 결합된 DNA를 따로 분리하여 그 sequence를 확인합니다. 이때, 해당 서열을 확인 하는 방법으로 microarray방식을 이용하면, ChIP-chip이 되고, NGS와같은 시퀀싱 방식을 이용하면 ChIP-seq이 됩니다. 이러한 방법은 유전자 발현을 조절하는 전사조절인자(transcription factor)의 bindig site와 기작을연구하는데 많이 이용되고 있습니다.

예를 들어 transcription factor A의 binding-site를 분석하기 위해, 먼저 세포내에서 transcription factor A와 DNA를 결합시킨 후 그 결합을 고정하기 위해 sample을 포름알데히드와 같은 고정액으로 고정시킵니다. 이후 세포를 lysis하여 DNA 전체를 분리한 다음 sonication 방법으로 DNA를 잘게 조각냅니다. 그러면 transcription factor와 결합된 상태의 DNA 조각과 그렇지 않은 조각이 생성됩니다. 이후 원하던 transcription factor A에 binding된 DNA 조각만을 분리하기 위해 transcrition factor A 특이적인 antibody와 beads 붙여 원심분리를 통해 transcription factor A와 이에 결합된 DNA만을 분리해 낼 수 있습니다. 마지막으로 분리된 transcription factorA와 DNA 사이의 결합을 끊어 DNA만을 분리해낸 다음 앞서 언급한 microarray방식과 NGS 기술을 이용한 시퀀싱 방식을 통해 각각 확인할수 있습니다. Microarray방식은 유전체상의 대부분의 영역을 microarray probe로 제작하여 chip에 심은 후 transcription factor A와 결합되었던 DNA조각을 binding 시켜 확인하게 되며, 시퀀싱 방식은 분리된 DNA조각을 직접적으로 시퀀싱을 통해 확인하게 됩니다. 이후 시퀀싱된 서열을 해당 유전체 서열에 mapping(reference assembly)을 통해 유전체 상의 binding location을 확인 합니다. 이들 모두 공통적으로 transcription factor A가 binding 하는 서열정보를 비롯하여 유전체내의 binding location을 함께 확인 할 수 있어 이차적으로 전자를 조절 받는 유전자 프로파일을 함께 확인 할수 있는 이점이 있습니다.

사용자 삽입 이미지
단백질과 binding 되는 DNA 서열이 짧기 때문에 , ChIP-Seq 분석을 할 때는 일반적으로 short read로 시퀀싱을 진행합니다. 또한 reference 서열에 mapping 할 때 역시 mapping 파라메터들을 엄격하게 설정하여 noise data의 생성을 예방합니다. 시퀀싱 reads의 서열들이 짧기 때문에 적은 bp의 mismatch나 gap일 지라도 실제 binding site가 아닌 엉뚱한 위치에 mapping될 확률이 높아 지므로 최종적으로 ChIP peak를 찾기 힘들어지게 될 수 있습니다. Mapping view를 보면 이렇게 특정 단백질에 특이적인 binding-site에만 read들이 mapping 되어 형성되는 'peak'을 확인 하실수 있습니다(Candidated transciption factor A binding position).

사용자 삽입 이미지
Peak 영역에 mapping된 read의 수와 전체 reference 서열의 mapping 된 read의 분포, 그리고 control 데이터에 mapping된 read의 분포 등을 고려하여 관찰되는 peak가 false positive인지 false negative인지 통계적으로 유의성을 검증할 수 있습니다. CLC Genomics Workbench를 이용하면 이렇게 찾아진 ChIP peak들에 대한 정보가 담긴 테이블과 해당 ChIP peak가 위치한 부분의 mapping view를 한 화면에서 확인할 수 있습니다.

사용자 삽입 이미지
그리고 mapping view를 조금 더 축소해 보면 해당 peak의 upstream과 downstream에 위치한 유전자를 확인하여, 어떤 유전자들이 해당 transcription factor A에 영향을 받을지 유추해 볼 수 있습니다.

사용자 삽입 이미지
부가적으로 BIOBASE사의 'TRANSFAC' 데이터베이스는 발표된 모든 논문들을 대상으로 생물 전문 큐레이터들이 검토하여 transcription factor와 transcription factor binding site에 대한 정보를 축적하고 있습니다. 또한 이렇게 형성된 TRANSFAC의 데이터는 보다 효율적으로 연구자들에게 공급하기위해 CLC Genomics Workbench에서 plug-in을 통해 ChIP-seq을 통해 찾아진 peak와 직접적으로 비교하여 관련된 유전자, 질병 및 mutation에 대한 다양한 정보를 제공 하고 있습니다.



Posted by 人Co

2012/06/11 15:03 2012/06/11 15:03
, , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/112



« Previous : 1 : 2 : 3 : 4 : 5 : Next »