A Superior Solution for Microbial Genomics - 4



PacBio 플랫폼을 이용한 whole genome sequencing 데이터를 가지고 CLC Genome Finishing Module을 이용해서 고급단계의 de-novo assembly가 가능합니다. 현재 다양한 시퀀싱 장비들이 출시되어있지만 가장 긴 read 결과를 자랑하는 PacBio의 raw data(H5 포맷)의 경우에는 기존의 CLC Genomics Workbench만으로 분석이 불가능한 포맷이며 기존 장비에서 생산되는 데이터의 포맷들과는 다른 특징들을 가지고 있어서 PacBio 시퀀싱 결과를 다루기 위한 또 다른 분석툴이 필요하게 되었습니다.


CLC Genomics Finishing Module Workflow



GFM_tech_note.pdf

CLC Genomics Finishing Module Workflow 자세히 보기




PacBio 장비의 데이터는 길이가 긴 장점이 있지만 데이터의 에러율이 타 플랫폼에 비해 많이 높습니다. 이러한 점을 보완하기 위하여 CLC Genome Finishing Module에는 error correction 분석 툴이 있으며 이를 이용하여 보정된 서열들을 가지고 de-novo assembly를 수행하게 됩니다. 이렇게 만들어진 contig들은 reference가 있는 경우 이를 기준으로 alignment가 가능하고(reference가 없어도 alignment가능) alignment 결과에서 오버랩 되는 부분들을 직접 보고 두 개의 contig 매뉴얼하게 연결할 수 있습니다. 따라서 직접 연구자들이 눈으로 보고 contig의 개수를 줄이면서 유전체 서열의 finishing 작업을 수행할 수 있습니다.


Contig Joining 



De-novo assembly를 진행 후 contig 분석을 통해서 low coverage 또는 broken pair 영역 또는 gap 부분에 대한 추가적인 확인이 필요할 경우가 생깁니다. 보통 해당 부분을 증폭하여 re-sequencing을 진행하는 절차를 진행하는데, 이때 필요한 primer design 툴도 함께 제공하고 있습니다. 해당 영역에 새로운 sequence read가 추가되면 다시 처음부터 분석을 해야할까요? 그렇지 않습니다. CLC Genome Finishing Module은 기존의 assembly데이터에 새로운 sequence read를 특정한 contig에만 다시 맵핑하여 필요 영역을 채워나갈 수 있습니다.


Create Amplicon Tool을 사용하여 amplify할 부분을 확인

기존 PacBio 시퀀싱 데이터의 분석 결과에 대해서 만족스럽지 못하셨다면 CLC Genome Finishing Module을 한 번 이용해보는 것은 어떨까요? 당사로 연락주시면 2주간의 trial 라이선스를 제공해 드립니다. 단, CLC Genome Finishing Module은 CLC Genomics Workbench를 기반으로 한 모듈 이라는 점 명심해주세요.

 <  이전화 보기 |  다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/06/02 07:48 2016/06/02 07:48
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/214

A Superior Solution for Microbial Genomics - 3

우리 몸을 구성하는 세포의 반 이상이 미생물 군집들로 차지하고 있습니다. 따라서 미생물의 분류학적, 유전적 기질은 사람, 동물 그리고 식물의 건강과 밀접한 관계를 가지고 있습니다.

특히 아직은 미생물의 유전적 기능 구성에 대한 정보가 구축되기에 어려움이 있고, 현재 metagenomics 분석 도구들도 기능적 구성이나 샘플간 변화 등을 정확하게 예측하기 위해 노력하고 있습니다. [Lindgreen et al. 2015].

만약 metagenome data를 de novo assemble 할 수 있고, 신뢰할 수 있는 기능 예측 결과를 통해 통계적으로 유의하게 변화된 것을 밝히는 분석도구가 있으면 어떨까요? 이러한 분석 도구가 NGS 데이터의 분석 표준이 되고 미생물 분석을 위해 최적화된다면 연구자분들에게 굉장한 도움을 줄 수 있을 것입니다.

미생물의 metagenomics 분석을 위한 플러그인인 CLC Microbial Genomics Module의 기능과 성능을 확인해 보세요.


결과 정확도

Figure 1. Metagenome 내 높은 정확도의 유전자 기능 예측 및 추적

2016년 1월에 Nature Scientific Reports에 14개의 다른 whole metagenome 분석 도구의 평가 결과에 대해 개재했습니다. 공개된 테스트 데이터를 이용해서metagenome의 기능적 분석이 가능한 5개를 선별하여 CLC Microbial Genomics Module과 비교했습니다. CLC Genomics Workbench에서 제공된 edge 테스트를 이용하여 통계적 분석을 진행하였고, photosynthesis, nitrogen fixation, pathogenesis에 대하여 분석을 진행하였습니다. (*는 통계학적으로 유의한, 정확한 변화를 일관적으로 예측하는 도구를 가리킵니다.)

Metagenomic 데이터를 바탕으로 미생물 군집에서 유전자 기능을 찾는 것은 어렵습니다. 더욱이 다른 metagenome 샘플간의 기능적 성질의 변화를 정확하게 측정하는 것은 더 어렵습니다. QIAGEN 솔루션은 미생물 유전체 분석에서 기능적인 차이를 정확히 찾고 정량화 할 수 있습니다. 또한 샘플간의 통계적으로 유의한 차이를 비교할 수 있도록 해줍니다.

여러 샘플의 비교는 샘플간의 기능적 변화를 찾고, 유사하거나 다른 기능적 요소를 분석하는데 쓰입니다.

Figure 2: 미생물 샘플들 전반에 걸친 기능적 비교

Metagenome에서 기능적 변화를 찾는 알고리즘은 많이 알려져 있지 않고, 기준이 되는 우수한 모델의 데이터셋이 없기 때문에 어려운 일입니다. 이런 어려움을 극복하기 위해 해당 연구결과에서는 기능을 파악하고 있는 두 합성 미생물 군집으로부터 각각 세개의 데이터셋(A1, A2, A3, B1, B2, B3)들을 만들었습니다.

Figure 2에서 보이는 것과 같이, CLC Microbial Genomics Module은 예측된 기능적 요소들의 비율을 바탕으로 두 개의 군집을 구분 할 수 있습니다.


Metagenome assembly 품질

새로운 Meatgenome assembler에서는 고품질의 어셈블리 결과를 생성하고 유전자 기능을 확인할 수 있습니다.

아래의 Table에서 CLC Microbial Module의 metagenome assembler와 다른 툴에서 misassembly, INDEL, mismatch error 등 다양한 지표들에서 어떤 차이가 나는지 비교해 줍니다.

Table 1 : Metagenome assembly의 품질 

QIAGEN metagenome assembler는 더욱 정확한 annotation을 가능하게 합니다. 데이터셋의 실제 길이는 209,845,413 base입니다.

 

실행 시간과 자원 효율성 계산

샘플의 크기가 크거나 데이터의 양이 많을때는 분석 실행시간과 요구되는 리소스가 매우 중요합니다.

테스트 데이터를 가지고 CLC Microbial Genomics Module의 어셈블러와 다른 어셈블러를 비교하였을 경우 분석 시간이 더 짧고 효과적이게 리소스를 이용하는 것을 확인하였습니다.

Figure 3. 최고의 metagenome assembly 분석도구


다른 metagenome 어셈블러들과 분석 시간과 리소스 사용면에서 비교하였을 때 우수한 결과를 보였습니다. (*MegaHit는 분석시간을 늘리면서 컴퓨터 메모리 소비를 줄이고 있습니다.)

 
분석에 소요하는 시간 축소


CLC Genomics Workbench 내의 workflow라는 기능을 이용하면 분석에 소요되는 시간과 노력을 크게 줄일 수 있습니다. 한번에 여러개의 데이터를 넣어줄 수도 있어 분석에 소요되는 시간과 동력을 절감시켜 줍니다.

Figure 4. 효율적인 workflow 기능


 <  이전화 보기 다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/25 17:03 2016/05/25 17:03
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/213

A Superior Solution for Microbial Genomics - 2


 
미생물의 유전체 정보를 알고 있다면 그 미생물을 어떻게 활용할 수 있을지 혹은 다른 strain 및 특징은 무엇인지 쉽게 확인 할 수 있습니다.
 
PacBio라는 NGS 플랫폼의 개발로 미생물의 de-novo 유전체 분석이 이전보다 더 활발해졌지만 기존에 활용하던 NGS 장비의 포맷과는 전혀 다른 raw 데이터 포맷(H5)을 지원하기 때문에 연구자들이 직접 분석하기 어려웠던 부분을 CLC Genome Finishing Module에서 수행할 수 있습니다.

Genome finishing에 있어서 short read들 만으로 contig 연결이 어려웠던 부분에 PacBio 데이터를 reference로 삼아 align이 가능하며, raw 데이터 수준의 PacBio 데이터의 error correction과 de novo assembly 기능이 추가되어 더욱 효율적으로 미생물 유전체 서열을 완성할 수 있습니다.

CLC Genome Finishing Module을 활용한 PacBio raw data의 error correction과의 de novo assembly의 성능 비교 테스트 결과는 아래와 같습니다.



HGAP과의 벤치마킹 자료를 바탕으로 CLC Genome Finishing Module은 laptop 환경에도 불구하고 running time과 메모리 활용이 훨씬 적은 것을 알 수 있습니다. 또한 모듈내에 함께 제공되는 워크플로우를 통해 더욱 연구자들이 쉽고 빠르게 분석할 수 있는 환경을 제공하고 있습니다.
 
현재 가지고 계신 데이터가 있으시다면, 한번 try 해보세요!


(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/18 15:35 2016/05/18 15:35
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/211

우리들의 11번째 Culture Day 이야기

2016년 첫 Culture Day. 저희도 회사에서 맞는 첫 번째 Culture Day라 많이 설레었습니다.
이번 주제는 영화와 함께! 개봉한지 3일 째인 따끈따끈하고 가장 HOT한 캡틴아메리카 : 시빌워를 감상하였습니다.



화려한 액션과 긴장감 있는 스토리! 중간 중간 히어로들이 주는 웃음까지! 과연 누가 선이고 누가 더 선을 위해 행동하고 있는 걸까요? 그리고 마지막 쿠키영상이 2개나 있었다는데 우리는 1개 밖에 못 보고 나왔답니다.(엉엉)



영화가 끝난 후 인증샷을 찰칵! 그리고 회식장소로 이동하였습니다.
회식 메뉴는 맛있는 소고기!!

모든 분들이 참석하셨고 저희의 사회로 회식이 시작되었습니다. 사장님 말씀과 새로오신 주임님의 소개가 끝난 후 배불리 고기를 먹었습니다!

회식을 끝으로 공식적인 11번째 Culture Day가 끝이 났습니다. “人Co인”이 되어 처음 맞이하는 Culture Day! 아쉬움도 많았지만 즐거움이 더 많은 하루였습니다.


人CoTalk!

Culture Day가 끝난 후 셀프 인터뷰를 해보았습니다.

Q1) 처음으로 맞이한 Culture Day 어땠어요?

사용자 삽입 이미지
회사에서 처음 준비하는 행사라 걱정이 많이 되었었는데, 많은 분들이 만족하신 것 같아서 기분이 좋았습니다. 이런 일을 하면서 항상 느끼는 점은 많은 사람들과 함께 무언가를 한다는 것이 참 즐거운 것 같습니다. 다음에는 대전지사 분들과 함께 할 수 있는 자리가 있었으면 좋겠다고 생각했습니다.




사용자 삽입 이미지
인턴사원 입장에서 전 직원을 대상으로 한 행사준비에 있어 부담이 조금 있었습니다. 또한, 파견근무로 인해 물리적 거리 격차 때문에 준비를 하는 동기들에게 많은 도움을 주지 못해 미안했습니다. 영화표를 예매하는데 있어 50명 이상인 경우 단체예약 할인을 할수 있었는데 내년에는 직원 수가 더욱 늘어나 할인 혜택을 받았으면 합니다.




사용자 삽입 이미지
회사에서 처음 맞이하는 행사로써 많은 분들과 함께 할 수 있어 좋았습니다. 11번째를 맞이해서인지 모두가 일사불란하게 움직여 주셔서 순조롭게 진행이 잘 되었습니다. 무엇보다 부족한 점도 많았을텐데 따뜻한 격려와 칭찬 속에서 즐거운 시간을 보낸 것 같습니다. 앞으로 이와 같은 행사들이 종종 있다면 모든 사람들과 친해지고 업무도 서로 공유하면서 더 시너지 효과를 낼 수 있을 것이라고 생각했습니다.





Q2) 이번에 가장 신경썼던 부분이 무엇인가요?

사용자 삽입 이미지
저는 식사 부분! 아무래도 회식은 맛있는 음식이 있어야 더 즐거운 법! 그래서 모두가 좋아할만한 메뉴를 선택하는데 신경을 썼습니다. 최종적으로 선택한 메뉴는 소고기였고, 많은 분들이 맛있게 드셨던 것 같습니다.




사용자 삽입 이미지
컬쳐데이의 주요 컨텐츠가 영화관람, 저녁(회식) 이였기 때문에 어떤 영화를 볼지 또한 회식장소는 어디를 할 것이며 회식 메뉴는 어떤 것을 정할지 고민이 많이 됐습니다.





사용자 삽입 이미지
저희가 가장 먼저 고민했던 부분은 많은 인원이 함께 할 수 있는 자리, 주차 공간이었습니다. 다행히 많은 분들께서 잘 했다고 해주셨습니다. 그러나 단체 사진 공지 및 자유시간 공지 등 일부 미흡했던 부분도 있었습니다. 그 부분은 다음 기회에 더 멋지게 만들도록 해야겠습니다.






Q3) 컬쳐데이는 OOO 다.

사용자 삽입 이미지
컬쳐데이봄바람이다! 봄에 해서 그런 것도 있고, 지친 일상에서 벗어나 잠시동안 새로운 기운을 불어 넣어서 봄바람이라고 생각합니다.





사용자 삽입 이미지
컬쳐데이만남의 장소다. 컬쳐데이는 소통이다. 컬쳐데이는 인실리코젠의 문화다.





사용자 삽입 이미지
컬쳐데이이다. ‘짬을 이용하지 못하는 사람은 항상 짬이 없다’라는 유럽 속담에서 알 수 있듯이, 아무리 바쁜 우리 일상생활 속에서도 즐거움을 찾고, 삶의 여유를 찾게 해준 좋은 시간이었습니다.





작성자 : DS그룹 박우진, BS실 박종인, BI그룹 서정한

Posted by 人Co

2016/05/13 16:31 2016/05/13 16:31
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/210

A Superior Solution for Microbial Genomics - 1


미생물은 말 그대로 굉장히 작은 생물들이지만 환경과 생체에 미치는 영향력은 결코 작지 않으며, 미생물이 이 지구상에서 차지하는 비율 혹은 인체에서 차지하는 비율은 전체의 50%가 넘습니다. 다양한 환경에서 그 환경에 맞는 특정 미생물들이 살고 있고 이러한 미생물의 유전학적인 분석은 특정 유용 물질의 대량생산 하는 새로운 기술로서 개발하거나, 환경이나 질병 등에 대한 분석에 활용할 수 있습니다. 현재 다양한 NGS 플랫폼이 발달하면서 타 생물체보다 간단한 유전자 구조를 가지고 있는 미생물은 비교적 생물정보 분석도 용이하여, 전체 유전체 서열과 기능을 밝히거나 다양한 환경적 시료에서의 군집 분석을 많이 수행하고 있습니다.

1. Whole Genome 분석 솔루션



새로운 유전체의 서열을 조립하는 de novo assembly는 굉장히 복잡하고 어려운 일 중에 하나입니다. 하지만 PacBio 시퀀싱 플랫폼이 현재 굉장한 길이의 서열을 생산하면서 미생물 유전체 연구에 많이 활용되고 있습니다. Whole Genome 분석 솔루션은 다양한 NGS 플랫폼의 데이터의 GUI 형태의 de novo assembly 결과로부터 PacBio 데이터를 통한 scaffold 구축, 매뉴얼 gap filling 작업을 통한 미생물 유전체 서열을 확보할 수 있으며 ORF 예측 및 해당 서열의 blast, GO ontology 분석까지 가능하도록 패키지화 하였습니다.


2. Metagenome 분석 솔루션

미생물 군집을 분석하기 위해서는 16s rRNA 서열을 시퀀싱하거나 whole metagenome을 시퀀싱하여 진행합니다. Metagenome 분석을 위한 public tool들도 존재하지만 커맨드라인 기반으로 진행되기 때문에 일반 생물학자들이 사용하는데는 어려움이 많습니다. Metagenome 분석 솔루션은 NGS 플랫폼으로 시퀀싱한 데이터를 쉽게 분석할 수 있도록 미리 세팅되어진 워크플로우가 존재하여 OTU-clustering 및 diversity 분석 결과를 얻을 수 있습니다. 뿐만 아니라 whole metagenome 분석을 지원하여 de-novo assembly를 통한 contig 서열을 바탕으로 CDS와 gene을 예측하고 GO term 맵핑이나 BLAST를 수행하여 예측된 유전자 기능을 파악할 수 있습니다.


다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/11 19:43 2016/05/11 19:43
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/209



« Previous : 1 : ... 31 : 32 : 33 : 34 : 35 : 36 : 37 : 38 : 39 : ... 75 : Next »