« Previous : 1 : 2 : 3 : 4 : 5 : 6 : 7 : ... 10 : Next »

암을 유발하는 유전변이 가운데 가장 중요한 것이 복제수변이(Copy-number variation, CNV)입니다. 암 복제수변이는 체세포(somatic) 유전변이이기 때문에 생식세포 복제수변이(germline CNV)와 구분하여 CNA(Copy-number alteration)라고도 합니다. 유전체의 특정 유전자 영역이 증폭(amplification)되거나, 삭제(deletion)됨으로써, 온코진(oncogene) 강화 혹은 종양억제유전자 약화 역할을 수행합니다. 치환변이(SNV)도 중요하지만, 그 종류가 너무 다양하기 때문에 치료 표적으로 삼기가 복잡하지만, CNA는 해당 유전자를 직접 억제하거나 보완하도록 치료표적으로 할 수 있기 때문에 임상에서 더욱 중요합니다.

특정 암 조직에 대해 유전체 복제수변이 CNA가 있는지 확인하는 다양한 방법이 있습니다. 고전적인 FISH 등 염색 후 현미경으로 관찰 방법에서, 고밀도 SNP array의 방법으로 발전해 왔고, 특히 SNP6라고 알려진 Affymetrix의 칩은 SNV과 함께 CNA를 탐지하는데 널리 사용되고 있습니다. 최근 NGS 실험방법의 발전으로, WGS, WES 데이터로 매핑정도(mapping depth)를 이용하여 CNA를 추정할 수 있는데, 이는 정밀의료시대를 위해 중요한 분석 방법으로 주목 받고 있습니다. NGS 데이터로 SNV와 CNA를 함께 탐지하고, 유전변이에 맞는 치료를 수행할 수 있기 때문입니다.


(그림 1. VarScan2 프로그램이 WES 데이터로 mapping depth를 기반으로 CNA 추정하는 과정 - 염색체의 특정 영역이 삭제되거나 증폭됨을 알 수 있습니다. 출처: Exome-based Copy Number Analysis with VarScan2)

다양한 프로그램들이 NGS 데이터로부터 CNA를 탐지할 수 있습니다. 보통은 BAM 파일을 읽어 유전체의 어느 영역이 CNA인지 추정합니다. 다양한 알고리즘들이 사용되지만, 각각의 특징들로 인해 그 정확성은 다양합니다. NGS 기반 정밀의료를 위해서는 어떤 방법이 정확하게 NGS 데이터로 CNA 추정할 수 있는지 확인하는 것이 중요합니다.

한양의대 공구 교수님 지도로 TCGA 유방암 WES 데이터로 7종의 WES CNA 탐지도구의 정확도를 평가한 연구 결과가 Oncotarget에 실렸습니다. (Gene-based comparative analysis of tools for estimating copy number alterations using whole-exome sequencing data Oncotarget 2017)

TCGA는 암 환자의 WES 데이터 뿐 아니라, SNP6로 실험한 CNA 데이터를 함께 제공합니다. 이번 연구는 TCGA에서 제공되는 SNP6 CNA 데이터를 정답으로 하여, 다양한 WES 기반 CNA 탐지 프로그램(CoNIFER, CODEX, ngCGH, ExomeCNV, VarScan2, saasCNV, falcon)의 정확도를 확인하였습니다.


(그림 2. 본 연구방법의 전체 모식도 - TCGA 유방암 419 사례의 WES CNA 추정결과와 SNP6 CNA 결과를 비교함)

TCGA 유방암 419 사례에서 각각 민감도(sensitivity)와 특이도(specificity)를 확인한 결과는 다음과 같습니다.

(그림 3. 7개 CNA 추정 프로그램의 민감도, 특이도 막대그래프. CNA Gain과 Loss로 나누어 각각 확인함)

하나의 사례를 골라서 프로그램마다 얼마나 결과가 유사한지 확인한 결과는 다음과 같습니다.



(그림 4. 하나의 사례에서 CNA Gain/Loss를 정답인 SNP6 결과와 비교하고, 그 결과를 벤 다이어그램으로 표시)

전반적으로 암-정상 사례로 분석하는 도구(ExomeCNV 등)가 암 사례만 분석하는 도구(CoNIFER 등)에 비해 정확도가 높았습니다. 본 연구를 통해 CNA를 정확하게 추정하기 위해서는 정상조직도 함께 NGS 분석해야 함을 확인할 수 있었습니다. 종합적으로 saasCNV 프로그램이 가장 정확도가 높았습니다. 이 프로그램은 복제수를 대립유전자별로 확인(allele specific CNV caiing)할 수 있는 장점도 있어서 앞으로 NGS 데이터로 CNA를 추정하는데 중요하게 활용될 수 있을 것으로 기대합니다. 또한, 어떤 사례는 정확도가 높고, 어떤 사례는 정확도가 낮은데, 샘플 데이터의 어떤 요인이 정확도에 영향을 미치는지도 추가로 연구하여, 정밀의료 진단을 위한 분석 방법으로 활용 할 수 있습니다.

본 연구를 수행하는데 가장 많은 도움을 준 것은 Jupyter와 pandas입니다. "419사례 x 2만여 유전자" 행렬을 다양하게 다뤄야 하는데, pandas로 어렵지 않게 할 수 있었고, 중간중간 분석 결과들을 jupyter로 관리할 수 있었습니다. 이들 도구를 잘 사용하는 것은 유사한 분석을 수행하는데 필수 불가결한 요소가 될 것입니다.

작성자 : Platform Lab 수석개발자 김형용

Posted by 人Co

2017/05/30 08:44 2017/05/30 08:44
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/246



㈜인실리코젠은 생물정보(Bio-Informatics) 전문기업입니다.

㈜인실리코젠 내 분석사업부는 다년간 축적해온 생물정보 분석경험을 바탕으로 빠르고 신뢰 높은 고객 맞춤형 분석서비스 제공을 통해 해당 분야의 선두주자로써 위치를 굳건히 하고 있습니다.

분석사업부 확장에 따른 전문분석가를 모집하오니, 관심있는 분들의 많은 지원 바랍니다.

[상세모집요강]

1. 박사급
1) 모집부문 : 생물정보분석(박사급)
2) 담당업무
① 생물정보 데이터 분석
② NGS 분석
3) 자격요건
① 프로그래밍 가능자(Python, perl, R 중 택 1)
 ② NGS(유전체, 전사체, 후성유전체 중 택 1) 분석 경력(경력지원자)
 ③ 박사 이상의 생물정보학 및 생물학관련 전공자
4) 우대사항
 ① 생물정보 데이터 분석 경력 3년 이상자
 ② 연구 논문 작성 가능자
 ③ 영어 능통자

2. 석사급
1) 모집부문 : 생물정보분석(석사급)
2) 담당업무
① 생물정보 데이터 분석
② NGS 분석
3) 자격요건
① 프로그래밍 가능자(Python, perl, R 중 택 1)
② NGS(유전체, 전사체, 후성유전체 중 택 1) 분석 경력(경력지원자)
③ 석사 이상의 생물정보학 및 생물학관련 전공자
4) 우대사항
① 생물정보 데이터 분석 경력 3년 이상자
② 연구 논문 작성 가능자
③ 영어 능통자

[모집지역 및 인원]
본사(용인), 지사(대전) 각 ○명

※ 병역특례가능자(전문연구요원) 지원 가능(단, 본사(용인)에 한함)

[전형절차]
1. 서류전형 : 2017.05.22. ~ 2017.06.09
2. 1차 실무자면접 : 2017.06.12. ~ 2017.06.16 / 자기소개 포트폴리오(PDF, 5분 분량)
3. 2차 임원면접 : 2017.06.19. ~ 2017.06.23 / 1차 실무자면접 합격자에 한하여 개별통보
4. 3차 추가서류 제출 : 2017.06.20. ~ 2017.06.29 / 2차 임원면접 합격자에 한하여 개별통보, 제출서류 참고
5. 최종합격통보 : 2017.06.30.(금) / 입사예정일 2016.07.10.(월)

[채용형태]
- 신입 : 인턴직 0명(인턴 3개월 후 검증통과자에 한하여 정규직 전환), 전문연구요원 0명
- 경력 : 정규직 0명

[근무환경]
- 근무제 : 주 5일 근무
- 복리후생 : 4대보험, 퇴직연금 및 성과급, 유연근무제(장기근속자)
- 휴가제 : 연차, 경조사휴가, 충전휴가(장기근속자)
- 지 원 : 경조비, 주차비, 체력단련비, 아침식사, 교육훈련비, 도서 등 지원

[접수기간 및 방법]
1) 서류전형 마감일 : 2017.06.09
2) 제출방법 : E-mail(보내시는 곳 : mst@insilicogen.com)

[제출서류]
1) 서류전형
① 자사 입사지원서 : 파일명 `입사지원서_성명_지원분야.docx`으로 저장(예.입사지원서_홍길동_분석.docx)



② 개인정보이용동의서
③ 전문연구요원 지원자는 입사지원서 제출 시 지도교수추천서 첨부
2) 면접전형(서류전형 합격자)
① 공통 : 포트폴리오(PDF로 변환) 제출 및 발표(자기소개 및 경력위주, 5분 분량)
3) 3차 서류제출(2차 임원면접 합격자에 한하여 개별통보)
① 공통 : 건강검진확인서 및 병력확인서 제출
② 경력
     - 전 근무지의 근로자원천징수영수증(퇴사연도, 직전연도)
     - 고용보험이력확인서 : 고용보험 사이트에서 발급 가능


[기타사항]
1) 기본예의 등 소양이 되어 있는 자(필수)
2) 해외 출장이나 개인 신용에 결격사유가 없는 자
3) 채용절차 진행 중 당사에 부합하는 지원자가 조기 채용 시 본 채용공고는 위 일정과 상관없이 종료될 수 있습니다.
4) 최종합격 후 입사지원서 및 제출서류 내용에 허위사실이 발견될 경우 채용이 취소될 수 있습니다.
5) 절차별 합격자는 E-mail을 통해 개별 안내해 드립니다.
6) 연봉 : 회사내규 및 경력에 따른 협의

[문의처]
- ㈜인실리코젠 채용담당자 / 031-278-0061(내선720번)
- E-mail을 통해 문의하여 주시기 바랍니다.(mst@insilicogen.com)

Posted by 人Co

2017/05/24 09:19 2017/05/24 09:19
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/244

ISMB 2016 참석 후기

습하고 무더웠던 지난 7월 여름, 미국 플로리다주 올랜도에서 생물정보학 및 시스템 생물학 선도하는 ISMB(Intelligent Systems for Molecular Biology) 2016 학회가 있었습니다. 많은 분들이 참석하고 싶어했으나 올해에는 저와 이규열 팀장이 대표로 포스터 발표를 위해 참석하였습니다.



미국은 거대하고 다양한 볼거리가 많기에 평소 제 버킷리스트 중 하나였지만, 복귀 후 처리해야 할 업무를 생각하면 쉽지 않은 결정이었습니다. 특히 올랜도라는 지역은 2016년 성 소수자를 향한 총기 난사 사건이라는 좋지 않은 기억이 강하게 남아있었습니다.

어찌되었건 처음 무거웠던 마음을 내려놓으니 해외라는 기대와 설렘이 생겼고 학회참석을 위해 7월 7일 새벽 미국행 비행기에 올랐습니다. 군대 행군을 생각하면, 14시간 정도야 무어가 힘들겠냐는 섣부른 자신감과 그간 밀린 잠이나 실컷 자야겠다는 안일한 생각으로 시작된 비행은 2시간도 채 안 되어 저려오는 무릎과 쑤셔오는 허리, 끊어질 것 같은 목의 통증이 시작되었고 이동하는 동안 불만이 많았던 KTX의 편안함을 깨달을 수 있었습니다.

직항이 없는 까닭에 미국 댈러스에서 비행기를 갈아탔는데, 도착 당일 댈러스 백인 경찰을 향한 저격으로 흑백갈등 시위 및 집회의 소식은 저를 불안하게 했지만, 플로리다는 이래도 되나 싶을 정도로 조용하고 편안한 일상이 계속되고 있었습니다.

2003년 사스(SARS)로 전 세계가 공포에 떨고 있을 때 정작 당사자인 중국에선 별로 대수롭지 않게 생각하고 조용했던 것처럼 정작 본인은 괜찮은데 주변에서 너무 법석을 떤 것이 아닌가 생각이 들었습니다.


< 체크인 하고 받은 출입키와 안내서들 >

첫날 예약한 숙소는 학회가 열리는 스완&돌핀(Swan & Dolphin) 호텔에서 차로 20분 정도 떨어져 있는 힐튼 호텔이었습니다. 역시 관광도시라 그런지 숙소 주변은 온통 푸르고 깨끗하고 영화에서 봤던 모습 그대로여서 한국에 남아있는 걱정 따윈 순식간에 잊을 수 있었습니다. 여장을 풀고 가볍게 산책이나 하고 저녁이나 먹을까 싶어 숙소 근처에 있는 디즈니 스프링스라는 곳을 한 바퀴 휙 돌았는데 볼거리가 너무 많아 저녁 10시까지 걷는 강행군을 할 수밖에 없었습니다. 역시 디즈니 세상은 아이들의 꿈과 모험을 불러일으킬 수 있는 온갖 볼거리와 쇼핑거리를 선보여 주었고, 이를 보며 시종일관 고국에 두고 온 아들이 정말 좋아했을 텐데라며 아쉬워하는 한 아버지의 모습을 지켜보고 있자니 부성애가 무엇인지를 조금이나마 알 수 있었습니다. 유아용 미키마우스 면티를 하나씩 사 들고 숙소로 복귀한 후 48시간이나 되었던 길고 긴 첫날 하루를 마무리하였습니다.


< 만족스러운 크기의 공짜 커피 >

이튿날 숙박객에게 제공하는 공짜 커피 쿠폰으로 커다란 커피를 하나씩 들고 학회가 열리는 스완&돌핀 호텔로 이동했습니다.호텔에 도착한 후 간간이 돌아다니는 사람 중에 등 뒤에 포스터가 들어있을 것으로 추정되는 둥글고 기다란 통을 메고 어리둥절한 표정으로 어디로 가야할 지 고민하는 사람들이 보였기에 제대로 찾아왔다는 걸 재확인할 수 있었습니다. 학회 첫날이어서 그런지 학회 접수장은 예상과 달리 한산한 풍경이었고, 다소 의외였지만 줄도 안 서고 기다리지 않아도 되니 다행이란 생각이 들었습니다.


< 학회 참가 접수장 전경 >

접수를 마치고 누구나 그렇듯 학회 안내책자를 펼쳐 어떤 것들이 있나 확인하고 들을 만한 세션 선별을 위해 스케줄 표를 살펴보는데, 각 세션을 테마별로(Data, Disease, Genes, Systems 등) 친절하게 아이콘으로 표시되어 있어 동그라미 치는 데 상당히 도움이 되었습니다. 별거 아닌 거에 UX의 중요성을 느끼는 순간이었습니다. 학회 이름에 걸맞게 빅데이터나 가시화 같은 주제들이 적잖이 있어 상당한 기대감으로 일정을 잡았습니다.


< 메인 컨퍼런스 오프닝 행사장 >

학회 진행이나 프로그램은 이전 내용과 크게 달라지진 않은 것 같습니다. 학회 3일간의 일정은 하루가 시작되면 아침과 저녁으로 1시간씩 Keynote 발표를 하고, 5가지 형식(OP, WK, SS, TP, TT)으로 구성된 세션 발표가 있는데 TP(Technology Paper)의 경우는 각각 20분씩 진행됩니다. 세션 발표가 모두 끝나면 포스터 발표로 하루 일정이 마무리되는 형식이었습니다.

< 키노트 발표 모습 >

3일 동안 있었던 여섯 편의 키노트 발표는 각 분야에서 이름이 알려진 연사들이 최근의 이슈와 현재 진행 중인 연구들을 발표하여 참석자들의 많은 관심을 받았습니다. 암이나 단백질에 대한 심도 있는 연구보다는 생물정보 기술의 전반적인 소개와 최근 주목받는 머신러닝과 인공지능에 대한 컴퓨팅 알고리즘이나 질병 진단 자료를 이용한 텍스트마이닝을 통한 질병 관계 정보 확인 등에 관심이 갔고, 앞으로는 역학과 유전체가 함께 갈 수밖에 없지 않겠냔 생각이 들었습니다.

< 테마별 Technology Presentation >

테마별 세션발표는 주로 유전체와 단백질체에 대한 연구분야에서 알고리즘을 이용한 속도 향상과 대용량 데이터 처리를 위한 다양한 기술을 소개하고 있었습니다. 단백질 패스웨이 분석의 경우는 Spark 이용한 것도 있었고, PubMed와 GO 등 이미 생물정보 분야에선 기본이 되는 DB에 대한 텍스트마이닝 결과를 어떻게 효과적으로 통합해 유용한 결과를 만들어 낼 것인지에 대한 연구 결과도 보이고, 문헌데이터에 대한 생물정보 기반의 텍스트마이닝과 자연어처리 기술을 적용해 단백질 네트워크 분석 등에 적용된 사례를 보며 텍스트 역시도 데이터로서 충분한 가치가 있음을 확인할 수 있었습니다.

NGS 분석 및 네트워크 분석을 주제로 하는 것에선 효과적인 가시화 방법을 공유하고 싶었으나 안타깝게도 데이터베이스 구축에 관한 내용이 주가 되고 이렇게 표현되었다 정도의 설명뿐이라 다소 아쉽기도 했습니다. 가시화 부분은 아직까진 전산 엔지니어의 영역에 의지할 수밖에 없는 듯 합니다.

Deep Genomics란 곳에선 리암 니슨 닮은 분이 나와 그룹에서 진행하고 있는 Deep Binding 연구분야를 소개하고 앞으로의 비전을 제시하며, 생긴지 몇 년 안 된 그룹으로 현재 20여 명 정도로 앞으로도 생물정보 인력 충원을 위한 구인 중임을 어필했는데 불특정인을 대상으로 하는 구인광고 보다는 이렇게 직접 대상을 찾아와 함께하기를 권유하는 것이 더 효과적인 방법이지 않을까 싶고 학회를 어렵고 딱딱하게만 느끼는 저로선 처음 보는 모습이라 적잖이 신선해 보였습니다.


< Oral Presentation 을 위한 소회의장 >

첫날 Oral Presentation 세션은 어떻게 진행되는지 궁금해 주제와 상관없이 2명의 연사가 발표하는 것을 들었는데, 발표는 질문까지 포함해 5분 안팎으로 끝났던 것으로 기억합니다. 제가 들었던 것은 RNA 실험 및 분석 프로토콜에 관한 것으로 실험을 기반으로 하는 발표였기에 생물학 기본이 부족한 상태라 자료를 미리 보고 갈 필요가 있음을 느꼈습니다.

< 가시화 도구 포스터와 발표장 풍경 >

포스터 발표는 A부터 P까지 카테고리로 굵직굵직하게 구분해 전시되었는데, 주로 암을 대상으로 하는 질병 유전체 분석, 변이분석, 서열분석, 네트워크 분석을 위한 알고리즘과 시스템 환경 구축 등 다양한 시도들을 소개하고 있었습니다. 적잖은 포스터에서 클라우드 기반의 분석결과를 제시하는 것을 보았는데 이제 생물정보를 위한 시스템 환경은 클라우드가 필수가 된 거 같습니다.

현재 수행 중인 과제에 도움이 될까 싶어 대용량 데이터 분석과 가시화를 위한 도구를 개발하고 소개한 포스터에 그나마 관심을 두고 유심히 확인해 보았는데, 그래픽 분석은 Apache Spark를 이용하는 것이 이제 대세가 된 듯합니다. 대부분이 분산환경에서 Spark를 실행하고 결과를 출력해 보여주는 도구들을 소개하고 있었습니다.

학회 일정이 끝나고 발표시간에 제대로 이해하지 못해 확인할 것들만 잔뜩 만들어서 돌아오게 되어 스스로를 한탄할 수밖에 없었지만, 개인 맞춤형 유전체 분석 시대를 위한 전세계 연구자들의 노력 결과가 차츰 구체화 되고 있음을 눈으로 확인할 기회였으며, 앞으로도 지금처럼 생물정보 전문가들에 의한 다양한 주제가 다루어져 유용한 결과들을 접할 수 있는 학회가 되기를 바라며, 참석 후기를 마칩니다.


이미지 출처
- ISMB 2016 홈페이지 : https://www.iscb.org/ismb2016

성자 : 대전지사 Development팀
양성진 책임개발자

Posted by 人Co

2016/11/11 10:00 2016/11/11 10:00
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/227

어느새 무더운 여름이 지나고 서늘한 가을이 찾아 왔습니다. 어떻게 지난 여름 잘 버티셨나요? 이번 여름은 그 어느 해 보다 더 덥게 느껴지면서 사회적으로도 누진세 같은 이슈가 화제되곤 했었습니다.
어떻게 보면 우리 (주)인실리코젠도 더위와 싸우는 기업입니다. 좀 더 정확히 말하자면 서버실에 있는 분석 및 스토리지 서버들이 더위와 맞서 싸우고 있습니다. 대용량의 생물정보 데이터 분석을 위해 수십대의 분석 서버들이 열을 내며 24시간 쉬지 않고 일을 하고 있답니다. 이 열을 제대로 식혀주지 않으면 서버들은 곧 강제 종료되고 장시간 실행중이던 분석 작업도 중단되며 저장중이던 데이터나 장비에 치명적인 문제가 발생할 수도 있습니다.
 
<열화상카메라... 가 없어서 구한 다른 서버실의 열화상 카메라 사진>
 

그러다 보니 서버실의 더운 공기를 식히고 순환시켜주는 에어컨이나 공조장치들의 역할이 중요합니다. 보통은 에어컨에 적정온도를 맞춰 두고 24시간 가동하여 이런 문제를 대비하지만 언제나 그렇듯 사고는 예상치 못할 때 발생합니다.

의외로 이런 사고는 경험상 여름보다는 겨울이나 초여름에 잘 발생했습니다. 지난 겨울에는 실외기가 너무 추운 바깥 공기에 얼어붙어 버려서 냉매의 순환에 문제가 생겨 차가운 바람이 충분히 나오지 않는 문제가 생겼습니다. 그리고 보통 겨울에는 여름보다 조금 높은 온도를 에어컨에 설정해 두는데 갑자기 더위가 찾아오는 초여름에 너무 높아진 온도에 비해 충분히 차가운 바람을 내지 못하면서 서버실의 온도가 높아진 적도 있습니다.

이런 사고를 몇 번 겪었을 무렵 세상은 IoT(Internet on Things) 열풍이 불기 시작했습니다. 그중에서도 저의 관심을 끌었던 장비가 바로 라즈베리 파이(Raspberry Pi) 입니다. 라즈베리 파이는 영국 잉글랜드의 라즈베리 파이 재단이 학교와 개발도상국에서 기초 컴퓨터 과학의 교육을 증진시키기 위해 개발한 신용카드 크기의 싱글 보드 컴퓨터입니다. 크기는 작지만 하드디스크 대신 SD카드를 사용하고 HDMI 포트로 모니터와 연결도 가능하며 LAN포트도 있어서 인터넷 연결도 되는 엄연한 컴.퓨.터 입니다.

<스마트폰 보다 더 작은 컴퓨터, 라즈베리파이>

라즈베리 파이의 장점은 일반 USB 포트뿐만 아니라 다양한 통신 포트도 제공해서 여러가지 센서들도 제어할 수 있다는 점입니다. 예를 들어서 전기 신호를 켜고 끄도록 프로그램을 만들면 발광 다이오드에 불을 켤 수도 있고, 작은 모터를 동작 시킬 수도 있습니다. 초음파 센서나 감광센서를 이용하면 누군가 센서 앞을 지나가는 것을 알 수도 있습니다. 이젠 정말 좋은 아이디어가 있으면 누구나 직접 만들어 낼 수 있는 세상이 온 것입니다.


<다양한 센서를 조합하면 구현하지 못할 아이디어가 없다>

저는 이 라즈베리 파이에 몹시 흥미를 느꼈습니다. 그리고 이 작은 컴퓨터를 이용해 회사가 겪고 있는 어떤 문제를 해결하는데 사용하고 싶었습니다. 바로 우리 서버실을 높은 온도로부터 지켜줄 수 있는 장치를 만들고 싶었습니다.

저는 이 프로젝트의 이름을 Rainbow Guard Project 라고 이름을 지었습니다.

보통 서버들은 host name이라고 부르는 별명을 가지고 있습니다. 보통은 node0, node1, node2 이렇게 이름을 짓거나 소속 기관의 영어 약자로 붙여주곤 합니다. 디자인에 강한 우리 인실리코젠은 각 서버들의 성격에 맞는 색을 이름으로 지어 줬습니다.

  • 강력한 파워를 자랑하는 분석 서버에게는 BLACK
  • CPU가 많아 언제나 많은 분석량을 자랑하는 서버에게는 RED
  • 많은 고객이 찾아오는 웹사이트를 운영하는 서버에는 GREEN
  • 테스트를 많이 해서 정신이 오락가락한 서버에게는 PURPLE

Rainbow Guard Project 이렇게 다양한 색깔의 레인보우를 지켜주겠다는 의미를 지닙니다.

<애네들이 생각 나도 모른척 하세요, 아~재 소리 듣습니다...>

Rainbow Guard Project는 크게 3부분으로 나뉩니다.

1. 서버실의 온도를 체크하고 기록
2. 특정 온도 이상으로 온도가 올라갈 경우 서버실 관리자에게 경고 메일 발송
3. 24시간 동안의 서버실 온도 현황 조회

첫 번째 기능을 위해 먼저 라즈베리 파이와 온도센서를 연결하는 작업을 진행했습니다. 기왕이면 평상시 정상 작동 때와 온도가 높을 때를 구분할 수 있도록 LED도 있으면 좋겠네요. 이런 기능을 위한 회로도를 설계해 보고 납땜질도 하면서 깔끔하지는 않지만, 동작은 하는 온도 감시 및 알림 회로를 만들어 라즈베리 파이와 연결하였습니다. 저도 V=IR이라는 공식밖에 모르지만, 열심히 구글링하고 공부하면서 만들 수 있었습니다.

<PPT로 회로 설계도면을 만들고, 겨우겨우 납땜해서 만든 모듈>

리눅스에는 crontab 이라는 스케줄러가 있는데요, 온도센서의 값을 읽어와서 저장하는 프로그램을 만든 후 이 crontab의 스케줄에 추가해 주면 정기적으로 온도 감시가 진행됩니다. 덤으로 온도가 높아 졌을때 서버실 밖에 있는 사람들이 빨리 알아챌 수 있도록 음악이 나오게 셋팅해 뒀습니다. 경고 상태에서 나오는 음악은 f(x)의 'Dangerous' 입니다. 듣기만 해도 위험한 상태라는걸 알 수 있게 해줍니다.


<원래는 마이클잭슨의 Dangerous를 재생 시키려고 했는데 음원을 못 구해서...>

경고 상태가 되면 설정된 서버실 관리자들에게 다음과 같은 메일이 발송됩니다. SMS 문자를 보낼 수도 있지만, 유료 서비스라서 메일을 보내도록 설정해 뒀습니다. 어짜피 스마트 시대에 메일이 오든 문자가 오든 틈틈이 확인하는 습관이 있어서 상관은 없습니다.

마침 이 글을 작성하는 동안 경고 메일을 수신했습니다. 앞서 말씀드린 것처럼 봄, 가을 같은 환절기에는 에어컨의 적정온도가 변경되어 간혹 이런 경고가 발생하기도 합니다. 이번에는 날씨가 선선해 지면서 건물 중앙 관리 시스템이 적정온도를 조금 높이다 보니 서버실의 온도가 높아져 경고가 발생했습니다. 서버실 자체 에어컨의 온도를 조금 더 낮춰 해결하였습니다.

<토요일 새벽 6시에 경고 메일을 받은 서버관리자가 긴급 출동하여 초기에 대처>
 

경고 알림 메일에 있는 URL을 클릭하면 지난 24시간 동안의 온도 현황을 그래프와 함께 볼 수 있는 웹페이지로 이동하게 됩니다. 이 사이트는 Python Django를 이용하여 구현하였습니다. 제가 디자인 감각은 꽝이라서 정말 필요한 정보가 보이게끔만 만들어 봤습니다. 지금은 회사 동료들과 함께 조금씩 예쁘게 업그레이드하는 중입니다.


<저의 html 레벨은 15년 전에 멈춰 있습니다...
(그렇다고 배경에 보노보노를 넣고 싶진 않았어요 ㅠㅠ)>


이렇게 경고 알림 메일을 받으면 몇몇 직원들이 급히 서버실로 출동하여 상태를 점검하고 위기의 우리 서버들을 더위로부터 구출해 냅니다. 제가 납땜질이 서툴러서 회로의 한 부분이 끊어져 잠시 운영하지 못한적도 있지만 지금은 24시간 서버실에서 제 역할을 하고 있는 중입니다.


<일부러 서버실에서 더운 곳에 둬서 빨리 경고가 울리도록 설치>
 
위에서도 잠시 언급했지만 저는 주입식 교육을 통해 V=IR이라는 공식만 기억하는 동물세포 실험실 출신의 생물학 전공자입니다. 하지만 다양한 분야의 융합을 통하여 가치를 생성해 나가는 생물정보 분야의 동료들과 함께 일하면서 새로운 분야에 대한 도전 의지도 키울 수 있었던 것 같습니다. 잘 모르는 분야라도 꾸준히 보고, 듣고, 배우다 보니 생물학 너머 다양한 분야의 기술과 노하우를 배울 수 있었습니다. 그렇다고 아주 잘 하는 건 아닙니다. 생물 정보 분석을 위한 넓고 얕은 지식 정도 되겠네요. 여러분들도 생물정보 분석을 하면서 리눅스, 코딩, 통계 등의 난관에 부딪혀 많이 힘든 상황을 겪으실 것 같습니다. 하지만 포기하지 말고 꾸준히 밀고 나가다 보면 경계 너머의 다양한 즐거움을 느끼게 되실 거라고 믿습니다.  
 

<이미지 출처>
  • IDC HOWTO - http://idchowto.com/?p=12787

  • RayHightower.com - http://rayhightower.com/blog/2012/12/03/ruby-on-raspberry-pi/

  • SUNFOUNDER - https://www.sunfounder.com/rpi2-sensorv2.html

  • 후레쉬맨 - http://blog.daum.net/gkglh16/3

  • f(x) - http://ppulset.tistory.com/552


작성자 : BS실 SP팀 심재영 선임 컨설턴트

Posted by 人Co

2016/10/31 18:33 2016/10/31 18:33
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/226

Power with Simplicity

Sequencher는 DNA 서열 데이터를 빠르게 분석하여 결과를 제공하는 소프트웨어입니다. 특히, sanger sequencing 데이터로부터 assembly 후 variation 정보를 찾아주는데 포커싱 되어 있어 특정 영역의 SNP 분석에 굉장히 유용하게 평가되고 있습니다. 최근 5버전대로 업그레이드가 되면서 NGS 데이터까지 분석이 가능하도록 기능이 확장되었고, 커맨드라인으로만 분석 가능했던 퍼블릭 툴들을 초보자들도 사용하기 쉽도록 GUI를 제공하여 편의성을 더해주었습니다.



그럼 NGS 데이터를 이용하여 실제적으로 어떤 분석이 가능한지 살펴볼까요?


Next-Gen Sequencing

[Reference assembly]

Sequencher에서는 NGS 데이터를 이용하여 reference assembly 시 이용하는 3개의 큰 알고리즘(Maq, GSNAP, BWA-MEM)이 있습니다. Maq이나 GSNAP을 통해 assemgbly 분석을 진행하면 SNP 분석도 함께 가능하며, 그 결과 값은 Tablet이나 Maqview를 이용하여 확인할 수 있습니다. 커맨드라인으로 제공하던 BWA-MEM도 GUI를 통해 다양한 옵션값을 손쉽게 설정할 수 있습니다. GSNAP이나 BWA-MEM로부터 얻은 VCF 포맷의 variant 정보는 SAMtools를 이용하여 분석할 수 있습니다.





[De novo assembly]

Reference 정보가 없는 de novo assembly의 경우에는 Velvet 알고리즘을 지원하고 있습니다. Velvet 또한 GUI를 제공함으로써, Tablet으로 결과값을 확인할 수 있고, 다양한 옵션값을 쉽게 설정할 수 있습니다.




[RNA-seq]

최신버전에서는 Differential Gene Expression(차등유전자발현) 연구를 위해 가장 많이 이용되는 RNA-seq 툴 중 하나인 Cufflinks를 플러그인으로 사용할 수 있습니다. Cufflinks 는 SAM 파일로부터 align된 reads를 가지고 GTF annotation 파일을 이용해 다시 align 하며, 다른 isoform과 transcript를 찾아줍니다. 이후 Cuffmerge를 통해 Cufflinks에서 나온 두 개의 transcript 파일을 하나의 transcript consensus 파일로 만들어 줍니다. 이 파일은 차등유전자발현 분석을 하는 Cuffdiff에 사용됩니다. Sequencher는 Cuffdiff에서 나오는 최종파일들(volcano plot, scatter plot, bar chart)을 다루며 발현 레벨에서 차이점을 그래픽으로 보여줍니다.







Connections
[BLAST & primer-BLAST]
Sequencher Connections는 Sequencher의 통합 웹 확장 툴이며, 이를 이용하여 2개 이상의 분석들을 동시에 진행할 수 있습니다. 다중 BLAST를 진행할 수 있어, 각 서열의 분석 결과를 실시간으로 빠르게 얻을 수 있습니다. 같은 서열로 다른 파라미터 조건을 주어 BLAST가 가능하며, 동시에 Local BLAST 까지도 수행할 수 있습니다. 또한 primer design을 위한 primer-BLAST를 할 수 있고, 해당 서열의 특정 영역을 확인 후 Sequencher Project에 예측된 primer를 저장할 수 있습니다. BLAST 검색 결과를 Web view 탭을 통해 뷰어할 수 있고, 이는 36시간 내에 다시 불러올 수 있으며, 그 이후로는 접근이 어렵습니다.



[MUSCLE alignment]
만일 여러 개의 서열로 그룹 분석을 하고 있다면, 다중서열정렬 알고리즘 중 가장 빠른 MUSCLE을 가지고 alignment를 할 수 있습니다. Sequencher Connections에서는 MUSCLE alignment를 다양한 옵션값으로 할 수 있고, alignment 이 후 phylogenetic tree도 생성할 수 있어 서열간의 유연관계도 확인할 수 있습니다.



이렇게 Sequencher에서는 NGS 분석까지 가능하도록 툴들이 확장되고 있습니다. 특히나 커맨드라인의 툴들을 사용하기 어려운 일반 생물학자들도 쉬운 인터페이스를 가진 Sequencher를 이용하여 NGS assembly를 진행할 수 있습니다. 그럼 Sequencher를 통해 NGS의 다양한 분석을 진행해 보세요.


작성자 : Codes실 Consulting팀
송하나 주임 컨설턴트

Posted by 人Co

2016/09/07 13:21 2016/09/07 13:21
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/220

개요
생물정보 전문기업인 ㈜인실리코젠에서는 미래창조과학부의 지원을 받아 국가생명연구자원정보센터(KOBIC)의 위탁과제로 “대용량 바이오데이터분석 전문 인력 양성을 위한 교육 프로그램 개발”을 2014년 6월부터 2016년 5월까지 진행하였습니다. 저희 회사가 생물정보 전문인력 역량 강화에 관심을 가지고 자체적으로 사업을 운영한 것은 2012년부터였습니다. 人CoEDUCATION라는 명칭 아래 다년간의 사업 경험을 바탕으로 KOBIC의 차세대 생명정보학 인력 양성 사업도 효율적으로 운영할 수 있었습니다. 지난 2년간 수행했던 교육사업 내용에 대해 소개하고자 합니다.

차세대 생명정보학 교육의 필요성
NGS 시대의 인간 유전체를 포함한 다양한 유전체 연구가 급진적으로 발전하고 있으며, 이에 따른 차세대 유전체 정보 분석 전문가의 양성이 요구되고 있습니다. 따라서 KOBIC과 공동으로 유전체 연구 관련 생명정보학 지식과 프로그램을 개발하며 정기적인 워크샵을 통해 대학, 국가 연구기관 및 기업체에 유용한 유전체 정보 분석 전문가를 양성하고자 교육 프로그램을 진행하게 되었습니다.

차세대 생명정보학 교육 내용
1차년도 커리큘럼은 리눅스와 파이썬 등 최신 생물정보 분석을 수행하기 위한 기초 분석 교육에서 점진적 향상된 교육 진행을 목표로 하였습니다. 따라서 일반적인 NGS 분석과 동/식물 기반의 종 특이적 NGS 분석에 대한 교육 내용에 포커싱하여 커리큘럼을 설계하였습니다.
  • 제22회 : 리눅스 및 파이썬을 이용한 생물정보 이해 (2014년 10월 6일~8일)
    - Linux와 Python의 기본 이론을 확립하고 실습을 통한
      생물정보 기초 분석 능력을 습득
  • 제23회 : NGS 개요 및 RNA-Seq 분석 (2014년 11월 26일~28일)
    - NGS의 기본 개념을 이해하고 실습을 통하여 NGS 데이터 분석 및
      RNA-seq 분석에 대한 기초 분석 능력 습득
  • 제24회 : Public 온라인 툴을 이용한 NGS 분석 및 네트워크 분석 (2015년 2월 25일~27일)
    - Public 온라인 툴을 사용하여 NGS 데이터를 가지고 variant 분석,
      RNA-seq, 네트워크 분석을 이론과 실습을 통하여 익힐 수 있도록 함
  • 제25회 : R을 활용한 공개 및 NGS 기반 유전체 자료 분석 실습 (2015년 4월 1일~3일)
    - R을 활용하여 실제 유전체 자료 분석을 수행할 수 있도록 함
  • 제26회 : Transcriptome assembly 분석 (2015년 5월 6일~8일)
    - NGS 데이터를 이용한 전사체 풀 구성과 유전자 기능 분석 방법을 습득

2차년도 커리큘럼은 미생물, 식물, 동물 및 인간을 대상으로 하는 연구에 직접적인 활용이 가능하도록 테마별 교육 진행을 목표로 하여 각 연구대상별 생물정보 이슈사항을 반영하여 커리큘럼을 설계하였습니다.

  • 제27회 : Linux 및 Python을 이용한 생물정보 이해 (2015년 8월 17일~20일)
    - Linux와 Python의 기본 이론을 확립하고 실습을 통한
      생물정보 기초 분석 능력을 습득
  • 제28회 : 미생물 유전체 및 대사회로 분석 (2015년 10월 12일~14일)
    - 미생물 유전체 분석에 대한 전반적인 이해 및
      분석 전략 습득과 실습 (중/고급과정)
  • 제29회 : 식물 유전체 데이터 분석 및 활용 (2015년 12월 14일~16일)
    - 식물 유전체 분석에 대한 전반적인 이해와 분석 전략 및 실습
  • 제30회 : 미생물 유전체 및 대사회로 분석 (2016년 2월 22일~24일)
    - 미생물 유전체 분석에 대한 전반적인 이해 및
      분석 전략 습득과 실습 (초급과정)
  • 제31회 : 유전체 데이터 분석과 질병 연구 (2016년 4월 20일~22일)
    - 인간 유전체 데이터 분석과 질병 연구에 대한 전반적인 이론과
      실습을 통해 분석 능력 습득





차세대 생명정보학 교육 홈페이지

연구과제를 수행하면서 생물정보 교육을 위한 별도의 홈페이지 구축(KOBIC 차세대 생명정보학 교육 홈페이지 운영, http://kobicedu.labkm.net/labkm/)을 통하여 효과적인 교육 일정의 관리와 수강신청의 편의성, 교육 자료의 공유 및 수강생과의 커뮤니케이션이 가능하도록 하였습니다.




차세대 생명정보학 교육 만족도

총 10회의 교육 설문을 분석한 결과 교육의 이해정도 및 만족도, 교육생의 실력향상, 기대한 목표치의 부합성이 모두 70~80% 이상으로 높게 나타났으며 강사진의 능력, 수업분위기, 설명, 교육 자료 등도 높은 평가 결과를 보였습니다.

교육만족도


강사만족도

교육진행 만족도


기대효과
생물정보전문 인력양성 사업에 지속적으로 참여하면서 느낀 점은 사업의 질적 고도화가 필요하다는 것입니다. 실무능력 향상을 위한 교육기간 연장, 등급 체계의 교육, 실습시간 강화, 산학협력 프로젝트 수행 등이 병행되어야 하고, 배출된 인력이 어떠한 활동을 하고 있는지 학계 및 산업계의 기여도와 추적 조사도 병행되어야 할 것 입니다. 또한 맞춤형 인력 양성 체계를 구축하여 수요자의 요구에 부응하는 인력이 양성되어야 할 것으로 판단됩니다.

또한 이러한 교육 과정들을 통하여 국내 생물정보학을 위한 표준 교육과정 개발의 기초자료를 제공하여 국내 유전체 연구의 성장을 촉진하고, 생물정보 분석 인력 확보를 통한 국내 유전체 연구 효율성과 경쟁력을 향상시키는데 도움이 되었으면 합니다.

이번 연구과제는 완료되었지만 정기적인 생물정보 교육은 계속 이어서 진행될 예정입니다. 앞으로도 많은 관심과 참여 부탁드리겠습니다.



<주관부처>                            <주관기관>
   


Posted by 人Co

2016/09/06 17:52 2016/09/06 17:52
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/218

A Superior Solution for Microbial Genomics - 5



일반 미생물에서부터 난배양성 미생물들까지 모두 확인할 수 있는 방법으로 샘플을 자연상태에서 직접 채취하여 시퀀싱 하는 방법을 metagenome이라고 합니다. NGS가 발전하면서 간단하게 샘플의 16s rRNA를 추출 후 시퀀싱을 하여 해당 샘플내에 존재하는 미생물의 종류와 존재 비율을 알 수 있습니다.
CLC Microbial Genomics Module은 16s rRNA 데이터베이스를 다운로드 하는 것부터 OTU clustering, alpha/beta diversity, PERMANOVA 분석까지 가능하게 해주며 미리 구성되어져 있는 워크플로우를 이용해 시퀀싱 raw data를 넣어주는 것만으로 분석이 완료가 됩니다.

지금부터 보여드릴 데이터는 용의자의 신발 두 켤레에서 나온 흙과 범행현장이라고 예측되는 곳의 토양 샘플의 16s rRNA를 시퀀싱하여 metagenome 분석을 응용한 것입니다. 시퀀싱 데이터를 모듈에 내장되어 있는 'Data QC and OTU Clustering'이라는 워크플로우에 넣어주면 trimming부터 OTU clustering까지 자동으로 진행되게 됩니다.



OTU clustering을 위한 워크플로우



이 워크플로우의 분석 결과로 data trimming report와 OTU clustering 결과를 볼 수 있는데 이 결과는 sunburst chart나 bar chart로 제공됩니다. 각 샘플별 clustering 결과에 metadata를 추가하여 특정 그룹으로 묶어 그룹간의 비교가 가능합니다.




그룹간의 OTU clustering bar chart

이후 OTU clustering 결과를 가지고 데이터의 taxonomy가 충분히 맵핑 되었는지 확인하기 위해 alpha diversity 분석을 수행하고, 샘플간 혹은 그룹간의 유사도를 보기 위해 beta diversity를 수행하게 됩니다. 그리고 MUSCLE 알고리즘을 이용한 alignment를 진행하고 phylogeny tree를 그려서 각 시퀀스간의 연관성을 확인합니다.



 

Diversity 확인 및 phylogeny tree 분석을 위한 워크플로우



두번째 워크플로우 분석 결과중 하나인 beta diversity의 결과를 함께 봅시다. Metadata를 이용하여 그룹을 지어주면 같은 그룹끼리 같은 색상으로 바뀌게 되며 그룹간 샘플간의 비교분석이 가능합니다. 아래의 그림에서 파란색 동그라미와 노란색 동그라미는 각각 다른 그룹을 의미하지만 유사도의 거리를 따졌을 경우 비슷한 것을 확인 할 수 있습니다 (일치라도 해도 될 정도로 유사함). 따라서 파란색과 노란색은 같은 토양 샘플이라고 잠재적 결정을 내릴 수 있으며, 용의자는 A 부츠를 신고 1번 site에 간 적이 있었다고 결론을 지을 수가 있겠습니다.




Beta diversity 분석 결과



1
6s rRNA를 이용한 metagenome 분석은 이러한 범인을 찾는데에 응용하는 것 외에도 특정 질병이 잘 걸리는 장내 환경을 조사해볼 수도 있고, 특정 작물이 잘 자라거나 특별히 잘 자라지 않는 토양에서의 미생물 분포를 알아볼 때도 사용할 수 있습니다.

CLC Microbial Genomics Module을 이용하여 우리눈에 보이지 않는 미생물들의 구성과 그 microbial community의 역할 및 특징들을 알아보고 싶으시면 지금 바로 trial 해보세요!


 <  이전화 보기  >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/08/30 09:55 2016/08/30 09:55
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/215

A Superior Solution for Microbial Genomics - 3

우리 몸을 구성하는 세포의 반 이상이 미생물 군집들로 차지하고 있습니다. 따라서 미생물의 분류학적, 유전적 기질은 사람, 동물 그리고 식물의 건강과 밀접한 관계를 가지고 있습니다.

특히 아직은 미생물의 유전적 기능 구성에 대한 정보가 구축되기에 어려움이 있고, 현재 metagenomics 분석 도구들도 기능적 구성이나 샘플간 변화 등을 정확하게 예측하기 위해 노력하고 있습니다. [Lindgreen et al. 2015].

만약 metagenome data를 de novo assemble 할 수 있고, 신뢰할 수 있는 기능 예측 결과를 통해 통계적으로 유의하게 변화된 것을 밝히는 분석도구가 있으면 어떨까요? 이러한 분석 도구가 NGS 데이터의 분석 표준이 되고 미생물 분석을 위해 최적화된다면 연구자분들에게 굉장한 도움을 줄 수 있을 것입니다.

미생물의 metagenomics 분석을 위한 플러그인인 CLC Microbial Genomics Module의 기능과 성능을 확인해 보세요.


결과 정확도

Figure 1. Metagenome 내 높은 정확도의 유전자 기능 예측 및 추적

2016년 1월에 Nature Scientific Reports에 14개의 다른 whole metagenome 분석 도구의 평가 결과에 대해 개재했습니다. 공개된 테스트 데이터를 이용해서metagenome의 기능적 분석이 가능한 5개를 선별하여 CLC Microbial Genomics Module과 비교했습니다. CLC Genomics Workbench에서 제공된 edge 테스트를 이용하여 통계적 분석을 진행하였고, photosynthesis, nitrogen fixation, pathogenesis에 대하여 분석을 진행하였습니다. (*는 통계학적으로 유의한, 정확한 변화를 일관적으로 예측하는 도구를 가리킵니다.)

Metagenomic 데이터를 바탕으로 미생물 군집에서 유전자 기능을 찾는 것은 어렵습니다. 더욱이 다른 metagenome 샘플간의 기능적 성질의 변화를 정확하게 측정하는 것은 더 어렵습니다. QIAGEN 솔루션은 미생물 유전체 분석에서 기능적인 차이를 정확히 찾고 정량화 할 수 있습니다. 또한 샘플간의 통계적으로 유의한 차이를 비교할 수 있도록 해줍니다.

여러 샘플의 비교는 샘플간의 기능적 변화를 찾고, 유사하거나 다른 기능적 요소를 분석하는데 쓰입니다.

Figure 2: 미생물 샘플들 전반에 걸친 기능적 비교

Metagenome에서 기능적 변화를 찾는 알고리즘은 많이 알려져 있지 않고, 기준이 되는 우수한 모델의 데이터셋이 없기 때문에 어려운 일입니다. 이런 어려움을 극복하기 위해 해당 연구결과에서는 기능을 파악하고 있는 두 합성 미생물 군집으로부터 각각 세개의 데이터셋(A1, A2, A3, B1, B2, B3)들을 만들었습니다.

Figure 2에서 보이는 것과 같이, CLC Microbial Genomics Module은 예측된 기능적 요소들의 비율을 바탕으로 두 개의 군집을 구분 할 수 있습니다.


Metagenome assembly 품질

새로운 Meatgenome assembler에서는 고품질의 어셈블리 결과를 생성하고 유전자 기능을 확인할 수 있습니다.

아래의 Table에서 CLC Microbial Module의 metagenome assembler와 다른 툴에서 misassembly, INDEL, mismatch error 등 다양한 지표들에서 어떤 차이가 나는지 비교해 줍니다.

Table 1 : Metagenome assembly의 품질 

QIAGEN metagenome assembler는 더욱 정확한 annotation을 가능하게 합니다. 데이터셋의 실제 길이는 209,845,413 base입니다.

 

실행 시간과 자원 효율성 계산

샘플의 크기가 크거나 데이터의 양이 많을때는 분석 실행시간과 요구되는 리소스가 매우 중요합니다.

테스트 데이터를 가지고 CLC Microbial Genomics Module의 어셈블러와 다른 어셈블러를 비교하였을 경우 분석 시간이 더 짧고 효과적이게 리소스를 이용하는 것을 확인하였습니다.

Figure 3. 최고의 metagenome assembly 분석도구


다른 metagenome 어셈블러들과 분석 시간과 리소스 사용면에서 비교하였을 때 우수한 결과를 보였습니다. (*MegaHit는 분석시간을 늘리면서 컴퓨터 메모리 소비를 줄이고 있습니다.)

 
분석에 소요하는 시간 축소


CLC Genomics Workbench 내의 workflow라는 기능을 이용하면 분석에 소요되는 시간과 노력을 크게 줄일 수 있습니다. 한번에 여러개의 데이터를 넣어줄 수도 있어 분석에 소요되는 시간과 동력을 절감시켜 줍니다.

Figure 4. 효율적인 workflow 기능


 <  이전화 보기 다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/25 17:03 2016/05/25 17:03
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/213

A Superior Solution for Microbial Genomics - 2


 
미생물의 유전체 정보를 알고 있다면 그 미생물을 어떻게 활용할 수 있을지 혹은 다른 strain 및 특징은 무엇인지 쉽게 확인 할 수 있습니다.
 
PacBio라는 NGS 플랫폼의 개발로 미생물의 de-novo 유전체 분석이 이전보다 더 활발해졌지만 기존에 활용하던 NGS 장비의 포맷과는 전혀 다른 raw 데이터 포맷(H5)을 지원하기 때문에 연구자들이 직접 분석하기 어려웠던 부분을 CLC Genome Finishing Module에서 수행할 수 있습니다.

Genome finishing에 있어서 short read들 만으로 contig 연결이 어려웠던 부분에 PacBio 데이터를 reference로 삼아 align이 가능하며, raw 데이터 수준의 PacBio 데이터의 error correction과 de novo assembly 기능이 추가되어 더욱 효율적으로 미생물 유전체 서열을 완성할 수 있습니다.

CLC Genome Finishing Module을 활용한 PacBio raw data의 error correction과의 de novo assembly의 성능 비교 테스트 결과는 아래와 같습니다.



HGAP과의 벤치마킹 자료를 바탕으로 CLC Genome Finishing Module은 laptop 환경에도 불구하고 running time과 메모리 활용이 훨씬 적은 것을 알 수 있습니다. 또한 모듈내에 함께 제공되는 워크플로우를 통해 더욱 연구자들이 쉽고 빠르게 분석할 수 있는 환경을 제공하고 있습니다.
 
현재 가지고 계신 데이터가 있으시다면, 한번 try 해보세요!


(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/18 15:35 2016/05/18 15:35
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/211

A Superior Solution for Microbial Genomics - 1


미생물은 말 그대로 굉장히 작은 생물들이지만 환경과 생체에 미치는 영향력은 결코 작지 않으며, 미생물이 이 지구상에서 차지하는 비율 혹은 인체에서 차지하는 비율은 전체의 50%가 넘습니다. 다양한 환경에서 그 환경에 맞는 특정 미생물들이 살고 있고 이러한 미생물의 유전학적인 분석은 특정 유용 물질의 대량생산 하는 새로운 기술로서 개발하거나, 환경이나 질병 등에 대한 분석에 활용할 수 있습니다. 현재 다양한 NGS 플랫폼이 발달하면서 타 생물체보다 간단한 유전자 구조를 가지고 있는 미생물은 비교적 생물정보 분석도 용이하여, 전체 유전체 서열과 기능을 밝히거나 다양한 환경적 시료에서의 군집 분석을 많이 수행하고 있습니다.

1. Whole Genome 분석 솔루션



새로운 유전체의 서열을 조립하는 de novo assembly는 굉장히 복잡하고 어려운 일 중에 하나입니다. 하지만 PacBio 시퀀싱 플랫폼이 현재 굉장한 길이의 서열을 생산하면서 미생물 유전체 연구에 많이 활용되고 있습니다. Whole Genome 분석 솔루션은 다양한 NGS 플랫폼의 데이터의 GUI 형태의 de novo assembly 결과로부터 PacBio 데이터를 통한 scaffold 구축, 매뉴얼 gap filling 작업을 통한 미생물 유전체 서열을 확보할 수 있으며 ORF 예측 및 해당 서열의 blast, GO ontology 분석까지 가능하도록 패키지화 하였습니다.


2. Metagenome 분석 솔루션

미생물 군집을 분석하기 위해서는 16s rRNA 서열을 시퀀싱하거나 whole metagenome을 시퀀싱하여 진행합니다. Metagenome 분석을 위한 public tool들도 존재하지만 커맨드라인 기반으로 진행되기 때문에 일반 생물학자들이 사용하는데는 어려움이 많습니다. Metagenome 분석 솔루션은 NGS 플랫폼으로 시퀀싱한 데이터를 쉽게 분석할 수 있도록 미리 세팅되어진 워크플로우가 존재하여 OTU-clustering 및 diversity 분석 결과를 얻을 수 있습니다. 뿐만 아니라 whole metagenome 분석을 지원하여 de-novo assembly를 통한 contig 서열을 바탕으로 CDS와 gene을 예측하고 GO term 맵핑이나 BLAST를 수행하여 예측된 유전자 기능을 파악할 수 있습니다.


다음화 보기 >

(문의) Consulting팀 (대표전화 : 031-278-0061, 이메일 : consulting@insilicogen.com)

Posted by 人Co

2016/05/11 19:43 2016/05/11 19:43
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/209



« Previous : 1 : 2 : 3 : 4 : 5 : 6 : 7 : ... 10 : Next »