« Previous : 1 : ... 24 : 25 : 26 : 27 : 28 : 29 : 30 : 31 : 32 : ... 38 : Next »

Biomax사와 CLC bio사 방문

지난 2월에는 김형용 책임개발자님과 강연경 선임개발자님이 당사에서 제공하는 솔루션에 대한 기술적 사항들을 교육받기 위해 독일 뮌헨의 Biomax사와 덴마크 오르후스의 CLC bio사에 방문하였습니다. 특히 Biomax사의 BioXM, CLC bio사의 CLC Genomics Server에 대해 기술적 전수를 받고 오셔서 앞으로의 솔루션 기반 고객서비스를 한층 강화할 수 있을 것으로 기대합니다. 그럼 두 분의 방문 후기를 들어볼까요?

생물정보분야 지식창출 전문가그룹 Biomax사를 방문하고

 KM사업부 김형용

Biomax, 아마도 가장 오래된 생물정보학 회사일듯. 2001년 RECOMB 학회에서도 Biomax의 개구리 심볼마크를 본 기억이 난다. 그 오랜시간동안 기업을 유지할 수 있다는 건 대단한 일이다. 중간에 생물정보분야 버블이 빠지던 기간도 있었음을 고려하면 그 기술력 유지가 상당했음을 짐작할 수 있다. Biomax사는 PedantPro로 일찌감치 유전체주석(Genome Annotation)분야에 자리를 잡고 생물정보 분야의 거의 전 분야를 커버해왔다. 최근에는 의미론적 방법으로 데이터베이스를 통합하고 지식 추출에 활용할 수 있는 BioXM을 통해 포스트 NGS분야의 선두주자로 자리매김하고 있다.

방문목적은 파트너사로서 현재 서비스하고 있는 BioXM에 대한 기술적 점검을 받고, 새버전의 기능에 대한 교육과 함께, 컨설팅 플랫폼으로 활용하기 위한 웹포털 기능을 중점적으로 이해하기 위함이였다. 개발자 두명이서만 방문해서 잘 따라갈 수 있을까 걱정이 앞서긴 했지만, 막상 부딪히니 기술적인 노하우들도 많이 얻고 또 많이 배울 수 있었던 좋은 경험이였다.

사용자 삽입 이미지
방문 첫날, 이날 영하 10도가 넘어가는 매우 추운날이였다. 위 사진에 보이는 곳이 Biomax사 건물이 있는 곳 앞. Biomax는 이 건물의 3,4층을 사용하고 있다.

사용자 삽입 이미지
함께 간 강연경 선임과 Biomax사 CEO이신 Klous Heumann 박사님. CEO께서 직접 프리젠테이션으로 BioXM 및 관련 비즈니스에 대한 소개를 해주셨다. 특히 BioXM을 통한 컨설팅 비즈니스에 대한 언급이 많았다. 직접 BioXM을 구입하지 않아도 자신의 데이터에 대해 컨설팅을 받고 웹페이지로 컨설팅 결과를 확인할 수 있다. 고객은 자신만의 데이터와 외부에 공개된 데이터(GO, KEGG 등)이 통합된 데이터베이스를 받고, 여기에 의미검색, 네트워크분석 등을 수행할 수 있다. 이 컨설팅 비즈니스 모델은 현재 우리 KM사업부에서도 추진중이다.

사용자 삽입 이미지
전체 트레이닝 스케줄과 당사 설치 이슈들에 대한 논의를 함께 했던 Dieter Maier 박사님. 큰 키에 조각같은 얼굴과 희끗한 머리가 멋지게 휘날리는 분이셨다. Biomax사에는 주로 생물학분야 박사님들이 많았는데 대부분 덩치들이 거대하셨다는. 동양인이면서도 작은 편인 나와 좀 많이 비교가 되더라. 나도 키는 더 안크겠지만 살이라도 찌워 덩치라도 비슷하게 만들어야 하나 싶었다. 점심식사는 회사에서 직접 만들어다 주셨는데 이분들 매번 빵만 드시는 걸 보니 살짝 안타까움도 들더라. 어찌 빵만먹고사나 몰라.

사용자 삽입 이미지
뮌헨에서의 3박 4일 일정을 사무실과 호텔에서만 보낼 수 없다는 생각에 마지막날 저녁 뮌헨 시내를 둘러보았다. 위 사진은 마리안 광장. 영하10도의 시내한복판이지만 그래도 가끔 관광객들이 보이긴 했다. 아마도 나처럼 이 추운날 뮌헨에 갈 곳이 없구나란 생각을 했을 듯. Biomax 사의 3일간의 일정동안 Pedant-pro, BioXM, 컨설팅 비즈니스등 많은 분야에 대한 논의들을 했고, 중요한 지식들을 전수받을 수 있었다. 특히도 BioXM 심화분석 이해를 위해 연습문제까지 내어주며 친절하게 알려주신 Hilmar Ilgenfritz 박사님이 기억에 많이 남는다. Biomax사 제품들을 가만히 보면 이곳만의 개발 철학도 느낄 수 있는데, 여기는 개발자 중심이라고 하기 보다는 과학자 중심인 회사라는 느낌. 회사안의 많은 과학자들이 무수한 논의를 거쳐 모델을 만들고 또 컴퓨터 과학자와 논의하여 제품을 만드는 모습은 쉽게 따라하기 어려운 이곳만의 저력을 느끼게 했다. 앞으로도 좋은 파트너 관계를 유지하고, 시맨틱스 컨설팅 분야에 좋은 성과들을 많이 남길 수 있길 바라면서 CLC bio가 있는 덴마크 오르후스로 향했다.

글로벌 기업으로 발전하고 있는 CLC bio사를 방문하고

Codes 사업부 강연경

CLCbio는 Biomax와 비교한다면 아주 짧은 기간내에 생물정보학 분석 솔루션 시장에 성공적으로 진입한 기업이다. CLCbio사의 솔루션은 크게 PC용 소프트웨어(Workbench 제품군), 엔터프라이즈급의 서버 솔루션(BioDatabase, Genomics Server) 으로 구분할 수 있는데 두 제품군 모두 사용자의 다양한 요구사항을 반영할 수 있는 커스터마이징 아키텍처를 포함하고 있다. 뿐만아니라 서버 솔루션과의 연계를 통해 다양한 형태의 플랫폼 구현이 가능하다. 이렇게 유연한 형태의 솔루션을 기반으로 철저히 사용자(고객) 중심의 기업 마인드가 짧은 기간에 그들이 글로벌 기업으로 발돋음한 힘이 아닐까란 생각을 해 보았다.

우리는 이틀동안 진행된 교육프로그램을 통해 CLC Genomics Server의 커스터마이징 도구인 Command Line Tool (CLT)과 External Application Tool 에 대한 기술적인 내용과 CLCbio의 비지니스 전략, 분석 컨설팅 실 예를 통한 plug-in 활용방법 등 여러가지를 보고 배울 수 있는 좋은 경험이였다.

사용자 삽입 이미지
CLCbio는 덴마크 오르후스(Aarhus) 라는 항구도시에 위치하고 있다. 첫날 우리는 Henry(CLCbio Asia-Pacific Reseller Manager)가 추천해준 대로 호텔에서 CLCbio사까지 약 30분정도 되는 거리를 짧게나마 덴마크를 보고 느끼면서 찾아갔다. 2월의 북유럽 추운 날씨에도 많은 사람들이 자전거로 출근하는 모습이 인상적이였다.

사용자 삽입 이미지
CLCbio 본사의 이곳저곳의 모습이다. 내가 느낀 CLCbio 본사 분위기는 깨끗한 사무실과 CLCbio 로고처럼 군더더기 없는 인테리어 그리고 직원들의 자유롭고 젊고 활기찬 모습.

사용자 삽입 이미지
한국에도 몇번 방문했었던 Mikael. 그는 이틀동안의 우리 스케줄을 체크해 준 친절한 Cigar guy! (담배를 무척 좋아하는 듯하다.)

사용자 삽입 이미지
한국시장에 큰 관심을 보여 주었던 CEO Thomas Knudsen.

사용자 삽입 이미지
CLC Genomics Server 개발을 담당하고 있는 Paul로부터 CLC Genomics 서버가 지원하는 분산환경에 대한 시스템 구조에 대한 대략적인 설명을 들었다. 우리는 이틀간의 CLCbio 본사에서의 교육 일정동안 CLC Genomics Server가 제공하는 다양한 커스터마이징 기술(External Application, Plugin, Command Line Tool) 에 대한 기술적인 내용뿐만 아니라 실제 적용사례에 대한 내용에 대한 설명을 들을 수 있었다. 구체적인 사례를 들으면서 어렵게만 생각되었던 커스터마이징 관련 기술들에 대해 회사에서 진행하고 있는 몇개의 CLC Genomics Server 커스터마이징 관련 사업에도 접목 시킬 수 있겠다란 생각이 들었다. 개인적으로 이번 파트너사 방문 출장을 통해 글로벌한 기업과 우리회사가 파트너쉽을 가지고 같이 하고 있다는 것에 대한 자부심과 함께 외국 파트너사와 함께 일하기 위해서 영어가 얼마나 중요한 수단인지 다시한번 실감했다. 좀 더 준비하지 했으면 더 많이 배우고 갈 수 있지 않았을까라는 아쉬움과 회사로 돌아가 새롭게 알게된 기술들을 어떻게 접목 시킬수 있을까라는 고민을 하면 Biomax 그리고 CLCbio사 방문 일정을 마무리 했다.


Posted by 人Co

2012/05/25 08:46 2012/05/25 08:46
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/111

RNA-Seq
RNA-Seq은 NGS 기술로 transcriptome을 분석 할 수 있는 방법으로써, 말 그대로 특정 샘플에서 발현되는 RNA 서열을 시퀀싱하여, 어떤 exon들로 조합된 transcript가 발현이 되었는지, transcriptome에 대한 다양한 정보를 한 번에 알아낼 수 있는 방법입니다.

RNA-Seq 데이터 다운받기
웹 브라우저에서 아래 url로 이동해 보시면 CLC bio에서 제공하는 예제 RNA-Seq 데이터를 받으실 수 있습니다. 이 데이터는 RNA-Seq 분석에 관한 초기 논문 중의 하나인 Mortazavi의 논문에서 얻은 데이터로 mouse의 brain과 liver에서 발현되는 mRNA를 시퀀싱 하여 분석한 데이터입니다. 이 데이터는 이미 CLC Genomics Workbench에 import가 된 상태의 데이터로 .zip 파일을 그대로 ‘Navigation Area'에 드래그 하면 자동으로 import가 됩니다.

http://www.clcbio.com/index.php?id=1290
사용자 삽입 이미지
Subset.zip 이라는 파일의 import가 완료되면 다음 그림과 같은 데이터가 나타나게 됩니다. Brain과 liver에서 각각 두 개씩 얻은 read 데이터와 mouse 16번 염색체의 reference 서열 파일을 확인 할 수 있습니다.

사용자 삽입 이미지

RNA-Seq 분석 돌리기
데이터 준비가 완료되면, ‘Toolbox’의 'RNA-Seq Analysis'를 실행시킵니다.

사용자 삽입 이미지
첫 번째 단계에서 reference 서열에 mapping 시킬 read 데이터를 선택합니다. 이때 각 샘플에서 얻은 데이터끼리 따로 분석을 해야 하기 때문에, 다른 샘플의 read를 함께 선택하지 않도록 주의합니다.

사용자 삽입 이미지
다음 단계에서는 reference 서열에 대한 몇 가지 항목을 설정합니다. ‘Reference'는 read를 mapping 시킬 reference 서열을 지정하는 항목인데 선택한 reference 서열에 있는 annotation을 이용할 것인지 아닌지를 선택해야 합니다. 전자의 경우 reference 서열에서 'Gene'이라는 이름으로 annotation 영역을 추출한 다음 그 서열들에만 read들을 mapping 시키게 됩니다. 이 때 아래 쪽 ’Extend annotated gene regions'의 값을 조정하면 gene 영역의 upstream과 downstream으로 지정된 base 만큼 확장하여 추출하게 됩니다. 후자의 경우 전체 reference 서열에 read들을 mapping 시킨 후 전체 서열에 대한 발현량이 계산되게 됩니다.

사용자 삽입 이미지
다음 단계에서는 read를 mapping 하는데 요구되는 옵션들을 설정하게 됩니다. ‘Maximum number of mismatches'는 read가 reference 서열에 mapping 될 때 허용되는 mismatch base의 수를 정해주는 옵션이고 ’Maximum number of hits for a read'는 non-specific하게 mapping 되는 read의 허용 가능한 정도를 정하는 옵션입니다. 예를 들어 이 옵션이 ‘10’으로 설정되어 있을 경우, reference 서열에 mapping 될 수 있는 부분이 11개 이상인 read는 mapping되지 않고 버려집니다. 반면에 mapping 될 수 있는 부분이 10개 이하인 경우에는 그 mapping 될 수 있는 부분들 중에서 무작위로 한 자리가 선택되어 mapping 되게 됩니다. 'Minimum length fraction'과 ‘Minimum similarity fraction'은 mapping 시킬 read가 long read 일 경우 적용되는 옵션입니다. Long read는 길이가 길다 보니 reference 서열과 mapping 되는 부분을 base 단위로 정하지 않고 비율로 정하게 되는데, 'Minimum length fraction'이 ’0.9‘로 설정되면 100bp의 read는 최소한 90bp 이상 reference 서열과 match되어야 mapping 됩니다. 그리고 ‘Minimum similarity fraction'이 ’0.8‘로 설정되면 mapping 된 부분의 identity가 80%는 되어야 mapping이 됩니다.

사용자 삽입 이미지
다음 옵션은 새로운 exon 영역을 찾아내는데 필요한 옵션들입니다. 먼저 'Type of organism'에서 분석 대상이 원핵생물(Prokaryote)인지 진핵생물(Eukaryote)인지 선택합니다. 원핵생물의 경우 exon과 intron의 개념이 없기 때문에 'Exon discovery'가 수행되지 않습니다.

사용자 삽입 이미지
진핵생물을 선택하고 'Exon discovery'를 수행하도록 체크하게 되면, 세 가지 옵션 값을 설정 할 수 있습니다. 'Required relative expression level'은 다른 exon들의 발현량에 비해서 새롭게 찾아진 exon에 요구되는 상대적인 발현량을 의미합니다. 그리고 ‘Minimum number of reads'는 새롭게 찾아진 exon 영역에 요구되는 최소한의 mapping read의 수를 의미하고, 'Minimum length'는 그 exon 영역의 최소 길이를 의미합니다. 예를 들어 이 옵션들이 기본 값으로 설정된 경우, intron 영역의 어떤 부분에 10개 이상의 read가 mapping 되고, 이 read 들로 조합된 consensus 영역이 50bp 이상이면서, 이 부분에 대하여 계산된 발현량이 다른 exon 들의 발현량에 대하여 상대적으로 20% 이상이면 이 영역을 기존에 알려지지 않은 새로운 exon 이라고 인식하도록 되어 있습니다.

사용자 삽입 이미지
다음 단계에서는 분석 결과를 작성하는데 필요한 몇 가지 옵션들을 설정하게 됩니다. Mapping 되지 않은 read들의 목록을 따로 생성시킬 것인지, RNA-seq 분석에 관한 report나 분석 log를 작성할 것인지에 관하여 설정할 수 있습니다. 'Expression value'는 각 유전자 혹은 transcript의 발현값을 어떻게 계산 할 것인지를 정하는 옵션입니다. 'Transcript:RPKM'을 선택하면 각 transcript의 발현값을 계산하여 보여지게 됩니다.

사용자 삽입 이미지
그리고 paired-end read를 사용할 경우 'gene fusion' 분석도 할 수 있습니다. Gene fusion은 translocation, deletion, inversion과 같이 염색체 구조 변이에 의해서 두 개의 유전자가 합쳐진 경우를 말합니다.

사용자 삽입 이미지
예를 들어, gene fusion이 일어난 유전자에서 mRNA가 발현되고 시퀀싱 하여 paired-end read를 얻은 후 정상적인 reference 서열에 mapping을 시켜보면 forward 서열은 A라는 유전자에 mapping 되는데 reverse 서열은 B라는 유전자에 mapping 될 수 있습니다.

사용자 삽입 이미지
이런 paired-end read를 두 유전자 사이에 gene fusion이 일어났다고 볼 수 있는 증거로 제시할 수 있으며, ‘Minimum read count'로 이런 paired-end read가 최소한 몇 개가 있어야 gene fusion이 일어났다고 report를 할지 정해 줄 수 있습니다.

모든 옵션과 결과의 저장 위치 지정이 완료되면 ‘Finish' 버튼을 클릭하면 분석이 진행 됩니다.

분석이 완료되면 다양한 정보가 들어있는 테이블이 나타납니다. 각 유전자 별로 발현값, annotate된 transcript의 수, 확인된 transcript의 수 exon 영역의 길이, exon 영역에 mapping된 read의 수, 등 많은 정보를 확인 할 수 있습니다.

사용자 삽입 이미지
각 항목을 더블클릭해 보면 각 유전자별로 read 들이 어떻게 mapping 되었는지 확인할 수 있는 mapping view가 나타납니다. Mapping view에서 오른쪽 side panel의 몇 가지 설정을 바꾸면 다양한 형태로 화면을 수정할 수 있습니다. Mapping view를 열어 보면 read들이 어떤 exon에 mapping이 되었는지 볼 수 있고, 이를 통해 어떤 exon들이 조합된 transcript가 발현이 되었는지 알 수 있게 됩니다. 한 가지 예로 Brain sample의 Bdh1 이라는 유전자에서는 1개의 'Putative exon'이 발견 되었습니다. Liver sample의 결과에서 같은 유전자의 mapping view를 열고 비교해 보니 Brain sample에서 발견된 새로운 exon 부분이 mapping 되지 않은 것을 볼 수 있습니다. 이를 통해 Brain 조직에서는 Bdg1 유전자에 기존에 알려지지 않은 exon 영역이 존재하고 이 exon 영역이 함께 조합된 새로운 transcript가 발현된다고 추측해 볼 수 있습니다.

사용자 삽입 이미지
Paired-end read를 이용하고 gene fusion event를 확인 하도록 옵션을 설정했다면, 다음과 같은 결과 테이블도 볼 수 있습니다. 이 테이블에서 gene fusion이 일어난 유전자와 그 유전자의 위치, 그리고 몇 개의 paired-end read가 mapping 되었는지 확인 할 수 있습니다.

사용자 삽입 이미지

Reference
 - http://en.wikipedia.org/wiki/Fusion_gene
 - Genomic sequencing of colorectal adenocarcinomas identifies a recurrent VTI1A-TCF7L2 fusion, Nature Genetics Volume:43, Pages:964–968 Year published:(2011)



* 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

  - codes@insilicogen.com

Posted by 人Co

2012/04/30 20:10 2012/04/30 20:10
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/109

NGS 데이터로 SNP와 Indel 분석하기

Variation study
'시퀀싱 비용의 절감’ 이라는 장점을 갖는 NGS 기술과 함께 이슈가 되고 있는 분야가 ‘개인 맞춤형 진단’입니다. 질병, 체질 등 모든 표현형의 근간이 되는 DNA의 서열 정보를 알아내어 비교함으로써 개인 간의 차이와 질병의 원인을 알아낼 수 있는 시도를 진행할 수 있게 된 것입니다. NGS 데이터를 이용해 수행할 수 있는 variation 분석으로 SNP, small insertion/deletion polymorphisms, structure variation 분석이 있습니다.

분석 방법은 대략 비슷한데,

  1. Reference 서열에 mapping
  2. Variation(SNP, Indel, etc)찾기
  3. Public DB 데이터와 비교

와 같은 순서로 볼 수 있습니다.

사용자 삽입 이미지
보통 mapping을 하기 전에 read 들을 quality나 시퀀싱 기기에 잠재적인 오류를 줄이기 위한 filtering을 먼저 진행하지만 여기선 언급하지 않겠습니다. Reference 서열과 read가 준비되면 reference assembly를 합니다. 그리고 그 결과로 나온 mapping 데이터에서 reference 서열과 consensus 서열, 그리고 consensus 서열을 만들어낸 read들의 서열 데이터를 모두 종합해서 SNP나 Indel을 찾아냅니다.

SNP 찾기
먼저 SNP를 찾는 방법에 대해 정리해 보고자 합니다. 사실 SNP를 찾는 소프트웨어들이 하는 일은 reference 서열과 consensus 서열이 서로 다른 position을 찾은 후, 그 position의 consensus 서열을 구성한 read들의 quality나 coverage, 그리고 구성 비율 등의 기준을 정하고 그 기준을 통과하는 position을 찾아 정리해주는 역할을 합니다.

아래 그림에서 노란색으로 강조된 세로 열을 보면 consensus 서열(black)이 ‘A’ 이지만 이 서열에 해당하는 read들을 보면 일부 ‘C' 가 보입니다. Window size라는 것은 SNP를 찾는데 특정 position에 해당 하는 read의 서열 주변 영역을 말합니다. 예를 들어서 window size가 11이라고 정해지면 특정 position의 양옆으로 5bp 씩 확장한 11bp를 의미합니다. 만약 read의 해당 position이 끝 부분이어서 한쪽으로 확장할 영역이 5bp 미만일 경우 부족한 만큼 반대쪽 영역으로 확장하여 비대칭한 형태로 window size가 설정 됩니다. 이 window size을 대상으로 quality나 gap, mismatch 개수를 계산한 다음 해당 position의 consensus 서열을 결정하게 만든 read들의 정보가 믿을 수 있는지에 대한 filtering을 하게 됩니다. 만약 해당 position을 서열을 결정하는 read 서열 주변(window size) 영역의 quality가 낮거나 gap 또는 mismatch가 많다면, 그 read의 서열은 신뢰하기 어렵기 때문에 SNP를 결정 할 때 제외해야 할 것입니다.

사용자 삽입 이미지
이렇게 믿을 수 있는 read 정보만 남겨놓은 다음에는 read 서열의 frequency를 계산하여, 해당 position에 대하여 reference 서열과 다른 read의 서열의 frequency에 대한 기준을 정해 SNP를 찾아냅니다. 예 를 들어 위 그림의 강조된 부분에 mapping 된 14개 read 중 8개의 read는 'A'이지만 4개의 read는 C를 가리키고 있습니다. A와 C의 frequency는 66.67%와 33.33%입니다. 만약 reference 서열이 'A'이고 기준 frequency를 30% 라고 정했다면, 이 position은 SNP로 찾아질 것입니다. 이 frequency에 대한 기준은 sample을 어떻게 준비했느냐에 따라 달라집니다. 예를 들어 이배체 종의 sample을 그대로 시퀀싱 했다면 부모로 받은 서로 다른 두 개의 형질이 섞인채로 시퀀싱 되어 실제 SNP를 찾기 힘들기 때문입니다.

이렇게 염기서열 상에서의 SNP를 찾고난 다음에는 이 서열이 발현 단계에서 아미노산 서열의 변화까지 일으키는 non-synonymous SNP인지 확인해야 합니다.

사용자 삽입 이미지
사용자 삽입 이미지

DIP 찾기
편의상 Deletion/Insertion(gap) polymorphism을 줄여서 DIP라고 부르겠습니다. DIP를 찾는 것도 SNP를 찾는 방법과 유사합니다. Reference 서열과 비교해서 consensus 서열에 나타난 insertion이나 deletion이 나타난 자리를 찾는 것 입니다. 이 때 SNP와 마찬가지로 DIP가 나타난 consensus 서열의 근거가 되는 read의 수나 frequency를 기준으로 DIP를 선별해 낼 수 있습니다. DIP의 경우 1~2bp로 인해 해당 유전자의 ORF 전체가 바뀌게 되므로 관련된 유전자와 관련된 구조적 변화나 질병 등에 대한 연구가 함께 필요합니다.

사용자 삽입 이미지


* 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

  - codes@insilicogen.com

Posted by 人Co

2012/04/20 14:04 2012/04/20 14:04
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/108

Assembly를 해보자!

"저는 생물학과를 졸업 후 분자생물학 실험을 주로 하는 실험실에 석사과정으로 들어간 대학원생입니다. 여기서 저의 막내 생활이 다시 시작됩니다.
어느 날 교수님께서 '너의 석사 주제를 가져왔노라'시며 의미심장한 미소를 띄우시고는 미팅룸으로 저를 끌고 가십니다.
요즘 NGS 라는게 뜨는데 네가 남자고 컴퓨터를 좀 더 잘 할 터이니 네가 이걸로 뭔가를 해보라고 하십니다.
그 '뭔가'가 대체 뭔지는 논문 찾아보면 다 나오니까 조사해오라고 하십니다.
나름 조사를 해보니 용어도 잘 모르겠고, 다 영어라 해석도 어렵고...
전 정말 미추어 버리겠지만, 어쩌겠습니까? 까라면 까야죠."

위의 이야기는 제가 아는 어떤 친구의 하소연입니다. 이런 상황은 이 친구 뿐만이 아니라 대한민국 실험실의 많은 학생들, 그리고 연구원들이 공감하는 이야기일 것 같습니다.
저도 그 답답함을 겪었던, 그리고 아직 겪고 있는 한 사람으로서 제가 아는 만큼 NGS에 대해서 쉽게 이해할 수 있는, 그리고 소통을 통해 그 답답함을 해결할 수 있게 하는 글을 남겨보고자 합니다. 자 그럼 NGS 정체에 대해서부터 이야기 해보겠습니다.

NGS가 뭡니까?
NGS는 Next Generation Sequencing의 약자로 차세대 염기서열 결정이라고 해석할 수 있겠습니다. 해석은 ‘염기서열 결정’이라고 했는데 ‘휴먼 지놈 시퀀싱’ 할 때의 그 시퀀싱을 쓰는게 더 어울릴 것 같네요. 아무튼 어떤 생명체의 염기 서열을 알아낼 때 쓰는 시퀀싱법의 최신 버젼을 말하는 것 같습니다. 차세대라고 하는걸 보면 이전 세대의 염기서열 결정법 보다 뭔가 더 좋은게 있는 것 같습니다. 얼마나 혁신적으로 좋아졌길래 ‘차세대’라는 말을 갖다 붙였을까요?

'이전 세대' 시퀀싱법 Sanger method
Sanger method는 학부 분자생물학 시간 때 언뜻 들은 기억이 납니다. 지놈을 무작위로 잘라 단편 조각으로 만들고, single strand로 만든 다음 PCR처럼 primer를 붙이고 중합효소로 상보적인 dNTP들을 붙여 나갈 때 형광다이가 붙어 있는 ddNTP가 붙으면 중합 반응이 끝나고, 그 조각들을 전기영동으로 분리하면 짧은 조각부터 1bp 간격으로 정렬이 되는데 이 순서대로 형광다이의 색으로 A, T, G, C 서열을 결정해 나가는 방법입니다. 비루한 저의 설명 보다는 없는 지식이 없는 위키피디아(http://en.wikipedia.org/wiki/DNA_sequencing)나 파워블로거 님들의 자료를 살펴 보심이 옳은 줄로 아뢰옵니다. Sanger method의 장점이라면 정확해서 믿을만하다고 할 수 있겠습니다. 단점은 비싸고 오래 걸린다는 점입니다. 그래서 연구용으로는 적합하지만 상업적 목적으로 이용하기에는 힘들다고 합니다.

그럼 NGS는 뭐가 좋은데?
싸고 빠릅니다. 어디까지나 Sanger method에 비해서라는 전제가 붙을 때 이야기입니다. 차세대 염기서열 결정법은 크게 4~5가지가 있습니다. 기존 Sanger method의 비싸고 오래 걸려서 상업적으로 이용하기 어렵다는 단점을 극복할 수 있는 시퀀싱법을 개발하기 위해 몇몇 회사가 뛰어들어 새로운 시퀀싱법을 개발해 냈는데 기본적으로 전체 genome을 잘라 단편으로 만든 후 각 단편의 서열을 시퀀싱하고 이 단편들을 assembly라는 단계에서 겹쳐지는 부분을 이어 원래 지놈 서열을 알아내는 식으로 genome project가 진행 됩니다. 각 회사마다 개발해낸 시퀀싱법이 적용된 장비(혹은 플랫폼이라고 부르기도 합니다.)를 개발해서 판매하고 있으며 대표적으로 Roche사의 GS-FLX, Illumina의 Genome Analyzer, Applied Biosystem사의 SOLiD, Life Technologies사의 Ion Torrent 등이 있습니다. 여기서부터 슬슬 복잡해지기 시작합니다. 각 장비들마다 다른 시퀀싱법을 사용하다 보니 저마다 각자의 강점과 약점이 있습니다.

NGS로 무엇을 할 수 있을까?
서열을 시퀀싱해서 할 수 있는 분석들 대부분을 할 수 있습니다. 크게 나누자면 genomics, transcriptomics, epigenomics 분야로 나눌 수 있지만 raw data를 어떻게 응용하느냐에 따라 더 다양한 분야의 분석 방법들이 만들어 질 수 있을 것 같습니다.

Genomics

Transcriptomics

Epigenomics

de novo assembly

Reference assembly

SNP detection

DIP detection

RNA-Seq

Small-RNA analysis

ChIP-Seq


NGS 분석을 위해 준비해야 할 것들
"자 그럼 NGS 분석을 해보자! 뭐부터? 설계 먼저!
헐~ 데이터 파일이 너무 큰데... 내 PC에서 하면 PC 폭발하는거 아녀?
받긴 받았는데.. 이게 다 뭐다냐?"

어느 실험이 다 그렇듯이 NGS 데이터를 분석하는 것도 정확한 계획을 세우는 것이 중요합니다. 그 계획을 세우기 위해서는 시퀀싱 대상이 원핵 생물인지 진핵 생물인지? 지놈의 크기는 어느 정도인지? 그리고 얼마나 많이 시퀀싱 할 것인지(depth)? 그리고 주로 분석 할 대상이 RNA서열인지? exom 서열인지? whole 지놈 서열인지? 와 같이 시퀀싱 대상에 대한 정보를 파악하고 분석 목적에 맞는 시퀀싱 데이터(single short, long read, paired-end read, mate paired-end read)를 만드는 것이 중요합니다. 그리고 이 데이터들을 분석하기 위한 고사양의 컴퓨터, 분석 소프트웨어도 준비해야 합니다. 이 부분에 대한 설명은 다음으로 넘기도록 하겠습니다.

"de novo" assembly를 해보자!
'de novo' 라는 말이 낯섭니다. 우리 친구 네이놈 사전을 찾아보니 부사로써 ’처음부터‘, ’새로(이)(anew)‘, ’다시(again)‘, 영영사전에는 'from the beginning' 이라는 뜻이랍니다. 그러니까 de novo assembly는 새롭게 assembly를 한다는 말이 되겠네요. de novo assembly는 주로 서열이 밝혀지지 않은 종의 지놈 서열을 알아내고자 할 때 수행하는 분석입니다. Assembly는 일종의 퍼즐 맞추기랑 비슷합니다. Reference assembly는 원본 사진을 보면서 맞추는 퍼즐이고 de novo assembly는 원본 사진 없이 맞추는 거라고 보시면 됩니다.

사용자 삽입 이미지
* 1,000 피스 퍼즐 맞추는데 3일이 넘게 걸린다는데 이 퍼즐은 18,235 피스랍니다. 단순 비례 계산으로 치면 54일 쯤 걸렸겠네요.

원본 없이 하나하나 맞춰보면서 연결되는 것들 끼리 쭉~ 이어 원래의 genome 서열을 알아내야 하는 작업인지라 한 종류의 read들만 가지고 assemble을 하기란 쉽지 않습니다. 그래서 short, long, paired-end, mate-paired-end 등 여러 종류의 read들을 가지고 assembly를 해야 결과가 좋아집니다.

사용자 삽입 이미지
* 과학시간에 많이 보던 큰 구슬, 작은 구슬로 비커 채우기 실험

NGS read 데이터를 다운받자!
Assembly를 하려면 먼저 NGS read가 필요합니다. 현재 NCBI, EBI, DDBJ의 sequence 데이터 저장 서비스인 SRA(Sequence Read Archive)에서 공개된 NGS 데이터를 받을 수 있습니다. 일단 이 블로그에서는 어떻게 de novo assembly를 돌릴 수 있는지 알아보는 것이 목적이므로 지놈의 크기가 비교적 작은 E. coli의 NGS 데이터를 사용하고자 합니다. 웹 브라우저에서 아래 url로 이동해 보시면 CLC bio에서 제공하는 예제 데이터로 E.coli의 genome을 sequencing한, Roche의 454 장비에서 만들어진 long read 데이터와, Illumina 장비에서 만들어진 paired-end read 데이터를 다운받을 수 있습니다.

http://www.clcbio.com/index.php?id=1290

사용자 삽입 이미지

Roche 454 데이터 불러오기
Roche의 데이터는 크게 두 가지 형태가 있습니다. 하나는 454 Flowgram 이라고 불리는 .sff 파일이고 다른 하나는 FASTA 포맷으로 서열과 그에 대응하는 quality 값이 각각 두 개의 파일에 분리된 형태가 있습니다. 여기서 사용할 데이터는 후자에 해당합니다. 먼저 다운로드 받은 Roche 데이터의 압축 파일을 풀면 3개의 파일이 생성됩니다. 하나는 이미 알려진 E.coli의 전체 genome 서열 파일(.gbk)이고 다른 두 파일에 NGS read 파일입니다. 이중에서 .fna 파일이 각 read의 서열이 있는 파일이고 .qual 파일은 각 서열의 quality 값이 순서대로 기록된 파일입니다. 그 리고 CLC Genomics Workbench 화면 위쪽의 Tool bar에서 'NGS import'라는 버튼을 클릭하면 다음과 같이 import 할 수 있는 NGS data의 종류가 나타납니다. 여기서 첫 번째에 있는 'Roche 454...‘를 클릭합니다.

사용자 삽입 이미지
검색위치에서 아까 압축을 풀었던 폴더를 찾아간 후 .fna 파일과 .qual 파일을 둘 다 선택한 후 'Next'를 클릭하고, 다음 화면에서 저장위치 선택 후 'Finish' 버튼을 클릭하면 import가 완료 됩니다. Roche의 장비에서 나오는 서열에는 adapter sequence라는게 존재합니다. 이 adapter 서열은 원래 시퀀싱을 한 sample에서 나온 서열이 아니기 때문에 제거해 주는 과정이 필요한데 '454 options'에 있는 'Remove adapter sequence' 옵션이 항상 체크되어 있어야 합니다.

사용자 삽입 이미지

Illumina 데이터 불러오기
이번에 불러올 Illumina의 데이터는 paired-end read입니다. 검색위치에서 Illumina 데이터의 압축을 풀어놓은 폴더를 찾아간 후 forward 방향의 read 파일과 reverse 방향의 read파일을 둘다 선택 하시고, ‘General options'에 있는 ’Paired reads'라는 옵션을 체크해 줘서 이 read들이 paired-end read임을 인식하도록 해줍니다. 'Paired read' 옵션이 선택되면 ‘Paired read orientation'이라는 항목에 대한 옵션을 조정 할 수 있도록 활성화가 되는데 여기서 insertion size를 조정해 줍니다. 그리고 ’Next' 버튼을 클릭하고 저장할 위치를 설정한 후 ‘Finish' 버튼을 클릭하면 import가 완료됩니다.

사용자 삽입 이미지

de novo assembly 돌리기
Import가 완료되면 다음 그림과 같이 Roche와 Illumina 데이터가 각각 하나씩 나타나게 됩니다. Illumina 데이터의 파일은 두 개였지만 import 가 되면서 하나의 데이터로 합쳐진 것을 볼 수 있습니다.

사용자 삽입 이미지
데이터 준비가 완료되면 'Toolbox'에서 'High-Throughput Sequencing'에 있는 'De Novo Assembly'라는 툴을 더블클릭하여 실행 시킵니다. 첫 번째 화면에서 assemble 할 read 데이터를 선택하고 'Next'를 클릭합니다.

사용자 삽입 이미지
그 다음 단계에서는 de novo assembly를 하는데 필요한 몇 가지 옵션 값들을 선택하도록 되어 있습니다. CLC Genomics Workbench는 de Bruijn graph 라는 알고리즘으로 assembly를 합니다. 이 때 원래 read들을 더 작은 단편들로 만드는데, 이 단편들의 길이를 word size라고 부릅니다. ‘Automatic word size’를 체크하면 데이터의 크기에 따라서 정해진 word size로 assembly를 하게 됩니다. ‘Guidance only reads’는 scaffolding에 사용할 read를 설정하는 옵션으로 mate paired-end read를 선택해야 합니다. ‘Contig length’는 assembly된 contig 서열의 최소 길이를 설정하는 옵션이고, 'Perform scaffolding'은 만들어진 contig들과 가이드로 사용할 paired-end read를 가지고 더 큰 contig인 scaffold 서열을 만들 것인지 설정하는 옵션입니다. de novo assembly 옵션들의 설정이 완료되면 ‘Next'를 클릭합니다.

사용자 삽입 이미지
다음 단계의 옵션들은 mapping에 관련된 옵션들입니다. de novo assembly 하고 나면 일단 contig 서열들만 만들어 지게 됩니다. 이 contig 서열을 reference로 하여 read들을 mapping 시켜서 각 contig가 어떤 read들의 조합으로 만들어진 것인지 알 수 있게 합니다. ‘Update contigs' 옵션을 체크하게 되면 contig에 read가 mapping되는 정보가 contig 서열에 반영되게 됩니다. ‘Create simple contig sequences'를 선택하고 ’Next'를 클릭하면 이러한 과정 없이 contig 서열 들만 만들어 내게 됩니다. 옵션 설정이 완료되면 'Next'를 클릭하고 저장위치를 설정한 후 'Finish' 버튼을 클리하면 de novo assembly가 시작됩니다.

사용자 삽입 이미지
de novo assembly의 결과 데이터를 열어보면 다음과 같은 테이블을 볼 수 있습니다. 이 테이블은 각 de novo assembly의 결과로 만들어진 각 contig들의 정보를 보여 주며, 생성된 contig의 수, 각 contig의 길이, 각 contig에 mapping된 read의 수, 각 contig의 평균 coverage와 같은 정보를 알 수 있게 됩니다.

사용자 삽입 이미지
각 항목을 더블클릭하면 새 데이터 탭이 열리면서 해당 contig와 그 contig에 mapping된 read들의 mapping view가 나타나게 됩니다. 가운데 가는 실선으로 이어진 굵은 파란색 선은 paired-end read를 나타내고 연두색 선은 forward 방향의 single read, 빨간색 선은 reverse 방향으로 mapping 된 single read를 의미합니다. 각 read에서 세로 방향으로 그어진 작은 선들은 contig 서열과 다른 base로 conflict라고 부르며 A, T, G, C 각 염기 마다 다른 색깔로 표시 됩니다. de novo assembly를 할 때 이런 conflict가 많을 경우 sequencing 에러가 높다고 의심해 볼 수 있으며, 혹은 heterozygous 종의 지놈을 시퀀싱 했다고 추정해 볼 수 있습니다.

사용자 삽입 이미지

Reference assembly를 해보자!
앞에서 reference assembly가 원본 사진을 보고 퍼즐을 맞추는 것과 비슷하다고 말했습니다. Reference assembly는 말 그대로 reference가 되는 원본 서열에 read들을 mapping시켜 만들어지는 consensus 서열을 얻는 것을 말합니다. 예를 들어 한우의 유전체를 시퀀싱 하여 얻어낸 read 데이터를 NCBI에 공개된 소의 reference 서열에 mapping 시켜서 한우의 유전체와 어떤 차이가 있는지 비교하는 분석을 수행할 수 있을 것입니다.

이번에도 Roche 454 데이터와 Illumina의 데이터를 이용하되, 함께 압축되어 있던 E.coli 지놈 서열(NC_010473)을 reference로 두고 mapping 시켜 보도록 하겠습니다. Reference 서열 파일, NC_010473.gbk는 마우스로 클릭앤드래그하여 ‘Navigation Area’에 옮기면 자동으로 import가 완료 됩니다.

사용자 삽입 이미지
'Toolbox'에서 'High-Throughput Sequencing'에 있는 'Map Reads to Reference'라는 툴을 더블클릭하여 실행 시킵니다. 첫 번째 화면에서 assemble 할 read 데이터를 선택하고 'Next'를 클릭합니다.

사용자 삽입 이미지
다음 단계에서는 reference가 될 서열을 선택해 줍니다. 이 때 여러 개의 reference 서열을 지정할 수 있습니다. 예를 들어 human의 NGS 데이터를 전체 염색체에 mapping 시키고자 할 경우 22개의 상염색체와 2개의 성염색체, 그리고 필요에 따라 mitochondrial 염색체 서열을 선택해야 합니다. 선택이 완료되면 ‘Next'를 클릭합니다.

사용자 삽입 이미지
다음 단계에서는 mapping에 관련된 옵션들을 선택합니다. 크게 long read에 대하여 설정해야 하는 옵션과 short read 대하여 설정해야 하는 옵션으로 구분됩니다.

사용자 삽입 이미지
다음 단계에서는 일반적인 결과 처리에 관련된 옵션들을 설정합니다. 'Add conflict annotation'을 클릭하면 consensus서열과 다른 reference 서열의 염기에 'Conflict' 라는 annotation을 입혀 주게 됩니다. reference 서열의 크기가 크고 sequencing depth가 높을수록 비교적 conflict가 많이 발생하게 됩니다. 이 때 이 옵션의 설정을 체크하면 conflict 부분을 가시화 하는데 상당히 많은 메모리를 필요하게 되어 결과를 보는데 많이 시간이 필요하게 될 수 있습니다. 다음 옵션인 'Conflict resolution'은 conflict가 발생한 부분의 consensus 염기를 어떻게 결정할 것인지를 설정하는 옵션입니다. 그 리고 'Non-specific matches', 즉 reference 서열에 특정 부분에만 붙지 않고 다수의 부분에 붙는 read를 ‘Random'하게 붙일 것인지 ’Ignore'(무시) 할 것인지 설정 한 후 'Next'를 클릭합니다.

다음 단계에서 분석결과에 대한 report나 mapping 되지 않은 read들의 목록을 생성할 것인지, 결과를 저장할 것인지, 분석 로그를 생성시킬 것인지 등의 옵션을 설정합니다. 그 다음 단계에서 저장위치를 선택 후, 'Finish' 버튼을 클릭하면 reference assembly가 진행 됩니다.

사용자 삽입 이미지
Assembly가 완료되면 아래 그림처럼 mapping view가 나타나게 됩니다. 2개 이상의 reference 서열을 선택한 경우, 이전에 de novo assembly의 결과처럼 각 reference 서열 마다 간단한 정보와 함께 table 형태로 결과가 나타나게 되며, 각 항목을 더블클릭해 보면 mapping view를 보실 수 있습니다. de novo assembly 결과와는 다르게 consensus 서열 위에 reference 서열이 보이는 것을 보실 수 있습니다. 그리고 reference 서열에 있는 'Gene', 혹은 ‘CDS'와 같은 annotation들도 함께 보실 수 있습니다.

사용자 삽입 이미지


* 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

  - codes@insilicogen.com

Posted by 人Co

2012/04/13 09:36 2012/04/13 09:36
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/106

문화가 아름다운 회사 Insilicogen.
지난 3월 30일은 (주) 인실리코젠의 Culture day 였습니다.
말로만 들어왔던 culture day에 직접 참여하게 되다니 오늘은 어떤 날이 될까? 라는 기대로 두근두근 했습니다.

이번에 선정된 영화는, '언터쳐블 : 1%의 우정' 입니다.
사용자 삽입 이미지
이 영화는 모든 것을 다 가진 상위 1% 지만, 정작 움직일 수가 없어 24시간 누군가가 돌보아주지 않으면 살아갈 수 없는 남자 필립(프랑수아 플루제 분)과 가진 것은 아무것도 없는 하위 1% 지만 즐기며 사는 방법을 아는 남자 드리스(오마 사이)의 우정에 대한 이야기 입니다.

사용자 삽입 이미지
상위 1% 이지만 누군가의 도움을 받을 수 없이는 살아갈 수 없는 필립은 24시간 옆에서 자신을 돌보아줄 간병인을 채용하기 위해 면접을 봅니다.

사용자 삽입 이미지
움직일 수 없는 몸도 답답하지만, 장애가 있는 사람으로 보는 주위 사람들의 시선을 더욱 견딜 수 없던 필립.
면접이 지겨워져갈 때 쯤, 문을 박차고 들어와 난 직장이 필요하지 않으니 생활보조금이나 받을 수 있게 서류에 싸인이나 해달라고 당당하게 요구하는 드리스를 보면서 필립은 흥미를 느끼게 되고, 지인들의 우려에도 불구하고 간병인으로 채용합니다.

사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지
자신의 불편함을 전혀 배려하지 않고 남들과 똑같이 대하는 드리스와 함께 하면서 드리스는 회피하기만 했던 세상을 마주보려고 노력하게 되고 정작 자기 자신을 가둬두기만 했던 필립은 틀을 깨고 나오면서 살아가는 재미를 찾게됩니다.
그리고 전혀 교집합이 없었던 두사람은 서로의 과거를 털어놓을 수 있는 우정을 나누게 됩니다.

하지만, 어느날 필립의 집으로 찾아온 드리스의 동생.
필립은 "언제까지나 내 옆에서 휠체어를 밀게 할 수는 없어"라며 드리스를 보내게 됩니다.
이렇게 둘은 서로의 세계로 다시 돌아가야만 하는걸까요?

서로 다른 세계에서 살아왔던 두 사람의 우정이 커지는 과정을 잔잔하게 보여줬던 이 영화는 자극적인 반전이 있는 것도 아니었지만, 시종일관 웃음을 주었고 넘치지 않는 감동을 주었습니다.

그리고 믿을 수 있는 누군가가 옆에 있어준다면 언제나 든든할 것 같다는 생각을 새삼 하게 만들어준 영화였습니다.

사용자 삽입 이미지
영화관람을 마치고 다함께 한 컷!!!
저녁장소 예약 시간 보다 영화가 조금 일찍 끝나서, 메타폴리스를 잠시 둘러볼 수 있었습니다.

사용자 삽입 이미지
드디어 식사시간! 영화관 아래층에 있는, "V" 음식점에서 저녁식사를 했습니다.
다행히도 외근 등으로 영화 관람에 참석을 못하신 분들도 저녁 식사 때는 참석하셨습니다.
오랜만에 모두들 모이셔서 북적북적한 분위기였고, 화기애애한 분위기에서 담소를 나누며 친목을 다질 수 있었습니다.

사용자 삽입 이미지
이날은 새롭게 인실리코젠 일원이 된 사람들은 환영해 주는 자리이기도 했지만,
지난 1년여를 함께 했던 KM 사업부의 승헌씨와 작별 인사를 하는 아쉬운 날이기도 했습니다.
앞으로 새로운 시작을 하게될 승헌씨에게 좋은 일만 가득했으면 좋겠네요.

뒤에서 고생하신 분들과 지원해 주신 사장님 덕분에 인연의 소중함을 느낄 수 있었고
즐겁고 행복한 하루를 보낼 수 있었던 3월의 culture day!

다음 Culture day도 기대해 봅니다.

작성자 : Codes 사업부 박혜선

* 사진출처
: 네이버 영화(http://movie.naver.com/movie/bi/mi/photoView.nhn?code=87566)

Posted by 人Co

2012/04/04 11:05 2012/04/04 11:05
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/105

지난 3월 23~24일, 차세대바이오그린 21 동물유전체육종사업단 내의 연구자들을 대상으로 두번째 "오믹스 정보 분석시스템 활용" 워크샵을 개최하였습니다. 작년 10월에 진행되었던 NGS 데이터의 분석 응용에 대한 첫번째 워크샵에 이어서 두번째 워크샵은 타겟 유전자의 네트워크 분석에 대한 내용으로 준비하였습니다. 한경대학교 산학협력관에서 진행된 이번 워크샵은 Pathway Studio 프로그램을 활용하여 참석자 모두가 준비한 노트북으로 실습도 교육도 함께 진행되었습니다.

사용자 삽입 이미지

첫째날 진행된 교육은 Pathway Studio 프로그램의 기본적인 구성에 대하여 이해하고 관심 유전자 등을 검색하여 유전자 리스트의 Pathway 분석방법을 배웠습니다. 돼지 등지방 두께를 조절하는 13개 유전자 중에서 fam73a, negr1, ttll7 등 3개의 유전자가 흥미롭게도 사람의 복부 및 견갑골 피하지방의 원인 유전자임이 밝혀진 연구결과를 바탕으로 해당 유전자를 예제 데이터로 활용하여 분석하니 더 유용한 결과를 확인할 수 있었습니다.

사용자 삽입 이미지

둘째날 교육은 MedScan을 이용한 텍스트마이닝과 expression 데이터 분석에 대한 주제로 진행되었습니다. PubMed에 서 원하는 논문들을 텍스트마이닝을 통하여 그 관계를 pathway로 분석할 수 있었으며, 1000편이 넘는 논문의 abstract를 짧은 시간 안에 읽어내는 기능에 모두가 감탄하였고 microarray 데이터의 발현량과 네트워크 정보와의 맵핑을 통하여 타임코스별 네트워크 양상도 확인하는 분석도 함께 수행하였습니다.

사용자 삽입 이미지

이 번 워크샵을 통하여 1차원적인 염기서열 분석 이후에 최종적으로 관심유전자의 네트워크 분석은 앞으로 더욱 그 중요성이 높게 평가되기에 더 뜻 깊은 시간이었고 바쁜 시간 내어주신 참석자분들께도 하시는 연구에 조금이라도 도움이 되셨길 바랍니다.

Posted by 人Co

2012/03/30 11:18 2012/03/30 11:18
Response
No Trackback , 1 Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/104


Next Generation Sequencing?

                                                                                                                           DNA 염기서열의 정보는 그 동안 sanger에 의해 개발된 방법을 자동화하여 DNA 가닥에서 A, T, G, C의 순서를 빠르고 정확하게 읽어내는 캐필러리 장비(Sanger sequencing, 1세대 시퀀싱)를 이용하여 분석하였고 유전자의 발현, 다양성 및 상호작용 등의 정보로서 활용할 수 있어 굉장히 중요합니다.

따 라서 많은 염기서열을 저렴한 비용에 수행할 수 있는 기술의 필요성이 증가되면서 차세대 염기서열 분석 기술(Next Generation Sequencing, 2세대 시퀀싱)을 이용한 플랫폼들이 소개되어, 생명과학 분야에 있어서 특히 유전체학 분야에 큰 영향을 끼치고 있습니다.

또 한 현재 염기서열 분석 기술은 더 짧은 시간에 더 적은 비용으로 더 많은 염기서열을 결정할 수 있는 플랫폼 장비들이 계속적으로 탄생되어 시퀀싱 chemistry 차이에 따라 차세대(2세대), 3세대, 4세대로 분류하여 부르기도 하면서 비약적인 발전을 하고 있습니다.

NGS 데이터 분석 도구

                                                                                                                               현재 생산되는 NGS 데이터는 장비가 점점 발달함에 따라 한 번 플랫폼을 run하여 얻는 데이터양만 해도 어마어마합니다. 따라서 이러한 데이터를 한꺼번에 분석하려니 그에 맞는 메모리 및 스토리지 등의 하드웨어 사양의 고려와 또한 생물정보를 알고 있지 않는 이상 명령어 방식의 커맨드라인의 툴을 이용하기란 쉽지 않습니다.

NGS 데이터의 분석 단계는 크게 pre-processing, assembly 그리고 assembly를 이용한 이차 분석으로 나누어집니다. Pre-processing 단계에서는 다양한 플랫폼으로부터 single reads, long reads, paired-end reads 등 시퀀싱된 reads의 정보를 assembly 단계에 적용하기 위한 작업을 수행하고, 분석의 방향과 목적에 맞는 assembler를 선택하여 assembly를 수행하게 됩니다. 이 후 assembly 결과를 이용한 variation 분석, expression 분석, binding site 분석 및 전체 정보에 대한 브라우저 구축 등 다양한 이차정보를 분석하게 됩니다.

이 러한 분석 단계들을 하나의 툴에서 모두 진행하고 그 결과를 그래픽하게 확인할 수 있다면 NGS 데이터를 다루는 생물학자들이 무척이나 수월하게 연구를 수행할 수 있을 것입니다. 이러한 목적으로 개발된 NGS 데이터 분석 도구 중의 하나인 CLC Genomics Workbench를 소개하고자 합니다.

CLC Genomics Workbench의 응용

                                                                                                                            CLC bio사의 CLC Genomics Workbench는 그래픽 인터페이스 기반의 NGS 데이터를 분석하기 위한 데스크탑 솔루션입니다. 현재 Roche 454, Illumina, Applied biosystems, Helicos, Ion torrent 등 다양한 회사의 NGS 플랫폼 장비에서 생성되는 모든 시퀀싱 데이터의 분석을 지원합니다. 또한 기존 sanger 데이터를 비롯하여 각 플랫폼에서 제공하는 다양한 데이터 셋을 hybrid하여 assembly를 수행하고 그 결과를 그래픽한 결과로 확인할 수 있습니다.
                                                                                                                  
사용자 삽입 이미지

또한 annotation 정보가 있는 reference 서열을 기준으로 하여 assembly를 수행할 경우, 해당 유전자 구조도 함께 확인할 수 있습니다.


사용자 삽입 이미지

CLC Genomics Workbench에서 제공하는 assembly는 SIMD(Single Instruction Multiple Data) 기술을 적용하여 병렬연산으로 막대한 양의 NGS 데이터를 빠른 속도로 분석할 수 있어 유전체 크기에 관계없이 분석이 가능합니다. 단 많은 데이터를 분석할 시 고사양의 하드웨어 성능도 필요합니다.

이 렇게 NGS를 통하여 전체 염기서열 결정 및 re-sequencing을 통한 유전체 상의 여러 가지 변이 연구가 활발해졌으며 보통 NGS를 이용한 variation 연구는 유전체 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과 정렬을 통하여 비교하고 있습니다. CLC Genomics Workbench는 일차적으로 assembly를 수행하고 이 후 서열 간의 비교 분석을 통한 SNP 및 small Indel 분석을 진행할 수 있습니다.

사용자 삽입 이미지

또한 NGS는 transcriptome 분야를 포함하여 많은 부분에서 PCR이나 microarray 기술을 대체하고 있으며 특히 RNA-Seq은 한 번의 시퀀싱으로 수 많은 reads를 얻는 높은 coverage를 가지기 때문에 단 시간에 적은 비용으로 전체 transcriptome 서열을 결정할 수 있는 이점이 있습니다. CLC Genomics Workbench는 annotation된 reference 유전체 서열과 mRNA 시퀀싱 reads들을 바탕으로 새로운 엑손의 발굴뿐만 아니라 유전자 발현 레벨을 계산할 수 있습니다.

사용자 삽입 이미지

그리고 CLCL Genomics Workbench에서는 단백질에 binding된 DNA서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site를 동정하는 방법인 ChIP-Seq 분석을 통하여 genome wide epigenetic study가 가능할 수 있도록 지원하고 있습니다.

사용자 삽입 이미지

이 블로그에서는 컴퓨터를 잘 모르는 생물학 연구자도 쉽게 사용 할 수 있는 소프트웨어인 CLC Genomics Workbench를 이용하여 NGS 데이터 분석 방법을 소개하고자 합니다. 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

codes@insilicogen.com

많은 생물학 연구자 분들에게 NGS 분석 방법에 대한 이해를 도울 수 있으면 좋겠습니다.

Posted by 人Co

2012/03/29 17:22 2012/03/29 17:22
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/103

2004년에 설립된 (주)인실리코젠은 수많은 생물정보 데이터들의 상호간 의미를 연결하고, 이를 통해 새로운 지식을 창출하는 흐름에 부응하기 위해 세워진 회사입니다.

사람을 중시하는 ‘人Co’의 비주얼 아이덴티티는 2012년에 등장하였지만, 의미는 이미 회사의 로고 제작 컨셉안에 숨겨져 있었습니다.

Green컬러와 Blue컬러로 BT와 IT분야의 융합을 뜻하였으며, 심벌의 모양은 염색체(chromosome)를 형상화하여, 인간의 근원을 상징함으로써, 사람을 중시한다는 의미를 내포하였습니다.

2007년부터 기업 아이덴티티 정립을 위한 노력은 시작됩니다. 비즈니스의 약진과 경쟁우위를 확보하기 위해 디자인팀을 신설하고 디자인적 사고를 통한 비즈니스 전략을 펼치는 디자인 경영을 적극 도입하게 됩니다. 그 시작은 시각매체의 컨셉을 일관성있게 작업하는 것이었습니다. 온라인 매체와 오프라인 매체의 시각적 표현구도와 표현방법을 통일하였습니다. (초창기의 기업 슬로건: Bioinformatics leads your way)





2009년에는 Bioinformatics is Insilicogen. Insilicogen is Bioinformatics 라는 슬로건 아래 회사명을 다시 한번 강조하여 생물정보 컨설팅 전문기업으로서의 의지를 다졌습니다. VI의 목적을 생물정보 컨설팅 기업의 이미지를 부각시킴과 동시에 고객에게 친근감과 차별화된 감성을 전달하는 것에 두었습니다.

질감을 살린 배경과 2007년에 이어 픽셀을 상징하는 Square 모양을 2.5D로 표현하고, 생물정보와 관련된 오브젝트를 조합하여 인실리코젠의 I를 강조하였습니다.

설립 초창기엔 낮은 인지도를 감안하여 신뢰감 상승을 위한 Blue계열의 color를 주로 사용하였으나, 2009년에는 회사소개 부분에서는 Green을 사용하여 보다 따뜻하고 친근감있는 기업이미지를 부각시켰고, 제품소개 부분에서는 Blue컬러를 사용함으로써 인실리코젠의 컬러는 두가지임을 인지시키고자 하였습니다.



2010년에는 좀 더 친숙하게 다가가면서도 동종업계와의 차별화를 위해 일러스트를 종이에 그리는 수작업으로 표현하였습니다.



2011년에는 다른 해와는 달리 로고의 모양을 이용하였습니다. 나누거나, 겹치거나, 확대하여 단순한 구조를 선택하였지요.



기업 아이덴티티란 기업의 현재 상태를 분석하였고 목표에 대한 의지를 확인한 후 구성원들이 공유할 수 있는 명확한 비전을 설정하여 기업활동을 효과적으로 전개함으로써 대내외적으로 자신의 본질을 확증하는 일체의 행위를 말합니다.

이러한 관점에서 2012년에는 기업 아이덴티티를 재정립합니다.

비전, 전략, 철학, 제품 및 서비스 등 기업 아이덴티티 구성요소들을 재정립하고, 기업문화와 조직문화의 차원에까지 확대하여 정비합니다. (人Co 가치체계)


人Co란 사람을 중심(Core)으로, 사람과 컴퓨터(Computer)에 의해, 배려(Consideration)와 소통(Communication)을 통한 새로운 문화를 창조하려는 (주)인실리코젠의 브랜드 가치를 의미합니다. 이를 전직원이 공유함으로써 미래 전략 지향형의 (주)인실리코젠임을 다시 한번 다지게 되었습니다.



이 모든 결과는 기업의 브랜드를 관리한다는 목적으로부터 시작되었습니다.

전체적으로 통합된 디자인과 변화를 허용하면서도 전체적으로 일관성을 유지하려는 아이덴티티 디자인 전략으로부터 나온 것입니다.

조직전체가 한 방향으로 움직여 고객들과 신뢰관계를 구축하도록 하고 올바른 커뮤니케이션으로 기업의 신뢰도와 고객 선호도를 높여 기업의 성과를 극대화하고자 앞으로도 지속적인 노력을 할 것입니다.


우리 기업의 비쥬얼 아이덴티티를 관리하고 있는 Insilicogen Descign팀명은 고객에게 조금 생소하게 들릴 수도 있습니다. Descign 팀은 Design + Science + Management를 결합하여 전문적이고, 차별화된 컨셉으로 연구소 및 기업의 온오프라인 통합 아이덴티티를 구축하고 있습니다. 기업의 발전과 함께 할 수 있는 디자이너라 행복한 Descign팀의 활약, 기대하셔도 좋습니다.

글/사진:Descign팀 정은미

Posted by 人Co

2012/03/12 15:17 2012/03/12 15:17
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/102

사용자 삽입 이미지

Posted by 人Co

2012/01/13 17:33 2012/01/13 17:33
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/101

문화가 아름다운 회사, (주)인실리코젠에서는 송년회 분위기도 색다르답니다♪

2011 년을 보내면서 우리 人Co인들이 다시 뭉쳤습니다. 한 달 이상 전부터 준비했던 우리의 송년회는 뮤지컬을 함께 감상하는 것으로 시작되었습니다. 송년회가 다가올수록 두근두근 하던 가슴이 당일에는 그야말로 최고치! 우리는 설레는 마음을 안고 잠실에 있는 샤롯데씨어터로 향했습니다. 평일임에도 불구하고 조금씩 차가 막힐 때마다 뮤지컬 시간을 놓칠까봐 조마조마하기도 하고, 서로의 얼굴에서는 웃음이 떠나지 않는 순간순간이 너무 행복한 시간이었습니다.
 

30 년의 명성에 걸맞게 “캣츠”는 정말 최고였습니다. 1부는 스토리에 대한 이해가 부족해서 지루하다고 하시는 분들도 있었지만 2부는 모두가 만족했던 공연이었습니다. 특히 표정 연기와 발레 동작이 압권이었던 마법사 미스토펠리스와 그의 절친, 엉덩이를 자유자재로 돌리던 럼텀터거, 그리고 몸매가 이~뻐 스핑크스 고양이 카산드라가 가장 인기였습니다. 역시나 미스토펠리스는 발레단 출신이더군요. 노래를 하지 않고도 뮤지컬 무대에서 단연 돋보일 수 있다는 것을 보여주었습니다.

나중에 검색해보니 미스토펠리스가 납치되었던 선지자 고양이 올드 듀터러노미를 마법으로 구해냈다고 합니다. 조금만 알고 갔더라면 더 즐길 수 있었을 텐데, 아쉬움이 남습니다.



뮤지컬 보느라 시장함도 잊었...었나요? 끝나자마자 몰려오는 배고픔에 우리는 급히 다음 장소로 향했습니다. 메뉴는 바로 나라사랑 한우! 역시 우리는 그저 밥만 먹는 게 아니었습니다. 한 해 동안 고생한 서로를 위하여 미리 준비해둔 선물을 교환하는 시간을 가졌습니다. 저는 아실 분들은 다 아실 손이사님의 사랑이 듬뿍 담긴 선물?!!을 받았답니다. 이사님! 너무 감사합니다!!

 

우 리 人Co분들은 어찌나 아이디어가 넘치시는지 30명이 넘는데 겹치는 선물이 거의 없었습니다. 특히 조팀장님의 깔깔이는 킹 오브 센스!! 사장님의 용띠를 향한 무한 사랑도 볼 수 있었습니다. 2012년 임진년(壬辰年) 흑룡의 해에 걸맞게 우리 (주)인실리코젠도 드높이 비상할 것 같은 좋은 예감이 팍팍 듭니다!!

 

다음으로 향한 곳은 근처의 노래방!! 혹자는 1년 중 가장 즐거운 시간을 보냈다고 하고, 서로의 새로운 모습을 발견했다고도 했습니다. 놀 땐 놀고 일할 땐 일하고, 하나를 해도 확실한 우리 人Co인이 너무 멋지고 자랑스럽습니다.

혼 자가 아니라 함께이기에 가능했던 지난 2011년과 더 기대할 수 있는 2012년을 바라보며 감사의 마음을 나누었습니다. 또 같은 비전을 공유했습니다. 2012년 역시 서로를 향한 사랑과 배려, 신뢰를 바탕으로 도약하는 한 해가 되기를 소망합니다. 2012년 송년회도 기대하면서 1년간 힘내보아요!
 


한 사람의 꿈은 꿈으로 남지만, 만인의 꿈은 현실이 된다.
 

  • 글:정명희 / 디자인&편집:조아영 / 사진:이성찬,이승헌 / 동영상:이승헌

  • 사진출처 : 뮤지컬 캣츠 공식 홈페이지 (http://www.musicalcats.co.kr)


 


 

Posted by 人Co

2012/01/05 15:55 2012/01/05 15:55
Response
No Trackback , 1 Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/100



« Previous : 1 : ... 24 : 25 : 26 : 27 : 28 : 29 : 30 : 31 : 32 : ... 38 : Next »