지난 9월 30일, (주)인실리코젠의 12번째 생일을 맞아 전 직원이 한 자리에 모였습니다.

조관희 팀장님의 매끄러운 진행을 시작으로 사장님의 기념사를 듣는 시간을 가졌습니다.



다음으로 장기 근속자 수상이 이어졌습니다. 5년 근속으로 송하나 주임과 이경표 주임(필자), 10년 근속으로 박병준 선임까지 총 3명이 수상을 하게 되었습니다. (아쉽게도 박병준 선임님이 참석하지 못해 경영지원실의 이규진 선임님이 대리 수상해 주셨습니다.)



대신! 박병준 선임님의 깜짝 영상편지로 한층 분위기가 무르익어 갔습니다.



그럼 수상하신 분들의 소감을 들어볼까요?

박병준 선임(10년 근속) : 함께 자리하지 못해 아쉬웠습니다. 만약 자리를 같이했더라면 눈물을 보였을 수도 있어 다행이라는 생각도 듭니다. 30대를 인실리코젠에서 보냈는데 작은 사무실에서부터 같이 시작하여 용인에 큰 사옥을 얻기까지 함께 하여 뿌듯합니다. 마지막으로 아버지께서 30년 장기근속 때 가족들도 같이 초청받았던 것처럼 나중에 저도 그렇게 될 수 있기를 바랍니다. 감사합니다.

송하나 주임(5년 근속) : 10월 1일은 저와 인실리코젠의 생일이기에 두 배로 의미있고 뜻깊은 날입니다. 많은 분의 노력과 수고로 이 자리에 있게 되었습니다. 앞으로 더 발전하는 (주)인실리코젠이 될 수 있도록 저 또한 노력하겠습니다.

이경표 주임(5년 근속) : 6년이란 시간 동안 (주)인실리코젠과 함께하며 많은 분의 도움으로 성장할 수 있었습니다. 모든 분께 감사드리며 인코의 자랑이 될 수 있도록 노력하겠습니다.

다음으로 위키(Wiki)기반의 생물정보분야 커뮤니티인 人CoDom(인코덤, http://incodom.kr)을 위해 2년 넘게 고생하신 MD분들의 퇴임식이 진행되었습니다. 2년이 넘는 시간 동안 많은 노력을 해주셨던 MD분들 덕에 인코덤이 훌륭하게 만들어질 수 있었던 것 같습니다. 오랫동안 고생 많으셨습니다. 다음 2기 MD분들도 멋진 활약 기대해봅니다.



생일 축하자리에서 케익 컷팅이 빠질 수 없죠! 사장님, 장기근속 수상자들과 함께 생일 축하 노래를 부르며 모두 한마음으로 인실리코젠의 생일을 축하하였습니다.



모든 행사를 마친 후 다 같이 점심 식사를 하기 위해 이동하였습니다. 곧 품절남이 되는 강전모 사원의 건배사로 시작하였습니다. (전모씨, 결혼 축하드려요!) 기분 좋은 식사와 함께 12회 창립 기념일 행사를 마치게 되었습니다.

인실리코젠 입사 이후 6번째 창립기념일을 보내며 소중한 인연들이 많이 생겼습니다. 앞으로도 人Co와 함께 나아갈 수 있기를 바래봅니다.


작성자 : (주)인실리코젠 R&D센터 SD그룹
이경표 주임 개발자

Posted by 人Co

2016/10/14 09:47 2016/10/14 09:47
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/225

웹으로 계통수(Phylogenetic Tree) 그리기

웹으로 계통수(Phylogenetic Tree) 그리기
쉽게 따라 하는 계통수 웹 구현

이번 블로그에서는 생물정보에서 자주 쓰이는 계통수를 웹으로 그리는 법에 대해 포스팅 하겠습니다.

계통수(系 統樹, phylogenetic tree)란 생물 진화의 결과, 여러 종이나 아종 등 분류군 사이에서 나타나는 표현 혹은 유전적 특징의 차이를 기반으로 친연 관계를 그림으로 나타낸 것으로, 이를 통해 생물의 진화 과정을 나무의 줄기(root)와 가지(node)의 관계로 도식화하여 표나 그림으로 표현하여 보는 사람에게 직관적으로 그 의미를 알 수 있게 합니다. 계통수의 알고리즘과 분석방법등 더 자세한 내용은 생물정보 분야 관련 wiki인 人CoDom에서의 찾아볼 수 있습니다.( http://www.incodom.kr/계통수 )

계통수를 그릴 때 보통은 파이썬(Python)이나 펄(Perl)을 이용하여 정적인 이미지로 표현합니다. 하지만 본격적인 어플리케이션을 만들려면 웹 환경에 더 최적화된 방법이 필요한데 생각보다 간단한 문제는 아닙니다. 그래서 이번에 "최대한 쉽게, 웹 표준에 맞추어, 웹 기술만으로" 구현 하는 것에 초점을 맞춰 일반적인 웹으로 계통수 구현이 어디까지 가능한지 알아보도록 하겠습니다.


<그림1: 계통수[phylogenetic tree,系統樹] (출처:계통수)>


우선 보통은 계통수를 어떻게 그리는지 찾아보았습니다. 아래 목록 <그림2>과 같이 다양한 소프트웨어들이 사용되고 있었습니다. 이중에서 웹(Web) 용이고 Open Source 이면서 특정 기술에 의존적이지 않은, 웹 표준에 근접한 컴포넌트로 범위를 좁히고 <그림3>, 그중 적절한 한개를 실습을 위해 선정했습니다. <그림4>


<그림2 : List of phylogenetic tree visualization software>


<그림3 : A Javascript Library for Visualizing Interactive and Vector-Based Phylogenetic Trees on the Web>


<그림4 : http://www.jsphylosvg.com>

이제 계통수를 그려보겠습니다. 준비물은 계통수를 그릴 데이터, 그리고 메모장 정도입니다. 웹서버도 필요 없고, 설치 할 어떠한 프로그램도 필요 없습니다. 메모장을 열고 다음과 같이 입력합니다. 기본 HTML 틀입니다.



다음은 위에서 작성한 <BODY> 영역에 다음의 3가지를 입력하고 확장자를 html로 하여 저장합니다. (ex. tree.html). (1)계통수를 그릴 데이터의 포맷 종류,(2) 데이터 입력란, (3)결과가 나타날 영역을 각각 Radio 버튼, TextArea, Div로 설정했습니다. 여기서 미리 알아두어야 할 사항은 계통수를 그릴 때 사용하는 데이터가 일정한 포맷을 가지며 각 포맷의 형식에 따라 약간씩 옵션을 맞춰줘야 한다는 것입니다. 이제 UI 부분은 마쳤습니다. 포맷에 대한 상세한 정보는 각각 사이트에서 확인할 수 있습니다.

tree.html




다음은 실제 계통수를 표현 하기위한 작업을 합니다.www.jsphylosvg.com에 방문하여 사이트 우측하단에 위치한 최신 라이브러리를 다운로드 받습니다. 위에서 작성한 tree.html과 같은 폴더에 다운로드 받은 라이브러리를 압축을 풀어 함께 넣습니다. <그림5>
jsphylosvg 는 raphael.js를 기반으로 jsphylosvg.js를 구현한 라이브러리라는걸 파일 구조만 봐도 알 수 있습니다. raphael. js은 웹 환경에서 이미지나 그래픽을 표현하기 위해 고안된 javascript 기반의 라이브러리로써 우리가 지금 표현하고자 하는 기능에 가장 최적화된 라이브러리라고 생각됩니다. 무엇보다 웹 기반에서 벡터이미지를 핸들링하는 데 필요한 기능들을 제공해주고 있습니다.


<그림5 : tree폴더 구성>

이제 그리기 함수(drawTree())를 작성하고 버튼의 클릭 이벤트에 등록합니다.



드디어 계통도를 그리는 코드가 완성되었습니다. 문서를 저장하고 이 문서를 브라우저로 열어봅니다. 실행된 화면에서 데이터 포맷을 선택하고 계통수 데이터를 입력한 후 그리기 버튼을 클릭하면 계통수가 그려지게 됩니다.



<그림6 : Newick포맷을 이용한 Phylogenetic Tree 그리기>

기본 형태의 계통수 그리기는 완성되었습니다. 우린 방금 Newick 포맷의 데이터를 사용하여 단순한 구조의 계통수를 그렸지만, 현재 웹에서 추구하는 View는 좀 더 풍성한 표현을 요구합니다. 그렇다면 우린 다시 데이터 포맷부터 짚어 보아야 합니다. Newick은 계통수를 그리기 위한 기본 데이터로만 구성되어 있으므로 풍성한 표현을 위해서는 확장된 데이터를 가져야만 합니다. jsphylosvg에서는 phyloXML로 이 부분을 풀어갑니다.

추가 정보를 담은 phyloXML 포맷의 데이터가 jsphylosvg 에서 제시한 기본설정으로 얼마만큼의 표현이 가능한지 확인해 보았습니다. <그림7>

<그림7 : phyloXML포맷을 이용한 Phylogenetic Tree 그리기>

phyloXML로 추가적이 데이터를 설정한 후 동작해보니 tree 자체에는 주석, 웹링크, 폰트, 컬러 정도가 설정 가능했으며 각 항목별 tree node에 대한 표현은 chart 기능으로 확장되어 몇 가지 다른 차트와 각 차트에 대한 라벨, 컬러 등이 조정 가능했습니다.

처 음 작성을 시작할 때 찾았던 필요 요소를 모두 만족하는가 싶었지만, 실제 적용해 보니 아쉬운 부분이 많이 보였습니다. 이제 부족한 기능의 보완과 더 높은 수준의 기능확장은 jsphylosvg.js를 실제로 다루면서 활용하기에 달려있는 듯 합니다.

웹으로 계통수를 그려보려는 분들에게 응원을 보내며 저의 쉽게 따라 하는 계통수 웹 구현은 여기까지입니다.
감사합니다.


작성자 : BS실 SC팀 박준규 팀장

Posted by 人Co

2016/03/04 16:08 2016/03/04 16:08
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/201

집단지성의 힘과 위키

1989년, 알래스카 해상에서 5,300 갤런의 원유를 싣고 가던 유조선이 좌초되었습니다. 유출된 원유의 양은 1,100만 갤런으로 당시까지 발생한 해양 원유 유출 사고 중 사상 최악으로 기록되고 있습니다(참고: 엑슨발데스 원유 유출 사고, 현재 최악의 사고는 딥워터 허라이즌 기름 유출 사고). 이 사고로 일대에 서식하던 바다새, 해달, 수달 등 해양생물이 집단 폐사하였고, 현재에도 그 영향으로 그 지역의 각종 해양 동물 개체 수가 계속해서 감소 하고 있다는 보고가 있습니다.

당시 하루 1만명이 넘는 사람들이 방제에 동원되었고 1년동안 20억 달러의 천문학적인 비용을 들여 사고수습에 힘썼습니다. 하지만 유출된 기름은 젤리상태로 물과 엉겨 붙어 분리가 어려웠고 심각한 환경오염을 일으켰습니다. 결국 이 문제는 17년이나 지속되었습니다.


(좌) : 원유유출으로 피해를 입은 동물들 / (우) : 원유유출 범위 (출처 : 구글)

이를 고민하던 국제기름 유출 연구소(OSRI)는 '이노센티브(InnoCentive)' 라는 한 기업에 이 문제를 의뢰하게 됩니다. 이노센티브는 전 세계의 수많은 사람들에게 문제를 공유하고 해결책을 찾아주는 '문제의 집단 해결' 서비스를 제공하는 전문기업입니다. 문제를 올리자 전세계의 수많은 사람들의 아이디어가 올라왔고, 마침내 단 3개월 만에 한 시멘트회사 엔지니어의 아이디어로 17년간 해결하지 못했던 문제를 해결하게 됩니다.

대중은 전문가보다 똑똑하다.

'군중의 지혜(wisdom of crowd)'의 저자 제임스 서로위키(James Surowiecki)는 집단은 지능적일 수 있고, 심지어 그 집단 안의 가장 똑똑한 사람보다도 더 똑똑할 수 있다고 말합니다. 실제로 그는 유리병 안의 구슬 수를 예측전문가와 다수의 비전문자에게 예측하도록 했는데 비전문자 여러명의 결과가 실제 구슬의 수에 가까웠다고 합니다.

우리는 이미 페이스북과 트위터 등을 통해 개개인이 모여서 만들어내는 대중의 강력한 힘을 느끼고 있습니다. 문제가 생겼을 때 많은 사람들이 도서관이나 전문가를 찾는 대신 인터넷 커뮤니티에 질문을 올리고 그 답을 찾습니다. 개인의 힘은 미미하지만 개인이 모이면 전문가보다 더 큰 힘을 발휘하는 것, 이것이 바로 집단지성 입니다.

우리 주변에서 집단지성을 이용한 사례들을 쉽게 찾아 볼 수 있습니다. 4천만명이상의 사용자를 보유하고는 네이버의 지식교류서비스 '지식iN' 또한 그 중 하나로, 무엇이든 궁금한것을 올리면 이내 여러 사람들의 답변이 달리는 것을 볼 수 있습니다. 소프트웨어/하드웨어의 소스코드를 공개하고 누구나 수정할 수 있도록 한 '오픈소스' 또한 집단지성을 이용한 예 입니다.

위키(Wiki), 그리고 人Co 인들이 느끼는 집단지성의 힘

집단지성의 힘을 잘 활용한 예 중 하나는 위키(Wiki)시스템이라고 할 수 있습니다. 위키는 웹브라우저를 이용해서 사용자 누구나 내용을 쉽게 추가하고 수정할 수 있는 웹사이트를 말 합니다. 위키는 한사람의 의해 만들어지는 문서가 아니기 때문에 많은 사용자의 지속적인 협력이 있어야 더욱더 휼륭해지고 풍성한 웹 사이트가 됩니다. 전 세계의 많은 사람들이 이용하고 있는 위키피디아(http://wikipedia.org)가 대표적인 예라고 할 수 있습니다.

사용자 삽입 이미지
위키를 창안한 워드 커닝엄 (출처 : 위키피디아)

(주)인실리코젠에서도 수 년간 사내 인트라넷으로 위키시스템을 사용하고 있습니다. 人Co인들 모두 개인이 모여 만들어 내는 큰 힘을 직접적으로 느끼고 있습니다. 업무 중 일어나는 모든 일들이 사내위키를 통해 기록되고 공유되며, 누구든 자유롭게 자신의 의견을 추가 합니다. 이렇게 만들어진 인실리코젠의 위키는 전문가보다 더 전문적인, 그리고 실질적인, 생생한 정보들이 축적되어있고 지금도 만들어지고 있습니다.

전 세계 수많은 사용자들의 참여로 위키피디아가 매우 휼륭한 방향으로 발전할 수 있었지만, 특정분야의 전문지식을 얻고자하는 사람들에게는 여전히 위키피디아에서 얻을 수 있는 정보는 한계가 있습니다. 예를 들어, Biopython의 역사와 주요 특징에 대한 정보는 찾을 수 있으나, 좀 더 세부적으로 Biopython의 SeqIO 모듈이 제공하는 기능과 사용법에 대한 내용들은 추가로 다른 책이나 웹 사이트에서 찾아봐야 합니다. 더군다나 영어와 한국어 간 위키 자료의 양 차이도 매우 커 대부분의 문서는 영어로 되어있습니다. 이러한 한계를 극복하고자 만들어진 전문분야 위키 중 하나로 생물정보분야의 人CoDom (인코덤, http://incodom.kr)이 있습니다.



마치며

한편에서는 집단지성의 한계와 신뢰성에 대해 지적하고 있습니다. 구성원의 의지와 참여도가 낮으면 당연히 결과물의 질이 낮아질것이고, 일부 사용자의 악의적인 활동을 통제하는 것 또한 쉽지 않습니다. 근본적으로 참여자들의 지식이 편향되어 있다거나 다른 사람의 의견에 쉽게 동조하는 경향이 있다면 이 또한 신뢰할 수 없는 결과물을 만들어내는 요인이 됩니다. 실제로 미국 국립과학원 회보(PNAS)에 실렷던 한 연구에서는 질문을 할때, 다른 이의 대답을 알려주었을 경우가 그렇지 않을 경우에 비해 대답의 다양성이 줄었다는 보고가 있습니다.

그럼에도 불구하고 집단지성을 무시할 수 없는 것은 기술의 발달로 점점 더 쉽게 자신의 의견을 공유 할 수 있는 환경이 되고있기 때문입니다. 대중이 만들어 내는 집단지성의 힘은 그 누구도 부인 할 수 없습니다. 그러므로 집단지성의 한계와 특징를 알고 올바르게 활용한다면 누구나 전문가 안부러운 '지성'을 가질 수 있을 것입니다.



작성자 : 데이터사이언스센터 솔루션그룹
김지예 개발자

Posted by 人Co

2015/11/30 09:29 2015/11/30 09:29
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/194

ISMB / ECCB 2015 학회 참석기

Introduction
다시 찾은 23회 ISMB, ECCB와 함께하다.



ISCB(International Society for Computational Biology)에서 주최하는 ISMB(The 23rd Annual International Conference on Intelligent Systems for Molecular Biology)가 2015년 7월 11일부터 14일까지 4박 5일 동안 아일랜드 더블린의 Dublin Convention Centre에서 개최됐다. 이번 ISMB는 ECCB(The 14th Annual European Conference on Computational Biology)와 함께 열려 더욱 풍성한 내용을 담은 교류의 장이었다. ISMB와 ECCB는 bioinformatics와 computational biology, genomics, computational structural biology는 물론 system biology를 포함한 공통의 관심사를 갖는 국제학회이기 때문에 2004년부터 매 2년 마다 학회를 함께하고 있다. 2017년에 열릴 ISMB/ECCB는 체코의 수도인 프라하에서 열린다고 하니 국내외 연구자들과 세계적으로 아름다운 도시에서 지식을 나눈다는 것이 기대된다. 이번 ISMB/ECCB2015가 열린 아일랜드의 더블린 또한 역사와 전통이 깊은 도시로 많은 기대를 품고 참석했다.

  • ISMB

    • ISMB convenes an interdisciplinary group of scientists dedicated to the advancement of biological discovery through computation

    • ISMB educates scholars at all stages of their career

    • ISMB showcases state-of-the-art advances in the dynamic fields of computational biology and bioinformatics

    • ISMB is the forum for introducing new directions and for announcing technological breakthroughs

  • ISCB

    • Leading professional society for computational biology and bioinformatics
    • Connecting, Training, Empowering, Worldwide

Motivation

세기의 과학자 진 마이너의 예언 적중



작년(2014년) 미국 보스턴에서 열린 ISMB에서 진 마이너(Eugene Myers, Director and Tschira Chair of Systems biology, Max Planck Institute of Molecular Cell Biology and Genetics)는 "앞으로는 너희가(Bioinformatican) 직접 de novo assembly 할 필요 없는 시대가 올 것이다. 곧 시퀀싱 머신이 이 부분을 수행 할 것" 이라고 선언한 바 있다. 그런데 이와 맞물려 올해(2015년) 초 PacBio의 P6-C4 Chemical 기술발전과 더불어 전 세계적인 인기 상승이 시작됐다. 진 마이너가 PacBio의 개발상황을 알고 있었는지 모르겠지만, 이 선언은 실제로 현재 체감되고 있고 이 부분에 대한 자신의 견해를 Key note에서 공유한 것이다. (물론, de novo assembly 기술이 필요 없다는 것도 아니고 bioinformatican으로써 공부할 필요가 없다는 것도 아니다. 다만, 시퀀싱머신에서 이를 수행할 것이라는 예견일 뿐이다.) 진 마이너의 정확한 안목을 확인하며 개인적으로 엄청난 도전의식을 받았고 국제학회의 중요성을 인식했다. 따라서 이번 ISMB2015에서도 이러한 동향을 확인하는 것에 초점을 맞추고, 최신 분석 pipelines과 tools을 공부해 직접 적용이 가능한 최신의 그 무언가를 얻고자 하는 마음가짐으로 이번 학회에 참석했다.


Attendance
ISMB를 즐기는 방법

5일 동안 진행되는 이번 ISMB/ECCB2015의 일정은 크게 pre-conference(July 10-11, 2015)와 main-conference(July 12-14, 2015) 두 가지로 나뉜다. Pre-conference 기간 동안에는 SIGs(Special Interest Groups) 미팅이 진행되며 이 미팅은 총 9개의 세부 모임으로 구성된다(Table 1). 각각의 모임은 등록기간 내에 신청하고 일정량의 금액을 미리 지불해야한다. 이번 학회의 SIGs 모임은 BioVis와 HiTSeq을 신청해 참가했는데 BioVis에서는 주로 pathway, GO, comparative genomics에 대한 visualization을 다뤘고, HiTSeq 에서는 NGS를 통한 다양한 응용연구분야에 대한 톡이 주를 이뤘다.


Table 1. Contents of Special Interest Groups meeting

대망의 main-conference 기간 동안에는 세션발표와 포스터발표 등 다양한 이벤트가 진행된다. 모든 세션은 KN, TP, OP, WK, SS 4개의 타입과 H, L, P3개의 속성으로 설명된다 (Table 2). KN을 제외한 나머지 세션은 학회 main-conference 기간 중 동시다발적으로 진행된다 (Figure 1).


Table 2. Types and attributions of all sessions


Figure 1. Example of conference schedule


또한, 각 세션마다 테마를 설정해 학회 참석자들에게 선택의 편의성을 제공한 점은 작년(2014년)과 다른점이다. 테마는 GENES, DISEASE, PROTEIN, SYSTEMS, DATA, OTHERS로 구성되어 있다.

  • DATA : Includes data and text-mining, ontologies, databases and machine learning approaches that do not fit in other categories.
  • DISEASE : Includes analysis of mutations, phenotypes, drugs, epidemiology and other clinically relevant areas.
  • GENES : Includes work in genes (including non-coding RNA), transcriptomes, genomes and variation.
  • PROTEINS : Includes analysis of proteins and their structures and proteomics.
  • SYSTEMS : This theme includes higher level systems such as cells, tissues, whole organisms and ecosystems. Includes systems biology, molecular interactions and genetic regulation.
  • OTHERS : Research areas that do not fall within the five (5) main thematic areas. The organizers may, at their discretion, move submissions to other thematic areas.

July 12-13 저녁시간에는 저자와 학회 참석자가 함께 자유로운 토론을 할 수 있는 포스터리셉션이 진행됐다. (주)인실리코젠도 non-model species analysis를 주제로 두 편의 포스터와 함께 참가했다. ISMB/ECCB 학회의 특성상 system biology 분야가 주를 이루기 때문에 non-model species analysis에 대한 큰 관심을 기대하지 못했다. 하지만 많은 국외연구자들이 non-model species에 대한 관심을 갖고 있었고 non-well model species의 re-annotation에도 큰 관심을 갖고 있었다. 질의 중 새로운 관점을 느꼈는데 transcriptome analysis에서 de novo assembly와 expression abundance를 계산할 때 샘플링 단계에서 total mRNA를 취할 것이냐, single cell을 취할 것이냐에 대한 것이었다. 최근 분석 트렌드는 single cell에서의 development 등을 확인하는 것인데 그것을 염두한 의견같다. Single cell이 pooling cell을 커버할 수 있을 것인가와 pooling cell에서 missing point가 생기지 않을까에 대해 나눴고, 보고자 하는 연구 목적에 따라 다르다는 결론을 내렸다.

참가 포스터 1
  • 제목 : An integrated pipeline and monitoring system for de novo genome analysis [F09]

  • 저자 : Junhyung Park, SeungJae Noh, Kyuyeol Lee, Yeonkyung Kang, Myunghee Jung




참가 포스터 2
  • 제목 : De novo transcriptome assembly and in silico expression PROFILES of Sebastes schlegeli [E41]

  • 저자 : Seung Jae Noh, Sathiyamoorthy Subramaniyam, Seungil Yoo, Jehee Lee, Jae-Koo Noh, Bohye Nam


Main-conference 기간 중에는 booth exhibitors를 통해 정보를 얻을 수 있었다. (주)인실리코젠의 국내외 협력업체 중 하나인 QIAGEN Bioinformatics도 이번 ISMB/ECCB2015에 참석해 자리를 빛냈다. QIAGEN은 미국 메사추세스주 비벌리에 위치해 있으며 NGS를 이용한 bioinformatics software tools을 서비스하고 있다. 최근 CLC bio, Ingenuity, BIOBASE 사를 합병해 더욱 다양한 분야의 분석과 우수한 DB를 바탕으로 통합분석의 발판을 마련하고 있는 중이다.


Figure 2. Exhibitors of ISMB/ECCB2015



Figure 3. With Qiagen


Trend and methods
ISMB에서는 현재...

최신분석기법 및 도구

  • LINKS
ABySS로 유명한 GSC에서 이번 ISMB/ECCB2015를 통해 새로운 scaffolding tool인 LINKS를 소개했다. LINKS는 Long Interval Nucleotide K-mer Scaffolder의 약자로 Oxford의 Nanopore Technologies Ltd. 등을 통해 얻을 수 있는 long reads를 이용해 scaffolding한다. 이는 scaffolding이나 re-scaffolding을 수행하기 위한 새로운 방식의 유전체 조립도구다.



현재까지 공개된 scaffolding 도구들과 비교를 했을 때도 mis-assemblies가 적고 contiguity나 NG50길이가 긴 것을 확인 할 수 있다.




LINKS는 메모리 효율성이 매우 뛰어나다. 그 이유는 scaffolding algorithm에 있다. long reads를 짧은 k-mer pairs로 추출하고 scaffolding의 대상이 되는 contigs도 k-mer pairs를 추출한다. 각각에서 추출된 k-mer pairs의 서열상동성이 같은 위치정보와 paired-end information을 통해 scaffolding을 수행한다. 또한 iteration 수를 높게 조절함으로써 정확도를 향상할 수 있다는 장점도 존재한다.

  • BactoGeNIE
BactoGeNIE는 NGS의 application인 comparative genome analysis를 large-scale로 수행하는 도구다. 단순한 visualization일지 모르는 이 도구는 ‘comparative gene neighborhood analysis'를 모토로 개발됐다.



위 사진은 E.coil의 700 strains에 대해서 neighborhood around a hypothetical protein을 확인하는 장면이다. Display는 at 21.9 by 6.6 feet and 6144 by 2304 pixcels이다.




각각의 genome은 한 행에 하나씩 배열되며 배열된 모든 genome의 alignment를 통해 comparative genome analysis를 수행한다. 각각 유전체의 특징적 단위가 화살표로 표시되며 breaks, deletions, insertions, gaps 등을 확인 할 수 있다.
  • Clustal Omega
1988년 첫 Clustal이 소개되고 나서 1994년 ClustalW, 1997년 ClustalX, 2007년 ClustalW2에 이르기까지 Clustal 시리즈는 Multiple Sequence Alignment(MSA) Bioinformatic tools로써 많은 사랑을 받아왔다. 이번 ISMB/ECCB2015에서는 Clustal Omega의 새 버전을 소개했다.



Clustal Omega는 최초 guide-trees를 생성하기 위해 mBed (Blackshields, 2010) calculates distance matrix를 채택했다. 이로써 기존에 large (N > 10,000) alignments distance matrix가 갖는 bottleneck을 해결했다. Fabian Sievers(University College Dublin)의 말에 따르면, Clustal 시리즈의 고질적 문제였던 ‘any size'의 alignment가 가능해졌고, 퍼포먼스 또한 크게 좋아졌다.

데이터베이스
  • UniProt

UniProt은 protein sequence와 그 functional information을 담고 있는 데이터베이스로 bioinformatics 연구에서 없어서는 안 될 존재가 됐다. UniProt을 관리하고 있는 EMBL-EBI는 최근 UniProt 데이터베이스의 대용량화에 대비해 “Proteome redundancy reduction" 프로젝트를 진행했다. 실제로 데이터베이스가 방대해짐에 따라 연구자의 컴퓨팅 환경조건이 높아지는 실정에 대해 불만의 목소리가 많았다. 이 프로젝트를 통해 92 million (2015_03 release)에서 46 million (2015_04 release)으로 감소했다.



데이터의 내용을 보호하면서 사이즈만을 어떻게 줄일 것이냐? 라는 질문에 가장 중요한 단계는 sequence comparison이라 답했다. CD-Hit-2D를 사용해 두 세트의 서열을 비교했으며 90%이상의 sequence identity threshold와 90%이상의 proteome similarity threshold로 서열상 redundancy를 제거했다.

매우 많은 entry가 줄어서 데이터베이스의 크기 자체는 줄었지만 훨씬 specific하고 meaningful한 데이터베이스가 탄생했다. 줄어든 데이터베이스는 ordering을 통해 여러 개의 component로 merge되어있다. 현재 UniProt site에 released database는 proteome redundancy removal 버전이다.

  • EVA
EVA는 European Variation Archive의 약자로 EMBL-EBI에서 만든 genetic variation resource이다. EVA의 지향점은 모든 타입의 종과 분포를 반영하는 변이를 담는 것이 목적으로, germline은 물론 cancer genomes의 변이 또한 포함하는 것이다. 최근까지의 EVA는 13종에서 4억개의 unique variation을 담은 1TB의 데이터를 제공하고 있다. Open-access database로 서비스 중이며, variation browser를 통해 knowledge-base search가 가능하다.



주요 관심사 및 최신동향
  • Single cell RNAseq studies
일반적인 RNAseq profiles은 약 100,000개 이상 세포 풀링(pooling)을 통해 얻는다. 이번 연구에서는 single cell RNA-sequencing technologies를 사용하여 single cell들 간에 RNA abundance 차이를 확인했다. Single cell analysis의 다양한 applications 중 novel variation studies는 cell type composition, differentiation에 적합하며, additional (confounding) expression heterogeneity는 cell cycle, apoptosis를 분석함에 적합하다.



국내 연구동향 및 시퀀싱 회사의 single cell analysis는 아직 걸음마 단계에 불과하다. Single cell에서 DNA와 RNA를 분리해 시퀀싱하고 그 안에서 일어나는 생물학적 이벤트는 epigenomics 연구는 물론, cell cycle에 따른 cell-to-cell correlations, T cell 연구 등 다양한 분석에 적용이 가능하다.

  • GBS

Genotyping By Sequencing (GBS)는 차세대 시퀀싱 기술을 바탕으로 새롭게 개발, 발전하고 있는 NGS 분석법 중에 하나이다. 유전체 전체를 시퀀싱하는 WGS에 비해 저렴한 비용으로 빠르고 쉽게 genome-wide 분석을 가능하게 한 테크닉이다. 제한효소를 처리하여 유전체 서열에서 그 제한효소에 의해 잘리는 영역 주변의 서열만을 시퀀싱하게 된다. 제한효소를 처리한다는 점에서는 RAD-seq과 근본적으로 원리가 같지만 효소절단 후 사이즈 선별을 하지 않는다는 점에서 시퀀싱 라이브러리 제작이 보다 간단한 편이며 GBS 시퀀싱 데이터가 RAD-seq에 비해 low coverage로 얻어진다.

GBS는 아래와 같은 applications이 있다.

  1. Marker discovery
  2. Phylogeny/Kinship
  3. Linkage mapping of QTL in a biparental cross
  4. Fine mapping QTL (Quantitative trait loci)
  5. Genomic selection
  6. GWAS (Genome wide association study)
  7. NAM-GWAS (Nested association mapping GWAS)
  8. Improving reference genome assembly
GBS는 이번 ISMB2015에서도 소개됐으며, 포스터 중 눈에 띄는 분석법으로 많은 관심을 받았다. 기존 GBS 분석법/도구로 알려진 Stacks과 TASSEL을 이용하지 않고, Bowtie와 GATK를 연계한 분석법을 소개했다.




Impression
이젠 국내에서도 bioinformatics의 인식이 달라져야 한다.

작년 ISMB2014에서는 de novo assembly 나 expression analysis, GO, KEGG, COG, pathway 연구와 같은 전반적이고 일반적인 연구가 상당수를 차지했다. 하지만 올해의 ISMB학회는 ECCB와 함께했기 때문인지 그런 비율이 많이 줄었고 좀 더 세분되고 집중적인 연구가 주를 이뤘다. 특히 암과 같은 특정 질병의 원인 판별과 치료법 개발에 초점이 맞춰져 있었다. 세션들의 주제가 GENES, PROTEINS, SYSTEMS, DATA 이외에 DESEASE도 있다는 것은 이를 반증하고 있으며, DESEASE 세션의 개수도 상당하고 그 연구수준도 점진적으로 발전되고 있어 보인다. 특히 연구방법들이 한가지 방향으로 모이지 않고 다양한 시도를 통한 기초연구에 힘쓰는 것에 놀랐다. 이는 한국의 연구풍토와 유럽, 미국의 연구풍토가 많이 다르기 때문으로 생각한다. 언제쯤인지 퇴근길에 읽은 어느 연구자님의 문구에 따르면, 정확한 메커니즘의 이해보다는 응용성을 강조하는 우리나라의 스타일과는 다르게 유럽이나 미국은 정확한 원리를 이해하고 그것을 수학적인 도구를 통해 분석해야 하며 실험의 결과들이 높은 재현성을 나타냄과 더불어 각각의 결과들이 강한 유기성을 가질 때 비로소 올바른 결과로써 인정한다고 한다. "블루오션은 찾아내는 것이 아닌 만드는 것이다.", "소비자는 자신이 무엇을 원하는지 모른다."는 명언들이 말하는 창조적 사고의 연구풍토가 선진국이 될 한국에도 자리 잡을 때가 아닌가 생각한다.

NGS의 도입과 함께 전체를 아우르는 분석이 가능해졌고 새로운 그 무언가를 찾을 기회가 많아졌다. 작년까지는 이런 NGS의 장점과 특성을 살린 연구추세였다면 점차 NGS의 응용범위가 좁은 범위까지 확대되어가는 중이다. Iontorront에 이어 nanopore와 같은 소형 시퀀싱머신의 개발과 보급이 일반화되기 시작했다. 앞으로는 국내의 실험실에도 많은 변화가 있을 것이며, 그 중심은 또 한 번 NGS가 될 것이다. 이젠 국내에서도 bioinformatics의 인식이 달라져야 한다.

Posted by 人Co

2015/08/31 11:10 2015/08/31 11:10
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/188