연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network for Integrated Biology Data에 대해 알아보겠습니다.



3-3. Semantic Network for Integrated Biology Data

 
 여있는 유전체 데이터와 각종 실험을 통해서 얻어진 수많은 데이터 사이에서 새롭게 응용할 수 있는 지식은 무엇일까? 인터넷이 발달된 최근에는 인터넷 쇼핑이 괄목할 만한 성장을 보이고 있으며, 고객들에게 좀 더 좋은 정보를 제공하고자 다양한 알고리즘 및 분석기법을 적용하고 있다. 예를 들어서 상품을 주문한 고객의 구매 목록에 대한 특징을 찾아서 비슷한 성향의 신제품이 있으면 자동으로 고객에게 이메일로 상품광고를 전달하는 것과 같은 맞춤형 광고기법이 한 예일 것이다.

이와 맞물려 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 방법을 찾고자 하는 연구들이 진행되고 있으며, 이와 관련한 의미론적 지식 정보 추출을 위한 시스템이 개발되고 있다. 또한 최근의 연구 동향은 단순히 데이터를 생성하고 쌓아두는 것 보다 각 생물학 데이터들의 연관관계를 도출하여 어떻게 각 데이터들을 연결하여 새로운 정보를 발굴할 것인가라는 ‘How to link between the data’에 초점이 맞추어져 있다.

축적된 생물학 데이터에서 새로운 의미를 발굴할 수 있도록 지원하는 시스템 가운데 Biomax Informatics AG사 BioXM 지식관리 시스템을 꼽을 수 있다. BioXM 은 연구실 및 센터의 다양한 생물, 생명, 의학 관련 데이터에서 의미론적 정보를 추출할 수 있도록 데이터의 시맨틱 네트워크를 구축하는 플랫폼이다(그림 2).

사용자 삽입 이미지
그림 2. 데이터의 시멘틱 네트워크 흐름도

이미 미국 국립암센터(NCI)와 연계하여 시스템을 운용, 활용하여 암에 관련된 실험정보 및 분석정보, 문헌정보를 통합한 시스템을 구축한 바 있다(그림 3).

사용자 삽입 이미지
그림 3. BioXM의 데이터 통합 개념

이와 같은 지식관리 시스템은 기존에 구축한 수많은 실험정보, 분석정보, 문헌정보들 사이의 연관관계를 도출하여 새로운 의미를 찾고자 하는 바램을 충족시켜준다. 대다수의 시스템들이 RDBMS 형식의 데이터베이스로 구축되어 있으므로, 모든 데이터의 통합에 의한 새로운 형태의 의미를 발굴하기 위해서는 기존 시스템보다 더 확장된 형태의 데이터베이스 구축 및 IT 시스템 구축이 선행되어진다. 하지만 이와 같이 단순히 시스템의 확장 구축을 통해서는 얻어질 수 있는 데이터의 유기적 연관관계는 한계를 보이게 된다. 또한 데이터베이스의 확장이 진행될수록 생물학자들의 지식이 더 많이 요구되지만 IT와 BT 전문가의 상호 생각의 차이로 인해 최종적으로는 생물학자들이 원하는 형태가 아닌 별개의 시스템으로 구축되는 경우가 다반사이다. 이에 반해 BioXM 지식관리 시스템은 기존 데이터들을 새로운 데이터베이스 스키마를 설계하여 통합 연계하는 것이 아니라 각 생물학 데이터의 기존 의미를 알고 있는 연구자가 퍼즐을 맞춰가는 방식과 같이 edge와 node의 꼬리에 꼬리를 무는 방식으로 데이터들을 선택하여 서로 연계된 데이터들을 통합하고 관리하는 지식관리시스템이다. 이와 같은 방식으로 BioXM은 Genomics, Transcriptomics, Proteomics 등 다양한 omics 데이터들과 문헌정보 등을 손쉽게 통합할 수 있을 뿐만 아니라 다양한 방법으로 데이터를 조합하여 연구자가 알고자 원하는 질문에 알맞은 답을 얻도록 지원한다.

사용자 삽입 이미지
그림 4. Object와 Relation에 대한 개략적인 데이터 모델


그림 5는 환자에 관한 질병과 질병에 관련된 유전자와 대상 약물 및 임상실험과 같은 다양한 정보를 이용하여 그래픽 사용자 인터페이스 형태로 모델링을 구현한 사례를 보이고 있다. 지금 그림에서 보이고 있는 데이터 이외에 다양한 정보가 있을 경우에도 동일한 방법으로 모델링을 구현하여 좀 더 폭넓은 데이터 연관 관계도를 생성할 수 있다.

사용자 삽입 이미지
그림 5. BioXM 데이터 모델링 구현


BioXM 지식관리 시스템의 특징 및 장단점은 표 1과 같다.

사용자 삽입 이미지
암을 연구하는 연구자들은 자신이 가지고 있는 데이터를 이용하여 다음과 같은 다양한 궁금증을 표현할 수 있으며, BioMax사의 BioXM과 같은 시스템을 이용하여 각 데이터들의 네트워크를 구축하면 궁금증에 대한 답변을 얻을 수 있을 것이다. 이와 같은 지식 발굴 시스템은 다음과 같은 문제점을 해결하는데 도움을 줄 수 있다(그림 6).

사용자 삽입 이미지
사용자 삽입 이미지
그림 6. BioXM 시스템을 이용한 지식 네비게이션


다음 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다. 많은 관심 부탁드립니다.



Posted by 人Co

2010/04/01 15:00 2010/04/01 15:00

지난 1월 20일~21일, (주)인실리코젠 Codes팀 모두는 강원도 용평리조트에서 열린 2010 한국유전체학회 제6회 동계심포지움에 다녀왔습니다. 출발전 약간의 에피소드와 한겨울의 뜻하지 않은 짙은 안개로 인해 학회장까지의 이동은 그리 녹녹치는 않았습니다.

시간에 맞춰 도착한 학회장은 궂은 날씨에도 불구하고 작년보다 두 배가 넘는 연구자분들로 학회장 분위기가 뜨거웠고, 유전체학에 대한 열정은 그 어느때보다도 대단했습니다. 이번 동계심포지움은 'Challenges in Translation on Omics Technology'라는 주제로 진행되었고, High-throughput technology 와 Bioinformatics 최신 기술에 대한 소식 및 정보들을 많이 얻을 수 있었던 자리였습니다.

우리 Codes팀은 이번 학회를 통해 최신 생물정보학관련 연구동향 기술 소식지인 "Quipu Issue Paper"를 발간하여 연구자분들께 전달하였습니다. "NGS 시대의 분석전략"이라는 주제의 소식지는 NGS에 대한 최근 이슈를 조사하여 NGS에 대한 이해를 도울 수 있도록 시퀀싱부터 분석법과 생물정보 분석전략 등을 정리한 것입니다.

사용자 삽입 이미지
학회측의 도움으로 300부의 Quipu Issue Paper는 등록 테이블에서 급속도로 줄어들었고, 학회 시간 중에 또는 coffee break 시간에 틈틈히 검토하면서 NGS 자료에 관심을 느끼시는 연구자분들을 보면서 예상했던 것 보다 좋은 반응에 더욱 뿌듯함을 느꼈습니다. 이렇게 배포된 "NGS 분석 전략" 소식지를 통해서 생물학자들이 NGS 시대에 다양한 변화를 빨리 습득하고 연구에 조금이나마 도움이 되기를 바라면서 블로그를 통해서도 곧 연재할 예정입니다.

Codes팀 워크샵을 겸한 이번 학회 첫째날, 우여곡절 끝에 모두 모인 Codes팀은 숙소에서 오랫만에 모여 앉아 이런저런 이야기들로 웃음꽃이 피었고, 아이폰 게임으로 한바탕 놀라기도 하면서 따뜻한 시간을 보냈습니다. 대부분의 구성원이 오랜시간 같이 봐온 사이여서 그런지 추억도 많고, 할 얘기도 많았는데 "열정"이 있는 팀이란걸 다시 한번 느끼게 됐고 "사람이 좋은 회사" 라는 것을 말하지 않아도 느낄수 있는 좋은 시간이였습니다. 그러고 보니 어느새 줄기차게 내리던 비가 함박눈으로 바뀌어 온 세상이 하얗게 변하였습니다. 덕분에 이튿날 학회 일정이 없던 오전 시간을 이용하여 겨울 스포츠의 짜릿한 스릴을 맛 볼 수 있었고, 특히 스노우 보드에 초보인 팀원들은 조관희 차장님의 속성 강습으로 모두 함께 스노우 보드를 즐길 수 있었습니다.

사용자 삽입 이미지
사우나로 노곤한 피로를 풀고 다시 찾은 학회장에서는 특히 주요 NGS 플랫폼(Roche - 454, Illumina - Genome Analyzer, Applied Biosystem - SOLiD)에 대한 발표가 각 섹션별로 포함되어 있었으며, 각 플랫폼별로 새로운 시스템의 런칭 소식을 발표하였습니다.  Genome Analyzer의 경우 GAIIx와 HiSeq 2000을 런칭하여 한 번의 run으로 더욱 많은 양의 데이터를 얻을 수 있게 되었으며, Roche의 경우는 소규모 NGS 연구를 지원하기 위한 GS Junior 시스템을 소개하였습니다.  또한 3rd Next generation sequencer로 Helicos와 Pacific Biosciences가 소개됨으로서 NGS 시장의 빠른 발전과 높은 관심을 실감하였습니다.

비록 이틀 간의 짧은 시간이었지만 팀원 전원이 참석함으로써 현재 NGS 시장의 연구동향을 파악하여 함께 공감하고 공유할 수 있었던 뜻깊은 경험이었고, 이와 더불어 새로 두텁게 다진 팀웍과 생물정보에 대한 열정으로 더욱 노력하여 생명과학 전반에 걸친 생물정보 컨설팅 문화를 선도할 수 있는 (주)인실리코젠의 Codes팀이 되도록 하겠습니다.

(주)인실리코젠 Codes팀
Tel : 031-278-0061 / E-mail : codes@insilicogen.com

Posted by 人Co

2010/02/02 20:00 2010/02/02 20:00
, ,
Response
No Trackback , 3 Comments
RSS :
https://post-blog.insilicogen.com/blog/rss/response/34