« Previous : 1 : ... 3 : 4 : 5 : 6 : 7 : 8 : 9 : 10 : Next »


Next Generation Sequencing?

                                                                                                                           DNA 염기서열의 정보는 그 동안 sanger에 의해 개발된 방법을 자동화하여 DNA 가닥에서 A, T, G, C의 순서를 빠르고 정확하게 읽어내는 캐필러리 장비(Sanger sequencing, 1세대 시퀀싱)를 이용하여 분석하였고 유전자의 발현, 다양성 및 상호작용 등의 정보로서 활용할 수 있어 굉장히 중요합니다.

따 라서 많은 염기서열을 저렴한 비용에 수행할 수 있는 기술의 필요성이 증가되면서 차세대 염기서열 분석 기술(Next Generation Sequencing, 2세대 시퀀싱)을 이용한 플랫폼들이 소개되어, 생명과학 분야에 있어서 특히 유전체학 분야에 큰 영향을 끼치고 있습니다.

또 한 현재 염기서열 분석 기술은 더 짧은 시간에 더 적은 비용으로 더 많은 염기서열을 결정할 수 있는 플랫폼 장비들이 계속적으로 탄생되어 시퀀싱 chemistry 차이에 따라 차세대(2세대), 3세대, 4세대로 분류하여 부르기도 하면서 비약적인 발전을 하고 있습니다.

NGS 데이터 분석 도구

                                                                                                                               현재 생산되는 NGS 데이터는 장비가 점점 발달함에 따라 한 번 플랫폼을 run하여 얻는 데이터양만 해도 어마어마합니다. 따라서 이러한 데이터를 한꺼번에 분석하려니 그에 맞는 메모리 및 스토리지 등의 하드웨어 사양의 고려와 또한 생물정보를 알고 있지 않는 이상 명령어 방식의 커맨드라인의 툴을 이용하기란 쉽지 않습니다.

NGS 데이터의 분석 단계는 크게 pre-processing, assembly 그리고 assembly를 이용한 이차 분석으로 나누어집니다. Pre-processing 단계에서는 다양한 플랫폼으로부터 single reads, long reads, paired-end reads 등 시퀀싱된 reads의 정보를 assembly 단계에 적용하기 위한 작업을 수행하고, 분석의 방향과 목적에 맞는 assembler를 선택하여 assembly를 수행하게 됩니다. 이 후 assembly 결과를 이용한 variation 분석, expression 분석, binding site 분석 및 전체 정보에 대한 브라우저 구축 등 다양한 이차정보를 분석하게 됩니다.

이 러한 분석 단계들을 하나의 툴에서 모두 진행하고 그 결과를 그래픽하게 확인할 수 있다면 NGS 데이터를 다루는 생물학자들이 무척이나 수월하게 연구를 수행할 수 있을 것입니다. 이러한 목적으로 개발된 NGS 데이터 분석 도구 중의 하나인 CLC Genomics Workbench를 소개하고자 합니다.

CLC Genomics Workbench의 응용

                                                                                                                            CLC bio사의 CLC Genomics Workbench는 그래픽 인터페이스 기반의 NGS 데이터를 분석하기 위한 데스크탑 솔루션입니다. 현재 Roche 454, Illumina, Applied biosystems, Helicos, Ion torrent 등 다양한 회사의 NGS 플랫폼 장비에서 생성되는 모든 시퀀싱 데이터의 분석을 지원합니다. 또한 기존 sanger 데이터를 비롯하여 각 플랫폼에서 제공하는 다양한 데이터 셋을 hybrid하여 assembly를 수행하고 그 결과를 그래픽한 결과로 확인할 수 있습니다.
                                                                                                                  
사용자 삽입 이미지

또한 annotation 정보가 있는 reference 서열을 기준으로 하여 assembly를 수행할 경우, 해당 유전자 구조도 함께 확인할 수 있습니다.


사용자 삽입 이미지

CLC Genomics Workbench에서 제공하는 assembly는 SIMD(Single Instruction Multiple Data) 기술을 적용하여 병렬연산으로 막대한 양의 NGS 데이터를 빠른 속도로 분석할 수 있어 유전체 크기에 관계없이 분석이 가능합니다. 단 많은 데이터를 분석할 시 고사양의 하드웨어 성능도 필요합니다.

이 렇게 NGS를 통하여 전체 염기서열 결정 및 re-sequencing을 통한 유전체 상의 여러 가지 변이 연구가 활발해졌으며 보통 NGS를 이용한 variation 연구는 유전체 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과 정렬을 통하여 비교하고 있습니다. CLC Genomics Workbench는 일차적으로 assembly를 수행하고 이 후 서열 간의 비교 분석을 통한 SNP 및 small Indel 분석을 진행할 수 있습니다.

사용자 삽입 이미지

또한 NGS는 transcriptome 분야를 포함하여 많은 부분에서 PCR이나 microarray 기술을 대체하고 있으며 특히 RNA-Seq은 한 번의 시퀀싱으로 수 많은 reads를 얻는 높은 coverage를 가지기 때문에 단 시간에 적은 비용으로 전체 transcriptome 서열을 결정할 수 있는 이점이 있습니다. CLC Genomics Workbench는 annotation된 reference 유전체 서열과 mRNA 시퀀싱 reads들을 바탕으로 새로운 엑손의 발굴뿐만 아니라 유전자 발현 레벨을 계산할 수 있습니다.

사용자 삽입 이미지

그리고 CLCL Genomics Workbench에서는 단백질에 binding된 DNA서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site를 동정하는 방법인 ChIP-Seq 분석을 통하여 genome wide epigenetic study가 가능할 수 있도록 지원하고 있습니다.

사용자 삽입 이미지

이 블로그에서는 컴퓨터를 잘 모르는 생물학 연구자도 쉽게 사용 할 수 있는 소프트웨어인 CLC Genomics Workbench를 이용하여 NGS 데이터 분석 방법을 소개하고자 합니다. 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

codes@insilicogen.com

많은 생물학 연구자 분들에게 NGS 분석 방법에 대한 이해를 도울 수 있으면 좋겠습니다.

Posted by 人Co

2012/03/29 17:22 2012/03/29 17:22
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/103

2004년에 설립된 (주)인실리코젠은 수많은 생물정보 데이터들의 상호간 의미를 연결하고, 이를 통해 새로운 지식을 창출하는 흐름에 부응하기 위해 세워진 회사입니다.

사람을 중시하는 ‘人Co’의 비주얼 아이덴티티는 2012년에 등장하였지만, 의미는 이미 회사의 로고 제작 컨셉안에 숨겨져 있었습니다.

Green컬러와 Blue컬러로 BT와 IT분야의 융합을 뜻하였으며, 심벌의 모양은 염색체(chromosome)를 형상화하여, 인간의 근원을 상징함으로써, 사람을 중시한다는 의미를 내포하였습니다.

2007년부터 기업 아이덴티티 정립을 위한 노력은 시작됩니다. 비즈니스의 약진과 경쟁우위를 확보하기 위해 디자인팀을 신설하고 디자인적 사고를 통한 비즈니스 전략을 펼치는 디자인 경영을 적극 도입하게 됩니다. 그 시작은 시각매체의 컨셉을 일관성있게 작업하는 것이었습니다. 온라인 매체와 오프라인 매체의 시각적 표현구도와 표현방법을 통일하였습니다. (초창기의 기업 슬로건: Bioinformatics leads your way)





2009년에는 Bioinformatics is Insilicogen. Insilicogen is Bioinformatics 라는 슬로건 아래 회사명을 다시 한번 강조하여 생물정보 컨설팅 전문기업으로서의 의지를 다졌습니다. VI의 목적을 생물정보 컨설팅 기업의 이미지를 부각시킴과 동시에 고객에게 친근감과 차별화된 감성을 전달하는 것에 두었습니다.

질감을 살린 배경과 2007년에 이어 픽셀을 상징하는 Square 모양을 2.5D로 표현하고, 생물정보와 관련된 오브젝트를 조합하여 인실리코젠의 I를 강조하였습니다.

설립 초창기엔 낮은 인지도를 감안하여 신뢰감 상승을 위한 Blue계열의 color를 주로 사용하였으나, 2009년에는 회사소개 부분에서는 Green을 사용하여 보다 따뜻하고 친근감있는 기업이미지를 부각시켰고, 제품소개 부분에서는 Blue컬러를 사용함으로써 인실리코젠의 컬러는 두가지임을 인지시키고자 하였습니다.



2010년에는 좀 더 친숙하게 다가가면서도 동종업계와의 차별화를 위해 일러스트를 종이에 그리는 수작업으로 표현하였습니다.



2011년에는 다른 해와는 달리 로고의 모양을 이용하였습니다. 나누거나, 겹치거나, 확대하여 단순한 구조를 선택하였지요.



기업 아이덴티티란 기업의 현재 상태를 분석하였고 목표에 대한 의지를 확인한 후 구성원들이 공유할 수 있는 명확한 비전을 설정하여 기업활동을 효과적으로 전개함으로써 대내외적으로 자신의 본질을 확증하는 일체의 행위를 말합니다.

이러한 관점에서 2012년에는 기업 아이덴티티를 재정립합니다.

비전, 전략, 철학, 제품 및 서비스 등 기업 아이덴티티 구성요소들을 재정립하고, 기업문화와 조직문화의 차원에까지 확대하여 정비합니다. (人Co 가치체계)


人Co란 사람을 중심(Core)으로, 사람과 컴퓨터(Computer)에 의해, 배려(Consideration)와 소통(Communication)을 통한 새로운 문화를 창조하려는 (주)인실리코젠의 브랜드 가치를 의미합니다. 이를 전직원이 공유함으로써 미래 전략 지향형의 (주)인실리코젠임을 다시 한번 다지게 되었습니다.



이 모든 결과는 기업의 브랜드를 관리한다는 목적으로부터 시작되었습니다.

전체적으로 통합된 디자인과 변화를 허용하면서도 전체적으로 일관성을 유지하려는 아이덴티티 디자인 전략으로부터 나온 것입니다.

조직전체가 한 방향으로 움직여 고객들과 신뢰관계를 구축하도록 하고 올바른 커뮤니케이션으로 기업의 신뢰도와 고객 선호도를 높여 기업의 성과를 극대화하고자 앞으로도 지속적인 노력을 할 것입니다.


우리 기업의 비쥬얼 아이덴티티를 관리하고 있는 Insilicogen Descign팀명은 고객에게 조금 생소하게 들릴 수도 있습니다. Descign 팀은 Design + Science + Management를 결합하여 전문적이고, 차별화된 컨셉으로 연구소 및 기업의 온오프라인 통합 아이덴티티를 구축하고 있습니다. 기업의 발전과 함께 할 수 있는 디자이너라 행복한 Descign팀의 활약, 기대하셔도 좋습니다.

글/사진:Descign팀 정은미

Posted by 人Co

2012/03/12 15:17 2012/03/12 15:17
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/102

언제나 새로운 환경에서 새로운 사람들을 만나서 무엇인가를 함께 하게 한다는 것은 알 수 없는 설레임을 느끼게 만듭니다. 당사는 2011년 7월 7일(목)부터 2박 3일의 일정으로 오대산 국립공원 호렙동산에서 열렸던 2011 Summer Brain Storm 및 교육 프로그램에 참여하였습니다. 본 행사는 대덕넷에 소개되기도 했습니다. KM팀 이승헌 컨설턴트가 2박 3일 간의 행사에 대한 후기를 남겼습니다. 함께 보실까요.

사용자 삽입 이미지
출발 당일 아침부터 한반도로 밀려 온 장마 전선으로 인해 2박 3일의 일정 동안 맑은 하늘을 볼 수 있는 시간은 없었지만 워크샵을 참석한 뒤에 회고를 해 보는 지금 제 마음속에는 푸른 하늘이 함께 합니다. 그만큼 이번 워크샵이 많은 것을 보고 배우고 느낄 수 있는 소중하고 의미 있는 시간이었습니다. 워크샵 장소로 가는 여정 동안 보여 준 오대산 자락과 고속 도로 주변의 능선을 뒤덮은 7월의 녹음과 운무는 바쁜 도시의 삶과 업무에 지친 우리들의 마음을 창문으로 흘러내리는 비와 함께 초록빛으로 물들여 주었습니다.

워크샵에 사용된 숙소는 오대산 자락에 위치한 켄싱턴 플로라 호텔이었고 교육 및 체육 활동은 숙소 근처의 호렙 동산에서 이루어졌습니다. 호텔 1층에서 등록 및 방 배정을 받은 뒤에 각자 짐을 풀고 지급 받은 학회티로 갈아 입은 뒤에 교육 및 체육 활동의 장소인 호렙 동산으로 이동하였습니다.

사용자 삽입 이미지사용자 삽입 이미지사용자 삽입 이미지
비교적 이른 도착 시간이었음에도 불구하고 먼저 도착한 학회 구성원들이 내리는 빗 속에서 축구, 피구 등의 체육활동을 즐기고 있었습니다. 당사의 구성원들도 도착하자마자 각종 체육활동을 함께 하였습니 다.

사용자 삽입 이미지사용자 삽입 이미지
처음에는 오랜만에 해보는 체육 활동에 처음 보는 분들과 함께 어우러져 뛰어 다니기가 어색했지만 서로 공을 주고 받으면서 뛰어 다니고 격려 및 응원에 멋진 플레이에는 박수도 치다 보니 어느새인가 흐르는 땀방울과 함께 모두가 서로 융화 되어 즐거운 시간을 보낼 수가 있었습니다. 회사, 기관 그리고 연구실의 책상에서 벗어나 멋진 자연 경광 속에서 소중한 인연이 될 분들과 함께 마음껏 땀을 흘리며 굳었던 몸과 마음이 자연스럽게 무장해제되는 경험을 하였습니다. 비가 약간씩 내리긴 했지만 오히려 뜨거운 여름햇살을 피할 수 있어서 좋았습니다.

체육활동이 끝난 뒤에는 NGS 기기들에 대한 특강을 듣고 저녁 식사 후 숙소인 켄싱턴 플로라 호텔로 복귀하였습니다. 계획상으로는 호렙 동산에서 캠프 파이어 등의 추가적인 프로그램이 준비 되어 있었지만 우천으로 인해 취소가 된 것이 못내 아쉬웠습니다.

사용자 삽입 이미지
마침 돌아오는 일요일이 당사의 김형용 책임개발자님의 생일이라 비록 조그만한 케익이었지만 함께 모여서 생일 축하 노래도 부르면서 끈끈한 인실리코젠만의 정을 느낄 수 있는 시간도 함께하였습니다. 워크샵의 밤에 술은 빼 놓을 수 없는 우리의 소중한 친구 입니다. 창문 너머로 들리는 빗소리와 흐르는 강물 소리가 음주를 위한 운치를 더해주었습니다. 당사는 워크샵을 위한 다른 만반의 준비와 마찬가지로 알코올의 측면에서도 완벽한 준비를 하였습니다. Vodca와 양주 그리고 맥주 등에 각종 안주가 준비가 되었으며 한잔 두잔 서로 주고 받으면서 소소한 이야기, 학술적인 대화 그리고 철학적인 대화를 자유롭게 나누는 밤이었습니다.

어느 정도 당사 구성원간의 대화가 일단락 되고 난 뒤에는 다른 기관이나 대학에서 참석한 학회 구성원들의 숙소를 방문하여 회사 소개 및 각가 개인 소개를 하는 기회를 만들었고 이를 통해 학회 구성원들과의 친분도 쌓을 수 있었습니다. 그렇게 첫번째 밤은 더욱 깊어만 갔습니다.

2nd Day

전날의 체육 활동과 음주 때문에 욱신거리는 몸과 아픈 머리를 들고 호렙 동산을 다시 찾았습니다. 오전에는 첫째날과 마찬가지로 체육 활동이 진행 되었습니다. 여전히 계속 내리는 비로 인해 옷과 몸은 젖었지만 모두의 얼굴에는 하나 같이 환한 미소가 번졌습니다. 체육 활동을 마친 뒤 오후에는 본격적으로 워크샵의 세미나가 진행이 되었습니다. 주로 각 기관이나 대학교의 석사급 연구원분들이 주축이 되어 자신이 하는 연구에 대해서 발표를 하는 시간을 가졌는데, 이번 워크샵을 통해서 Toxicology에 관련된 연구의 다양한 접근 방법과 연구원분들의 땀과 열정을 느낄 수가 있었고 이를 통해 신선함과 자극을 동시에 느낄 수가 있었습니다.

사용자 삽입 이미지사용자 삽입 이미지
특히 당사가 참여하고 있는 EnviHaz Tool Kit 개발이나 중금속 독성 지표 발굴과 같은 연구 과제와 관련 된 발표 주제가 많아서 해당 업무에 대해서 좀 더 학습을 할 수 있는 소중한 시간이었습니다. 한분 한분 발표가 끝날 때마다 자유롭게 서로 질의 응답도 하고 또 교수님들의 아낌 없는 조언을 통해 젊은 연구자분들이 좀 더 발전할 수 있는 토대를 마련할 수 있었다고 생각 합니다. 학회를 주관하신 류재천 회장님과 황승용 교수님 및 많은 교수님들의 젊은 후학들에 대한 애정과 사랑을 느낄 수 있는 시간이었습니다.

사용자 삽입 이미지
또한 외부 인사 초청을 통하여 사진, 법 그리고 삶의 철학 등에 대해서도 배울 수 있었습니다. 준비 되어진 모든 세션이 끝난 뒤에는 워크샵 참가자들이 서로를 서로에게 소개하는 시간을 가졌습니다. 체육 활동 등을 통하여 오고 가며 서로의 얼굴만 기억하고 있다가 소속과 이름을 들으면서 좀 더 서로를 마음 속에 새길 수 있었습니다.

오후 프로그램이 끝난 뒤에는 모두 야외에서 바베큐 파티를 통해 하룻동안의 피로를 풀었고 강당에서 소통과 교류의 정점이라 할 수 있는 '짝' 프로그램 및 장기자랑이 진행 되었습니다. 즐거운 일탈을 통해 모두 행복한 시간이었습니다. 또한 워크샵 참석자 분들의 연구 이외릐 다양한 재능을 확인할 수 있었습니다. 특히 동국대학교 서영록 교수님의 노래 실력이 가장 기억에 남습니다.

사용자 삽입 이미지사용자 삽입 이미지
그렇게 두번째 밤도 깊어만 갔고 숙소로 복귀한 당사 구성원들은 자체적으로 아래와 같은 주제로 서로의 생각을 나누는 시간을 가졌습니다. 조금은 쑥스러울 수도 있는 주제지만 서로의 꿈을 알 수 있는 시간을 통해 상대방을 좀 더 잘 이해할 수 있게 되는 계기가 되었다고 생각 합니다. 이 글을 읽고 있는 여러분도 주변의 분들에게 질문을 해 보시는 것이 어떨까요? "너의 꿈은 무엇이니? 투명 인간이라고 해도 괜찮아." 짧은 한 문장의 질문이 여러분과 여러분의 주변을 좀 더 행복하게 하지 않을까요?

3rd Day

이틀간에 누적 된 피로로 인해 다들 힘든 아침을 보냈습니다. 어찌나 일어나기가 힘이 들던지 몸이 천근 만근이었습니다. 결국 늦장을 부리게 되어 아침밥을 못 먹는 사태까지 발생하였고, 세미나실에 준비 되어진 다과로 아침을 대신할 수 밖에 없었습니다. 전날과 마찬가지로 여러 젊은 연구자들의 패기와 열정을 느끼면서 피곤했던 아침을 날려 보낼 수가 있었습니다.

사용자 삽입 이미지사용자 삽입 이미지
모든 세션이 완료 되고 마지막으로 빛나는 수료증의 수령 뒤에 단체 사진을 촬영하였습니다. 단체 사진은 각자에게 소중한 추억의 한 장면으로 남을 것이라고 생각합니다. 사진에 찍힌 얼굴 하나 하나가 좋은 추억으로 남을 것이며 같은 시간에 같은 공간에서 존재하면서 보낸 행복한 시간을 잊지 않을 것이라고 믿습니다. 단체 사진은 다음 해의 워크샵 표지에 쓰인다고 하니 이번 워크샵에 만났던 소중한 인연이 다음 해의 워크샵까지 이어졌으면 하는 바램 입니다.

마지막으로 워크샵을 준비하고 진행하느라 수고하신 대한 환경 위해성 보건 과학회(http://ehs.or.kr)대한 독성 유전 단백체 학회(http://tox.or.kr)류재천 회장님과 황승용 교수님 및 여러 교수님들과 젊은 연구자 분들의 노고에 감사를 드리며 워크샵을 후원 해주신 아미사(http://cafe.naver.com/bluehorizon), 아름다운 미래를 만드는 사람들) 일동 여러분에게도 감사의 말씀을 올립니다. 2박 3일 간의 소중한 기억과 추억을 안고 돌아오는 길에 바라 본 강원도의 풍경은 여전히 푸르른 7월의 녹음을 자랑하고 있었습니다.

2박 3일 간의 일정을 돌아 보면 "젋은 후학"들의 다양한 연구 방법과 열정을 접하면서 뜨거운 열기를 느낄 수가 있었고 앞으로 우리 나라 과학계를 이끌고 나갈 큰 재목이 될 것이라는 생각이 들었습니다. 체육 활동, 연구 활동 등 하나 같이 모든 일에 열심히 하는 모습에서 많은 점을 느낄 수 있었습니다.

아쉬운 점은 "젊은 후학"들의 자리인만큼 당사 구성원도 한 세션을 맡아서 발표를 진행했으면 하는 바램이 생겼습니다. 다음 번에는 꼭 협의를 통해 당사 구성원도 세션을 차지할 수 있었으면 하고, 좌장 등의 역할 수행을 통해 좀 더 학회 구성원들과 긴밀해질 수 있는 기회가 생겼으면 좋겠다는 생각을 했습니다.

이상 (주) 인실리코젠 KM팀의 이승헌 컨설턴트의 후기였습니다.

Posted by 人Co

2011/07/20 11:25 2011/07/20 11:25
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/94

2011년 제 1회 InCoWorkshop 후기

2011년 6월 23~24일, 한국폴리텍바이오 대학에서 제 1회 IncoWorkshop이 열렸습니다. 이번 워크샵에서는 한국폴리텍바이오대학에 구축된 CLC Genomics Workbench를 이용하여 NGS데이터 분석 전략에 대한 이론적인 교육과 실제 분석 방법에 대한 실습 교육이 진행되었습니다. 본격적인 장마가 시작되고 남쪽에서는 태풍 '메아리'가 북상하여 아침부터 폭우와 강풍이 부는 등 궂은 날씨에도 불구하고 전국 각지의 여러 연구소 및 기업에서 이번 워크샵에 참석하시어 NGS 분석에 대한 깊은 관심을 느낄 수 있었습니다.

사용자 삽입 이미지

교육장소인 한국폴리텍바이오대학은 바이오산업의 전문인력 양성을 목적으로 설립된 국내 최초 바이오 특성화 국책대학이며, NGS 염기서열분석 플랫폼과 대용량의 NGS 데이터 분석을 위한 시스템을 구축하였습니다. 이러한 시스템은 CLC bio사의 enterprise platform인 CLC Genomics Server와 CLC Genomics Workbench, CLC Assembly cell로 구성되어 있으며, 차후 이러한 대용량 NGS 데이터 분석 시스템 구축을 준비하고 있는 기관에서 참조할 수 있는 좋은 reference가 될 것입니다.

사용자 삽입 이미지

워크샵 첫째날은 NGS의 기본 개념과 응용분야, 국.내외 시장 동향, NGS를 통해 생성된 데이터의 분석 전략에 대한 소개 그리고 NGS 분석 분야와 둘째날 실습하게 될 분야들의 이론적인 설명이 주를 이루었습니다. NGS 분석 결과를 가지고 무엇을 할 것인지에 대한 방향을 제시한 점이 기존의 다른 워크샵과 차별성 있게 제시되어 참석자 분들께 좋은 인상을 남겼습니다.

사용자 삽입 이미지

교육 후 저녁식사 시간에는 워크샵에 참석해 주신 연구자 분들이 한 자리에 모여 연구동향에 대하여 서로 의견과 유용한 정보들을 공유하며 친목을 다질 수 있는 시간을 가졌습니다.

사용자 삽입 이미지

워크샵 둘째날 CLC Genomics Workbench를 사용하여 실 예제 데이터를 이용한 실습시간을 가졌습니다. 오전에는 NGS 데이터의 de novo, reference assembly를 해보며 NGS 장비 마다 다른 데이터 특성과 이러한 특성을 어떻게 분석에 반영할 것인지에 대한 교육이 이루어 졌으며, 이러한 결과를 가지고 SNP, DIP, CNV 분석과 같은 variation 분석 대한 실습이 이루어 졌습니다.

사용자 삽입 이미지

오후에는 NGS 분석 방법 중에서도 특정 조직의 발현양상을 분석할 수 있기에 기존의 DNA Chip Expression 방법을 대처할 수 있는 방법인 RNA-Seq analysis와 protein binding site를 찾을 수 있는 ChIP-Seq analysis에 대한 실습이 진행되었습니다. RNA-Seq analysis는 transcriptome분석 방법인 DNA microarray의 한계를 극복할 수 있는 방법으로 최근 각광받고 있으며, ChIP-Seq analysis는 Protein-DNA interaction을 특정 전체 genome을 대상으로 분석할 수 있는 방법으로 이슈가 되고 있습니다.

사용자 삽입 이미지
사용자 삽입 이미지

마지막으로 참석해 주신 모든 분들께 교육 수료증을 전달하며 제 1회 IncoWorkshop을 마무리 하였습니다. 이렇게 1차원 적인 염기서열 분석을 넘어 다양한 분야에서 응용될 수 있는 NGS 데이터 분석은 앞으로 더욱 그 중요성이 높게 평가되며, 이러한 기대에 충분한 정보와 최신 분석 기법을 전달 할 수 있는 인실리코젠의 Codes 사업부가 되도록 노력하겠습니다.

사용자 삽입 이미지

by Codes division consultant Jaeyoung Shim

Posted by 人Co

2011/07/19 10:48 2011/07/19 10:48
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/93

BKL TRANSFAC

 Biobase의 대표적인 제품군인 TRANSFAC은 eukaryotic gene regulation을 분석하기 위한 최적의 기초 데이터를 제공하고 있다. Transcription factors, miRNAs, 그리고 이들과 관련된 유전자의 프로모터 정보를 비롯하여 ChIP-Seq 데이터로부터 1,000,000건 이상의 binding sites 정보, 57,000건 이상의 human RNA polymeraseII의 위치정보를 포함하고  있다. 이들 정보는 모두 실험적으로 증명 되었거나 논문에 게재된 정보를 전문가의 리뷰를 통해 정확하면서도 통합적인 이해를 할 수 있도록 하였다.

 2010년 현재 TRANSFAC®의 데이터베이스는 DNA binding, expression 그리고 regulation에 관련한 전문가의 manual curation을 다음과 같이 수행하였다.

사용자 삽입 이미지

이들 데이터는 실험적으로

  • transcription factor binding site나 혹은 composite elements를 증명하고자       할 때,
  • promoter sequence를 찾고자 할 때
  • miRNA targets을 찾고자 할 때
  • 관심 있는 영역에 binding 가능한 transcription factor를  찾고자 할 때
  • transcription factor들 간의 조절을 알고자 할 때
 실험에 앞서 가능한 factor들의 기초 정보를 제공하게 된다. 따라서 microarray를 통한 유전자 발현 패턴을 분석했다면 동일한 발현 패턴을 보이는 유전자들의 상관관계를 분석하는데 많이 이용되며, 약리 반응이나 신물질의 target을 밝히는 데에도 기초 자료로 인용되고 있다.


TRANSFAC®의 데이터 구성


 TRANSFAC® Professional은 공개된 데이터에 비해 약 4년 정도의 데이터가 업데이트되어 있는 상태로 그 데이터양은 promoter서열이 약 280,000건, 700,000건의 ChIP-chip/-Seq 데이터를 더 포함하고 있다(figure 1).

사용자 삽입 이미지
Figure 1. Public database와 Professional version의 데이터양의 차이


이들의 자세한 내용은 figure 2에서 보여 지는 것과 같이 transcription factor의 서열 정보를 비롯한 binding 가능한 site정보, 도메인정보, regulation 정보를 총체적으로 담고 있다.

사용자 삽입 이미지
Figure 2. Transcription factor feature. Transcription factor의 서열 정보, 종 정보, 조직 정보, 도메인 정보, binding site 정보, interaction protein 정보, regulation정보를 총체적으로 서비스하고 있다.

 GO category정보 및 pathway정보도 가능한 모두 서비스가 되고 있어 세포내 생물학적 기능을 종합적으로 분석하고자 할 때 기초자료로 많은 정보를 주고 있다(figure3).

사용자 삽입 이미지
Figure 3. Transcription factor의 function 정보. Factor간의 interaction정보, pathway 정보, inhibitor 및 activator와 같은 regulation 정보 등을 문헌자료를 통해 데이터베이스화하고 서비스한다.



미지의 서열에 binding 가능한 transcription factor search.


 특정한 발현 패턴을 보이는 유전자의 발현 조절 메커니즘을 분석 하고자 할 때 기본적으로 유전자의 upstream 영역에서 작용하는 transcription factor(TF)를 알아보게 된다. TRNASFAC®은 기본적인 transcription factor 및 binding site에 대한 정보를 제공함과 동시에 미지 서열에 binding 가능한 transcription factor를 예측할 수 있는 MatchTM, PatchTM, 그리고 Catch® 프로그램도 제공하고 있다(Figure 4).

사용자 삽입 이미지
Figure 4. TRANSFAC Professional의 TF search를 위한 PATCH. Pattern match를 통한 미지의 서열에 binding 가능한 TF를 search한다. 이때 false positive를 최소화하기 위해 찾고자 하는 TF의 종 정보를 제한하여 식물 유전자의 경우 식물 데이터베이스를 사용하고 mamalian 유전자의 경우 mamalian 데이터베이스를 사용한다. 또한 특정 찾고자 하는 TF만을 대상으로 할 경우 분석자에 의해 선택된 TF만으로 구성된 프로파일을 제작하여 분석할 수도 있다.


 MatchTM는 TF의 binding site를 matrix로 구성하여 찾는 방법이며, PatchTM는 서열의 pattern match 방법을 이용하여 찾는 방법이다. Catch®는 composite elements를 찾고자 할 때 사용하게 되는데 보통 이들 프로그램을 모두 사용하여 가능한 모든 TF를 찾고 실험에 이용한다. 또한 실험적으로 하나하나 규명할 수도 있으나 유전체 전체 유전자를 대상으로 분석하고자 할 때, 웹으로 운영되는 다음 프로그램에 서열을 하나씩 분석하기는 매우 어려우므로 local 서버나 PC에 설치하여 batch로 서열을 분석할 수도 있다. 이후 얻어진 유전자의 upstream 영역에서 작용하는 TF의 profile정보는 통계적 기법을 통해 유의한 TF를 선별하기도 하고, 데이터베이스화하기도 한다.

또한 얼마 전 덴마크의 CLCBio사와의 협력을 통해 CLCMainWorkbench 혹은 CLCGenomicsWorkbench의 plug-in 기능을 통해 TF정보를 visualization 할 수도  있게 되었다. 따라서 NGS에 의한 RNA-seq 정보 및 유전자 발현정보와 함께 전사조절 ,    메커니즘까지 확대하여 함께 분석할 수 있는 최적의 데이터를 제공하고 있는 것이다.

사용자 삽입 이미지




Posted by 人Co

2010/04/27 14:55 2010/04/27 14:55

BIOBASE 소개

인 맞춤 의학시대를 가능케 한 NGS(Next Generation Sequencing) 기술로 인해 이제는 더 이상 유전자 서열정보만을 밝히는 것이 큰 의미를 내포하지 않는다. 생명과학 분야의 궁극적인 목표인 생명현상의 이해를 위해서는 쏟아지는 서열정보를 잘 꿰어 그들의 매우 정교한 세포내 역할을 규명해야 한다. (주)인실리코젠에서는 이러한 연구를 위해 필수적으로 요구되는 몇 가지 데이터베이스를 소개하고자 한다.

 최근 nature에 발표된 Ancient human genome project에 이용된 전사 조절인자 데이터베이스로 유명한 TRANSFAC을 서비스하고 있는 Biobase는 전문가 리뷰에 의한 생물학적 데이터베이스와 소프트웨어 및 생명과학분야의 분석 서비스에 뛰어난 세계적 선두 기업이다.

사용자 삽입 이미지
1986년 시작되어 1997년 German Research Center for Biotechnology에서 파생되어 설립된 이후로 전사조절인자를 비롯한 유전자 조절 메카니즘 데이터베이스 분야에서 독보적인 위치를 차지해 오고 있다. 의학을 비롯한 제약회사 및 연구기관을 포함한 전세계 수많은  고객에게 서비스를 제공하고 있으며, 생명과학 분야의 다양한 논문에서 현재의 데이터가 인용되고 있다.

 Biobase 제품군의 가장 큰 특징은 생물학 전문가들에 의한 데이터의 검토와 수정을 통해 지속적으로 업데이트된다는 것이다. 날마다 논문을 통해 쏟아지는 생명과학 분야의 다양한 데이터를 전문가의 리뷰를 통해 BIOBASE Knowledge Libray(BKL)로 재탄생 시켜 제공하고 있고 이들 데이터의 이해를 극대화 시킬수 있는 ExPlainTM을 서비스 함으로써 drug 혹은 biomarker 개발에 많은 연구자들이 효율적으로 활용 할 수 있도록 하고 있다. 그 서비스 목록은 크게 세 가지로 분류 된다.

1) BKL TRANSFAC

2) BKL PROTEOME

3) HGMD professional


 첫 번째,  TRANSFAC은 유전자 조절분야에서 세계 유일의 데이터베이스이며 표준이 될 정도의 고품질 데이터를 보장하고 있다. 이러한 평가는 The U.S. Bioinformatics Market의 보고에서도 TRANSFAC®을  주요 생물정보 툴 중 하나로 꼽는 등 세계적으로 높은 평가를 받고 있다. TRANSFAC suite에는 전사 조절인자와 관련된 모든 정보를 담고 있다.
Transcription factor, transcription factor binding site, 그리고 composite elements의 총체적인 정보로 구성되어 있으며, 유전자 돌연변이와 유전자 돌연변이에 관련된 질병에 관한 데이터베이스인 PathoDBTM 그리고 regulatory chromatin domain 정보를 담고 있는 S/MARtDBTM도 포함하고 있다.

사용자 삽입 이미지

 두 번째, PROTEOME은 단백질 수준의 조절, 즉 pathway정보를 제공하고 있다. 6개의 데이터베이스로 YPD(s.cerevisiae), HumanPSD, GPCR-PD, WormPD, MycoPath PD 그리고 PombePD(s.pombe)로 구성되어 기능이 밝혀진 최대한의 단백질을 활용하여 세포내에서의 pathway 조절 메카니즘을 총체적으로 이해 할 수 있도록 정보를 제공하고 있다. 이들 데이터는 관련 질병정보를 비롯한 참조논문과 데이터의 품질 정보를 모두 제공함으로써 다양한 생명과학 분야에서 인용되고 있다.

 마지막 HGMD는 human의 유전자 돌연변이 데이터베이스로 유전에 의한 질병관련 정보를 서비스하고 있다. Germ-line 돌연변이 데이터를 중심으로 주어진 유전자와 관련된 돌연변이 정보를 제공하고 있다. 2006년 이후 꾸준한 데이터베이스의 축척으로 2009년 3월 95,000건에 달하는 돌연변이 정보를 보유하고 있으며, 병변을 비롯한 서열정보, 유전체에서의 위치정보, 본래 특성 정보등 상세한 관련 정보를 제공 하고 있다.

 앞서 밝힌 내용과 같이 Biobase 제품군은 세포내 발현 조절과 관련된 총체적인 데이터베이스를 제공한다. 전사 수준의 발현조절인 promoter 분석(TRANSFAC), 단백질 수준의 pathway 분석(PROTEOM), 이후 phenotype과 관련된 유전적 질병 정보(HGMD) 등을
제공하며 다양한 생명과학 분야에 고품질의 데이터를 제공하고 있다.

다음 주부터 앞으로 3주 동안, 오늘 간략하게 말씀드린 Biobase 제품군의 세 가지 데이터베이스에 대하여 한 주에 하나씩 좀 더 자세한 내용으로 소개해드릴 예정입니다.  

여러분들의 많은 관심 부탁드립니다.
감사합니다.






Posted by 人Co

2010/04/19 15:07 2010/04/19 15:07

지난 3월 11일, (주)인실리코젠CLC bio사, 그리고 서울대학교 식물유전체육종연구소와의 NGS 데이터 분석을 위한 기술적인 정보 교환과 공동 연구 개발 및 컨설팅을 위한 프로모션 등의 내용에 대하여 MOU를 체결하였습니다.

이번 MOU 체결식에는 (주)인실리코젠의 최남우 대표이사님, 서울대학교 식물유전체육종연구소의 소장님이신 고희종 교수님, CLC bio사의 아시아 마케 총괄 담당을 맡은 Wayne Hsu가 CEO인 Thomas Knudsen를 대신하여 참석하였으며, Next Generation Sequencing 기술을 바탕으로 한 식물의 게놈 분석을 위하여 그 동안 수행했던 프로젝트의 다양한 경험들과 기술적인 능력들을 공유하기로 동의하였습니다.

사용자 삽입 이미지
왼쪽부터 CLC bio사의 Wayne Hsu, 서울대학교 고희종 교수님, (주)인실리코젠의 최남우 대표이사님


서울대학교 식물유전체육종연구소는 막대한 양의 NGS genome 데이터 분석에 중요한 기술적인 문제를 해결할 수 있는 강력한 파트너들을 갖게 됨으로서, CLC bio사의 NGS 데이터 분석을 위한 생물적보학 솔루션과 (주)인실리코젠의 고품질의 컨설팅 서비스를 모두 지원 받을 수 있게 되었고 또한 국내에서 뿐만 아니라 국제적으로 생물정보학과 식물 과학 분야에서 중요한 경쟁력을 갖게 될 것으로 생각됩니다.


사용자 삽입 이미지
이번 MOU 행사는 한국과 아시아의 NGS를 이용한 유전체 연구에 새로운 장을 마련한 것으로, (주)인실리코젠CLC bio사서울대학교의 NGS 분석 관련한 프로젝트를 성공시키는데 최선의 지원을 해줄 것을 약속하였습니다.



Posted by 人Co

2010/04/12 17:52 2010/04/12 17:52
, , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/69

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
  5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis



이번 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

3-5. Centralization for High-throughput Data Analysis


 최근 들어 분석하고자 하는 데이터의 용량이 기하급수적으로 늘어남에 따라 데스크탑 컴퓨터 사양으로 분석하기가 어려워지고 있다. 따라서 생물정보 전문가들의 도움이 많이 요구되지만, 한 두 명의 생물정보 전문가들이 처리하기에는 분석하고자 하는 데이터가 급격하게 증가되고 이를 활용한 연구 분야가 다양하여 대규모의 생물정보 전문가를 가용하고 있는 센터가 아닌 곳에서 모든 분석을 지원하는 것은 쉽지가 않다. 또한 유전체 분석과 같은 대규모 프로젝트가 컨소시엄 형식으로 수행되고 있는 상황에서는 다른 연구팀과의 상호 협조를 통한 공동 연구가 중요하며, 이를 위한 데이터의 공유와 관리도 중요시되고 있다. 따라서 연구자들이 공동으로 데이터를 업데이트하거나 다운로드할 수 있는 데이터베이스와 대규모의 용량을 분석할 수 있는 서버, 그리고 서버에서 분석한 결과를 개별 컴퓨터에서 확인할 수 있는 시스템의 유기적인 관계가 요구된다. 하지만 생물데이터의 형식과 이를 분석하는 프로그램의 종류가 다양하므로 데이터의 공유와 관리, 그리고 분석 프로그램의 연계가 상당히 복잡하다.

 대다수의 생물학자들이 윈도우 운영체제의 컴퓨터를 사용하고 있으며 Vector NTI, DNA Star와 같은 생물데이터를 분석하는 상용화 프로그램을 많이 이용하고 있다. 하지만 이런 상용화 소프트웨어는 윈도우에서만 사용가능하며, 분석하는 데이터의 용량 및 길이에 제한을 두고있으므로, 대규모의 데이터를 분석하는 것은 적절하지 않다.

 CLC bio사에서는 대규모의 NGS 데이터 및 대규모의 데이터를 서버에서 분석할 수 있는 CLC Genomics Server(그림 11)와 데스크탑 컴퓨터에서 결과를 확인하고 Vector NTI, DNA Star와 같은 다양한 분석 프로그램에서 나온 결과 데이터를 사용할 수 있는 CLC Genomics Workbench를 개발하였다.

사용자 삽입 이미지
그림 11. Genomics Server 시스템 아키텍처

 CLC Genomics Workbench에서 CLC Genomics Server에 NGS 데이터 및 대규모 분석 데이터를 업데이트하고 분석을 수행한 뒤 CLC Genomic Server에서 분석되어진 결과를 CLC Genomics Workbench에서 확인할 수 있는 플러그인이 있다. 이를 활용하면 대규모 리소스를 필요로 하는 데이터의 분석과 데스크탑 컴퓨터에서 가능한 데이터 분석을 구분하여 연구 업무의 효율성을 증대시킬 수 있다. 또한 윈도우, 리눅스, 매킨토시 등 운영체제에 관계없이 설치가 가능하기 때문에 다양한 운영체제에서 데이터를 분석하는 연구자들이 분석결과를 공유할 수 있다. 대부분의 상용화 프로그램은 연구자들이 원하는 분석 알고리즘이 없을 경우 이후 버전의 업그레이드 내용을 기다리거나, 다른 프로그램을 이용하여 분석할 수밖에 없으므로 분석의 일관성을 유지하기 어렵고, 번거로움이 가증되었다.

 하지만, CLC Genomics Server에서는 External Application 플러그인을 적용하여 CLC Genomics Workbench에 설치되어 있지 않는 알고리즘 및 분석법을 커맨드라인 방식으로 설치한 후 간단한 설정을 통해 별도의 인터페이스를 만들지 않더라도 CLC Genomics Workbench에서 데이터의 입력과 출력을 수행할 수 있으며, 분석 결과를 다른 분석에 응용할 수 있다.

 그림 12는 CLC Genomics Server에서 external application 모듈을 설정하는 것을 보이고 있으며, 그림 13은 external application을 통해서 구축한 새로운 모듈을 이용하여 분석하는 화면을 보이고 있다. 이와 같이 서버급에서 분석할 수 있는 시스템과 데스크탑 컴퓨터에서 분석할 수 있는 프로그램의 연계를 통해서 생물학자들이 복잡하고 다양한 데이터를 분석하는데 많은 도움을 줄 수 있을 것이다.

사용자 삽입 이미지
그림 12. External Application of CLC Genomics Server. 자주 사용되는 커맨드라인 방식의 프로그램은 CLC Genomics Server의 External Application 설정을 통해 별도의 인터페이스를 만들지 않고 CLC Genomics Workbench에서 수행할 수 있다. 이를 이용하여 사용자에 맞춰진 workbench로 재구성할 수 있다.

사용자 삽입 이미지
그림 13. CLC Genomics Workbench 플러그인 적용. External application 플러그인으로 구축된 새로운 모듈은 CLC Genomics Workbench에서 분석이 가능하다.






저희 (주)인실리코젠 Codes팀은 최신 생물정보학관련 연구 동향에 대한 기술 소식지(Quipu Issue Paper)를 발간하고 이 소식지를 통하여 빠르게 발전하는 NGS 시대에 다양한 변화를 습득하고 하시는 연구에 조금이나마 도움이 되길 바라면서 지난 2월부터 약 2개월에 걸쳐 저희 회사 블로그 Quipu(http://www.insilicogen.com/blog/)를 통해 연재를 진행하였습니다. 지난 2개월 동안 최신 생물정보학관련 연구 동향에 대한 기술 소식지 블로그 연재에 많은 관심 가져주셔서 진심으로 감사드리며 저희 (주)인실리코젠은 앞으로도 생물정보 분야에서 끊임없이 노력하는 기업이 되겠습니다.


(주)인실리코젠 Codes팀 배상
Tel: 031-278-0061 / E-mail: codes@insilicogen.com



Posted by 人Co

2010/04/09 09:42 2010/04/09 09:42

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis


이번 연재에서는 현재까지 공개  데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining에 대해 알아보겠습니다.


3-4. Gene Network Discovery by Text-mining


 최근의 생물학 연구의 이슈는 데이터를 생산하는 것보다 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 부분에 있다. 즉 데이터의 ‘생산’에서 ‘연결’로 생물정보학의 관점이 옮겨가고 있다고 할 수 있다. 따라서 다양한 분야의 실험데이터, 문헌데이터, 공개데이터 등을 네트워크 형식으로 연결하여 새로운 지식을 발굴할 수 있는 시스템이 주목받고 있다.

현재 NCBI의 PubMed에는 18,000,000건 이상의 논문들이 수록되어 있으며, 하루에도 수  십편의 논문들이 새롭게 업데이트되고 있다. PubMed에 수록되어 있는 저널들은 의학, 생명, 생물에 관련된 연구 논문들이며, 오랜 기간에 걸쳐 저널의 정보에 대한 공신력이 검증된 논문들이라고 할 수 있다. 따라서 연구자가 새로운 주제를 기반으로 하여 연구를 시작하고자 할 경우, 가장 선행되어져야 하는 것은 논문 리뷰라고 할 수 있다. 다른 사람이 비슷한 연구를 수행한 경험이 있는지, 어떠한 방법에 의해서 연구가 진행되었는지, 또한 그 결과는 어떠하였는지 등을 참조하게 된다. 이와 같은 논문 리뷰가 선행된 후 자신의 연구 방향을 설정하게 된다. 그만큼 다른 사람에 의해서 분석되어진 연구 정보가 최근 들어서는 상당히 중요하다고 할 수 있다. 더구나, 최근에는 인터넷을 이용한 데이터의 정보교환이 활발하여 엄청나게 많은 문헌 정보들을 손쉽게 찾아볼 수 있기 때문에 일정한 부분에서는 직접 실험을 하지 않더라도 그와 유사한 실험을 수행한 결과물을 얻을 수 있다. 따라서 이와 같은 문헌 정보의 모래 언덕을 잘 살펴서 보물을 찾아낼 수 있는 방법들이 주목을 받고 있다.

한 예로 Ariadne사의 MedScan과 Pathway Studio는 텍스트 마이닝이라는 컴퓨터 알고리즘을 이용하여 주어진 문헌 정보에서 유전자와 질병, 화학물질, 세포내 프로세스, 대사회로와 같은 엔티티(Entity)들의 관계를 자동으로 추출하여 테이블과 다양한 그래프로 관계들을 보여주는 프로그램으로 대사회로, 유전자 조절 네트워크, 단백질 상호작용 맵과 같은 실험결과를 이해하는데 상당히 유용하다(그림 7). Pathway Studio는 척추동물, 식물 연구의 생물학적 연관관계, ontology와 pathway들의 정보를 포함하고 있는 ResNet 데이터베이스와 자연언어처리기술을 이용하여 과학문헌을 자동으로 읽고 생물학적인 관계를 추출하는 기능을 가진 MedScan으로 구성되어 있다. MedScan의 경우에는 약 1천개의 논문 초록을 대상으로 생물학적인 관계를 추출하는데 2~3분밖에 걸리지 않으므로, 대량의 수집된 논문에서 특정한 바이오마커를 발굴하거나 특정 단백질 또는 질병과 관련된 네트워크 정보를 검토하기에는 상당히 유용하다고 할 수 있다.
 
보통 하나의 유전자와 관계하는 다양한 정보를 찾아보기 위해서는 수많은 데이터베이스와 문헌, 웹사이트를 검색하여 그 연관관계를 하나씩 도출해야 되지만, Pathway Studio와 같은 프로그램은 그와 같은 일련의 시간과 노동력이 상당히 투자되어야 하는 업무를 효율적으로 지원함으로써 연구자의 보다 빠르고 충실한 결과물을 얻을 수 있도록 지원한다.

사용자 삽입 이미지
그림 7. Architecture of MedScan and Pathway Studio

그림 8은 Cholestasis에 관련된 약물과 단백질 등의 연관관계를 Pathway Studio를 이용하여 연구자가 쉽게 이해할 수 있는 방식의 그래프로 재구성한 것이다. 이와 같은 방법으로 복잡한 질병과 약물, 단백질 및 대사 작용의 네트워크를 시각적으로 이해하기 쉽게 제공하고 있다.

사용자 삽입 이미지
그림 8. Pathway Studio workflow diagram


그림 9는 EMB라는 유전자를 대상으로 관련 있는 다양한 유전자 및 질병, 약물, 세포내  프로세스 등을 연결한 그래프로서 연결되어있는 라인을 클릭하면 그림과 같이 연관관계를 표현하는 문헌정보를 확인할 수 있어 연관관계의 정확성 및 신뢰성을 뒷받침하고 있다.

사용자 삽입 이미지
그림 9. Entity와 Relation의 네트워크 및 관련 문헌의 확인


그림 10은 PubMed에서 Curcumin과 Prostate Cancer에 관련된 논문을 검색하여 수집된 수 십 여 편의 논문에서 MedScan의 텍스트 마이닝 알고리즘을 이용하여 네트워크를 재구성한 것이다. 그림에서 보는 것과 같이 Curcumin과 Prostate Cancer 사이에 있는 단백질이 Prostate Cancer를 억제하는 역할을 한다는 정보를 검증된 문헌을 통해서 확인하는 것이다.


사용자 삽입 이미지
그림 10. MedScan을 통한 문헌정보의 네트워크 구성


다음 연재에서는 NGS Edition의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-throughput Data Analysis에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.


Posted by 人Co

2010/04/05 15:44 2010/04/05 15:44

연재 순서

   1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

이번 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학인 'Next Generation Bioinformatics'에 대해 알아보겠습니다.


3-1. Next Generation Bioinformatics

 
 Applied Biosystems, Illumina 그리고 Roche 등과 같은 분석장비 개발회사에서 출시한 Next Generation Sequencers의 출현으로 전통적인 유전체 데이터 분석법에 새로운 변화와 도전이 요구되고 있다. 이러한 Sequencer들은 전에는 생각할 수 없었던 많은 양의 시퀀스 데이터를 쏟아내고 있고 이것은 생물정보학과 전산 생물학에 다양한 변화와 혁신을 초래하였다.

 Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보학, 즉 ‘Next Generation Bioinformatics’에 대한 준비를 해야 할 것이다. NGS 데이터를 다룰 수 있는 충분한 저장장치, 관리 솔루션 그리고 생물정보학 분석 파이프라인 구축이 성공적인 NGS 연구에 필수적인 요소이다.

 현재 대다수의 생물정보학 전문가들은 생물학자들이 다루기 힘든 커맨드 라인 방식의 데이터 처리로 실험 연구자들과의 분석 결과 검토를 위한 자료를 따로 작성하고 있다. 이는 생물학 데이터가 NGS의 도입에 의해 폭발적으로 증가된 상황에서는 매우 소모적인 것으로 실험 연구자들이 쉽게 분석결과를 검토하고 판별할 수 있는 플랫폼 개발이 요구되며, 직관적이거나 그래픽 사용자 인터페이스에 대한 요구를 좀 더 다양하게 충족시켜야 함을 나타낸다. 뿐만 아니라 대부분의 초기 분석이 리눅스와 같은 유닉스 환경에서 이뤄지고 있고, 생물학적 의미론을 분석하는 단계에서는 대부분 실험 연구자들이 이용하는 윈도우 환경에서 이뤄지므로 이들 간의 유기적인 데이터 교류를 위한 포맷 변화도 필요한 실정이다. 따라서 운영체제에 상관없이 NGS 데이터를 분석할 수 있으며, 서로 다른 운영체제에서도 데이터를 자유롭게 입출력을 할 수 있는 시스템 마련이 필요하다. 또한 공동 연구 및 컨소시엄을 통한 분석 방법이 늘어나는 추세이므로, 분석 데이터를 공동으로 관리할 수 있는 데이터베이스의 구성, 분석 프로그램의 표준화 및 정규화 그리고 많은 프로그램들을 연계한 효율적인 데이터 분석 파이프라인 구축 또한 요구된다.

앞으로 NGS 데이터는 임상 진단과 개인 맞춤 의약 연구에 직접적으로 이용되어질 전망이다. 이에 앞서 언급된 차세대 생물정보학에 대한 다양한 요구들이 쏟아질 것이다. 이러한 문제들이 해결되지 않는다면 조만간 생물정보학이 생물학 관련 연구에 큰 걸림돌이 될 수 있을 것이다[1].
 

다음 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에 대해 알아보겠습니다.  많은 관심 부탁드립니다.



참고문헌

1. Kwok-Wing Stephen Tsui (2009) Next Generation DNA Sequencing and Bioinformatics: Bottlenecks and Opportunities. The Third International Symposium on Optimization and Systems Biology

Posted by 人Co

2010/03/29 17:30 2010/03/29 17:30
, , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/64



« Previous : 1 : ... 3 : 4 : 5 : 6 : 7 : 8 : 9 : 10 : Next »