들어가는 말

The Cancer Genome Atlas (TCGA)the Internal Cancer Genome Consortium (ICGC) 같은 대규모 암 유전체 연구 프로젝트를 통해 각기 다른 여러 기술적 플랫폼을 이용하여 다양한 형태의 데이터가 생산되고 있으며, 이러한 양질의 데이터를 자신의 연구에 활용하고자 하는 분들이 많을 것이라 생각한다. 그러나 전산적인 기술이 부족한 과학자들의 경우 유전체 데이터를 통합, 탐구, 분석하는 것이 쉽지 않은 일이다. 이러한 문제점을 해결하기 위하여 국가 단위의 연구 프로젝트 결과를 연구자들이 쉽게 활용할 수 있도록 분석 도구나 결과를 요약해 놓은 웹 페이지가 생겨나고 있다. 그중 암 유전체 연구에 있어서 매우 유용한 정보 사이트가 cBioPortal이다. cBioPortal은 암 유전체 연구자들의 데이터 접근장벽을 낮추기 위해서 개발되었으며 이를 이용하면 암 유전체 데이터로부터 새로운 생물학적 통찰력, 치료, 임상시험에 대한 단서를 얻을 수 있다.

cBioPortal에 대하여

cBioPortal은 다양한 층위의 암 유전체 데이터를 탐색하고 분석하며, 그 결과를 가시적으로 확인할 수 있는 온라인 포탈 사이트다. 자세히 설명하자면, 암 조직이나 세포로부터 생산될 수 있는 유전체, 후성 유전체, 전사체, 단백질 발현체와 같은 다양한 형태의 데이터를 연구자들이 이해할 수 있도록 분석, 정리하여 그 결과를 제공하고 있다. 샘플과 유전자, 그리고 pathway 정보들에 따른 유전적 변화를 관찰할 수 있고 그 결과는 임상 정보와 연계되어 있다. 포탈에서 제공하는 기능을 보면 유전적 수준의 결과를 네트워크 및 생존 분석, 환자 중심 정보와 같은 다양한 플랫폼에서 여러 방법으로 가시화하여 제공한다. 이 글을 통해서 cBioPortal에 대한 소개 및 실질적인 활용방법을 설명하여 사용자들이 필요한 연구에 잘 활용할 수 있도록 도움을 주고자 한다.

cBioPortal은 각 유전자, 샘플, 그리고 데이터 타입에 따라 시각화 및 분석을 가능하게 하여 다차원적인 암 유전체의 탐색을 용이하게 한다. 이를 통해 사용자는 암 연구의 샘플에 따른 유전자 변형 패턴을 시각화할 수 있으며, 다양한 암 종의 연구 결과에서 유전자 변이 빈도(gene alteration frequency)를 비교할 수 있다. 그리고 포탈에서는 생물학적 pathway 탐색, 생존분석, 유전자 변이 간의 상호 연관성 분석, 선별적 데이터 다운로드, 프로그래밍적 접근이 가능하며, 논문에 발표할 수준의 잘 정리된 시각화 결과를 제공한다.

cBioPortal에는 체세포 변이(somatic mutation), 유전자 수 증폭 또는 소실(DNA copy-number alterations, CNAs), mRNA와 microRNA(miRNA) 발현, 유전자 메틸화(DNA methylation), 단백질 또는 인산단백질(phosphoprotein)의 양과 같은 형태의 데이터가 통합되어 있으며, 데이터는 Cancer Cell Line Encyclopedia (CCLE) 같은 10개의 이미 논문화된 연구와 TCGA 파이프라인에서 현재 진행되고 있는 20개의 연구 결과가 포함되어 있다.

주요 검색기능 및 결과

cBioPortal에 있는 게놈 데이터는 웹 페이지에서 질의 또는 다운로드를 하거나 R이나 MATLAB과 같은 프로그램 패키지를 이용하여 접속할 수 있다. 사용자는 단일 연구 또는 여러 연구 결과에 대한 질의가 가능하고, 각각의 암 샘플에 관련된 유전적 변형도 확인해 볼 수 있다.

1. 질의 방법
cBioPortal의 첫 페이지를 보면 포탈에 있는 전체 암 종과 각 연구 프로젝트에 대한 정보가 트리 형태로 나와 있다(Fig 1). 사용자는 관심 있는 암의 종류와 암 종에 대한 각 연구 결과를 선택하고, 보고자 하는 유전자 정보(한 개 이상)를 넣고 검색을 실행한다. 연구를 선택할 때 단일 또는 여러 연구를 포함하여 질의가 가능하며 기존에 다른 사용자들이 정의한 유전자들(gene set)을 선택하여 진행할 수도 있다.

< Fig 1. 단일 연구 질의 실행방법 >


2. 질의 결과들
질의를 수행하고 나면 전체 결과의 요약 정보를 포함한 10개의 결과와 그 결과를 다운로드 받거나 즐겨찾기를 할 수 있는 정보들이 하위 메뉴 형태로 제공된다. 각각의 결과는 시각화되어 제공되고 직관적으로 수치적인 정보도 확인이 가능하다.

아래는 각각의 결과에 대한 정보이다.

2-1. OncoPrint
: OncoPrint는 각 실험정보에 대한 질의 유전자들의 변이 결과를 시각적으로 축약하여 표현한 결과이다(Fig 2). 각 유전자에 대한 변이정보, Copy Number Alteration(CNA), 유전자 또는 단백질 발현의 변화량을 색깔 별로 표현하여 보여주며 각 샘플에 대한 부가적인 정보는 블록에 마우스를 가져갔을 때, 확인할 수 있다.



< Fig 2. OncoPrint tab >


2-2. Mutual Exclusivity
: 암의 생물학적 기능은 다른 유전자나 다양한 기능의 작용에 의하여 조절된다. 이런 상황에 대한 유전자 간의 관계 정보가 상호 배타성(Mutual Exclusivity)이고, 이와 반대되는 개념이 동시 발생(co-occurrence)이다. 즉, 한 유전자의 발현이나 변이가 다른 유전자의 발현을 억제하거나 증가시키는 현상을 나타낸다. 두 유전자 간의 관련성은 odd ratio (OR)로 계산하여 제공하며 결과에 대한 신뢰성은 Fisher’s exact test를 통해 표현되어 있다 (Fig 3).

< Fig 3. The Mutual Exclusivity tab >


2-3. Correlation Plots
: cBioPortal에서는 유전자의 변이나 증폭, 소실에 대한 결과뿐 아니라, mRNA, 단백질 발현량 또는 DNA methylation과 같은 결과 간의 관계도 시각화하여 보여주는데 correlation plot 결과가 이에 해당한다. 사용자의 선택에 따라 각 유전자에 대한 다른 데이터의 관련성을 다양한 그래프의 형태로 보여준다. 각 유전자의 발현 패턴과 질병과의 연관성을 확인할 수 있고, 여러 샘플 중 어느 샘플에서 유전적 변이가 발생했는지 찾을 수 있어 매우 유용하다(Fig 4). 그 결과는 그래프에서 마우스를 점에 갖다 대면 자세한 정보를 확인할 수 있다.

< Fig 4. The Plots tab >


2-4. Mutations
: 변이(Mutation) 결과에서는 각 유전자의 nonsynonymous 변이정보(아미노산 서열이 변경된 경우)를 볼 수 있는데, Pfam protein domain 정보를 토대로 모든 변이의 단백질에서의 위치와 종류, 변이가 일어난 샘플 정보 등을 확인할 수 있다(Fig 5).

< Fig 5. The Mutation tab >

2-5. Survival
: 암 유전체 연구에서 중요한 정보 중 하나가 변이 발생과 환자의 생존과의 연관성이며, 이것을 확인할 수 있는 방법이 생존율 분석(survival analysis)이다. 생존율 분석은 Kaplan-Meier 방법으로 계산하며, Disease-free survival은 더 이상 암이 진행되지 않는 환자를 대상으로 생존율을 계산한 결과이다(Fig 6).

< Fig 6. The Survival tab >

2-6. Network
: Network는 암에서 변이가 발생한 유전자들 간의 연관성을 network 형태로 보여주는 결과이다(Fig 7). Human Reference Protein Database (HPRD), Reactome, NCI, 그리고 Memorial Sloan-Kettering Center (MSKCC) Cancer Cell Map의 유전자간의 상호 연관성 정보를 가지고 network를 보여주며, 유전자의 변이가 많은 유전자일수록 붉은색으로 표현된다. 오른쪽 메뉴에서 선택하면 cancer와 연관되어 있거나 FDA에 승인을 받은 약물과의 연관성도 동시에 확인할 수 있다.

< Fig 7. The Network tab >


글을 마치며

유전자의 염기해독 기술이 급속도로 발전함에 따라 시간적, 비용적인 지출이 줄어들고 있으며, 이로 인해 기존에 진행되었던 암 유전체 연구의 스케일이나 결과가 매우 빠르게 증가하고 있다. 이와 더불어 암과 같은 질병은 한가지 요인보다 다양한 요인들에 의해 생겨나고, 그 원인을 찾고 치료하기 위해서는 다양한 형태의 데이터 분석을 통해서만 실마리를 찾을 수 있다는 것이 다수의 견해이다. 대단위의 암 유전체 데이터를 분석하려면 암에 대한 전공지식뿐만 아니라 전산적, 통계적 지식과 기술이 필수적이나 모든 연구자가 그러한 능력을 갖추는 것은 단시간 내에 불가능한 것이 사실이다. 그동안 나름대로 생물정보학적인 연구를 진행했었던 경험으로 볼 때, 자신의 연구분야에 대한 최신 정보를 습득하는 일도 쉽지 않은 상황에 기초부터 생물 정보학을 연마하는 것은 시간 낭비일 수 있다고 보며, 앞서 소개한 것처럼 관련 전문가들이 구축한 정보들을 우선하여 살펴보고 그 이후에 어떻게 자신의 연구와 연결할 것인지를 고민해보는 것이 현실적으로 현명한 판단이라 생각한다. cBioPortal 이외에도 많은 유용한 정보가 온라인에 공개되고 있으니 많은 연구자들이 잘 활용하여 좋은 연구 결과의 결실로 연결되기를 바란다.



작성자 : Codes실 오태윤 책임컨설턴트 

Posted by 人Co

2016/11/25 17:04 2016/11/25 17:04
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/228

Trackback URL : 이 글에는 트랙백을 보낼 수 없습니다



« Previous : 1 : ... 154 : 155 : 156 : 157 : 158 : 159 : 160 : 161 : 162 : ... 374 : Next »