연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


약물 작용과 효과의 profiling을 위한 ChemEffect Database


 현재 지구상에는 약 800만 종의 화학물질이 존재하고 그 중에서 8만여 종이 상업적으로 생산, 판매되고 있다고 한다. 우리나라에서 사용되는 화학물질의 종류는 약 1만여종으로 매년 증가하고 있다. 이러한 화학물질 가운데 사람의 유전자에 영향을 미치는지 파악하기 위해서는 DNA chip실험을 통한 분석 및 다른 다양한 실험을 통해서 판별이 가능하다.

 약제로 개발되는 화학물질의 경우 인체에 부작용을 일으키는지 여부는 실험을 거치지 않고서는 판별할 수 없다. 최근 들어, 독성유전학이라는 분야가 새로운 연구로 각광을 받고 있으며, 산업 현장 및 일상생활속에서 접하고 있는 중금속이 인체의 유전자에 미치는 영향을 파악하고자 하고 있다.

 AriadneGenomics사 에서는 이러한 화학물질의 특성 및 유전자에 영향을 미치는 지 여부 등을 기존의 논문 정보와 실험 정보등을 통해서 “ChemEffect” 라는 데이터베이스를 구축하여 서비스를 제공하고 있다.

 ChemEffect 데이터베이스는 화학물질인 small molecular가 gene과의 연관관계 및 cellular processes에서의 역할들에 대한 다양한 정보를 담고 있다. 이 정보는 약물의 화학물질에 대해서 독성과 compound 타입에 의한 부작용을 프로파일링 하거나 효소정보를 찾을 때, 독성과 약물 메커니즘 사이의 관계를 결정 지을 때 그리고 대체 물질을 찾을 때 많은 도움이 된다.

사용자 삽입 이미지
그림 1. ChemEffect 데이터베이스의 Small molecule과 protein의 다양한 관계 정보.

ChemEffect 데이터베이스를 이용하면 아래와 같은 문제들을 빠르게 해결할 수 있다.

  • 후보 약물과 관련된 pathway와 연결되어있는 질병을 확인할 때,
  • Target pathway 또는 Target protein에 영향을 미치는 compound를 발견하고자 할 때,
  • Compound에 의해 영향을 받는 Target protein을 찾을 때,
  • Compound와 관련 있는 부작용에 대한 연구를 할 때,
  • 약효, 독성, drug-drug 작용과 같은 잠재적인 결과와 compound 사이의 관계를 설계 할 때,

ChemEffect 데이터베이스의 구성


 ChemEffect는 NLP(Natural Language Processing) 기술을 응용하여 과학문헌 정보에서생물학적인 정보를 추출하는 MedScan과 추출된 정보를 이용하여 다양한 정보들 간의 네트워크를 그래픽적으로 표현할 수 있는 PathwayStudio로 구성되어 있다.

사용자 삽입 이미지
그림 2. ChemEffect 데이터베이스 Component 구성. MedScan을 이용하여 Text 정보를 추출하고 추출된 데이터는 ChemEffect 데이터베이스에 저장된다. 이후 데이터베이스의 데이터들을 활용하여 PathwayStudio에서 는 데이터들 사이의 관계를 그래픽으로 표현하여 하나의 메커니즘으로 생성된다.


ChemEffect 데이터의 구성


 ChemEffect의 데이터는 앞서 말한 것과 같이 MedScan의 텍스트-마이닝 기법을 이용하여 추출된다. Pathway Studio의 기본 데이터베이스인 ResNet Mammalian 데이터베이스와 결합된 ChemEffect에는 NCBI PubMed에 투고된 논문 정보로부터 추출된 Entity, Relations 정보 이외에도 기존에 알려져 있는 Pathway, Ontologies, Annotation 정보들도 함께 포함하고 있어 보다 다양한 정보를 얻을 수 있다.

사용자 삽입 이미지
Table 1. ChemEffect 데이터 구성 표(2.0 version).



ChemEffect 데이터베이스를 활용한 Workflow


 ChemEffect 데이터베이스를 활용해서 1차적으로 보고자 하는 drug 또는 small molecule에 대해 지식 기반의 프로파일링을 수행 할 수 있다. 예를 들어 Sorafenib라는 Small molecule의 1차 검색을 통해서 이 small molecule과 관련 있는(Metabolized by, Directly Inhibits, DownRegulates, UpRegulates) 단백질 정보와 Sorafenib에 의해 Inhibit되고 Activate하는 cell processes에는 어떤 것들이 있는지 프로파일링 정보를 얻을 수 있다. 모든 정보에 대해서는 이를 뒷받침하는 문헌 정보와 링크가 되어 있어 바로 확인이 가능하므로 분석된 데이터에 대한 신뢰성이 상당히 높다고 할 수 있다.

사용자 삽입 이미지
그림 3. Small molecule(Sorafenib)에 대한 knowledge profile 정보.


 더 나아가서는 Drug Discovery를 할 때 다양한 Application에서 ChemEffect 데이터베이스를 사용할 수 있다. In silico 단계에서 Target을 validation 할 때, In vitro 단계의 Lead Optimization, In vivo 단계에서의 Candidate Nomination/Preclinical 이 세 가지 모든 과정을 통합하고 해석하고 마지막으로 최종 결정에 이르기까지 유용하게 응용 될 수 있다.

사용자 삽입 이미지
그림 4. Drug discovery의 세 단계 Application. 각 단계를 통합, 해석, 결정하는 데 있어서 다양한 Application에 ChemEffect 데이터베이스를 사용하여 Drug discovery를 할 수 있다.

Posted by 人Co

2010/06/28 17:39 2010/06/28 17:39

연재 순서

 1. PathwayStudio 소개
 2. 문헌정보를 활용한 유전자 네트워크 분석
 3. Chip 실험 데이터에서의 유전자 네트워크 분석
 4. Drug 발굴을 위한 지식 데이터베이스 ChemEffect


MedScan의 필요성


 과학 문헌의 대표적인 데이터베이스인 NCBI의 PubMed는 시간이 지날수록 등록되는 문헌의 수가 급속도로 증가하고 있으며, 최근에는 약 1,900만건 이상의 문헌들을 서비스하고 있다. 즉, 증가의 추세로 볼 때 하루에 약 4,100여건의 문헌이 업데이트되고 있다. 문헌이 기하급수적으로 증가함에 따라 관련 연구에 대한 정보를 찾기 위해서 연구자들은 점점 더 많은 시간과 노력을 기울여야 한다. 이에 따라 문헌 속에서 생물학적인 정보를 자동으로 추출하는 시스템의 필요성이 증가하고 있다.

사용자 삽입 이미지
그림 1. NCBI PubMed 문헌의 증가 속도.


MedScan의 특징


 이번 블로그에서는 PathwayStudio와 연계된 프로그램으로 PubMed, Google, 그리고 PDF, DOC 형식으로 된 문헌에서 텍스트 마이닝 기법으로 생물학적인 의미가 있는 데이터를 자동으로 추출하는 MedScan에 대해 소개하고자 한다. 데이터를 추출할 때 사용되는 텍스트 마이닝 기법은 복합 문서와 인터넷 페이지 등과 같은 비정형 데이터로부터 자연언어처리 기술과 문서처리 기술을 적용하여 유용한 정보를 추출하고 가공하는 기술을 말한다.

사용자 삽입 이미지
그림 2. MedScan 시스템.

텍스트 마이닝 기법을 이용한 MedScan은 아래와 같은 특징들을 가지고 있다.

  • 생물학적인 문헌에서 정확하게 데이터를 추출할 수 있도록 과학적 언어에 Focusing
  • 생물학 전문가에 의한 정보의 수정 및 Dictionary라고 정의된 Mammalian, Plant에 특화된 텍스트 마이닝
  • 2분안에 918개의 abstract 다운로드, 7,700개 문장 리뷰, 7,300개 entity와 577개의 relation 관계 확인을 동시에 할 수 있을 정도의 빠른 속도
  • 동일한 주제의 연구 정보에 대한 중복성 제거
  • 생물학 전문가의 수정 및 지속적인 검증을 통한 10% 이하의 낮은 False positive 데이터
  • Dictionary 및 검색 패턴을 연구자 의도에 따른 customization 가능

Tutorial


 MedScan은 Pathway Sutido를 통해 실행시킬 수 있다. 실행된 화면은 그림 3에서 보는 것과 같이 사용자가 친숙하게 사용할 수 있도록 인터페이스가 구성되어 있다. MedScan에 서 문헌을 검색하기에 앞서 먼저 Catridge를 선택한다. Human, Mouse, Rat과 같은 mammal에 대한 검색을 할 때에는 Standard catridge를 선택하고, Plant와 관련된 검색을 할 때에는 Plant catridge를 선택한다. 간단하게 설정을 마치고 나면 검색을 수행할 수 있다.

사용자 삽입 이미지
그림 3. MedScan 인터페이스.



문헌 검색

 
 검색은 Popular Destinations과 Quick Import 두 가지 검색 방법을 이용한다. Popular Destinations에서는 Search PubMed, Search BioMed Central, Search HighWire Press, Search Google Scholar, Search Google 다섯 가지의 검색 할 수 있는 destination(그림 4)이 제공된다. 각각을 클릭하면 MedScan에서 바로 웹 사이트로 연결이 되어 인터넷 창을 따로 띄우지 않고도 검색을 수행 할 수 있도록 되어 있다. Quick Import 검색은 웹 사이트로 직접 연결하여 데이터를 검색하는 것보다 조금 더 빠르고 편리한 방법이다. 웹사이트에 연결하지 않고 바로 쿼리를 입력할 수 있도록 되어 있어서 Import PubMed Dataset에 쿼리를 입력하고 Query and Import 버튼을 클릭하면 기본적으로 PubMed abstract에서 1000개까지의 abstract을 추출해 준다.

사용자 삽입 이미지
그림 4. MedScan 검색 방법. 1) Popular Destinations 2) Quick Import

 Popular Destination 검색 가운데 “Search PubMed”를 선택하면, NCBI의 PubMed와 동일한 화면을 볼 수 있다. NCBI의 PubMed에서 문헌을 검색할 때와 동일한 방법으로 알고자하는 쿼리를 입력하고 검색을 수행한다. PubMed에서 문헌을 검색할 때 Display Setting을 Abstract로 변환하고, 페이지당 보여지는 문헌의 개수를 200개로 변환하면 더욱 더 많은 정보를 추출할 수 있다는 것을 염두해두자. 검색된 Abstract에서 검색하고자 했던 쿼리와 관련이 있는 정보들이 있는 문장은 노란색 배경처리되어 표시되고 생물학적인 의미를 지니고 있는 단어는 초록색으로 표시가 된다. 표시가 된 부분은 자동으로 Entity와 Relation으로 추출되어 우측 상단의 테이블 형태로 정리가 된다.

검색 결과


 검색 결과가 정리된 우측의 테이블은 Relation tab과 Entities tab 두 가지 tab으로 결과가 정리되어 있다. Relation tab을 보면 첫 번째 컬럼은 Reference 문헌의 개수를 의미하고 두 번째 컬럼은 Entity 1, 세 번째 컬럼은 Relation 관계 정보를 마지막 네 번째 컬럼은 Entity 2를 나타낸다. 상단 도구모음의 View를 클릭하면 데이터를 컬럼별로 정렬하여 볼 수 있도록 되어 있다. 각각의 컬럼을 정렬해가면서 원하는 데이터만 키보드의 Shift 또는 Ctrl을 사용하여 선택한다. 그런 다음 선택된 데이터만 아래의 Known Relation 테이블로 이동시킨다. Known Relation 테이블에서도 다시 한 번 view를 통해 정렬을 하여 컬럼을 선택 할 수 있다.

 그렇게 해서 최종적으로 선택된 데이터들만 가지고 Pathway Studio로 이동시킨다. 선택된 데이터에서 마우스 오른쪽을 누른 뒤 send to pathway studio 클릭한다. Pathway Studio를 다시 실행 시켜 보면 MedScan에서 보낸 데이터를 Import 할 수 있는 창이 떠있고 여기에서 pathway를 저장 할 디렉토리를 선택해주고 Next를 클릭한다. Import가 완료되고 해당 디렉토리로 가면 MedScan에 서 보낸 데이터 정보를 이용하여 그려진 pathway 파일이 생성되어 있는 것을 확인 할 수 있다.


사용자 삽입 이미지
그림 5. MedScan 검색 결과.

  이밖에도 MedScan에서는 직접 사용자가 가지고 있는 텍스트, 워드, pdf, XML 또는 HTML 포맷의 문서를 Import 하여 데이터를 추출 할 수도 있다. Import 할 문서가 한 개 이상일 때에는 문서를 하나의 폴더 안에 저장해 놓고 폴더 자체를 Import 할 수도 있다. 우리가 어떤 연구를 하기 전에는 보통 문헌에서 내가 하고자 하는 연구가 어느 정도 선행 연구가 이루어 졌는지 알아보는데 그 때마다 많은 문헌들을 하나 하나 살펴 보기에는 어려움이 있다. 그 때 MedScan을 사용하면 그런 점에서 많은 도움을 줄 뿐만 아니라 그 문헌들 사이에서 의미 있는 결과까지 도출해 줄 수 있으리라 생각된다.



Posted by 人Co

2010/06/07 17:38 2010/06/07 17:38

BKL PROTEOME

  진핵생물의 세포내 조절 메카니즘은 전사 수준의 유전자 발현 조절과 이후 생성된 단백질 간의 조절 메카니즘으로 구분지어 볼 수 있다. 이들은 세포 밖 외부 신호로부터 target 유전자까지의 신호전달을 유기적으로 전달하며 다양한 루트를 통해 전달한다. 따라서 하나의 단백질과 유전자가 한 가지 기능만을 수행하기 보다는 다양한 단백질과 유전자들과의 상호 협력적인 관계를 통해 전체적인 세포내 항상성을 유지하게 된다.

Biobase는 이러한 총체적인 세포내 조절 메카니즘 분석을 위해 BKL TRANSFAC을 통해 전사수준의 세포내 조절 메카니즘 분석을 위한 resource 데이터를 제공하고, BKL PROTEOME을 통해 이후 단백질 수준의 조절 메카니즘 분석을 위한 데이터베이스를 서비스하고 있다.

2010년 현재 PROTEOME은 6개의 category로 구분된 데이터베이스로 운영되고 있다. Disease-biomarker associations 관심 있는 유전자 혹은 질병에 관련된 pathway, regulation networks, drug interaction 정보를 제공하며 단백질과 질병간의 조절관계를 모 식도를 통해 이해하기 쉽도록 다양한 정보를 제공하고 있다.

  • 자연계에서 일어나는 현상에 대한 인과 관계 및 예방을 위한 정보
  • mRNA의 과잉 발현, DNA mutation, altered protein의 activity와 관련된    질병정보
  • 해당 약물의 질병 메카니즘에 끼치게 될 영향 및 target 유전자에 가해질    잠재적인 예후 정보
  • 새롭게 찾아낸 단백질의 다양한 pathway 정보 및 관계 정보

 Drug-protein interactions 특정 약물에 의해 영향을 받는 대사회로 및 네트워크    정보를 제공하며, 이는 drug 개발을 위한 결정에 보다 직관적인 정보를 제공 한다.


  • Drugbank 로부터 7,000개의 drug-protein interaction 정보를 분석
  • Yeast에서 확인된 1,200개의 chemical regulation 정보
  • Human, yeast 그리고 worm에서 annotation된 12,000개의 drug interaction의 자세한 정보.

 Signaling, metabolic pathway, and expression regulation data 모식화 된 pathway 및 regulation networks 정보를 통해 세포내 조절 메카니즘을 총체적으로 이해 할 수 있도록 하였다.

  • 19,000 건의 signaling interactions
  • Fungal 유전자의 2,700개의 regulator정보
  • 5,100건의 pathway 정보
Yeast and worm models 관심 있는 질병, 병원체, pathway 연구를 위한 model organism으로 다양한 관련 정보를 제공한다.

  • S.cerevisiae, S.pombe - 질병, 노화, fungal pathogen, 바이오연료       그리고 그 외 기초 연구를 위한 모델 정보
  • C.elegans - 질병, 노화, miRNA technology, nematode pathogen         그리고 그 외 기초 연구를 위한 모델 정보
 Fungal pathogens 관심 18개의 human pathogen과 관련된 infection disease 정보 및 pathogen drug 개발을 위한 기초자료를 제공 한다.

  • C. albicans and other Candida species
  • Aspergillus species
  • Blastomyces species
  • Coccidioides immitis
  • Cryptoccocus neoformans
  • Histoplasma capsulatum
  • Pneumocystis species

 Plant Science public data와 전문가의 manual curation 데이터의 조합을 통한 식물 유전체 내의 pathway 정보와 resource data를 제공한다.


  • Arabidopsis, soybean, maize, sorghum, and rice
  • 다른 데이터베이스에서는 찾아 볼 수 없는 표현형과 발현치에 대한 정보
  • Cell signaling and metabolic pathway data
  • BAR을 통한 발현데이터 visualization
  • Sequence 정보를 이용한 규명되지 않은 단백질의 GO, domain정보

PROTEOME Tutorial


 Quick search BKL PROTEOM은 Gene/protein, disease, pathway, drug 그리고 keyword category를 통해 검색 할 수 있다. 원하는 유전자가 포함된 disease 및 pathway정보를 문헌을 통한 전문가의 curation으로 세포내 기능을 검색할 수 있다.

사용자 삽입 이미지
Figure 1. BKL PROTEOM quick search. 유전자, 질병, pathway, drug, keyword를 통해 원하는 정보를 손쉽게 검색할 수 있다. 또한 organism을 제한하여 많은 데이터들 속에서   원하는 정보만을 한 번에 검색 할 수 있다.

STAT3 단백질을 검색한 결과 기본적인 단백질의 대표 기능과 함께 다양한 데이터베이스에서 활용되고 있는 STAT3의 synonyms 정보를 서비스 한다. 또한 좀 더 세분화된 카테고리로 구분된 단백질의 정보를 서비스하는데, biomarker
associations, drug interaction, gene ontology, mutant phenotype, pathway, transcriptional regulation, protein feature, annotation에 관련된 세포내 총체적인  기능을 이해 할 수 있도록 서비스 하고 있다.

Biomarker association disease와 관련된 biomarker로 활용되고 있는 단백질의 정보를 서비스한다. 이러한 정보는 질병의 진단을 위해 혹은 질병 징후에 대한 연구를 위해 활용되고 있다(Figure 2).

사용자 삽입 이미지
Figure 2. Biomarker association. 질병과 관련한 단백질의 표지인자로 활용되는 정보를 서비스한다. 각 질병과 관련된 단백질의 상세 관계 정보는 질병을 클릭하여 자세히 확인 할 수 있다.


 Pathway interaction 단백질과 관련한 pathway 및 interaction 정보를 서비스 한다(Figure 3). Multi-function하는 단백질의 특성상 다양한 pathway와 interaction정보를 검색 할 수있으며 이들의 pathway는 모식도를 통해 graphical하게 확인 할 수 있다. Pathway상의 upstream, downstream에 존재하는 단백질과 관계정보를 총체적으로 살펴 볼 수 있으며 이들 정보는 모두 text 형태로도 변환이 되어 서비스된다.

사용자 삽입 이미지
Figure 3. Pathway & Interaction. 관심 있는 단백질이 포함된 pathway와 interaction정보를   모식도를 통해 서비스하고 있다.


Pathway 모식도는 figure 4에서 보여지는 것과 같이 대표 단백질로 간편화 하여 전
체적인 세포내 기능을 이해 할 수 있는 것(figure 4. A)과 관련 단백질의 모든 관계를 표시한 PathFinder(figure 4. B)로 구분 지어 있다. PathFinder는 많은 단백질의 관계 중에 보고자하는 특정 질병 및 drug 그리고 유전자 관련 pathway만을 지정하여 tag를 이용하여 표시함으로써 이해를 돕고 있다.

사용자 삽입 이미지
Figure 4. Pathway. Graphical viewer를 통한 pathway의 주요 단백질 만들 대상으로 전체적인 정보를 보여주는 것(A)과, PathFinder(B)를 통한 모든 관련 단백질의 관계를 포함한 질병 및 drug 정보를 자세히 살펴 볼 수 있다. PathFinder에서는 zoom-in/out을 통해 단백질간의 관계를 자세히 살펴 볼 수 있으며, 원하는 단백질, 질병, drug정보를 기준으로 직접적으로 영향을 주는 pathway에 하이라이트를 통해 보다 직관적으로 이해할 수 있도록 하였다.

Regulation 특정 단백질이 조절하는 다른 단백질 정보를 서비스하는 것으로 up-regulation, down-regulation 그리고 non-effect로 구분되어 있다(figure 5). Pathway상에서 찾아 볼 수 있는 정보를 보다 유연한 형태로 서비스함으로써 사용자 편의를 고려한 서비스라 하겠다.

사용자 삽입 이미지
Figure 5. Regulation. 단백질들 간의 조절 관계를 up-/down-regulation을 통해 정리하였다.

Annotation 단백질의 pathway 정보뿐만 아니라 expression정보, GO 정보, modification 정보, localization 정보를 비롯한 단백질의 모든 기능을 서비스한다.   이들 정보는 모두 전문가의 curation을 통해 정리된 것으로 참고가 된 문헌 정보는 모두 링크를 통해 서비스 되고있다(figure 6).

사용자 삽입 이미지
Figure 6. Annotation. 단백질의 다양한 function 정보를 서비스한다. Pathway를 비롯한 expression, domain, GO, mechanism, feature정보를 문헌정보와 함께 서비스하고 있다.


2010년 4월 업데이트를 통해 새롭게 서비스 되는 BKL PROTEOM은 이전 버전과 비교하여 사용자 편의를 고려한 서비스가 매우 강화 되었다. Export 기능을 통해 원하는 정보를 모두 다운로드 받을 수 있으며, 많은 정보 가운데 원하는 정보만을 선택적으로 살펴 볼 수 있도록 카테고리화 한 점도 이에 해당한다. 그러나 무엇보다 Biobase의 최대 장점은 문헌정보를 바탕으로 한 전문가의 curation으로 데이터의 신뢰성을 높였다는 것으로 BKL PROTEOM 또한 신뢰성 높은 데이터베이스를 제공하고 있다.


Posted by 人Co

2010/05/04 16:34 2010/05/04 16:34