우리는 Genomic 데이터를 분석할때, 온라인 데이터베이스를 이용해서 정보를 검색하고 이용하기 위한 여러가지 도구를 사용합니다. 많이 활용되는 온라인 데이터베이스 자체의 좋은 웹인터페이스를 제공하고 있지만, 연속된 분석을 자동화하거나 다양한 통계량을 구하고자할 때는 프로그래밍이 필요합니다.
R 은 오픈 소스 통계 소프트웨어로, 이 작업을 간단하게 할 수 있도록 몇가지 패키지를 제공합니다. 그 중에 NCBI 데이터베이스를 이용할 수 있도록 구성되어 있는 NCBI2R 패키지에 대해서 알아보려고 합니다.

NCBI2R 패키지는 NCBI 데이터베이스에서 SNPs를, 유전자와 microsatellites의 목록에 Annotation 정보를 검색할 수 있는 R 패키지입니다. 이 패키지는 KEGG 경로 (일부 다른 기능들)에 속하는 유전자를 유전자에서 SNP를 검색하거나 정보를 저장할 수 있으며, SNPs를 또는 유전자의 Annotation 정보를  R을 이용해서 필용한 정보를 얻을 수 있는 매우 유용한 기능을 제공합니다. 더 자세한 정보는 NCBI2R 공식 웹사이트인 http://NCBI2R.wordpress.com 을 활용하시면 됩니다.

1. NCBI2R package download & installation
다음 URL에서 다운로드하거나 R 배포판의 특징에 맞춰 설치를 합니다.
 * http://cran.r-project.org/web/packages/NCBI2R/index.html

2. NCBI2R loading
라이브러리가 정상적으로 로딩되는지 확인합니다.
> library("NCBI2R")                # NCBI2R loading
> PrintNCBI2RInfo()               # NCBI2R 패키지 기본정보 확인
NCBI2R package loaded.
Developed by Scott Melville, Christian Fuchsberger,
Cristian Pattaro and Yuri D'Elia
Please check the web for updates, tutorials, manuals etc
http://NCBI2R.wordpress.com
Please read the usage guidelines on the website.
now checking if you have the latest version
[1] "NCBI2R is the current version. 1.4.4"
>

3. dbSNP 데이터베이스 이용하기 (대표적인 함수 따라해 보기)
(1) GetSNPInfo 함수를 이용해서 특정 유전자 영역의 SNPs정보 기본 정보 검색하기
 * GetIDs : 유전자명, KEGG pathway 등의 검색조건에 맞는 유전자 아이디를 가져온다.
 * GetSNPsInGenes : 해당 Gene 위치에 SNP ID 목록을 가져온다.
 * GetSNPInfo : dbSNP 내 SNPs 정보를 가져온다.
> GetIDs("MAPT[sym]")    # MAPT 유전자의 GeneId 정보를 가져온다
[1] "4137"
a <- GetIDs("KEGG pathway:Alzheimer´s disease")     
b <- GetIDs("protein binding[GO]")                        # Gene ontology 를 이용해서 Gene Id 가져옴
c <- GetIDs("ENST00414122")                              # ensembl reference ID를 이용해서 Gene Id 가져옴
> GetGeneInfo(4137)     # Gene Annotation 정보를 가져온다.
                                                          
  locusID org_ref_taxname org_ref_commonname   OMIM                                      synonyms
1    4137    Homo sapiens              human 157140 TAU MSTD PPND DDPAC MAPTL MTBT1 MTBT2 FTDP-17

genesummary
1 This gene encodes the microtubule-associated protein tau (MAPT) whose transcript undergoes complex, regulated alternative splicing, giving rise to several mRNA species. MAPT transcripts are differentially expressed in the nervous system, depending on stage of neuronal maturation and neuron type. MAPT gene mutations have been associated with several neurodegenerative disorders such as Alzheimer's disease, Pick's disease, frontotemporal dementia, cortico-basal degeneration and progressive supranuclear palsy. [provided by RefSeq, Jul 2008]
                            genename phenotypes
1 microtubule-associated protein tau           
                                                                                               pathways GeneLowPoint
1 KEGG pathway: MAPK signaling pathway--- KEGG pathway: Alzheimer's disease--- Reactome Event:Apoptosis     43971748
  GeneHighPoint ori chr genesymbol                               build    cyto approx
1      44105700   +  17       MAPT Homo sapiens Annotation Release 104 17q21.1      0
>mysnps <- GetSNPsInGenes(4137)        # Gene 영역의 SNP 정보를 가져온다.

(2) AnnotationSNPList : 검색하고자 하는 SNP목록의 gene symbol, locusId, chromosome과 그 위치정보, fxn_class(eg intron, exon, UTR) 정보와 종정보등을 파일형태의 결과로 보여준다.
 * AnnotationSNPList : NCBI dbSNP 데이터베이스로부터 snp 위치정보 및 관련 유전자, pathway 등의 정보를 제공한다.
> snplist<-c("rs1234567","rs333","rs848484")
> d<-AnnotateSNPList(snplist) #no HTML file is created
[1] "GetSNPInfo has been performed and information for identified genes will now be found."                                                
Information for genes has been found - AT LEAST one gene listed has  titles that are temporary or unofficial names)
  |=====================================================| 100%
> MakeExcel(d,"results.tab")
[1] "file was created"

(3) GetPathways 함수를 이용해서 특정 SNP에 연관된 Pathway 정보를 확인하기
 * GetPathways : 해당 유전자의 Pathway 정보를 확인할 수 있다.
> mySNPInfo<-GetSNPInfo("rs4294787")
> GetPathways(mySNPInfo$locusID)
  locusID                                                  name                                                       web
1    1139                     KEGG pathway: Cholinergic synapse http://www.genome.jp/dbget-bin/show_pathway?hsa04725+1139
2    1139 KEGG pathway: Neuroactive ligand-receptor interaction http://www.genome.jp/dbget-bin/show_pathway?hsa04080+1139
3    1139               KEGG pathway: Calcium signaling pathway http://www.genome.jp/dbget-bin/show_pathway?hsa04020+1139
4    1139                 KEGG pathway: Chemical carcinogenesis http://www.genome.jp/dbget-bin/show_pathway?hsa05204+1139
5    1139                      KEGG pathway: Nicotine addiction http://www.genome.jp/dbget-bin/show_pathway?hsa05033+1139
>

지금까지 간략하게 NCBI2R 패키지를 이용해서 R에서 NCBI의 데이터를 다루는 예제를 살펴보았습니다. R 언어는 생물정보학을 위한 Bioconductor 프로젝트에서 Ensemble, HGNC, InterPro, Reactome 및 HapMap 등의 여러 데이터베이스에 정보를 이용할 수 있는 인터페이스를 제공하고 있습니다. NCBI에도 dbSNP 이외의 많은 데이터가 있으므로 여러 조합으로 활용할 수 있을 것입니다.


작성자 : KM사업부 기반기술팀
강연경 팀장


Posted by 人Co

2013/04/12 13:33 2013/04/12 13:33
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/129

Trackback URL : 이 글에는 트랙백을 보낼 수 없습니다



« Previous : 1 : ... 250 : 251 : 252 : 253 : 254 : 255 : 256 : 257 : 258 : ... 374 : Next »