ChIP 은
Chromatin Immunoprecipitation의 약자로 세포내에서 이뤄지는 단백질과 DNA간의 상호작용을 알아내는 주요한
방법으로 특정 단백질과 binding 하는 DNA sequence 를 알아내는 것을 목적으로 합니다. 특정 단백질과 결합된
DNA을 면역학적 방법인 antibody를 이용하여 침강시킨후 결합된 DNA를 따로 분리하여 그 sequence를 확인합니다.
이때, 해당 서열을 확인 하는 방법으로 microarray방식을 이용하면, ChIP-chip이 되고, NGS와같은 시퀀싱 방식을
이용하면 ChIP-seq이 됩니다. 이러한 방법은 유전자 발현을 조절하는 전사조절인자(transcription factor)의
bindig site와 기작을연구하는데 많이 이용되고 있습니다.
예를 들어 transcription factor A의 binding-site를 분석하기 위해, 먼저 세포내에서
transcription factor A와 DNA를 결합시킨 후 그 결합을 고정하기 위해 sample을 포름알데히드와 같은
고정액으로 고정시킵니다. 이후 세포를 lysis하여 DNA 전체를 분리한 다음 sonication 방법으로 DNA를 잘게
조각냅니다. 그러면 transcription factor와 결합된 상태의 DNA 조각과 그렇지 않은 조각이 생성됩니다. 이후
원하던 transcription factor A에 binding된 DNA 조각만을 분리하기 위해 transcrition
factor A 특이적인 antibody와 beads 붙여 원심분리를 통해 transcription factor A와 이에 결합된
DNA만을 분리해 낼 수 있습니다. 마지막으로 분리된 transcription factorA와 DNA 사이의 결합을 끊어
DNA만을 분리해낸 다음 앞서 언급한 microarray방식과 NGS 기술을 이용한 시퀀싱 방식을 통해 각각 확인할수 있습니다.
Microarray방식은 유전체상의 대부분의 영역을 microarray probe로 제작하여 chip에 심은 후
transcription factor A와 결합되었던 DNA조각을 binding 시켜 확인하게 되며, 시퀀싱 방식은 분리된
DNA조각을 직접적으로 시퀀싱을 통해 확인하게 됩니다. 이후 시퀀싱된 서열을 해당 유전체 서열에 mapping(reference
assembly)을 통해 유전체 상의 binding location을 확인 합니다. 이들 모두 공통적으로 transcription
factor A가 binding 하는 서열정보를 비롯하여 유전체내의 binding location을 함께 확인 할 수 있어
이차적으로 전자를 조절 받는 유전자 프로파일을 함께 확인 할수 있는 이점이 있습니다.
단백질과 binding 되는 DNA 서열이 짧기 때문에 , ChIP-Seq 분석을 할 때는 일반적으로 short read로
시퀀싱을 진행합니다. 또한 reference 서열에 mapping 할 때 역시 mapping 파라메터들을 엄격하게 설정하여
noise data의 생성을 예방합니다. 시퀀싱 reads의 서열들이 짧기 때문에 적은 bp의 mismatch나 gap일 지라도
실제 binding site가 아닌 엉뚱한 위치에 mapping될 확률이 높아 지므로 최종적으로 ChIP peak를 찾기
힘들어지게 될 수 있습니다. Mapping view를 보면 이렇게 특정 단백질에 특이적인 binding-site에만 read들이
mapping 되어 형성되는 'peak'을 확인 하실수 있습니다(Candidated transciption factor A
binding position).
Peak 영역에 mapping된 read의 수와 전체 reference 서열의 mapping 된 read의 분포, 그리고
control 데이터에 mapping된 read의 분포 등을 고려하여 관찰되는 peak가 false positive인지 false
negative인지 통계적으로 유의성을 검증할 수 있습니다. CLC Genomics Workbench를 이용하면 이렇게 찾아진
ChIP peak들에 대한 정보가 담긴 테이블과 해당 ChIP peak가 위치한 부분의 mapping view를 한 화면에서
확인할 수 있습니다.
그리고 mapping view를 조금 더 축소해 보면 해당 peak의 upstream과 downstream에 위치한 유전자를
확인하여, 어떤 유전자들이 해당 transcription factor A에 영향을 받을지 유추해 볼 수 있습니다.
부가적으로 BIOBASE사의 'TRANSFAC' 데이터베이스는 발표된 모든 논문들을 대상으로 생물 전문 큐레이터들이 검토하여
transcription factor와 transcription factor binding site에 대한 정보를 축적하고
있습니다. 또한 이렇게 형성된 TRANSFAC의 데이터는 보다 효율적으로 연구자들에게 공급하기위해 CLC Genomics
Workbench에서 plug-in을 통해 ChIP-seq을 통해 찾아진 peak와 직접적으로 비교하여 관련된 유전자, 질병 및
mutation에 대한 다양한 정보를 제공 하고 있습니다.
Biobase의 대표적인 제품군인 TRANSFAC은 eukaryotic gene regulation을 분석하기 위한 최적의 기초 데이터를 제공하고 있다. Transcription factors, miRNAs, 그리고 이들과 관련된 유전자의 프로모터 정보를 비롯하여 ChIP-Seq 데이터로부터 1,000,000건 이상의 binding sites 정보, 57,000건 이상의 human RNA polymeraseII의 위치정보를 포함하고 있다. 이들 정보는 모두 실험적으로 증명 되었거나 논문에 게재된 정보를 전문가의 리뷰를 통해 정확하면서도 통합적인 이해를 할 수 있도록 하였다.
2010년 현재 TRANSFAC®의 데이터베이스는 DNA binding, expression 그리고 regulation에 관련한 전문가의 manual curation을 다음과 같이 수행하였다.
이들 데이터는 실험적으로
transcription factor binding site나 혹은 composite elements를 증명하고자 할 때,
promoter sequence를 찾고자 할 때
miRNA targets을 찾고자 할 때
관심 있는 영역에 binding 가능한 transcription factor를 찾고자 할 때
transcription factor들 간의 조절을 알고자 할 때
실험에 앞서 가능한 factor들의 기초 정보를 제공하게 된다. 따라서 microarray를 통한 유전자 발현 패턴을 분석했다면 동일한 발현 패턴을 보이는 유전자들의 상관관계를 분석하는데 많이 이용되며, 약리 반응이나 신물질의 target을 밝히는 데에도 기초 자료로 인용되고 있다.
TRANSFAC®의 데이터 구성
TRANSFAC® Professional은 공개된 데이터에 비해 약 4년 정도의 데이터가 업데이트되어 있는 상태로 그 데이터양은 promoter서열이 약 280,000건, 700,000건의 ChIP-chip/-Seq 데이터를 더 포함하고 있다(figure 1).
Figure 1. Public database와 Professional version의 데이터양의 차이
이들의 자세한 내용은 figure 2에서 보여 지는 것과 같이 transcription factor의 서열 정보를 비롯한
binding 가능한 site정보, 도메인정보, regulation 정보를 총체적으로 담고 있다.
Figure 2. Transcription factor feature.Transcription factor의 서열 정보, 종 정보, 조직 정보, 도메인 정보, binding site 정보, interaction protein 정보, regulation정보를 총체적으로 서비스하고 있다.
GO category정보 및
pathway정보도 가능한 모두 서비스가 되고 있어 세포내 생물학적 기능을 종합적으로 분석하고자 할 때 기초자료로 많은 정보를
주고 있다(figure3).
Figure 3. Transcription factor의 function 정보. Factor간의 interaction정보, pathway 정보, inhibitor 및 activator와 같은 regulation 정보 등을 문헌자료를 통해 데이터베이스화하고 서비스한다.
미지의 서열에 binding 가능한 transcription factor search.
특정한 발현 패턴을 보이는 유전자의 발현 조절 메커니즘을 분석 하고자 할 때 기본적으로 유전자의 upstream 영역에서 작용하는 transcription factor(TF)를 알아보게 된다. TRNASFAC®은 기본적인 transcription factor 및 binding site에 대한 정보를 제공함과 동시에 미지 서열에 binding 가능한 transcription factor를 예측할 수 있는 MatchTM, PatchTM, 그리고 Catch® 프로그램도 제공하고 있다(Figure 4).
Figure 4. TRANSFAC Professional의 TF search를 위한 PATCH. Pattern match를 통한 미지의 서열에 binding 가능한 TF를 search한다. 이때 false positive를 최소화하기 위해 찾고자 하는 TF의 종 정보를 제한하여 식물 유전자의 경우 식물 데이터베이스를 사용하고 mamalian 유전자의 경우 mamalian 데이터베이스를 사용한다. 또한 특정 찾고자 하는 TF만을 대상으로 할 경우 분석자에 의해 선택된 TF만으로 구성된 프로파일을 제작하여 분석할 수도 있다.
MatchTM는 TF의 binding site를 matrix로 구성하여 찾는 방법이며, PatchTM는 서열의 pattern match 방법을 이용하여 찾는 방법이다. Catch®는 composite elements를 찾고자 할 때 사용하게 되는데 보통 이들 프로그램을 모두 사용하여 가능한 모든 TF를 찾고 실험에 이용한다. 또한 실험적으로 하나하나 규명할 수도 있으나 유전체 전체 유전자를 대상으로 분석하고자 할 때, 웹으로 운영되는 다음 프로그램에 서열을 하나씩 분석하기는 매우 어려우므로 local 서버나 PC에 설치하여 batch로 서열을 분석할 수도 있다. 이후 얻어진 유전자의 upstream 영역에서 작용하는 TF의 profile정보는 통계적 기법을 통해 유의한 TF를 선별하기도 하고, 데이터베이스화하기도 한다.
또한 얼마 전 덴마크의 CLCBio사와의 협력을 통해 CLCMainWorkbench 혹은 CLCGenomicsWorkbench의 plug-in 기능을 통해 TF정보를 visualization 할 수도 있게 되었다. 따라서 NGS에 의한 RNA-seq 정보 및 유전자 발현정보와 함께 전사조절 , 메커니즘까지 확대하여 함께 분석할 수 있는 최적의 데이터를 제공하고 있는 것이다.