관련기사
고추 매운맛 유전자, 국내 연구진이 밝혀냈다 2014.01.22 티브이데일리
고추 유전체서열 국내 독자 기술로 완성 2014.01.21 정책브리핑
고추 유전체서열 국내 독자 기술로 완성 2014.01.20 아시아투데이
고추 표준 유전체 염기서열 국내 기술로 완성 2014.01.20 연합뉴스
좀 더 맵고 맛있는 고추 나온다 2014.01.20 동아사이언스

논문바로보기
http://www.nature.com/ng/journal/vaop/ncurrent/full/ng.2877.html

'고추' 하면 떠오르는 친근감은 비단 우리나라 뿐만이 아닐 것입니다. 고추는 세계적으로 사랑 받고 있고 영양학적인 가치 또한 우수하여 토마토, 감자와 함께 대표적인 작물 중 하나로 꼽히고 있습니다. 그러나 생물학자들에게는 대중적인 선호도 이외에 토마토, 감자와 함께 고추에서 밝히고자 하는 흥미로운 관심 거리가 있습니다. 서로 닮은 듯 아닌 듯 한 이들 세 작물은 모두 가지과 (Solanaceae)에 속하는 것으로 진화와 육종을 통해 얻어진 공통된 특성과 특이적인 특성을 각각 분자적으로 밝히기에 좋은 모델이 되기 때문인데요, 특히 토마토와 고추의 경우 흥미로운 연구거리가 가득합니다.
첫번째, 토마토의 경우 사과나 바나나와 같이 에틸렌 가스에 의해 후숙성이 촉진되는 climateric fruit 인 반면, 고추는 포도와 같이 후숙성이 촉진 되지 않는 non-climateric fruit으로 같은 가지과 작물로써 서로 비슷한 유전자 세트를 가지면서도 서로 다른 형태의 숙성과정을 거치게 되는 메카니즘은 무엇일까?
두번째, 토마토의 유전체는 약 900Mb정도인데 반해 고추는 약 3Gb에 달하는 거대한 유전체 사이즈를 갖는 이유는 무엇일까?
세번째, 고추의 대중적인 인기의 근간이 되는 매운맛 성분인 캡사이신의 생합성 경로는 어찌 될까? 이 런 모든 질문에 대한 해답이 최근 생물정보 컨설팅 전문기업인 (주)인실리코젠에서도 참여한 서울대 최도일 교수님 연구팀에서 Nature genetics 에 발표한 논문 Genome sequence of the hot pepper provides insights into the evolution of pungency in Capsicum species http://www.nature.com/ng/journal/vaop/ncurrent/full/ng.2877.html 에서 모두 해결되었습니다.


논문에 많은 내용들이 있지만 그 중 후숙성 과실인 토마토와 그렇지 않은 고추와의 과실 숙성 메카니즘의 차이를 보여주는 마지막 메인 figure를 살펴보면, ripening 관련 유전자는 두 종 모두에서 보존되어 있으나 그림에서 보여지는 것과 같이 mRNA상의 발현의 차이로 (group I) 표현형의 차이가 유발된 것으로 나타났습니다. 이 중 주요 유전자는 ethylene이 생성되는 과정에 수반되는 유전자들의 발현이 고추에서 모두 저하되어 ethylene 생성이 저하되고 그로 인해 ethylene에의해 repression되는 CCS(capsanthin-capsorubin synthase)의 발현이 tomato에 비해 월등히 높게 나타나고, 결국 pepper-specific carotenoids인 Capsanthin, capsorubin의 합성이 높아 tomato와는 다른 표현형을 나타냈습니다. 반면, tomato에서는 CCS와 ortholog 관계를 갖는 CYC-B(chromoplast-specific lycopene beta-cyclase) 유전자의 발현이 ripening 과정 동안 ethylene의 높은 합성으로 인해 억제됨을 나타냄으로써 그 메커니즘을 밝혔습니다.


Comparative fruit ripening



이 외에도 고추에 많은 비타민 함량의 메커니즘이라던가, 토마토와 고추의 과실이 물러지는 차이의 원인 메커니즘과 같은 유전체 전문가가 아니더라도 흥미를 가질 만한 많은 내용이 담겨 있습니다. 물론 유전체 전문가(?)의 입장에서도 소중한 정보가 가득합니다. 사실 제가 마지막 figure만을 소개한 이유는 이 하나의 figure를 위해 수행되어야 하는 genome assembly(유전체 서열 완성), gene structure분석(유전자의 서열 및 구조, 유전자 기능, 유전체내 전체 유전자 세트), gene family분석(ortholog, paralog분석) , genome expansion분석( repetitive sequence분석), gene expression 분석(transcription factor분석, RNAseq 분석, pathway 분석), genome variant 분석(SNP, indel 분석), phylogeny 분석과 같은 많은 분석이 수반되어야 하고, 이러한 정보는 supplementary information에서 제공하고 있는 table 54개, figure 49개에 고스란히 담겨져 있음을 알려드리고 싶어서 입니다. 이들 데이터는 마지막 figure와 같은 많은 생물학자들에게 실마리를 제공할 리소스 데이터로 제공이 될 것이기에 그 잠재력이 더욱 큽니다.

Gene structure분석 파이프라인

유전자 구조 분석 파이프라인으로 고추 유전체 분석을 위해 고추의 mRNA(RNAseq, ESTs)서열,  단백질 서열, 토마토 및 감자의 단백질 서열, 애기장대, 포도 및 가지과 작물의 단백질 서열을 이용한 Evidence gene modeling과 여러개의 ''ab initio'' gene modeling (gene prediction)이 함께 수행되어 이들의 공통된 유전자 모델을 선정하는 combined gene modeling이 수행되었습니다. - (주)인실리코젠 지원


마지막으로 이번 연구의 가장 큰 성과라면, 순수 국내 연구진의 기술로 이뤄졌다는 점과 생물정보의 학문적 발전입니다. 식물의 유전체에는 유전자 영역 이외에 repeat 영역이 포유류나 균류, 미생물에 비해 매우 많이 존재하기 때문에 실제 유전체 서열을 완성하기에 매우 까다로운 조건을 갖고 있습니다. 단적으로 토마토, 감자의 경우 국제 컨소시엄을 통해 전세계 연구진의 협업에 의해 이뤄진 점만 보더라도 고추 유전체의 완성은 의미가 크다고 할 수 있습니다. 더욱이 유전체 크기가 토마토에 비해 3배이상 커지고 커진 대부분이 repetitive sequence에 해당하는 LTR retrotransposons 임을 감안하면 유전체 서열 어셈블리만 보더라도 많은 노력이 수반됐음을 알 수 있습니다. 실제, 오픈 소스 프로그램(SOAPdenovo, SSPACE, FLAKE)과 상용 프로그램(CLC Assmebly Cell; CLCbio사, 서울대, (주)인실리코젠의 공식 MOU를 통한 지원)이 모두 이용되었으며, 시퀀싱 또한 다양한 플랫폼/디자인으로 여러번의 수정과 시도를 반복하며 현재의 결과를 얻어냈습니다. 뿐만 아니라 유전자 구조 분석 또한 세계적인 수준의 분석이 진행되었으며 genome expansion, gene expression, 진화적론적인 phylogenetic 분석 모두 국내 연구진들의 몰입적인 연구를 수행한 결과라 할수 있습니다.
다시한번, 생물정보 컨설팅을 전문으로 하는 (주)인실리코젠의 입장으로 NGS라는 막강한 도구와 나날이 정신없이 발전하고 있는 생물정보학의 발전을 통해 보다 많은 좋은 소식이 있기를 기대해 봅니다.



Codes사업본부 Research실
선임컨설턴트 신윤희 선임


Posted by 人Co

2014/01/28 22:07 2014/01/28 22:07

HGMD professional

Next generation sequencing의 발달로 인한 personal genomics가 가능해지면서 더욱 관심을 보이고 있는 데이터베이스가 있다. Biobase HGMD 데 이터베이스가 바로 그것으로 Human의 유전적 돌연변이에 의한 질병정보를 약 100,000만개 정도 담고 있다.

사용자 삽입 이미지

Figure 1. Biobase HGMD. Human의 유전적 변이에 의한 질병 정보 데이터베이스

HGMD는 현재 유전체 서열상의 변이로 인한 질병의 병변 및 유전자의 이름 그리고 유전체상의 위치 정보를 문헌정보에 근거하여 서비스하고 있다. 이러한 정보는 OMIM, Entrez Gene 그리고 Human Gene Nomenclature Committee를 포함한 대표 web-base 데이터들과 링크를 통해 변이에 의한 표현형, 구조적 정보들이 함께 제공되고 있다. 그 자세한 내용은 아래와 같다.


Feature


  • Up-to-date Mutation Data

  • Full Coverage of PubMed journals
  • Gene Centric Search
  • Mutation Centric Search
  • Reference Centric Search
  • Boolean Full Text Searching
  • View Mutation Data by Type
  • View Mutation Data by Disease/Phenotype
  • cDNA Sequences
  • Extended cDNA Sequences
  • Expanded Gene-specific Information
  • Expanded Mutation-specific Information
  • Advanced Search Tools
  • Mutation Viewer/Maps
  • Genomic Coordinates for Missense/Nonsense Mutations
  • Search for Functional Polymorphisms
  • HGVS Nomenclature for Missense/Nonsense Mutations
  • Links to Entrez dbSNP (using rs numbers)
  • Provision of Additional Literature References
  • Search/Display of Gene Ontology Terms
  • Downloadable Version

 HGMD Professional은 위와 같이 변이 정보에 대한 서열 정보, SNP정보, HGVS nomenclature 정보를 링크를 통해 서비스하고 있으며 이들의 조절 메카니즘과 관련된 transcription factor 정보도 함께 지원하고 있다. 더욱이 이러한 모든 정보의 근간이 되는 문헌정보를 함께 제공하고 있어 그 신뢰성이 매우 높다 하겠다.


HGMD tutorial


Expanded Search Engine : 최신의 데이터를 사용자 편의에 의한 주제 중심의 인터페이스로 제공하고 있다. 키워드 방식을 이용한 특정 유전자, 질병의 상태, 변이정보, 문헌정보를 통한 검색이 가능하며 알파벳 인덱싱을 통한 검색도 가능하다.


 

사용자 삽입 이미지

 Figure 2. HGMD advance search. 유전자명, 질병, 변이정보 등을 이용한 keyword 검색이 가능하다. 또한 특정 chromosome내에 존재하는 변이정보를 한 번에 검색 할 수도 있다.


또한 특정 chromosome 내에 존재 하는 모든 변이정보를 한 번에 확인 할 수 도 있으며 이들 정보는 모두 다운 로드 기능을 통해 local PC에 저장이 가능하여 필요할 때 언제든지 활용이 가능 하다(Figure 2).


키워드 검색을 통한 유전자 검색의 경우 Figure 3에서 보여 지는 것과 같이 관련 유전자에서 동반 되는 모든 변이 정보를 확인할 수 있다. Splicing에 의한 변이정보, small deletion, small insertion 그리고 SNP에 의한 정보도 함께 검색 할 수 있다. 또한 transcription factor 정보도 링크되어 다양한 원인에 의해 유발되는 유전적 질환의 생화학적 정보를 통합적으로 확인 할 수 있다.


사용자 삽입 이미지

Figure 3. 유전자 검색. 유전자 검색을 통한 다양한 변이 정보 및 질병의 병변, 유전체상의 위치정보, 유전자 발현 조절 정보를 확인 할 수 있다.


Biochemical information : Human의 변이 정보는 구분된 카테고리 정보에서 keyword로 검색이 가능하며 이들의 정보는 이후 모두 다운로드가 가능하다. 질병의 phenotype을 비롯한 유전체 상의 위치 정보, dbSNP와 같은 기존 참조 데이터베이스의 정보, motif, regulation, 참조 문헌 정보까지 한 번에 확인할 수 있다.


사용자 삽입 이미지

Figure 4. 변이 정보 검색 결과. 유전적 변이에 의한 DNA서열의 변화, 단백질 서열 변이, 참조 데이터베이스, phenotype, gene ontology, 참조 문헌 정보를 모두 다운 받을 수 있다.


Personal genomics 시대에 가장 필수적인 데이터베이스중 하나인 Biobase HGMD는 개인의 잠재적인 유전적 질환의 탐색부터 현재 발병중인 질환에 대한 치료 연구를 위해 많은 기초 데이터를 제공할 것으로 여겨진다. 많은 논문과 데이터베이스를 집대성하여 유전적 질환의 통합적 정보를 제공하고 있는 HGMD는 앞으로 더 많은 연구자들에게 도움이 될 것이다.






Posted by 人Co

2010/05/13 19:17 2010/05/13 19:17

NGS 분석전략 세미나 개최 후기

 지난 2월 5일, 저희 (주)인실리코젠의 Codes팀은 "Practical bioinformatics pipeline for NGS data"라는 주제로 세미나를 개최하였습니다.

사용자 삽입 이미지
이번 교육은 당사에서 발간한 Quipu Issue Paper 2호의 "NGS 시대의 분석전략 2"을 중심으로 최근 가장 이슈가 되고 있는 NGS 데이터의 assembly, 그리고 그 이후에 진행할 수 있는 다양한 분석들에 대한 내용들을 크게 3가지 세션으로 나누어 구성하였습니다. 또한 생물정보 분야의 중심 역할을 하고 있는 한국생명공학연구원 국가생물자원정보관리센터(KOBIC)의 많은 연구원분들을 대상으로 진행되었습니다.

사용자 삽입 이미지
NGS 데이터의 assembly는 유전체 분석에 있어서 데이터 플랫폼의 종류와 어떤 어셈블러를 사용하느냐에 따른 분석 전략 및 파이프라인은 꼭 필요할 것이라 생각합니다. 이에 첫 번째 세션De novo assemblyReference assembly에 사용되고 있는 여러 가지 어셈블러들의 종류, 장단점 비교, 실제 데이터 벤치마킹 결과 등에 대한 내용으로 준비하였고, 발표 중간중간 관련 사항에 대한 질문과 열띤 토론으로 참석하신 연구원분들의 많은 관심을 받았습니다.

사용자 삽입 이미지
두번째 세션 SNP 분석 방법 및 최근 capture array 분석의 실제 연구사례, 관련 솔루션 등을 소개한 variation 분석 파트와 EST 데이터를 이용한 functional annotation, Organism-specific 분석, Ortholog/Paralog 유전자 분석방법 등에 대한 expression 분석 파트로 구분되어 진행되었으며 마지막 세션은 NGS와 생물정보 파이프라인을 이용한 Genome annotation에 대한 내용으로 현재 NGS 염기서열 결정 이후 문제점 및 이슈를 분석하고 효율적인 전략들을 소개하였습니다. 또한 structural annotation과 functional annotation의 분석 방법 및 실제 Codes팀의 분석 컨설팅 파이프라인 관련하여도 설명 드릴 수 있는 좋은시간이 되었습니다.

사용자 삽입 이미지
이렇게 바쁜 와중에도 하루의 일정을 직접 방문하여 소화해주신 KOBIC 연구원분들께 감사의 인사를 드리며, 진행된 교육으로 인해서 NGS 데이터를 분석하고 연구하시는데 조금이나마 도움이 되었으면 하는 바램입니다. 또한 "NGS시대의 분석전략 3"의 발간도 부탁하실 정도로 기술소식지와 세미나에 큰 관심을 보여주셔서 더욱 뜻 깊은 시간이었고, 앞으로도 이러한 교육의 자리를 많이 준비하도록 노력하겠습니다.

사용자 삽입 이미지
책자로 발간되었지만, 이번 세미나 내용을 포함한 NGS시대의 분석전략은 더욱 많은 연구자분들께 유익한 정보를 제공해 드리고자 블로그 연재도 계속 진행중입니다. 이와 관련한 자세한 문의사항은 저희 (주)인실리코젠의 Codes팀에게 연락 부탁드립니다.

(Tel: 031-278-0061, E-mail: codes@insilicogen.com)



Posted by 人Co

2010/02/25 17:37 2010/02/25 17:37
, , , , , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/48