« Previous : 1 : 2 : 3 : 4 : 5 : ... 10 : Next »

0 TRACKBACKS ABOUT 'NGS'

제12기 인턴십

rrrrr…. 스카이프 전화가 왔네요?

人CoInternship 제12기 수료생분들이 생생한 후기를 들려주시기 위해 전화하셨나 봐요. 이번 인턴십은 혹시 모를 COVID-19 감염에 대비해 비대면 강의와 더불어 방역지침을 준수하며 진행되었답니다. 어떻게 진행되었는지 궁금하신가요? 스카이프로 만나는 제12기 인턴십 후기 지금 바로 시작합니다!


기대되고 설렜던 1주 차
#OJT #NGS 개요 #CLC Main Workbench #실습


OJT 교육



다양한 프로그램들을 직접 다뤄본 2주 차
#CLC Main Workbench #NGS 데이터 분석


NGS 데이터 분석 교육



동기들과 함께라면 무엇이든 할 수 있어! 3주 차
#R #RNA-seq #전사체 데이터 분석 #유전체 데이터 분석 #논문 리뷰 #발표


RNA-seq 교육



낯설지만 신기하고 재밌는걸? 4주 차
#리눅스 #파이썬 #딥러닝 #모델링 #통계적 해석


파이썬 교육



사업의 전반적인 부분을 배우자! 5주 차
#Axure #프로토타이핑 #SI #데이터 모델링 #DB 설계


데이터베이스 교육



애자일하게 실행하자! 6주 차
#Agile #Contents Design #Webinar #D.iF #미생물 #네트워크


애자일 교육



6주간 추억, 그리고 솔직한 후기
#웹 미팅 #생일 #축하 #코로나 #끝나면 #모이자 #솔직 #후기


랜선 모임
온라인 모임


뜻깊은 수료식
수료식 사진 1
수료식 사진 2
수료식 사진 3
전체 수료식 사진


후기 영상



마치며...
이렇게 제12기 人CoINTERNSHIP이 성공적으로 끝이 났습니다. 6주간 유익한 강의를 위해 힘써주신 임직원분들과 다소 생소할 수도 있지만, 열정적인 자세로 교육에 임해주신 여러분 모두 수고 많으셨습니다. 더 좋은 기회와 인연으로 다시 만날 수 있기를 기대해 봅니다! 감사합니다~!




작성 : 人CoINTERNSHIP 제12기 수료생
김소연, 박병준, 박종호, 방재훈, 석민기
신섭재, 심석영, 유채민, 임유진, 한민재

Posted by 人Co

2021/08/23 13:18 2021/08/23 13:18
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/392

나만 알고 싶은 OmicsBox



'유전체 데이터는 점차 쌓여가고···쌓여가는 데이터 처리는 해야겠고···이왕 처리하는 거 효율적으로, 내가 원하는 방향으로 처리하고 싶은데···심도 있는 분석은 또 어떻게 진행해야 하는 걸까···' 이런 의문 품어보신 적 다들 있으시죠?! 있을 겁니다! 저 또한 그랬으니까요!

제 경우에는 OmicsBox라는 솔루션이 저의 이러한 의문을 해소해주었습니다. 제가 OmicsBox를 처음 접한 건 바야흐로 대학원 시절. 그 당시에는 OmicsBox로 리뉴얼 되기 전인 Blast2GO 버전이었습니다. 저는 그 당시 De Novo Transcriptome 분석을 진행했었고, BLAST 분석 이후의 후속 분석인 Functional Analysis(GO, KEGG, InterProScan)를 Blast2GO를 이용하여 진행했었습니다.

만약 그 당시의 저에게 Blast2GO가 없었다면, 저는 아마 졸업을 못 했을 겁니다. (생각만 해도 끔찍하네요.)
서론이 길었네요 :D 자, 그럼 이렇게 저를 무사히 졸업시켜주는데 일조했던 OmicsBox(구 Blast2GO)! 과연 어떤 기능을 하는 생물정보 솔루션인지 이제부터 차근차근 알아볼까요?



나만 알고 싶은 OmicsBox

OmicsBox 기능을 알아보기 전에 OmicsBox는 무엇인지에 대해 먼저 알아보겠습니다.

OmicsBox는 새로운 genome 분석을 위한 최고의 생물정보학 플랫폼(Platform)임과 동시에 산업, 학술 및 정부 연구기관의 생물학자를 위한 사용자 친화적인 생물정보학 데스크톱 애플리케이션(Desktop application)입니다. 이러한 OmicsBox는 기능 유전체학의 선두주자로서 세계적으로 인정받고 있으며, 이는 7,000개 이상의 과학 연구 인용으로 입증되었습니다. 또한, OmicsBox는 genomics, transcriptomics, metagenomics의 NGS 데이터 분석에 최적화(de novo 파트)되어 있으며, 필요에 따라 데이터 분석에 필요한 다양한 모듈(Module)을 결합하여 사용할 수 있습니다.


[그림 1]. OmicsBox OverView

  • 아래는 OmicsBox의 주요 기능을 나열해 봤는데요,
  • 클라우드 플랫폼(Cloud platform)을 활용한 애플리케이션(Application) 고속 실행 및 견고하고 안전한 백엔드(Back-end) 제공
  • Blast 결과의 Gene Ontology mapping
  • Functional Annotation
  • InterProScan domain 검색
  • GO-Slim Reduction
  • KEGG map mapping
  • 통계 정보 차트
  • 다양한 데이터의 import와 export format 지원
  • Eukaryote, prokaryote에 알맞은 model을 이용한 유전자 부위 예측
  • 발현값을 이용한 pairwise/time course 별 분석
이뿐만 아니라 OmicsBox는 아래와 같은 강력한 장점도 가지고 있습니다.



Advantages of OmicsBox

Powerful Tables



[그림 2]. Powerful Tables
풍부한 사용자 인터페이스(Interface)를 통해 대용량 데이터세트를 쉽게 처리할 수 있고, 모든 테이블은 필터링과 정렬을 할 수 있으며, 가장 중요한 것은 다른 결과 세트와 결합할 수 있다는 것입니다. 또한, 후속 분석 단계의 하위 집합을 쉽게 생성하고 추출할 수 있습니다.

Workflows


[그림 3]. Workflows

Workflow manager를 사용하여 생물정보학적 workflow를 생성, 실행 및 저장할 수 있으며, 선택한 분석 단계를 끌어와 workflow를 생성하고 모든 파라미터(Parameter)를 한 곳에서 구성하고 검토할 수 있습니다.
  
Genome Browser


[그림 4]. Genome Browser

Genome Browser는 여러 트랙(Track)을 통해 alignment(.bam), gene annotation(.gff) 및 variant 정보(.vcf)를 결합할 수 있습니다. 그뿐만 아니라 navigation, 필터 및 검색 옵션을 사용하여 쉽고 탐색적인 방법으로 결과를 확인할 수 있습니다.

Omics Cloud Platform



클라우드 플랫폼(Cloud platform)은 대부분의 무거운 작업이 수행되는 OmicsBox에 견고하고 안전하며 자동 확장이 가능한 백엔드(Back-end)를 제공합니다. 또한, 이 시스템을 사용하면 표준 PC에서 매우 까다로운 생물정보학 애플리케이션(Application)을 고속으로 실행할 수 있습니다.
 
자 어떤가요? 전반적으로 OmicsBox에 대해 간략히 알아보았는데, 글을 읽다 보니 내 데이터를 어떻게 처리하면 좋을지 구상이 잡히셨나요? {OK} 아직 잘 안 잡히셨다고요? 괜찮습니다.:-)
이제부터 설명해 드릴 OmicsBox의 4가지 모듈을 살펴보고 나면 구상이 잘 잡히실 겁니다.
그럼 한번 살펴볼까요?



Four modules of OmicsBox


[그림 6]. Four modules of OmicsBox

Genome Analysis
  • Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고, low quality bases를 제거할 수 있습니다.
  • De Novo Assembly : ABySS를 기반으로 하는 assembly 기능을 통해 reference genome 또는 특정 하드웨어(Hardware) 요구 사항 없이 전체 genome sequence를 재구성할 수 있습니다.
  • Repeat Masking : 다운스트림(Down-stream) 유전자 예측을 개선하기 위해 RepeatMasker를 사용하여 진핵생물 genome의 반복적이고 복잡성이 낮은 assemble된 DNA sequence를 마스킹(Masking)할 수 있습니다.
  • Gene Finding : Genome 구조를 특성화하기 위해 원핵생물(Glimmer 사용) 및 진핵생물(Augustus 사용) 유전자 예측을 수행할 수 있으며, 진핵생물 유전자 예측은 RNA-seq 인트론 힌트를 지원합니다.
  • Genome Browser : 트랙(Track) 형태로 annotation을 시각화하여 genome sequences(.fasta), alignments(.bam), intron-exon structure(.gff) 및 variant data(.vcf)와 결합할 수 있습니다.

Transcriptomics
  • Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고 low quality bases를 제거할 수 있습니다.
  • De Novo Assembly : Reference genome 없이 de novo transcriptome을 생성하기 위해 Trinity 프로그램을 이용하여 짧은 Reads를 조립할 수 있습니다.
  • RNA-Seq Alignment : 초고속 유니버설(Universal) RNA-seq aligner인 STAR를 사용하여 RNA-seq 데이터를 reference genome에 alignment 할 수 있습니다.
  • Quantify Expression : HTSeq 또는 RSEM을 사용하여 reference genome의 유무와 관계없이 gene 또는 transcript 수준에서의 발현을 정량화할 수 있습니다.
  • Differential Expression Analysis : NOISeq, edgeR 또는 maSigPro와 같이 잘 알려진 다양한 통계 패키지(Package)를 사용하여 실험 조건 간 또는 시간이 지남에 따라 차등적으로 발현된 유전자를 검출할 수 있습니다. 또한, 풍부한 시각화는 결과를 해석하는 데 많은 도움이 됩니다.
  • Enrichment Analysis : 차등 발현 결과를 functional annotation과 결합함으로써, Enrichment 분석은 과잉 및 과소 표현된 생물학적 기능을 식별할 수 있도록 해줍니다.

Metagenomics
  • Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고 low quality bases를 제거할 수 있습니다.
  • Taxonomic Classification : Kraken에서 현재의 종(세균, 고세균, 바이러스)을 식별하고, 다단계의 Pie chart인 Krona와 샘플 간의 비교 막대 그래프로 결과를 시각화할 수 있습니다.
  • Metagenomics Assembly : 클라우드(Cloud)에서 빠르고 쉽게 대규모 데이터세트를 조립하기 위해 MetaSPAdes와 MEGAHIT 중에서 선택할 수 있습니다.
  • Gene Prediction : 가능 유전자와 단백질을 식별하고 추출하기 위해 일반 Reads에는 FragGeneScan, 조립된 데이터에는 Prodigal을 사용할 수 있습니다.
  • Functional Interpretation : EggNOG-Mapper 및 PfamScan을 사용하여 높은 처리량의 functional annotation을 얻을 수 있고, 결과를 GO graph 및 chart로 시각적으로 표현하고 비교할 수 있습니다.

Functional Analysis
  • High-Throughput Blast and InterProScan : CloudBlast 및 CloudInterProScan을 사용하여 선택한 reference 데이터세트에 대해 빠른 sequence alignment 및 domain 검색을 수행할 수 있습니다.
  • Gene Ontology Mapping : UniProt 및 Gene Ontology Consortia의 최신 데이터베이스에서 사용 가능한 functional annotation을 사용하여 잠재적인 homologous와 domain을 연결할 수 있습니다.
  • Blast2GO Annotation : Blast2GO 방법론을 사용함으로써, source annotation 품질 및 ontology 계층을 고려하여 가장 신뢰할 수 있는 기능 label을 새로운 sequence 데이터세트에 유연하게 할당할 수 있습니다.
  • Enrichment Analysis : 서로 다른 enrichment 분석 방법 (Fisher Exact Test 및 GSEA)을 사용하여 과다 및 과소 표현된 분자 기능을 식별할 수 있습니다.
  • Functional Interpretation : 다양한 시각화를 통해 annotation process를 평가할 수 있을 뿐만 아니라 실험 및 기능 분석 결과의 생물학적 해석을 도울 수 있습니다.

Genome 분석, Transciptome 분석, Metagenome 분석 받고 Functional Annotation 분석까지! NGS 분석 대부분 분야를 섭렵한 OmicsBox, 어떠신 것 같나요? 구상이 어느 정도 잡히시고 있나요? 점점 OmicsBox 매력에 빠져들고 계신가요? :))
그럼 이쯤에서 이런 질문을 던질 수도 있습니다. "Genome 분석, Transcriptome 분석, Metagenome 분석, Functional Annotation 분석까지 기능은 매우 좋은데 어떻게 이용해야 할지 잘 모르겠어요···"
걱정하지 마세요! 저희에게는 앞서 언급되었던 장점 중 하나인 workflows가 있습니다!



OmicsBox Workflows

Genome Analysis Workflows
  • Eukaryotic Genome Analysis Workflow
  • Prokaryotic Genome Analysis Workflow
  • Long Reads Eukaryotic Genome Analysis Workflow
  • Long Reads Prokaryotic Genome Analysis Workflow

[그림 7]. Eukaryotic Genome Analysis Workflow
 

Transcriptomics Workflows
  • De Novo Transcriptome Characterization Workflow
  • Transcript-level Analysis Workflow
  • Gene-level Analysis Workflow



[그림 8]. De Novo Transcriptome Characterizatioin Workflow
 

Metagenomics Workflows
  • Taxonomic Classification Workflow
  • Functional Annotationi Workflow



[그림 9]. Taxonomic Classification Workflow
 

Metagenomics Workflows


[그림 10]. Functional Analysis Workflow
 
Raw data만 넣어주고, 각 단계의 파라미터(Parameter)만 잡아주면~ 자동으로 output까지 산출되는 workflow! 참으로 간단하죠? {OK}
OmicsBox workflow만 있으면 어렵던 유전체 데이터 분석이 앞으로는 재미있게 느껴질 수 있습니다.



마치며
이번 포스팅(Posting)에서는 OMICS 데이터 분석을 용이하게 해주는 생물정보학 솔루션 OmicsBox에 대해 알아보았는데요. Genome 분석부터 Functional Annotation 분석까지 많은 기능이 있는 아주 매력적인 솔루션이라고 생각이 됩니다. 더군다나 어떤 기능을 어떻게 사용해야 하는지 잘 모르더라도 강력한 기능인 workflow가 있어서 손쉽게 output을 얻을 수도 있구요. 만약 NGS 데이터 분석이 아직 어렵고 낯설게 느껴지는 분들이 계신다면 이번 포스팅의 주인공인 OmicsBox를 강력! 추천해 드립니다. 후회하지 않으실 거에요 :D
 
만약 OmicsBox와 친해지고 싶으시다면 consulting@insilicogen.com으로 메일 주세요.
친절히 안내 드리도록 하겠습니다.
마지막으로 긴 글 읽어주셔서 감사드리며, 모두 건강한 나날 보내시길 바랍니다.
감사합니다.
 
OmicsBox : BIOINFORMATICS MADE EASY


Posted by 人Co

2021/04/30 17:17 2021/04/30 17:17
, , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/380



우리가 먹고 있는 청양고추, 사실은 독일 바이엘사에 로열티를 주고 종자를 구매 후 작물을 재배하여 섭취하고 있는 현실 알고 계셨나요? 그뿐만 아니라 제주 감귤, 파프리카, 고구마와 양파의 종자도 대부분 해외에서 사들여 먹고 있는 것입니다.
최근 세계적인 유전자 가위 업체들은 항산화·항노화 성분이 기존 콩보다 2배 이상 많은 콩을 개발해 미국 농무부(USDA)로부터 Non-GMO 판정을 받아냈다고 하는데요, 즉, 유전자변형식품이 아니라는 뜻으로 볼 수 있습니다.
이는 이미 선진화된 기술력을 가진 해외 기업들이 우리가 먹고 있는 식량을 좌지우지할 수 있는 여지가 더욱 커졌다는 말이기도 합니다.
다행히 우리나라에서도 디지털 육종 전환 사업이란 것을 통해 육종 기간을 6년에서 3년으로 줄이고 육성 품종의 상품화율을 5%에서 50%로 대폭 끌어올리는 것을 목표로 국내 종자 산업 첨단화를 위한 사업이 진행 중인데요,
이 디지털 육종에 표준화되고 객관화 된 표현형 데이터가 매우 중요합니다.
 
디지털 육종과 표현형 데이터? 다소 생소하게 느껴질 수 있겠지만, 블로그를 통해 그 궁금증 하나둘씩 해결해드리고자 합니다.
오늘 블로그는 종자 산업의 패러다임 변화, 디지털 육종과 표현형 데이터에 대하여 작성해보았습니다.




기후 및 환경 변화 등의 이유로 우수한 신품종을 빠르게 육성하기 위해서는 종묘단계에서 우수한 개체를 선발하는 것이 무엇보다 중요한데 이를 위해 경험 중심의 전통육종[1]에서 빅 데이터 기술과 인공지능기술(AI)로 신속한 의사결정이 이뤄지는 디지털육종[人Co블로그:https://www.insilicogen.com/blog/370]으로 전환이 필수적으로 요구되고 있습니다.

최근 유전자분석 기술(NGS)의 도움으로 유전체 정보는 폭발적으로 증가했으나 표현형[2] 정보의 측정 및 분석기술에 한계가 있다는 점이 육종 기술 도입의 한계로 지적되었습니다.

그러나 최근 RGB, NIR 카메라 및 영상 기술이 발달함에 따라 이를 이용해 크기, 수, 이상 현상 등 작물의 표현형을 정확하고 빠르게 대량으로 수집할 수 있게 되었고, 수집된 데이터를 바탕으로 다양한 기술을 이용해 영상정보(사진, 양상)를 디지털화하고 우수 경제 형질과 연계해 우수한 품종을 선발하는 표현체 이용 기술이 주목을 받고 있습니다.

이러한 표현체 연구는 작물의 형태적 특징을 영상 기술을 통해 수치화 및 객관화하여 분석하는 기술로써 표현형과 연관된 유전자의 연관 관계를 밝혀 그 특성을 이용한 우수 품종 개발을 지원할 수 있는 아주 유용한 방법이라 할 수 있습니다. 즉, 각 개체의 표현형질과 유전적 특성을 미리 알 수 있어 육종 시 원하는 형질을 가진 모본과 부본 간의 교배가 가능하므로 우수 경제 형질을 가진 개체를 선발할 수 있으며 육종 기간 단축을 통해 노력과 시간의 감소 효과를 얻을 수 있습니다.

따라서 전통농업기술과 분자육종, ICT 및 인공지능 등 첨단 기술을 접목한 표현체 연구를 기반으로 차세대 디지털육종 시스템으로 변환을 통해 육종 기간 단축과 우수후보 발굴 등 신품종 개발 효율성을 높일 수 있습니다.



 
[Fig.1] 표현형 자료를 이용한 벼 육종 자료 (출처:A quantitative genomics map of rice provides genetic insights and guides breeding Nature Genetics (2021))
 



 
이러한 표현체 연구를 위해서는 총 4단계의 과정으로 재구성하였습니다.
 

[Fig.2] 표현형 자료 예시
 

  • 데이터베이스 구축 단계
    • 각 재배 및 사육 단계에서 육안 또는 영상, ICT 장비를 이용해 데이터를 체계적으로 수집하는 단계로, 데이터를 수치화하고 객관화시켜 신뢰할 수 있는 표현체 빅데이터를 구축해야 함.
    • 기온, 습도, 날씨 등 다양한 환경 요소를 비롯하여 작물의 성장과 발달 단계에 맞는 정확한 정보(온톨로지)를 통해 수치화하여 수집하는 단계.
  • 지식정보 그래프 구축 단계
    • 수집 데이터를 '노드'-'엣지'의 그래프로 구현하는 단계로 서로의 데이터 관계를 명확하게 정의하여 표현형, 기능, 유전형의 관계를 체계적으로 구축하는 단계.
  • 연관 관계 분석 단계
    • 각 수집 요소에 대하여 알고리즘을 적용하는 단계로 표현형 및 환경정보와 유전형의 연관 관계에 대하여 중요도를 부여하여 특정 표현형에 대한 쿼리 결과의 순위를 제공하는 단계로 이를 뒷받침하는 유전형의 정보도 제공.
  • 맞춤형 분석 단계
    • 데이터베이스를 재구성하거나 탐색을 통해 자신과 가진 데이터를 비교하거나 분석할 수 있는 플랫폼을 제공하는 단계로 특정 표현형에 대한 집단 비교 분석 및 AI 기술 도입을 통해 최적의 교배 지침을 제공하는 단계.

기존 전통육종에서 디지털육종으로의 전환을 유도할 수 있는 표현형 데이터는 유전체 데이터와의 결합과 AI 기술 적용을 통해 새로운 미래 먹거리를 발굴에 활용할 수 있습니다.




그러나 이러한 표현형 데이터는 무엇보다 표준화와 객관화가 중요합니다. 특히 단위는 무척이나 중한데 이를 간과한 사례가 있습니다. 단위가 헷갈려 1,400억 원짜리 우주선이 폭발한 사례[중앙일보]에서 보는 것처럼 주요 단위인 야드와 미터법의 혼동으로 이와 같은 엄청난 피해를 남겼습니다. 표현형을 수집할 때 정확한 용어와 단위 사용은 필수 요소입니다. 이렇게 체계적으로 수집된 표현형 데이터가 유전형 데이터를 만났을 때 진정한 위력을 발휘할 수 있는 것입니다.


[Fig.3] 단위 헷갈려 1,400억짜리 우주선이 폭발[중앙일보]


 

 
이러한 사례를 보자면 "커피는 건강에 좋다?"라는 기사를 통해 확인할 수 있습니다. 커피는 산화방지제가 풍부하고 스트레스를 감소시켜 주며 간 건강에 도움을 준다고 알려졌지만, 과다 섭취하게 되면 골관절염과 비만을 높일 수 있습니다. 해당 연구결과는 'MR-PheWAS분석법'을 이용해 영국 바이오뱅크 내 30만 명의 헬스데이터를 질병정보와 연계 분석하여 얻어진 연구결과입니다. 여기서 MR-PheWAS(MR phenome-wide association studies, MR-PheWAS)분석법이란 의무기록정보 기반 표현체 연관 분석 방법으로 특정 집단 내의 다양한 개체들에서 나타나는 표현형과 유전형과의 연관성을 연구하는 방법으로, 이를 통해 단순히 커피를 마시는 사람과 비교하는 관찰적 기법이 아니라 임상 정보와 연계하여 위와 같은 연구결과를 도출하였습니다. 이러한 분석이 가능한 것은 임상 정보와 같은 방대한 표현형 정보가 바탕이 되었기 때문입니다. 즉, 데이터가 서로 융합이 될 때 더욱더 가치를 발하는 것입니다.
 
 

[Fig.4] 커피는 건강에 좋다? 지나치면 골관절염·비만 위험 키운다[연합뉴스]
(출처:다양한 커피잔[Cyril Saulnier 제공)

표현형 데이터는 말 그대로 야장(野帳)을 디지털화한 것입니다. 단지 기입하고 엑셀로 관리하는 용도가 아니라 적재적소에 활용할 수 이용할 수 있도록 데이터베이스 구축과 데이터의 시계열 분석 및 복합 쿼리를 통해 필요한 정보를 추출할 수 있도록 해야 합니다. 즉 디지털 야장(野帳)을 통해 개체 및 집단에 대한 데이터 분석, 가시화, 통계 분석을 지원할 수 있어야 합니다.
 
 
 
오늘 블로그에서 다루었던 디지털 육종 분야에서의 표현형 데이터는 단순히 아날로그식 기재방법으로 축적하는 것이 아닌, 대량의 표현형 데이터를 상황에 맞게 사용하기 위하여 데이터베이스 구축이 필요할 것입니다.
이를 위해 공공기관과 민간 기업에서 홍수처럼 쏟아지는 많은 양의 데이터를 적절히 관리하고 분석할 수 있도록 빅데이터 구축 사업을 꾸준히 진행하고 있는데요, 디지털 육종을 위한 표현형 데이터도 데이터베이스 구축을 통해 그 활용도와 효용성을 극대화할 수 있을 것입니다.



 
  • 표현형

표현형은 어떤 생명체의 겉으로 관측이 가능한 특정 모습이나 성질을 의미하며 유전형과 반대되는 개념.

멘델의 완두콩 실험을 설명하기 위해 처음 표현되었으며, 현대에 이르러서는 그 개념이 크게 확대되었습니다. 초기 멘델이 형질의 특성을 설명하기 위해 사용된 이 개념은 '유전자형이 곧 표현형으로 드러난다' 는 개념이었으며 완두콩의 '동그랗다'와 '주름지다' 등과 같이 실제 겉으로 드러나는 모양을 표현형이라고 부를 수 있습니다.

표현형은 우리가 흔히 마주할 수 있는 머리카락 색, 눈 색, 키 등과 같은 외향적인 모습뿐만 아니라 특징적인 행동, 발생, 생리학적 특성 또한 포함합니다. 이러한 표현형은 초기 유전형에 의해 결정되며 향후 환경적 요인에 의해 변할 수도 있습니다.

  • 육종의 개념

육종이란 농작물이나 가축을 개량하여 경제(실용) 가치가 더 높은 새로운 품종을 개발하고 증식하여 보급하는 기술입니다. 육종의 목표는 수량 증대와 품질 향상, 내재해성, 내병성, 맛, 향기(풍미), 모양, 사육 환경 등이 다양한 경제 형질로 정해질 수 있습니다.

육종의 대상은 농경을 시작한 이래로 산업적으로 유용한 형질(표현형)을 가진 모든 생물체가 그 대상이었습니다. 경주 능력을 목표한 '서러브레드' 경주마, 우리가 즐겨 먹는 마블링이 우수한 1등급 '한우', 매운맛의 강자 '청양고추', 가난에서 벗어나게 해준 수확량의 제왕 '통일벼', 밀을 대체할 벼 품종 '가루미' 등 동식물을 망라하고 인간에게 유용한 경제 형질을 가진 모든 분야에서 육종이 이루어져 왔습니다.

이렇게 다양한 특징을 가진 농작물 또는 가축을 만드는 것이 전통적인 분리육종만으로는 수십 년 이상을 필요로 하므로 현대 육종방법에서는 최첨단 과학기술을 사용하여 종자 개발을 진행하고 있습니다.

  • 전통육종과 분자육종

전통 육종 - 직접 식물 또는 동물을 교배하고, 재배(사육)하여 선발한 개체를 다시 재배하여 확인 작업을 거쳐 품종화시키는 방법이기에 최소 7년에서 20년 이상의 시간이 소요되며 겉으로 드러난 표현형만을 기준으로 하므로 육종의 목표가 되는 형질 외에 다른 형질의 내재성을 모르는 등 그 한계가 분명합니다.

분자 육종 - 육종기술에 분자 마커를 활용한 분자생물학 기술을 접목한 새로운 육종방법으로 마커를 통해 각 개체의 유전적 특성을 규명하고 효율적으로 우수한 개체를 판별하는 기술입니다. 유용한 형질을 가진 개체를 찾고 교배하는 것은 전통과 같으나 자손 세대의 재배 없이 분자마커를 이용해 원하는 개체를 찾을 수 있으며 많은 시간을 단축하거나 눈으로 확인할 수 없는 경우 등 개체 선발에 도움을 줍니다.

작성 : BS실 이규열 수석개발자
 


 

Posted by 人Co

2021/04/11 14:38 2021/04/11 14:38
, , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/377



우리는 빅데이터와 인공지능이 대세를 이루고 있는 시대에 살고 있습니다. 과거 산업혁명과 비교해서 4차 산업혁명 시대는 다양한 산업 분야와 산업 생태계에서 격세지감을 느낄 정도의 변화가 일어나고 있으며 그중에 바이오 헬스 산업은 향후 핵심적인 융합산업 분야로 주목받고 있습니다. 바이오 헬스 산업의 가장 기본이 되는 데이터 구축을 위해 국가 차원에서 바이오 빅데이터 구축 사업을 통해 바이오 데이터 구축 및 표준화로 미래 기술을 선점할 수 있는 기반을 만들기 위해 노력하고 있습니다. 이러한 기조에 맞춰 인실리코젠도 보건복지부, 과학기술정보통신부, 산업통상자원부가 컨소시움을 이루어 2년 동안 총 2만 명의 임상정보와 유전체 데이터 수집을 목표로 하는 국가 바이오 빅데이터 구축 시범 사업의 일환인 희귀질환 빅데이터 플랫폼 구축 사업 일부에 동참하여 희귀질환 극복을 위한 노력에 일조하고 있습니다. 이번 시간에는 희귀질환을 극복하기 위한 국내외 연구 기관에 관해 이야기하고자 합니다.




우선 희귀질환의 정의는 법률적으로 유병(有病) 인구가 2만 명 이하이거나 진단이 어려워 유병인구를 알 수 없는 질환으로 보건복지부령으로 정한 절차와 기준에 따라 정한 질환을 말합니다. 국내 희귀질환 관련 법률은 개인적/사회적 부담을 감소시키고, 국민의 건강 증진 및 복지 향상에 이바지하는 것을 목적으로 2015년에 희귀질환관리법이 제정되었으며, 국가관리대상 희귀질환 지정은 희귀질환관리법에 따라 유병인구 수, 질환 진단에 대한 기술적 수준, 질환 진단을 위한 인력 및 시설 수준, 질환에 대한 치료 가능성 등을 기준으로 희귀질환관리위원회의 심의를 거쳐 희귀질환으로 지정하게 되어 있습니다. 국내 기준과 달리 미국은 유병인구 20만 명 미만이거나 인구 1,500명당 1명, 유럽은 인구 2,000명당 1명, 일본은 유병인구 5만 명 미만이거나 인구 2,500명당 1명으로 발병하는 질환을 희귀질환으로 정의하고 있으며, 아직 세계적으로 합의된 정의는 없는 상태입니다.

희귀질환 환자의 질병에 대한 이해를 높이고, 질환에 대한 빠른 진단과 치료의 적용, 그리고 치료법 개발을 위해선 질환 데이터베이스 구축이 필수적이었기에, 이전에는 질환 데이터베이스 구축을 주로 희귀질환 관련 기관 및 단체가 주도하여 개발하고 유지되는 경우가 많았으나, 최근엔 국가 혹은 연합 단위로 데이터베이스를 구축하고 다양한 서비스를 제공하는 방향으로 변화하고 있습니다.

다음은 대표 희귀질환 관련 기관과 단체, 그리고 그 데이터베이스에 대한 특성을 말씀드리겠습니다.



  • 미국 국립희귀질환기구(NORD)
NORD는 1982년 희귀 질환 치료법 개발에 대한 재정적 인센티브를 지원하는 것을 골자로 한 희귀질환의 약물에 관한 법률이 미 국회를 통과하여, 이를 주도적으로 이끌었던 희귀질환 환자 지원 단체들이 연합하여 1983년 NORD(National Organization for Rare Disorders)로 조직되어, 현재까지 꾸준한 활동을 펼치고 있습니다. NORD 웹 사이트(https://rarediseases.org)에는 약 1,300여 개의 희귀질환 목록을 유지하고 있으며, 지원 기관들과 치료법 등에 대한 자세한 정보를 포함하고 있습니다.


<그림1. 미국 국립희귀질환기구 (NORD) 웹사이트>
 
  • 미국 유전병 및 희귀질환정보센터
GARD(Genetic and Rare Diseases Information Center)는 미국국립보건원(NIH)과 미국 국립인간게놈연구소(NHGRI)에서 지원받아 운영되는 센터로 희귀질환 환자의 지원, 희귀질환 진단 및 치료지원, 연구자 연결, 연구 및 치료 자금 지원 연결, 희귀질환에 대한 교육 등을 주된 활동으로 하고 있습니다. GARD 사이트(https://rarediseases.info.nih.gov/) 내에 희귀질환의 정보를 서비스하고 있으며, 질환 정보, 유전 여부, 진단 및 치료정보뿐만 아니라 환자를 지원하기 위한 지원기관, 전문가 목록, 질환 관련 콘퍼런스 및 이벤트 일정 등을 제공하고 있습니다.
 

<그림2. 미국 유전병 및 희귀질환정보센터 (GARD) 홈페이지>
 
  • Global Genes
Global Genes(https://globalgenes.org/)는 희귀유전질환 환자와 그 가족을 위한 국제 비영리 단체입니다. 이 기구는 희귀유전질환에 대한 의식을 고양하기 위한 공교육 제공과 소셜 미디어를 통한 지역사회 지원 체계를 구축하고, 치료와 치료법을 찾기 위한 연구 자금 지원을 하고 있습니다. 또한, GARD 등에서 유전정보를 참고하여 정보를 제공하고 있으며, 희귀유전환자와 그 가족에게 질환의 진단 및 치료를 지원받을 수 있는 기관 목록을 함께 제공하고 있습니다.
 

<그림3. Global Genes 홈페이지>
 
  • 유럽희귀질환환자연맹(EURORDIS)
EURORDIS(European Organization for Rare Diseases)는 유럽연합 내에 있는 70개국 837개 희귀병 환자 조직을 대표하는 비영리 기구로 1997년에 설립되었습니다. EURORDIS는 환자, 가족, 환자 그룹을 연결하고 모든 이해당사자를 모아 질환을 연구하고 환자를 대상으로 하는 다양한 서비스를 제공하고 있습니다. 또한 세계희귀질환의 날을 제정하여 국제적인 관심과 이해를 촉구하고 있습니다. 연맹 자체에서 운영하는 데이터베이스는 보유하고 있지 않지만, 대신에 관련 정보는 프랑스 국립보건의학연구소의 Orphanet을 이용하도록 유도하고 있습니다.
 

<그림4. 유럽희귀질환환자연맹 (EURORDIS) 웹사이트>
 
 
  • 스웨덴 희귀질병정보센터(Swedish Information Centre for Rare Diseases)
스웨덴에서는 질병이 인구 1만 명당 1명 미만에 장애를 일으킬 때 희귀질환으로 정의하고 있으며, 이러한 정의를 기반으로 2019년 2월까지 440여 개의 희귀질환에 대한 정보를 제공하고 있으며, 스웨덴 국립 희귀질환연구소(NFSD, https://www.socialstyrelsen.se/)와 스웨덴 대학병원 및 다양한 의료 전문 센터와 연계하여 환자의 진단 및 지표를 지원하고 있습니다.
 

<그림5. 스웨덴 희귀질병정보센터 웹사이트>
 
 
  • 일본 희귀 및 미진단 질환 이니셔티브(IRUD)
일본은 2015년 일본 의료연구개발청(AMED)에서 일본의 희귀 및 난치성 질병 프로젝트의 일환으로 IRUD(the Initiative on Rare and Undiagnosed Disease)를 시작하였고, 2018년 3월까지 3,083명의 환자와 그 가족을 대상으로 총 8,837개의 시료를 수집하여 추출한 엑솜(Exome) DNA 염기서열 해독 정보와 의료 정보를 결합해 희귀질환을 연구하고 있습니다. IRUD는 희귀 및 미진단 질환의 기초 연구에도 큰 도움이 되고 있으며, 확보한 환자 및 가족 엑솜 DNA 정보를 바탕으로 데이터베이스를 만들어 이를 통해 전 세계와 공동 연구를 늘려가고 있습니다. 이제까지 몰랐던 질병 관련 변이나 유전자도 찾아내어 엑솜 외의 DNA 영역까지 모두 해독해 RNA, 후성유전 등 다양한 유전학 영역을 탐구하고 있습니다.
 

<그림6. 일본 희귀 및 미진단 질환 이니셔티브 (IRUD) 웹사이트>
 
 
  • 질병관리청 희귀질환 헬프라인
국내의 경우 질병관리청에서 2012년부터 일부 희귀질환에 대해 전국 단위의 전문가 네트워크를 구성하여 환자 임상자료 및 생체자원을 수집하고 있으며, 이를 통해 희귀질환의 진단, 치료 및 예후 등에 대한 임상정보와 시료를 수집, 분석하여 한국인의 임상적 특성을 규명하고 국내외 관련 전문가들과 정보 공유를 통해 해당 질환의 진료와 치료기술을 개발하고, 환자들의 조기 진단 및 진료의 질 향상에 기여하기 위해 헬프라인을 운영하고 있습니다. 국내 6개 질환 (시신경척수염, 아밀로이드증, 유전성 부정맥, 전신홍반성루푸스, 조직구증식증, 크론병)에 대한 전문가 네트워크를 운영하고 있으며, 2020년 11월 1,014개의 질환에 대한 증상, 원인, 진단, 치료 등의 정보를 제공합니다. 또한, 관련 임상시험 정보 제공을 위해 미국국립보건원의 ClinicalTrials.gov 데이터베이스로 연결을 제공하고 있습니다.
 

<그림7. 질병관리청 희귀질환 헬프라인>
 
  • 한국생명공학연구원 희귀난치질환연구센터
한국생명공학연구원(KRIBB)의 바이오의약연구부 소속 희귀난치질환연구센터는 빅데이터 기반의 희귀난치성 신경계 질환의 정밀, 맞춤의료연구 인프라 구축을 통해 희귀난치성 신경계 질환의 진단과 치료를 위한 원천기술 개발을 목표로 희귀난치성 신경계질환의 임상시료와 임상정보, 유전체 정보를 확보하여 한국인 유전체표준변이지도 작성하고 고급 데이터베이스를 구축하고 있습니다. 현재까지의 연구 성과는 뇌 발달장애 원인 신규 변이 발견 및 동물 모델 개발로 소아간질, 자폐 , 지적장애를 유발하는 TSC 유전성 뇌 발달질환의 in-vivo 동물 모델 제작과 in-vitro 신경줄기세포 배양 시스템을 이용하여 뇌 발달질환 진단 표지자 발굴을 위한 시스템이 구축되었고, 질환 특이적 대용량 NGS 유전체 데이터 생산 및 분석 파이프라인 구축으로 대용량 NGS(Next Generation Sequencing) 유전체 데이터와 다중 이형 바이오 빅데이터 처리, 가공, 분석을 위한 시스템을 구축하였습니다.
 
  • 한국희귀질환재단
한국희귀질환재단(Korean Foundation for Rare Disease)은 시민과 지자체, 기업, 단체 등의 후원과 참여로 이루어지는 순수 공익재단으로, 그 모체가 되는 '한국희귀질환연맹'의 지난 10년 동안의 활동을 통해 파악된 희귀질환 환자와 가족들의 충족되지 못한 욕구와 간절한 염원을 담아 희귀질환찾기, 유전상담 서비스 지원, 효율적인 희귀질환 치료를 위한 R&D 연구 지원, 진단 사업 지원, 자원봉사 네트워크 구축 및 관리 지원, 특수 보육 교육 프로그램 개발 및 지원 사업 등을 보다 전문적이고 효율적으로 제공하기 위해 설립되었습니다.
 

<그림8. 한국희귀질환재단 홈페이지>
 
 

 
이상이 국내외 대표적인 희귀질환 관련 단체에 대한 간략한 설명이었습니다. 위의 단체들은 각기 지역과 국가, 질환에 특화된 환자와 가족을 대상으로 하는 다양한 서비스를 제공하고, 진단과 치료를 위한 지침과 성과를 지속해서 업데이트하고 있습니다. 말라리아의 경우 아프리카에서는 너무나 흔한 질환이지만 북유럽의 경우는 희귀질환인 경우가 있듯이 전 세계가 연구 성과를 공유하고 지속해서 정보를 수집하고 분석한다면 희귀질환 극복의 시기를 앞당길 수 있을 것이라 기대하며 위의 단체와 기관은 설립 목적을 잊지 않고 질환 극복의 그 날까지 계속해서 정진해 나가기를 바라며 이만 희귀질환 관련 기관 소개를 마칩니다.
 
 
작성 : 대전지사 양성진 책임 개발자

Posted by 人Co

2021/02/28 20:23 2021/02/28 20:23
,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/372

교배 육종에서 디지털 육종으로



인류에게 종자는 가장 기본이 되는 일차적 요소로서 오늘날 세계 종자시장 규모는 유례없이 빠른 성장세를 보이고 있습니다.
현재 국내 관계부처에서는 농, 수, 축산 분야에서 아날로그식 교배 육종에서 디지털 육종으로 종자 산업의 패러다임 전환을 예상하고 관련 사업을 적극적으로 지원하고 있는데요, 오늘 블로그는 이러한 디지털 육종에 대해 알아보도록 하겠습니다.




오늘 점심으로는 무엇을 드셨나요? 전주 한정식에 올라온 한끼 메뉴에 영양 많은 강낭콩이 들어간 돌솥밥에 불고기, 조기구이, 호박나물, 잡채, 신선한 굴까지 26개의 반찬이 올라왔습니다. 식자재로 따져 보면 마늘, 파, 고추, 계란 등 아마도 족히 50가지는 넘을 것 같습니다. 우리는 이런 식자재를 마트나 새벽 배송을 통해서 언제나 쉽게 구할 수 있죠. 어떻게 가능했을까요? 너무 쉬운 일이라 고민해볼 여지도 없는 것이겠지만, 이것은 모두 육종 덕분입니다. 곡류를 비롯한 채소류, 육류(소, 돼지, 닭 등), 수산물(넙치, 전복, 고등어)까지 모두 육종을 통해 농장과 양식장에서 생산성 높게 길러지고 있음을 우리는 잘 알고 있습니다.
[Fig. 1] 전주한정식
 
단적인 예로 쌀의 경우 여리고 키가 크며 붉은색 쌀알이던 야생벼에서 현재의 튼실하고 흰 쌀알로 육종되었으며, 콩도 땅에 기어 자라던 야생종에서 현재의 위로 자라는 종으로 육종되어 생산성이 매우 높아지게 되었습니다. 이렇듯 오랜 세월 우리 주변의 동·식물을 우리가 선호하는 형태로 변화시킨 육종은 오늘날 점점 더 가속화, 세분화되고 있습니다. 닭의 경우만 보더라도 계란을 얻으려는 목적의 알을 잘 낳는 닭과 닭고기를 얻으려는 목적의 빠른 성장과 근육이 많은 닭으로 각각 세분화하여 목적에 부합하는 형태로 육종되었습니다.
 
[Fig. 2] 재배벼의 조상인 여러 가지 야생벼와 재배벼
 
[Fig. 3] 야생콩과 재배콩 (출처 Jeong-et-al., 2013)
 
 

 
그럼 육종 방법에 대해 좀 더 자세히 알아보겠습니다.
  • 도입 육종 : 기후나 풍토가 유사한 다른 나라에서 개발된 품종을 국내로 도입하여 검역과 검정평가를 통해 증식시키는 육종으로, 1959년 미국에서 도입한 옥수수가 대표적입니다.
  • 교배 육종 : 서로 다른 우수한 형질을 갖는 개체들을 교배하여 한 개체에서 우수한 형질 모두를 가질 수 있도록 하는 것으로, 대부분의 전통 육종방식이 이에 해당합니다. 육종가들에 의해 수년 동안 반복적인 교배와 표현형에 의한 개체 선발 과정이 수반되는 터라 시간적, 공간적, 비용면에서 효율성이 낮다는 단점이 있습니다.
  • 형질 전환 육종 : 유전자 재조합 방식을 이용해 관심 형질 유전자를 유전체에 도입하는 방식으로 기존의 생명체에서 없던 형질을 갖도록 종을 개량합니다. 흔히 GMO(Genetically Modified Organism)와 LMO(Living Modified Organism)를 들 수 있는데(유전자 재조합을 통해 변형된 생물체를 LMO로 한정하고 이들 생명체를 제조, 가공한 것까지 포함한 것을 GMO로 함), 제초제 내성을 갖는 콩이나 냉해에 강한 딸기, 옥수수 등이 이에 해당합니다. 인류가 섭취해온 이력이 없는 단백질을 포함하고 있어 알레르기 반응을 포함한 알려지지 않은 문제의 가능성 때문에 심리적으로 불편함을 느끼는 이슈가 있습니다.
  • 디지털 육종 : 유전형-표현형에 기반을 둔 선발 육종 방식으로 다양한 표현형을 갖는 집단에서 특정 형질(표현형)을 갖는 개체들만을 유전형을 이용하여 선발하는 방식입니다. 최근 6~8년 걸리던 호박의 새 품종 개발을 3년 이하로 줄일 수 있었던 첨단 육종 기술입니다.


이렇게 간단히 살펴본 육종 기술 가운데, 현재 가장 발전된 기술은 디지털 육종이라 불리는 유전형 기반의 육종입니다.
NGS (Next generation sequencing)라는 대용량 시퀀싱 기술로 유전체 서열을 밝히고, 표현형이 다양한 개체들의 변이 정보를 생산함으로써 표현형과 연관된 유전형을 찾아 마커로 개발하는 방식은 기존의 다른 육종 기술의 단점들을 대부분 보완하고 있습니다.
가장 전통적으로 진행해 오던 교배 육종은 교배된 F1 세대부터 다수의 개체를 키워가며 목표 표현형에 부합되지 않는 개체들을 솎아내며 몇 세대가 될지 모를 목표 형질에 다다를 때까지 교배와 솎아냄을 반복합니다. 그러다 보니 시간적으로나 물리적으로 필요한 재배 환경까지 비용면에서 효율성이 낮았습니다. 게다가 전복과 같이 3년은 키워야 비로소 교배가 가능한 종일 경우, 소처럼 다음 세대의 개체수가 극히 적은 경우 (1마리의 새끼만을 낳는 경우), 과실수와 같이 한세대가 너무 길어 표현형을 확인하는 데 몇 년씩 걸리는 경우들은 교배 육종으로는 한계가 있습니다. 그에 반해 디지털 육종은 현재 관찰 가능한 개체들을 대상으로 선발하기 때문에 공간적, 시간적 제약에서 비교적 자유롭습니다.
형질 전환 육종에서의 이슈는 생명 현상의 대부분이 여러 유전자의 복합적인 상호작용으로 이뤄지기 때문에 유전자 하나를 도입한다고 해서 해당 형질이 바로 얻어지지 않는 단점이 있습니다. 도입된 유전자가 발현되어 단백질이 되었을 때 세포 내의 다른 단백질과 혹은 다른 유전자들과 어떤 상호 작용을 하느냐에 따라 표현형은 다르게 나타날 수 있기 때문입니다. 따라서 목표 유전자를 선택하고 제어하는데 생물학적 메커니즘의 이해가 수반되어야 하는 어려움이 있습니다. 그러나 디지털 육종은 자연적으로 생겨난 개체들 가운데 목표 형질을 갖는 개체를 선발하는 방식이라 유전자 재조합에 대한 불편함 및 생물학적 메커니즘 이해가 필요하지 않습니다.




그럼 디지털 육종에 대한 보다 정확한 이론을 살펴보겠습니다.
디지털 육종에는 필수 요소 3가지가 있습니다. 개체 (샘플), 표현형, 유전형이 그것인데, 모두 앞선 기술들에 비해 수집하는 데 유리합니다.
먼저 개체 확보 면에서 디지털 육종은 현재 관찰이 가능한 모든 개체를 대상으로 합니다. 야생종부터 돌연변이 종까지 제한이 없으며, 동일한 생장 조건이 필요하지도 않습니다. 예를 들어 밤나무의 경우 전국의 수집 가능한 모든 밤나무가 대상이 될 수 있습니다. 나무의 연령이 모두 달라도 괜찮습니다. 호박과 같은 채소류의 경우 일부러 교배를 통해 다양한 개체를 얻었다면 그 또한 모두 가능합니다.

두 번째, 표현형 정보는 현재 확보된 개체들에서 관찰되는 모든 것을 대상으로 할 수 있습니다. 밤나무의 경우 알곡의 크기, 밤나무가 위치한 지역, 수확 시기, 나무의 크기, 한 가지에 달리는 밤송이의 수, 나무의 연령 (가능하다면) 등 현재 시점에서 관찰할 수 있는 모든 것이 표현형으로 정리될 수 있습니다. 이를 좀 더 효율적으로 수집하고자 하는 기술이 Edging computing을 이용한 디지털화된 장비를 이용한 표현형 수집입니다. 온실에 카메라를 설치하고 주기적으로 사진을 촬영하여 호박의 성장 정보를 영상 분석을 통해 처리하는 AI 기술이 접목된 스마트 팜이 이에 해당합니다.

마지막인 세 번째 유전형 생산은, NGS 기술과 생물정보의 발달로 누구나 쉽게 얻을 수 있게 되었습니다. 심지어 오늘 드신 모든 식재료의 유전체가 밝혀져 있다는 사실만 보아도 얼마나 보편화된 기술인지 알 수 있습니다. 이들 3요소가 모두 데이터로 갖춰졌다면 총 4단계의 생물정보 분석을 통해 육종이 이뤄집니다.


[Fig. 4] 육종을 위한 4단계의 생물정보 분석
  • [1단계] 표현형과 연관된 변이 마커 찾기 : GWAS(Genome Wide Association Study)라 불리는 일종의 통계 분석으로 특정 표현형으로 집단을 구분한 후에 구분된 집단과 연관성이 높은 변이를 찾아내는 방법입니다. 이때, 표현형은 꼭 두 개의 집단으로 양분되는 구조가 아니어도 됩니다. 밤 알곡의 크기는 정량적인 수치로 크기에 따라 동일한 패턴으로 유전형이 나타난다면, 해당 변이는 알곡 크기에 연관된 마커로 선택될 수 있습니다. 병 저항성의 경우에도 잎의 60%가 마르는 데 걸리는 시간으로 표현형을 정량화할 수 있습니다.
  • [2단계] 기계학습 : 표현형에 따른 집단의 구분력을 보이는 변이만을 유전형 데이터로 활용하여 표현형-유전형 기계학습을 수행합니다. 이때, 수집된 개체의 75% 정도를 학습 데이터로 활용하고, 나머지 25%는 학습된 기계학습의 정확도 평가를 위해 사용합니다. 밤 알곡의 크기를 예측하기 위한 기계학습을 예로 들면, 1단계에서 선별된 변이 마커가 30개라면, 개체별 30개의 유전형 정보에 따라 측정된 알곡의 크기를 표현형 정보로 학습되도록 합니다. 이후 구축된 예측모델을 이용해 남겨 두었던 25% 개체의 유전형 정보를 넣고 해당 표현형이 예측될 가능성이 얼마나 될지 확률치를 얻게 됩니다. 기계 학습의 평가는 True Positive (정답을 정답으로 예측), False Negative (오답을 오답으로 예측)로 계산되는 Specificity와 Sensitivity로 정리됩니다. 만약 결과가 만족스럽지 못하다면, 기계학습 알고리즘을 변경해 보거나 학습 데이터를 변경해야 합니다. 학습에 이용되는 30개 마커의 유전형 정보는 개체별로 모두 다를 수 있습니다. 이는 마커 개개의 정보력이 약하기 때문인데, 다수의 개체에서 기계학습을 통한 반복적인 학습을 통해 조금씩 다른 유전형임에도 동일한 표현형으로 학습시켜 정확도를 높일 수 있습니다. 또한, 마커 개별의 정보력이 약한 것은 오히려 한두 개의 변이 정보가 소실된다 할지라도 기계학습의 표현형 예측에는 큰 변수가 되지 않아, 기존의 SSR과 같은 분자 마커를 활용한 육종보다 한 단계 진보한 기술이라 할 수 있습니다.
  • [3단계] 확장된 검증 : 구축된 기계학습모델로 더 많은 개체에 적용해 봅니다. 해당 표현형을 예측하는 데 사용되는 마커는 1단계에서 30개로 선별되었고, 이후 미지의 시료에 대해 30개 마커 유전형만을 타입핑하여 표현형을 예측합니다. 이는 여러 출처의 개체로 검증해보는 것이 좋습니다.
  • [4단계] 교배효율 검사 : 기계학습모델 검증이 완료되었다면 최적의 교배 지침을 위한 F1 세대의 표현형 예측 시뮬레이션을 진행합니다. 부·모가 될 개체의 유전형을 기반으로 F1 세대에서 나타날 수 있는 유전형을 무작위 방식 구성합니다. 이때 F1 세대의 개체수는 2,000개체 이상, 유전형은 해당 표현형을 예측하는 마커 수, 앞선 예로 들자면 30개 유전형을 인실리코상에서 데이터로 생산합니다. 이후 2,000 개체의 유전형을 이용해 구축된 기계학습으로 표현형을 예측하여 F1 세대에서 해당 표현형을 가질수 있는 평균 개체수가 어느 정도 되는지 수치화합니다. 이러한 방식으로 F1 세대에서 해당 표현형을 가질 수 있는 개체수가 많은 순서로 교배 조합을 시뮬레이션합니다. 어패류의 경우 교배를 위해 다수의 친어를 수조에 넣어 진행하고, 체외 수정을 하는 종이기 때문에 이러한 교배효율 시뮬레이션은 다음 세대의 육종 효율을 높이는 데 매우 중요합니다.



최근 종자의 중요성이 대두되면서, 육종에 대한 한 차원 발전된 기술의 적용이 범국가적으로 진행되고 있습니다. 디지털 육종이라 불리는 신기술은 이제 표현형-유전형으로 대두되는 데이터 육종으로 진화해 가고 있습니다. 따라서 비록 지금은 정보력이 낮은 표현형 하나하나도 모두 데이터화 하려는 노력이 필요합니다. 육종은 살아있는 생명체에 행해지는 것입니다. 우리가 먹지 않는 사료로 이용되는 옥수수라 할지라도 유전적 변형이 행해지게 되면, 생태에 변화를 초래할 수 있어 매우 조심스럽게 접근해야 하는 분야입니다. 그런 면에서 데이터 육종은 자연스레 발생된 개체들 가운데 유전형을 이용한 선발 방식이라 안정적입니다. 안전하게 자연의 일부로 존재하는 육종을 위해 데이터 육종은 앞으로 더욱 데이터를 쌓아 가야할 것입니다.

작성 : RDC 신윤희 책임 연구원

Posted by 人Co

2021/01/31 00:37 2021/01/31 00:37
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/370

[채용공고] BI 분석 담당자 채용



(주)인실리코젠은 국내에서 생산되는 바이오 데이터의 60% 이상을 가공하고 저장하는 데에 기여하고 있습니다. 방대한 데이터와의 지속적인 커뮤니케이션은 우리의 발걸음을 데이터모델링, 머신러닝, 그리고, 딥러닝을 기본으로 하는 AI로 향하게 만들었습니다. insilico 상에서 질병의 원인과 솔루션을 찾고, 새로운 기능의 종자를 발굴하고, 개개인에게 맞는 데이터 식품을 만드는 첨단 기술을 구현해내면서 인공지능 기술의 단초를 만들어냈습니다.

AI로 대표되는 바이오의 미래는 지난 시간 방대한 데이터를 다루고 이해해보지 못한 그룹은
다가설 수 없는 먼발치의 가상현실일 뿐입니다.

저희 人Co는 20년 가까운 시간 동안 생물정보 외길을 변함없이 걸어왔습니다. 앞으로의 Bioinformatics는 AI의 도움을 받아 지금껏 만나보지 못한 insilico 상의 변화를 만들어낼 것입니다.

이러한 변화와 혁신의 무대 위에서 함께할 인재를 모십니다. 늘 새로운 꿈을 꾸며 무한한 도전정신을 가진 분들과 같이하고 싶습니다.


[채용분야]

BI 분석 담당자
- 지역 및 인원 : 본사(용인) 0명(신입, 경력), 지사(대전) 0명(신입)
- 담당업무 : 유전체 분석, 전사체 분석
- 자격요건 : 생물정보학 또는 생물학 관련 전공자(석사 이상),
프로그래밍 가능자(Python, Perl, R 택 1)
- 우대사항 : 생물정보 데이터 분석 경력 2년 이상, NGS 데이터 분석 경험자,
연구 논문 작성 가능자, 영어 능통자



[전형절차]

1. 서류전형(2020.07.27 ~ 2020.08.16)
     - 입사지원서(당사양식)
     - 서류전형 합격자에게만 1차 면접 요청(이메일 통지)

2. 실무자 면접 - 1차(2020.08.03 ~ 2020.08.21)
     - 자기소개(경력포함) 포트폴리오(PDF, 5분 분량)
     - 1차 면접 합격자에게만 2차 면접 요청(이메일 통지)

3. 임원 면접 - 2차(2020.08.17 ~ 2020.08.21)
     - 2차 면접 합격자에게만 3차 추가서류 제출 요청(이메일 통지)

4. 추가서류 제출 - 3차(2020.08.24 ~ 2020.08.28)
     - 하단 제출서류 참고

5. 최종합격 통보(2020.08.31 예정) - 입사예정일(2020.09.07)



[채용형태]
신입(인턴 3개월 계약 포함), 경력(경력에 따라 수습계약 포함)


[근무환경]
- 근무제 : 주 5일 근무
- 복리후생 : 4대 보험, 퇴직연금 및 성과급, 유연근무제 (장기근속자)
- 휴가제 : 연차, 경조휴가, 충전휴가(장기근속자)
- 지원 : 경조사비, 주차비, 교육훈련비, 도서 등 지원


[접수방법]
서류제출방법 : E-mail 첨부 제출 (ms@insilicogen.com)


[제출서류]
1) 서류전형 시
 ① 자사 입사지원서 : 파일명 `입사지원서_성명_지원분야.docx`로 저장
 ② 개인정보 이용 동의서 포함

 


2) 1차 면접전형 시(서류전형 합격자에게만 1차 면접 요청_이메일 통지)
 공통 : 포트폴리오(PDF) 제출 및 발표(자기소개 및 경력 위주 내용, 5분 이내)

3) 3차 서류 제출(2차 면접 합격자에게만 3차 추가서류 제출 요청_이메일 통지)
 ① 공통 : 건강검진확인서 및 병력확인서 제출
 ② 경력지원 시
  - 전 근무지의 근로자 원천징수 영수증(퇴사연도, 직전연도)
  - 고용보험이력확인서 : 고용보험 사이트에서 발급 가능

Posted by 人Co

2020/07/24 17:18 2020/07/24 17:18
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/352

신종 코로나바이러스와 진단키트


 
지난 COVID-19에 관한 몇 가지 포스팅에 이어서 오늘은 신종 코로나바이러스(COVID-19) 진단키트에 대하여 알아볼까 합니다.
 
최근 한국의 바이오 기업이 제조, 생산하는 진단키트들의 높은 정확도와 세계적 찬사를 받으며 그 존재감이 날로 커지고 있는데요, 이탈리아, 스페인, 프랑스, 독일과 같은 유럽 국가를 비롯하여 미국에까지 수출하고 있습니다. 특히 미국 수출건의 경우 까다롭기로 유명한 FDA까지 긴급사용승인을 받아 한국의 진단키트에 대한 대내외적 인지도가 어느 정도인지 가늠해볼 수 있습니다. 이렇듯, 진단키트가 무엇이기에 이토록 한국의 진단키트들이 찬사를 받는지, 신종 코로나바이러스에 진단키트가 중요한 이유가 무엇인지 해당 포스트를 통해 유익한 정보 많이 얻어가시길 바랍니다!




최근 신종 코로나바이러스(SARS-CoV-2)로 인해 많은 사람들이 진단키트에 대한 관심이 높아졌습니다. 진단키트는 각종 질병, 임신 여부, 건강 상태, 친자 확인 등 여러 분야에서 각 목적에 맞게 필요한 시약 및 도구 등을 포함한 생화학 실험 도구를 뜻합니다. 신종 코로나바이러스(SARS-CoV-2)가 전 세계 보건의료를 극심하게 뒤흔들고 있는 상황에서 한국은 진단키트를 통해서 신속 정확하게 진단하여 대처하고 있습니다.



특히 '방역 한류'라 불릴 정도로 국내에 여러 업체들(씨젠, 솔젠트, 시선바이오 등)에서 제작한 진단키트를 전 세계 곳곳에서 구하려고 힘쓰는 상황입니다. 전 세계에서도 여러 업체가 진단키트를 생산하나 각국의 법적 규제, 생산 라인, 기술 등의 문제로 국내산 진단키트만큼 생산량도 많지 않고 정확도도 낮은 경우가 많습니다. 진단키트에 활용되는 여러 가지 기술은 배양법, 항원-항체 반응, qRT-PCR 등이 있으며 현재 승인이 된 방법은 항원-항체 반응, qRT-PCR입니다.


 



 

 


일반적으로, 코로나바이러스는 전염성은 강하지만 병원성이나 치사율은 낮은 바이러스입니다. 그러나 신종 코로나바이러스(SARS-CoV-2)는 전염성도 강하면서 제법 치명적인 병원성을 가지는 특이 변종입니다. SARS-CoV-2의 WHO 공식 치사율은 4월 현재 약 6.7%입니다.



코로나바이러스 중에서 치사율이 1%를 넘기는 사례는 SARS(치사율 9.6%), MERS(치사율 38%) 정도를 제외하면 거의 없습니다. MERS와 SAS가 치사율이 더 높아 보이지만 SARS-CoV-2는 현재 진행형이며, 언제까지 진행될지 예상할 수 없다는 문제가 있습니다. 신종 코로나바이러스에 대한 백신 및 치료제가 개발되지 않은 상황에선 감염자를 빠르고 정확하게 판별해서 격리하고 치료하는 게 최선의 방법입니다.




진단키트를 제작하기 위해선 목표하는 질병을 일으키는 세균이나 바이러스 등에서 타 병원체와는 다른 유전자 변이를 찾아내야 합니다. 이를 위해선 생물정보 기술을 활용하여 유전자 변이를 더 쉽게 찾아낼 수 있습니다.





인체 내에 바이러스가 들어올 경우 IgM·G(Immunoglobulin M·G) 항체가 형성됩니다. 신종 코로나바이러스(SARS-CoV-2)가 몸속에 소량이라도 들어오면 이를 방어하기 위해 IgM·G 항체가 생성됩니다. 이렇게 생성된 항체와 결합하는 항원을 통해서 진단할 수 있습니다. 물론 신종 코로나바이러스(SARS-CoV-2)만 특이적으로 검사할 수는 없으나 의심 환자에 대한 광범위한 검사를 진행하여 1차 선별이 가능합니다. 이후 정밀 검사(qRT-PCR등)를 통해 최종 감염 여부를 확인합니다. 1차 선별을 유전자 방식으로만 진행하게 되면 격리된 검사시설과 고가의 장비, 시약, 검사를 수행할 전문 임상 병리사 등이 필요하므로 의심 환자에 대한 광범위한 검사가 어려운 점을 보완할 수 있는 장점이 있습니다.





qRT-PCR은 PCR 증폭 산물을 실시간으로 모니터링하는 해석 방법으로, 기존의 PCR 방법으로는 측정하기 어려운 정확한 정량이 가능합니다. 또한, PCR 원리를 기본으로 하고 있으므로 검출감도가 높고, mRNA 발현 해석이나 SNPs typing 등의 유전자 해석에 요구되는 필수 기술입니다. qRT-PCR의 실험 조작은 비교적 간단하며 종래의 PCR법과 거의 유사하다고 생각하면 됩니다. 현재 qRT-PCR을 기반으로 하는 진단키트에 경우 의삼환자에서 객담(가래)을 추출해 코로나19 바이러스가 있는지를 검사하는 방식으로 정확하게 검출할 수 있습니다. 특히 1~2일 걸리는 배양법에 비해 6시간 가량이면 결과를 도출할 수 있어 신속한 진단에 크게 이바지한 방법입니다.


신종 코로나바이러스(SARS-CoV-2)를 특정할 수 있는 유전자 N, E, S, RdRp, Orf1a, Orf1ab 중에서 최소한 두개 이상의 유전자를 증폭하는 Specific primer를 통해서 감염의 여부를 체크할 수 있습니다.



코로나19 환자에게서 위에 나열된 코로나19 바이러스의 모든 유전자를 완전히 다 검출해서 완벽하게 대조하면 좋겠지만, 그건 오래 걸리고 비용면에서도 효율성이 떨어지기 때문입니다. 그래서 국가마다 검출 유전자는 조금씩 다르지만, 보통은 가장 변이를 덜 일으킬 것으로 보이는 유전자를 최소 2개 이상 검사해서 둘 다 '양성' 반응이 나타나는지를 보고 코로나19 감염 여부를 판단하고 있는 겁니다.
 



신종 코로나바이러스(SARS-CoV-2) 감염증의 사례로 알 수 있듯이 진단키트를 활용하여 빠르게 감염자를 선별하고 격리하여 2차 피해를 예방하고 조기에 치료하는 방법이 제일 좋은 방법입니다. 또한, 병원체 (바이러스, 세균 등)은 빠르게 변이되고 돌연변이를 통해 또 다른 질병을 일으킬 수 있으므로 이에 우리는 생물정보 기술을 통해 신속하게 병원체를 연구 및 분석하여 기존의 병원체와의 차이점을 찾아내고 진단키트로 제작하여 대처해야 합니다.
현재 (주)인실리코젠에서는 신종 코로나바이러스(SARS-CoV-2) 연구를 포함한 감염병 연구를 위해 생물정보 솔루션인 CLC Genomics ProSuite(CLC Genomics Workbench를 포함한 바이러스 및 미생물 NGS 분석 패키지)와 Ingenuity Pathway Analysis(IPA, 유전자 네트워크 분석 솔루션)의 단기 라이선스를 지원하고 있으니 신청하시면 6월 15일까지 사용해보실 수 있습니다.


COVID-19 연구를 위한 단기 라이선스 신청하기


하루 속히 신종 코로나바이러스(SARS-CoV-2) 감염 확산이 종식되길 바라며, 앞으로 이러한 생물정보 솔루션들의 활용을 통해서 바이러스 및 병원체 발생을 조기에 감지하고 제어하는 공중 보건의 보호에 도움이 되길 바랍니다.

Posted by 人Co

2020/04/26 16:36 2020/04/26 16:36
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/343



지난해 12월부터 지금까지 전 세계 보건의료를 극심하게 뒤흔들고 있는 SARS-CoV-2의 유전체는 29.8kb 염기서열로 구성되어 있으며 27개의 단백질을 코딩하는 14개의 ORF(Open Reading Frame)를 가지고 있습니다.

이번 SARS-CoV-2 관련한 환자 유래 바이러스 유전체 시퀀싱 데이터는 GISAID(https://www.gisaid.org/) 사이트에서 모두 공개하고 있습니다. 데이터베이스 내 유전체 계통분석 결과를 보면 바이러스 변이가 얼마나 빠르게 생겨나고 어떻게 확산되고 있는지 패턴을 확인할 수 있습니다.

NGS 장비를 활용한 유전체 해독 기술이 지속적으로 발전하면서 이번 COVID-19 사태에서는 메르스 때와는 다르게 감염 환자가 발생하고 늦어도 일주일 안에 유전체 정보가 해독되어 공개되는 것을 볼 수 있습니다.



중국 현장에서는 초소형 유전체 해독 장비인 MinION(Oxford Nanopore)을 활용해 환자 유래 SARS-CoV-2 유전체를 현장에서 24시간 내 시퀀싱 하는 데 활용하고 있으며, 중국 전역에서 발생한 다양한 이 바이러스 유전체 데이터 수백 개가 동시에 계속해서 공개되고 있습니다.



[출처] NANOPORE사의 MinION

MinION을 사용한 시퀀싱은 SARS-CoV-2의 진화를 추적하기 위한 빠르고 효율적인 방법입니다. 실험실 장비에 비용적으로 거의 투자하지 않고 몇 시간 안에 시퀀싱을 수행할 수 있지만, 샘플의 품질이 낮고 다른 출처의 RNA로 오염된 경우가 많기에 생물정보 분석이 굉장히 중요합니다.

이번 블로그에서는 metatranscriptomics 데이터의 한계를 극복하고, CLC Genomics Workbench를 사용하여 Oxford Nanopore MinION 장비에서 시퀀싱된 데이터를 최대한 활용할 수 있는 방법을 안내하도록 하겠습니다.

분석할 데이터는 중국 우한의 해산물 시장에서 처음 폐렴이 발생하였을 때의 샘플을 MinION 장비로 시퀀싱한 메타전사체 케이스입니다[Chan et al., 2020].

환자로부터 가래와 인후에서 면봉을 사용하여 기관지 폐포를 통해 샘플링 하였고, 질병의 직접적인 원인이 되는 바이러스 외의 RNA가 함께 포함되어 있으며, 염기서열에 비의존적으로 무작위 primer를 사용하여 새로운 병원체의 동정이 가능한 SISPA(Single-Primer Amplification) 프로토콜을 사용하였습니다.



CLC Genomics Workbench 20.0 버전 이상에서는 "Long Read Support(Beta)" 플러그인을 지원합니다. 해당 플러그인을 설치하면 Oxford Nanopore의 MinION 장비에서 시퀀싱한 raw 데이터를 import 할 수가 있습니다.



(Long Read Support Plug-in)

직접 시퀀싱한 데이터 외에 공개된 데이터를 기반으로 분석을 진행해보고 싶다면, SRA 데이터베이스를 연결하여 NGS raw 데이터와 메타데이터를 다운로드하여 분석에 사용할 수 있습니다.

분석에 활용한 데이터도 해당 논문 정보를 토대로 가래과 인후에서 면봉으로 채취한 2개의 샘플을 CLC Genomics Workbench내에 연동된 SRA에서 다운로드 해보았습니다.



(Search for reads in SRA)

더불어 변이 분석을 위한 참조 유전체 서열도 우한에서 등록된 최초의 SARS-CoV-2 바이러스 서열(MT135044)을 NCBI search 기능을 이용하여 준비하였습니다.



(NCBI search & Download)

 



해당 샘플에서는 바이러스 서열 농축을 위한 SISPA 프로토콜을 사용하였기 때문에, SISPA adapter를 제거하기 위한 adapter 서열을 별도로 저장한 후 trimming 과정을 통해 시퀀싱된 서열 내에 포함된 adapter를 제거하였습니다.



(
Adapter trim list)

 




Long Read Support 플러그인은 PacBio 또는 Oxford Nanopore 장비에서 생산된 long read의 de novo assembly와 reference mapping 분석을 지원합니다.

Quality 및 adapter trimming 과정을 거친 2개의 시퀀싱 데이터는 중국 우한에서 등록된 SARS-CoV-2 참조 유전체를 기준으로 맵핑을 진행하였고, 전체 시퀀싱된 서열 중에서 샘플 내 코로나 바이러스 서열이 포함되어 있음을 확인할 수 있었습니다.



(
Read mapping)

맵핑 리포트를 확인해보면, 인후 샘플에서는 채취된 샘플 내에 바이러스가 극소량이라 host genome 데이터가 많이 포함되었을 가능성을 나타냅니다.



참조 유전체 서열에 맵핑된 리드들을 기반으로 변이 분석을 수행할 때 CLC Genomics Workbench에서는 3가지 검출 알고리즘을 제공합니다.

이 중 Fixed Ploidy Variant Detection의 경우는 유전체 배수체를 기준으로 germline 변이 분석에 최적화된 알고리즘이지만, 시퀀싱 에러 모델도 함께 적용되어 있으므로 Oxford Nanopore 데이터의 변이 분석에 효과적일 수 있습니다.

분석 결과, 가래 샘플에서는 5개의 변이가 발견되었고, 인후 샘플에서는 3개의 변이가 발견되었습니다.



(Variant calls)

샘플링 날짜를 살펴보았을 때, 참조 유전체 서열인 MT135044의 경우는 2020년 1월 28일이고 MinION 2개의 시퀀싱 샘플은 2020년 1월 11일로 활동적인 발병 상황에서 시간이 지남에 따라 돌연변이를 추적할 수 있음을 나타냅니다.

추가로 해당 변이의 아미노산 변화에 영향을 미치는지도 확인할 수 있으며, 이를 기반으로 단백질 구조에도 변화를 일으키는지 3차원 형태로 확인할 수 있습니다.



(Protein model of a non-synonymous variant)

 



각 샘플별로 참조 유전체 서열에 맵핑된 consensus 서열을 별도로 저장하여 NCBI의 BLAST를 수행하면, 다른 샘플의 SARS-CoV-2 서열들과도 비교할 수 있습니다.

COVID-19 사태로 별도의 BLAST DB도 운영하고 있으므로, 필요 시 local 환경에 Betacoronavirus DB를 다운로드 받아서 Local BLAST 분석도 가능합니다.



(BLAST output hit table)

 



더불어 여기까지 분석은 워크플로우를 만들면 다량의 샘플을 분석할 때 굉장히 효율적으로 쉽게 운영할 수 있습니다.


 
 (A workflow reproducing the bioinformatics pipeline)

이처럼 생물정보 분석은 전체 유전체 수준에서 전염병의 원인이 되는 병원체를 분석하고 비교할 수 있습니다. 더불어 메타 데이터를 이용하여 환자 유래의 바이러스 및 병원체의 유전체 정보를 함께 비교하면 발생 원인을 역으로 추적할 수 있습니다.

현재 (주)인실리코젠에서는 COVID-19 연구를 포함한 감염병 연구를 위해 CLC Genomics ProSuite(CLC Genomics Workbench를 포함한 바이러스 및 미생물 NGS 분석 패키지)와 Ingenuity Pathway Analysis(IPA, 유전자 네트워크 분석 솔루션)의 단기 라이선스를 지원하고 있으니 신청하시면 6월 15일까지 사용해보실 수 있습니다.



하루 속히 COVID-19 감염 확산이 종식되길 바라며, 앞으로 이러한 생물정보 솔루션들의 활용을 통해서 바이러스 및 병원체 발생을 조기에 감지하고 제어하는 공중 보건의 보호에 도움이 되길 바랍니다.



  • Chan, J. et al., A familial cluster of pneumonia associated with the 2019 novel coronavirus indicating person-to-person transmission: a study of a family cluster. Lancet, 395(15):514-523
  • Aiping Wu, Yousong Peng, et al., Genome Composition and Divergence of the Novel Coronavirus (2019 nCoV) Originating in China. Cell Host and Microbe, 27
  • GISAID, https ://www.gisaid.org/epiflu applications/next betacov app/

작성 : insilico Lab 김경윤 책임

Posted by 人Co

2020/04/14 10:52 2020/04/14 10:52
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/342

p-value(유의 확률)의 역설



전 세계 30만 명이 넘는 확진자와 증가세를 보이는
코비드-19(COVID-19, Corona virus disease 2019)!
세계보건기구 WHO가 최고 경보단계 '팬데믹(pandemic)'을
선언한 지금 어느 때보다 바이오 연구가 높은 관심과 집중을 받고 있습니다.
오늘은 이와 관련한  p-value에 대해 알아보도록 하겠습니다!
 
먼저 p-value란 무엇일까요? 불과 서너 달 사이 코비드-19와 관련하여 출판된 논문만 1만여 편에 달하는데요. (국제 코비드-19 연관 연구 현황) 확산세 경감과 치료제, 백신 개발 등 다양한 생명연구에서 사용되는 통계지표 p-value! 그 정의부터 연구사례까지 차근차근 보겠습니다!

p-value 정의
p-value(유의 확률, significance probability)
p-value는 '귀무가설(Null hypothesis)이 맞는다고 가정할 때 얻은 결과보다 극단적인 결과(관측 결과)가 나타날 확률'로 정의됩니다. 일반적으로 p-value < 0.05 혹은 0.01을 기준으로 합니다. 계산된 p-value가 기준값보다 작은 경우 귀무가설을 기각하는 것으로 즉, 극단적으로 귀무가설이 일어날 확률이 매우 낮은 상태를 의미합니다.
 
단측검정(위 : left-tail p-value, 아래 : right-tail p-value)



코비드-19 연구 단측검정 사례 : 지난 3월 19일에 한국방사선학회지(Korean J Radiol)에 게재된 논문입니다.(Korean J Radiol, 2020) 이 연구의 가설은 '코비드-19 감염 천식 증상을 보이는 환자 중 폐섬유화(fibrosis)가 나타난 경우는 나이가 많을수록 높다.'는 것입니다. 귀무가설은 '환자 중 섬유화가 일어난 사람과 일어나지 않은 사람의 평균 연령은 같다.' 입니다 . 여기서 세워진 가설은 '섬유화가 같이 일어난 환자의 평균 나이가 일어나지 않은 환자보다 많다.' 라고 할 수 있습니다. 이렇게 대립가설에서 '높다.' 혹은 '낮다.' 라는 방향성이 있는 경우 우리는 단측검정을 사용합니다.
 
양측검정



[출처] 유의 확률

코비드-19 연구 양측검정 사례 : 지난 2월 Cell Discovery에 게재된 논문입니다. ACE2 라는 SARS-coronavirus 수용체 단백질의 서열이 인종 별로 차이가 있는지를 확인한 연구입니다.(Cell Discov, 2020) 귀무가설은 인종 간 단백질 서열의 '차이가 없다.'이고 대립가설은 '차이가 있다.' 입니다. 이렇게 우리가 주장하는 가설의 방향성이 정해지지 않았을 때 우리는 양측검정을 사용할 수 있습니다.
 
미국통계학회(ASA, American Statistical Association) 2016 성명서
우리는 연구 과정에서 수립한 가설을 증명하기 위한 척도로 p-value를 사용합니다. 즉, 가설이 참인지 거짓인지를 가려내는 갈림길에 서게 되는 것이죠. 앞서 '극단적인 결과가 실제로 관측될 확률' 부분을 잘 읽어보세요! p-value=0.05라는 것은 귀무가설을 참이라고 가정할 때 대립가설에 따른 결과가 우연히 일어날 확률이 5%라는 것을 의미할 뿐, p-value 그 자체로는 어떤 가설의 참/거짓 여부를 판단하는 지표가 될 수 없다는 것이죠.
 
2016년 3월 미국통계학회는 이러한 과학자들의 p-value에 대한 의존성에 일침을 가합니다.
성명의 6가지 원칙 원문:미국통계학회, 2017
1. P-values can indicate how incompatible the data are with a specified statistical model. 
 - P-value는 주어진 데이터가 얼마만큼 통계모델을 따르지 않는지를 나타낼 수 있다.
2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
 - P-value는 대립가설이 참일 확률, 또는, 우연히 발생할 확률을 측정하는 값이 아니다.
3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
 - 어떤 과학적, 정책적인 결론의 근거로 p-value만을 그 지표로써 사용해서는 안 된다.
4. Proper inference requires full reporting and transparency.
 - 합당한 추론을 위해 완전한 보고와 투명성이 보장되어야 한다.
5. A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
 - p-value는 연구 결과에 중요성이나 효과의 크기를 측정한 값이 아니다.
6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis. 
 - p-value 자체만으로는 모형 또는 가설에 대한 좋은 증거가 되지 못한다.


논지는 'p-value 자체는 내가 세운 가설이 참인지 거짓인지를 판단하는 근거의 하나일 뿐이다.' 입니다. 즉, 이 값이 나의 연구 결과의 중요성이나 효과의 크기를 설명하는 데 있어서 어떤 근거를 제시하지 않는다는 것입니다. 여기서 오해하시면 안 됩니다. 미국통계학회는 p-value가 갖는 의미를 곡해하지 말고 본 의미에 맞게 사용하고 해석하자는 것이 핵심입니다. 통계 도구를 사용하는 많은 사람이 쉽게 빠지게 되는 오류중의 하나인 '확실성'에 대한 추종은 그동안 p-value를 일종의 절대적 지표로써 사용되게 하였습니다.

p-value의 오용
그렇다면 우리가 겪을 수 있는 p-value에 의존한 결론 도출이 가져오는 오류는 어떤 것들이 있을까요? 아래 두 가지 오류를 살펴보도록 하겠습니다.

1. 2종 오류(Type II error)로 인한 실제 의미 있는 결과의 배제
2. 기준점 5%를 맞추기 위한 지나친 표본 수의 증가

첫 번째 오류는 이렇습니다. 질병 A 환자군과 정상인 군에서 유전자 B 발현 값 평균을 검정한 결과 p-value=0.06가 나왔다면 우리는 유전자 B와 질병 연관성이 없다고 결론을 내려왔습니다. p-value의 정의로 해석해보면 다음과 같습니다. '질병 A 환자군과 정상인의 유전자 B 발현 값 평균이 같을 확률은 6%이다. = 100번의 테스트 중 6번의 결과가 A, B에서 동일하게 확인되었다.' 뭔가 이상하지 않나요? 전자는 p-value 0.05 이하의 경우 유(有) 의미(반대로 p-value 0.05 초과는 무(無)의미)하다는 확정성에 근거하여 질병 A와 유전자 B 연관성을 부정하였습니다. 하지만 실제로 4%, 5%, 6%가 유/무의미를 결정지을 만큼의 절대적 기준이 될 수 있을까요?
두 번째 오류는 먼저 p-value 계산에 사용되는 통계치인 Z 통계치(Z statistic) 산정식입니다.



뭔가 이상한 점을 찾으셨나요? 바로 'n' 표본 수입니다. 동일한 표본 평균과 분산을 가질 때 이 n이 커지게 되면 p-value는 낮아지지는 경향이 있습니다.

마무리
이번 글에서는 통계학에서의 p-value의 의미와 해석 방법 그리고 오용했을 때 발생할 수 있는 오류에 대해 살펴보았습니다. 어떠신가요? 그동안 여러분들을 옭아매던 p-value < 0.05의 굴레에서 벗어나셨나요? 생물학에는 정말이지 셀 수조차 없는 변수들이 존재합니다. 그중에서 질서를 찾기 위해 하나의 지표로써 p-value는 분명히 의미를 갖습니다. 통계 도구의 올바른 적용과 해석으로 가치 있는, 즐거운 연구 되시기를 바랄게요~!

참고문헌

작성자 : RDC 경동수 주임

Posted by 人Co

2020/03/25 16:11 2020/03/25 16:11
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/341


 
2012년부터 시작된 ㈜인실리코젠의 人CoINTERNSHIP은
바이오 연구개발과 조직생활의 기초 개념을 이해할 수 있도록 진행하였습니다.
많은 분들의 관심과 참여를 통해 벌써 10번째 기수를 수료하였습니다!


 
총 6명의 참가자가 6주동안 진행된 제10기 人CoINTERNSHIP!
참가자들의 스토리를 함께 보겠습니다.



사용자 삽입 이미지
김상현 (
Umeå University)
6주간의 인턴십을 하면서 예상보다 훨씬 더 많은 부분을 얻고 가서 뿌듯했고 잘 챙겨주신 임직원분들에게 감사했습니다. 먼저, 人Co 인턴십은 생물정보학 개론 정도의 수준 높은 교육 인프라를 가졌습니다. 석사 논문 프로젝트를 수행하면서 독학으로 Bioinformatics를 이해하다 보니 궁금한 점이 매우 많았었는데, 인턴십을 통해 그 점들을 해소할 수 있었습니다. 특히 매주 각 부서가 교육을 담당했기 때문에, 기대되었고 신기했습니다. 다양한 부서에서 인턴십 프로그램을 진행하다 보니 인턴십을 마치고 나서는 많은 직원과 친분을 맺을 수 있었습니다. 다음으로는, 인턴십을 통해 회사 생활 (사회생활)을 제대로 경험한 것 같습니다. 저번과 달리 이번 기수는 각 인턴의 자리가 사무실에 마련되어 있어 업무가 어떻게 흘러가는지 자연스럽게 알 수 있던 것 같습니다. 정말 사원이 된 기분이었습니다. 또한, 제 개인적으로는 한국적인 사회생활을 한 지가 매우 오랜만이고 특히 사기업은 처음입니다. 그래서 전해만 들었던 회사 내에서의 생활을 몸소 겪을 수 있었고 직원분들이 정말 잘 대해주셔서 좋은 인상을 많이 받았습니다. 특히 동료애가 끈끈한 한국 문화를 새삼 소중히 여겼습니다. 인코 임직원분들과 앞으로도 지속적인 관계를 이어나갈 예정입니다.
 
 
사용자 삽입 이미지
김정환 (순천향대학교)

인실리코젠, 인턴분들과 함께한 8주간의 인턴십을 마무리했습니다. 어색하던 분위기가 이제는 장난도 치고 여유 있는 모습이 된 것 같습니다. 처음 이번 인턴십을 준비하면서 자기소개서를 작성하고 포트폴리오를 만들어 발표를 하던 게 엊그제 같은데 벌써 시간이 이렇게 흘러 수료를 하게 되었습니다. 사실 이번 인턴십을 지원하기 전에 생물정보학에 대해서도 아는 게 없고, 컴퓨터 분야도 몰랐었기 때문에 지원하는 것부터가 저한테는 도전이었습니다. 그렇게 망설이던 도중 평소에 생명과학을 공부하면서도 컴퓨터 분야에 대해 막연하게 관심이 있었던 사소한 계기로 생물정보학을 다루는 인실리코젠 인턴십에 지원해 배워보고 싶다는 생각을 하였고, 일정을 진행하다 보면 어떻게 해야 할지 알 수 있을 것 같았습니다. 인턴십을 진행하며 생물정보학뿐만 아니라 파이썬, R과 같은 프로그래밍 언어를 배워 직접 실습하는 것이 흥미로웠고 인공지능에 대해 배울 기회가 있었는데 이것도 좋은 경험이었습니다. 또한, D.iF에서 진행했던 사업 아이디어를 린캔버스에 작성해 발표하고 피드백을 받는 것, 사업이 어떻게 진행되고 개발/연구가 어떻게 되는지에 대한 개요들 모든 것을 배울 수 있게 해준 인턴십에 정말 해보길 잘했다는 생각이 듭니다. 인턴십 면접 때 회사의 분위기가 어떠냐는 질문에 저는 정말 따듯한 느낌을 받았었다고 대답했었는데 정말로 회사의 모든 분이 친절하게 대해주시고 사장님도 사원들과의 소통 또한 아끼시지 않으며 여러 추천 독서들로 마음의 양식까지 담을 수 있었습니다. 이렇게 좋은 사람들과 좋은 프로그램으로 저를 앞으로 한 발짝 내딛게 해준 인실리코젠에 감사하며, 8주간 고생 많으셨습니다!


사용자 삽입 이미지
윤서연 (고려대학교)

6주간의 인코 인턴십은 생물정보 분야에 대해 전반적으로 이해할 수 있게 된 좋은 경험이었습니다. 처음 인턴십을 신청할 때는 막연하게 bioinformatics에서 어떤 일을 하는지 알아가는 정도이지 않을까 했는데, 매주 구체적인 커리큘럼이 있고 실습이 적절하게 섞여 있어서 생생하게 체험할 수 있었던 것 같습니다. 대학원에서 석사 과정을 수학하면서도 논문에 나와 있는 NGS 분석 데이터에 대해 막연하게만 이해하는 정도에만 그쳤었습니다. 하지만 교육을 받고 나니 유용하게 사용할 수 있는 프로그램이 무엇이 있는지 배우고 사용법을 익혀 연구자로서도 많이 성장할 기회였습니다. 무엇보다 가장 재미있었던 것은 최근 인실리코젠에서 관심이 있는 딥러닝이었습니다. 사내 스터디에 참여하여 딥러닝이 무엇이고 어떻게 작용하는지 알게 되었고, 공식을 뜯어서 하나하나 이해하면서 생소했던 분야에 한 걸음 더 다가갈 수 있게 되었습니다. 바쁜 시간 내주시어 친절하게 질문에 하나하나 설명해주셨던 멘토님과 적응하는 데 도움을 주신 회사 직원분들께 감사드립니다.

 
박주영 (숭실대학교)
사용자 삽입 이미지

제 10기 인코인턴십 박주영 진로의 구체화에 놓인 저에게 다양한 분야의 생명정보를 알려준 인턴십 프로그램은 정말 저의 진로 길라잡이 같은 프로그램이었습니다. 생명정보 소프트웨어 실습을 담당한 InsilicoLab, 리눅스와 파이썬 교육을 담당한 DSC, 데이터 모델링과 사업 프로세스에 대한 교육을 맡은 BS, NGS 데이터를 얻고 R을 이용해 분석하는 법을 가르쳐주신 RDC, 마지막으로 인실리코젠의 자회사로 데이터베이스와 lean canvas에 관한 교육을 맡은 D.iF 까지 매주 교육을 통해 조금이나마 경험을 하고 그 경험하는 과정에서 내가 어디에 흥미를 느끼는지, 일찍이 포기해야 할 것 같은 분야는 무엇인지에 대해 알 수 있었습니다. 또 人CoDOM을 쓰면서 기존에 알고 있던 지식을 어떻게 연결하여 글을 작성해 나가야 할지 고민하는 것이 힘들긴 하였지만 다 쓰고 난 후에는 다른 사람들이 내 글을 보고 무언가를 배울 수 있다는 뿌듯함을 느낄 수 있었습니다. 생명정보 이외에도 정말 좋은 선배님들, 동기들을 만나 많은 것을 배우고 각종 독서 프로그램을 하는 과정에서 내면으로도 성장한 6주였습니다.

 
박주희 (대진대학교)
사용자 삽입 이미지

인코인턴십 면접 합격 소식을 듣고 인실리코젠 블로그에서 후기를 찾아봤던 게 엊그제 같은데 벌써 제가 후기를 쓰고 있다는 게 신기합니다. 6주 인턴십을 하는 동안 시간이 빠르게 흘러갔지만 정말 뿌듯했던 시간이었습니다. 먼저 첫주에는 OJT 공통교육을 하면서 IX팀과 경영지원팀을 경험할 수 있었고 두 번째 세 번째 주에는 AI, 생물정보 분석 소프트웨어, 리눅스, 파이썬 등을 공부하며 DSC팀을 알 수 있었습니다. 넷째 주에는 소프트웨어 개발 프로세스를 배우고 Lean Canvas, 그래프 데이터베이스를 실습하며 인실리코젠의 자회사인 D.iF에 대하여 알고 사업에 대하여도 생각해 볼 수 있었습니다. 다섯째 주에는 AXURE, gliffy를 실습하고 데이터 모델링, 시스템 구축 대가 산정들을 공부하면서 BS 부서에서 하는 SI 사업을 이해 할 수 있었고 마지막 주에는 R을 실습하고 논문을 공부하면서 NGS 데이터를 분석하는 RDC 부서를 경험하였습니다. 이렇게 1주씩 다양한 분야를 경험하였고 이를 통해서 관심이 있는 생물정보학 내에서 저의 흥미나 장단점에 맞는 분야를 생각해 볼 수 있어서 좋았습니다. 이외에도 월요세미나, 독서경영, 인코덤 작성 등을 통해서 회사 업무 이외에도 다양한 인사이트를 얻을 수 있었고 따로 딥러닝 스터디도 해보면서 딥러닝에 대해서, 또 가르치고 배우는 것에 대해서 잘 알 수 있었습니다. 또한, 6주간의 과정에서 사람의 중요성에 대해서도 생각해 볼 수 있었습니다. 먼저 다양한 분야와 학위의 사람들을 모아 인턴십을 꾸려 주셔서 인턴들 사이에서도 많이 배울 수 있었고 멘토 멘티 활동이나 다양한 활동들을 통해서 인실리코젠의 사람을 중심(Core)으로, 사람과 컴퓨터(Computer)에 의해, 배려(Consideration)와 소통(Communication)을 통한 새로운 문화를 창조하려 한다. 라는 가치 체계를 다시 생각해 볼 수 있었습니다. 6주간의 짧지만 빡빡한 일정으로 생물정보학의 전반적인 부분과 사회생활에 대해서 잘 알 수 있었고 탄탄하게 짜인 구성이라서 몸만 맡기고 열심히 노력하면 배우고 느낄 수 있는 게 너무 많았던 것 같습니다. 인턴십을 진행하기 전에는 생물정보학 분야로 진출하는 데에서 학교에서는 아는 사람도 없고 막막하기만 했는데 인턴십이라는 좋은 기회로 인해서 여쭤볼 수 있는 다양한 사람을 만날 수 있어서 좋았고 제 목표를 구체화할 수 있었던 정말 좋은 경험이었던 것 같습니다. 다들 하나라도 더 가르쳐 주시려고 하시고 챙겨주셔서 정말 감사했습니다!


허유진 (차의과학대학교)
사용자 삽입 이미지

인턴을 처음 시작했을 때에 막연하게만 생각했던 것들이 6주간의 시간을 거치며 많이 채워진 것 같습니다. 짧은 시간 내에 많은 내용을 다루다 보니 심도 있게 또는 바로 응용해서 사용할 수 있을 정도로 배울 수는 없었지만, 여태까지 접해보지 못했었던 다양한 프로그램과 분석 툴을 직접 사용해볼 수 있었습니다. 매주 다른 부서를 접해보며 생물정보에 어떤 다양한 분야가 있으며 어떤 것이 저에게 적합한지에 대해 알 수 있었습니다. 모든 직원분과 멘토분들께서 친절하게 대해주셨으며, 회사의 복지 자체도 정말 잘 이루어져 있다고 느껴졌습니다. 인턴십 프로그램을 참여하며 좋은 사람들을 만나 많은 것을 배울 수 있었고, 한층 더 성장할 기회가 되었던 것 같습니다. 매일 새벽에 일어나 먼 거리에서 출근해서 조금 힘들었지만, 평생 후회하지 않을 좋은 경험을 마무리한 것 같습니다. 인턴십 프로그램을 제공해주시고 교육을 위해 시간을 내주신 모든 직원분께 정말 감사드립니다!!

 

8주간을 돌아보며


인코인들과의 첫 만남,
자신의 좋아하는 것과 어떤 분야에 관심이 있는지 발표
 중 한 장면
- 2020년 01월 13일 월요세미나 중


어리석은 사람은 인연을 만나도 몰라보고,
보통 사람은 인연인 줄 알면서도 놓치고,
현명한 사람은 옷깃만 스쳐도 인연을 살려낸다.
- 피천득

 

6주간 동고동락한 멘토와 함께 촬영!
수료한 모든 분들 축하드리며, 항상 응원하겠습니다.
- 2020년 02월 14일 수료식 중
 

10기 수료생분들이 준비해준 작은 정성이 담긴 선물

작성 : 人CoINTERNSHIP 제10기 수료생
김상현, 김정환, 윤서연, 박주영, 박주희, 허유진

Posted by 人Co

2020/03/02 09:00 2020/03/02 09:00
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/339



« Previous : 1 : 2 : 3 : 4 : 5 : ... 10 : Next »