[구버전] 人Co BLOG

나만 알고 싶은 OmicsBox

Posted at 2021/04/30 17:17
Filed under 제품소식

'유전체 데이터는 점차 쌓여가고···쌓여가는 데이터 처리는 해야겠고···이왕 처리하는 거 효율적으로, 내가 원하는 방향으로 처리하고 싶은데···심도 있는 분석은 또 어떻게 진행해야 하는 걸까···' 이런 의문 품어보신 적 다들 있으시죠?! 있을 겁니다! 저 또한 그랬으니까요!

제 경우에는 OmicsBox라는 솔루션이 저의 이러한 의문을 해소해주었습니다. 제가 OmicsBox를 처음 접한 건 바야흐로 대학원 시절. 그 당시에는 OmicsBox로 리뉴얼 되기 전인 Blast2GO 버전이었습니다. 저는 그 당시 De Novo Transcriptome 분석을 진행했었고, BLAST 분석 이후의 후속 분석인 Functional Analysis(GO, KEGG, InterProScan)를 Blast2GO를 이용하여 진행했었습니다.

만약 그 당시의 저에게 Blast2GO가 없었다면, 저는 아마 졸업을 못 했을 겁니다. (생각만 해도 끔찍하네요.)
서론이 길었네요

자, 그럼 이렇게 저를 무사히 졸업시켜주는데 일조했던 OmicsBox(구 Blast2GO)! 과연 어떤 기능을 하는 생물정보 솔루션인지 이제부터 차근차근 알아볼까요?

나만 알고 싶은 OmicsBox

OmicsBox 기능을 알아보기 전에 OmicsBox는 무엇인지에 대해 먼저 알아보겠습니다.

OmicsBox는 새로운 genome 분석을 위한 최고의 생물정보학 플랫폼(Platform)임과 동시에 산업, 학술 및 정부 연구기관의 생물학자를 위한 사용자 친화적인 생물정보학 데스크톱 애플리케이션(Desktop application)입니다. 이러한 OmicsBox는 기능 유전체학의 선두주자로서 세계적으로 인정받고 있으며, 이는 7,000개 이상의 과학 연구 인용으로 입증되었습니다. 또한, OmicsBox는 genomics, transcriptomics, metagenomics의 NGS 데이터 분석에 최적화(de novo 파트)되어 있으며, 필요에 따라 데이터 분석에 필요한 다양한 모듈(Module)을 결합하여 사용할 수 있습니다.

[그림 1]. OmicsBox OverView

(https://www.biobam.com/wp-content/uploads/2019/03/OmicsBox_Brochure_2019_A5.pdf)

아래는 OmicsBox의 주요 기능을 나열해 봤는데요,
클라우드 플랫폼(Cloud platform)을 활용한 애플리케이션(Application) 고속 실행 및 견고하고 안전한 백엔드(Back-end) 제공
Blast 결과의 Gene Ontology mapping
Functional Annotation
InterProScan domain 검색
GO-Slim Reduction
KEGG map mapping
통계 정보 차트
다양한 데이터의 import와 export format 지원
Eukaryote, prokaryote에 알맞은 model을 이용한 유전자 부위 예측
발현값을 이용한 pairwise/time course 별 분석

이뿐만 아니라 OmicsBox는 아래와 같은 강력한 장점도 가지고 있습니다.

Advantages of OmicsBox

Powerful Tables

[그림 2]. Powerful Tables

(https://www.biobam.com/wpcontent/uploads/2019/05/OmicsBox_Brochure_BioIT_2019.pdf)

풍부한 사용자 인터페이스(Interface)를 통해 대용량 데이터세트를 쉽게 처리할 수 있고, 모든 테이블은 필터링과 정렬을 할 수 있으며, 가장 중요한 것은 다른 결과 세트와 결합할 수 있다는 것입니다. 또한, 후속 분석 단계의 하위 집합을 쉽게 생성하고 추출할 수 있습니다.

Workflows

[그림 3]. Workflows

(https://www.biobam.com/wpcontent/uploads/2019/05/OmicsBox_Brochure_BioIT_2019.pdf)

Workflow manager를 사용하여 생물정보학적 workflow를 생성, 실행 및 저장할 수 있으며, 선택한 분석 단계를 끌어와 workflow를 생성하고 모든 파라미터(Parameter)를 한 곳에서 구성하고 검토할 수 있습니다.

Genome Browser

[그림 4]. Genome Browser

(https://www.biobam.com/wpcontent/uploads/2019/05/OmicsBox_Brochure_BioIT_2019.pdf)

Genome Browser는 여러 트랙(Track)을 통해 alignment(.bam), gene annotation(.gff) 및 variant 정보(.vcf)를 결합할 수 있습니다. 그뿐만 아니라 navigation, 필터 및 검색 옵션을 사용하여 쉽고 탐색적인 방법으로 결과를 확인할 수 있습니다.

Omics Cloud Platform

[그림 5]. Omics Cloud Platform

(https://www.biobam.com/wpcontent/uploads/2019/05/OmicsBox_Brochure_BioIT_2019.pdf)

클라우드 플랫폼(Cloud platform)은 대부분의 무거운 작업이 수행되는 OmicsBox에 견고하고 안전하며 자동 확장이 가능한 백엔드(Back-end)를 제공합니다. 또한, 이 시스템을 사용하면 표준 PC에서 매우 까다로운 생물정보학 애플리케이션(Application)을 고속으로 실행할 수 있습니다.

자 어떤가요? 전반적으로 OmicsBox에 대해 간략히 알아보았는데, 글을 읽다 보니 내 데이터를 어떻게 처리하면 좋을지 구상이 잡히셨나요?

아직 잘 안 잡히셨다고요? 괜찮습니다.

이제부터 설명해 드릴 OmicsBox의 4가지 모듈을 살펴보고 나면 구상이 잘 잡히실 겁니다.

그럼 한번 살펴볼까요?

Four modules of OmicsBox

[그림 6]. Four modules of OmicsBox

(https://www.biobam.com/omicsbox/)

Genome Analysis

Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고, low quality bases를 제거할 수 있습니다.

De Novo Assembly : ABySS를 기반으로 하는 assembly 기능을 통해 reference genome 또는 특정 하드웨어(Hardware) 요구 사항 없이 전체 genome sequence를 재구성할 수 있습니다.

Repeat Masking : 다운스트림(Down-stream) 유전자 예측을 개선하기 위해 RepeatMasker를 사용하여 진핵생물 genome의 반복적이고 복잡성이 낮은 assemble된 DNA sequence를 마스킹(Masking)할 수 있습니다.

Gene Finding : Genome 구조를 특성화하기 위해 원핵생물(Glimmer 사용) 및 진핵생물(Augustus 사용) 유전자 예측을 수행할 수 있으며, 진핵생물 유전자 예측은 RNA-seq 인트론 힌트를 지원합니다.

Genome Browser : 트랙(Track) 형태로 annotation을 시각화하여 genome sequences(.fasta), alignments(.bam), intron-exon structure(.gff) 및 variant data(.vcf)와 결합할 수 있습니다.

Transcriptomics

Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고 low quality bases를 제거할 수 있습니다.

De Novo Assembly : Reference genome 없이 de novo transcriptome을 생성하기 위해 Trinity 프로그램을 이용하여 짧은 Reads를 조립할 수 있습니다.

RNA-Seq Alignment : 초고속 유니버설(Universal) RNA-seq aligner인 STAR를 사용하여 RNA-seq 데이터를 reference genome에 alignment 할 수 있습니다.

Quantify Expression : HTSeq 또는 RSEM을 사용하여 reference genome의 유무와 관계없이 gene 또는 transcript 수준에서의 발현을 정량화할 수 있습니다.

Differential Expression Analysis : NOISeq, edgeR 또는 maSigPro와 같이 잘 알려진 다양한 통계 패키지(Package)를 사용하여 실험 조건 간 또는 시간이 지남에 따라 차등적으로 발현된 유전자를 검출할 수 있습니다. 또한, 풍부한 시각화는 결과를 해석하는 데 많은 도움이 됩니다.

Enrichment Analysis : 차등 발현 결과를 functional annotation과 결합함으로써, Enrichment 분석은 과잉 및 과소 표현된 생물학적 기능을 식별할 수 있도록 해줍니다.

Metagenomics

Quality Control : 샘플의 품질 관리를 수행하기 위해, FastQC와 Trimmomatic을 사용하여 Reads를 필터링하고 low quality bases를 제거할 수 있습니다.

Taxonomic Classification : Kraken에서 현재의 종(세균, 고세균, 바이러스)을 식별하고, 다단계의 Pie chart인 Krona와 샘플 간의 비교 막대 그래프로 결과를 시각화할 수 있습니다.

Metagenomics Assembly : 클라우드(Cloud)에서 빠르고 쉽게 대규모 데이터세트를 조립하기 위해 MetaSPAdes와 MEGAHIT 중에서 선택할 수 있습니다.

Gene Prediction : 가능 유전자와 단백질을 식별하고 추출하기 위해 일반 Reads에는 FragGeneScan, 조립된 데이터에는 Prodigal을 사용할 수 있습니다.

Functional Interpretation : EggNOG-Mapper 및 PfamScan을 사용하여 높은 처리량의 functional annotation을 얻을 수 있고, 결과를 GO graph 및 chart로 시각적으로 표현하고 비교할 수 있습니다.

Functional Analysis

High-Throughput Blast and InterProScan : CloudBlast 및 CloudInterProScan을 사용하여 선택한 reference 데이터세트에 대해 빠른 sequence alignment 및 domain 검색을 수행할 수 있습니다.

Gene Ontology Mapping : UniProt 및 Gene Ontology Consortia의 최신 데이터베이스에서 사용 가능한 functional annotation을 사용하여 잠재적인 homologous와 domain을 연결할 수 있습니다.

Blast2GO Annotation : Blast2GO 방법론을 사용함으로써, source annotation 품질 및 ontology 계층을 고려하여 가장 신뢰할 수 있는 기능 label을 새로운 sequence 데이터세트에 유연하게 할당할 수 있습니다.

Enrichment Analysis : 서로 다른 enrichment 분석 방법 (Fisher Exact Test 및 GSEA)을 사용하여 과다 및 과소 표현된 분자 기능을 식별할 수 있습니다.

Functional Interpretation : 다양한 시각화를 통해 annotation process를 평가할 수 있을 뿐만 아니라 실험 및 기능 분석 결과의 생물학적 해석을 도울 수 있습니다.

Genome 분석, Transciptome 분석, Metagenome 분석 받고 Functional Annotation 분석까지! NGS 분석 대부분 분야를 섭렵한 OmicsBox, 어떠신 것 같나요? 구상이 어느 정도 잡히시고 있나요? 점점 OmicsBox 매력에 빠져들고 계신가요?

그럼 이쯤에서 이런 질문을 던질 수도 있습니다. "Genome 분석, Transcriptome 분석, Metagenome 분석, Functional Annotation 분석까지 기능은 매우 좋은데 어떻게 이용해야 할지 잘 모르겠어요···"
걱정하지 마세요! 저희에게는 앞서 언급되었던 장점 중 하나인 workflows가 있습니다!

OmicsBox Workflows

Genome Analysis Workflows

Eukaryotic Genome Analysis Workflow
Prokaryotic Genome Analysis Workflow
Long Reads Eukaryotic Genome Analysis Workflow
Long Reads Prokaryotic Genome Analysis Workflow

[그림 7]. Eukaryotic Genome Analysis Workflow

(https://www.biobam.com/genome-analysis/)

Transcriptomics Workflows

De Novo Transcriptome Characterization Workflow
Transcript-level Analysis Workflow
Gene-level Analysis Workflow

[그림 8]. De Novo Transcriptome Characterizatioin Workflow

(https://www.biobam.com/transcriptomics/)

Metagenomics Workflows

Taxonomic Classification Workflow
Functional Annotationi Workflow

[그림 9]. Taxonomic Classification Workflow

(https://www.biobam.com/metagenomics/)

Metagenomics Workflows

[그림 10]. Functional Analysis Workflow

(https://www.biobam.com/functional-analysis/)

Raw data만 넣어주고, 각 단계의 파라미터(Parameter)만 잡아주면~ 자동으로 output까지 산출되는 workflow! 참으로 간단하죠?

OmicsBox workflow만 있으면 어렵던 유전체 데이터 분석이 앞으로는 재미있게 느껴질 수 있습니다.

마치며

이번 포스팅(Posting)에서는 OMICS 데이터 분석을 용이하게 해주는 생물정보학 솔루션 OmicsBox에 대해 알아보았는데요. Genome 분석부터 Functional Annotation 분석까지 많은 기능이 있는 아주 매력적인 솔루션이라고 생각이 됩니다. 더군다나 어떤 기능을 어떻게 사용해야 하는지 잘 모르더라도 강력한 기능인 workflow가 있어서 손쉽게 output을 얻을 수도 있구요. 만약 NGS 데이터 분석이 아직 어렵고 낯설게 느껴지는 분들이 계신다면 이번 포스팅의 주인공인 OmicsBox를 강력! 추천해 드립니다. 후회하지 않으실 거에요

만약 OmicsBox와 친해지고 싶으시다면 consulting@insilicogen.com으로 메일 주세요.
친절히 안내 드리도록 하겠습니다.
마지막으로 긴 글 읽어주셔서 감사드리며, 모두 건강한 나날 보내시길 바랍니다.
감사합니다.

OmicsBox : BIOINFORMATICS MADE EASY

[그림 11]. OmicsBox Logo

(https://www.biobam.com/functional-analysis/)

참고자료

작성 : iLAB 조항철 주임컨설턴트

Posted by 人Co

Tag: biobam, Bioinformatics, OmicsBox, SCH, 생물정보, 소프트웨어, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/380

대용량 질병 유전체 데이터 분석을 위한 (주)인실리코젠과 Intel의 콜라보레이션! Inco X Intel Select Solution - GATK Best Practice (제1편)

Posted at 2021/03/21 19:45
Filed under 제품소식

유전체학의 발전은 인간의 질병을 이해하는 새로운 문을 열어주고 있으며 혁신적인 정밀 치료에 점점 더 많은 정보를 제공하고 있습니다.
2015년도에 전 세계 시퀀싱 스토리지 용량은 연간 1 페타바이트에 이르렀고, 7개월마다 용량이 두 배씩 지속적해서 증가하고 있습니다. 유전체 데이터는 향후 5년 동안 연간 수백 페타바이트를 생성할 것이며 2025년도까지 연간 스토리지가 거의 1 제타 바이트가 필요할 수도 있습니다. 이렇게 증가하는 질병 유전체 시퀀싱 데이터의 처리, 저장 및 분석에 유용한 솔루션인 Intel Select Solution을 소개하고자 합니다.

지난 3월 4일 저희 인실리코젠의 공식 페이스북을 통해서도 간략하게 소개해드렸었는데요, 당시 자세하게 설명해 드리지 않아 궁금한 점이 많으셨을 거로 생각합니다.
그래서 오늘은 Intel Select Solution - GATK Best Practice에 대해 상세히 설명해 드리고자 합니다.

[페이스북 게시물 보러가기]

Intel Select Solution은 컴퓨팅, 스토리지 및 네트워크에 특정 소프트웨어 워크플로우를 최적화하여 검증된 결과를 제공하는 것을 목표로 하여 세계 최고의 데이터 분석을 위한 솔루션 서비스 제공을 목표로 개발되었습니다.

해당 서비스 라인 중 GATK Best Practice는 유전체 분석을 위한 고성능 데이터 분석 컴퓨팅 클러스터 하드웨어 및 최적화된 워크플로우 소프트웨어 시스템입니다. 대용량 유전체 변이 분석을 위해 Intel 기술을 활용하여 GATK 파이프라인을 최적화할 수 있도록 Broad Institute에서 개발하였으며, 복잡한 설정 및 구성을 위한 검증 및 인증을 제공하여 유전체 수준의 데이터 분석을 빠르게 진행할 수 있도록 특별히 설계되었습니다.

더불어 Intel Select Solution - GATK Best Practice의 성능 및 품질은 Intel에서 인증을 받았고, 자사의 생물정보 분석 컨설팅 서비스와 결합하여 "Inco X Intel Select Solution - GATK Best Practice"가 탄생하였습니다.

하드웨어는 소규모에서 초대형 클러스터 슈퍼컴퓨터로 확장할 수 있도록 설계되었습니다. 맞춤형 시스템은 특정 요구 사항을 충족하도록 빠르고 동적으로 구성할 수 있으며, 강력한 최신 API 기반 소프트웨어로 리소스를 검색, 구성 및 모니터링하는 도구가 포함되어 있습니다.

[사진 1] Intel Select Solution - GATK Best Practice_설치된사진

1. 최적화되고 효율적인 파이프라인 지원
2. 최적화된 턴키 솔루션
3. 사전 패키지된 WDL(워크플로우 설명 언어) 스크립트
4. 다양한 애플리케이션 지원
5. 간편한 IT 지원
6. 더 많은 유전체 데이터에 액세스 가능
7. 향상된 통계 기능
8. 오픈 소스 소프트웨어
9. 유연한 애플리케이션 구조
10. 구현 용이성
11. 확장성
12. 설치 시간 단축
13. 라이선스 비용이 없는 오픈 소스 소프트웨어
14. 다양한 상용 솔루션도 적용 가능
15. 최적화된 구성으로 최고의 효율성

다음 편에서 자세히 소개하겠지만, 하드웨어 구성과 사양이 궁금하신 분들은 아래 페이지에서 먼저 확인하실 수 있습니다.

제품 소개 바로가기 : https://insilicogen.com/service/detail/176/#

유전체 연구는 질병을 이해하고 진단하는 것에 매우 중요한 역할을 합니다. 현재 연구원들이 이러한 기술을 사용하여 대규모 유전체 데이터 저장소를 구축하고 해당 데이터를 이해하게 됨에 따라 유전체 데이터 및 분석이 빠르게 발전하고 있습니다. Intel Select Solution - GATK Best Practice는 질병 유전체 연구를 위한 최고의 유전체 분석 솔루션으로, Broad Institute가 릴리즈 하는 GATK는 Intel Select Solution을 기반으로 구동, 검증, 배포되고 있어 GATK를 사용하여 대용량의 유전체 변이 분석을 하고자 하는 고객이 쉽게 시스템을 구축할 수 있는 장점이 있습니다. 그 결과 유전체 분석을 위해 맞춤화된 하드웨어 및 소프트웨어 솔루션으로 더 빠른 분석 및 최적화된 분석 환경을 제공합니다. 또한, Intel Select Solution - GATK Best Practice의 기본 구성으로 Human Whole Genome Sequencing 25~30 sample 데이터를 하루 만에 분석할 수 있으며, 서버 node를 확장함에 따라 더욱 많은 샘플을 빨리 처리할 수 있는 장점을 갖고 있습니다.

질병 유전체 시퀀싱 데이터의 처리, 저장 및 분석에 유용한 솔루션인 Inco X Intel Select Solution - GATK Best Practice에 관심 있으신 분은 인실리코젠으로 문의해주시고, 또한 후속편으로 Inco X Intel Select Solution - GATK Best Practice 하드웨어 구성사양, 작동원리 및 성능 벤치마킹 정보도 안내할 예정이오니 많은 관심 부탁드립니다.

작성 : iLAB 용승천 선임컨설턴트

Posted by 人Co

Tag: GATK, hardware, Intel, 대용량유전체데이터, 인실리코젠, 인텔, 질병유전체
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/373

NGS 데이터 분석을 위한 ALL-IN-ONE PACKAGE '555' 이벤트 Ⅱ

Posted at 2019/04/17 17:06
Filed under 제품소식

지난 소프트웨어 사용자 5만명 달성 기념,

'555' 이벤트에 이어

NGS 데이터 분석을 위한 All-in-one Package

'555' 이벤트 Ⅱ 를 진행합니다!

따스한 봄날,

핫한 프로모션을 잡아보세요!

>> 자세히 보기

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/310

CLC Genomics Workbench 12버전, 베일을 벗다!

Posted at 2018/12/03 17:24
Filed under 제품소식

지난 10년간 연구자들에게 많은 사랑을 받으며, NGS 분석을 위한 기초 툴로써 자리를 잡은 CLC Genomics Workbench가 2018년 11월 28일에 12버전으로 정식 릴리즈 되었습니다. 사용자 편의성을 도모하기 위해 많은 부분이 변경되었는데요, 주요한 변화들에 대해서 함께 알아보도록 하겠습니다.

CLC Genomics Workbench 11버전 interface로 변경된 지 4년 정도가 지났습니다. 그리고 이번 메이저 업그레이드에서 CLC Genomics Workbench가 새로운 옷을 입었습니다.

메인화면

전체적인 구성이나 아이콘에는 큰 변화가 없지만, 프로그램을 실행하고 나면 뷰어 화면에 시작하는 방법, 데이터 import를 도와주는 화면이 있으며 예제 데이터도 간단히 다운로드하여 사용하실 수 있습니다. 또한, 자주 사용할법한 도움말들을 뷰어 화면에 배치하여 처음 CLC Genomics Workbench를 사용하는 입문자들도 기존에 비해 접근이 용이하도록 구성했습니다.

[그림 1] 메인화면의 변화(위-11버전, 아래-12버전)

Import 메뉴의 변경

Import 화면을 보시면 기존의 11버전보다 두 가지 항목이 추가되었습니다. QIAGEN에서 나온 NGS sequencing platform인 GeneReader를 읽을 수 있게 되어 있으며 기존의 Biomedical Genomics Workbench에만 있던 'Import Primer Pairs'가 추가되어 QIAGEN gene panel primer 파일을 바로 가져올 수 있습니다.

[그림 2] Import 메뉴화면

Navigation Area의 변화

기존 Navigation Area 내에서 파일 혹은 폴더의 순서를 변경할 때, 파일이 생성되거나 옮겨진 순서대로 정렬되어 원하는 대로 정렬하기가 쉽지 않았습니다. 이번 업그레이드 통해 파일이나 폴더를 쉽게 드래그 앤드 드롭으로 순서를 변경할 수 있게 되었습니다. 또한, 상단의 Navigation Area에서 데이터에 마우스를 가져다 대면 뜨던 정보안내 말풍선 창의 정보가 추가되었습니다. 기존 버전에서는 이름만 표시됐던 반면에 12버전에서는 용량과 파일의 포맷을 함께 나타내줍니다.

[그림 3] 데이터 타입과 용량 정보 보여주기

자동파일압축

이번 업그레이드에서 놀라운 기능은 기본적으로 압축 기능이 추가되었다는 점입니다. 같은 파일을 동일한 조건으로 분석했을 때, 11버전에서는 149MB였던 결과 파일이 12버전에서는 92MB로 30% 정도 용량을 아낄 수 있게 되었습니다. 기존의 100TB 용량을 이제 130TB처럼 사용하실 수 있습니다.

[그림 4] 자동 파일 압축 및 약 30% 저장용량 절약

레퍼런스 데이터 다운로드 방법 변경

기존에는 우측 상단의 Download 아이콘에서 Reference를 선택하여 열리는 창에서 'Download Reference Genome Data'를 다운로드할 수 있었습니다. 새롭게 변경된 UI에서는 Biomedical Genomics Workbench처럼 우측 상단의 'References'라는 아이콘을 이용하여 레퍼런스 데이터를 다운로드할 수 있습니다. Reference 아이콘을 누르면 하단의 그림 중 아래 화면 같은 창이 뜨게 되며 여기서 원하는 종 혹은 원하는 데이터를 골라 다운로드합니다.

[그림 5] 레퍼런스 데이터 다운로드 인터페이스 변경

Toolbox의 구성 변경 1

plug-in로 제공됐던 'Bisulfite Sequencing'툴이 별다른 설치 없이 기본적으로 탑재 되었습니다.

[그림 6] Bisulfite Sequencing 분석폴더 디폴트로 추가

Toolbox의 구성 변경 2

툴박스의 폴더 구성을 보시면 'NGS Core Tools'가 사라지고, 'Prepare Sequencing Data'라는 폴더에 trimming이나 demultiplex 관련한 툴들이 배치되어 있으며, 'Installed Workflow'로 기존의 'Workflow' 폴더의 이름이 변경되었으며, 'Utility Tools'라는 폴더가 추가되었습니다.

[그림 7] 분석폴더의 재구성

Toolbox의 구성 변경 3

새롭게 추가된 툴에 대해서 소개해 드리면 copy number variant를 분석할 수 있는 툴, variant에서의 정보를 제거하는 부분, RNA-seq을 진행할 때 두 그룹일 때에는 별다른 metadata 없이 진행할 수 있도록 'Different Expression in Two Groups'가 추가되었으며 plug-in으로 사용하던 'Batch Rename'이 추가되었습니다.

[그림 8] 추가된 새로운 툴

몇 개의 툴들은 이름이 변경되었습니다. [그림 9] 이미지를 참고해주십시오.

[그림 9] 이름이 변경된 툴

QIAseq panel reference 다운로드

Reference Data를 다운로드하는 곳으로 가보면 두 번째 아이콘에 QIAGEN Sets라는 아이콘이 있습니다. 이 아이콘을 선택하면, QIAseq Panel에 관련된 reference만 선택적으로 다운로드할 수 있습니다. QIAGEN의 panel을 가지고 나온 데이터를 보다 더 쉽게 분석할 수 있도록 CLC Genomics Workbench에 적용하였습니다.

[그림 10] QIAseq 분석에 찰떡인 QIAGEN Sets 다운로드

손쉬운 서버 프로그램과의 연동

Workbench desktop 버전과 server의 연동에 관련된 부분입니다. 창의 아래쪽 표시줄에 보면 S라고 되어있는 사각형 아이콘이 생성되어 있습니다. 이 버튼을 누르면 Server Connection 창이 뜨게 되고 쉽게 server와 연결할 수 있고 연결 상태를 하단에서 바로 확인할 수 있습니다.

[그림 11] 메인화면에서 연결되는 CLC Server Connection

Track 뷰어의 변화

아래 화면([그림 12])은 read mapping의 track 화면입니다. Track에서 position을 보여주던 숫자가 위치하고 있던 맨 윗부분 위로 크로모좀 뷰어가 추가되었습니다. read 색깔은 unpair/pair 그리고 mismatch까지 색상 지정을 자유롭게 하실 수 있으며 aligned read의 하단에 있던 overflow graph가 read 상단으로 올라와 새로운 coverage graph를 보여줍니다. 그와 동시에 read를 검토할 때 불편했던 위아래 이동에 스크롤바가 추가되어 편하게 read의 alignment를 살펴볼 수 있습니다.

[그림 12] Intuitive 하게 변경된 Track 뷰어 인터페이스

Differential Expression for RNA-seq툴의 개선

기존 버전에서 불가능했던 RNA-seq에서 normalization 방법도 설정할 수 있습니다. 기본적인 whole transcriptome RNA-Seq과 targeted RNA-seq, Small RNA 분석을 따로 설정할 수 있으며 normalization도 TMM과 Housekeeping gene으로 가능합니다.

[그림 13] 세분화된 차등발현 유전자 분석 툴

Differential Expression in Two Group 추가

두 그룹 간의 RNA-seq 비교일 경우 별도의 metadata 없이 control과 study 그룹을 wizard에서 설정하여 분석할 수 있도록 구성되어 있습니다.

[그림 14] 두 그룹간의 비교 화면

Export 기능의 개선

Annotation을 export할 때 생기던 에러가 해결되었습니다. 기존에 엑셀 포맷으로 export 할 경우에는 모든 칼럼을 전부 export 하던지 혹은 필요한 칼럼만 체크해서 export를 할 수 있었습니다. 현재 내가 보고 있는 화면대로 원하는 칼럼만 export 하려면 다시 체크해야 되는 번거로움이 있었습니다. CLC Genomics Workbench 12버전 업그레이드를 통해 현재 보고 있는 칼럼만 그대로 export 하는 기능이 추가되어 다시 골라야 하는 번거로움을 없앴습니다.

[그림 15] 화면 그대로 간편하게 export 하기

이번 업그레이드로 많은 부분이 바뀌게 되었습니다. 기대하셨던 부분이 반영되었을 수도 있고, 아직 부족한 부분도 있을 거라고 생각이 됩니다. CLC Genomics Workbench는 사용자의 많은 의견을 반영하여 10년 넘도록 꾸준히 업그레이드 되고 있습니다. 업그레이드된 12버전을 통해 새로운 기능들을 확인해보시기 바랍니다.

구버전의 CLC Genomics Workbench를 이용하시는 분 중 12버전으로 업그레이드가 필요하신 분들은 12월 한 달 동안 진행되는 연말 프로모션을 적극 활용하시기 바랍니다.

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/298

QIAGEN Clinical Insight Interpret (QCI-I) - NGS 변이의 임상적 해석을 위한 진단 솔루션

Posted at 2018/09/20 18:01
Filed under 제품소식

NGS (Next-Generation Sequencing) 관련 기술의 발전과 비용 절감으로 인해 NGS는 일반적인 유전체 연구뿐만 아니라 정밀 의학에서도 중요한 연구 수단으로 자리 잡고 있습니다. 국외는 물론이고 국내에서도 여러 의료기관과 연구기관에서 NGS를 이용한 임상 유전체 연구가 활발하게 이루어지고 있습니다. 하지만 한 번의 NGS로부터 많은 수의 변이 (variant)가 발견되고 그것들의 임상적 의미 (Clinical significance)를 해석하는데 어려운 경우가 많습니다.

(주)인실리코젠에서는 이러한 NGS 변이들에 대해 임상적 유의성과 action-ability를 평가하는 임상 의사 결정 지원 솔루션인 QIAGEN Clinical Insight Interpret (QCI-I)에 대해서 소개하고자 합니다.

그림 1. < QIAGEN Clinical Insight Interpret (QCI-I) >

QIAGEN Clinical Insight Interpret (QCI-I)는 웹 기반의 소프트웨어로, NGS로부터 도출된 변이들에 대해서 QIAGEN Knowledge Base를 이용한 주석 (annotation), 분류 및 해석 (classification / Interpretation), 보고서 생성 (reporting)을 지원합니다. 또한, Somatic 과 Germline/Hereditary 로 파이프라인이 나누어져 있어 분석 샘플에 맞는 파이프라인을 선택하여 진행할 수 있습니다. VCF 파일과 metadata 업로드를 통해 누구나 쉽게 진행할 수 있으며, Fusion, CNV 데이터를 추가할 수 있습니다.

QCI-I의 특징은 다음과 같습니다.

웹 기반 인터페이스로 편리한 접근성과 사용법이 간단하고, 임상적 유의성과 actionability를 평가하는데 드는 시간과 비용을 단축할 수 있습니다.
Manually 큐레이션된 방대하고 신뢰성 높은 QIAGEN Knowledge Base를 사용합니다.
ACMG/AMP (hereditary)와 AMP/ASCO/CAP (somatic) 가이드라인에 따라 변이를 분류합니다.
분석 샘플의 변이에 관련된 치료 (treatment), 임상 시험 (clinical trials) 정보를 제공합니다.
최종 보고서의 커스터마이징이 가능합니다.
VCF (Variant Call Format) 파일을 사용하여 분석함으로써, NGS 플랫폼에 관계없이 사용할 수 있습니다.
이전 데이터 결과들을 재사용하여 Lab-specific variant database 구축이 가능합니다.

QIAGEN Knowledge Base

QCI-I는 오랜 기간을 거쳐 manually curation된 QIAGEN Knowledge Base를 기반으로 변이를 해석 및 평가합니다. Knowledge Base에는 천만여 개 이상의 biomedical 정보들이 들어있고 16년 이상 지속되어 온 방대하고 신뢰성 높은 Database입니다. 데이터 대부분이 주 단위 (weekly)로 업데이트 되며 사용자는 항상 최신의 정보를 제공 받습니다.

그림 2. < QIAGEN의 전문적인 데이터 큐레이션 >

200명 이상의 전문적인 MD, PhD가 참여하고 3천여 개 이상의 QC 테스트를 진행합니다. 또한, 방대한 수의 논문 결과가 지속해서 추가되고 있습니다.

QIAGEN Knowledge Base는 공개된 생물학적 데이터뿐만 아니라 상용 데이터까지 통합되어 있고, 이 데이터들에 대하여 임상적인 관련성까지 정리되어 있습니다. 연구자, 임상의, 제약회사 등 여러 분야에서 지속해서 사용되고 있으며 20,000번 이상 인용되었습니다. Knowledge Base를 사용하면 raw public data 혹은 computational prediction tool 들을 사용하는 것보다 변이 분류 (variant classification)의 오류를 줄일 수 있습니다. 이러한 database를 구축하는 일은 어렵고 많은 시간과 비용이 소모되지만 QIAGEN Knowledge Base를 이용하면 시간과 비용을 줄이고 효율적이고 신뢰도 높은 변이 분석 결과를 얻을 수 있습니다.

Knowledge-based Variant Classification

QCI-I는 Knowledge Base를 기반으로 Germline 혹은 Somatic testing에 따라 변이의 pathogenicity 와 actionability를 측정하여 제공합니다.

그림 3. < Professional guideline을 따르는 QCI-I의 Variant clssifications >

아래 그림 4처럼 Variant list 탭에서 검출된 변이들에 대한 기본적인 정보를 확인할 수 있고, 각 변이를 선택하여 자세한 사항을 확인할 수 있습니다. Pathogenicity에 따라 색으로 구분되어 직관적인 확인이 가능합니다.

그림 4. < QCI-I Variant List 탭 화면 >

샘플에 대한 정보와 변이에 대한 정보 (somatic frequency, population frequency, variant allele frequency 등)를 보여줍니다. Knowledge Base에 기반하여 변이의 actionability, pathogenicity가 분류됩니다. Pathogenicity는 붉은색 계열 (pathogenic or likely pathogenic), 회색 (unknown of significance;VUS), 녹색 계열 (benign or likely benign)로 구별됩니다.

Treatment & Clinical Trials

선택한 변이가 해당 단백질에 미치는 기능적 영향 (functional effect on protein), treatment 정보와 현재 진행되고 있는 clinical trial들에 대한 정보도 제공하며, 이 정보는 주 단위 (weekly)로 업데이트되어 항상 최신의 정보를 받을 수 있습니다.

그림 5. < Variant Detail 탭에서 제공되는 다양한 변이에 대한 정보 >

단백질의 functional domain과 함께 유전자의 아미노산 위치별 pathogenic/benign 변이들의 분포가 나와 있고 해당 샘플의 변이 위치가 확인됩니다. 약물에 대한 반응성과 가이드라인, FDA에 대한 레퍼런스가 링크로 제공됩니다.

Clinical Cases & Papers

해당 변이에 대해 같은 질병에서 보고된 임상 케이스, 관련된 논문 등에 대한 정보를 제공합니다. 아이콘을 클릭하면 각각의 세부정보 확인이 가능합니다. 임상 케이스와 논문 내용도 추후 최종 보고서에 일괄적 혹은 선택적으로 추가할 수 있습니다.

그림 6. < 변이에 대해 보고된 임상 케이스와 관련된 논문 정보 >

Customizable & Actionable Report

Preview 페이지에서는 최종 report를 작성하기 전에 자유롭게 comment의 수정 및 추가를 할 수 있습니다. 기본적으로 유전자에 대한 설명이 있고 Edit 메뉴를 통해 추가 또는 삭제할 수 있습니다. 환자에 대한 전반적인 interpretation과 actionable 변이들에 대해 모든 comment 작성이 가능합니다.

그림 7. < Preview 페이지 >

Comment 작성을 자유롭게 할 수 있습니다.

최종 보고서 (actionable report) 는 아래 그림 8과 같습니다. 상단에 환자, 클라이언트, 샘플 정보가 나오고 Alterations Summary에 actionable mutation들에 대한 FDA 승인 약물, Clinical trial, 약물 저항성 등이 요약되어 있습니다. 하단에는 각 변이에 대한 자세한 정보가 나열됩니다.

그림 8. < QCI-I 최종 보고서 형식 >

이상 NGS 기반 진단 영역에서 임상 의사 결정을 지원하는데 강력한 툴인 QCI-I에 대해 살펴보았습니다. QCI-I의 QIAGEN Knowledge Base를 이용하여 variant classification하면 기존에 VUS로 분류된 변이들에 대해서도 더욱 정확하게 분류가 가능할 것입니다. 2가지 case study 결과 variant of unknown significance (VUS)가 27~33% 가량 줄어든다는 것을 확인하였습니다.

그림 9. < QIAGEN Knowledge Base를 이용한 variant classification 비교 >

QCI-I를 통해 NGS Platform에 관계없이 전문적으로 큐레이션된 QIAGEN Knowledge Base를 이용해 검출된 변이들의 임상적 유의성과 actionability를 쉽고 빠르게 측정하는 경험을 해보십시오. Raw data부터 임상적인 의미를 얻기까지 전체 해석 시간을 줄이고 임상의에게 보고할 수 있는 임상 관련 데이터의 양을 늘리는 동시에 변이 해석 및 보고 프로세스의 모든 부분을 통합할 수 있을 것입니다.

* 더 자세한 정보와 Trial을 원하신다면 codes@insilicogen.com 혹은 031-278-0061 로 문의주시기 바랍니다.

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/292

소프트웨어 사용자 5만명 달성 기념 - CLC Main Workbench 555 이벤트

Posted at 2018/08/01 09:07
Filed under 제품소식

소프트웨어 사용자 5만명 달성 기념, '555' 이벤트를 진행합니다.

HOT한 가격, COOL~ 하게 즐기세요!

>> 온라인 구매 바로가기

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/287

생.기.다 프로젝트 제2탄 ★연말연시 프로모션★ - CLC Main Workbench

Posted at 2017/12/15 13:38
Filed under 제품소식

그 동안의 성원에 감사한 마음을 담아

유난히 추운 겨울, 하시는 연구에 따뜻한 도움이 되고자 합니다.
>> 온라인 구매 바로가기

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/269

유전자 전사조절 연구를 위한 솔루션 - TRANSFAC

Posted at 2017/11/27 15:53
Filed under 제품소식

미생물에서는 오페론을 통하여 유전자 발현을 조절하지만, 다세포생물의 경우 물리적인 상호작용을 통하여 특정한 DNA나 조절단백질의 작용에 의해 유전자 발현이 조절됩니다. 유전자 발현 조절에 관여하는 인자를 transcription factor라고 하며 이 transcription factor가 어떤 부위에 binding 하는지에 따라 다양한 유전자들이 발현하게 됩니다. Transcription factor는 다양한 외부의 자극과 요인에 의해 작용하게 됩니다.

이때, transcription factor가 부착하는 위치를 transcription factor binding site(TFBS)라고 합니다. 이러한 유전자 조절에 중요하게 작용하는 transcription factor binding site들의 정보들을 제공하고 분석할 수 있는 툴인 TRANSFAC에 대해서 소개하려고 합니다.

TRANSFAC은 geneXplain사에서 제공하는 데이터베이스 겸 분석툴로써 진핵생물의 transcription factor나 binding site, 유전자나 단백질, pathway 등에 관한 다양한 정보들을 담고 있습니다.

그 중, 가장 주된 기능은 positional weight matrix(PWM)의 라이브러리를 활용하여 서열 내의 TFBS를 예측하는 것입니다. TFBS 분석은 일반적인 방법으로 분석하는 Match, 한 쌍의 TF를 찾아주는 composite model과 overrepresented TFBS를 찾아주는 FMatch가 있습니다. 가장 보편적으로 사용되는 방법은 Match 방법으로 미리 큐레이션 되어 있는 Matrix를 가지고 TFBS를 예측합니다.

TFBS 예측을 위해서는 Matrix 리스트들이 있어야 하는데 이 list들이 만들어지는 패턴은 아래와 같습니다.

다양한 논문 등으로부터 수집되어진 TFBS 서열을 행렬로 만들어 PWM 라이브러리를 생성합니다. 이 라이브러리를 이용하여 input으로 넣어준 서열과 설정해둔 cut-off 값에 따라 해당하는 PWM을 검색하여 서열상에서 TFBS을 유추할 수 있습니다.

아래의 실제 wizard를 함께 보시죠.

분석할 파일을 넣고 method에서 Match, FMatch, composite model 중 원하는 분석을 선택한 다음 cut-off 값을 세팅하여 분석을 진행하면 아래와 같이 TFBS를 예측하여 결과를 보여줍니다.

분석한 서열상에 존재할 수 있는 모든 TFBS들을 테이블 형태로 보여주며 matrix ID를 클릭하게 되면 해당 matrix에 대한 자세한 정보를 확인할 수 있습니다.

또한, Matrix는 어떻게 구성이 되었는지 reference 정보와 서열 그리고 어떤 실험을 통해 증명된 데이터인지 리포트를 통해 확인할 수 있습니다.

이처럼 TRANSFAC을 이용하면 binding site를 쉽게 예측할 수 있으며, 해당하는 transcription factor 정보 및 관여하는 유전자 정보 등 전문가 큐레이션을 통한 신뢰도 높은 다양한 정보들을 한 번에 확인할 수 있습니다.

* Trial을 원하신다면 codes@insilicogen.com 혹은 031-278-0061으로 문의주시기 바랍니다.

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/267

Power with Simplicity

Posted at 2016/09/07 13:21
Filed under 제품소식

Sequencher는 DNA 서열 데이터를 빠르게 분석하여 결과를 제공하는 소프트웨어입니다. 특히, sanger sequencing 데이터로부터 assembly 후 variation 정보를 찾아주는데 포커싱 되어 있어 특정 영역의 SNP 분석에 굉장히 유용하게 평가되고 있습니다. 최근 5버전대로 업그레이드가 되면서 NGS 데이터까지 분석이 가능하도록 기능이 확장되었고, 커맨드라인으로만 분석 가능했던 퍼블릭 툴들을 초보자들도 사용하기 쉽도록 GUI를 제공하여 편의성을 더해주었습니다.

그럼 NGS 데이터를 이용하여 실제적으로 어떤 분석이 가능한지 살펴볼까요?

Next-Gen Sequencing
[Reference assembly]
Sequencher에서는 NGS 데이터를 이용하여 reference assembly 시 이용하는 3개의 큰 알고리즘(Maq, GSNAP, BWA-MEM)이 있습니다. Maq이나 GSNAP을 통해 assemgbly 분석을 진행하면 SNP 분석도 함께 가능하며, 그 결과 값은 Tablet이나 Maqview를 이용하여 확인할 수 있습니다. 커맨드라인으로 제공하던 BWA-MEM도 GUI를 통해 다양한 옵션값을 손쉽게 설정할 수 있습니다. GSNAP이나 BWA-MEM로부터 얻은 VCF 포맷의 variant 정보는 SAMtools를 이용하여 분석할 수 있습니다.

[De novo assembly]
Reference 정보가 없는 de novo assembly의 경우에는 Velvet 알고리즘을 지원하고 있습니다. Velvet 또한 GUI를 제공함으로써, Tablet으로 결과값을 확인할 수 있고, 다양한 옵션값을 쉽게 설정할 수 있습니다.

[RNA-seq]
최신버전에서는 Differential Gene Expression(차등유전자발현) 연구를 위해 가장 많이 이용되는 RNA-seq 툴 중 하나인 Cufflinks를 플러그인으로 사용할 수 있습니다. Cufflinks 는 SAM 파일로부터 align된 reads를 가지고 GTF annotation 파일을 이용해 다시 align 하며, 다른 isoform과 transcript를 찾아줍니다. 이후 Cuffmerge를 통해 Cufflinks에서 나온 두 개의 transcript 파일을 하나의 transcript consensus 파일로 만들어 줍니다. 이 파일은 차등유전자발현 분석을 하는 Cuffdiff에 사용됩니다. Sequencher는 Cuffdiff에서 나오는 최종파일들(volcano plot, scatter plot, bar chart)을 다루며 발현 레벨에서 차이점을 그래픽으로 보여줍니다.

Connections
[BLAST & primer-BLAST]
Sequencher Connections는 Sequencher의 통합 웹 확장 툴이며, 이를 이용하여 2개 이상의 분석들을 동시에 진행할 수 있습니다. 다중 BLAST를 진행할 수 있어, 각 서열의 분석 결과를 실시간으로 빠르게 얻을 수 있습니다. 같은 서열로 다른 파라미터 조건을 주어 BLAST가 가능하며, 동시에 Local BLAST 까지도 수행할 수 있습니다. 또한 primer design을 위한 primer-BLAST를 할 수 있고, 해당 서열의 특정 영역을 확인 후 Sequencher Project에 예측된 primer를 저장할 수 있습니다. BLAST 검색 결과를 Web view 탭을 통해 뷰어할 수 있고, 이는 36시간 내에 다시 불러올 수 있으며, 그 이후로는 접근이 어렵습니다.

[MUSCLE alignment]
만일 여러 개의 서열로 그룹 분석을 하고 있다면, 다중서열정렬 알고리즘 중 가장 빠른 MUSCLE을 가지고 alignment를 할 수 있습니다. Sequencher Connections에서는 MUSCLE alignment를 다양한 옵션값으로 할 수 있고, alignment 이 후 phylogenetic tree도 생성할 수 있어 서열간의 유연관계도 확인할 수 있습니다.

이렇게 Sequencher에서는 NGS 분석까지 가능하도록 툴들이 확장되고 있습니다. 특히나 커맨드라인의 툴들을 사용하기 어려운 일반 생물학자들도 쉬운 인터페이스를 가진 Sequencher를 이용하여 NGS assembly를 진행할 수 있습니다. 그럼 Sequencher를 통해 NGS의 다양한 분석을 진행해 보세요.

작성자 : Codes실 Consulting팀
송하나 주임 컨설턴트

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/220

Inova Genomes : Sequenced Whole Genome Data

Posted at 2016/09/07 10:42
Filed under 제품소식

최근 QIAGEN Bioinformatics에서는 다양한 인종 및 질병/환자/가계 정보들이 포함된 Whole Genome Database를 런칭하였습니다. 이는 Inova Translational Medicine Institute 라는 의학연구소에서 병원과 함께 환자들의 medical history 및 genome sequence를 수집하였으며 이러한 데이터들이 기존의 질병 유전체 연구 또는 임상연구의 한계를 극복해줄 것이라 생각되어집니다.

Inova Translational Medicine Institute

Inova Translational Medicine Institute(ITMI)는 비영리 연구기관으로 다양한 분야의 연구자들이 유전체와 임상적 데이터를 사용 할 수 있도록 하는 것을 목표로 개인의 유전체와 임상 정보를 이용하여 맞춤의료를 위한 혁신적인 방법 개발에 힘쓰고 있습니다. ITMI는 2011년 2월 1일에 설립되어 clinical, bioinformatics, laboratory 세 분야로 나누어 100명의 과학자와 임상의사, 간호사, 유전자 카운슬러, 실험실 기술자들이 배치되어 있습니다.

Inova Genomes
ITMI에서 선보인 Inova Genomes는 다양한 인종 및 다양성을 가지는 human whole genome 시퀀싱 결과와 개개인의 진료 기록 정보(진료기록 정보 외에는 모두 기밀)가 함께 수집된 데이터베이스이며 약 2,100건의 가계 정보 및 약 7,000명의 whole genome sequence를 가지고 있으며 매 년 2,500명 정도의 데이터들이 추가되고 있습니다. 환자의 식별은 불가능하지만 각 정보가 Electronic Health Record와 연결이 되어있으며 증상에 대한 문진데이터, demographics, 처방이나 가계에 대한 정보들도 포함되어 있습니다. 또한 환자와 환자 가족들의 동의하에 등록이 되어 있고 시간이 지남에 따라 동일 환자의 데이터 업데이트가 가능합니다. 또한 100개 이상의 국가에서 다양한 가족의 정보 및 모든 주요 기관계의 다양한 phenotype 데이터를 보유하고 있습니다. 뿐만 아니라 RNA-seq, miRNA이나 methylation 데이터 같은 실험데이터들도 포함하여 유전체 레벨 외의 분석을 위한 데이터셋으로도 활용이 가능하며, 양질의 pre-annotated, pre-computed 실험적 데이터를 제공합니다.

표 1. Study별 Inova Genomes 데이터 통계(2015년 7월 30일 기준)

표 2. 질병/나라별 Inova Genomes 데이터 통계

Data-set
전체 데이터의 30%는 Complete Genomics 데이터 셋(coverage=60X)이며, 나머지 70% 데이터는 Illumina 데이터 셋(coverage=40X)으로 구성되어 있습니다. 그 중 Trio 데이터셋 62개, quartet 데이터 2개는 Complete Genomics나 Illumina 두 개의 플랫폼에서 모두 진행하였습니다. 아래 그림1 에서 보시면 320만개의 SNP가 공통적으로 발견이 되어 데이터의 높은 신뢰성을 보여줍니다.

그림 1. Inova Genomes SNP 데이터 퀄리티

Data-field
해당 데이터베이스 내에는 생 후 1000일 간의 종적연구를 위해 아래와 같은 다양한 데이터필드도 존재합니다.

- Demographics : age, gender, ethnic background
- Personal & family health history : family history cancer/diabetes/cardiac types
- Treatment/pharmaceutical records : drug name, dose, frequency
- Laboratory & diagnostic test results : glucose level, CBCs
- Clinical data : BMI, height
- Clinical encounter : Admission to NICU
- Etc.

지금까지 Inova Genomes의 특징에 대해서 알아보았습니다. Inova Genomes과 다른 데이터베이스를 비교해보면 먼저, Personal Genomes Project는 300명 미만의 genome 정보를 가지고 있지만 Inova Genomes는 약 7,000명의 genome 정보를 가지고 있어 human의 genome 정보를 수집하는데 필요한 시간과 비용을 상당히 줄일 수 있습니다. 그리고 1000 Genome Project의 경우 7X coverage를 가지고 있어 정확도가 낮지만 Inova Genomes의 경우에는 최소 40X의 coverage로 높은 정확도를 가지고 있습니다. Kaviar나 EVS는 유럽인들에 대해 집중이 되어 있는 반면, Inova Genomes는 다양한 인종들에 대한 정보를 다수 포함하고 있습니다. 그 밖에도, 데이터의 수집에 대한 환자의 동의가 있어 지속적으로 follow up이 가능하여 분석 결과의 지속적인 업데이트가 가능하고, 2,100건 이상의 혈연 정보가 등록이 되어있어 trio 분석이 가능하여 가계도 내 유전적 질병을 파악하거나 분석하는데 용이하다는 뛰어난 장점을 가지고 있으며, Inova Genomes 에 있는 데이터를 이용하여 cohort를 마음껏 구성하여 비교분석도 가능합니다.
점점 더 저렴해지고 있는 시퀀싱 비용으로 규칙 없이 시퀀싱 데이터만 빠르게 생산되는 현재 시대에 공개되어 있는 데이터는 많은데 비해 자세한 정보가 없어 활용하기 힘든 의미 없는 데이터들뿐인 요즘. 특히나 다양한 케이스의 trio 데이터를 찾기는 더더욱 힘드셨을 거라고 생각됩니다. Inova Genomes에서는 지금 우리가 겪고 있는 고민들을 해결해 줄 수 있도록 데이터 정보에 대한 체계화 및 데이터의 계속적인 업데이트, 다양한 trio 데이터셋의 제공으로 human 분야의 유전체 연구에 날개를 달아드릴 것입니다.

작성자 : Codes실 Consulting팀
서지혜 컨설턴트

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/219

Search Results for '제품소식'

43 POSTS

나만 알고 싶은 OmicsBox

대용량 질병 유전체 데이터 분석을 위한 (주)인실리코젠과 Intel의 콜라보레이션! Inco X Intel Select Solution - GATK Best Practice (제1편)

NGS 데이터 분석을 위한 ALL-IN-ONE PACKAGE '555' 이벤트 Ⅱ

CLC Genomics Workbench 12버전, 베일을 벗다!

QIAGEN Clinical Insight Interpret (QCI-I) - NGS 변이의 임상적 해석을 위한 진단 솔루션

소프트웨어 사용자 5만명 달성 기념 - CLC Main Workbench 555 이벤트

생.기.다 프로젝트 제2탄 ★연말연시 프로모션★ - CLC Main Workbench

유전자 전사조절 연구를 위한 솔루션 - TRANSFAC

Power with Simplicity

Inova Genomes : Sequenced Whole Genome Data

Categories

Recent Posts

Archives

Tag Cloud

Site Stats