아니 대체 시퀀싱으로 어떻게 발현량을 알 수 있다는거야?

Posted at 2012/04/30 20:10
Filed under 제품소식

RNA-Seq
RNA-Seq은 NGS 기술로 transcriptome을 분석 할 수 있는 방법으로써, 말 그대로 특정 샘플에서 발현되는 RNA 서열을 시퀀싱하여, 어떤 exon들로 조합된 transcript가 발현이 되었는지, transcriptome에 대한 다양한 정보를 한 번에 알아낼 수 있는 방법입니다.

RNA-Seq 데이터 다운받기
웹 브라우저에서 아래 url로 이동해 보시면 CLC bio에서 제공하는 예제 RNA-Seq 데이터를 받으실 수 있습니다. 이 데이터는 RNA-Seq 분석에 관한 초기 논문 중의 하나인 Mortazavi의 논문에서 얻은 데이터로 mouse의 brain과 liver에서 발현되는 mRNA를 시퀀싱 하여 분석한 데이터입니다. 이 데이터는 이미 CLC Genomics Workbench에 import가 된 상태의 데이터로 .zip 파일을 그대로 ‘Navigation Area'에 드래그 하면 자동으로 import가 됩니다.

http://www.clcbio.com/index.php?id=1290

Subset.zip 이라는 파일의 import가 완료되면 다음 그림과 같은 데이터가 나타나게 됩니다. Brain과 liver에서 각각 두 개씩 얻은 read 데이터와 mouse 16번 염색체의 reference 서열 파일을 확인 할 수 있습니다.

RNA-Seq 분석 돌리기
데이터 준비가 완료되면, ‘Toolbox’의 'RNA-Seq Analysis'를 실행시킵니다.

첫 번째 단계에서 reference 서열에 mapping 시킬 read 데이터를 선택합니다. 이때 각 샘플에서 얻은 데이터끼리 따로 분석을 해야 하기 때문에, 다른 샘플의 read를 함께 선택하지 않도록 주의합니다.

다음 단계에서는 reference 서열에 대한 몇 가지 항목을 설정합니다. ‘Reference'는 read를 mapping 시킬 reference 서열을 지정하는 항목인데 선택한 reference 서열에 있는 annotation을 이용할 것인지 아닌지를 선택해야 합니다. 전자의 경우 reference 서열에서 'Gene'이라는 이름으로 annotation 영역을 추출한 다음 그 서열들에만 read들을 mapping 시키게 됩니다. 이 때 아래 쪽 ’Extend annotated gene regions'의 값을 조정하면 gene 영역의 upstream과 downstream으로 지정된 base 만큼 확장하여 추출하게 됩니다. 후자의 경우 전체 reference 서열에 read들을 mapping 시킨 후 전체 서열에 대한 발현량이 계산되게 됩니다.

다음 단계에서는 read를 mapping 하는데 요구되는 옵션들을 설정하게 됩니다. ‘Maximum number of mismatches'는 read가 reference 서열에 mapping 될 때 허용되는 mismatch base의 수를 정해주는 옵션이고 ’Maximum number of hits for a read'는 non-specific하게 mapping 되는 read의 허용 가능한 정도를 정하는 옵션입니다. 예를 들어 이 옵션이 ‘10’으로 설정되어 있을 경우, reference 서열에 mapping 될 수 있는 부분이 11개 이상인 read는 mapping되지 않고 버려집니다. 반면에 mapping 될 수 있는 부분이 10개 이하인 경우에는 그 mapping 될 수 있는 부분들 중에서 무작위로 한 자리가 선택되어 mapping 되게 됩니다. 'Minimum length fraction'과 ‘Minimum similarity fraction'은 mapping 시킬 read가 long read 일 경우 적용되는 옵션입니다. Long read는 길이가 길다 보니 reference 서열과 mapping 되는 부분을 base 단위로 정하지 않고 비율로 정하게 되는데, 'Minimum length fraction'이 ’0.9‘로 설정되면 100bp의 read는 최소한 90bp 이상 reference 서열과 match되어야 mapping 됩니다. 그리고 ‘Minimum similarity fraction'이 ’0.8‘로 설정되면 mapping 된 부분의 identity가 80%는 되어야 mapping이 됩니다.

다음 옵션은 새로운 exon 영역을 찾아내는데 필요한 옵션들입니다. 먼저 'Type of organism'에서 분석 대상이 원핵생물(Prokaryote)인지 진핵생물(Eukaryote)인지 선택합니다. 원핵생물의 경우 exon과 intron의 개념이 없기 때문에 'Exon discovery'가 수행되지 않습니다.

진핵생물을 선택하고 'Exon discovery'를 수행하도록 체크하게 되면, 세 가지 옵션 값을 설정 할 수 있습니다. 'Required relative expression level'은 다른 exon들의 발현량에 비해서 새롭게 찾아진 exon에 요구되는 상대적인 발현량을 의미합니다. 그리고 ‘Minimum number of reads'는 새롭게 찾아진 exon 영역에 요구되는 최소한의 mapping read의 수를 의미하고, 'Minimum length'는 그 exon 영역의 최소 길이를 의미합니다. 예를 들어 이 옵션들이 기본 값으로 설정된 경우, intron 영역의 어떤 부분에 10개 이상의 read가 mapping 되고, 이 read 들로 조합된 consensus 영역이 50bp 이상이면서, 이 부분에 대하여 계산된 발현량이 다른 exon 들의 발현량에 대하여 상대적으로 20% 이상이면 이 영역을 기존에 알려지지 않은 새로운 exon 이라고 인식하도록 되어 있습니다.

다음 단계에서는 분석 결과를 작성하는데 필요한 몇 가지 옵션들을 설정하게 됩니다. Mapping 되지 않은 read들의 목록을 따로 생성시킬 것인지, RNA-seq 분석에 관한 report나 분석 log를 작성할 것인지에 관하여 설정할 수 있습니다. 'Expression value'는 각 유전자 혹은 transcript의 발현값을 어떻게 계산 할 것인지를 정하는 옵션입니다. 'Transcript:RPKM'을 선택하면 각 transcript의 발현값을 계산하여 보여지게 됩니다.

그리고 paired-end read를 사용할 경우 'gene fusion' 분석도 할 수 있습니다. Gene fusion은 translocation, deletion, inversion과 같이 염색체 구조 변이에 의해서 두 개의 유전자가 합쳐진 경우를 말합니다.

예를 들어, gene fusion이 일어난 유전자에서 mRNA가 발현되고 시퀀싱 하여 paired-end read를 얻은 후 정상적인 reference 서열에 mapping을 시켜보면 forward 서열은 A라는 유전자에 mapping 되는데 reverse 서열은 B라는 유전자에 mapping 될 수 있습니다.

이런 paired-end read를 두 유전자 사이에 gene fusion이 일어났다고 볼 수 있는 증거로 제시할 수 있으며, ‘Minimum read count'로 이런 paired-end read가 최소한 몇 개가 있어야 gene fusion이 일어났다고 report를 할지 정해 줄 수 있습니다.

모든 옵션과 결과의 저장 위치 지정이 완료되면 ‘Finish' 버튼을 클릭하면 분석이 진행 됩니다.

분석이 완료되면 다양한 정보가 들어있는 테이블이 나타납니다. 각 유전자 별로 발현값, annotate된 transcript의 수, 확인된 transcript의 수 exon 영역의 길이, exon 영역에 mapping된 read의 수, 등 많은 정보를 확인 할 수 있습니다.

각 항목을 더블클릭해 보면 각 유전자별로 read 들이 어떻게 mapping 되었는지 확인할 수 있는 mapping view가 나타납니다. Mapping view에서 오른쪽 side panel의 몇 가지 설정을 바꾸면 다양한 형태로 화면을 수정할 수 있습니다. Mapping view를 열어 보면 read들이 어떤 exon에 mapping이 되었는지 볼 수 있고, 이를 통해 어떤 exon들이 조합된 transcript가 발현이 되었는지 알 수 있게 됩니다. 한 가지 예로 Brain sample의 Bdh1 이라는 유전자에서는 1개의 'Putative exon'이 발견 되었습니다. Liver sample의 결과에서 같은 유전자의 mapping view를 열고 비교해 보니 Brain sample에서 발견된 새로운 exon 부분이 mapping 되지 않은 것을 볼 수 있습니다. 이를 통해 Brain 조직에서는 Bdg1 유전자에 기존에 알려지지 않은 exon 영역이 존재하고 이 exon 영역이 함께 조합된 새로운 transcript가 발현된다고 추측해 볼 수 있습니다.

Paired-end read를 이용하고 gene fusion event를 확인 하도록 옵션을 설정했다면, 다음과 같은 결과 테이블도 볼 수 있습니다. 이 테이블에서 gene fusion이 일어난 유전자와 그 유전자의 위치, 그리고 몇 개의 paired-end read가 mapping 되었는지 확인 할 수 있습니다.

Reference
- http://en.wikipedia.org/wiki/Fusion_gene
- Genomic sequencing of colorectal adenocarcinomas identifies a recurrent VTI1A-TCF7L2 fusion, Nature Genetics Volume:43, Pages:964–968 Year published:(2011)

* 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

- codes@insilicogen.com

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/109

NGS 데이터로 SNP와 Indel 분석하기

Posted at 2012/04/20 14:04
Filed under 제품소식

Variation study
'시퀀싱 비용의 절감’ 이라는 장점을 갖는 NGS 기술과 함께 이슈가 되고 있는 분야가 ‘개인 맞춤형 진단’입니다. 질병, 체질 등 모든 표현형의 근간이 되는 DNA의 서열 정보를 알아내어 비교함으로써 개인 간의 차이와 질병의 원인을 알아낼 수 있는 시도를 진행할 수 있게 된 것입니다. NGS 데이터를 이용해 수행할 수 있는 variation 분석으로 SNP, small insertion/deletion polymorphisms, structure variation 분석이 있습니다.

분석 방법은 대략 비슷한데,

1. Reference 서열에 mapping
2. Variation(SNP, Indel, etc)찾기
3. Public DB 데이터와 비교

와 같은 순서로 볼 수 있습니다.

보통 mapping을 하기 전에 read 들을 quality나 시퀀싱 기기에 잠재적인 오류를 줄이기 위한 filtering을 먼저 진행하지만 여기선 언급하지 않겠습니다. Reference 서열과 read가 준비되면 reference assembly를 합니다. 그리고 그 결과로 나온 mapping 데이터에서 reference 서열과 consensus 서열, 그리고 consensus 서열을 만들어낸 read들의 서열 데이터를 모두 종합해서 SNP나 Indel을 찾아냅니다.

SNP 찾기
먼저 SNP를 찾는 방법에 대해 정리해 보고자 합니다. 사실 SNP를 찾는 소프트웨어들이 하는 일은 reference 서열과 consensus 서열이 서로 다른 position을 찾은 후, 그 position의 consensus 서열을 구성한 read들의 quality나 coverage, 그리고 구성 비율 등의 기준을 정하고 그 기준을 통과하는 position을 찾아 정리해주는 역할을 합니다.

아래 그림에서 노란색으로 강조된 세로 열을 보면 consensus 서열(black)이 ‘A’ 이지만 이 서열에 해당하는 read들을 보면 일부 ‘C' 가 보입니다. Window size라는 것은 SNP를 찾는데 특정 position에 해당 하는 read의 서열 주변 영역을 말합니다. 예를 들어서 window size가 11이라고 정해지면 특정 position의 양옆으로 5bp 씩 확장한 11bp를 의미합니다. 만약 read의 해당 position이 끝 부분이어서 한쪽으로 확장할 영역이 5bp 미만일 경우 부족한 만큼 반대쪽 영역으로 확장하여 비대칭한 형태로 window size가 설정 됩니다. 이 window size을 대상으로 quality나 gap, mismatch 개수를 계산한 다음 해당 position의 consensus 서열을 결정하게 만든 read들의 정보가 믿을 수 있는지에 대한 filtering을 하게 됩니다. 만약 해당 position을 서열을 결정하는 read 서열 주변(window size) 영역의 quality가 낮거나 gap 또는 mismatch가 많다면, 그 read의 서열은 신뢰하기 어렵기 때문에 SNP를 결정 할 때 제외해야 할 것입니다.

이렇게 믿을 수 있는 read 정보만 남겨놓은 다음에는 read 서열의 frequency를 계산하여, 해당 position에 대하여 reference 서열과 다른 read의 서열의 frequency에 대한 기준을 정해 SNP를 찾아냅니다. 예 를 들어 위 그림의 강조된 부분에 mapping 된 14개 read 중 8개의 read는 'A'이지만 4개의 read는 C를 가리키고 있습니다. A와 C의 frequency는 66.67%와 33.33%입니다. 만약 reference 서열이 'A'이고 기준 frequency를 30% 라고 정했다면, 이 position은 SNP로 찾아질 것입니다. 이 frequency에 대한 기준은 sample을 어떻게 준비했느냐에 따라 달라집니다. 예를 들어 이배체 종의 sample을 그대로 시퀀싱 했다면 부모로 받은 서로 다른 두 개의 형질이 섞인채로 시퀀싱 되어 실제 SNP를 찾기 힘들기 때문입니다.

이렇게 염기서열 상에서의 SNP를 찾고난 다음에는 이 서열이 발현 단계에서 아미노산 서열의 변화까지 일으키는 non-synonymous SNP인지 확인해야 합니다.

DIP 찾기
편의상 Deletion/Insertion(gap) polymorphism을 줄여서 DIP라고 부르겠습니다. DIP를 찾는 것도 SNP를 찾는 방법과 유사합니다. Reference 서열과 비교해서 consensus 서열에 나타난 insertion이나 deletion이 나타난 자리를 찾는 것 입니다. 이 때 SNP와 마찬가지로 DIP가 나타난 consensus 서열의 근거가 되는 read의 수나 frequency를 기준으로 DIP를 선별해 낼 수 있습니다. DIP의 경우 1~2bp로 인해 해당 유전자의 ORF 전체가 바뀌게 되므로 관련된 유전자와 관련된 구조적 변화나 질병 등에 대한 연구가 함께 필요합니다.

* 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

- codes@insilicogen.com

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/108

Assembly를 해보자!

Posted at 2012/04/13 09:36
Filed under 제품소식

"저는 생물학과를 졸업 후 분자생물학 실험을 주로 하는 실험실에 석사과정으로 들어간 대학원생입니다. 여기서 저의 막내 생활이 다시 시작됩니다.
어느 날 교수님께서 '너의 석사 주제를 가져왔노라'시며 의미심장한 미소를 띄우시고는 미팅룸으로 저를 끌고 가십니다.
요즘 NGS 라는게 뜨는데 네가 남자고 컴퓨터를 좀 더 잘 할 터이니 네가 이걸로 뭔가를 해보라고 하십니다.
그 '뭔가'가 대체 뭔지는 논문 찾아보면 다 나오니까 조사해오라고 하십니다.
나름 조사를 해보니 용어도 잘 모르겠고, 다 영어라 해석도 어렵고...
전 정말 미추어 버리겠지만, 어쩌겠습니까? 까라면 까야죠."

위의 이야기는 제가 아는 어떤 친구의 하소연입니다. 이런 상황은 이 친구 뿐만이 아니라 대한민국 실험실의 많은 학생들, 그리고 연구원들이 공감하는 이야기일 것 같습니다.
저도 그 답답함을 겪었던, 그리고 아직 겪고 있는 한 사람으로서 제가 아는 만큼 NGS에 대해서 쉽게 이해할 수 있는, 그리고 소통을 통해 그 답답함을 해결할 수 있게 하는 글을 남겨보고자 합니다. 자 그럼 NGS 정체에 대해서부터 이야기 해보겠습니다.

NGS가 뭡니까?
NGS는 Next Generation Sequencing의 약자로 차세대 염기서열 결정이라고 해석할 수 있겠습니다. 해석은 ‘염기서열 결정’이라고 했는데 ‘휴먼 지놈 시퀀싱’ 할 때의 그 시퀀싱을 쓰는게 더 어울릴 것 같네요. 아무튼 어떤 생명체의 염기 서열을 알아낼 때 쓰는 시퀀싱법의 최신 버젼을 말하는 것 같습니다. 차세대라고 하는걸 보면 이전 세대의 염기서열 결정법 보다 뭔가 더 좋은게 있는 것 같습니다. 얼마나 혁신적으로 좋아졌길래 ‘차세대’라는 말을 갖다 붙였을까요?

'이전 세대' 시퀀싱법 Sanger method
Sanger method는 학부 분자생물학 시간 때 언뜻 들은 기억이 납니다. 지놈을 무작위로 잘라 단편 조각으로 만들고, single strand로 만든 다음 PCR처럼 primer를 붙이고 중합효소로 상보적인 dNTP들을 붙여 나갈 때 형광다이가 붙어 있는 ddNTP가 붙으면 중합 반응이 끝나고, 그 조각들을 전기영동으로 분리하면 짧은 조각부터 1bp 간격으로 정렬이 되는데 이 순서대로 형광다이의 색으로 A, T, G, C 서열을 결정해 나가는 방법입니다. 비루한 저의 설명 보다는 없는 지식이 없는 위키피디아(http://en.wikipedia.org/wiki/DNA_sequencing)나 파워블로거 님들의 자료를 살펴 보심이 옳은 줄로 아뢰옵니다. Sanger method의 장점이라면 정확해서 믿을만하다고 할 수 있겠습니다. 단점은 비싸고 오래 걸린다는 점입니다. 그래서 연구용으로는 적합하지만 상업적 목적으로 이용하기에는 힘들다고 합니다.

그럼 NGS는 뭐가 좋은데?
싸고 빠릅니다. 어디까지나 Sanger method에 비해서라는 전제가 붙을 때 이야기입니다. 차세대 염기서열 결정법은 크게 4~5가지가 있습니다. 기존 Sanger method의 비싸고 오래 걸려서 상업적으로 이용하기 어렵다는 단점을 극복할 수 있는 시퀀싱법을 개발하기 위해 몇몇 회사가 뛰어들어 새로운 시퀀싱법을 개발해 냈는데 기본적으로 전체 genome을 잘라 단편으로 만든 후 각 단편의 서열을 시퀀싱하고 이 단편들을 assembly라는 단계에서 겹쳐지는 부분을 이어 원래 지놈 서열을 알아내는 식으로 genome project가 진행 됩니다. 각 회사마다 개발해낸 시퀀싱법이 적용된 장비(혹은 플랫폼이라고 부르기도 합니다.)를 개발해서 판매하고 있으며 대표적으로 Roche사의 GS-FLX, Illumina의 Genome Analyzer, Applied Biosystem사의 SOLiD, Life Technologies사의 Ion Torrent 등이 있습니다. 여기서부터 슬슬 복잡해지기 시작합니다. 각 장비들마다 다른 시퀀싱법을 사용하다 보니 저마다 각자의 강점과 약점이 있습니다.

NGS로 무엇을 할 수 있을까?
서열을 시퀀싱해서 할 수 있는 분석들 대부분을 할 수 있습니다. 크게 나누자면 genomics, transcriptomics, epigenomics 분야로 나눌 수 있지만 raw data를 어떻게 응용하느냐에 따라 더 다양한 분야의 분석 방법들이 만들어 질 수 있을 것 같습니다.

Genomics

Transcriptomics

Epigenomics

de novo assembly

Reference assembly

SNP detection

DIP detection

RNA-Seq

Small-RNA analysis

ChIP-Seq

NGS 분석을 위해 준비해야 할 것들
"자 그럼 NGS 분석을 해보자! 뭐부터? 설계 먼저!
헐~ 데이터 파일이 너무 큰데... 내 PC에서 하면 PC 폭발하는거 아녀?
받긴 받았는데.. 이게 다 뭐다냐?"

어느 실험이 다 그렇듯이 NGS 데이터를 분석하는 것도 정확한 계획을 세우는 것이 중요합니다. 그 계획을 세우기 위해서는 시퀀싱 대상이 원핵 생물인지 진핵 생물인지? 지놈의 크기는 어느 정도인지? 그리고 얼마나 많이 시퀀싱 할 것인지(depth)? 그리고 주로 분석 할 대상이 RNA서열인지? exom 서열인지? whole 지놈 서열인지? 와 같이 시퀀싱 대상에 대한 정보를 파악하고 분석 목적에 맞는 시퀀싱 데이터(single short, long read, paired-end read, mate paired-end read)를 만드는 것이 중요합니다. 그리고 이 데이터들을 분석하기 위한 고사양의 컴퓨터, 분석 소프트웨어도 준비해야 합니다. 이 부분에 대한 설명은 다음으로 넘기도록 하겠습니다.

"de novo" assembly를 해보자!
'de novo' 라는 말이 낯섭니다. 우리 친구 네이놈 사전을 찾아보니 부사로써 ’처음부터‘, ’새로(이)(anew)‘, ’다시(again)‘, 영영사전에는 'from the beginning' 이라는 뜻이랍니다. 그러니까 de novo assembly는 새롭게 assembly를 한다는 말이 되겠네요. de novo assembly는 주로 서열이 밝혀지지 않은 종의 지놈 서열을 알아내고자 할 때 수행하는 분석입니다. Assembly는 일종의 퍼즐 맞추기랑 비슷합니다. Reference assembly는 원본 사진을 보면서 맞추는 퍼즐이고 de novo assembly는 원본 사진 없이 맞추는 거라고 보시면 됩니다.

* 1,000 피스 퍼즐 맞추는데 3일이 넘게 걸린다는데 이 퍼즐은 18,235 피스랍니다. 단순 비례 계산으로 치면 54일 쯤 걸렸겠네요.

원본 없이 하나하나 맞춰보면서 연결되는 것들 끼리 쭉~ 이어 원래의 genome 서열을 알아내야 하는 작업인지라 한 종류의 read들만 가지고 assemble을 하기란 쉽지 않습니다. 그래서 short, long, paired-end, mate-paired-end 등 여러 종류의 read들을 가지고 assembly를 해야 결과가 좋아집니다.

* 과학시간에 많이 보던 큰 구슬, 작은 구슬로 비커 채우기 실험

NGS read 데이터를 다운받자!
Assembly를 하려면 먼저 NGS read가 필요합니다. 현재 NCBI, EBI, DDBJ의 sequence 데이터 저장 서비스인 SRA(Sequence Read Archive)에서 공개된 NGS 데이터를 받을 수 있습니다. 일단 이 블로그에서는 어떻게 de novo assembly를 돌릴 수 있는지 알아보는 것이 목적이므로 지놈의 크기가 비교적 작은 E. coli의 NGS 데이터를 사용하고자 합니다. 웹 브라우저에서 아래 url로 이동해 보시면 CLC bio에서 제공하는 예제 데이터로 E.coli의 genome을 sequencing한, Roche의 454 장비에서 만들어진 long read 데이터와, Illumina 장비에서 만들어진 paired-end read 데이터를 다운받을 수 있습니다.

http://www.clcbio.com/index.php?id=1290

Roche 454 데이터 불러오기
Roche의 데이터는 크게 두 가지 형태가 있습니다. 하나는 454 Flowgram 이라고 불리는 .sff 파일이고 다른 하나는 FASTA 포맷으로 서열과 그에 대응하는 quality 값이 각각 두 개의 파일에 분리된 형태가 있습니다. 여기서 사용할 데이터는 후자에 해당합니다. 먼저 다운로드 받은 Roche 데이터의 압축 파일을 풀면 3개의 파일이 생성됩니다. 하나는 이미 알려진 E.coli의 전체 genome 서열 파일(.gbk)이고 다른 두 파일에 NGS read 파일입니다. 이중에서 .fna 파일이 각 read의 서열이 있는 파일이고 .qual 파일은 각 서열의 quality 값이 순서대로 기록된 파일입니다. 그 리고 CLC Genomics Workbench 화면 위쪽의 Tool bar에서 'NGS import'라는 버튼을 클릭하면 다음과 같이 import 할 수 있는 NGS data의 종류가 나타납니다. 여기서 첫 번째에 있는 'Roche 454...‘를 클릭합니다.

검색위치에서 아까 압축을 풀었던 폴더를 찾아간 후 .fna 파일과 .qual 파일을 둘 다 선택한 후 'Next'를 클릭하고, 다음 화면에서 저장위치 선택 후 'Finish' 버튼을 클릭하면 import가 완료 됩니다. Roche의 장비에서 나오는 서열에는 adapter sequence라는게 존재합니다. 이 adapter 서열은 원래 시퀀싱을 한 sample에서 나온 서열이 아니기 때문에 제거해 주는 과정이 필요한데 '454 options'에 있는 'Remove adapter sequence' 옵션이 항상 체크되어 있어야 합니다.

Illumina 데이터 불러오기
이번에 불러올 Illumina의 데이터는 paired-end read입니다. 검색위치에서 Illumina 데이터의 압축을 풀어놓은 폴더를 찾아간 후 forward 방향의 read 파일과 reverse 방향의 read파일을 둘다 선택 하시고, ‘General options'에 있는 ’Paired reads'라는 옵션을 체크해 줘서 이 read들이 paired-end read임을 인식하도록 해줍니다. 'Paired read' 옵션이 선택되면 ‘Paired read orientation'이라는 항목에 대한 옵션을 조정 할 수 있도록 활성화가 되는데 여기서 insertion size를 조정해 줍니다. 그리고 ’Next' 버튼을 클릭하고 저장할 위치를 설정한 후 ‘Finish' 버튼을 클릭하면 import가 완료됩니다.

de novo assembly 돌리기
Import가 완료되면 다음 그림과 같이 Roche와 Illumina 데이터가 각각 하나씩 나타나게 됩니다. Illumina 데이터의 파일은 두 개였지만 import 가 되면서 하나의 데이터로 합쳐진 것을 볼 수 있습니다.

데이터 준비가 완료되면 'Toolbox'에서 'High-Throughput Sequencing'에 있는 'De Novo Assembly'라는 툴을 더블클릭하여 실행 시킵니다. 첫 번째 화면에서 assemble 할 read 데이터를 선택하고 'Next'를 클릭합니다.

그 다음 단계에서는 de novo assembly를 하는데 필요한 몇 가지 옵션 값들을 선택하도록 되어 있습니다. CLC Genomics Workbench는 de Bruijn graph 라는 알고리즘으로 assembly를 합니다. 이 때 원래 read들을 더 작은 단편들로 만드는데, 이 단편들의 길이를 word size라고 부릅니다. ‘Automatic word size’를 체크하면 데이터의 크기에 따라서 정해진 word size로 assembly를 하게 됩니다. ‘Guidance only reads’는 scaffolding에 사용할 read를 설정하는 옵션으로 mate paired-end read를 선택해야 합니다. ‘Contig length’는 assembly된 contig 서열의 최소 길이를 설정하는 옵션이고, 'Perform scaffolding'은 만들어진 contig들과 가이드로 사용할 paired-end read를 가지고 더 큰 contig인 scaffold 서열을 만들 것인지 설정하는 옵션입니다. de novo assembly 옵션들의 설정이 완료되면 ‘Next'를 클릭합니다.

다음 단계의 옵션들은 mapping에 관련된 옵션들입니다. de novo assembly 하고 나면 일단 contig 서열들만 만들어 지게 됩니다. 이 contig 서열을 reference로 하여 read들을 mapping 시켜서 각 contig가 어떤 read들의 조합으로 만들어진 것인지 알 수 있게 합니다. ‘Update contigs' 옵션을 체크하게 되면 contig에 read가 mapping되는 정보가 contig 서열에 반영되게 됩니다. ‘Create simple contig sequences'를 선택하고 ’Next'를 클릭하면 이러한 과정 없이 contig 서열 들만 만들어 내게 됩니다. 옵션 설정이 완료되면 'Next'를 클릭하고 저장위치를 설정한 후 'Finish' 버튼을 클리하면 de novo assembly가 시작됩니다.

de novo assembly의 결과 데이터를 열어보면 다음과 같은 테이블을 볼 수 있습니다. 이 테이블은 각 de novo assembly의 결과로 만들어진 각 contig들의 정보를 보여 주며, 생성된 contig의 수, 각 contig의 길이, 각 contig에 mapping된 read의 수, 각 contig의 평균 coverage와 같은 정보를 알 수 있게 됩니다.

각 항목을 더블클릭하면 새 데이터 탭이 열리면서 해당 contig와 그 contig에 mapping된 read들의 mapping view가 나타나게 됩니다. 가운데 가는 실선으로 이어진 굵은 파란색 선은 paired-end read를 나타내고 연두색 선은 forward 방향의 single read, 빨간색 선은 reverse 방향으로 mapping 된 single read를 의미합니다. 각 read에서 세로 방향으로 그어진 작은 선들은 contig 서열과 다른 base로 conflict라고 부르며 A, T, G, C 각 염기 마다 다른 색깔로 표시 됩니다. de novo assembly를 할 때 이런 conflict가 많을 경우 sequencing 에러가 높다고 의심해 볼 수 있으며, 혹은 heterozygous 종의 지놈을 시퀀싱 했다고 추정해 볼 수 있습니다.

Reference assembly를 해보자!
앞에서 reference assembly가 원본 사진을 보고 퍼즐을 맞추는 것과 비슷하다고 말했습니다. Reference assembly는 말 그대로 reference가 되는 원본 서열에 read들을 mapping시켜 만들어지는 consensus 서열을 얻는 것을 말합니다. 예를 들어 한우의 유전체를 시퀀싱 하여 얻어낸 read 데이터를 NCBI에 공개된 소의 reference 서열에 mapping 시켜서 한우의 유전체와 어떤 차이가 있는지 비교하는 분석을 수행할 수 있을 것입니다.

이번에도 Roche 454 데이터와 Illumina의 데이터를 이용하되, 함께 압축되어 있던 E.coli 지놈 서열(NC_010473)을 reference로 두고 mapping 시켜 보도록 하겠습니다. Reference 서열 파일, NC_010473.gbk는 마우스로 클릭앤드래그하여 ‘Navigation Area’에 옮기면 자동으로 import가 완료 됩니다.

'Toolbox'에서 'High-Throughput Sequencing'에 있는 'Map Reads to Reference'라는 툴을 더블클릭하여 실행 시킵니다. 첫 번째 화면에서 assemble 할 read 데이터를 선택하고 'Next'를 클릭합니다.

다음 단계에서는 reference가 될 서열을 선택해 줍니다. 이 때 여러 개의 reference 서열을 지정할 수 있습니다. 예를 들어 human의 NGS 데이터를 전체 염색체에 mapping 시키고자 할 경우 22개의 상염색체와 2개의 성염색체, 그리고 필요에 따라 mitochondrial 염색체 서열을 선택해야 합니다. 선택이 완료되면 ‘Next'를 클릭합니다.

다음 단계에서는 mapping에 관련된 옵션들을 선택합니다. 크게 long read에 대하여 설정해야 하는 옵션과 short read 대하여 설정해야 하는 옵션으로 구분됩니다.

다음 단계에서는 일반적인 결과 처리에 관련된 옵션들을 설정합니다. 'Add conflict annotation'을 클릭하면 consensus서열과 다른 reference 서열의 염기에 'Conflict' 라는 annotation을 입혀 주게 됩니다. reference 서열의 크기가 크고 sequencing depth가 높을수록 비교적 conflict가 많이 발생하게 됩니다. 이 때 이 옵션의 설정을 체크하면 conflict 부분을 가시화 하는데 상당히 많은 메모리를 필요하게 되어 결과를 보는데 많이 시간이 필요하게 될 수 있습니다. 다음 옵션인 'Conflict resolution'은 conflict가 발생한 부분의 consensus 염기를 어떻게 결정할 것인지를 설정하는 옵션입니다. 그 리고 'Non-specific matches', 즉 reference 서열에 특정 부분에만 붙지 않고 다수의 부분에 붙는 read를 ‘Random'하게 붙일 것인지 ’Ignore'(무시) 할 것인지 설정 한 후 'Next'를 클릭합니다.

다음 단계에서 분석결과에 대한 report나 mapping 되지 않은 read들의 목록을 생성할 것인지, 결과를 저장할 것인지, 분석 로그를 생성시킬 것인지 등의 옵션을 설정합니다. 그 다음 단계에서 저장위치를 선택 후, 'Finish' 버튼을 클릭하면 reference assembly가 진행 됩니다.

Assembly가 완료되면 아래 그림처럼 mapping view가 나타나게 됩니다. 2개 이상의 reference 서열을 선택한 경우, 이전에 de novo assembly의 결과처럼 각 reference 서열 마다 간단한 정보와 함께 table 형태로 결과가 나타나게 되며, 각 항목을 더블클릭해 보면 mapping view를 보실 수 있습니다. de novo assembly 결과와는 다르게 consensus 서열 위에 reference 서열이 보이는 것을 보실 수 있습니다. 그리고 reference 서열에 있는 'Gene', 혹은 ‘CDS'와 같은 annotation들도 함께 보실 수 있습니다.

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/106

NGS는 무엇이고, 어떻게 분석해야 할까요?

Posted at 2012/03/29 17:22
Filed under 제품소식

◆ Next Generation Sequencing?

DNA 염기서열의 정보는 그 동안 sanger에 의해 개발된 방법을 자동화하여 DNA 가닥에서 A, T, G, C의 순서를 빠르고 정확하게 읽어내는 캐필러리 장비(Sanger sequencing, 1세대 시퀀싱)를 이용하여 분석하였고 유전자의 발현, 다양성 및 상호작용 등의 정보로서 활용할 수 있어 굉장히 중요합니다.

따 라서 많은 염기서열을 저렴한 비용에 수행할 수 있는 기술의 필요성이 증가되면서 차세대 염기서열 분석 기술(Next Generation Sequencing, 2세대 시퀀싱)을 이용한 플랫폼들이 소개되어, 생명과학 분야에 있어서 특히 유전체학 분야에 큰 영향을 끼치고 있습니다.

또 한 현재 염기서열 분석 기술은 더 짧은 시간에 더 적은 비용으로 더 많은 염기서열을 결정할 수 있는 플랫폼 장비들이 계속적으로 탄생되어 시퀀싱 chemistry 차이에 따라 차세대(2세대), 3세대, 4세대로 분류하여 부르기도 하면서 비약적인 발전을 하고 있습니다.

◆ NGS 데이터 분석 도구

현재 생산되는 NGS 데이터는 장비가 점점 발달함에 따라 한 번 플랫폼을 run하여 얻는 데이터양만 해도 어마어마합니다. 따라서 이러한 데이터를 한꺼번에 분석하려니 그에 맞는 메모리 및 스토리지 등의 하드웨어 사양의 고려와 또한 생물정보를 알고 있지 않는 이상 명령어 방식의 커맨드라인의 툴을 이용하기란 쉽지 않습니다.

NGS 데이터의 분석 단계는 크게 pre-processing, assembly 그리고 assembly를 이용한 이차 분석으로 나누어집니다. Pre-processing 단계에서는 다양한 플랫폼으로부터 single reads, long reads, paired-end reads 등 시퀀싱된 reads의 정보를 assembly 단계에 적용하기 위한 작업을 수행하고, 분석의 방향과 목적에 맞는 assembler를 선택하여 assembly를 수행하게 됩니다. 이 후 assembly 결과를 이용한 variation 분석, expression 분석, binding site 분석 및 전체 정보에 대한 브라우저 구축 등 다양한 이차정보를 분석하게 됩니다.

이 러한 분석 단계들을 하나의 툴에서 모두 진행하고 그 결과를 그래픽하게 확인할 수 있다면 NGS 데이터를 다루는 생물학자들이 무척이나 수월하게 연구를 수행할 수 있을 것입니다. 이러한 목적으로 개발된 NGS 데이터 분석 도구 중의 하나인 CLC Genomics Workbench를 소개하고자 합니다.

◆ CLC Genomics Workbench의 응용

CLC bio사의 CLC Genomics Workbench는 그래픽 인터페이스 기반의 NGS 데이터를 분석하기 위한 데스크탑 솔루션입니다. 현재 Roche 454, Illumina, Applied biosystems, Helicos, Ion torrent 등 다양한 회사의 NGS 플랫폼 장비에서 생성되는 모든 시퀀싱 데이터의 분석을 지원합니다. 또한 기존 sanger 데이터를 비롯하여 각 플랫폼에서 제공하는 다양한 데이터 셋을 hybrid하여 assembly를 수행하고 그 결과를 그래픽한 결과로 확인할 수 있습니다.

또한 annotation 정보가 있는 reference 서열을 기준으로 하여 assembly를 수행할 경우, 해당 유전자 구조도 함께 확인할 수 있습니다.

CLC Genomics Workbench에서 제공하는 assembly는 SIMD(Single Instruction Multiple Data) 기술을 적용하여 병렬연산으로 막대한 양의 NGS 데이터를 빠른 속도로 분석할 수 있어 유전체 크기에 관계없이 분석이 가능합니다. 단 많은 데이터를 분석할 시 고사양의 하드웨어 성능도 필요합니다.

이 렇게 NGS를 통하여 전체 염기서열 결정 및 re-sequencing을 통한 유전체 상의 여러 가지 변이 연구가 활발해졌으며 보통 NGS를 이용한 variation 연구는 유전체 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과 정렬을 통하여 비교하고 있습니다. CLC Genomics Workbench는 일차적으로 assembly를 수행하고 이 후 서열 간의 비교 분석을 통한 SNP 및 small Indel 분석을 진행할 수 있습니다.

또한 NGS는 transcriptome 분야를 포함하여 많은 부분에서 PCR이나 microarray 기술을 대체하고 있으며 특히 RNA-Seq은 한 번의 시퀀싱으로 수 많은 reads를 얻는 높은 coverage를 가지기 때문에 단 시간에 적은 비용으로 전체 transcriptome 서열을 결정할 수 있는 이점이 있습니다. CLC Genomics Workbench는 annotation된 reference 유전체 서열과 mRNA 시퀀싱 reads들을 바탕으로 새로운 엑손의 발굴뿐만 아니라 유전자 발현 레벨을 계산할 수 있습니다.

그리고 CLCL Genomics Workbench에서는 단백질에 binding된 DNA서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site를 동정하는 방법인 ChIP-Seq 분석을 통하여 genome wide epigenetic study가 가능할 수 있도록 지원하고 있습니다.

이 블로그에서는 컴퓨터를 잘 모르는 생물학 연구자도 쉽게 사용 할 수 있는 소프트웨어인 CLC Genomics Workbench를 이용하여 NGS 데이터 분석 방법을 소개하고자 합니다. 아래 이메일 주소로 연락 주시면 CLC Genomics Workbench의 모든 기능을 사용할 수 있는 데모 라이센스를 제공해 드리오니 많은 이용 바랍니다.

codes@insilicogen.com

많은 생물학 연구자 분들에게 NGS 분석 방법에 대한 이해를 도울 수 있으면 좋겠습니다.

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/103

Pathway Studio 9 Release!

Posted at 2011/11/23 11:27
Filed under 제품소식

Ariadne Genomics는 Pathway Studio 9과 MedScan Reader 5 버전을 출시하였습니다.
그럼 새로운 기능들과 향상된 기능들을 살펴볼까요?

Pathway Studio 9

◆ New Features to Expand Experimental Data Analysis
1. Two data types displayed in one pathway view
유전자 expression 또는 proteomics 데이터를 metabolomics 데이터와 함께 같은 pathway view 내에서 디스플레이가 가능합니다. 단순히 두 개의 실험 데이터와 pathway를 열면 링크버튼 위의 experiment table에서 두 개의 실험 데이터를 tab 방식으로 확인할 수 있습니다.

Figure 1. An example of a metabolic pathway with both gene expression values and metabolomic values displayed on the pathway entities.
* Small molecules : green -> orange (decrease -> increase)
* Gene expression : blue -> read (decrease -> increase)

2. Experiment values displayed in group view
이전 버전에서는 experimental value는 오직 pathway view에서만 볼 수 있었습니다. 허나 이제는 group viewer에서도 그 값을 확인할 수 있습니다. Link 버튼으로 group viewer table과 연결되어 probe value 컬러와 수치 값이 보여집니다.

Figure 2. Probe value colors and text are displayed in the Group Viewer table.

하나의 유전자에서 multi probes로 분석이 진행될 때 group viewer에서 probe value는 평균값을 제공하는 옵션도 가능하며, default 세팅은 각 유전자별로 가장 p-value가 높은 probe의 value로서 확인됩니다.

Figure 3. Program options menu for selecting how values for multiple probes will be displayed.

3. GSEA results display entities in order of measured value
GSEA 분석의 결과 테이블도 향상되었습니다. 분석된 "measured entities"컬럼은 엔티티들의 리스트와 연동되어 최대값과 최소값으로 설정된 범위의 fold change 값을 함께 컬러로 나타낼 수 있도록 할 수 있습니다.

Figure 4. Measured entities in the GSEA results table are now listed in order of measured value.

또한 GSEA의 "Sample to analyze" 옵션으로 experiment table의 최소한의 혼란을 위하여 원하는 항목을 적절하게 선택을 통하여 제한할 수 있습니다. 이전에는 p-value 컬럼이 포함된 모든 컬럼이 테이블 내에 디스플레이 되었었습니다.

Figure 5. Only appropriate selections are available for GSEA analysis (P-values no longer appear in the "sample to analyze" menu).

4. Correlation viewer available after experiment import
Correlation view가 experiment properties내에 tab으로 추가 되었습니다. 향상된 기능으로부터 large correlation plots은 화면에서 스크롤링 없이도 쉽게 볼 수 있습니다.

Figure 6. The correlation view is now accessible as a tab in the experiment properties and can be accessed after the experiment import is complete.

5. Chromosomal localization enrichment with Fisher's Exact Test
Fisher's Exact Test 알고리즘에 적용되는 유전자/단백질들의 리스트를 대상으로 chromosomal enrichment 분석을 할 수 있습니다. 현재 mammalian GSEA 분석을 위하여 사용할 수 있도록 준비되어 있습니다.

Figure 7. Chromosomal enrichment is now available for mammalian Fisher's Exact Test analysis.

6. Colored experiment values can be exported to Excel
Experiment table 내의 컬러 value들을 MS Excel spreadsheet로 함께 export가 가능합니다. 컬러 intensity 또는 컬러 value는 세팅 옵션에서 쉽게 조절할 수 있습니다.

Figure 8. The color display in the experiment table can now be exported to an Excel spreadsheet.

◆ New Capabilities for Visualizing Pathways
1. Options for initial pathway results views
Pathway 작업을 위하여 추가된 기능 중에는 새롭게 만들어진 pathway 결과를 graph view 또는 table view에 선택하여 열수 있는 옵션이 포함되었습니다. 또한 Advanced build pathway wizard를 사용하면 graph, entity table, relation table 또는 reference table view를 먼저 선택할 수 있습니다.

Figure 9. After completion of the Advanced tool for building pathways, the initial view for results can be selected by the user.

2. Easily adjust font size on entities in Pathway View
네트워크상의 single entity를 위한 텍스트 사이즈를 쉽게 조정할 수 있습니다. 원하는 엔티티 내 텍스트의 노란 도형을 선택하여 드래그하여 이용하면 됩니다.

Figure 10. Font size for individual entities within a network can easily be resized.

3. Functional Class association tabs renamed
Functional Class 내의 단백질들의 membership을 구성할 때 새로운 tab을 조사한 특징을 이름으로 확인할 수 있도록 만들 수 있습니다. 예를 들어, "Members"라는 tab을 “Child Concepts"로 또는 ”Parent Concepts" tab을 바꾸어 분석 조건에 알맞게 사용할 수 있습니다.

Figure 11. The tabs containing information about the association of proteins to functional classess have been renamed for more clarity.

MedScan Reader 5

◆ Dictionary and Algorithm Improvements
Entrez로부터 2011년 봄 기준으로 Protein 정의 업데이트가 진행되었으며 functional class dictionaries 큐레이트를 통하여 non-mammalian classes를 제거하고 가장 최신의 Gene Ontology를 나타내도록 변경되었습니다. 또한 MeSH로부터 새롭고 많은 aliases가 disease dictionaries에 추가되었습니다. 그리고 MedScan5에서는 텍스트 마이닝을 명확하게 하는 알고리즘이 향상되었고 애매모호한 단어들을 조금 더 명확하게 해석이 가능하도록 중점을 두어 업그레이드가 되었습니다.

◆ End User Editing of MedScan Dictionaries
이전에는 사용자 인터페이스 내의 제한으로 entity 용어를 추가한다거나 aliases를 추가하는 등의 MedScan dictionary 편집은 특별한 등록 키를 Ariadne에서 제공한 사용자만이 사용할 수 있었습니다. 이번 MedScan5 는 dictionary 편집과 인터페이스의 확장을 모든 사용자가 추가의 라이센스 활성화 없이도 이용할 수 있게 되었습니다. 이를 통하여 사용자들은 그들이 원하는데로 dictionary들을 modify 할 수 있습니다.

Figure 12. MedScan Dictionary editing enabled

ResNet Database 9

◆ Mammalian database
▪ Organism 특이적 functional class 큐레이션 (non-mammalian classes 제거)
▪ 질병 레코드에 더 많은 aliases 추가
▪ 새로운 Ariadne Cell Process pathway 수집

Figure 13. New - Cell Process pathway collection

▪ miRNA effect를 예측하는 relation이 포함

Figure 14. miRNAEffect predicted relations included in ResNet 9

▪ 더 많은 metabolic pathway 추가
▪ 2배 이상의 full-text articles 포함

◆ Plant database
▪ 데이터베이스 내 relation 컨텐츠의 15% 이상 증가
▪ Organism 특이적 functional class 큐레이션 (non-plant classes 제거)
▪ Signaling pathway들의 수집을 확대하고 다시 작업하여 완성

Figure 15. Updated Signaling Pathway

▪ AraCyc로부터 더 많은 metabolic pathway들의 추가

Figure 16. Updated SA(Salicyclic acid) Pathway

Posted by 人Co

Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/99

과학의 중심에서 지식관리를 외치다

Posted at 2011/05/13 11:23
Filed under 제품소식

지난 2009년 가을, (주)인실리코젠에서는 차세대 위키엔진 글터(GLTER)를 선보였습니다. 2년 남짓한 기간 동안 글터에 보내주신 사랑과 성원에 깊은 감사를 드리며 2011년 4월! 따뜻한 봄바람을 타고 설레는 마음으로 글터 v1.5를 내놓게 되었습니다. 고객 여러분의 따끔한 충고와 따뜻한 격려에 힘입어 보다 향상된 기능으로 다시 인사드립니다.

글터 v1.5는 사용자의 편의성 향상에 중점을 두고 여러 가지 기능을 추가하였습니다. 보다 편리해진 편집기, 강력한 이미지 업로드 기능, 문서 작성의 수고를 덜어줄 다양한 템플릿, 바쁜 시간을 효율적으로 관리해 줄 캘린더, 독립 홈페이지로서의 기능을 보다 강화한 사이트 메뉴관리와 회원관리까지 이 모든 것이 새로운 글터에서 가능합니다.

글터를 글터답게 만드는 편집기

간결하고 직관적인 편집기. 눈에 보이는 그대로 웹 페이지가됩니다. 쉬운 사용은 이제 기본입니다. 원하는 대로 글터를 글터답게 사용하세요.

강화된 이미지 첨부 기능

보다 향상된 이미지 첨부. 원하는 자리에 원하는 크기로 넣을 수 있습니다. 하나씩 넣기가 번거로우시다구요? 글터에서 여러 개의 이미지를 한 눈에 보고 한 번의 클릭으로 손 쉽게 넣으세요.

강력한 웹 캘린더

편집기 메뉴에서 한 번 클릭으로 캘린더를 넣을 수 있습니다. 간단하게 일정이나 업무일지를 정리해 보세요.

글터 템플릿, 멋진 글을 더욱 돋보이게 하는 방법

글터 템플릿은 문서 작성자가 웹 디자이너라도 된 것처럼, 작업에 잘 어울리는 문서를 빠르게 만들 수 있습니다. 본격적으로 내용을 작성하기 전이라도 이미 근사해 보입니다. 다양한 템플릿 중에서 필요한 것을 골라 원하는 대로 적용하고 직접 내용을 입력해 보세요. 다 되셨지요? 멋진 전문가급 문서가 금새 완성됩니다! 나의 일, 이제 웹으로 보여주세요.

메뉴구조를 내 마음대로!

사이트의 메뉴를 내가 원하는대로! 관리자는 메뉴를 만들고 지우기를 보다 쉽게 할 수 있을 뿐만 아니라 드래그 앤 드롭(Drag and Drop)을 이용하여 편리하게 메뉴의 순서를 변경할 수 있습니다. 메뉴 순서를 바꾸고 싶을 때는 메뉴를 마우스로 끌어서 사뿐히 내려놓기만 하면 됩니다.

손쉬운 회원관리와 권한설정

사이트의 관리자는 다수의 회원들을 그룹으로 묶어 관리할 수 있습니다. 또한 글터에서는 타 위키가 지원하지 않는 권한설정을 지원합니다. 관리자는 각 페이지 별로 권한을 부여할 수 있습니다. 공유할 수 없는 중요한 지식이라면 글터의 권한설정을 이용해 보세요. 복잡한 내부 시스템을 몰라도 걱정할 필요가 없습니다. 설정은 원하는 대로 쉽게 변경할 수 있습니다.

사용자 입장에서 한 번 더 생각한 도움말

시스템을 처음 접하는 사용자도 도움말을 따라 쉽게 이용할 수 있습니다. 글터는 위키를 처음 접하는 사용자를 위해 개념적인 설명은 물론 화면 구성, 사용자 도움말, 편집기 도움말, 관리자 도움말까지 제공합니다. 하나부터 열까지 차근차근 안내해 드립니다. 지식관리 시스템, 이제 어렵지 않습니다.

잃어버릴 수는 있어도 잊어버릴 수는 없습니다.

지식기반사회를 준비하는 고객님의 든든한 동반자 글터는 공학과 과학 분야에서 사람 중심의 연구환경을 만들기 위한 노력을 늦추지 않을 것입니다. 글터와 함께 꿈에 한 발 다가서는 2011년이 되시기 바랍니다.

http://www.glter.net

|주|인실리코젠 KM사업부

	031-278-0061
	031-278-0062
	km@insilicogen.com

Posted by 人Co

Tag: LabKM, Web 2.0, 지식관리
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/92

약물에 대해 알려진 부작용과 잠재적인 부작용 찾기

Posted at 2011/01/11 11:09
Filed under 제품소식

What are the known and potential side effects of my drug?

약물의 알려진 부작용과 잠재적인 부작용에는 무엇이 있는가?
후천성면역결핍증이라 불리는 에이즈는 에이즈바이러스가 몸속에 침입하여 우리몸의
면역세포를 파괴시켜 면역기능이 저하되면서 각종 감염병이나 암 등이 생겨 사망에 이르게 되는 질병이다. 에이즈를 치료하는 치료제는 역전사효소 억제제와 단백질분해효소
억제제 두 가지로 나누어지는데 오늘은 단백질 분해효소 억제제인 Ritonavir에 대해 알아보고자 한다. Ritonavir(리토나비어)는 단백질분해 효소 억제제로 세포사의 후기 단계에서 바이러스의 부분인 단백분해를 차단하여 복제를 방해하는 약물로 혈액내의 순환하고 있는 바이러스의 숫자를 줄이고 T-cell의 숫자를 증가시키는 약물이다. Ritonavir의 부작용으로는 오심, 구토, 설사, 구강주위부 및 말초의 감각이상, 중성지방 및 콜레스테롤의 증가 및 간효소의 증가등이 있다. Ritonavir는 간의 cytochrome P450 효소를 강력히 억제하므로 간에서 대사되는 다른 약물과 같이 사용하여서는 안된다고 알려져 있다.
오늘은 Ritonavir에 대한 알려져 있는 부작용과 잠재적인 부작용에 대해 알아보고자 한다.

Step to follow

알려진 부작용: Ritonavir와 관련있는 질병 찾기

Step 1. Ritonavir 검색

하단의 List pane에서 copy contents & paste

Step 2. Pathway 옵션 설정

Algorithm Type : “Add neighbors” > Direction : “downstream” > Entity Type : “Disease” > Relation Type : “Regulation” (filter on effect positive)

Step 3. Pathway 결과 확인 & Advanced visualization toolbar

Style > Active Style Sheet > By Reference Count 선택

잠재적 부작용: Ritonavir와 관련있는 Cell Process 찾기

Step 4. Ritonavir 검색

하단의 List pane에서 copy contents & paste

Step 5. Pathway 옵션 설정

Algorithm Type : “Add neighbors” > Direction : “downstream” > Entity Type : “Cell Process” > Relation Type : “Regulation”

Step 6. Pathway 결과 확인 & Advanced visualization toolbar

Style > Active Style Sheet > By Effect 선택

아래 동영상보기를 하시면 4개의 Step을 한 번에 보실 수 있습니다.

Posted by 人Co

Tag: Ariadne, pathway, Pathway Studio, Ritonavir, 약물 부작용, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/91

식물 리그닌화(목질화)에 대한 후보 유전자 리스트 확인하기

Posted at 2010/12/27 09:01
Filed under 제품소식

How can I find literature supporting a list of candidate genes related to a specific plant trait?

식물 리그닌화(목질화)에 대한 후보 유전자 리스트를 확인할 수 있는 있는가?
리그닌은 목질소라고도 하며 셀룰로오스, 헤미셀룰로오스와 더불어 식물골격 구성성분의 하나로 목재 20~30%에 달한다. 식물의 리그닌화(목질화)는 식물이 자라는 과정에서 세포막이나 중간층에 리그닌이 생겨 흡착되거나 화학적으로 결합하여 강하고 단단해지는 현상을 말한다. 일반적으로 세포의 성장에 따라 서서히 일어나지만 병태 또는 상해 조직에서는 유조직세포벽에 급속히 일어나는 경우도 있다. 목질화된 세포벽은 병원균에 의해 잘 침범되지 않기 때문에 병태조직 또는 상해조직에서의 목질화는 일종의 방어반응이라고 할 수 있다.

Step to follow

Step 1. Gene list 검색

검색하고자 하는 유전자의 TAIR ID를 검색한다. Import > Gene List > 복사해 놓은 TAIR ID 리스트 Paste from Clipboard > Lookup in the Database 클릭

Step 2. Lignification과 관련있는 Cell Process 검색

Step 3. Pathway 옵션 설정

Protein과 Cell Process의 Relation 사이의 관계를 나타내기 위해 Protein을 선택한 상태에서 Add 메뉴를 선택하고 "Relations between Selected and Unselected" 클릭

Step 4. Pathway 확인

"Relations between Selected and Unselected"를 하면 서로 연관이 있는 Relation만 표시가 되고 연관이 없는 Entity는 Relation이 되지 않고 남아있다.

Step 5. 엔티티 추가하기

"lignin" small molecule을 검색하여 4번 pathway에 추가하고 Protein과 "lignin" 사이의 Relation을 확인하기 위해 "lingin"을 선택한 다음 Step 3을 반복한다.

아래 동영상보기를 하시면 4개의 Step을 한 번에 보실 수 있습니다.

Posted by 人Co

Tag: Ariadne, insilicogen, lignification, lignin, pathway, PathwayStudio, 리그닌, 목질화, 식물 리그닌화, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/88

PTPRC → STAT6 signaling pathway 조절에 관여하는 small molecule 찾기

Posted at 2010/12/20 08:38
Filed under 제품소식

What small molecules are known to regulate my pathway?

PTPRC(CD45)는 세포의 활성화 신호를 억제 조절할 수 있는 역할을 하는 단백질 중 하나이다. PTPRC(CD45)는 세포막에 위치한 protein tyrosine phosphatase의 일종으로 T세포 또는 B세포의 신호전달에 관여한다. PTPRC(CD45) 단백질을 제거한 실험에서 JAK와 신호 전달체 및 전사 활성인자 (STAT)가 활성화된다고 알려져 있다. 이러한 PTPRC(CD45) -> STAT6 signaling pathway를 조절하는 small molecule들은 무엇이 있는지 확인해보고자 한다.

Step to follow

Step 1. PTPRC -> STAT6 signaling pathway 검색

Information pane에서 PTPRC -> STAT6 signaling pathway를 검색한다. 검색된 Pathway를 더블클릭하면 새 Pathway 문서에서 확인 할 수 있다.

Step 2. Pathway 옵션 설정

PTPRC -> STAT6 signaling pathway를 제어하는 small molecule에는 무엇이 있는지 알아보기 위해 옵션 설정 과정을 거친다. Advanced Build Pathway Wizard에서 Add Neighbors > Directionality: "Upstream" > Entity type : "Small molecule"를 순서대로 선택하고 Relation type은 창 하단의 Cheak All을 클릭하여 모든 Relation을 한 번에 선택해 준다.

Step 3. Pathway 확인

Tip. 복잡한 Pathway를 간략하게 정리하고 싶다면?

Tip 1. View > Relation Table View 기능 사용

Reference가 적은 relation들을 확인하고 삭제하는 manual 방법

Tip 2. Common Regulators 알고리즘 활용

Advanced Build Wizard 에서 Algorithm Type : “Add Common Regulators" > Algorithm Type : “Add Common Regulators” > Entity Type : “Small Molecule” > Relation Type : “All Regulation Type” 순으로 선택한다.

아래 동영상보기를 하시면 3개의 Step을 한 번에 보실 수 있습니다.

Posted by 人Co

Tag: CD45, insilicogen, JAK, pathway, PTPRC, Relation, STAT, 인실리코젠
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/87

약물 대사 변경으로 조절되는 잠재적인 drug-drug interaction 확인하기

Posted at 2010/10/25 08:43
Filed under 제품소식

Can I identify potential drug-drug interactions mediated by alterations of drug metabolism?

drug 대사의 변경에 의해 조절되는 잠재적인 drug-drug interactions를 확인 할 수 있는가? 항응고제로 혈액응고를 방지하기 위한 약물로 알려진 쿠마딘의 대사에 대해 알아보고자 한다. 쿠마딘(와파린)은 항응고를 하는 약제로 혈관안에서 혈전이 형성되는것을 막아주기 때문에 주로 혈전 및 색전증 치료에 쓰이고 있다. 쿠마딘은 주로 간에서 대사되는데, 간 대사효소인 CYP3A4에 의해 미량 대사된다고 알려져 있다. PathwayStudio를 통해 쿠마딘과 CYP3A4의 관계를 알아보고 CYP3A4에 영향을 주는 약물에 대해 조사해봄으로써 durg-drug 상호작용을 확인해보고자 한다.

Step to follow

Step 1. Coumadin 검색

Information pane에서 coumadin을 검색한다. 검색된 coumadin을 복사하고 새 pathway 문서에 붙여넣기를 한다.

Step 2. Pathway 옵션 설정 및 Pathway 확인

coumadin이 어떤 효소에 의해 대사되는지 알아보 pathway로 나타내기 위해 옵션 설정 과정을 거친다. Advanced Build Pathway Wizard 에서 Add Neighbors > Directionality: “upstream” > Entity type: “protein” > Filter Parameters: “ChemicalReaction” 순으로 선택한다.

Step 3. Pathway 옵션 설정

coumadin의 대사에 관여하는 효소 15개를 확인하였고, 그 중에서 CYP3A4라는 효소는 다시 어떤 small molecule에 의해 영향을 받는지 알아보기 위해 pathway 찾기를 재수행한다. CYP3A4를 선택하고 Advanced Build Pathway Wizard 에서 Add Neighbors > Directionality: “upstream” > Entity type: “small molecule” > Filter Parameters: “DirectRegulation” 순으로 선택한다.

Step 4. Active Style 변경

Effect와 Reference 개수에 따라 그래프 보기에서도 효과를 나타내 줄 수 있다. Style 메뉴의 Active Style Sheet에서 By Effect를 선택하면 Effect의 Positive, Negative 효과에 따라 Relation 선색을 다르게 할 수 있으며, By Reference Count를 선택하면 Reference의 개수에 따라서 Relation 선색이 달라지는 것을 확인 할 수 있다.

아래 동영상보기를 하시면 4개의 Step을 한 번에 보실 수 있습니다.

Posted by 人Co

Tag: ChemicalReaction, Coumadin, CYP3A4, Drug, insilicogen, interaction, metabolism, pathway, protein, Reference, upstream, 대사효소, 인실리코젠, 쿠마딘
Response: No Trackback , No Comment
RSS :: https://post-blog.insilicogen.com/blog/rss/response/85

Search Results for '제품소식'

43 POSTS

◆ Next Generation Sequencing?

◆ NGS 데이터 분석 도구

◆ CLC Genomics Workbench의 응용

글터를 글터답게 만드는 편집기

강화된 이미지 첨부 기능

강력한 웹 캘린더

글터 템플릿, 멋진 글을 더욱 돋보이게 하는 방법

메뉴구조를 내 마음대로!

손쉬운 회원관리와 권한설정

사용자 입장에서 한 번 더 생각한 도움말

What are the known and potential side effects of my drug?

Step to follow

알려진 부작용: Ritonavir와 관련있는 질병 찾기

Step 1. Ritonavir 검색

Step 2. Pathway 옵션 설정

Step 3. Pathway 결과 확인 & Advanced visualization toolbar

잠재적 부작용: Ritonavir와 관련있는 Cell Process 찾기

Step 4. Ritonavir 검색

Step 5. Pathway 옵션 설정

Step 6. Pathway 결과 확인 & Advanced visualization toolbar

How can I find literature supporting a list of candidate genes related to a specific plant trait?

Step to follow

Step 1. Gene list 검색

Step 2. Lignification과 관련있는 Cell Process 검색

Step 3. Pathway 옵션 설정

Step 4. Pathway 확인

Step 5. 엔티티 추가하기

What small molecules are known to regulate my pathway?

Step to follow

Step 1. PTPRC -> STAT6 signaling pathway 검색

Step 2. Pathway 옵션 설정

Step 3. Pathway 확인

Tip. 복잡한 Pathway를 간략하게 정리하고 싶다면?

Tip 1. View > Relation Table View 기능 사용

Tip 2. Common Regulators 알고리즘 활용

아래 동영상보기를 하시면 3개의 Step을 한 번에 보실 수 있습니다.

Can I identify potential drug-drug interactions mediated by alterations of drug metabolism?

Step to follow

Step 1. Coumadin 검색

Step 2. Pathway 옵션 설정 및 Pathway 확인

Step 3. Pathway 옵션 설정

Step 4. Active Style 변경

Categories

Recent Posts

Archives

Tag Cloud

Site Stats