« Previous : 1 : ... 31 : 32 : 33 : 34 : 35 : 36 : 37 : 38 : Next »

첫 직장, 그리고 한달

우리회사 신입사원의 이야기입니다. "훈남"으로 통하면서 여직원들의 관심을 독차지하고 있다죠. (질투 삐릿~) 입사 후 한달이 지난 그의 이야기를 들어볼까 합니다.

KM팀 신입사원 이재영

인실리코젠에 지원서를 제출하고 약 1주간의 기다림 끝에 면접을 보게 되었습니다. 대학에서의 마지막 시험 기간과 일정이 겹쳐져 학업과 면접을 동시에 준비하는 상태가 되어 이 한 주 동안에만 살이 2~3kg정도 빠졌던 기억이 납니다.

드디어 면접 당일, 이른 아침에 일어나 준비하던 기분이 아직도 생생합니다. 긴장과 기대, 두려움과 설렘 같은 기분들이 복잡스럽게 뒤엉키며 저의 마음을 흔들었고 혹여 늦지 않을까 하는 걱정에 이른 걸음을 하다보니 면접시간보다 1시간 정도 먼저 도착했습니다. 잠시 동안의 주변을 둘러 본 이후 회사의 문을 두드렸을 때 일찍 오셨다는 말과 함께 문을 열어주셨던 분이 경윤 주임님 이셨죠. 그리고 곧 면접, 김 팀장님과 박 팀장님 두 분이 들어오셨습니다. 두 분과의 긴 면접을 마치고 집으로 돌아오는 길은 아쉬움과 홀가분함이 반반인 기분의 짧은 길이였습니다.

합격통지를 받고 너무 큰 설렘에 답을 보내는 것을 잊어 임 실장님께서 따로 전화를 하시는 수고를 만들어 드리기도 했습니다. 이후 첫 출근에서의 어색함과 미숙함은 다양한 실수들을 만들기도 했고 그러는 가운데 본격적인 업무가 시작되었습니다.

처음으로 팀에 들어와서 진행된 프로젝트는 정행사 논문투고 시스템(OJMS)입니다. 웹 방면의 코딩은 부족한 상태이기에 코드의 구현 보다는 자료의 조사나 정리, 요약과 같은 서브 작업들을 위주로 진행 중입니다. 현재는 화면 구성을 하고 있습니다.

사용자 삽입 이미지
OJT 기간 중 처음으로 만져본 코드인 혈연관계정보검색시스템(KinMatch)입니다. 맨땅에 헤딩하는 기분으로 약간의 기본만을 가진 상태로 모든 파일을 열어보며 구조를 확인하고 그것들을 하나하나 바꾸어 가며 각각의 경우에 변하는 화면을 보면서 수정해 나갔습니다. 이로 인해 장고(Django)를 이용해 만드는 웹페이지의 구조와 프로젝트 진행 절차 및 subversion의 사용법, vi editor의 숙달 그리고 CSS와 HTML의 기본을 익혔습니다. 그리고 혼자 진행하는 것이 아닌 Descign팀과의 협업으로 진행해 나가 업무협조의 과정과 방법을 익히게 해준 과정입니다. 그리고 단순히 여기서 종료되지 않고 한국저작권 위원회에 프로그램 등록을 통해 지적 재산권의 확보와 사업의 진행을 위한 기본적인 과정을 익혔습니다.

사용자 삽입 이미지
마지막으로 현재 기획중인 대한독성유전단백체학회의 홈페이지 리뉴얼 작업입니다. 이 부분에서는 단지 프로그램만을 제작하는 과정만이 아닌 기획서의 작성을 통해 프로젝트 진행 이전 단계를 알아가고 있습니다. 또한 기획을 하며 사람들이 필요로 하는 기능이 무엇이 있는지를 생각하는 과정을 거침으로 해서 내가 앞으로 알아야 할 부분이 어떤 것인지, 그리고 그것을 구현하고 서비스 하는데 얼마만큼의 시간과 인력이 필요할지에 대해서도 생각해보게 되었습니다.

한 달이라는 기간은 업무를 파악하는데 있어서 짧지 않은 기간입니다. 이 시간동안 회의도 많았고 다양한 주제의 대화도 오고 갔습니다. 이 가운데 제가 배워야 하는 것은 수 없이 많았지만 이들 중 얼마만큼을 찾았는가를 정확히 말씀드릴 수는 없습니다. 그러나 한 가지 확실한 점은 배워야 할 것이 많고 스스로 고쳐가야 할 것들 역시 많다는 것입니다. 그리하여 우선적으로 HTML, CSS, Django를 빠르게 익혀 실무에서 이용할 수 있도록 하는 것을 목표로 세우고 현재는 HTML에 집중하고 있습니다. 우선적으로 빠른 시간 안으로 HTML, CSS의 개괄적인 마무리를 하고 곧 Django의 정확한 개념 정립과 활용을 할 수 있을 정도의 실력을 갖추는 것을 목표로 세웠습니다. 이와 같은 개인적으로 부족한 부분을 보완하는 규칙적이며 꾸준한 과정과 동시에 회사에서 바로 필요한 것을 바로 얻을 수 있도록 빠르게 파악하며 익히는 단계를 진행시키면서 단시간 안에 열심히 하면서도 잘 하는 모습을 보여드리도록 하겠습니다.

Posted by 人Co

2010/02/12 17:04 2010/02/12 17:04
Response
No Trackback , 1 Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/38

[Quipu Issue Paper] Assembly Ⅱ - De novo assembly

연재 순서

  1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

Quipu Issue Paper 기술 소식지 두 번째 연재로 NGS Assembly 중에 De novo assenbly에 대해 알아보도록 하겟습니다.

 1-1-2. De novo assembly    


 Human genome project 이후 다양한 종에서 Whole Genome Sequencing(WGS)이 진행되고 있다. 고전적인 방법으로 BAC library를 제작하여 샷건 시퀀싱으로 진행되던 방식이 NGS 시대에 들어 새롭게 진화하였다. 일예로 Dr. Andreas는 ‘Corynebacterium kroppenstedtii’의 유전체 시퀀싱을 단 7.5 시간 만에 수행하고 자동화된 genome annotation 파이프라인을 통해 단 3일 만에 논문으로 발표하였다[13]. 그러나 아쉽게도 미생물을 제외한 대부분의 종에서는 아직까지 NGS를 이용한 de novo assembly로 유전체 시퀀싱을 완성한 팀은 없다. 짧은 reads의 제한적인 정보로 복잡한 유전체 구조를 모두 밝히기엔 어려움이 따른다. 따라서 reference가 없는 새로운 종을 시퀀싱 할 경우에는 짧은 reads를 생성하는 Solexa나 SOLiD보다는 Roche 454를 이용한 long reads 시퀀싱이 유용하다. 2009년 10월 현재 Roche 454의 GS Titanium의 경우 평균 read 길이가 350bp에 달하고 최대 700bp까지 시퀀싱을 수행한다고 한다[8]. 단, 유전체 구조상 반복 서열 영역과 같은 서열상의 정보로만 분석 되지 않는 부분은 paired-end reads의 fragment size를 다양하게 디자인하여 long reads와 함께 분석 하여야 한다. 이렇게 de novo assembly의 경우 long reads와 short paired-end reads를 동시에 처리할 수 있어야 하므로 assembler 또한 이들 모두를 처리할 수 있어야 한다.

사용자 삽입 이미지

대표적인 de novo assembler로 Velvet(Solexa bundle program)[9], Newbler(454 bundle program)[10], ABySS[11], CLC NGS Cell, 그리고 고전적인 프로그램인 Phrap을 들 수 있다. 이들 assembler의 특징에 대해 좀 더 자세히 살펴보기 위해 다음의 몇 가지 조건을 기준으로 살펴보았다. 단, phrap의 경우 NGS reads의 특성상 대량의 데이터를 처리하기엔 메모리와 속도 면에서 비교하기가 어려울 만큼 효율적이지 않은 점을 고려하여 이후 비교 분석에서는 제외하였다.

사용자 삽입 이미지
  최근 de novo assembler의 개발이 가속화 되면서 human 유전체를 대상으로 de novo assembly에 성공한 사례가 발표 되었다. CLC NGS Cell[12]과 ABySS[11]가 그 주인공으로 Illumina의 paired-end reads를 분석에 이용하여 38X의 human 유전체를 완성 하였다고 밝혔다. 그 두 프로그램의 결과를 비교해 보면 표 4와 같다. CLC NGS Cell은 최근 2.0에서 3.0 beta 버전으로 업그레이드되면서 de novo assembly에 놀라울 만큼의 결과를 향상 시켰다[12]. 단적으로 38X나 되는 많은 데이터를 de novo assembly로 분석하는데 단 78시간(CPU time)밖에 소요되지 않았다는 것만으로도 매우 놀라운 일이다(표 4).

 이는 ABySS와 비교했을 때 약 172배가 빨라진 결과이다[12]. 뿐만 아니라 분석된 contig의 품질을 살펴보면 100bp 이상 되는 contig는 ABySS 보다 많으며 최대 contig 길이 면에서 1.7배 긴 contig를 생성하고 있다. N50 또한 서로 비슷한 결과를 보여 주고 있어 단순히 빠른 속도만을 내세우는 프로그램이 아닌 분석 결과에 대한 정확성 면에서도 믿음을 주고 있다. 이를 한 번 더 검증하기 위해 짧은 유전체를 대상으로 Velvet과의 정확성 테스트를 다시 수행하였다. 그 결과 Velvet의 부정확한 assembly에 비해 CLC NGS Cell은 모두 정확한 assembly를 수행하였음을 확인 할 수 있었다(표 5)[12].

비슷한 결과로 Shizosaccharomyces pombe 132, Fungi 유전체를 대상으로 테스트한 결과에서도 CLC NGS Cell이 Velvet 보다는 좋은 결과를 보였다(표 6)
. 마지막으로 long reads와 short reads를 동시에 분석하여 복잡한 유전체 구조를 분석 할 때 서로 다른 데이터 플랫폼이 함께 분석되어야 한다. 이를 위해 GS titanium과 Illumina 데이터(Solexa)를 다양한 비율로 구성한 테스트 세트를 이용하여 분석하였다(표 7).

사용자 삽입 이미지
  분석 결과 long reads 구성이 많을수록 긴 contig를 구성하는 것을 확인할 수 있었다. 그러나 여기서 보여지진 않았으나 반복서열 영역과 같은 시퀀싱이 쉽지 않은 영역의 데이터를 long reads 보다는 short reads에서 확인할 수 있었다. 따라서 두 가지 플랫폼의 장점을 모두 수용할 수 있는 assembler를 선택하여 분석의 정확성을 높이는 것이 좋을 듯하다.

사용자 삽입 이미지




 1-1-3. Workflow


 NGS 데이터의 분석 단계는 크게 pre-processing, assembly, 그리고 assembly를 이용한 이차 분석으로 나눠진다. Pre-processing 단계에서는 다양한 플랫폼으로부터 single reads, long reads, paired reads 그리고 unpaired reads들의 정보를 assembly 단계에 적용하기 위한 작업을 수행한다. 대부분의 assembler는 대용량의 데이터 처리를 위해 index 파일을 자체 프로그램에 맞게 생산하는 단계를 거치거나, 다양한 플랫폼에서 생산된 데이터를 특정 포맷의 입력 포맷으로 전환하는 과정을 수행한다. 그러나 이러한 과정은 자칫 시퀀싱 자체의 raw 정보를 유실하는 경우가 발생할 수 있으므로 assembler의 기능을 면밀히 살펴 최대한 정보를 그대로 보존할 수 있는 assembler를 선택하는 것이 좋다. 그중 CLC NGS Cell은 대부분의 시퀀싱 raw 파일을 입력 포맷으로 지원하므로 이러한 정보 손실을 줄여 줄 수 있는 이점이 있다. 더욱이 zip file 형태의 파일을 바로 입력 포맷으로 지원하므로 분석 단계에서의 파일 관리가 수월한 점도 장점이라 하겠다.

 다음으로 assembly 과정에 대해 알아보자. NGS reads의 assembly는 제한적인 computing power를 고려하여 데이터를 여러 개로 분리하여 반복 수행하게 된다. 이후 이들 assembly 결과를 하나로 합치는 과정을 통해 전체적인 assembly을 완성한다. 대부분의 프로그램이 한 번의 명령어 수행으로 contig 서열 혹은 assembly 파일을 얻을 수 있다.
그림 3. CLC NGS Cell workflow. 다양한 입력 포맷을 지원하므로 assembly 수행을 위한 여러 단계의 전처리 과정이 없으며 assembly 이후 한 번의 스크립트 수행을 통해 원하는 다양한 정보를 이차적으로 생산할 수 있다.

 마지막으로 assembly 결과를 이용한 다양한 이차정보 분석이다. SNP와 같은 variation 분석, assembly 결과를 보여주는 그래픽 인터페이스 그리고 assembly quality 정보 분석이 주로 수행된다. 그 중 assembly quality는 reference assembly의 경우 assembly에 참여된 reads의 coverage와 fold로 나타낼 수 있으며 de novo assembly의 경우 N50 및 fold value가 지표가 될 수 있다. 이러한 분석 역시 간단한 명령어 수행으로 대부분의 프로그램에서 수행하고 있다(그림 3).


사용자 삽입 이미지
그림 3. CLC NGS Cell workflow. 다양한 입력 포맷을 지원하므로 assembly 수행을 위한 여러 단계의 전처리 과정이 없으며 assembly 이후 한 번의 스크립트 수행을 통해 원하는 다양한 정보를 이차적으로 생산할 수 있다.

또한 그림 4는 alignment 결과와 그에 따른 SNP evidence를 그래픽 인터페이스를 통해 보여주고 있다. CLC NGS Cell은 reference assembly 수행 시 유전자 구조 및 기능 정보를 담고 있는 NCBI의 genbank 포맷의 파일을 reference 파일로 입력 받을 수 있는데, 이를 이용하게 되면 assembly 수행 후 결과를 CLC Genomics Workbench를 통해 유전자 위치와 alignment 된 reads 정보를 따로 그래픽 인터페이스를 제작하지 않고도 쉽게 확인 할 수 있다. 또한 SNP 정보를 함께 CLC Genomics Workbench를 통해 확인할 수 있어 바로 프라이머를 제작하는 등의 차후 분석이 가능하도록 돕고 있다.

사용자 삽입 이미지
그림 4. CLC Genomics Workbench를 이용한 alignment view 와 SNP view. Reference assembly 수행 시 annotation 정보가 있는 .gbk 파일을 이용하여 분석한 후 assembly 파일을 Genomics Workbench를 통해 확인하면 유전자의 위치와 함께 alignment reads의 상세정보를 확인 할 수 있다. 아울러 SNP 정보 중 cSNP의 경우 translation 정보를 활용하여
non-synonymous/synonymous SNP를 구분하여 분석 할 수 있다.



다음주 연재에서는 Assembly에 이어서 Assembly를 수행하고 이후 서열간의 비교 분석을 통해 variation 분석을 진행하는 variation study에 대해 알아보도록 하겠습니다.
많은 관심 부탁드립니다.


참고문헌

 1. Li R, Li Y, Kristiansen K, Wang J. (2008) SOAP: short oligonucleotide alignment program. Bioinformatics 24, 713–714 (http://soap.genomics.org.cn/index.html)
 2. Li H, Ruan J, Durbin R. (2008) Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res 18, 1851–1858 (http://maq.sourceforge.net/index.shtml)
 3. Lin H, Zhang Z, Zhang MQ, Ma B, Li M. (2008) ZOOM! Zillions of oligos mapped. Bioinformatics 24, 2431–2437 (http://www.bioinfor.com)
 4. CLC NGS Cell : http://www.clcbio.com
 5. White paper on reference assembly on the CLC NGS Cell 2.0 (www.clcbio.com)
 6. Palmieri N, Schlötterer C. (2009) Mapping accuracy of short reads from massively parallel sequencing and the implications for quantitative expression profiling. PLoS One. 28, 4(7):e6323.
 7. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 8. Roche 454 : http://www.454.com/
 9. Zerbino DR, Birney E. (2008) Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 18, 821–829.(http://www.ebi.ac.uk/~zerbino/velvet/)
 10. Newbler : 454 bundle program
 11. Birol I, Jackman SD, Nielsen CB, Qian JQ, Varhol R, Stazyk G, Morin RD, Zhao Y, Hirst M, Schein JE, Horsman DE, Connors JM, Gascoyne RD, Marra MA, Jones SJ. (2009) De novo transcriptome assembly with ABySS. Bioinformatics. 21, 2872-2877
 12. White paper on de novo assembly in CLC NGS Cell 3.0 beta (www.clcbio.com)
 13. Andreas T., Eva T., Thomas B., Alexander G., Ulrike L. and Alfred P. Ultrafast de novo sequencing of the human pathogen Corynebacterium urealyticum with the Genome Sequencer System (http://www.454.com/downloads/protocols/Whole_Genome_Sequencing_And_Assembly.pdf)
 14. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 15. Kent WJ. (2002) BLAT--the BLAST-like alignment tool. Genome Res. 4, 656-664.
 16. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 17. Langmead B, Trapnell C, Pop M, Salzburg SL. (2009) Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 3, R25
 18. Jiang H, Wong WH. (2008) SeqMap: mapping massive amount of oligonucleotides to the genome. Bioinformatics. 20, 395-396.










                         

Posted by 人Co

2010/02/12 08:54 2010/02/12 08:54
, , , , , , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/37

연재 순서

  1. Assembly
   2. Variation study
   3. Expression study
   4. Epigenomics
   5. Genome Annotation
   6. Next Generation Bioinformatics
   7. Data Management for web 2.0 Era
   8. Semantic Network for Integrated Biology Data
   9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis

Quipu Issue Paper 기술 소식지 첫 번째 연재로 NGS Assembly 중에 Reference assenbly에 대해 알아보도록 하겟습니다.

1. Next Generation Sequencing?



 1-2. Assembly


 Next Generation Sequencing(NGS)으로 인한 무제한적인 서열 데이터 생산은 이후 생물정보학적 분석의 가장 큰 도전 과제가 되었다. 일차적으로 많은 양의 데이터 관리부터 분석과정 마다의 computing 속도가 문제로 제기 되었다. 그중 가장 첫 번째 단계가assembly이다. NGS 서열의 assembly는 그 목적에 따라 크게 reference assembly와 de novo assembly로 구분 지어진다. Reference assembly의 경우 variation 및 epigenetics 연구에 주로 이용되고 de novo assembly의 경우 기존의 genome project에서 진행하던 whole genome sequencing에 이용되고 있다. 세부적인 내용을 다음에서 알아보자.


  1-2-1. Reference assembly


 Re-sequencing을 통한 기존의 reference 서열과의 비교로 유전체 상의 variation 연구를 목적으로 진행하는 시퀀싱은 주로 single reads를 얻는 시퀀싱 보다는 paired-end 시퀀싱이 수행된다. 그 이유는 다양한 질병 관련 유전자의 SNP 및 CNV 분석을 위해서는 single reads 보다는 paired-end reads가 더 유용하기 때문이며, 이들 데이터는 앞서 언급한 다양한 플랫폼에서 생산되고 있다. 이렇게 생산된 NGS 데이터를 분석할 수 있는 프로그램은 오픈 소스로 제공 되는 것과 그렇지 않은 것들로 여러 개가 존재한다. 그 중 오픈 소스로 제공하는 SOAP[1], MAQ[2] 그리고 ZOOM[3]은 paired-end short read에 최적화 되어 있고, Newbler는 long reads인 454 reads에 최적화 되어 있다. 이렇게 대부분 특정 NGS 플랫폼에서 생산된 데이터만을 다룰 수 있도록 고정화되어 있는 것에 반해 CLC bio사의 CLC NGS Cell[4]은 언급된 모든 플랫폼의 데이터를 분석할 수 있는 장점이 있다[14]. 이들 프로그램에 대하여 좀 더 자세히 알아보자.

 NGS assembly 프로그램을 평가하는데 있어 가장 큰 이슈는 분석 속도와 결과의 정확성, 그리고 그 외 분석의 용이성을 들 수 있다. 이들에 대한 비교 분석을 위해 표 1에서 보여 지는 paired-end의 short reads을 대상으로 여러 가지 분석을 수행하였다. 이러한 분석은 64-bit Xeon E5420 CPUs에 32 GB memory system에서 수행되었다[1].

사용자 삽입 이미지
첫 번째인 분석 속도에서는 CLC NGS Cell이 가장 빠른 것으로 평가 되었다(표 2)[5].
SIMD 기술을 이용한 병렬 데이터 처리로 속도 면에서 월등히 높은 성능을 나타내었다. 그 외 SOAP의 경우 reference 서열을 2-bit로 전환하여 index 파일을 이용한 연산 처리로 좋은 결과를 보이고 있다(2009.11 현재 SOAP의 경우 업그레이드를 통해 분석 속도가 많이 향상 되었다).

사용자 삽입 이미지
  특히, Maq의 경우 Illumina와 SOLiD의 paired-end reads를 대상으로 human 유전체에 맵핑할 경우 CPU time으로 10 시간 동안 백만 개 paired-end reads를 assembly 할 수 있다고 밝혔다[2]. 같은 시험을 위해 자체적으로 SOLiD reads를 대상으로 CLC NGS Cell을 이용하여 분석했을 때 CPU time으로 5시간 28분에 분석이 완료됨을 확인하였다.  두 번째로 NGS read의 alignment 비율 및 정확성을 살펴보았다. 최근 논문 PLoS ONE에 기재된 ‘Mapping Accuracy of Short Reads from Massively Parallel Sequencing and the Implications for Quantitative expression Profiling’에서는 BLAT[15], SSAHA2[16], Bowtie[17], SeqMap[18], MAQ, CLC NGS Cell을 대상으로 다양한 종의 데이터로 프로그램의 정확성을 다각도로 분석한 결과를 발표 하였다[6]. 그 결과 그림 1에서 보여 지는 것과 같이 SSAHA2와 CLC NGS Cell이 높게 평가되었다. 이 중 SSAHA2는 Sanger institute에서 개발된 프로그램으로 현재 SOLiD data를 제외한 모든 플랫폼의 데이터를 분석할 수 있다[7]. 기본적으로 Smith-Waterman alignment를 수행하며 2-bit로 전환하여 정확한 assembly를 수행한다. 그 다음 CLC NGS Cell은 모든 플랫폼의 데이터를 처리함과 동시에 SSAHA2와 같이 안정적으로 reads 길이에 관계없이 정확한 assembly를 수행하고 있다. 또한 특이할만한 점은 yeast, drosophila, arabidopsis 그리고 human을 대상으로 한 다양한 데이터로 short reads와 long reads(>50bp)에 대한 프로그램 성능을 비교 하였음에도 불구하고(MAQ: short read만이 분석 가능), 프로그램별로 일관성 있는 결과를 보여주고 있다는 것이다. 각기 다른 종과 read 길이로 약간의 차이는 보이나 전반적으로 동일한 분석 패턴을 보이고 있어, 이는 곧 데이터의 특성보다는 프로그램별 알고리즘의 차이가 분석 결과에 더 많은 영향을 미치는 것으로 해석된다. 따라서 NGS를 이용한 분석에서 다양한 프로그램을 이용하여 분석 파이프라인을 구축하는 것 보다는 사전에 충분한 테스트를 통해 동일한 알고리즘으로 구성된 프로그램을 이용하는 것이 결과의 안정성과 정확성을 높일 수 있는 하나의 방법이 될 수 있겠다.      

NGS를 이용한 연구에서 특히 re-sequencing을 하는 경우 대부분 유전체 상의 variation 연구를 목적으로 진행된다. 따라서 re-sequencing된 데이터는 기존의 reference 서열과는 다른 variation을 가지는 특성이 있으므로 이를 고려한 assembly 알고리즘이 필요하다.


사용자 삽입 이미지

그림 1. 프로그램별 다양한 데이터 셑으로 구성된 reference assembly 시험 결과. 회색바는 alignment 된 비율, 붉은색바는 부정확한 alignment를 각각 나타낸다

사용자 삽입 이미지

그림 2. Reads의 다양한 mutation 비율에 따른 mapping의 정확성 시험. Drosophila genome과 transcripts를 reference로 하여 reads의 mutation 비율을 각각 3%, 6%, 9%로 조정하여 mappping을 수행. 회색바는 alignment된 reads의 비율을 의미하며 붉은색 바는 부정확하게 alignment된 비율을 나타낸다.

그림 2에서는 각 프로그램별 variation을 고려한 assembly 결과를 보여주고 있다[6]. Drosophila의 transcripts와 유전체 서열을 각각 reference로 하고 mutation 비율이 각기 다른 NGS reads를 맵핑하여 프로그램의 정확성을 확인 하였다. 이도 역시 CLC NGS Cell과 SSAHA2가 가장 우수한 결과를 보이고 있다. 그러나 CLC NGS Cell의 경우 mutation 비율에 상관없이 안정적인 정확성을 보이고 있는 반면, SSAHA2는 mutation 비율이 커짐에 따라 정확성이 떨어지는 문제점을 들어내고 있다. 따라서 SSAHA2를 이용할 경우 사전에 데이터의 특성을 미리 파악하여 적절히 이용하는 것이 좋을 듯하다.

마지막으로 분석의 용이성을 여러 가지 측면으로 살펴보았다. NGS 분석을 목적으로 개발된 MAQ, SOAP, 그리고 CLC NGS Cell은 모두 웹에서 다운로드가 가능하다. 이 중 CLC NGS Cell은 압축만 해제하면 바로 실행할 수 있는 바이너리 파일을 제공하고 있고, SOAP과 MAQ은 각각 압축 해제 후 compile을 통해 쉽게 설치가 가능하다.

이 후 분석에 필요한 입력 데이터 형식은 CLC NGS Cell이 가장 호환성이 좋아 FASTA, FASTQ, csfasta(SOLiD), Scarf, Sff의 모든 형식의 파일을 입력 받을 수 있었으며 SOAP과 MAQ은 각각 프로그램에 맞는 형식이 따로 존재하여, 이들 형식으로 전환할 수 있는 프로그램을 따로 제공하고 있는 실정이다. 이때 paired-end reads의 경우 분석 결과의 신뢰성과 정확성을 높이기 위해 assembly 수행 전에 서열이 쌍으로 존재하는지 여부를 체크하게 되는데, 이를 점검할 수 있는 프로그램을 CLC NGS Cell과 MAQ은 제공하고 있다. 이는 분석자에게 NGS reads의 전처리 과정을 수월하게 진행할 수 있게 하는 편의성도 고려된 것이다.

Reference 서열 또한 CLC NGS Cell은 FASTA 형식과 genbank 형식의 파일을 바로 입력 받을 수 있는 장점을 가지고 있으며, 나머지 프로그램은 각각의 형식으로 전환할 프로그램을 제공하여 한 번의 분석 단계를 더 수행하도록 되어있다. 그 외 분석에 필요한 옵션사항은 약간의 차이를 보일뿐 큰 차이는 없었으나, 다음 분석을 위한 assembly 결과 파일의 데이터 호환성에서는 CLC NGS Cell과 MAQ이 SOAP보다는 우위를 나타내었다. 마지막으로 NGS 분석 프로그램에서 중요하게 체크해야 할 사항 중에 하나는 assembly 과정을 나눠 진행하고 이후에 결과를 하나로 합쳐 볼 수 있는 기능이 있는지를 살펴보는 것이다.

제한된 computing power로 이처럼 큰 사이즈의 유전체 서열과 NGS reads를 분석해야 하므로 한 번에 데이터를 분석 한다는 것은 매우 어려운 일이다. 따라서 가능한 분산 처리로 데이터를 나눠 분석하고 이들을 통합할 수 있는 기능이 있어야만 한다. 다행히 이러한 기능은 CLC NGS Cell(join_assemblies)과 MAQ(mapmerge)에서 제공을 하고 있었다. 이들 각각의 특징은 표 3에서 자세히 확인할 수 있다.

사용자 삽입 이미지

다음 연재에서는 Reference assembly에 이어서 NGS Assembly 중에 de novo assembly에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.


참고문헌


 1. Li R, Li Y, Kristiansen K, Wang J. (2008) SOAP: short oligonucleotide alignment program. Bioinformatics 24, 713–714 (http://soap.genomics.org.cn/index.html)
 2. Li H, Ruan J, Durbin R. (2008) Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res 18, 1851–1858 (http://maq.sourceforge.net/index.shtml)
 3. Lin H, Zhang Z, Zhang MQ, Ma B, Li M. (2008) ZOOM! Zillions of oligos mapped. Bioinformatics 24, 2431–2437 (http://www.bioinfor.com)
 4. CLC NGS Cell : http://www.clcbio.com
 5. White paper on reference assembly on the CLC NGS Cell 2.0 (www.clcbio.com)
 6. Palmieri N, Schlötterer C. (2009) Mapping accuracy of short reads from massively parallel sequencing and the implications for quantitative expression profiling. PLoS One. 28, 4(7):e6323.
 7. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 8. Roche 454 : http://www.454.com/
 9. Zerbino DR, Birney E. (2008) Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res 18, 821–829.(http://www.ebi.ac.uk/~zerbino/velvet/)
 10. Newbler : 454 bundle program
 11. Birol I, Jackman SD, Nielsen CB, Qian JQ, Varhol R, Stazyk G, Morin RD, Zhao Y, Hirst M, Schein JE, Horsman DE, Connors JM, Gascoyne RD, Marra MA, Jones SJ. (2009) De novo transcriptome assembly with ABySS. Bioinformatics. 21, 2872-2877
 12. White paper on de novo assembly in CLC NGS Cell 3.0 beta (www.clcbio.com)
 13. Andreas T., Eva T., Thomas B., Alexander G., Ulrike L. and Alfred P. Ultrafast de novo sequencing of the human pathogen Corynebacterium urealyticum with the Genome Sequencer System (http://www.454.com/downloads/protocols/Whole_Genome_Sequencing_And_Assembly.pdf)
 14. Horner DS, Pavesi G, Castrignanò T, De Meo PD, Liuni S, Sammeth M, Picardi E, Pesole G. (2009) Bioinformatics approaches for genomics and post genomics applications of next-generation sequencing. Brief Bioinform. [Epub ahead of print]
 15. Kent WJ. (2002) BLAT--the BLAST-like alignment tool. Genome Res. 4, 656-664.
 16. Ning Z, Cox AJ, Mullikin JC. (2001) SSAHA: a fast search method for large DNA databases. Genome Res. 10, 1725-1729.
 17. Langmead B, Trapnell C, Pop M, Salzburg SL. (2009) Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 3, R25
 18. Jiang H, Wong WH. (2008) SeqMap: mapping massive amount of oligonucleotides to the genome. Bioinformatics. 20, 395-396.



Posted by 人Co

2010/02/09 11:17 2010/02/09 11:17
, , , , , , , , , ,
Response
No Trackback , 1 Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/36

사용자 삽입 이미지
안녕하십니까?

생물정보 컨설팅 전문기업 (주)인실리코젠입니다.
저희 (주)인실리코젠 Codes팀은 최신 생물정보학관련 연구 동향에 대한 기술 소식지(Quipu Issue Paper)를 발간하고 있습니다. Frederick Sanger에 의해서 시퀀싱 기술이 개발된 이후 오랜 기간 동안 많은 종의 유전정보가 밝혀져 왔습니다. Human Genome Project가 완성되었으며, 아직도 수많은 동물, 식물, 미생물에 대한 시퀀싱이 전 세계에 걸쳐 진행되고 있습니다. 최근에는 생산성을 획기적으로 개선한 Next Generation Sequencing (NGS) 기술이 개발되어 기존에 비해 시간과 비용을 비약적으로 줄일 수 있게 되었습니다. NGS 기술은 단순히 시퀀싱의 방법만을 바꿔놓은 것이 아니라 유전체 연구의 새로운 토대를 만들어가고 있습니다. 하지만 아직도 NGS 기술이 기존의 분석 방법에서 어떠한 변화를 가져오는 것인지, 어떠한 분석 전략이 필요한 것인지 궁금해하는 연구자분들도 많은 것이라 생각됩니다. 'NGS 시대의 분석 전략 2'라는 제목으로 발간된 Quipu Issue Paper 2호에서는 앞서 말씀드린 NGS에 대한 기본적인 이해를 도울 수 있도록 다양한 변화를 습득하고 하고 계시는 연구에 조금이나마 도움이 되기를 바랍니다. 앞으로도 생물정보 분야에서 끊임없이 노력하는 기업이 되겠습니다.

기술 소식지 연재는 블로그를 통해 2월 8일부터 시작되어 약 9주에 걸쳐 진행될 예정입니다. 연재 순서는 아래와 같습니다.

많은 관심 부탁드립니다.
감사합니다.

연재 순서

  1. Assembly
  2. Variation study
  3. Expression study
  4. Epigenomics
  5. Genome Annotation
  6. Next Generation Bioinformatics
  7. Data Management for web 2.0 Era
  8. Semantic Network for Integrated Biology Data
  9. Gene Network Discovery by Text-mining
  10. Centralization for High-throughput Data Analysis



(주)인실리코젠 Codes팀
Tel : 031-278-0061 / E-mail : codes@insilicogen.com

Posted by 人Co

2010/02/05 09:18 2010/02/05 09:18
, , , , , ,
Response
No Trackback , 1 Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/35

지난 1월 20일~21일, (주)인실리코젠 Codes팀 모두는 강원도 용평리조트에서 열린 2010 한국유전체학회 제6회 동계심포지움에 다녀왔습니다. 출발전 약간의 에피소드와 한겨울의 뜻하지 않은 짙은 안개로 인해 학회장까지의 이동은 그리 녹녹치는 않았습니다.

시간에 맞춰 도착한 학회장은 궂은 날씨에도 불구하고 작년보다 두 배가 넘는 연구자분들로 학회장 분위기가 뜨거웠고, 유전체학에 대한 열정은 그 어느때보다도 대단했습니다. 이번 동계심포지움은 'Challenges in Translation on Omics Technology'라는 주제로 진행되었고, High-throughput technology 와 Bioinformatics 최신 기술에 대한 소식 및 정보들을 많이 얻을 수 있었던 자리였습니다.

우리 Codes팀은 이번 학회를 통해 최신 생물정보학관련 연구동향 기술 소식지인 "Quipu Issue Paper"를 발간하여 연구자분들께 전달하였습니다. "NGS 시대의 분석전략"이라는 주제의 소식지는 NGS에 대한 최근 이슈를 조사하여 NGS에 대한 이해를 도울 수 있도록 시퀀싱부터 분석법과 생물정보 분석전략 등을 정리한 것입니다.

사용자 삽입 이미지
학회측의 도움으로 300부의 Quipu Issue Paper는 등록 테이블에서 급속도로 줄어들었고, 학회 시간 중에 또는 coffee break 시간에 틈틈히 검토하면서 NGS 자료에 관심을 느끼시는 연구자분들을 보면서 예상했던 것 보다 좋은 반응에 더욱 뿌듯함을 느꼈습니다. 이렇게 배포된 "NGS 분석 전략" 소식지를 통해서 생물학자들이 NGS 시대에 다양한 변화를 빨리 습득하고 연구에 조금이나마 도움이 되기를 바라면서 블로그를 통해서도 곧 연재할 예정입니다.

Codes팀 워크샵을 겸한 이번 학회 첫째날, 우여곡절 끝에 모두 모인 Codes팀은 숙소에서 오랫만에 모여 앉아 이런저런 이야기들로 웃음꽃이 피었고, 아이폰 게임으로 한바탕 놀라기도 하면서 따뜻한 시간을 보냈습니다. 대부분의 구성원이 오랜시간 같이 봐온 사이여서 그런지 추억도 많고, 할 얘기도 많았는데 "열정"이 있는 팀이란걸 다시 한번 느끼게 됐고 "사람이 좋은 회사" 라는 것을 말하지 않아도 느낄수 있는 좋은 시간이였습니다. 그러고 보니 어느새 줄기차게 내리던 비가 함박눈으로 바뀌어 온 세상이 하얗게 변하였습니다. 덕분에 이튿날 학회 일정이 없던 오전 시간을 이용하여 겨울 스포츠의 짜릿한 스릴을 맛 볼 수 있었고, 특히 스노우 보드에 초보인 팀원들은 조관희 차장님의 속성 강습으로 모두 함께 스노우 보드를 즐길 수 있었습니다.

사용자 삽입 이미지
사우나로 노곤한 피로를 풀고 다시 찾은 학회장에서는 특히 주요 NGS 플랫폼(Roche - 454, Illumina - Genome Analyzer, Applied Biosystem - SOLiD)에 대한 발표가 각 섹션별로 포함되어 있었으며, 각 플랫폼별로 새로운 시스템의 런칭 소식을 발표하였습니다.  Genome Analyzer의 경우 GAIIx와 HiSeq 2000을 런칭하여 한 번의 run으로 더욱 많은 양의 데이터를 얻을 수 있게 되었으며, Roche의 경우는 소규모 NGS 연구를 지원하기 위한 GS Junior 시스템을 소개하였습니다.  또한 3rd Next generation sequencer로 Helicos와 Pacific Biosciences가 소개됨으로서 NGS 시장의 빠른 발전과 높은 관심을 실감하였습니다.

비록 이틀 간의 짧은 시간이었지만 팀원 전원이 참석함으로써 현재 NGS 시장의 연구동향을 파악하여 함께 공감하고 공유할 수 있었던 뜻깊은 경험이었고, 이와 더불어 새로 두텁게 다진 팀웍과 생물정보에 대한 열정으로 더욱 노력하여 생명과학 전반에 걸친 생물정보 컨설팅 문화를 선도할 수 있는 (주)인실리코젠의 Codes팀이 되도록 하겠습니다.

(주)인실리코젠 Codes팀
Tel : 031-278-0061 / E-mail : codes@insilicogen.com

Posted by 人Co

2010/02/02 20:00 2010/02/02 20:00
, ,
Response
No Trackback , 3 Comments
RSS :
https://post-blog.insilicogen.com/blog/rss/response/34

Django는 파이썬 웹 프레임워크로써 웹 개발을 편리하게 하기 위한 종합적인 환경을 제공한다. 편리한 웹 개발을 위해 제공되는 것들 가운데에는 객체관계매핑, 유연한 웹 템플릿 활용 등 다양한 것들이 있지만, 가장 중요한 특징은 바로 객체관계매핑이다. 본 포스팅은 초보 웹개발자를 위해 Django 에서는 어떻게 데이터베이스를 사용하고, 이를 객체로 연결하여 활용하는 가를 설명한다.

Database --> SQL in source code

일 반적인 테이터베이스 어플리케이션은 보통 위 다이어그램 처럼 직접 데이터베이스 질의언어(SQL)을 어플리케이션 소스코드에서 직접 조작하는 방식으로 구성된다. 데이터베이스의 특정 테이블의 내용을 추출하기 위해서는 SQL "select" 구문을 직접 문자열로 조작하여 데이터베이스 연결 커서에 질의를 수행한다. 잘 알고 있는 내용이지만, 새로운 레코드를 삽입할 경우에는 "insert", 기존 레코드를 수정할 경우에는 "update", 삭제할 경우에는 "delete" 구문을 사용한다. 이들 역시 SQL 구문을 문자열로 조작하여 데이터베이스를 조작하게 된다.

Database --> Django ORM --> Object in source code

Django 는 위 다이어그램 처럼 데이터베이스의 내용을 객체로 변환하는 ORM(Object Relation Mapper)를 중간에 갖고 있어서, 어플리케이션 소스코드에서 직접 객체를 조작할 수 있도록 구성되어 있다. 개발자는 데이터베이스를 조작하는데 SQL을 사용하지 않고 직접 객체를 사용할 수 있다.

Django에서 데이터베이스의 관계(Relation)를 객체(Object)로 바꿀 때의 수준 및 용어는 다음과 같다.

Relation

Object

비고

Database

Project (Application)

하나의 프로젝트는 여러개의 App로 구성된다. 이들은 모두 하나의 database 를 사용한다.

Table

Model

클래스 개념

Record

Object

객체 개념

Column

Attribute

.

이러한 방식으로 각각의 SQL 구문은 다음처럼 객체지향 프로그래밍이 가능한다.

1. SELECT --> Est.objects.all()
--> Est.objects.filter(id__contains='1')
--> exclude, get, count,...
1. INSERT --> Est.objects.create(name='a',...)
1. UPDATE --> est = Est.objects.get(id=1)
est.name = b; est.save()
1. DELETE --> est.delete()

기 존의 어플리케이션 작성시 반복적으로 나타나는 SQL 구문의 패턴을 수정하는 일은 많은 중복과 함께 관리가 귀찮은 면이 있으나, 객체로 활용하면 보다 직관적이고 관리가 용이한 형태의 개발이 가능하다. 이밖에도 다음과 같은 장점이 있다.

  1. RDBMS independant (Oracle, MySQL, PostgreSQL, Sqlite) : Django 에 구현된 각 RDBMS 별 wrapper 를 통해 RDBMS 의 종류가 어떤것인가에 상관없이 만들 수 있다. 개발 용 PC에서는 가벼운 sqlite 를 사용하고, 실제 서비스에서는 Oracle 로 사용하는데 소스코드의 수정이 거의 필요없다. (물론 테스트를 통해 검토해 볼 필요는 있음)
  2. 직관적인 객체지향 프로그래밍 : 다양한 웹 프레임워크 및 웹 관련 라이브러리에서 객체관계매핑이 구현되어 있으나, Django 는 가장 직관적이고 활용이 용이한 방식을 제공한다.
  3. 기존의 DB 기반 구성을 객체 기반 구성으로 확장하여, 컴포넌트를 조합하는 방식의 개발이 가능하다.

대 신 단점도 있다. 복잡한 SQL 질의인 경우, ORM에서는 성능이 낮을 수 있다. : ORM 에서는 SQL 구문의 생성을 추상화하여 구현하였으므로, 복잡한 쿼리의 경우 비 효율적으로 SQL 구문이 생성될 수 있다. 또한 불필요한 질의를 자주 수행함으로써 성능이 낮아질 수 있다. 하지만 Django에서는 이러한 경우를 위해 사용자가 직접 SQL문을 만들 수 있는 기능을 제공하고 있으며, 오픈소스 커뮤니티를 통해 지속적으로 성능이 개선되고 있으므로 그다지 문제가 되지 않는다.

여 러개의 RDBMS를 지원함으로써, RDBMS 간의 마이그레이션이 용이하다는 장점도 있다. Django 에서 현재 데이터베이스의 내용을 덤프받고, 새로운 설정에서 로드하기만 하면된다. 아래 소스코드는 이전 대상 모델들의 데이터를 JSON 형식으로 덤프받고 새 환경에서 로드하는 내용을 보여준다.

from django.core.serializers import serialize
result = []
models = (User, ...) # 이전대상 모델들
for model in models:
result.extend(model.objects.all())
print serialize('json', result)

뒤 코드를 backup.py 로 저장한뒤,

./backup.py > ../fixtures/initial_data.json

로 덤프받고, 새로운 환경에서

./manage.py syncdb

만 수행하면 마이그레이션이 완료된다.

Django 데이터 객체를 이용하여 데이터베이스를 검색하는 방법은 다음과 같다. 만일 Est 라는 모델이 있고, 속성이 name, identifier, sequence, data 가 있다면,

Est.objects.all() # 모든 EST 객체
Est.objects.filter(sequence__startswith='ATG') # sequence 속성이 ATG 로 시작하는 객체
Est.objects.filter( # 필터를 체인으로 연결
name__endswith='Etc.',
).exclude(
date__gte=datatime(2005,1,1),
).filter(
sequence__icontains('AGAGAG'),
)

q = Est.objects.filter(sequence__startswith='ATG')[:10] # queryset are lazy
print q
Est.objects.filter(amodel__bmodel__cmodel__name__startswith='abc') # field lookups related models

마지막 예제에서 처럼 1:다 혹은 다:1, 다:다 로 연결된 모델의 속성에 ''로 연결하여 연결(join) 검색을 수행할 수 있다는 점은 복잡한 관계에서의 편리한 데이터 검색을 가능하게 한다.

이 와 같은 연결된 모델 검색의 경우 다음의 경우가 다르다는 점을 주의해야 한다. 예를 들어 네이버같은 곳에서 여러개의 블로그를 운영하고 각 블로그에 여러 엔트리(글)이 있다고 가정한 뒤(블로그:엔트리 1:다), 특정 글을 갖고 있는 블로그를 두가지 조건으로 검색하는 방법은 다음의 두가지가 있다.

1. Blog.objects.filter(entry__headline__contains='Lennon',
entry__pub_data__year=2009)
2. Blog.objects.filter(entry__headline__contains='Lennon').filter(
entry__pub_data__year=2009)

1번의 방법은 두 조건을 동시에 만족하는 엔트리를 갖는 블로그를 찾지만, 2번의 방법은 첫번째 조건을 만족하는 엔트리를 갖는 블로그 목록에서 다시 두번째 조건을 찾는다.

위 기능들 이외에도, 버전 1.1 이후부터, 효과적인 검색을 위한 다음의 기능을 지원한다.

  1. F() object
  2. annotate()
  3. aggregate()

다음시간에 이 이상의 기능들에 대해 알아본다.

Posted by 人Co

2010/01/15 11:19 2010/01/15 11:19
, ,
Response
No Trackback , 1 Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/33

사용자 삽입 이미지
[모집분야]
1. Designer 경력 0명
2. Web publisher 신입 또는 경력 0명
3. Developer 신입 또는 경력 0명

[제출 서류]

1. 이력서 및 자기소개서 : 당사양식 작성 후 제출 (파일명 : 이름_이력서.doc),
   자기소개서 내용
   1) 인실리코젠에서 하고 싶은 일
   2) 이 분야를 선택한 이유와 미래의 꿈
   3) 포트폴리오 파일 또는 URL(프로젝트의 참여율 및 역할 기재) : 필수
   4) 수행프로젝트 기재 : 필수

[제출 방법]
아래의 입사지원서를 다운로드 받아, 내용을 작성하고, recruit@insilicogen.com 으로 파일 첨부하여 메일을 보내주시기 바랍니다. 자신만의 포트폴리오를 별도의 파일로 작성 후 첨부할 수 있습니다.

1. 이력서 및 자기소개서 작성 후 제목 : 이름_이력서.doc

2. 메일 제목 : 제출할 서류를 "[모집분야] 홍길동 지원" 제목으로 메일을 보내주세요.
3. 이력서 상단에 희망연봉기재요망.

[채용 절차]
1. 1차 서류마감 - 2009년 12월 11일 금요일
2. 1차 서류전형 합격자에 한해 면접요청통보
3. 2차 실무담당자 및 임원 면접 (12/16 수요일 예정)

[근무환경]
1. 주5일 근무(08~17시)
2. 4대 보험
3. 퇴직금 별도
4. 성과급
5. 경조사휴가및지원

[우대사항]
1. 장기근속경력자 (2년이상) : 함깨 성실하게 가실분
2. 영어회화가능자
3. 정보처리기사자격증 소지자

[기타]
1. 제출한 서류는 일체 반환하지 않음.
2. 합격시 수일내에 출근가능하신 분.
3. 기본적인 예절 있으신분.
4. 상기내용 숙지 후 이력서 제출요망.

Posted by 人Co

2009/12/02 09:16 2009/12/02 09:16
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/32

인실리코젠 창립기념일

지난 10월 1일은 저희 (주)인실리코젠의 창립기념일이었습니다. 2004년에 설립된 인실리코젠은 올해로 5번째 생일을 맞이하였습니다. 회사 식구들이 모두 모인 자리에서 창립기념일을 기념하는 행사가 진행되었습니다. 10월 1일 목요일의 5주년 행사에서는 어떤 일이 있었는지 지금부터 그 생생한 현장속으로 ~ 고고고!!!

우선 행사는 10월의 독서경영으로 시작되었습니다. 10월은 책을 읽는 독서경영 대신 11곡의 클래식을 감상하고 자신의 에세이를 함께 이야기하는 시간을 가졌습니다. 분위기 좋은 클래식이 흘러나오고 처음 기대와는 다르게 다들 즐겁게 이야기 나누는 모습입니다

사용자 삽입 이미지
클래식 감상을 마치고 창립 5주년을 축하하기 위해 회사의 모든 직원들이 생일축하 노래를 부르고 생일케잌에 촛불을 껐습니다.
"생일축하합니다. 생일축하합니다. 사랑하는~ 인실리코젠 생일축하합니다♬"
사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지

Posted by 人Co

2009/10/09 16:53 2009/10/09 16:53
Response
No Trackback , 1 Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/31

지난 2일 국립수의과학검역원 동물위생연구동의 세미나실에서 올해 시범사업인 ‘바이러스 유전자 변이감시 프로그램’의 설명회가 있었습니다.

바이러스 유전자 변이감시 프로그램은 이미 e축산뉴스, 디지털타임즈, 축산경제신문 등의 언론보도가 있었고, 돼지인플루엔자 바이러스(SI)의 유전자 변이 및 신종 바이러스 유입 등의 정보를 체계적으로 감시하여 사전에 예측할 수 있는 유전자 분석 체계로서 지난 7월부터 경기 등 4개 시,도 방역기관에 시범적으로 시작되었습니다.

이번 설명회는 당사에서 구축한 시스템을 시연하는 자리로서 국립수의과학검역원 바이러스과, 4개 시,도 축산위생연구소, (주)마크로젠에서 모두 참석해주셨고, 강병철 박사님께서 시스템의 전반적인 설명과 실제 예제를 이용한 데이터 입력 방법, 분석 진행과정, 분석 결과 내용 등에 대한 발표를 진행하셨습니다.

또한 질의 및 답변 시간은 추가적으로 필요한 사항과 앞으로 개선되어야 할 점 등에 대한 토론으로 시스템이 한층 더 발전할 수 있는 계기가 될 수 있는 중요한 시간이었습니다.

그 리고 인플루엔자 서열 분석에 사용되어질 CLC Main Workbench 프로그램에 대한 기본적인 기능 및 간단한 시연을 할 수 있는 시간도 마련되었으며, 다른 기관에서도 기본적인 생물정보 분석을 진행해볼 수 있도록 프로그램 설치방법과 라이센스를 제공하였습니다.

아직 시작에 불과하지만 본격적인 분석 파이프라인이 구축되어지고, 더욱 더 전문적인 생물정보 분석을 통하여 현재 유행되고 있는 신종 인플루엔자 바이러스 또한 체계적으로 감시하고 정확하게 예측할 수 있길 기대합니다.

Posted by 人Co

2009/09/16 15:37 2009/09/16 15:37
, , ,
Response
No Trackback , No Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/30

Insilicogen's first PechaKucha night!!

지난 2009년 8월 21과 22일에 걸쳐 대한환경위해성보견과학회 workshop과 관련한 당사 워크샵이 있었고, 여기서 당사에서는 처음으로 PechaKucha를 실시하였습니다. PechaKucha에 관한 자세한 사항은 여기에서 볼수 있습니다. PechaKucha의 원칙적인 Rule은 20장의 슬라이드를 20초씩 발표하는 것이지만, 당사에서는 처음시도되는 것이고, 참석자 전원이 발표를 해야해서 6장 슬라이드에 20초씩 발표 하기로 했습니다.

물 론 첨엔 다들 반신반의 했습니다. 워크샵의 일환으로 기획되었지만, 가서 발표하려면 준비도 해야하고, 일반적인 자료발표와는 달리 20초 안에 한장의 슬라이드에 대한 내용을 압축적으로 설명하고, 그림도 한번보면 척~ 알수 있는 핵심적인 내용으로 잘 꾸며야 했기에 적지 않이 부담이 되었습니다. 주제는 자유주제로 각자 골라서 발표하기로 하고, 발표후 인기투표를 통해서 상위 두사람에게는 상품권도 주기로 했습니다.

페차쿠차 각 팀별 우수작품으로 간추려 보았습니다.

페차쿠차 각 팀별 우수작품으로 간추려 보았습니다.


밤이 되어서, 준비해간 빔프로젝터 대신 커다란 평면TV에 화면이 준비되고, 강대리님의 첫발표를 시작으로 PechaKucha를 시작했습니다. 한분한분 숨겨둔 슬라이드를 들고서 20초씩 설명해가는 와중에 관심어린 눈빛과 탄성을 통해서 인실리코젠의 PechaKucha night은 재미를 더해갔습니다. 발표된 내용들도 다양했습니다. 임천안 실장님은 골프 에티켓과 기본적인 지식등에 대해 알려주셨고, 회사에서 커피를 내리는 태선임은 다양한 커피에 대한 정보를 알려 주셨으며, 조팀장님은 실제 야구공을 들고 투수가 던지는 공의 구질에 대해 발표하셨습니다. 이때 지켜보던 많은 사람들이 조팀장님이 들고 계신공을 돈주고 사고싶어지는 구매욕을 느끼기도 했습니다(조팀장님의 마케팅실력??). 지난 일들에 대한 회고를 정리해서 발표하신분들도 있었습니다. 김경윤씨는 지난 인생의 기록들을 모아서 6장의 슬라이드에 담아주셨고, 강연경대리님은 당사에서일어난 일년간의 일들에 관해서 회고해 주셨고, 디자이너이신 김성진씨는 지난 프로젝트결과물들을 멋진 그림으로 채워서 보여주셨습니다. 박병준대리는 지난일을 회고 하고, 근래에 하고있는 여가활동에 관해 얘기해 주시기도 했습니다. 다소 전문적인 내용을 소재로 발표해주신 분들도 있었는데요, "입자 가속기 LHC와 컴퓨터 과학"이라는 주제로 도저히 2분안에 설명이 불가능한 주제를 간략하고 잼있게 소개해주신 김용일씨가 있었고, 일상적으로 사용하는 컴퓨터키보드중에서 흔히볼 수 없는 독특한 기종들을 모아서 정호진수석 컨설턴트님이 발표해주셨습니다. 박준형팀장님과 김형용팀장님은 각각 "결혼까지의 골인"과 "한국의 프로그래머 성공 스토리" 라는 주제를 가지고, 실질적이며 교훈이 될만한 내용을 알려주셨습니다. 박준형팀장님의 발표내용은 특히나 나이많은 싱글들에게 많은 영향을 주었고, 김형용팀장님은 당사의 개발자들에게 프로그래머로서 성공할 수 있는 대표적인 케이스를 선보이시면서 개발자들이 가야할 길에 대해 제시하셨습니다. 그리고, 파견근무후에 늦게 합류한 분들도 발표를 해주셨는데, 김경의씨는 본인의 사진활동에 대해서 감성어린 자료로 많은 사람들에게 감동을 주었고, 이규열선임은 구글에서 검색되어지고, 보여지는 당사의 내용에 대한 분석자료를 내놓아서 생물정보 컨설턴트로서의 기질을 십분발휘한 멋진 발표를 해주셨고, 신윤희선임은 "따스한 세상 만들기"라는 주제로 전세계 불우한 어린친구들을 구하고, 후원하는 내용을 발표하시고, 참석한 당사 성원들에게 전세계에 평화와 안녕에 힘써달라는 메세지를 전해주셨습니다. 그리고 마지막으로 바쁜일정을 소화하시고, 도착하신 강병철실장님은 우리가 익히 알고 있는 거장들의 잘 알려지지않은 내용을 소재로, 간과할수 있는 그러나 눈여겨 볼 만한 사실을 캐내는 경험을 선사 하셨습니다.

늦게 도착하신 강병철실장님을 제외하고, 인기투표가 있었는데요, 두구두구두구두구....

짜 잔.. 최우수상은 아름다운사진들로 참석자들에게 사진의 미학에 대해 알려주신 김경의씨가 수상했고, 우수상은 전우리군의 어머니이자 틈틈히 어려운 이웃들의 후원에 힘쓰시는 신윤희선임이 수상하셨습니다. 다시한번 축하드립니다. 사실 인기투표에서는 공동일등을 하셨구요. 그리고 마지막으로 바쁜일정을 소화하시고, 도착하신 강병철실장님은 우리가 익히 알고 있는 거장들의 잘 알려지지않은 내용을 소재로, 간과할수 있는 그러나 눈여겨 볼 만한 사실을 캐내는 경험을 선사 하셨습니다.

아울러 투표결과와 상관없이 준비하시고 발표해 주신 모든 분들께 감사드립니다. 특히나 PechaKucha를 제안하시고, 추진하신 김형용팀장님 수고 하셨습니다. 일정이 끝나고 다들 꼼꼼한 준비와 유창한 발표실력에 서로들 몰랐던 새로운 사실을 알아가는 유익한 자리였습니다. 이번 워크샵과 PechaKucha를 통해서 인실리코젠에서는 다시한번 성원들간의 경험을 공유하고, 같이 성장하는 기회가 되었습니다.

모두들 수고하셨습니다.

Posted by 人Co

2009/09/11 17:16 2009/09/11 17:16
, ,
Response
No Trackback , 1 Comment
RSS :
https://post-blog.insilicogen.com/blog/rss/response/29



« Previous : 1 : ... 31 : 32 : 33 : 34 : 35 : 36 : 37 : 38 : Next »