인실리코젠 창립 15주년
- Posted at 2019/10/30 12:48
- Filed under 회사소식
브랜드 위원회 : 김지인
Posted by 人Co
- Tag
- 15주년, Bioinformatics, insilicogen, 세상의 모든 아침, 인실리코젠
- Response
- No Trackback , No Comment
- RSS :
- https://post-blog.insilicogen.com/blog/rss/response/328
Posted by 人Co
MH00089; gi|761546247|ref|YP_009122458.1| 99.06 530 5 0 1 530 1 530 0.0 1045 MH00089; gi|1314948409|ref|YP_009444547.1| 94.70 528 28 0 3 530 1 528 0.0 995 MH00089; gi|1079486692|ref|YP_009307015.1| 94.89 528 27 0 3 530 1 528 0.0 991
종명 확인을 위해서는 NCBI에 GI number (또는 accession)로 검색해보는 수밖에 없는 듯 하여 매우 절망스러웠지요.
실제로 하나 검색에만 최소 클릭 5~6번이 소요되고 10개 넘어가면 웹 크롤링을 해야하는 건지 고민하게 됩니다.
이때 잘 읽은 메뉴얼 하나가 사람을 살립니다.
역시 오랜 역사를 자랑하는 생물정보 산증인 BLAST는 이미 해답을 제시하고 있었던 거죠.
아래와 같이 2단계를 순서대로 수행해 주시면 BLAST 결과에서 종명, taxid (중요), kingdom (계) 정보를 바로 확인할 수 있습니다.
1단계) taxonomy DB 세팅
먼저 nr로부터 계통 정보를 가져올 수 있도록 NCBI에서 제공하는 taxonomy DB를 세팅해 주어야 합니다.
아래와 같이 최신 버전으로 다운로드 후 환경변수에 추가해 주세요.
(이참에 nr DB도 최신 버전으로 변경해주고, 하는 김에 BLAST도 최신화해주는 게 어떨까요?)
참고로 제가 테스트했던 버전은 BLAST+ 2.2.31입니다.
$ wget ftp://ftp.ncbi.nlm.nih.gov/blast/db/taxdb.tar.gz $ tar zxvf taxdb.tar.gz $ export BLASTDB=[download 위치]
2단계) BLAST 실행
BLAST 수행 시 결과 파일의 포맷을 6번, 즉 tabular로 지정하고 format specifiers에 staxids(species taxon id)와 sscinames (species scientific name), sskingdoms (species super kindoms)이 포함되도록 적어줍니다.
$ blastp -query query.faa -db nr -outfmt '6 qseqid sseqid pident evalue staxids sscinames scomnames sskingdoms stitle' -num_threads 20 -out query_vs_nr.table
MH00089; gi|761546247|ref|YP_009122458.1| 99.06 0.0 1610689 Sarocladium implicatum Sarocladium implicatum Eukaryota cytochrome oxidase subunit I (mitochondrion) [Sarocladium implicatum] MH00089; gi|1314948409|ref|YP_009444547.1| 94.70 0.0 29910 Tolypocladium inflatum Tolypocladium inflatum Eukaryota cytochrome c oxidase subunit 1 (mitochondrion) [Tolypocladium inflatum] MH00089; gi|1079486692|ref|YP_009307015.1| 94.89 0.0 71617 Tolypocladium ophioglossoides Tolypocladium ophioglossoides Eukaryota cytochrome oxidase subunit 1 (mitochondrion) [Tolypocladium ophioglossoides]
taxid | scientific name | full lineage 1610689 | Sarocladium implicatum | cellular organisms; Eukaryota; Opisthokonta; Fungi; Dikarya; Ascomycota; saccharomyceta; Pezizomycotina; leotiomyceta; sordariomyceta; Sordariomycetes; Hypocreomycetidae; Hypocreales; Hypocreales incertae sedis; Sarocladium; |
XML은 기본이니깐 꼭 있어야 할 것 같고 파싱하기 귀찮으니 tabular로도 해야 할 것 같고 또 alignment된 거 확인하고 싶으니 pairwise로도 남겨두고 싶을 때 어떻게 해야하는 거죠??
BLAST를 3번 하면 돼요. 하지만 오래 걸린다는 단점이 있어요.
이때 blast_formatter를 사용하시면 됩니다 (작업시간이 1/3로 줄어드는 매직)!!!
몰랐는데 BLAST 설치 디렉토리에 이미 blastp, blastn이랑 같이 자리잡고 있더라구요.
(역시 메뉴얼은 읽으라고 있는 거였어요.)
중요한 점은 처음 BLAST할 때 반드시 asn 포맷으로 출력해 주어야 한다는 것입니다.
$ blastn -db [nt] -query [query] -outfmt 11 -out [output].asn $ blast_formatter -archive [output].asn -outfmt 5 -out [output].asn.xml $ blast_formatter -archive [output].asn -outfmt 6 -out [output].asn.tabular $ blast_formatter -archive [output].asn -outfmt 0 -out [output].asn.pairwise
0 = pairwise, 1 = query-anchored showing identities, 2 = query-anchored no identities, 3 = flat query-anchored, show identities, 4 = flat query-anchored, no identities, 5 = XML Blast output, 6 = tabular, 7 = tabular with comment lines, 8 = Text ASN.1, 9 = Binary ASN.1, 10 = Comma-separated values, 11 = BLAST archive format (ASN.1), 12 = JSON Seqalign output, 13 = JSON Blast output, 14 = XML2 Blast output
Posted by 人Co
Posted by 人Co
Posted by 人Co
Posted by 人Co
반려견의 건강 역시 인간과의 삶에 영향을 미치기 때문에 유전병 여부를 사전에 알 수 있다면, 건강 관리, 교배 계획에 참고할 수 있습니다. 특히, 퇴행성 유전 질환의 경우 발병 전 예방하는 조치를 하거나, 발병 초기에 대응하여 증세가 심해지는 것을 방지할 수 있습니다. 이를 위한 반려견 유전자 검사 서비스가 최근 국내외에 소개되기도 했습니다. 직접 고객에게 제공하는(DTC, direct to customer) 인간 유전자 검사 서비스가 각종 규제로 인해 활성화 어려운 것과 비교하여, 반려견 대상은 규제에서 비교적 자유롭다는 장점이 있긴 하지만, 그렇다고 과학적 합리성에 근거하지 않으면 안 되겠지요.
웹에서 검색해 본 국내외 반려견 유전자 검사 서비스 현황입니다.
이들 서비스는 반려견 유전 질환에 대한 검사와 함께 혈통검사, 품종판별 서비스를 제공하기도 합니다. MyDogDNA의 경우에는 "Puppy search engine" 이라는 온라인 서비스를 통해 유전자 검사 결과와 함께 교배 프로그램으로 원하는 형질을 얻을 수 있는 짝을 추천하기도 합니다. 국제적으로 유명한 사료회사 로얄캐닌(Royal Canin)은 혈통정보, 표현형정보, 유전자 검사 결과를 통합하여 맞춤형 사료를 추천하는 고급 서비스를 제공합니다.
이들 서비스는 유전자 검사를 위한 유전좌위(locus)를 어떻게 정했을까요? 생물종별 유전 질환 데이터베이스를 참고했을 것으로 추정됩니다. 인간을 위한 유전 질환 데이터베이스로 OMIM(Online Mendelian Inheritance in Man) 이 있고, 대표적인 NCBI 데이터베이스 가운데 하나입니다. 유사하게 동물을 위한 데이터베이스로 OMIA(Online Mendelian Inheritance in Animal) 가 있습니다. 135여 개의 동물 종에 대한 유전 질환, 연관된 유전자 혹은 유전좌위 정보를 제공하고 있습니다. 예상했던 것처럼 "Dog"의 정보가 가장 많습니다. 반려견에서 원인 유전변이가 알려진 유전형질 혹은 유전 질환은 2018년 8월 현재 243개입니다.
(동물 유전 질환 정보 데이터베이스인 OMIA 홈페이지 http://omia.org)
반려견의 주요한 유전 질환에 대한 새로운 유전좌위를 찾기 위한 전장유전체 연관분석 (GWAS, Genome-wide association analysis) 연구도 활발합니다. 최근 150품종, 4,224개체, 고관절 이형성증을 포함한 7개 복합 질환에 대한 GWAS 연구 결과가 보고되기도 했습니다 (Jessica et al., Complex disease and phenotype mapping in the domestic dog., Nature Communications 2016).
하지만, 아직은 기반 연구가 많이 부족한 상황입니다. 우리와 가장 가까운 생물 종이며, 친구이고, 가족이기도 한 반려견이 유전 질환으로 고생하지 않고, 건강하게 함께 하기 위해서는 더 많은 유전 질환, 종합적인 데이터 분석 연구 등이 필요합니다. GWAS를 비롯한 다양한 연구로 유전 질환과 연관된 유의한 유전변이를 찾아내면 이를 유전자 검사로 확인하여 반려견 유전 질환 여부를 사전에 알 수 있거나, 교배 프로그램에서 관리할 수 있습니다. 퇴행성 유전 질환의 경우 사전에 예방하거나, 초기에 집중 치료함으로 악화되는 것을 막고 반려견 노후 삶 질을 개선할 수 있습니다. 다양한 연구성과로 반려견과 우리의 건강한 삶에 이바지할 수 있기를 희망합니다.
인실리코젠은 반려동물연구사업단에 참여하여 "반려견 퇴행성 조기진단 바이오마커 개발 연구"를 수행하고 있습니다. 본 블로그를 통해 지속적으로 연구 성과를 소개하고자 합니다. 응원 부탁드립니다.
데이터사이언스센터 센터장 김형용
Posted by 人Co
Posted by 人Co
식품 빅데이터, 그 의미와 가치
우리 생활 모든 정보가 빅데이터이다
최근 온라인 뉴스 기사에 하루도 빠지지 않고 등장하는 용어가 빅데이터이다. 선뜻 보면 빅데이터가 최근에 떠오른 핫한 용어라 생각할 수 있지만 사실 오래전부터 우리는 이미 빅데이터를 생산하고 있었지만, 그것이 보이지 않아 빅데이터라 부르지 않았을 뿐이다. 생활 빅데이터를 예로 들어보자. 우리는 삼시 세끼 밥을 먹고 잠을 자고 운동도 하고 아프면 병원을 가는 이런 일상들을 반복하면서 라이프로그 정보들을 생산하고 있다. 하지만 생산한다고 해서 데이터가 되는 것이 아니고 그걸 기록하고 축적이 되었을 때 비로소 빅데이터라고 말할 수 있다. 다양한 센서기술들이 탑재된 휴대전화기는 우리 생활 데이터들을 빅데이터 화 시키는 일을 가능케 하고 있으며, 이렇게 축적된 빅데이터를 활용한 산업들이 계속해서 진화하고 있다. 이번 포스팅에서는 수많은 생활 데이터 중에서 먹고 사는 것에 관한 식품 빅데이터에 대해 적어보고자 한다.
식품은 어떤 정보와 가치를 가지고 있나?
식품의 맛 정보
기본적으로 우리가 식품정보라 하면 맛과 영양성분 정보들을 들 수 있다. 맛은 굉장히 주관적인 정보이지만 우리가 맛집을 검색할 때 특정 음식점의 음식 맛을 평가한 블로그 정보들을 보고 찾아가는 경우가 많다. 필자도 맛집 탐방을 취미로 하고 있어서 각종 포털의 블로그 정보들을 활용하고 있다. 이렇다 보니, 많은 음식점에서 블로그 마케팅을 내세워 판매수익을 올리기도 한다. 2013년 외식 트렌드 조사에 따르면, 소비자의 대다수(84.2%)는 모바일기기가 보편화된 후로 외식 생활이 변화했다고 생각하고 있는 것으로 나타났다. 응답자의 53.5%는 모바일 기기를 이용하여 방문할 음식점의 맛 정보들을 수집하여 방문하는 것으로 조사되었다(그림1). 외식문화가 변화하면서 스타트업과 대기업을 막론하고 다양한 기업들이 맛집 앱 시장에 문을 두드리고 있다. 대표적인 애플리케이션으로는 포잉, 다이닝코드, 식신, 망고플레이트들이 있으며 누적 다운로드 10만 이상을 기록하는 성과를 거두고 있다. 이처럼 식품의 맛 정보는 주관적인 정보임에도 불구하고 외식 산업적으로 활용가치가 높은 정보라 할 수 있다.
식품의 영양성분 정보에 대해 크게 관심이 있는 일반인들은 드물다. 고작 식품에 강조표시되어 있는 sugar free와 low fat 등의 정보만 가지고 본인의 기호에 맞게 구매하는 정도일 것이다. 하지만 식품을 구성하는 영양성분 정보야말로 건강한 삶을 추구하는 인간에게 근본적인 답을 줄 수 있는 정보이고, 구매자는 식품 영양성분 정보에 대해 알 권리가 있다. 모든 식품에 대해 영양성분을 표시할 필요는 없으나 식약처에서는 식품 영양성분 표시에 대한 기준을 제시하고 식품위생법 시행규칙 제6조 제1항에 따라 영양성분을 표시해야 하는 식품의 종류를 정해놓고 있다. 표시 대상 성분은 열량, 탄수화물, 단백질, 지방, 콜레스테롤, 나트륨, 그 밖에 강조표시를 하고자 하는 영양성분으로 크게 7가지를 표시하도록 되어있다.
국내외적으로 식품의 영양성분 정보는 정부의 식품 데이터베이스에서 제공받을 수 있다. 우리나라의 경우는 식약처에서 구축한 FANTASY DB(http://www.foodsafetykorea.go.kr)에서 확인할 수 있다. 식품별 영양성분 함량과 영양학적 조언 등의 정보들을 포함하고 있으며(그림3), 현재 약 13,713건의 정보가 등록되어 있는 것으로 확인된다.
미국은 USDA DB(https://ndb.nal.usda.gov/ndb)를 만들어 농업과 식품에 대한 정보들을 제공하고 있으며, 유럽의 경우도 EUROFIR DB(http://www.eurofir.org)를 구축하여 유럽 27개국의 식품정보들을 확인할 수 있는 플랫폼을 제공하고 있다. 국가 차원에서 이러한 식품 데이터베이스를 구축하는 이유는 여러 산업과의 연계뿐만 아니라, 신규 사업을 융성하기 위한 취지로 식품정보들을 제공하고 있다. 실제, 미국 기업 중 일부는 USDA DB를 활용하여 헬스케어, 다어어트, 질환 개선을 위한 다양한 애플리케이션을 개발하고 되고 있으며, 대표적으로 HealthWatch 360, CaloryGuard Pro, Nutrition complete 등이 있다.
영양성분 정보가 중요한 이유 중 하나는 대사체 정보를 중심으로 생리활성 정보들과의 연결이 가능하다는 점이다. 예를 들어, 우리나라 전통식품인 김치에 vitamin, carotene, ascorbic acid 등과 같은 성분들이 함유돼 있다고 했을 때, 이러한 정보들을 텍스트마이닝 기법을 활용하여 논문의 생리활성 효능 정보들과 연결하게 되면, 체내에서 식품이 특정 질병에 얼마나 효과적인지를 판단할 수 있는 정보가 될 수 있다(그림4). 이러한 정보들은 건강 기능성 식품 개발에 있어, 건강증진에 도움이 될 수 있는 물질을 효율적으로 탐색하고 선별하는데 활용될 수 있다. 또한, 자신의 질환 감수성에 따라 선별적으로 식품을 섭취할 수 있는 과학적 근거자료를 제시할 수 있다는 점에서 푸드케어 서비스 산업과의 연계가 가능하다.
식품 영양 유전체 정보는 앞으로 유전자와 표현형 그리고 영양성분과의 상관관계가 더욱 과학적으로 규명됨으로써 양질의 정보가 될 것으로 예측하고 있다. 이처럼 축적된 정보들은 건강유지와 질병 예방을 향상할 수 있는 맞춤 의료와 식품 산업을 계속해서 가속하고 있다. 최근 habit이라는 회사는 개인 유전자 검사를 통해 자신에 맞는 식품들을 컨설팅 및 판매하는 서비스를 런칭하였으며 점차 개인 유전자 맞춤화 식품정보를 활용한 헬스케어 서비스들이 증가할 것으로 예측된다.
영양 유전체 정보를 바탕으로 맞춤형 식품 정보를 제공한 국내 사례로는 한국식품연구원과 (주)인실리코젠에서 개발한 비만 인실리코푸드시스템(http://insilicofood.co.kr)을 들 수 있다. 비만 인실리코푸드 시스템은 개인의 표현형 정보(키, 몸무게, 허리둘레, 신체활동, 컨디션등)와 유전자형 정보를 기반으로 맞춤 식품 정보를 제공하는 시스템이다. 특징적인 부분은 목표 몸무게를 설정하면 현재 표현형 정보를 기반으로 이를 달성하기 위한 식단 구성이 가능하다는 점과 개인 유전자형 정보를 입력하면 유전적으로 비만에 얼마나 위험한지 확인하고 유전자형 정보에 맞는 식품 정보를 제공한다는 점이다. 또한, 한국식품연구원 오믹스 연구결과와 식품 정보를 연결시켜 제공해주기 때문에, 과학적 근거기반의 개인 맞춤 식품 정보 시스템 구축 사례라 하겠다.
Reference
R&D 동향, 영양 유전체학의 이해 및 연구동향
Posted by 人Co
• 일시 : 2016년 10월 20일(목)~ 10월 21일(금)
• 장소 : KT인재개발원 1연수관 202호
내용
R의 기본 이론을 확립하고 실습을 통한 생물정보 기초 분석 능력을 습득할 수 있습니다.
(자세한 프로그램 내용은 http://kobicedu.labkm.net 참고)
신청방법
• 신청기간 : 2016년 10월 10일(월) ~ 2016년 10월 12일(수)
• 선발인원 : 30명
• 교육대상 :
1) 분석에 앞서 기초적인 R 초급 교육이 필요한 연구원 및 대학원생 등
2) 모든 교육 일정에 참석이 가능한 교육생 (2일 일정 필수 참석)
• 선발안내 : 2016년 10월 13일(목) ~ 2016년 10월 14일(금)
• 교육비 : 무료 (중식 무료제공)
• 준비물 : 유무선 인터넷이 가능한 개인 노트북
• 신청방법
- 온라인 신청 http://kobicedu.labkm.net
• 문의
- ㈜인실리코젠 (031-278-0061, edu@insilicogen.com)
- 문의게시판 이용 http://kobicedu.labkm.net/labboard/board/QnA
Posted by 人Co
첫 순서인 사장님의 개회사와 추억의 국민체조로 몸과 마음 가짐을 다 잡았습니다. 단합대회 행사는 대중을 압도하는 이상민 주임님께서 맡아 주셨습니다.
두 번째 순서로 백만년 만에 다시 해보는 2인 3각!! 박빙의 랠리 속에서 요놈의 콩은 왜 이리도 미끄러운지... 그릇을 기울여도 보고... 결과는 C팀의 승리~!!
다음 게임인 짝 피구에 앞서 휴식 시간~ 휴식 시간인데... 분명히 휴식 시간인데~!! 경기시간 10분, 거친 남자들, 그들만의 리그가 시작되었습니다!
세 번째 게임, 짝 피구시간! 농구장으로 이동하였습니다. 남자는 공격 No~!! 여자를 보호해야 한다는 사명을 띠고 경기가 진행되었습니다. 관중들의 시선까지 집중시키는 피구왕...이 아닌 피구여왕들의 불꽃 슛~!! 첫 경기는 C, D팀이 공동 1위, A, B팀이 공동 2위로 끝났습니다. 순위를 가르기 위한 人Co 남직원들의 추가 경기가 진행되었습니다. 피구왕들의 치열한 경기 끝에 1, 2위전에서 C팀의 승리~! 3, 4위전은 B팀의 승리로 끝났습니다.
마지막 순서는 기다리고 기다리던 보물찾기 시간~! 人Co인 초유의 탐색전이 시작 되었습니다. 곳곳에서 찾은 이의 만족과 못찾은 이의 시무룩함이 관찰 되었습니다.
마지막은 人Co 가족 모두가 한대 모여 단체사진을 찍음으로써 단합대회 대단원의 막을 내렸습니다~
각자의 친목 활동을 즐겁게 마치고 人Co PLAY의 마지막을 장식할 하이라이트인 저녁 회식! 人Co 가족 모두가 함께 하였습니다. 특히 파견 업무 때문에 단합대회를 함께하지 못했던 분들도 함께 할 수 있어서 더욱 즐거웠습니다. 먼저 신입인턴들의 축하 메시지와 사장님의 거국적인 건배 제의를 통해 기분 좋게 회식이 시작되었습니다.
Posted by 人Co