지금 내가 연구하는 이 분야의 전세계적인 최근 소식은 무엇일까? 현대를 살아가는 연구자라면 늘 갖고 있어야 할 질문 가운데 하나입니다. 누군가 나와 비슷한 연구를 하고 있지는 않을까, 유사한 아이디어들이 등장하지는 않았을까, 늘 안테나를 쫑긋 세우고 고성능 레이더망을 구비하여 세상을 스케닝해야 하겠죠.
여기에 쓸만한 고성능 레이더망이 있습니다. 바로 RSS라는 기술을 이용하는 것입니다. RSS(Really Simple Syndication)란 Web2.0을 이야기할 때, 종종 소개되는 기술가운데 하나로서 뭔가 정보의 단편을 규격화해놓은 포맷입니다. 이 기술을 이용하여, 특정 분야의 최신 현황을 실시간으로 스케닝할 수 있는 레이더망을 구축할 수 있습니다.
RSS가 무엇인가 에 대한 설명은
RSS 등의 문서들을 참고하시고요, 간단히 예를 들어 설명하자면 다음과 같습니다.
내가 가입한 인터넷동호회가 다음에도 있고, 네이버에도 있고, 싸이월드에도 있다고 할 때, 매일 아침 이 모든 사이트의 새로 등록된 글들을 확인하고 싶다고 한다면, 일일이 로그인하고 들어가봐야 할 것입니다. 번거로움을 느낀 나머지, 각 웹사이트의 새글을 자동으로 수집하는 프로그램을 만들어야지라고 생각할 수 있을 것입니다. 물론 프로그래밍을 잘 하신다는 가정이지만요.
하지만, 이 문제의 경우, 프로그래밍을 잘 하더라도 쉽지 않습니다. 각 사이트의 웹페이지에 직접 접근해서 최근 글 부분이 어떻게 생겨먹었는지를 알아야 가져오든 말든 할텐데, 사이트마다 다 HTML 문서가 제각각이지요. 왠만큼 똑똑한 인공지능이 아니라면, 그 웹페이지의 글 구조를 알아차리기 쉽지 않겠죠. (유사한 시도가 있습니다. 기계학습이론을 적용해서
웹페이지에서 자동으로 RSS 만들기를 하기도 하지만 아직 실용화는 안되고 있습니다.)
문제는 형식을 통일하면 된다는 것입니다. 형식에 맞도록 각 사이트에
서 데이터를 주고, 내 프로그램이 그 형식에 맞도록 데이터를 취합하면 되니까요. 여기에 이야기된 그 형식이란 것이 바로 RSS 입니다. 블로그나 뉴스사이트에 가셨을 때 보이는 RSS 라는 마크가 그것을 의미합니다. (오른쪽의 그림처럼 생겼습니다.) 클릭해보면, XML이란 언어로 기술된 포맷에 컨텐츠가 담겨져 있습니다. 이제부터 프로그램은 그 RSS만을 이용하면 데이터의 취합이 훨씬 쉬워집니다. 어느부분이 새글이다, 등록시간은 몇시다라는 형식이 이미 정해져 있으니까요. 그것을 취합하는 프로그램은 이미 많이 있습니다. RSS 리더기라고들 이야기하죠. 웹으로도 제공되고 있고요,
Bloglines나
한RSS 같은 곳이 대표적으로 사용자가 원하는 사이트들의 RSS를 취합하여 새로 등록된 글을 알려주는 서비스를 제공합니다. 이후, 나는 관심있는 사이트의 RSS들만 등록해 놓으면, 이후 자동으로 새글들을 취합하여 제게 보여줍니다.
위 방법으로 RSS리더기에 내 연구분야가 걸려들만한 사이트와 검색키워드들을 등록해 놓으면, RSS리더기가 새로운 정보들을 바로바로 알려줄껍니다. 자, 그러면, 내 연구와 관련된 RSS들은 어떻게 알 수 있을까요? 다음과 같은 방법들이 있습니다.
학술저널의 최신 출판 목록 받기
BaRf(Bioinformatics aggregated RSS feeds)라는 사이트가 있습니다. 어느 일본분이 많든 사이트로 추정되는 곳입니다. 여기는 PubMed의 주요저널별 최근 논문 초록의 목록을 RSS로 변환하여 제공합니다. 이 사이트의 저널목록에서 나의 연구분야를 대표하는 저널들을 선정하여, RSS 등록합니다. 이렇게 하면, 각 저널마다 새로운 논문이 출판되었을 때의 초록을 늘 받아볼 수 있습니다. 보아하니, 옥스퍼드 출판사에서 제공하는 Bioinformatics 저널의 RSS feed 주소는 http://barf.jcowboy.org/bioinformatics.xml 이군요. 이 주소를 복사해서 RSS 리더기에 등록하면 Bioinformatics 저널의 최근 논문들을 그때그때 자동으로 받을 수 있습니다.
위 사이트관리자의 언급에 의하면, 없는 저널의 경우, 메일로 알려주면 등록 추가하겠다고 합니다. 왠만한 생명과학관련 저널들은 다 찾아볼 수 있을 듯 합니다.
네이버 뉴스검색
국내 관련 분야 새소식 역시 중요합니다. 우리나라에 보도되는 대부분의 기사들을 네이버에서 통합제공하고 있지요. 네이버에 방문하여, 생물정보학 키워드로 뉴스를 검색해보면, 우하단에 ''뉴스검색 RSS 보기'' 라는 링크가 있습니다.
이렇게 생겼네요. 이 주소 역시 RSS 리더기에 등록하면, 해당 키워드의 국내소식을 가장 빠르게 알 수 있겠죠. 앞으로, 내 분야 관련 언론보도를 모르고 지나칠 일은 없을겁니다.
구글 블로그검색
블로거들의 정보 역시 빼놓을 수 없죠. 요즘 정말로 유용한 특정 정보들은 블로그에 많이 있습니다. 자기만의 독특한 분야를 자랑하기 좋아하는 블로그들의 취향으로 인해, 전문적이고도 실용적인 정보들을 구할 수 있습니다. 블로그들을 통합해서 검색해 주는 곳은 구글 만한 곳이 없죠. 만일 내가 selenocysteine관련 연구를 하고 있다고 한다면 구글사이트에 방문하여 selenocysteine을 검색어로 입력합니다. 구글검색결과화면의 좌상단을 보면 블로그만 보여주는 링크가 있네요. 클릭해보면 블로그 결과만 보여주고, 이 역시 RSS 가 제공됩니다.
이렇게] 생겼네요. 이 주소를 등록해놓으면, 이후 selenocysteine 관련 연구를 하는 특정 누군가가 블로그에 관련 글을 썼다면, 바로 나도 받아볼 수 있습니다.
구글의 검색능력은 정말이지 탁월해서, 필자의 경우, 필자의 블로그에 썼던 글이 블로그검색 RSS 로 제공되기까지 서너시간밖에 걸리지 않았습니다.
PubMed 에서 특정 키워드가 포함된 최근 논문 목록 받기
아쉽게도 이 부분은 아직 RSS로 제공되지 않고 있습니다. NCBI에서 이미 만들어서 서비스할 줄 알았는데, 아직은 안되고 있네요. (당사에서 서비스해야 겠습니다. PubMed API를 직접 이용할 수도 있고, biopython같은 라이브러리를 써서 만들 수도 있습니다. 논문의 목록을 RSS 형식으로 변환만 하면 됩니다.)
----
이상의 방법들을 이용해서 내 연구분야를 꼭 찝어낼만한 RSS 주소들을 모아모아서 RSS 리더기에 등록해 놓으십시오. 고성능 레이더망을 갖추신겁니다. 위에 언급된 방법들만으로도 자신의 연구분야의 최신현황을 가만히 앉아서 받아볼 수 있습니다. 요즘같은 시대, 왠만한 정보들은 다 인터넷으로 올라오고, 그것들은 구글이니, 네이버니 등등의 검색엔진등에 다 알아서 정리한다죠. 그 최신의 정보들이 자동으로 당신의 모니터로 제공될 것입니다.
Posted by 人Co