책 쓰는 엔지니어

코딩으로 생명공학 연구를 자동화 할 수 있을까? 본문

첨단기술 읽어주는 농부

코딩으로 생명공학 연구를 자동화 할 수 있을까?

halfbottle 2020. 5. 29. 01:32
728x90
반응형

  필자의 깃허브를 둘러보다가 재미있는 레포지토리가 눈에 띄었다. 생명공학 분야에서 Metabolic Pathway Reconstruction이라는 연구분야를 자동화해주는 프로그램이다. 생각난 김에 레포지토리를 좀 둘러봤다. 대학원시절부터 만들었던 자동화 툴이 몇 개 눈에 들어왔다.

 

 

 

 

 

needleworm/nc2

robust optimal control. Contribute to needleworm/nc2 development by creating an account on GitHub.

github.com

 

needleworm/fmm_crawl

Automatic search for Biosynthesis pathway information - needleworm/fmm_crawl

github.com

 

needleworm/fvs

Minimal Feedback Vertex Set Finder. Contribute to needleworm/fvs development by creating an account on GitHub.

github.com

 

needleworm/base_sequence_analysis

Analysis on DNA base sequence to find transcriptable sites. - needleworm/base_sequence_analysis

github.com

  뭐 이 외에 여러가지 사정으로 공개할 수 없는 코드들도 있다만, 일단 공개로 돌려둔 녀석들은 이 정도다. 비공개 처리된 코드 중에서 가장 아끼는 코드는, 환자의 심혈관 CT사진을 읽어와 관상동맥만 따로 표지해 주는 AI다. 인간 전문가가 놓친 혈관을 찾아낸 적도 있는 훌륭한 친구다.
  문득 공개로 돌려둔 코드들을 가볍게 리뷰해 보면서, 생명공학 연구를 코딩으로 어떻게 자동화할 수 있는지에 대해서 가볍게 논의해 보고 싶어졌다. 학술적인 이야기지만 전혀 배경지식이 없는 분들도 이해하실 수 있게 글을 써 보도록 하겠다. 진로를 고민중인 청소년들에게 도움이 되면 특히 더 기분이 좋을 것 같다.


  생명과학 연구에서 가장 중요한 점은 생명체의 복잡성을 이해하는 것이다. 사람은 1만 8천개의 유전자를 가지고 있다. 이 유전자들은 세포의 핵 안에서 RNA라는 형태로 변환되고, 이 RNA는 단백질 형태로 변환된다. 이 단백질들이 화학 반응을 조절한다. 그런데 유전자는 저장된 정보를 그냥 제공하는 것이 아니다. 일부분이 잘려나가기도 하고, 중간에 새로운 정보가 끼어드는 경우도 있다. 벌써부터 복잡하다. 단백질은 또다시 유전자의 발현을 조절한다. 덕분에 A라는 유전자가 활성화되면 B라는 유전자의 발현이 증가하거나 감소하는 등 서로 영향을 주고받는 경우가 많다. 정말 복잡하다. 그래서 우리는 생명체를 복잡계라고 부른다. 복잡한 계(system)라서 복잡계다.  

Simplified Cancer Network

 

  위 그림은 단순화된(Simplified) 암세포 네트워크다. 유전자끼리의 상호작용을 그림으로 그린 것이고, 최대한 단순하게 그린 것이다. 어떤가, 단순하다고 하는데 벌써 복잡하지 않은가? 이렇듯 생명 현상이란 복잡하게 얽혀 있는 요소들의 상호작용으로 일어나는 것이므로 어렵다. 이런 현상을 인정하고 나서야 효율적인 접근을 시작할 수 있다.
  생명체가 복잡하다고 해서 지레 겁을 먹고 연구를 포기해서야 생명의 신비를 밝혀낼 수 없다. 이를 극복하는 방법은 크게 두 가지다.
  첫 번째 방법은 복잡성을 인정하고, 여러가지 생명 현상을 복잡한 상황들이 얽히고 섥혀 만들어 낸 것으로 간주하는 시스템생물학이다. 시스템생물학에서는 생명체를 구성하는 요소들이 어떻게 상호작용 하는지 정보를 수집하여 위 그림과 같은 하나의 복잡계 네트워크 모델을 만들고, 이를 통한 시뮬레이션을 수행하는 등의 방법을 수행한다. 연구 방법 자체가 복잡하지만 암세포를 정상세포로 되돌리는 방법이나 복잡한 생명현상의 작동원리를 밝혀내는 등 임팩트 있는 연구를 할 수 있다는 장점이 있다. 필자 또한 시스템생물학 연구실에서 석사과정을 밟았다. 비록 연구분야는 의료영상처리 AI였지만.
  두 번째 방법은 복잡한 생체현상 중에서 일부에 집중하는 것이다. 예를 들어, C라는 현상을 일으키는 유전자 D를 찾아내 D를 조작해 보는 것이다. 예를 들면 예쁜꼬마선충 이라는 생명체의 알코올 저항성을 높이는 유전자가 있다. 서울대학교 이준호 교수님이 이 유전자를 발견했고, 예쁜꼬마선충에 돌연변이 실험을 실시해 효능을 입증했다. 그런데 이 교수님께서는 이 유전자의 이름을 '주당' 이라고 명명해 국제학계에 발표하셨다. 알코올에 잘 견디니까 주당이라는 이름이 잘 어울리기는 한다.  여튼 이런 식으로 유전자를 돌연변이시켜 어떤 현상이 생기는지 지켜보는 연구가 가장 흔한 방법 중 하나다.
  생명체를 넓은 관점에서 복잡하게 다루든 좁은 관점에서 집중해서 다루든 그 생명체에 대해서 잘 알아야 한다는 사실에는 변함이 없다. 과학자들은 그래서 연구를 시작하기 전에 논문을 열심히 찾아 읽는다. 논문은 주로 구글 학술검색 사이트를 활용한다.
  필자는 아무래도 한글로 된 연구자료는 신용하지 않는다. 상상텃밭에서 부사수를 가르칠 때에도 한글로 된 학술논문은 읽지 말라고 가르쳤다. 왜냐면, 좋은 연구 결과가 나왔다면 다들 Nature나 Cell 같은 좋은 국제학술지에 투고할 테니까.
  과학자들도 자기 연구가 훌륭한지 아닌지 다 알거든. 스스로 훌륭하다고 생각하면 더 많은 사람들로부터 주목받는 자리에 연구를 발표하려고 한다. 과학자는 명예를 먹고 사는 직업이니까. 유명하고 규모가 큰 학술지에 얼마나 많은 논문을 많이 실었는지가 과학자의 역량이고 성과로 평가받는다.
  알츠하이머 병을 연구하고 싶다면 알츠하이머 병에 대해서 잘 알아야 할 것이다. 그러면 알츠하이머 병을 구글 학술검색에서 검색해 보자. 검색 결과는 아래와 같다.

알츠하이머병 검색 결과

  첫 번째 검색 결과의 맨 밑을 보면 '4087회 인용'이라고 적혀 있다. 이 숫자는 다른 과학자가 논문을 한 번 인용할 때마다 1개씩 올라간다. 이를 피인용 회수라고 부른다. 이 논문은 최소한 4000번 이상 다른 과학자들이 인용한 논문으로, 아주 훌륭한 연구결과라는 뜻이다. 보통 유명한 국제학술지일수록 피인용 수가 높게 나온다. 많은 사람들이 읽다 보니까 그런 점도 있고, 좋은 연구 결과만 그런 곳에 실리기 때문이기도 하다. 이래서 필자가 한글로 된 연구결과를 거들떠보지도 않는 것이다.
  여하튼. 학술연구 검색 결과가 998,000개나 있다고 한다. 이걸 다 읽고 있는게 가능할까? 그래서 보통은 유명한 학술지에 실린 최신 논문 몇 편만 읽거나 피인용 수가 많은 논문만 골라서 읽는다. 그런데 이런 식으로 접근하더라도 시간이 굉장히 오래 걸린다. 논문 한 편 읽는데 적은 시간과 노력이 소요되는게 아니기 때문이다.
  그래서 논문에서 정보를 뽑아주는 자동화 기술이 필요하다. 사람 대신 논문을 대량으로 읽고 분석해 주는 기술 말이다. 거창하고 어려워 보인다면 겁먹을 필요가 없다. 카이스트 바이오및뇌공학과에서는 학부 3학년 실험 과목에서 이 프로그램을 제작한다. 전공필수라 빠져나갈 방법 따위는 없다.

BIS301 과목이다

  한 학기에 걸쳐서 제작하는게 아니다. 오후 4시에 실험수업이 시작하는데, 이 때 제작을 시작하고 다 만들면 집에 보내준다. 빠른 팀은 4시간이면 프로그램을 완성해버리고 늦어도 다음날 오전 수업이 시작하기 전에 대부분의 학생들이 프로그램을 완성한다. 이런 기술은 학부생도 하루면 만들 수 있다는 이야기이다.

당시 만들었던 코드의 마지막 부분. 총 181줄이었구나.

  연구에 필요한 자료 수집의 자동화는 이렇게 누구나 손쉽게 달성할 수 있다. 컴퓨터가 모아 준 자료를 기반으로 수상한 유전자를 빠르게 찾을 수 있다. 작동 원리는 의외로 간단하다. PubMed라는 기관이 있다. 미국의 국립생물공학정보센터(National Center for Biotechnology Information, NCBI)에서 운영하는 사이트다. 이 곳에는 생명공학 분야의 논문들이 거의 모두 올라와 있다. 여기서 논문의 제목과 초록(일종의 요약문) 데이터베이스만 추출한 다음, 컴퓨터에게 읽으라고 시키는 것이다.
  컴퓨터는 이 논문들을 순식간에 읽으면서 우리가 관심을 가지는 질병과 관련된 유전자들을 추출한다. 유명한 병일수록 전 세계에서 연구가 많이 되었을 것이다. 과학자들이 하나같이 입을 모아서 '이 유전자가 저 질병과 관련이 있습니다!'라고 보고하는 유전자가 있다면 걔가 정말로 수상한 유전자가 아닐까? 컴퓨터는 이런 유전자를 순식간에 정리해서 목록으로 만들어준다. 상세한 방법은 재미가 없어서 설명을 하지 않을 것인데, 혹시 필요로 하는 분들이 많이 계시다면 따로 코드 리뷰를 해 보겠다.
  자, 이렇게 의심 가는 유전자나 단백질을 추려 냈다면 다음은 그 다음에 거꾸로 그 유전자의 역할이나 상호작용에 대해 검색해 가며 정보를 모을 차례다. 다음 글에서는 남들이 일궈 놓은 연구결과를 손 쉽게 가져다 쓰는 자동화에 대해 다루어 보도록 하겠다.
  참고로 상상텃밭에서는 이 시리즈에서 다룰 모든 기법들을 자유자재로 활용하고 있다. 여기서 공개하지 않을 기법들도 있는데. 컴공이랑 생물 복수전공한 인재는 참 탐나는데. 실력 키워 줄 자신 있는데. 하하.

 

 

치즈케익 스튜디오

아트워크 그룹 치즈케익 스튜디오

cheesecake.quv.kr

 

코딩하는 공익

하루 만에 3만여 명이 본 브런치 화제의 글 〈크롤러를 이용해 우체국 등기우편을 자동으로 정리해 보자〉의 주인공, ‘코딩하는 공익’ 반병현 작가의 첫 에세이. 단숨에 인기를 얻고 좋은 일��

book.naver.com

 

법대로 합시다

이 책은 실생활에 쓰이는 법학지식, 교양 수준의 법학지식, 법이 무엇인지 가볍게 접해 보고자 하는 사람들을 위한 교양서적의 성격을 띠고 있습니다. 경제적 풍요를 위해 재테크에 시간을 투자

book.naver.com

 

실전 민사소송법

이 책은 도서출판 해피로라를 통해 2017년 출간된 ‘실전 민사소송법’의 2판 격에 해당합니다. 2019년 연말까지의 최신판례가 업데이트되었습니다. 이 책은 변호사시험 또는 변리사시험을 준비��

book.naver.com

 

공학자의 지혜묵상

공학자가 지혜를 다루는 성경인 잠언과 전도서를 묵상한 글입니다. 논리와 지성이 신학을 만나 생기는 화학반응을 고스란히 녹여보았습니다.

www.bookk.co.kr

 

728x90
반응형
Comments