생명공학 인공지능 사례 - saengmyeong-gonghag ingongjineung salye

생명공학기술 기반 서비스 산업의 딥러닝

목차 Show

생명공학기술 기반 서비스 산업의 딥러닝
원문정보
간행물 정보
[한국생명공학연구원] AI를 도입한 미생물 바이오센서로 환경 유해물질 탐지한다(20.12.17.)

발행기관 한국경영정보학회 바로가기
간행물 KMIS International Conference 바로가기
통권2018년 경영정보관련 추계학술대회 (2018.11)바로가기
페이지pp.48-48
저자
언어한국어(KOR)
URLhttps://www.earticle.net/Article/A344025

※ 원문제공기관과의 협약에 따라 개인회원에게 무료로 제공됩니다.

원문정보

초록

한국어 생명공학기술(Life-Bio Technology)은 다양한 생체 정보를 계측하고 관리할 수 있는 기술을 지속적으로 개발하고 사용해 왔다. 빅데이터의 근간이라 할 수 있는 여러 기술들이 생명공학기술과 함께 공진화하고 있다는 점은 고무적이다. 한편으로 생명공학기술의 데이터를 바탕으로 한 서비스 개발도 착실히 진행 중이다. 특히 IBM 왓슨(Watson)의 활용 사례가 의료 생명 분야라는 점은 주목되어야 한다. 생명공학 분야의 빅데이터는 대부분의 병원에서 환자들의 병리 정보가 누적되면서 축적된다. 환자들의 유전체 정보 역시 커지고 있으며 데이터 축적의 속도도 점차 빨라지고 있다. 이와 같은 데이터는 정형화된 데이터 베이스에 축적되어 있어 비정형적 데이터를 근간으로 하는 웹의 각종 서비스 영역과는 달리 데이터의 품질이 높은 편이다. 따라서 딥러닝과 같은 계량적 추론 방법, 혹은 머신러닝의 활용 가능성이 높다. 생명공학기술 분야의 데이터 마이닝 기술은 범위가 점차 넓어지고 깊이가 확장되는 모양새다. 최근 딥러닝(Deep Learning) 혹은 다층신경망 구조에 관한 연구 성과들이 축적되고 있어 주목된다. 최근의 혁신적인 딥러닝 연구들은 생명공학 분야의 전통 산업들이 수행해 온 비즈니스 프로세스에 강력한 영향을 미칠 것으로 기대된다. 이미지 인식, 자연어 처리 등을 포함한 광범위한 기술적 대안들은 인공 지능(Artificial Intelligence) 기반 서비스의 탄생과 대중화를 예고하고 있다. 또한 성능 면에 있어서도 괄목할만 하다. 생명공학기술의 빅데이터 축적과 딥러닝 기술의 발전이 교차되면서 탄생하는 서비스 과학의 진화적 발전에 대한 논의가 진행되어야 할 이유는 충분하다. 본 논문을 통해 이 진보의 교차점을 이해하고 앞으로의 방향성을 고민해본다. 또한 딥러닝을 바이오 빅데이터에 적용한 최근의 연구들이 어떻게 극적인 결과들을 가져오고 있는지 알아본다. 마지막으로 이와 같은 연구들이 앞으로 헬스케어 시장에 줄 영향에 대해 살펴본다.

참고문헌

간행물 정보

발행기관

발행기관명 한국경영정보학회 [The Korea Society of Management information Systems]
설립연도1989
분야사회과학>경영학
소개이 학회는 경영정보학의 연구 및 교류를 촉진하고 학문의 발전과 응용에 공헌함을 목적으로 합니다.

간행물

간행물명 KMIS International Conference
간기반년간
수록기간1990~2022
십진분류KDC 325 DDC 658.46

이 권호 내 다른 논문 / KMIS International Conference 2018년 경영정보관련 추계학술대회

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

분류연구·기술작성일2020.12.18작성자 산학협력단 조회수759

[한국생명공학연구원] AI를 도입한 미생물 바이오센서로 환경 유해물질 탐지한다(20.12.17.)

※ 아래 제목을 클릭하시면 전체(원본) 자료를 확인하실 수 있습니다.

○ 제목: AI를 도입한 미생물 바이오센서로 환경 유해물질 탐지한다

○ 자료 출처: [한국생명공학연구원] AI를 도입한 미생물 바이오센서로 환경 유해물질 탐지한다(20.12.17.)

○ 주요 내용
- 국내연구진이 AI와 인공미생물을 결합하여 유해물질을 식별하는 신기술을 개발하였다. 향후 생물공학, 합성생물학, 환경모니터링 분야에서 인공지능 기술의 활용성을 높여가는 계기가 될 것으로 기대된다.

※ 산학협력 동향에 등록되는 게시물은 외부 기관의 발간 자료 탐색을 통해 수집·등록되고 있습니다.

※ 따라서 등록되는 모든 게시물의 저작권은 해당 자료를 발간·등록한 기관에 있으며, 해당 기관의 저작권 정책을 준수하여야 함을 알려드립니다.

생명공학 속의 AI

바야흐로 인공지능(AI)의 시대이다. 모든 과학기술 분야에서는 앞다투어 AI를 외치고 있다. 온라인에는 AI와 관련된 뉴스와 교육자료가 넘쳐나고 있다. 우리 사회가 AI에 관심을 가지게 된 결정적인 사건으로 많은 사람들이 영국 DeepMind 사의 AlphaGo와 이세돌 전 프로바둑 기사와의 대결을 꼽을 것이다. 대학원생 시절부터 컴퓨터 관련 분야인 시스템 생물학 연구를 수행한 필자는 AlphaGo의 등장 이후로 시스템 생물학에 대한 관심도 덩달아 높아졌음을 느낄 수 있었다.
우연히도 필자 연구실의 책꽂이에 BT News 2009년도 가을호 (2009 Vol. 16 No. 2)가 꽂혀 있는 것을 발견하였다 (그림 1). 벌써 10년도 더 지난 이 호의 기획특집은 시스템 생명공학(systems biotechnology)을 주제로 다루고 있었다. 비록 AI나 빅데이터라는 표현은 사용하고 있지는 않지만, 여전히 AI와 빅데이터 기반 생명공학 연구와 일맥상통하는 단어들이 눈에 띈다.
오믹스, 시스템 수준, 생물 네트워크 등이 대표적인 예가 되겠다. 매우 거시적이며, 정략적인 개념들이다.

그림 1. BT News 2009년도 가을호(2009 Vol. 16 No. 2)의 표지와 목차

그렇다. 시간이 흐르면서, 새로운 기술들이 많이 쏟아지고 있지만, 생명공학과 시스템 생물학이 추구하는 기본 철학에는 변함이 없다. 시스템 생물학은 많은 데이터로부터 중요한 패턴을 찾아 내고, 이를 기반으로 생명체의 특성과 행동을 거시적인 관점에서 알아보는 학문이다. 시간이 흐르면서 달라진 점은 데이터의 양과 종류가 나날이 빠른 속도로 늘어나고 있다는 것과, 방대해진 데이터를 더욱 효율적으로 처리하기 위한 새로운 기술들이 꾸준히 개발되었다는 것이다. AI 중에서도 특히 딥러닝 (deep learning)으로 대표되는 머신러닝 (machine learning)은 그 어느 때보다 많은 관심을 받고 있다. AI는 앞으로 생명공학 연구를 어떻게 바꿀 것인가?

거대해지고 빨라지고 있는 생명공학 연구

분석 기술의 발달로 생명공학 연구의 규모가 커지는 것은 쉽게 생각해 볼 수 있다. 10년 전에도 ‘게놈 수준’(genome-scale)이라는 표현은 흔히 사용되어 왔다. 한 세포 안의 모든 유전자들을 고려하기에 게놈 수준이라는 표현이 사용되어 왔지만, 이제는 약간 진부한 표현이 되어 버린 것 같다. 근래에는 여러 세포의 유전체를 전체적으로 분석하는 연구를 자주 볼 수 있게 되었다 [1,2]. 일례로 가장 잘 알려져 있는 박테리아인 대장균 (Escherichia coli)의 경우, 50여균주에 대한 게놈 수준의 대사 (metabolism) 연구가 2013년에 첫 선을 보였으며 [3], 그 이후로 박테리아 범유전체(pan-genome) 연구가 여럿 나오기 시작하였다. 올해 초에 발표된 38가지 암 종류에 해당하는 총 2658개 암 조직 샘플에 대한 유전체 분석 연구도 대표적인 예가 될 수 있겠다 [4]. 이 연구는 37개국 1300여명의 과학자들이 참여한 Pan-Cancer Analysis of Whole Genomes (PCAWG) 국제 컨소시엄이 수행하였으며, 이 대규모의 국제공동연구를 통해서 38종 암들의 유전자 돌연변이 특징을 자세히 분석하였다.
이렇게 데이터의 양이 빠른 속도로 커지는 것은 그만큼 빠른 분석을 가능하게 하는 새로운 방법론들이 개발되었다는 것을 의미한다. 필자가 속한 공동연구팀은 최근에 단백질서열의 EC 번호 (Enzyme Commission number)를 빠르고 정확하게 예측할 수 있는 딥러닝 기반 프로그램인 DeepEC를 개발하였다 [5] (그림 2). 효소의 기능을 나타내기 위한 방법 중 하나인 EC 번호는 효소가 매개하는 특정 생화학 반응을 4자리 숫자로 나타내는, 일련의 생화학 암호에 해당한다.게놈분석을 하게 되면, EC 번호도 예측을 하게 되는 데, NCBI RefSeq 등 게놈 데이터베이스에 등록된 GenBank 파일을 보면, 예측된 EC 번호의 개수가 매우 적고 정확성도 높은 편이 아니다. EC 번호의 중요성 때문에 지금껏 십여 개의 EC 번호 예측 프로그램들이 개발되었지만, DeepEC는 이전에 발표된 EC 번호 예측 프로그램들보다 성능과 속도, 용량 면에서 월등하다는 것이 검증되었다. DeepEC와 같은 프로그램들뿐만 아니라 샘플을 초고속으로 처리할 수 있는 로봇도 동원이 되면서, 오늘날의 생명공학 연구가 점점 더 거대해지고 빨라지고 있다는 것은 쉽게 생각해 볼 수 있다.

그림 2. DeepEC의 EC 번호 예측을 위한 단백질 서열정보 처리 과정 (왼쪽) 및 DeepEC와 다른 EC 번호 예측 프로그램들과의 정보처리 속도 비교 (오른쪽)

머신러닝은 양날의 검
생명공학 분야에서도 머신러닝에 관심을 가지는 연구원들을 많이 접하고 있다. 머신러닝은 잘 활용하면 득이 되지만, 제대로 활용하지 못할 경우 독이 될 수 있다. 이에 머신러닝 수행 시의 고려사항을 공유하고자 한다.
첫째, 머신러닝 기술 자체보다는 연구의 목적이 우선시되어야 한다. 생명공학 관련 연구목표를 달성하기 위해서 머신러닝 기술은 수단으로 보는 것이 대개의 경우에 해당한다. 연구의 목적에 따라서는 컴퓨터 프로그래밍은 필요하지만 머신러닝이 필요하지 않은 경우도 많다. 특히 생명공학 분야에서 사용되는 대부분의 머신러닝 기술은 전산학 분야에서 이미 치밀하게 검증된 기술이기에, 사용자 입장에서 연구목적 달성에 적합한 머신러닝 기술을 적시적소에 활용하는 것이 매우 중요하다. 단연 생명공학에 대한 충분한 지식 없이는 올바른 연구 목적을 가질 수 없으며, 실제로 잘못된 연구목표를 설정하고 머신러닝 모델을 만드는 경우를 목격한 적이 있다. 사실 연구 목적을 설정하는 것은 매우 어려운 단계에 해당한다.
둘째, 분석하고자 하는 데이터의 특성을 정확히 파악하고 있어야 한다. 이 두 번째 고려사항은 매우 중요해서 몇 가지 세부사항으로 더욱 나눌 수가 있다. 당연한 얘기처럼 들릴 수 있지만 사용하려는 데이터가 연구목적에 적합한 것이어야 한다. 그러나 주어진 데이터가 연구 목적에 적합한지 여부를 판단하는 것은 생각보다 쉽지 않다. 주어진 데이터를 가지고 실제 머신러닝 모델을 구축하고 나서야 깨닫게 되는 경우도 흔하다. 또 다른 어려운 점은 우리가 다루게 될 대부분의 데이터는 머신러닝 적용에 적합하도록 반드시 전처리 (data preprocessing)를 거쳐야 한다는 점이다. 데이터 전처리는 불완전한 형태의 데이터를 머신러닝 적용이 가능한 ‘깨끗한’ 형태의 데이터로 전환하는 것을 의미한다. 주어진 데이터에 일부 누락된 수치가 있을 수 있고, 표준화(standardization)가 필요할 경우 특정 생물 시스템의 특징에 맞게 수행해야 할 것이며, 분석 기기의 어떠한 특징 때문에 측정 오차가 생기는 지를 파악하고 있어야 한다. 이 문제는 생명공학 지식 없이 머신러닝 지식만으로는 해결하기 어려운 영역에 해당한다. 머신러닝 분야에서 흔히 접하는 ‘garbage in, garbage out’이라는 말은 데이터의 올바른 선택과 전처리의 중요성을 잘 나타내준다 (그림 3).

그림 3. 머신러닝 분야에서 흔히 사용되는 ‘garbage in, garbage out’ 개념

셋째, 머신러닝 예측결과가 처음 설정한 연구 목적에 대한 답변이 되는지 검증을 하여야 한다. 데이터 전처리만큼이나 어려우며, 많은 시간을 필요로 하는 단계이다. 역시나 전문적인 생명공학 지식을 필요로 하는 단계이며, 연구 목적과 관련된 세부 전문가들과의 많은 토론을 필요로 한다.
종합해 보면, 생명공학 연구에 AI를 적용한다는 것은, 로봇의 활용도 포함이 되지만 대부분의 경우는 오믹스 데이터 내지는 충분히 큰 분량의 데이터에 머신러닝을 활용하는 연구가 되겠다. 이 과정에서 활용하고자 하는 머신러닝에 대한 충분한 이해가 중요하지만, 그에 못지 않게 연구주제에 대한 깊은 생물학적 지식도 필요하다. 이러한 이유 때문에 시스템 생물학 연구를 하기 위해서는 생명공학과 컴퓨터 프로그래밍을 동시에 익혀야 하며, 생물 및 전산학 전문가와도 활발히 대화를 나누는 것이 연구의 진행에 매우 중요하다고 볼 수 있다.

배우기 쉬워진 시대
실험을 전문으로 하는 연구원이더라도, 조금이나마 컴퓨터와 더욱 친숙해졌으면 하는 바람을 가지고 있다. 다루게 되는 데이터가 시간이 지날수록 많아지다 보니, 컴퓨터를 제대로 활용할 수 있다는 것은 큰 장점으로 다가올 것이라는 생각 때문이다. 지금은 무엇이든 지 배우기 쉬워진 시대가 된 것 같다. 특히 컴퓨터와 관련된 것은 더더욱 그렇다. 머신러닝만 하더라도, YouTube, 블로그 등에 너무나도 유용한 무료 자료들이 많아서 마음만 먹으면 쉽게 접할 수 있다 (그림 4). 다만 실험을 전문으로 하는 연구원이 컴퓨터를 처음 접할 때, 어디서부터 시작해야 할 지 명확하지 않을 수 있겠다는 생각이 들었다. 즉 컴퓨터 환경 (computing environment)의 설정인데, 이를 조금이나마 수월하게 실행할 수 있도록 최근에 프로토콜 (protocol) 논문 형태로 관련 내용을 정리하였다 [6].

그림 4. YouTube에서 ‘machine learning’ 검색어를 통해 검색된 수 많은 교육자료들

생명공학 연구에서 컴퓨터의 중요성 때문에, 필자는 모든 수업에서 관련 소프트웨어 프로그램을 적극적으로 사용하고 있다. 일례로 2020년 봄학기에 대사공학 (metabolic engineering)을 가르치고 있는데, 미생물 대사를 연구할 때 필요한 대사 모델링 (metabolic modeling)을 주요 주제로 다루고 있다. 이를 위해서 프로그래밍 언어 중 하나인 Python으로 기본 연산부터 시작하여, 대사모델을 시뮬레이션할 수 있는 COBRApy를 가르치고 있다 [7]. 생물정보학 및 머신러닝 활용과 관련해서는, 작년에 ‘생명공학을 위한 빅데이터 분석 및 기계학습’ 수업을 개설하였다. 모든 분야가 그렇듯, 시스템 생물학 분야도 너무 빠르게 발전해서, 수업 시간에 새로운 소프트웨어들이나 컴퓨터 기술들을 적극적으로 소개하려고 한다. 이러한 교육 기회를 통해서, 생명공학 분야의 AI 전문가 양성에 최선을 다하고자 한다.

결론 및 전망
기술의 발전으로 생명공학 연구는 앞으로 더더욱 빨라지고 거대해 질 것이다. 이 과정에서 생명공학과 컴퓨터 프로그래밍을 동시에 익히는 것은 경쟁력 있는 연구를 수행함에 있어서 중요한 밑거름이 될 것이다. 다만 연구주제에 정말 빅데이터 또는 머신러닝이 필요한지, 주어진 데이터는 연구주제에 적합한지를 꼼꼼히 살펴보아야 한다. 컴퓨터 프로그래밍은 이제는 비교적 쉽게 접할 수 있는 영역이 되어 버렸다. 앞으로의 도전은 우리나라 고유의 바이오 데이터 확보와 관리 인프라 확충이 될 것이다. 우리나라 고유의 바이오 데이터에는 한국인 특이 유전체 정보일 수 있고, 우리나라 연구진이 개발한 산업용 미생물 균주일 수도 있다. 특히 일부 해외 연구소에서는 화합물 대량생산을 위해서 로봇을 구축하여 미생물 균주를 제작하는 데에 활용하고 있다. 이러한 도전은 한 연구실뿐만 아니라, 기관 내지는 국가 차원에서도 고민해야 할 문제가 되겠다. 현 시점에서 이러한 새로운 기술 장착은 향후 우리나라 생명공학 경쟁력에 지대한 영향을 끼칠 것으로 예상한다.

참고 문헌
[1] Kim Y, Gu C, Kim HU & Lee SY. Current status of pan-genome analysis for pathogenic bacteria. Current Opinion in Biotechnology 63, 54-62 (2020)
[2] Gu C, Kim GB, Kim WJ, Kim HU & Lee SY. Current status and applications of genome-scale metabolic models. Genome Biology 20, 121 (2019)
[3] Monk JM, Charusanti P, Aziz RK, Lerman JA, Premyodhin N, Orth JD, Feist AM & Palsson BØ. Genome-scale metabolic reconstructions of multiple Escherichia coli strains highlight strain-specific adaptations to nutritional environments. Proceedings of the National Academy of Sciences U S A (PNAS) 110:20338-43 (2013)
[4] The ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium. Pan-cancer analysis of whole genomes. Nature 578:82-93 (2020)
[5] Ryu JY, Kim HU & Lee SY. Deep learning enables high-quality and high-throughput prediction of enzyme commission numbers. Proceedings of the National Academy of Sciences U S A (PNAS) 116, 13996-14001 (2019)
[6] Jeon J & Kim HU. Setup of a scientific computing environment for computational biology: Simulation of a genome-scale metabolic model of Escherichia coli as an example. Journal of Microbiology 58, 227-234 (2020)
[7] Ebrahim A, Lerman JA, Palsson BO & Hyduke DR. COBRApy: COnstraints-Based Reconstruction and Analysis for Python. BMC Systems Biology 7:74 (2013)