생명과학 데이터 분석 - saengmyeong-gwahag deiteo bunseog

생명과학 분야에 획기적인 변화의 바람이 불고 있다. 지난 몇 년 동안 생명과학 영역에서 공공 및 사설 연구기관, 제약 연구소, 병원, 임상 부문 간 협업이 급증했다. EMR(전자의무기록)의 도입과 인터넷 접속 등 생명과학 연구에 디지털 영역이 결합되면서 각 부문 간 협업과 데이터 공유 수준도 한층발전했다. 그리고 최근에는 빅데이터가 생명과학 연구의 발전 속도를 더욱 가속시키며 적용 범위 또한 확대되고 있다. 빅데이터는 협업의 개념을 완전히 다른 차원으로 끌어올리고 있다. 새로운 의료 기기와 약물 요법의 개발 및 테스트 방식뿐 아니라 임상 및 외과 수술 방식까지도 변화시키고 있으며, 향후 출현할 수 있는 새로운 종류의 전염병에도 맞서고 있다. 이러한 연구의 진전으로 전 세계 헬스케어 서비스는 완전히 새로운 시대를 맞게 될 것이다.

목차 Show

유전학 연구의 복잡성 해결
데이터는 복잡하지만 해답은 간단
Hitachi, 빅데이터로 생명과학 연구 발전을 촉발시키다
세상을 바꾸는 빅데이터의 위력

유전학 연구의 복잡성 해결

빅데이터 분석과 관련해 가장 잘 알려진 사례는 인간의 유전자와 그 기능을 연구하는 학문인 유전학(게놈)이다. 유전학은 물론 새롭게 등장한 학문은 아니다. 하지만 빅데이터 분석이 도입되면서 수백, 수천 명의 환자들에게서 축적된, 수만 건에 달하는 유전자 데이터를 관리할수 있게 됐으며, 이를 통해 생명과학 연구에도 근본적인 변화가 일고 있다. 과학자들은 이제 더 이상 몇몇 개인 혹은 몇몇 유전자에 초점을 맞추지 않아도 된다. 수천 명에 달하는 개인들 이 보유한 유전자 행태를 비교해 유사성과 패턴을 찾아낼 수 있게 되었기 때문이다.

생명과학 분야 연구자들이 겪는 가장 큰 어려움 중 하나는 끊임없이 생성되는 엄청난 양의 데이터를 관리하는 문제다. 바이오IT월드의 최근 조사에 따르면 차세대 염기서열을 이용하는 연구자들은 데이터의 관리, 저장, 분석을 가장 극복하기 어려운 과제로 꼽았다고 한다. 헬스케어 분야에 빅데이터를 도입해 얻을 수 있는 다양한 이점을 잠재성이 아닌 현실로 끌어올리려면 수많은 데이터를 제대로 관리할 수 있어야 한다.

여기가 바로 빅데이터 분석이 생명과학 연구를 근본적으로 변화시킬 수 있는 지점이다. 산재된 데이터를 축적·분석할 수 있게 되면서 생명과학 연구에 빅데이터를 효과적으로 활용할수 있게 됐다. 기존의 방대한 규모의 유전자 데이터와 환자 의료기록이 결합되면서 지금까지는 불가능했던 새로운 차원의 통찰력을 확보할 수 있게 됐고, 다양한 연구에 있어서도 큰 진전이 있었다. 이러한 연구 성과는 이미 개인 환자들의 암 치료에 활용되고 있다. 임상전문의들은 DNA 염기서열 분석 결과를 수천 명의 다른 사람들과 비교해 향후의 암 진행 경과를 예측하고, 이를 치료 방법으로 제안한다. 약물 요법을 수행하기 전에 종양을 배열할 수 있게 됐으며, 여기에 빅데이터 분석의 힘이 더해져 보다 낮은 비용으로도 놀라운 성과를 얻게 된 것이다.

염기서열에 대한 빅데이터 분석을 통해 수 주, 수천 달러가 소요되던 치료가 단 며칠 만에 수백 달러로 가능하게 됐으며, 앞으로 더 많은 환자들에게 이 혜택이 돌아갈 것이다. 뿐만 아니라 이전보다 유의미한 유전자 데이터를 활용할 수 있게 되면서 과학자들이 지난 수십 년간 축적해온 데이터 통합과 활용이 가능해졌다.

데이터는 복잡하지만 해답은 간단

때로는 간단한 해답이 복잡한 데이터에 가려지기도 한다. 빅데이터를 활용하면 헬스케어 서비스 품질에 큰 영향력을 미치는 작은 변화까지도 이끌어 낼 수 있다. 익히 알려진 대로 EMR(Electronic Medical Record: 전자의무기록)은 개인 의료기록을 활용 가능한 디지털 포맷으로 저장하는 시스템이다. 전자 포맷을 활용하면 연구자가 수천 건의 EMR 정보에 쉽게 접근할 수 있다. 또 EMR 데이터는 다양한 방법으로 활용할 수 있는 범용 데이터 풀과도 결합 될 수 있다. 이는 연구 기관 및 헬스케어 관련 기관들에게 꽤나 흥미로운 부분이다.

Hitachi, 빅데이터로 생명과학 연구 발전을 촉발시키다

Hitachi는 오랫동안 생명과학 연구를 지원해왔다. 빅데이터를 수집하는 인프라부터 이를 관련 기관들이 사용할 수 있도록 해주는 소프트웨어에 이르기까지 전방위의 지원을 아끼지 않는다. 생명과학 분야 내 끊임없는 변화들에도 불구하고 Hitachi가 지속적인 지원이 가능했던 이유는 하나의 커다란 청사진에 기반한 수많은 연구진들의 노력 덕택일 것이다. Hitachi는 임상 연구와 병원의 헬스케어 서비스, 사설 및 공공 부문의 기초 생명과학 연구, 제약 연구 등을 수행하는 헌신적인 의사와 과학자들의 활동을 전체적인 차원에서 조망한다. Hitachi의 목표는 이들 연구진의 연구 노력이 결실을 맺을 수 있도록 유용하고 실행 가능한 데이터에 쉽게 접근할 수 있도록 지원하는 것이다.

Hitachi는 데이터의 저장, 추출, 검토, 처리, 관리와 관련해 연구자들이 어려워하는 문제를 해결할 수 있도록 엔지니어링 솔루션에 중점을 두고 있다. 일례로 ‘Inspire the Genome’ 프로젝트에 그동안 축적해온 고도의 전문성을 제공한다. Hitachi는 유전자 데이터 분석용 클라우드 플랫폼을 개발하기 위해 기초과학 및 DNA 염기서열 연구 분야에서 오랜 기간 히타치 솔루션(Hitachi Solutions)과 협력해왔다. 이를 통해 유전자 정보를 저장할 공간과 방대한 범위를 아우르는 연구 데이터 분석 툴을 제공하며, 한층 더 진보된 차원의 혁신을 기대하고 있다. 유전자 클라우드 플랫폼은 연구진, 임상전문의뿐 아니라 환자들에게도 유전자 매핑(Mapping) 데이터, 인간 염색체 분석 툴, 그리고 궁극적으로는 올바른 치료방법 수립에 활용 가능한 데이터에 접근할 수 있도록 해주는 안정적인 포탈로 자리매김할 것이다.

이러한 정보에 접근하는 인프라와 툴을 제공하기 위해 이미 많은 연구진들과 협력 체계도 구축했다. 일례로 HDS(Hitachi Data Systems)는 방광암 치료에 매진할 세계 최고의 연구소를 설립하기 위해 세계적인 수준의 한 대학과 협력하고 있다. 이 프로젝트에 참여하는 연구진은 지난 수년간 자신이 근무하는 병원에서 치료받은 수많은 환자의 임상 및 유전자 데이터를 수집해왔으며, HDS는 이 데이터를 몇몇 공공 방광암 데이터 세트와 통합하기 위해 협업 중이다. 이렇게 통합된 데이터에 빅데이터 분석을 적용하면 이 대학의 연구 성과는 통찰력과 가치 측면에서 한층 더 높은 수준으로 발전할 수 있다. 뿐만 아니라 HDS는 그동안 축적해온 방대한 데이터에 연구자들이 더 쉽게 접근할 수 있도록 세계 최고 수준의 유전자센터들과도 협력하고 있다. 이러한 데이터의 상당수는 현재 시간 및 비용 측면에서 상당히 접근이 비효율적인 오프라인 아카이브(archive)[각주:1]에 저장돼 있지만 궁극적으로는 신속한 접근이 가능하도록 온라인 저장소로 옮겨져야 할 것이다.

세상을 바꾸는 빅데이터의 위력

빅데이터에 기반한 생명과학 연구가 전 세계적으로 활성화됨에 따라 생명과학 연구와 헬스케어 서비스는 최종적으로 하나의 커다란 임상 실험으로 융합될 수도 있을 것이다. 이렇게 되면 전 세계의 많은 사람들이 전보다 더 높은 품질의 헬스케어 서비스를 훨씬 더 낮은 비용으로 이용할 수 있게 된다. Hitachi는 이러한 연구 지원과 연구자들이 가장 크게 어려움을 겪는 문제에 대해 적절한 해답을 제시하는 빅데이터 관련 기술과 리소스를 제공하고 있다.

맵알은 지난해 7월 구글 캐피털 등으로부터 1억1000만 달러(약 1200억 원) 투자를 유치하면서 빅데이터 업계에서 가장 ‘핫’한 기업으로 떠올랐다. 빅데이터 분석시장의 90% 이상을 점유하고 있는 ‘하둡(HADOOP)’이란 플랫폼 활용 분야에서 세계 3대 기업으로 꼽힌다. 현재 우리나라를 포함한 11개국에 700개 이상이 맵알 서비스를 이용한다.

데이 박사는 바이오전문 연구기관이나 기업들이 수년 내 큰 난관에 봉착할 확률이 높다고 밝혔다. 그는 “2000년 닷컴기업 버블(거품)이 꺼지며 많은 정보기술(IT) 기업이 쇠락했다”며 “그 이유 중 하나는 기하급수적으로 증가한 데이터를 효율적으로 소화하지 못하면서 늘어난 처리비용을 견디지 못했기 때문”이라고 지적했다.

그는 이런 부담이 곧 세계 각국의 유전자 연구기업에도 찾아올 것으로 내다봤다. 최근 유전자 분석 기술의 급격한 발달로 처음엔 13년 이상 걸렸던 개인 유전자 분석을 며칠 이내에 끝낼 수 있게 됐다.

한 사람의 유전정보는 최종적으로 3MB(메가바이트) 정도지만 분석과정에서 훨씬 많은 정보량과 고성능 처리 능력이 필요하다. 개인 1명의 유전정보는 3MB에 불과하지만 우리나라 국민 전체라면 이를 합한 150TB(테라바이트)의 정보를 소화할 수 있는 시스템이 필요하다. 생명과학 분야 연구의 미래는 빅데이터 처리 시스템을 얼마나 잘 갖췄느냐에 달려 있다는 의미다.

빅데이터 기반 창출의 방법을 활용해 방대한 바이오 정보를 효율성 있게 정리·해석하고 그 생물 및 의학적인 의미를 밝혀 새로운 지식 및 서비스를 개발하는 것으로 생명과학과 헬스케어의 융합영역을 말한다.

나. 바이오 빅데이터 등장 배경

2,000년에 완성된 인간 게놈프로젝트 이래 현재까지 축적된 엄청난 유전체 정보의 생성량으로부터 의미있는 정보분석 결과를 도출할 필요성이 증대되고 있으며, 아울러 의료서비스 확대와 바이오 산업육성을 통해 관련분야의 발전을 기대하고 있다. 또한 맞춤형 의료서비스에 대한 관심이 늘면서 진료기록과 의료 영상뿐 아니라 유전자 통계와 전염병 현황을 포함한 방대한 보건 의료 정보에서 유의미한 정보를 얻어내는 연구가 활성화되고 있다.

※ ‘IT와 Bio가 만나는 블루오션’ - KT경제경영연구소, 2013

2. 국내외 연구동향

가. 국외 연구동향

1) 해외 정책동향

미국은 “Big Data Initiative('13)”에서 빅데이터 R&D에 2억 달러의 투자 계획을 발표했는데, 특히 미국 국립보건원(NIH : National Institutes of Health)을 중심으로 거대하고 복잡한 생물·화학적 데이터처리기술 고도화를 통해 유전체학(Genomics), 단백질체학(Proteomics), 생물정보학(Bioinformatics), 시스템생물학(Systems Biology) 등 대규모 데이터 분석이 요구되는 바이오/보건의료 최첨단 R&D 분야에서 성과를 창출할 것으로 기대하고 있다.

또한 NIH는 빅데이터 과학, 공학 핵심 기술 개발 및 게놈 프로젝트 데이터를 아마존 웹 서비스(Amazon Web Services, AWS)에 무료로 공개하고 있다.

EU는 “Data Open Strategy(‘11)”를 발표하고 빅데이터 처리기술 R&D에 ′11~′13년에 걸쳐 1억 유로를 지원하였다. 이어서 ′13~′23년 까지 10년 간 뇌 연구를 위한 HBP(Human Brain Project)에 10억 유로를 투자하기로 발표하였다. 범유럽 차원에서 진행되는 HBP는 각국에 분산된 연구능력을 집중하여 뇌공학(Neuroscience), 뇌의학(Medicine), 미래 컴퓨팅(Future Computing) 등 3가지 영역에 목표를 두고 진행되는 대규모 프로젝트이다.