국가 바이오 빅데이터 인프라의 미래를 연다
국가 바이오 빅데이터 인프라의 미래를 연다
국가슈퍼컴퓨팅본부 디지털바이오컴퓨팅연구단
국가과학기술자문회의는 지난 4월 말 글로벌 바이오 강국으로 도약하기 위한 ‘첨단바이오 이니셔티브’를 발표했다. 이에는 2035년 국내 바이오 산업 생산 규모를 200조 원까지 확대할 것이라는 목표가 담겼다. 해당 분야의 R&D 투자를 확대해 첨단바이오를 반도체에 이은 차세대 주력 산업으로 키우겠다는 것. 중점추진과제에는 기술혁신과제로서 ‘바이오 대전환을 이끄는 디지털바이오를 주력 분야로 육성’, 기반구축과제로 ‘최첨단 연구 장비·디지털 인프라 구축’ 등이 포함되었다. KISTI는 법령에 따라 지정된 국가초고성능컴퓨팅센터로서 바이오 부문의 연구개발 인프라 구축과 운영에 있어 역량을 강화하기 위해 꾸준히 노력해왔다. 국가슈퍼컴퓨팅본부 디지털바이오컴퓨팅연구단은 국내외 바이오 빅데이터 인프라 구축 동향을 면밀히 파악하는 한편, 국가 바이오 데이터 기반 산업과 연구경쟁력 강화를 위해 올 초 새롭게 출발했다.
디지털바이오컴퓨팅연구단 일동 왼쪽부터 김영훈, 오천용, 김지민, 백효정, 전유경, 정찬석, 박지성, 김현우, 이용호, 이준학, 강효진, 고태륜, 이상정, 박정우
바이오의료팀 확대 개편, 첨단바이오 강국의 첨병으로 나서
국가 바이오 빅데이터의 구축 및 활용과 관련해 세계 각국 정부의 움직임은 최근 몇 년 사이 매우 활발해졌다. 미국은 백악관 과학기술정책실(OSTP)이 주도해 바이오기술·바이오제조 이니셔티브 행정명령을 2022년 발표했고, ‘국가바이오경제위원회’가 올해 출범했다. 유럽은 바이오기술법을 제정하고, 바이오테크 허브 설립 등을 추진하고자 정책 방안을 발표했으며, 중국은 2022년 바이오경제 5개 년 계획을 수립한 이후 이 분야를 국가전략 분야로 격상시켰다.
대한민국 정부는 2023년 6월, 향후 10년 동안 첨단바이오 분야의 발전 방향을 제시하는 ‘제4차 생명공학육성 기본계획’을 수립했다. 이 계획에는 바이오 분야의 기술 수준을 2020년 77.9%에서 2030년 85%로 높이고, 국내 바이오 산업의 생산 규모를 43조 원에서 100조 원으로 확대하는 목표가 포함되었다. 이후 최근 ‘첨단바이오 이니셔티브’를 의결해 대한민국의 새로운 성장 DNA인 첨단바이오 산업에 주력하고, 제2의 반도체 신화를 써내려갈 것이라는 정책 방향을 알렸다. 디지털바이오는 향후 새로운 게임 체인저(Game Changer)로 자리를 잡아갈 것으로 보인다.
KISTI에서는 이러한 흐름에 발맞춰 지난 3월 국가슈퍼컴퓨팅본부 슈퍼컴퓨팅응용센터 산하의 바이오의료팀을 디지털바이오컴퓨팅연구단(이하 연구단)으로 확대 개편했다. 해당 팀에 소속되어 있던 이준학 박사가 단장을 맡았다. 연구단은 ‘슈퍼컴퓨팅 기반 생명의료 데이터 분석 활용 연구’를 중심으로 연구 활동을 추진하고 있다.
“국가 바이오 빅데이터 인프라는 국가 차원에서 바이오 데이터를 수집, 관리하고 이를 활용하기 위한 시스템과 기술로 구성된 총합으로서, 디지털바이오 패러다임하에서 질병 진단, 신약 개발 및 치료법 개발 등 연구 혁신 및 바이오 산업 성장에 있어서 필수적 요소라 할 수 있습니다. 국내에서는 생명연구 자원 빅데이터 구축 전략, 디지털바이오 혁신 전략 등 바이오 빅데이터 구축을 통한 정밀의료 실현을 목표로 데이터를 축적, 활용하는 다양한 정책을 추진하고 있지요. 특히 다부처 국가생명연구자원 선진화 사업을 통해 국가 바이오데이터스테이션(Korea Bio Data Station, K-BDS)을 중심으로 데이터를 통합 관리하고, 분석·활용 환경을 구축해 서비스를 제공하는 사업이 추진 중입니다. 해외 주요 선도국가에서는 국가 주도의 바이오 비전과 후속 실행 전략을 수립해 국가 바이오 데이터 생산 및 서비스가 구축·운영되고 있습니다. 정밀의료 이니셔티브 등의 국가 정책사업을 통한 맞춤형 진단 및 의료로 분석 결과를 연계하고자 노력하고 있고요.”
이준학 단장은 작년 여름 이용호, 강효진 박사와 함께 ‘국가 바이오 빅데이터 인프라의 미래: 바이오 빅데이터 인프라 구축 동향 및 발전방향’(이슈브리프 제58호 게재)을 통해 국내외 바이오 빅데이터 인프라 구축 동향을 소개하고, 이에 기반한 부문별 미래 발전 방향을 제시했다. 국가 바이오 데이터 기반 산업 및 연구경쟁력 강화를 위해서는 “바이오 데이터 생태계의 가치사슬 흐름(생산-저장 및 유통-주체별 활용)에 대한 이해와 단계별 활성화 방안이 필요하다”고 강조하기도 했다.
K-BDS 데이터 인프라(분석 환경) 데이터 흐름도
“생명의료 분야는 특히 오픈 사이언스(Open Science) 문화가 가장 활성화된 분야라고 봅니다. 과학기술정보통신부에서는 선도적으로 바이오 의료기술 개발 사업 등에서 추진되는 연구 과제들의 데이터를 모두 K-BDS에 등록하고 공유하는 문화를 조성하고 있습니다. 이와 별개로 널리 활용될 수 있는 데이터를 생산하는 사업들도 활발히 기획·추진되고 있는데, 이 중 하나가 바로 4월부터 KISTI가 참여하고 수행하는 ‘국가 통합 바이오 빅데이터 구축 사업’입니다. 데이터들의 양과 품질의 향상이 생명의료 분야의 발전과 직결되는 것은 아니라고 볼 수도 있겠습니다만, 데이터를 실질적으로 활용하고 더 큰 문제를 해결하기 위해 향후 대규모 데이터 기반 연구 수행이 가능한 연구 환경이 제공되어야 한다는 것은 틀림없는 사실입니다. KISTI는 K-BDS 사업 등을 통해 바이오 데이터 활용을 위한 인프라 구축 및 서비스를 수행하고 있으며, ‘AI 데이터 기반 바이오 선도기술 개발 사업’ 등을 통해 바이오 분야 인공지능 모델을 개발하고 활용할 수 있는 환경도 제공할 예정입니다.”
K-BDS, 국가 바이오 데이터 축적에서 활용으로
KISTI는 K-BDS 사업의 데이터 분석 활용 담당 연구기관으로서 2021년부터 해당 사업 참여를 준비했다. K-BDS는 국가 R&D 사업을 통해 생산되는 연구 데이터를 수집·연계·관리·활용하기 위한 플랫폼으로서 한국생명공학연구원의 국가생명연구자원정보센터(KOBIC)가 바이오 분야의 데이터에 대한 품질 관리 및 수집을, KISTI가 데이터 분석과 활용 환경 구축을 담당한다. 궁극적으로는 축적된 데이터의 분석 활용을 활성화하는 것이 목표다. 현재 바이오 의료 분야 활용 활성화와 더불어 거대문제 탐색 및 해결을 지원하고 있다. 2022년 11월 K-BDS 플랫폼을 열었고, 작년에는 ‘제1회 신약개발 AI 경진대회’를 비롯해 총 다섯 차례, 올해는 지난 3월과 6월 총 두 차례에 걸쳐 K-BDS 분석 인프라 활용 지원 프로그램 신청 연구자를 모집했다.
“2021년도에 도입된 그래픽 처리 장치(Graphic Processing Unit, GPU) 기반의 바이오 데이터 분석 활용 시스템을 연구자에게 제공해 국내 연구자 분들께서 데이터·AI 기반의 디지털바이오 연구를 원활하게 진행하고, 도출된 연구 결과(데이터, 소프트웨어 등)를 다시 K-BDS로 환류하고 재활용될 수 있도록 추진하고 있습니다. 산학연병의 다양한 분야 연구자들이 활용 지원 프로그램을 이용하고 있습니다. 연간 약 30~40팀의 연구를 지원 중인데요. 다소 한정된 자원이지만 활용도는 80%에 이르고, 지원 프로그램에 대한 만족도는 계속 높은 수준을 유지하고 있습니다. 여러 동료들이 함께 노력한 덕분입니다. 지면을 통해 감사의 말씀을 전하고 싶습니다.”
KISTI가 생명정보학 관련 연구에 첫발을 디딘 시점은 지금으로부터 약 20여 년 전으로 거슬러 올라간다. 1990년대부터 데이터 및 컴퓨팅 기반의 생명의료 연구를 수행하는 생명정보학이 활성화되기 시작했고, KISTI는 2001년 국가 차원의 정보 분석 인프라 체제 구축이 시급하다는 판단 아래 기술의 산업화 연계를 위한 정보분석시스템 구축에 나섰다. 차세대 신성장 동력산업을 지원하기 위해 나노기술(NT), 바이오기술(BT), 부품소재기술(MCT) 분야에 대한 웹사이트를 구축해 운영하며 전문 정보를 지속적으로 업데이트하는 한편, 바이오인포매틱스센터(Center for Computational Biology and Bioinformatics, CCBB)를 2002년 조직한 것도 이의 영향이다. 이후 관련 분야 연구는 슈퍼컴퓨팅응용센터 산하 바이오의료팀으로 이어졌고, 최근 ‘국가 통합 바이오 빅데이터 구축 사업’ 등 대형 디지털바이오 국가 R&D 사업들을 수행하게 된 것이다.
연구단에서는 현재 대규모 계산이 필요한 생명의료 분야 연구 및 관련 기술 개발, 그리고 해당 분야 연구 활성화를 위한 인프라 구축·제공부터 연구 수행을 위한 연구 환경 플랫폼 개발 및 서비스까지 광범위한 역할을 수행하고 있다. 연구단은 전산학에서부터 생명정보학, 화학, 생물학 등 다양한 분야의 전문가들이 모인 드림팀이다.
“저희가 국가 R&D 사업 수행에 경쟁력을 갖출 수 있었던 원동력은 박사님들이 꾸준히 본연의 연구 활동을 지속하며 역량을 쌓아온 데에서 비롯되었다고 봅니다. 연구 지원이나 K-BDS의 활용 지원 프로그램 운영 과정에 다양한 분야에서 질의나 연구 지원 요청을 받게 되는데요, 그때마다 꼭 한두 분 정도는 무슨 내용인지 잘 알고 계시는 박사님이 계셔요. 그런 것이 저희의 큰 강점이죠. 연구단이 지닌 역량은 하루아침에 자연적으로 발생한 것이 아닙니다. 무려 20여 년의 노력이 뒷받침된 것이지요. 지난 워크숍에서도 함께 이야기 나누고 공감했던 부분인데요, 국가 R&D 사업을 통해 연구 지원을 하는 한편 새로운 지식을 습득하고, 기술을 파악하면서 자체적인 연구를 꾸준히 해나가야 할 필요성이 매우 크다는 겁니다. 바로 여기에 우리 연구단의 존재 이유와 관련 국가 R&D 사업을 왜 KISTI가 수행해야 하는지에 대한 당위성이 있다고 봅니다.”
‘국가 통합 바이오 빅데이터 구축 사업’ 흐름도
오믹스 연구부터 슈퍼컴퓨터·AI 기반 의료 데이터 활용 연구 망라
연구단에는 학생연구원과 박사후연구원 3인을 포함해 총 16인이 모였다. 연구 분야는 △ 생물 정보 분석, △ 컴퓨팅 기반 바이오 분석기술 개발, △ 인공지능 등으로 크게 나뉜다. 생물 정보 분석 연구는 전사체(Transcriptomics) 데이터 기반 연구 및 대규모 유전체(WSG) 분석 연구 지원, 즉 오믹스(Omics) 데이터 연구와 한국인 유전변이 데이터베이스 서비스(KORSAIR), 데이터 기반 신약 설계 연구를 담당한다. 컴퓨터 기반 바이오 분석기술 개발 연구로는 슈퍼컴퓨팅 기반 대규모 유전체 분석 파이프라인 구축, 가속기(FPGA, GPU) 기반 고속 분석 기술 등을 개발한다. 인공지능 연구에서는 인공지능 기반 구조변이 검출 기술과 질병 진단 기술 개발, 임상 정보 기반 딥러닝 등을 연구하며 단백질 기능(Anti-CRISPR) 예측 기술 개발을 수행한다.
“저희의 모토는 ‘데이터 기반 연구 환경 조성’으로 압축할 수 있습니다. 당면한 과제는 데이터의 생산 비용이 크게 낮아지며 급속히 팽창한 데이터를 어떻게 효과적으로 분석할 것인가로 볼 수 있지요. 어떻게 더 빨리, 얼마나 효율적으로 분석해서 생명의료 분야 발전에 유용한 정보들을 선별해낼 것인지가 관건이죠. 인공지능 기술의 발전은 관련 분야 연구에 또 다른 장을 열었습니다. AI 핵심 부품인 그래픽 처리 장치 등 관련 기술이 진일보하면서 생명의료 분야에도 그동안 우리가 잘 몰랐던 것들, 곧 누가 왜 아픈지, 무슨 약으로 치료를 하면 보다 효과가 좋을 것인지에 대한 답을 예측할 수 있는 인공지능 모델 구축 기반이 마련된 겁니다. 여기에 앞서 구축된 대규모 데이터를 모두 탑재해 연구에 활용할 수 있는 트라이앵글 형태의 체제는 이제 거의 완성 단계에 들어섰다고 보고 있습니다. 하지만 아시다시피 바이오 분야는 매우 광활한 분야입니다. 의료에서부터 농어업과 미생물에 이르기까지 포괄적인 분야에서 우리나라가 첨단바이오 강국으로 발전하기 위해서는 갈 길이 아직 멉니다. 국내 데이터·AI 기반의 디지털바이오를 선도할 수 있는 역량을 확보해 다양한 연구 지원에 기여하고, 이를 폭넓게 응용할 수 있는 날이 하루빨리 오면 좋겠다는 희망을 가져봅니다.”
1
318