한국과학기술정보연구원

KISTI MEDIA

과학기술 전문 LLM, KONI의 힘찬 비상을 꿈꾸며

국가과학기술데이터본부 초거대AI연구단 인터뷰


2023년 12월 KISTI는 생성형 거대 언어 모델(Large Language Model, LLM) ‘KONI(KISTI Open Natural Intelligence, 한글명 고니)’의 첫선을 보였다. 과학기술 데이터에 특화된 LLM의 소식은 많은 기대와 관심을 모았다. 3월에 KONI는 한 차례 성능을 향상시켰으며, 데이터 학습량을 대폭 증가시켜 오는 7월 오픈소스를 공개할 예정이다. KONI가 외부의 LLM 수요에 대한 대응을 적극적으로 모색하고 기관 간 실질적인 협력과 활용의 단계로 들어선 가운데, 지난 3월 새롭게 출범한 초거대AI연구단을 찾아 현황과 계획을 들어봤다.




올봄 연구단 출범, LLM 모델 개발과 활용 도모


초거대AI연구단은 KONI의 개발과 원 내외 활용을 담당하고 있다. 이의 전신인 초거대언어모델개발애자일팀은 LLM 모델을 기관 전사적인 입장에서 개발하기 위해 작년 7월에 구성했다. 이후 실행 조직으로 디지털큐레이션센터 내 초거대AI연구팀을 신설했고, 이후 조직을 승격해 연구단으로 거듭났다. 초거대언어모델개발애자일팀장과 초거대AI연구팀장을 겸직했던 이경하 단장이 현재 연구단의 총괄 책임을 맡고 있다.


연구단에서는 최근까지 과학기술 특화 언어 모델 개발에 우선 중점을 두고 연구를 전개해 왔습니다. 이후로는 논문, 보고서상의 다양한 비텍스트적 요소, 이를테면 그림이나 도표, 수식 등을 모두 이해하는 멀티 모달리티 기능을 지속적으로 강화하려고 합니다. 궁극적으로는 여러 연구 결과를 한 번에 취합해 정리하고, 새로운 가설이나 연구·실험계획을 자동으로 수립하는 코사이언티스트(Co-Scientist), 혹은 연구자 AI로 명명하는 연구 과정의 자동화를 지원할 수 있도록 하는 연구를 수행할 계획입니다. 이는 여러 연구 결과들을 한 번에 취합하고 분석·정리해 기존 연구들의 문제점을 파악하고, 새로운 가설을 수립하거나, 연구 및 실험 계획을 자동으로 세우는 연구자 AI를 개발해서 연구 과정을 지원하겠다는 것입니다. 대국민 포털인 사이언스온이나 NTIS에 KONI를 탑재해 AI 분석 서비스 기능을 강화하고자 하는 것도 같은 맥락이지요."

KISTI는 국가과학기술데이터 서비스 분야에서 KONI를 통해 기존의 과학기술정보 유통, 분석 체계를 개선해 일반 대중과 전문과학자 모두가 활용할 수 있고, 공학박사 수준의 AI 정보 서비스 체계를 구축하겠다는 계획을 밝힌 바 있다. 향후 AI를 통해 기존 연구의 문제점 파악과 가설 수립 및 새로운 과학적 발견까지 지원함으로써 실제 연구를 수행하는 AI를 선보이겠다는 것이다. 이와 관련해 이경하 단장은 이렇게 소신을 밝혔다.


공학박사 수준의 AI’는 저희의 슬로건이나 다름없습니다. 다소 거시적인 목표이지요. 공학박사 수준이라고 하면 유사한 난이도의 질문을 받았을 때 그에 대해 답변할 수 있어야 한다는 것입니다. 그런데 이게 사실은 정확한 기준이 없습니다. 과학 분야에 대한 벤치마크 평가 데이터나 그런 체계도 전무하다시피 하고요. 해서 올 초부터 본격적으로 이를 구축하기 위한 연구에도 착수했습니다. 이 부분에 대한 성과가 가시화되면 KONI는 보다 신뢰성 있는 LLM 모델이자 공공재로서 역할을 해낼 수 있을 것입니다.”



오는 7월 오픈 소스 공개, ‘sLLM’으로서 특화된 성능 발휘


KISTI는 KONI의 원 내외 활용에서 한 걸음 더 나아가 과학기술과 산업 분야에 초거대 AI를 활용할 수 있도록 방안을 모색하고 있다. 곧 정보 보안에 민감한 출연연이나 공공기관, 전산 자원 부족의 문제로 LLM의 도입과 활용이 쉽지 않았던 외부 수요처에 대한 실질적인 보급에 앞장서겠다는 것이다. 다가오는 여름, KONI의 오픈 소스 공개는 산·학·연·관·군 생태계를 크게 확장하는 신호탄이 될 전망이다.


한편, KISTI는 올 초 육군의 디지털 대전환에 대한 지원에 나섰다. 이에 따라 2023년 4월 육군 군수사령부와 업무협약을 체결하는 등 데이터 중심으로 변화하려는 국방 혁신에 동참하기로 뜻을 모았다. KONI를 국방 도메인에 접목해 육군이 AI 육군으로 거듭나는 과정에 기여하고, 초거대AI연구단이 ‘군수 참모 AI(가칭)’ 보급을 목표로 국방 LLM을 군수사와 공동기획한 것은 이의 일환으로 볼 수 있다.


저희는 현재 ‘Small LLM(SLLM)’에 초점을 맞춰 KONI의 보급에 집중하고 있습니다. 결합된 두 단어 사이에 다소 간의 괴리감이 있습니다만, 여기서 ‘Small’은 ‘특정 사용자가 보유하고 있으며, 활용 권한이 한정될 필요가 있는 데이터’를 의미합니다. KONI는 기존 정보 서비스 시스템이 보유한 데이터를 답변 제공에 활용하는 검색 증강 생성 기술(Retrieval-Augmented Generation, RAG)의 적용이 용이하도록 개발했습니다. 이러한 특성을 바탕으로 개별 수요처에서 설치해서 자체적으로 운용할 수 있는 LLM 모델을 제공한다는 것이지요. 이로써 기밀을 중시하는 수요처에서도 안심하고 활용할 수 있는 모델을 보급할 수 있게 될 것으로 봅니다. 올해 군수 물자 정보 등 국방 데이터에 대한 효과적인 접근과 AI 기반 분석을 지원하기 위한 국방 LLM 개발을추진하는 것은 이의 대표적인 사례로 볼 수 있습니다.”


연구단은 5월 초 전력연구원(KEPRI)과 MOU를 체결할 예정이다. KEPRI 측에서 전력 분야 학술, 연구 정보에 대한 고도화된 분석 및 신규 AI 서비스 개발을 위해 KISTI의 LLM을 우선적으로 도입해 올해 파일럿 과제를 추진하고, 그 결과에 따라 내년 연구사업을 공동으로 추진하겠다는 취지로 MOU를 체결하는 것이다.


국회도서관과는 양 기관이 보유하고 있는 국가 정보자원들을 보다 효과적으로 활용하기 위해 생성형 언어 모델의 개발과 활용에 공동으로 대응하고자 협력을 지속해 왔다. 디지털큐레이션센터 초거대AI연구팀 시절이던 2022년에는 정보자원 공동활용 및 지식플랫폼 구축 및 관련 공동연구 추진을 위한 MOU를 갱신했다. 이 협약은 KISTI가 보유한 과학기술 데이터 및 디지털 전환 기술과 국회도서관이 보유한 국가지식정보 간의 연계·융합을 활성화하고, 지식정보 플랫폼 환경 조성의 계기가 될 것으로 기대를 모았다. 당시 KISTI는 데이터-네트워크-인공지능(DNA) 역량을 결집해 각 분야 연구기관들과 지속적으로 협력할 뜻을 밝혔다. 이러한 흐름에 발 맞춰 연구단은 LLM의 도입과 보급을 위해 외부 기관과 보다 폭넓게 교류해 나갈 계획이다.


특허 정보 시스템을 개발하고 운용하는 한국특허정보원이나 과학기술 정보를 대중에 보급하는 카오스재단과 같이 점점 다양한 곳과 LLM 개발과 활용을 공동으로 하기 위한 노력을 기울이고 있습니다. 이에 대한 가시적인 성과도 곧 나올 것으로 기대합니다. 연구자의 한 사람으로서 참으로 반가운 일입니다. 보급을 확대하는 것만큼이나 중요한 점이 LLM의 공통적인 문제점으로 여겨지는 환각 현상(Hallucination)을 최소화하려는 노력이라고 생각합니다. KONI의 오픈소스를 7월에 공개하겠다고 저희가 예정한 것도 바로 이러한 점에 대해 좀 더 고민하고,문제점을 최대한 해결하기 위해 시간적인 여유를 둔 것입니다.”


연구단 역량 강화와 다양한 협력 도모할 터



초거대AI연구단은 현재 총 11명의 연구 인력으로 구성되어 있다. 향후 AI플랫폼팀과 LLM 개발팀으로 세분해 운영할 계획이다. AI플랫폼팀은 이용, 장래영, 이건우 박사가 주축이 되어 AI 학습과 관련된 인프라와 플랫폼 기술을 개발한다. LLM개발팀은 임찬욱, 장광선, 양동헌, 이재용 박사를 중심으로 운영한다. 구성원 중에는 UST 응용AI 전공 학생연구원 3명이 지도학생으로 소속되어 있다. 연구단은 지속적으로 인원을 확충해나갈 예정이다. 연구단의 협력을 필요로하는 수요처는 앞으로 점점 더 늘어날 것을 확신하기 때문이다.



작년에 불과 3천만 원에 불과한 연구비로 시작한 사업이 이렇게 확장되어 가는 모습도, 협력의 범위를 차츰 넓혀가고 있는 것도 매우 뿌듯합니다. 국내에서 내로라하는 전문가들과 미래를 개척해 나가고 있다는 점에 자부심을 느낍니다. 여러 박사님들이 보다 훌륭한 연구 성과를 도출할 수 있도록 연구단이 역량을 키우고, 다양한 분야와 협력을 도모할 수 있도록 가교를 놓는 것이 저의 사명이라고 생각합니다. 지금은 저희가 과학기술에 대한 데이터들을 주로 다루고 있지만, 시야를 넓히면 기술과 공학뿐 아니라 생명과학, 인문사회 분야까지 그 가능성은 갈수록 무한하게 커지지 않겠습니까. 언젠가는 모든 과학기술 분야를 아우르는 LLM을 개발해 이를 폭넓게 응용할 수 있는 날이 오면 좋겠다는 희망도 가져 봅니다."

 

이전글이 없습니다

목록