과학기술의 출발, 인공지능(AI)
기고 | 이재길 교수(KAIST 전산학부)
오늘날 인공지능(AI) 기술은 우리 사회 전반의 혁신을 주도하며 눈부신 발전을 거듭하고 있다. 특히 챗GPT(ChatGPT)와 같은 생성형 AI의 등장은 인공일반지능(AGI) 시대의 도래 가능성에 대한 기대를 한껏 높이고 있다. 이러한 흐름 속에서 정부는 과학기술정보통신부를 과학기술정보통신인공지능부로의 전환을 위한 법안을 발의하고 대통령 직속 국가인공지능위원회를 신설하는 등 국가 차원에서도 AI의 중요성을 강조하고 있다.
이처럼 AI로의 대전환(DX AI)이 가속화되는 시점에서, 우리는 관련 기술과 서비스를 명확히 정리하고 이해할 필요성을 느낀다. 이미 자율주행, 헬스케어, 알파고, 국방 기기, 산업 로봇, 번역 애플리케이션, 챗GPT 등 다양한 분야에서 인공지능 기술을 자연스럽게 활용하고 그 도움을 받고 있다.
데이터, 알고리즘, 컴퓨팅 파워, 그리고 데이터 품질 혁신
인공지능(AI, Artificial Intelligence)은 기술 범위, 학습 방식, 인지 수준에 따라 다양하게 분류된다. AI 기술이 영향을 미치는 범위에 따라서는 특정 작업을 수행하는 협의의 인공지능(ANI), 인간처럼 다방면에 걸쳐 지능을 발휘하는 범용 인공지능(AGI), 그리고 인간의 지능을 초월하는 Super 인공지능으로 나눌 수 있다. 또한, 인지 수준에 따라서는 단순히 주어진 자극에 반응하는 반응형 AI(예: IBM의 딥 블루, 초기 알파고), 과거 경험을 기억하여 활용하는 제한된 기억 AI(예: 자율주행 시스템), 그리고 새로운 콘텐츠를 창조하는 생성형 인공지능(GAI) 등으로 구분할 수 있다.
이러한 다양한 인공지능의 성공에는 데이터, 알고리즘, 컴퓨팅 파워라는 세 가지 핵심 요소가 필수적이다. 특히 데이터는 인공지능의 ‘씨앗’이라 불릴 만큼 중요하며, 양질의 데이터 없이는 AI가 제대로 학습하고 기능하기 어렵다.
하지만 인공지능 기술을 실제 서비스로 구현하는 과정에서 ‘데이터 처리’는 중요한 난관이다. 데이터 마이닝 연구실을 운영하며 수행한 연구들은 인공지능 훈련 시 발생하는 레이블 오류, 레이블 부족, 데이터 중복과 같은 데이터 품질 문제를 획기적으로 개선하는 데 초점을 맞추고 있다. 이러한 데이터 품질 문제는 훈련 비용 증가로 이어지기 때문에 이를 극복하고 인공지능 훈련 파이프라인의 비용을 최소화하여 더욱 효율적이고 강력한 인공지능 구현을 목표로 한다.
인공지능의 핵심 요소, 고품질 훈련 데이터 확보
실제 인공지능 훈련 과정에서는 데이터 품질 문제로 인해 훈련 비용이 불가피하게 증가하는 경우가 많다. 이러한 문제를 극복하고 인공지능 훈련 파이프라인의 비용을 최소화하는 것이 매우 중요하다. 주요 품질 문제는 크게 레이블 오류, 레이블 부족, 그리고 데이터 중복으로 나눌 수 있다.
가장 빈번하게 발생하는 레이블 오류 문제는 예를 들어, 이미지 분류 모델 훈련 데이터에서 강아지 사진에 고양이라고 잘못 표시되는 경우이다. 이를 해결하기 위해 레이블 오류를 자동으로 탐지하고 대응하며 모델을 훈련함으로써 데이터 전처리 과정 없이 훈련 비용을 최소화하는 방법을 연구했다. 특히, 훈련 데이터 샘플에 부여된 레이블의 신뢰도를 모델 훈련 도중에 검사하여 신뢰도가 높은 레이블은 그대로 사용하고, 신뢰도가 낮은 샘플은 수정 가능성을 판단하여 수정 가능성이 높으면 부여된 레이블 대신 수정된 레이블을 사용하는 하이브리드 방식을 적용했다. 이 방식은 레이블 오류 비율이 40%일 때도 95% 이상의 정확도로 오류를 수정할 수 있으며, 실제 세계 이미지 데이터(WebVision)에서는 분류 정확도를 최대 9%포인트 향상시키는 효과를 보였다.
두 번째로 레이블 부족 문제는 시계열 분류 모델(예: 건강상태 모니터링) 훈련 데이터에서 심방세동 지점처럼 중요한 정보의 레이블이 누락된 경우에 발생한다. 우리 연구진은 이 문제를 해결하기 위해 레이블을 자동으로 유추하여 레이블 취득 및 훈련 비용을 최소화하는 방식을 개발했다.
구체적으로, 시계열 데이터 내 시점별 임베딩 벡터를 비교하여 레이블이 변경되는 시점(예: 걷기에서 뛰기로 전환되는 지점)을 정확하게 파악하고, 이를 추가 레이블 부여에 활용한다. 특히, 기존 방법이 단순히 임베딩 간의 거리를 비교했던 것과 달리, 임베딩 궤적의 곡률을 비교하는 혁신적인 방식을 채택하여 더욱 정밀하게 기능을 수행할 수 있도록 했다. 이 방식은 헬스케어 센서 데이터에서 점진적으로 변화하는 시점을 찾는 데 특히 효과적이며, 최신 방법 대비 최대 12.7%의 정확도를 향상시켰다. 아래 그림은 임베딩 궤적의 곡률을 비교하는 혁신적인 방식을 채택한 것이다.
마지막으로, 데이터 중복 문제는 이미지 분류 모델 훈련 데이터에 유사한 샘플이 여러 개 포함되어 훈련 효율을 저해하는 현상이다. 이를 해결하기 위해 데이터 중복을 자동으로 제거하고 모델 훈련에 가장 도움이 될 핵심 집합을 선별함으로써 정확도 저하 없이 훈련 비용을 최소화할 수 있었다. 즉, 적은 양의 훈련 데이터로도 전체 데이터와 대등한 정확도를 달성하는 것이 목표다.
또한, 최초로 레이블 오류를 수정하는 동시에 핵심 집합을 선별하는 방식을 제안했다. 연구 결과, 레이블 오류 수정에 필요한 최소한의 훈련 데이터가 가장 효과적인 핵심 집합이라는 점을 입증했다. 이러한 접근 방식을 통해 모델 정확도를 유지하면서도 모델 훈련 시간을 최대 1/10까지 단축하는 성과를 거두었다. 이를 종합적으로 정리하면 아래 그림과 같다.
우리나라 AGI의 현재와 규모의 전쟁
AI 성공의 핵심인 컴퓨팅 파워는 글로벌 빅테크 기업들이 막대한 자원을 투입하는 ‘규모의 전쟁’ 양상을 보이고 있다. 우리나라도 ‘국가 AI 컴퓨팅센터’ 구축 등으로 인프라를 확충하고 있으나, 하드웨어 규모 면에서는 여전히 선두 기업들과 격차가 존재한다. 하지만 대한민국은 세계 5위권의 AI 연구 경쟁력과 스마트폰, 자동차 등 강력한 산업 생태계를 보유하고 있다. 이러한 강점을 바탕으로 우리는 규모의 전쟁을 직접 추구하기보다는 차별화된 AI 발전 전략을 모색해야 한다.
이를 ‘웹(Web)의 비유’를 통해 설명하고자 한다. 초기 인터넷의 기반을 만든 다르파(DARPA)보다 팀 버너스 리가 개발한 ‘웹’이 실제 생활에 더 큰 파급력을 가져왔듯이, GPT나 라마(Llama)와 같은 거대 언어 모델(LLM)을 그대로 따라가기보다는 새로운 접근 방식을 고민해야 한다. 즉, 막대한 자원이 필요한 기존 방식에서 벗어나, 우리나라가 강점을 가진 엔드 디바이스 제조 역량을 활용하여 개인의 상황과 맥락에 최적화된 ‘맞춤형 범용 인공지능(AGI)’ 개발에 집중하는 것이다.
이는 자원 효율성을 높이고 사용자 만족도를 극대화할 수 있으며, 우리의 비교 우위 산업에 자원을 집중하여 글로벌 AI 경쟁에서 우위를 점하는 전략이 될 수 있다. 따라서 우리의 AI 전략은 모든 곳에 동일한 AGI 환경을 제공하는 거대 모델 구축이 아닌, 컨텍스트별 AGI 자원을 효율적으로 배분하여 s-LLM, 엣지 AI, 피지컬 AI 등 엔드 디바이스의 가치를 높이는 방향으로 AGI 환경을 구축하는 것이 바람직하다.
인공지능 연구가 가져올 변화
AI의 발전은 연구자의 역할에도 큰 변화를 가져왔다. 생성형 AI가 아이디어 생성, 실험 설계, 결과 해석까지 수행하는 공동 연구자로 진화하면서, AI와의 효과적인 협업이 연구 생산성과 창의성의 핵심이 되고 있다. 궁극적으로 AI는 우리 생활 속에 자연스럽게 녹아들어 삶을 풍요롭게 하는 동반자가 되어야 한다. 이를 위해서는 AI 연구자들이 기술적 성취를 넘어 사회적 책임감을 가지고 끊임없이 소통하고 협력하는 것이 중요하다.
AI 분야 연구자로서 학생들에게 세 가지를 당부하고 싶다. 첫째, 기술 너머의 문제를 보는 안목이 필요하다. AI 연구는 모델의 정확도를 높이거나 새로운 논문을 발표하는 것 이상을 목표해야 한다. 우리가 개발하는 기술이 사회에 어떤 영향을 미칠지, 누구에게 이로움을 줄 것이며, 혹여 누구에게는 부정적인 영향을 미칠 가능성은 없는지 끊임없이 자문해야 한다. 기술의 궁극적인 가치와 사회적 책임을 고민하는 것이야말로 진정한 연구자의 자세라고 생각한다.
둘째, 깊이와 지속성을 추구해야 한다. 인공지능 분야는 놀라운 속도로 발전하고 변화하고 있다. 하지만 진정으로 의미 있는 연구 성과는 단기적인 유행을 쫓기보단, 오랜 시간에 걸친 구조화된 사고와 꾸준한 실험을 통해 탄생한다. 눈앞의 성과에 연연하기보다 자신만의 문제의식과 방법론을 꾸준히 발전시키는 인내심과 끈기가 중요하다.
셋째, 협력과 융합을 두려워하지 않아야 한다. AI는 더 이상 컴퓨터 과학만의 전유물이 아니다. 기후 변화, 제조 혁신, 헬스케어, 교육 등 사회 전반의 문제를 해결하고 AI를 통해 사회를 변혁시키기 위해서는 다양한 분야와의 협력이 필수적이다. 타 분야 전문가들과 소통하고 융합하며 문제를 해결하는 태도는 앞으로 AI 연구자에게 가장 중요한 역량 중 하나가 될 것이다.