본문 바로가기 주메뉴 바로가기

영상 학습데이터 자동 레이블링 시스템

최나은 75,376

영상데이터를 시각지능 인식 서비스를 통해 자동으로 분석하고 레이블링 데이터를 생성합니다.


(자막)

영상 데이터를 시각지능 인식 서비스를 통해 자동으로 분석하고 레이블링 데이터를 생성합니다.


(기계학습데이터연구단 장래영 박사) 안녕하세요. 기계학습데이터연구단 장래영입니다.


[영상 학습데이터 자동 레이블링 시스템] 기계학습데이터연구단에서는 2020년부터 DALDA 이름의 '영상 학습 데이터 자동 레이블링 저작도구'를 개발해왔습니다.

영상 학습 데이터 자동 레이블링 시스템은 DALDA를 기반으로 한 시스템으로 영상 학습 데이터 제작을 위한 레이블링 저작도구 기술과 이를 보조하는 AI 자동 레이블링 기술 그리고 순환형 AI 모델 성능 개선 기술로 구성되어 있습니다. 전통적인 레이블링 작업은 사용자가 일일이 영상 데이터에서 객체를 찾아 테두리를 그리고 지정 범위에 객체 이름을 달아주는 작업이 필요했지만 자동 레이블링 시스템은 AI 기반 객체인식 분석 기술을 통해 사전 레이블링이 이루어져 작업자는 결과를 확인하고 검수만 하면 되는 시스템입니다. 또한 일반적인 객체인식 모델은 기존 학습된 객체만 인식하고 새로운 유형의 객체는 인식하지 못하거나 인식하더라도 인식률이 낮은데 반해 본 시스템은 순환형 AI 모델 성능 개선 기술을 적용하여 사용자가 추가로 레이블링하는 학습 데이터를 기반으로 기존 모델을 재훈련시켜 인식 성능을 개선시킵니다.


[본 시스템의 핵심 역할과 기능]

핵심 역할은 영상 학습 데이터 레이블링 작업의 생산성 재고입니다.

작업자에 의해 수동으로 진행되던 기존 레이블링 방식을 대신해 인공지능에 기초한 레이블링 작업을 통해 레이블링 편의성과 작업 속도를 향상시켜 줍니다. 수동 레이블링 작업은 작업자의 수준에 따라 작업 속도나 결과물의 품질이 일정하지 못한데 반해 자동 레이블링 기술로 지원되는 작업은 높은 속도의 작업 효율과 일정한 품질

수준을 제공합니다. 인공지능을 활용한 대량의 학습 데이터  생성 방식은 레이블링 작업 효율을 기존 작업 방식 대비 30%~60% 이상 개선할 수 있습니다.

시스템에서 제공되는 기본 모델은 80여종의 객체를 사각형, 다각형으로 인식해 사전 레이블링을 지원합니다. 

시각지능 인식 모델을 레이블링 하고자 하는 객체에 맞춰 변경할 수 있기 때문에 다양한 유형의 영상에 대하여 학습 데이터 제작 지원이 가능합니다.


[본 시스템을 개발하게된 동기]

기계학습데이터연구단에서 영상 관련 연구를 하며 대전시 도로 통행량 분석, 대전시 도로영상 데이터 구축 등

도로, 차량 관련 AI 객체 인식 관련 연구를 했었는데요. 이때 매번 영상 데이터에서 객체를 찾고 레이블링을 하는 작업을 반복하는게 너무 번거롭고 귀찮았습니다. 예전에는 지금처럼 레이블링 저작 도구가 다양하지 않았고

기능도 단순했었습니다. 어떻게 하면 좀 더 쉽고 편하게 레이블링을 할 수 있을까 생각하다가 인공지능 기술을 활용하면 편리하겠다라고 생각한 것이 본 시스템을 개발하게 된 시작점입니다.

마침 AI 기술을 직접 개발 및 운영 서비스하는 DevOps 분야 연구를 진행 중이었고 아이디어 차원에서 인공지능 기반 레이블링 지원 기술을 적용한 영상 데이터 저작도구를 만들어보면 재밌을 것 같다 생각하였습니다. 특히 저작도구에 적용된 모델과 그 성능을 개선할 수 있게 AI 모델 재학습 및 갱신을 지원하는 순환형 구조 시스템을 구상하고 이러한 아이디어를 지식재산권으로 출원할 수 있었습니다.


[개발 과정에서의 어려움과 극복 방법]

당연히 몇 가지 시행착오가 있었는데요.

특히 낮은 인식 모델의 성능은 데이터를 추가하여 훈련시키는 것을 반복하여 해결한다는 단순한 아이디어를 실제 기술로 구현하고자 하니 어려움이 있었습니다.

모델 학습에 필요한 충분한 데이터 자원 확보 및 훈련시간, 훈련 방식 등이 모델별로 또 다 달라서 실제 저작도구에 적용하는데 쉽지 않았습니다. 영상 데이터를 실시간 수준으로 객체 인식하여 레이블링 처리하고자 하였는데 모델 구동 등의 시간이 지연되는 문제들도 있었습니다. 이런 점들은 개발 방향을 조금 달릴 생각하였더니 해결할 수 있었습니다. AI 모델을 도커(Docker) 기반 컨테이너로 구동할 수 있게 구조화하여 서비스 및 훈련 등을 유기적으로 연동되게 처리하여 극복할 수 있었습니다. 그 결과 현재 기본형 모델은 데이터 전송 시간을 제외하면 영상당 1초~2초 내외 수준으로 빠르게 레이블링이 처리되고 있습니다.


[보람찼던 순간]

시스템을 개발하기 전에는 저희 연구단으로부터 기술 상담을 받은 중소기업들이 보유한 데이터는 있는데 어떻게 활용해야 할지 어려워하고 있다는 걸 확인할 수 있었습니다. 그런데 시스템 개발 후 본 시스템을 이용하여

영상 데이터를 보유한 개인/기관/단체 등이 직접 학습 데이터를 만들어 활용할 수 있는 기반을 갖추게 되는 것을 볼 때 가장 보람을 느꼈습니다.


[본 시스템의 향후 발전 계획]

현재 기계학습데이터연구단은 AIDA라는 과학기술 기계학습 데이터 공유 활용 플랫폼을 운영하고 있습니다.

AIDA는 KISTI가 보유한 인공지능 관련 학습데이터셋 및 관련 기술을 제공하고 있습니다. 또한 AIDA 워크벤치를 통해 단순히 사용자에게 정해진 학습데이터셋을 제공하는데 그치지 않고 사용자가 실제로 필요로 하는 데이터를 검색을 통해 찾아서 취합하여 가져갈 수 있는 맞춤형 학습데이터셋 서비스도 제공하고 있습니다. 이를 바탕으로 본 시스템은 AIDA 플랫폼을 통해 웹 기반 학습 데이터 자동 레이블링 기술로 고도화할 예정입니다.

향후 AIDA 서비스 사용자들이 영상 데이터 관련하여 자동 레이블링 및 활용 기술을 손쉽게 사용할 수 있도록

발전시키고 더 나아가 대용량 고품질의 영상 학습데이터셋을 구축하는데 큰 역할을 할 수 있기를 기대합니다.


[연구자로서 생각하는 목표]

KISTI의 비전이 '데이터로 세상을 바꾸다' 인데요. 저는 이 말을 참 좋아합니다. 이처럼 저는 기계학습 관련 역량과 지식을 바탕으로 세상을 바꿀 수 있는 데이터를 누구나 쉽게 활용할 수 있게 하는 기술을 개발하는 연구자가 되는 것이 개인적인 목표입니다.

이 페이지에서 정보에 대해 만족하십니까?
  • 담당부서
  • 담당자박성욱
  • 연락처042-869-1610
Back to Top