과학기술정보통신부와 한국지능정보사회진흥원이 범부처 전수조사인 ‘인공지능(AI) 학습용데이터 현황조사(센서스)’를 10일부터 실시한다고 밝혔다. 공공부문이 보유한 고품질 AI 학습용데이터를 체계적으로 파악·확보하고 민간과 연계해 AI 생태계 선순환 구조를 구축한다는 목표다.
이번 조사 대상은 AI 학습용데이터뿐 아니라 향후 가공을 통해 활용 가능한 데이터까지 포함하는 것이 특징이다. 데이터의 유형과 구조, 구축 목적, 제공 가능 범위 등 실제 AI 학습 활용성과 직결되는 요소를 중심으로 분석이 이뤄질 예정이다.
정부는 조사 결과를 바탕으로 기관별·분야별 데이터 현황을 종합 검토해 AI 학습 활용도가 높은 데이터 후보군을 도출한다. 또한 이 가운데 100종을 선정해 국가 플랫폼인 ‘AI 학습용데이터 통합제공체계’를 통해 연계·제공할 계획이다. 선정된 데이터는 품질 개선과 비식별화 등 후처리를 거쳐 공개되며, 온라인 공개가 어려운 경우 데이터 안심구역을 통해 제공된다.
그동안 현재 공공기관이 보유한 AI 학습용데이터는 기관별로 분산 관리돼 전체 규모와 활용 가능성을 종합적으로 파악하기 어려웠는데, 이 한계를 해결해 민간 기업의 AI 학습 활용에 도움을 주는 것이다.
데이터가 공유되는 플랫폼 자체도 고도화된다. 정부는 현행 ‘AI 허브’를 ‘AI 학습용데이터 통합제공체계’로 고도화 중이다. 이를 통해 데이터 유통 및 거래 활성화를 지원할 방침이다.
김경만 인공지능정책실장은 “AI 성능과 품질의 핵심은 활용 가능한 풍부한 데이터에 있다”며 “이번 조사를 통해 공공부문이 보유하고 있는 AI 학습용데이터 자산을 체계적으로 발굴하고 이를 편리하게 활용할 수 있는 AI 학습용데이터 통합제공 기반을 지속적으로 발전시켜나가겠다”고 밝혔다.
