KT가 한국 사회의 문화적 맥락을 반영한 멀티모달 인공지능(AI) 모델의 안전성 평가 기준을 공개했다.
KT는 16일 고려대와 공동 개발한 한국형 멀티모달 대형언어모델(MLLM) 안전성 평가 벤치마크 ‘KSAFE-MM’을 선보였다.
멀티모달 AI는 텍스트뿐 아니라 이미지·음성 등 다양한 형태의 데이터를 함께 이해하고 처리하는 모델이다. 최근 AI 서비스가 이미지와 문장을 동시에 입력받는 방식으로 진화하면서, 유해하거나 민감한 질문에 모델이 어떻게 반응하는지 검증하는 기준의 중요성도 커지고 있다.
KSAFE-MM은 글로벌 공통 위험 요소를 한국 문화권에 맞게 변환한 ‘KSAFE-MM-G’와 한국 사회 특유의 이슈를 반영한 ‘KSAFE-MM-C’로 이뤄진다. 전세 사기, 독도 분쟁 등 국내 이용자가 실제로 접할 수 있는 민감한 주제가 포함된 게 특징이다. 전체 평가 샘플은 1만4135개로, 국내 최대 규모의 한국어 멀티모달 안전성 평가 데이터셋이다.
벤치마크의 또 다른 특징은 자동화된 구축 절차다. 기존 안전성 벤치마크는 전문가가 수작업으로 문항을 만들고 검수하는 방식이 많아 시간과 비용 부담이 컸다. 반면 KSAFE-MM은 현지 커뮤니티에서 민감 주제를 수집하고, 질문을 생성한 뒤, 합성 이미지를 만든다. 또 AI의 안전장치를 우회하려는 ‘탈옥 질문’까지 생성하는 4단계 자동화 파이프라인을 적용했다. 특정 문화권 전문가가 없더라도 각 지역의 사회적 맥락을 반영한 벤치마크를 빠르게 만들 수 있는 틀을 제시한 것이다.
KSAFE-MM은 실제 AI 서비스 출시 전 안전성 검증, 레드팀 테스트, 가드레일 모델 평가 등에 활용될 수 있다. 연구 결과와 데이터셋은 논문 사전공개 사이트 아카이브와 AI 모델 공유 플랫폼 허깅페이스에 공개돼 누구나 활용할 수 있다. KT는 같은 방식을 일본어 데이터셋 구축에도 시범 적용해 다른 문화권으로 확장 가능하다고 보고 있다.
박재형 KT AX미래기술원 프런티어 AI 랩장(상무)은 “안전성 벤치마크 공개는 단순한 데이터 배포를 넘어 AI 안전성 연구 생태계가 함께 발전할 수 있는 기반을 만드는 일”이라며 “KSAFE-MM이 학계와 산업계에서 한국어와 한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리 잡길 기대한다”고 말했다.
