데이터 없이 AI 모델 학습?...역발상 정보보호 기술 주목

정보 유출을 원천 차단하기 위해 데이터를 직접 구축해 학습시키는 역발상 인공지능(AI) 보안 기술이 주목받고 있다. 이 기술이 잘 작동하기 위해서는 문맥을 이해하는 기술로 개인정보를 정교하게 탐지하고, 비식별화까지 지원하는 것이 병행돼야 한다.

18일 정보기술(IT) 업계에 따르면 생성형 AI 전문 기업 ‘제논’은 금융권 등 AI 서비스 구축 시 필요한 고품질 학습데이터를 직접 생성·구축하는 금융 특화 데이터 기술을 개발했다. 고품질 데이터를 직접 설계·구축하는 기술적 대안을 마련하며 차별성을 더한 것이다.

보통 기업의 AI 서비스를 구축할 경우 내부 데이터를 넘겨받아 학습에 활용하지만, 이 과정에서 정보 유출 우려가 었던 것이 사실이다. 이에 제논은 내부 데이터 활용 없이 학습 데이터 구축 기술을 개발한 것이다.

특히 금융권의 경우 보안 정책상 내부 데이터 활용이 엄격히 제한돼 있는 경우도 많다. 제논은 이러한 한계를 극복하기 위해 실제 금융 상담 환경을 재현한 데이터를 외부에서 ‘제로베이스(Zero-base)’로 직접 구축하는 전략을 취했다.

먼저 이 기술이 정상적으로 작동하기 위해선 거대언어모델(LLM)으로 생성된 정형화된 데이터의 한계를 넘어서야 한다. 이에 제논은 AI 허브(AI Hub) 민원 데이터셋을 시드 데이터로 활용해 실제 상담 시나리오가 반영된 데이터로 재구성했다.

또 가상 데이터를 실제 개인 정보 패턴과 유사하게 변환하는 방식의 비식별 데이터 재구성, 자주 나타나지 않는 특이 사례 데이터까지 골고루 학습시켜 탐지 누락을 방지하는 등 데이터의 품질을 고도화했다. 그 결과 제논은 실제 금융 업무 환경에서 안정적으로 작동하는 개인정보 탐지 성능을 성공적으로 확보했다.

여기에는 제논은 문장의 맥락을 이해하는 기술과와 토큰 간 관계를 고려하는 기술을 결합한 ‘버트_CRF’ 모델을 구축했다. 기존 개인정보 탐지 방식은 정규표현식이나 키워드 매칭에 의존해 전화번호나 주민등록번호처럼 형식이 명확한 정보는 비교적 쉽게 식별할 수 있지만 이름이나 주소, 가맹점명처럼 패턴이 일정하지 않은 비정형 정보 탐지에는 한계가 있었기 때문에 이 기술이 필요했다.

버트_CRF 모델은 문장 속에 흩어져 있는 개인정보를 맥락 기반으로 식별하고 마스킹할 수 있도록 설계돼 이름, 주소, 계좌번호, 결제금액 등 다양한 유형의 민감 정보를 보다 정교하게 탐지할 수 있다.

제논 관계자는 “AI 서비스가 확산될수록 데이터 보호는 선택이 아닌 필수적인 기반 기술이 되고 있다”며 “제논은 AI가 데이터를 처리하는 모든 단계에서 개인정보를 자동으로 보호할 수 있도록 보안 기술을 지속적으로 고도화해 나갈 것”이라고 밝혔다. 이어 “향후 금융뿐 아니라 의료, 법률, 공공 등 다양한 산업 분야에 적용할 수 있는 보안 모델을 확대하고 온프레미스 환경에 최적화된 경량화와 신규 개인정보 유형에 대한 신속한 대응 체계를 지속적으로 강화해 나갈 것”이라고 덧붙였다.