네이버 AI검색, 환각 30%P 줄이고 비용도 3분의 1로 절감

네이버가 대화형 인공지능(AI) 검색 ‘AI탭’에 차세대 기술을 적용했다. 범용 대형언어모델(LLM)의 성능 경쟁에 뛰어드는 대신, 검색·쇼핑·예약 등 실제 서비스 환경에서 빠르고 효율적으로 작동하는 데 초점을 맞춰 글로벌 빅테크의 국내 검색 시장 공세에 맞서겠다는 구상이다.

네이버는 지난 2일 서울 강남 D2SF에서 기자 간담회를 열고 차세대 AI 검색을 구현할 3대 핵심 기술인 프로덕트 네이티브 LLM, 하네스 엔지니어링, 멀티모달 기술을 발표했다.

‘프로덕트 네이티브 LLM’은 네이버의 자체 LLM인 하이퍼클로바X를 기반으로 AI 검색 서비스에 맞게 개발된 경량 모델이다. 글로벌 빅테크의 초대형 모델과 달리 검색에 필요한 성능에 집중해 몸집을 줄인 것이 특징이다.

기존 AI의 근간인 트랜스포머 구조는 문장 속 단어들 사이의 관계를 일일이 따져 전체 맥락을 이해하는 방식으로 설계됐다. 이 때문에 입력량이 늘어날수록 연산량이 제곱으로 증가해 응답 시간이 가파르게 늘어나는 한계가 있었다. 반면 프로덕트 네이티브 LLM은 질문이 길어지는 만큼만 계산량이 늘어나도록 구조를 바꿔 긴 문서를 처리할 때도 응답 시간이 크게 늘지 않는다.

여기에 사용자의 질문이 모호할 경우 되물어 의도를 명확히 하는 ‘명료성 강화 학습’을 적용했다. 불분명한 질문에 임의로 답을 지어내는 대신 의도를 먼저 확인하도록 해, 생성형 AI의 고질적 문제인 환각 현상(할루시네이션)을 하이퍼클로바X 대비 30%포인트(p) 줄였다는 것이 네이버의 설명이다.

이 LLM이 실제 서비스에서 제 성능을 내도록 뒷받침하는 시스템이 ‘하네스 엔지니어링’이다. 네이버는 AI 검색을 쇼핑·예약·결제까지 하나로 연결하는 ‘원스톱 버티컬(전문 분야) 서비스’를 지향하는데, 하네스 엔지니어링은 이 과정에서 AI가 부적절한 답변을 내놓지 않도록 제어하는 동시에 사용자 의도와 긴 대화의 맥락을 파악해 검색부터 서비스 실행까지 매끄럽게 잇는 역할을 맡는다.

네이버는 또 AI탭의 효율을 높이기 위해 ‘분업형 SLM(소규모 언어모델)’ 구조를 채택했다. 하나의 거대 LLM이 모든 작업을 처리하는 대신 역할별로 특화된 SLM을 조합하는 방식이다. 이를 통해 장비 운영 비용을 기존의 최대 3분의 1 수준으로 낮추고 응답 속도는 2배 이상 개선했다고 회사 측은 밝혔다.

이미지 검색 기능인 스마트렌즈를 중심으로 한 멀티모달 기술도 고도화했다. 멀티모달은 텍스트를 넘어 이미지와 영상까지 기계가 이해할 수 있는 표현(임베딩)으로 변환하는 기술이다. 네이버는 2017년 스마트렌즈 출시 이후 멀티모달 검색 역량을 축적해왔으며 올해 멀티모달 LLM ‘뮤코(MuCo)’를 새로 선보였다. 뮤코는 대화 초반에 이미지를 한 번만 처리하고도 이어지는 질문의 문맥을 정교하게 짚어내는 것이 핵심이다. 질문이 이어질 때마다 이미지를 매번 새로 연산해야 해 속도가 느려지고 비용이 늘어나던 기존 멀티모달의 한계를 해소했다.네이버는 이를 위해 3500만 규모의 멀티모달 데이터셋을 구축했으며, 주요 멀티모달 검색 벤치마크에서 경쟁 모델을 웃도는 성능을 기록했다고 밝혔다.

이기창 네이버클라우드 하이퍼스케일 AI모델 이사는 “AI탭에 적용된 모델을 통해 사용자에게는 더 빠르고 안정적인 서비스를 제공하고 있으며, 동일한 그래픽처리장치(GPU) 자원으로 더 많은 요청을 처리할 수 있어 운영 비용도 크게 절감할 수 있다”며 “향후 정확하면서도 가볍고 효율적인 모델을 지속적으로 만들 계획”이라고 설명했다.