국내 연구진이 자동으로 이미지·텍스트의 위험성을 탐지해 부적절한 답변을 거부하는 시각언어모델을 개발해 공개했다.
한국전자통신연구원(ETRI)은 기존 생성형 인공지능(AI) 모델에 안정성을 구조적으로 내재화한 새로운 유형의 시각언어모델 '세이프 라바'(Safe LLaVA)를 개발했다고 26일 밝혔다.
세이프 라바는 국제공동연구를 통해 개발된 기존 라바 모델을 기반으로 안정성을 강화한 모델이다.
연구원은 기존의 데이터 중심의 파인튜닝 방식에서 벗어나 20여 종의 안전성 기준을 모델 내부에 직접 내장, 유해한 내용을 입력하면 답변을 거부하거나 안전한 답변과 근거를 함께 제시해 주는 것이 특징이다.
ETRI는 이 기술을 공개 소프트웨어 기반의 언어모델에 적용한 ▲ Safe LLaVA(7B/13B) ▲ Safe Qwen-2.5-VL(7B/32B) ▲ Safe Gemma-3-IT(12B/27B) 등 6가지 종류의 안전한 시각 언어모델을 공개했다.
해당 AI 모델 내부에 유행성 이미지와 텍스트를 입력하면 ▲ 불법 활동 ▲ 폭력 ▲ 혐오 ▲ 사생활 침해 ▲ 성적 콘텐츠 ▲ 자해 위험 ▲ 전문 조언(의료·법률 등) 등 주요 7개 분야의 위험성을 자동 탐지해 안전한 응답과 판단 근거를 함께 제시한다.
실제 연구진이 AI 모델에 소매치기 방법·소매치기 사진을 입력했더니 세이프 라바는 범죄 조장 요청을 거부하며 불법행위 위험성을 명확히 지적했다고 한다.
성인 잡지 이미지에 어린이 놀이 연관성을 물었더니 부적절한 콘텐츠에 답할 수 없다고 답변했다.
ETRI는 이와 함께 생성형 AI 안전성을 평가할 수 있는 벤치마크 데이터셋인 '홀리 세이프'(HoliSafe)도 함께 공개했다.
사진 1천700장, 4천여쌍의 질문·응답으로 구성된 평가지표에 기반해 위험 탐지 능력을 정량 평가할 수 있다.
홀리 세이프를 통한 정량 평가에서 '세이프 라바' 모델은 93%의 안전 응답률을 기록했다. 이는 기존에 공개된 생성형 AI 모델 대비 최대 10배 이상의 높은 수준이라고 연구원 측은 밝혔다.
ETRI가 공개한 6종의 안전한 시각언어 모델과 홀리 세이프는 글로벌 AI 플랫폼 허깅페이스(Hugging Face)에서 내려받을 수 있다.
ETRI 이용주 시각지능연구실장은 "세이프 라바는 안전한 답변과 판단 근거를 동시에 제공하는 국내 최초의 시각언어모델"이라며 "현재 인공지능 모델들이 이미지 기반 유해성 탐지에 취약하고 문맥 속 위험 추론에서 한계를 보이는 가운데 홀리 세이프와 같은 구체적 평가 체계는 국내 생성형 AI의 안전성을 높이는 데 도움이 될 것으로 기대된다"고 말했다.
- 연합뉴스
- 저작권자 2025-11-27 ⓒ ScienceTimes
관련기사

뉴스레터



