사이언스타임즈 로고

정보통신기술
연합뉴스
2025-11-27

ETRI, 위험성 자동 탐지해 성적·폭력적 답변 회피 AI모델 공개 국제공동 모델에 안전기준 내재화, 안전성 평가 툴도 공개

  • 콘텐츠 폰트 사이즈 조절

    글자크기 설정

  • 프린트출력하기
안전한 시각언어모델 개념 ⓒ 한국전자통신연구원 제공
안전한 시각언어모델 개념 ⓒ 한국전자통신연구원 제공

국내 연구진이 자동으로 이미지·텍스트의 위험성을 탐지해 부적절한 답변을 거부하는 시각언어모델을 개발해 공개했다.

한국전자통신연구원(ETRI)은 기존 생성형 인공지능(AI) 모델에 안정성을 구조적으로 내재화한 새로운 유형의 시각언어모델 '세이프 라바'(Safe LLaVA)를 개발했다고 26일 밝혔다.

세이프 라바는 국제공동연구를 통해 개발된 기존 라바 모델을 기반으로 안정성을 강화한 모델이다.

연구원은 기존의 데이터 중심의 파인튜닝 방식에서 벗어나 20여 종의 안전성 기준을 모델 내부에 직접 내장, 유해한 내용을 입력하면 답변을 거부하거나 안전한 답변과 근거를 함께 제시해 주는 것이 특징이다.

ETRI는 이 기술을 공개 소프트웨어 기반의 언어모델에 적용한 ▲ Safe LLaVA(7B/13B) ▲ Safe Qwen-2.5-VL(7B/32B) ▲ Safe Gemma-3-IT(12B/27B) 등 6가지 종류의 안전한 시각 언어모델을 공개했다.

해당 AI 모델 내부에 유행성 이미지와 텍스트를 입력하면 ▲ 불법 활동 ▲ 폭력 ▲ 혐오 ▲ 사생활 침해 ▲ 성적 콘텐츠 ▲ 자해 위험 ▲ 전문 조언(의료·법률 등) 등 주요 7개 분야의 위험성을 자동 탐지해 안전한 응답과 판단 근거를 함께 제시한다.

실제 연구진이 AI 모델에 소매치기 방법·소매치기 사진을 입력했더니 세이프 라바는 범죄 조장 요청을 거부하며 불법행위 위험성을 명확히 지적했다고 한다.

성인 잡지 이미지에 어린이 놀이 연관성을 물었더니 부적절한 콘텐츠에 답할 수 없다고 답변했다.

홀리 세이프 벤치마크 비교하는 ETRI 연구진 ⓒ 한국전자통신연구원 제공
홀리 세이프 벤치마크 비교하는 ETRI 연구진 ⓒ 한국전자통신연구원 제공

ETRI는 이와 함께 생성형 AI 안전성을 평가할 수 있는 벤치마크 데이터셋인 '홀리 세이프'(HoliSafe)도 함께 공개했다.

사진 1천700장, 4천여쌍의 질문·응답으로 구성된 평가지표에 기반해 위험 탐지 능력을 정량 평가할 수 있다.

홀리 세이프를 통한 정량 평가에서 '세이프 라바' 모델은 93%의 안전 응답률을 기록했다. 이는 기존에 공개된 생성형 AI 모델 대비 최대 10배 이상의 높은 수준이라고 연구원 측은 밝혔다.

ETRI가 공개한 6종의 안전한 시각언어 모델과 홀리 세이프는 글로벌 AI 플랫폼 허깅페이스(Hugging Face)에서 내려받을 수 있다.

ETRI 이용주 시각지능연구실장은 "세이프 라바는 안전한 답변과 판단 근거를 동시에 제공하는 국내 최초의 시각언어모델"이라며 "현재 인공지능 모델들이 이미지 기반 유해성 탐지에 취약하고 문맥 속 위험 추론에서 한계를 보이는 가운데 홀리 세이프와 같은 구체적 평가 체계는 국내 생성형 AI의 안전성을 높이는 데 도움이 될 것으로 기대된다"고 말했다.

연합뉴스
저작권자 2025-11-27 ⓒ ScienceTimes

관련기사

목록으로
연재 보러가기 사이언스 타임즈에서만 볼 수 있는
특별한 주제의 이야기들을 확인해보세요!

인기 뉴스 TOP 10

속보 뉴스

ADD : 06130 서울특별시 강남구 테헤란로7길 22, 4~5층(역삼동, 과학기술회관 2관) 한국과학창의재단
TEL : (02)555 - 0701 / 시스템 문의 : (02) 6671 - 9304 / FAX : (02)555 - 2355
정기간행물 등록번호 : 서울아00340 / 등록일 : 2007년 3월 26일 / 발행인 : 정우성 / 편집인 : 차대길 / 청소년보호책임자 : 차대길
한국과학창의재단에서 운영하는 모든 사이트의 콘텐츠는 저작권의 보호를 받는 바 무단전재, 복사, 배포 등을 금합니다.

사이언스타임즈는 과학기술진흥기금 및 복권기금의 지원으로 우리나라의 과학기술 발전과 사회적 가치 증진에 기여하고 있습니다.