사이언스타임즈

건너뛰기링크

본문 바로가기
주메뉴 바로가기
하단 바로가기

통합검색

과학기술

전체

과학기술
정보통신기술

정보통신기술: 연합뉴스

2025-11-27

ETRI, 위험성 자동 탐지해 성적·폭력적 답변 회피 AI모델 공개 국제공동 모델에 안전기준 내재화, 안전성 평가 툴도 공개

글자크기 설정

안전한 시각언어모델 개념 ⓒ 한국전자통신연구원 제공

국내 연구진이 자동으로 이미지·텍스트의 위험성을 탐지해 부적절한 답변을 거부하는 시각언어모델을 개발해 공개했다.

한국전자통신연구원(ETRI)은 기존 생성형 인공지능(AI) 모델에 안정성을 구조적으로 내재화한 새로운 유형의 시각언어모델 '세이프 라바'(Safe LLaVA)를 개발했다고 26일 밝혔다.

세이프 라바는 국제공동연구를 통해 개발된 기존 라바 모델을 기반으로 안정성을 강화한 모델이다.

연구원은 기존의 데이터 중심의 파인튜닝 방식에서 벗어나 20여 종의 안전성 기준을 모델 내부에 직접 내장, 유해한 내용을 입력하면 답변을 거부하거나 안전한 답변과 근거를 함께 제시해 주는 것이 특징이다.

ETRI는 이 기술을 공개 소프트웨어 기반의 언어모델에 적용한 ▲ Safe LLaVA(7B/13B) ▲ Safe Qwen-2.5-VL(7B/32B) ▲ Safe Gemma-3-IT(12B/27B) 등 6가지 종류의 안전한 시각 언어모델을 공개했다.

해당 AI 모델 내부에 유행성 이미지와 텍스트를 입력하면 ▲ 불법 활동 ▲ 폭력 ▲ 혐오 ▲ 사생활 침해 ▲ 성적 콘텐츠 ▲ 자해 위험 ▲ 전문 조언(의료·법률 등) 등 주요 7개 분야의 위험성을 자동 탐지해 안전한 응답과 판단 근거를 함께 제시한다.

실제 연구진이 AI 모델에 소매치기 방법·소매치기 사진을 입력했더니 세이프 라바는 범죄 조장 요청을 거부하며 불법행위 위험성을 명확히 지적했다고 한다.

성인 잡지 이미지에 어린이 놀이 연관성을 물었더니 부적절한 콘텐츠에 답할 수 없다고 답변했다.

홀리 세이프 벤치마크 비교하는 ETRI 연구진 ⓒ 한국전자통신연구원 제공

ETRI는 이와 함께 생성형 AI 안전성을 평가할 수 있는 벤치마크 데이터셋인 '홀리 세이프'(HoliSafe)도 함께 공개했다.

사진 1천700장, 4천여쌍의 질문·응답으로 구성된 평가지표에 기반해 위험 탐지 능력을 정량 평가할 수 있다.

홀리 세이프를 통한 정량 평가에서 '세이프 라바' 모델은 93%의 안전 응답률을 기록했다. 이는 기존에 공개된 생성형 AI 모델 대비 최대 10배 이상의 높은 수준이라고 연구원 측은 밝혔다.

ETRI가 공개한 6종의 안전한 시각언어 모델과 홀리 세이프는 글로벌 AI 플랫폼 허깅페이스(Hugging Face)에서 내려받을 수 있다.

ETRI 이용주 시각지능연구실장은 "세이프 라바는 안전한 답변과 판단 근거를 동시에 제공하는 국내 최초의 시각언어모델"이라며 "현재 인공지능 모델들이 이미지 기반 유해성 탐지에 취약하고 문맥 속 위험 추론에서 한계를 보이는 가운데 홀리 세이프와 같은 구체적 평가 체계는 국내 생성형 AI의 안전성을 높이는 데 도움이 될 것으로 기대된다"고 말했다.

연합뉴스: 저작권자 2025-11-27 ⓒ ScienceTimes

태그(Tag)

관련기사

AI는 어떻게 생각하고 판단할까…의사결정 내부구조 시각화 성공 최재석 교수 연구팀이 시각화한 개념회로 ⓒ KAIST 제공 한국과학기술원(KAIST)은 '김재철AI대학원' 최재식 교수 연구팀이 인공지능(AI) 기술이 어떤 판단을 거쳐 결과물을 만들어 내는지 의사 결정 과정 구조를 시각화하는 기술을 개발했다고 26일 밝혔다. AI 딥러닝 모델 내부에는 인간의 뇌처럼 뉴런(Neuron

"신생아에 치명적인 장 천공 조기에 찾는 AI 모델 개발" 신생아 장 천공 AI 판돌 모델 ⓒ 서울아산병원 제공 인공지능(AI) 기술로 엑스레이(X-ray) 영상을 분석해 신생아의 장 천공 여부를 판별하는 모델을 국내 연구진이 개발했다. 1일 서울아산병원에 따르면 이 병원 영상의학과 윤희망·융합의학과 김남국·신생아과 이병섭 교수팀은 AI로 신생아의 장 천공 여부를

GIST 연구팀, 로봇AI 집기 능력 향상 기술 개발 데이터세트 개요 ⓒ광주과기원 제공 광주과학기술원(GIST)은 9일 인공지능(AI) 융합학과 이규빈 교수 연구팀이 실제 환경의 복잡성을 정밀하게 반영한 세계 최대 규모 로봇 파지(Grasp·집기) 데이터세트 '그래스프클러터6D(GraspClutter6D)'를 구축했다고 밝혔다. 기존 로봇 AI가

"인공지능이 독창성까지"…AI 모델의 창의성 높이는 기술 개발 연구팀이 개발한 알고리즘 적용 사례 ⓒKAIST 제공 한국과학기술원(KAIST) 최재식 교수는 네이버(NAVER) AI Lab과 공동 연구를 통해 추가적인 학습 없이도 인공지능(AI) 생성 모델의 창의적 생성을 강화하는 기술을 개발했다고 19일 밝혔다. 텍스트를 기반으로 이미지를 생성하는 AI 모델인 '스테이블 디퓨전'

UNIST "밤사이 농촌 지역 상공에도 고농도 오존 머문다" 도심과 농촌 지역의 시간대별 오존 농도 및 기준 초과 분포 비교 ⓒ울산과학기술원 제공 야간 농촌 지역 상공에 고농도 오존이 머문다는 사실을 울산과학기술원(UNIST) 연구진이 확인했다. UNIST는 지구환경도시건설공학과 임정호 교수팀이 자체 개발한 인공지능(AI) 모델을 통해 오존이 밤사이 농촌 지역에 장기간 체류하는 양상을 포착하

TTA, AI 학습용 데이터에서 유해 표현 찾는 AI 모델 공개 한국정보통신기술협회(TTA) ⓒ한국정보통신기술협회 제공 한국정보통신기술협회(TTA)는 거대언어모델(LLM) 학습용 데이터 가운데 유해한 표현을 걸러낼 수 있는 인공지능(AI) 모델을 구축했다고 3일 밝혔다. 한국정보통신기술협회와 한국지능정보사회진흥원(NIA)이 지난해 '초거대 AI 학습용 데이터 품질검증 사업'을 통해

AI 발전이 폐기물 컴퓨터를 증가시킨다? 세상을 바꾸고 있는 인공지능(AI), 하지만… 인공지능은 세상을 편리하게 바꾸어주고 있다. 생성형 인공지능은 단 몇 줄의 문장으로 그림을 그려주거나 글을 써주기도 하고, 질문에 대한 답을 찾고 정리하여 제시한다. 이는 밤낮으로 ‘구글링’을 해가며 쏟아붓던 노력과는 차원이 다른 손쉬움이다. 불과 몇 년 만에 이처럼 세상은 완전히 변해버렸으며 앞으로의 변화의

운동하는 사람이 공부도 잘한다 얼마전까지만 해도 성적을 올리기 위해서는 운동도 하지 않고 하루 종일 책상에 앉아 공부만 해야 한다고 생각하는 사람이 많았다. 신체 운동이 두뇌 활동에 도움이 되지 않는다고 생각했기 때문이다. 하지만 이런 생각이 옳지 않다는 것이 최근의 연구를 통해 밝혀지고 있다. 지난 8월 19일 학술지 '인간 신경과학의 선구자'(Frontiers in Human

체육시간엔 자습? 모르시는 말씀 수십 년 전에 비해 우리 삶의 위생상태 및 의학은 나날이 발전해 왔다. 그렇다고 사람들이 과거에 비해 꼭 건강해졌다고 할 수만은 없다. 신체활동의 빈도가 낮아지고 생활습관이 변화하면서 오히려 건강상태는 나빠졌을망정 좋아졌다고 보기는 힘들다. 특히 어린 아이들이나 학생들에게선 그런 모습을 쉽게 찾아볼 수 있다.어려서부터 아토피 피부염이나 각종 알레르기성 질환

목록으로

연재 보러가기 사이언스 타임즈에서만 볼 수 있는
특별한 주제의 이야기들을 확인해보세요!

인기 뉴스 TOP 10

속보 뉴스

QUICK LINK

문화체육관광부

COPYRIGHT ⓒ KOSAC. ALL RIGHTS RESERVED

ADD : 06130 서울특별시 강남구 테헤란로7길 22, 4~5층(역삼동, 과학기술회관 2관) 한국과학창의재단
TEL : (02)555 - 0701 / 시스템 문의 : (02) 6671 - 9304 / FAX : (02)555 - 2355
정기간행물 등록번호 : 서울아00340 / 등록일 : 2007년 3월 26일 / 발행인 : 정우성 / 편집인 : 차대길 / 청소년보호책임자 : 차대길
한국과학창의재단에서 운영하는 모든 사이트의 콘텐츠는 저작권의 보호를 받는 바 무단전재, 복사, 배포 등을 금합니다.

사이언스타임즈는 과학기술진흥기금 및 복권기금의 지원으로 우리나라의 과학기술 발전과 사회적 가치 증진에 기여하고 있습니다.

굿컨텐츠서비스 로고