일반인들이 많이 사용하는 인공지능(AI)의 편리한 기능 중 하나가 요약이다. 하지만 챗GPT와 딥시크 등 유명 AI 챗봇의 과학 논문 요약 분석 결과 최대 70% 이상에서 과도한 편향이 발생하는 것으로 나타났다.
네덜란드 위트레흐트대 우베 페터스 박사와 캐나다 웨스턴대 및 영국 케임브리지대 벤저민 친이 교수팀은 14일 거대언어모델(LLM) 기반 유명 AI 챗봇 10개가 생성한 과학 요약문을 분석한 결과 최대 73%에서 과도한 일반화로 인한 부정확한 결론이 도출이 확인됐다고 밝혔다.
연구팀은 "대부분 AI 모델이 원문보다 더 포괄적인 결론을 일관되게 생성하는 것으로 밝혀졌다"며 "놀라운 것은 정확성을 요구하는 프롬프트가 문제를 더 악화시키고, 최신 모델이 구형 모델보다 성능이 더 나쁘다는 것"이라고 말했다.
연구팀은 챗GPT-4o(ChatGPT-4o)와 챗GPT-4.5(ChatGPT-4.5), 딥시크(DeepSeek), 라마 3.3 70B(LLaMA 3.3 70B), 클로드 3.7 소네트(Claude 3.7 Sonnet) 등 챗봇 10개가 네이처(Nature), 사이언스(Science), 랜싯(Lancet) 등 과학·의학 저널에 게재된 초록 및 논문 전문을 얼마나 정확히 요약하는지 평가했다.
4천900개의 LLM 생성 요약문을 분석한 결과 10개 AI 모델 중 6개가 원문 주장에 대한 체계적 과장 현상을 보였다.
이는 미묘하지만 독자에게 영향을 줄 수 있는 방식으로 일어나는 것으로 나타났다. '이 연구에서 치료법은 효과적이었다'라는 신중한 과거 시제 표현을 '이 치료는 효과적이다'처럼 더 일반화된 현재 시제로 바꾸는 식이다.
연구팀은 특히 이들 AI 모델이 더 정확한 요약을 요구할 경우 일반화 편향이 오히려 더 커진다는 점과 최신 모델이 구형 모델보다 성능이 더 나쁜 것으로 나타난 점 등을 문제로 지적했다.
챗봇에 부정확성을 피하라는 명시적 프롬프트를 주면 단순히 요약만 요청했을 때보다 과도한 일반화 결론 생성 가능성이 거의 두 배 가까이 높아졌다.
페터스 박사는 "학생, 연구자, 정책 결정자들은 챗GPT에 부정확성을 피하라고 요청하면 더 신뢰할 수 있는 요약을 얻을 수 있을 것으로 기대하겠지만 결과는 정반대였다"며 우려스럽다고 말했다.
또 챗GPT-4o와 딥시크 같은 최신 AI 모델들이 구형 모델보다 요약 정확성이 오히려 떨어졌으며, 챗봇 생성 요약과 사람의 요약을 비교한 결과 챗봇의 과도한 일반화 결론 가능성이 사람보다 거의 5배 높았다.
연구팀은 AI가 학습과 사용자와의 상호작용에서 일반화 편향을 갖게 된 것으로 추정했다. 이전 연구를 보면 과학 글쓰기에서 과도한 일반화가 흔히 나타나는데, AI가 이런 텍스트로 학습하면서 일반화 편향을 습득했을 수 있다는 것이다.
페터스 박사는 또 "사용자들은 유용하고 광범위하게 적용할 수 있는 응답을 선호하는 경향이 있다"며 "AI가 이런 사용자와 상호작용하면서 정확성보다 유창함과 일반성을 선호하게 학습했을 수 있다"고 말했다.
연구팀은 AI의 과도한 일반화 편향을 줄이기 위해서는 챗봇의 창의성을 조절하는 변수인 온도(temperature)를 낮게 설정할 것과 AI에 요청할 때 반드시 간접적인 과거 시제를 사용해 요약문을 생성하도록 지시할 필요가 있다고 권고했다.
◆ 출처 : Royal Society Open Science, Uwe Peters et al., 'Generalization bias in large language model summarization of scientific research', https://royalsocietypublishing.org/doi/10.1098/rsos.241776
- 연합뉴스
- 저작권자 2025-05-15 ⓒ ScienceTimes
관련기사