사이언스타임즈 로고

정보통신기술
김민재 리포터
2026-01-26

AI, 사투리를 쓰면 차별한다? 방언을 쓰는 유저들을 차별하는 알고리즘, 그리고 학습된 편향들

  • 콘텐츠 폰트 사이즈 조절

    글자크기 설정

  • 프린트출력하기

표준어가 아니면 고정관념의 대상이 된다?

ChatGPT나 구글 어시스턴트 같은 AI 챗봇은 이제 일상 곳곳에 스며들어있다. 이제 인공지능 없이는 너무 불편한 세상이 되어버렸고, 스마트폰의 가상 비서부터 정부 웹사이트 챗봇까지, 대규모 언어모델(Large Language Models, LLMs)이 구동하는 AI 도구들은 거의 모든 온라인 공간에 존재한다. 하지만 최근 연구들은 다소 충격적인 사실을 밝혀내고 있다. 이 인공지능 시스템들이 방언 화자들을 "매우 가혹하게" 판단하고 있다는 점이다. 비록 우리나라의 연구는 아니지만, 외국의 경우에 "완벽한 옥스퍼드 영어"나 "표준 독일어"를 구사하지 않는다는 이유만으로, 사용자들은 '놀라울 정도의' 차별에 직면한다. 기업과 정부가 서비스에 더 많은 AI를 통합하면서, 이 문제는 단순한 기술적 결함을 넘어 사회적 불평등을 증폭시킬 위험이 되고 있다.

2024년 캘리포니아대학교 버클리캠퍼스 연구진은 ChatGPT가 인도, 아일랜드, 나이지리아 등 다양한 영어 방언에 어떻게 반응하는지 테스트했다. 결과는 매우 명확했다. 미국 영어나 영국 표준 영어에 비해 방언에 대한 응답은 고정관념이 18% 증가했고, 비하적 내용은 25% 증가했으며, 거만한 반응은 15%나 증가했다. 심지어 일부 모델들은 방언을 아예 이해하지 못하기도 한다. 2025년 7월, 영국 더비 시의회가 사용하는 AI 어시스턴트는 라디오 진행자가 더비셔 방언으로 방송 중 실험적으로 전화했을 때 이해에 완전히 실패한 적이 있다. 물론 영국은 크지 않은 국가 면적에 비해서 방언이 예측하기도 힘들정도로 많은 나라이다. 하지만 그녀의 지방에서 아무렇지도 않게 자주 쓰이는 'mardy'(불평하는)나 'duck'(친애하는)같은 지역 방언 표현에 대래서 AI는 대화 자체를 제대로 이어가지 못했다.

새 연구들에 따르면 LLM이 더 널리 사용됨에 따라, 이는 기존의 편향과 해악을 영속화할 뿐만 아니라 증폭시킬 수도 있다고 한다. © Getty Images
새 연구들에 따르면 LLM이 더 널리 사용됨에 따라, 이는 기존의 편향과 해악을 영속화할 뿐만 아니라 증폭시킬 수도 있다고 한다. © Getty Images

또한, 미국 코넬대학교 정보과학 박사과정 학생인 엠마 하비(Emma Harvey)와 동료들은 2025년 7월 발표한 연구에서, 아마존의 AI 쇼핑 어시스턴트 루퍼스(Rufus)가 아프리카계 미국인 영어 방언으로 작성된 질문에 모호하거나 심지어 잘못된 답변을 제공한다는 사실을 밝혔다. 입력에 오타가 있으면 응답의 질은 더욱 떨어진다. 이는 LLM이 더 널리 사용됨에 따라, 이는 기존의 편향과 해악을 영속화할 뿐만 아니라 증폭시킬 수도 있다는 것을 의미할 수 있다. 

 

이럴 수가, 독일 방언 화자는 '무식한 농부'로 묘사된다

2025년 중국 쑤저우에서 열린 자연어처리 실증적 방법론 학술대회(Conference on Empirical Methods in Natural Language Processing)에서 발표된 독일 연구에 따르면 이러한 편향이 매우 구체적이라는 점을 보여준다. 연구진은 OpenAI의 ChatGPT-5 mini와 Meta의 Llama 3.1을 포함한 10개의 LLM을 수집한 후 모델들에게 표준 독일어 또는 바이에른어, 북프리지아어, 쾰쉬어 등 7개의 독일 방언 중 하나로 작성된 텍스트를 제시했다. 모델들은 이러한 텍스트의 화자를 개인적 특성으로 묘사하고, 다양한 시나리오에서 개인을 배정하도록 요청받았다. 예를 들어, 낮은 교육 수준의 일에 누구를 고용해야 하는지, 화자가 어디에 살 것 같은지 판단하도록 했다.

결과는 매우 흥미로웠는데, 거의 모든 테스트에서 모델들은 방언 화자에게 부정적 고정관념을 부여했다. LLM들은 그들을 교육 수준이 낮고, 농업에 종사하며, 분노 조절이 필요한 사람으로 묘사했다. 이러한 편향은 LLM에게 텍스트가 방언이라고 명시적으로 알려줬을 때 더욱 심해졌다. 이를 두고 요하네스 구텐베르크 마인츠대학교의 민 둑 부이(Minh Duc Bui)는 "방언 화자에게 부여되는 형용사들은 정말로 충격적이라고 생각한다"고 설명한다. 

AI가 언어적 편향을 넘어 사회적 계층 구조까지 재생산하고 있다. © Getty Images
AI가 언어적 편향을 넘어 사회적 계층 구조까지 재생산하고 있다. © Getty Images

이러한 편향의 실제 영향은 인도 사례에서 극명하게 드러난다. 한 구직자가 입사 지원서의 영어를 교정하기 위해 ChatGPT에 의지했는데, AI는 지원자의 성을 인도 카스트 구조에서 더 높은 위치를 나타내는 것으로 변경했다고 MIT 테크놀로지 리뷰가 2025년 10월 보도했다. AI가 언어적 편향을 넘어 사회적 계층 구조까지 재생산한 것이다.

 

문제의 근원: '학습 데이터'에 내재된 편견

LLM의 편향은 어디서 오는가? LLM은 먼저 방대한 양의 텍스트를 수집한 다음, 주어진 프롬프트에 대한 통계적으로 가능성 높은 결과를 생성한다. 따라서 이 문제는 해당 학습 데이터에 있다. 웹에서 수집된 텍스트는 필연적으로 사람들이 방언 화자에 대해 작성한 편견 섞인 내용을 포함한다. 즉, 웹 데이터에서 학습하는 LLM은 누군가가 방언 화자에 대해 작성한 것도 습득할 수 있다. 

하지만 AI가 방언의 적이 아니라 인간처럼 교육과 개선이 가능한 도구가 될 수도 있다.© Getty Images
하지만 AI가 방언의 적이 아니라 인간처럼 교육과 개선이 가능한 도구가 될 수도 있다.© Getty Images

하지만 쑤저우에서 발표된 독일 방언 논문의 공동 주저자인 함부르크대학교의 카롤린 홀터만(Carolin Holtermann)은 LLM의 한 가지 이점을 지적하는데, 이는 많은 인간 화자와 달리 편향을 시스템에서 기술적으로 조정해 제거할 수 있다는 점을 시사한다. 즉, AI가 방언의 적이 아니라 인간처럼 교육과 개선이 가능한 도구가 될 수도 있다. 가장 중요한 문제는 이를 해결하거나 개선할 "의지" 그리고 이에 대한 "투자"가 될 수 있다.

 

맞춤형 AI: 방언을 포용하는 새로운 접근

앞선 내용을 종합하자면 획일적인 LLM은 작동하지 않는 것으로 입증되고 있다. 해결책은 방언을 인정하고 포용하는 맞춤형 접근에 있을 수 있다. 2024년 8월 학술지 '심리학 현재 의견(Current Opinion in Psychology)'에 발표된 연구는 방언을 "구사하는" 개인화된 AI가 오히려 긍정적 결과를 낳을 수 있다고 제안한다. 사용자들은 자신의 방언을 인식하고 반응하는 AI를 더 따뜻하고, 유능하고, 진정성 있다고 인식한다는 것이다.

AI 기업들은 이미 성별이나 나이를 차별하지 않도록 LLM을 훈련시킨다. 하지만 지금까지 이러한 정렬 훈련에 방언 같은 미묘한 언어적 차이가 포함되는 경우는 드물었다. 사실, 일부 기업들은 이를 기회로 보고 있다. 독일 연구에 포함된 AI 중 하나인 Aya Expanse는 비즈니스 고객과 협력하여 방언을 포함한 요소에 맞게 LLM을 맞춤화한다고 밝혔다. 다른 예로 Arcee-Meraj라는 LLM은 이집트어, 레반트어, 마그레브어, 걸프어 등 여러 아랍어 방언에 특화되어 있다.

방언은 제거해야 할 '오류'가 아니라 보존하고 존중해야 할 문화적 정체성으로 해석될 수 있다. © Getty Images
방언은 제거해야 할 '오류'가 아니라 보존하고 존중해야 할 문화적 정체성으로 해석될 수 있다. © Getty Images

이러한 맞춤형 접근은 편향을 제거할 수 있을 뿐 아니라, AI가 언어적 다양성을 자산으로 인식하도록 만들 수 있다. 즉, 방언은 제거해야 할 '오류'가 아니라 보존하고 존중해야 할 문화적 정체성으로 해석될 수 있다. 새롭고 더 맞춤화된 LLM이 등장하면서, AI는 언어적 평등을 실현하는 도구가 될 잠재력을 보여줄 수 있다. 가장 먼저 해결해야 할 문제는 이 기술이 모든 사람에게 공평하게 접근할 수 있도록 만드는 것이다. 

 

참고 논문 바로 가기

Evaluating and Addressing Discrimination in Language Technologies (언어 기술에서의 차별 평가 및 해결), Holtermann et al., 2025

김민재 리포터
minjae.gaspar.kim@gmail.com
저작권자 2026-01-26 ⓒ ScienceTimes

관련기사

목록으로
연재 보러가기 사이언스 타임즈에서만 볼 수 있는
특별한 주제의 이야기들을 확인해보세요!

인기 뉴스 TOP 10

속보 뉴스

ADD : 06130 서울특별시 강남구 테헤란로7길 22, 4~5층(역삼동, 과학기술회관 2관) 한국과학창의재단
TEL : (02)555 - 0701 / 시스템 문의 : (02) 6671 - 9304 / FAX : (02)555 - 2355
정기간행물 등록번호 : 서울아00340 / 등록일 : 2007년 3월 26일 / 발행인 : 정우성 / 편집인 : 차대길 / 청소년보호책임자 : 차대길
한국과학창의재단에서 운영하는 모든 사이트의 콘텐츠는 저작권의 보호를 받는 바 무단전재, 복사, 배포 등을 금합니다.

사이언스타임즈는 과학기술진흥기금 및 복권기금의 지원으로 우리나라의 과학기술 발전과 사회적 가치 증진에 기여하고 있습니다.