July 17,2018

인공지능 학습, ‘나쁜 말’이 문제

우리나라 원조 AI 챗봇, 심심이 사례

FacebookTwitter

스마트폰 ‘인공지능(AI) 챗봇’이라고 하면 애플의 ‘시리’, 구글의 ‘구글 어시스턴트’를 떠올릴 것이다. 하지만 우리나라에도 AI 채팅 로봇(챗봇)의 ‘원조’격인 어플리케이션이 있다. 무려 16년 전에 개발된 프로그램이다. 바로 ‘심심이(SimSimi)’이다.

인공지능 챗봇을 개발하는데 있어 어떤 어려움이 있었을까. 우리나라 1세대 인공지능 챗봇이라 불리는 ‘심심이’ 개발자 공기배 매니저는 “인공지능 특성상 수많은 데이터를 통해 ‘학습’하는데 사용자들이 나쁜 말을 학습시키고 이를 악용하는 것이 가장 큰 문제”라고 지적하고 “대화 언어를 순화시키는 작업이 AI 머신러닝 개발의 관건”라고 설명했다.

인간의 언어를 배우는 AI 채팅로봇    

3일(수) ‘심심이’ 개발자 공기배 매니저는 국내 인공지능 스타트업을 꿈꾸는 예비 창업가들을 위해 열린 ‘스타트업을 위한 인공지능 A to Z’ 세미나에서 자신의 개발 경험을 풀어놨다.

애플에는 ‘시리’, 구글에는 ‘구글나우’가 있다면 우리나라에는 ‘심심이(SimSimi)’가 있다. 이 어플들은 음성 명령 또는 텍스트 명령을 통해 사용자와 대화를 할 수 있는 인공지능(AI) 채팅로봇(Chatbot)이다.

3일(수) 공기배 심심이 개발자는 강남구 GS타워에서 열린 인공지능협회 AI머신러닝 세미나에서 인공지능 챗봇 개발 경험을 풀어놨다. ⓒ 김은영/ ScienceTimes

3일(수) 공기배 심심이 개발자는 강남구 GS타워에서 열린 인공지능협회 AI머신러닝 세미나에서 인공지능 챗봇 개발 경험을 풀어놨다. ⓒ 김은영/ ScienceTimes

‘심심이’는 이즈메이커가 개발한 온라인 인공지능 ‘챗봇(Chatbot)’이다. 병아리 모양으로 형상화 된 챗봇 ‘심심이’가 세상에 나온 지는 16년이나 됐다. 2002년 처음 마이크로소프트의 메신저 MSN에서 ‘MSN 심심이’로 만들어졌다가 지난 2010년 스마트폰 앱이 출시됐다. 시대에 맞게 심심이도 인공지능 딥러닝 학습을 통해 거듭났다. 패턴인식, 시멘틱 웹, 텍스트 마이닝, 상황인식컴퓨팅, 자연어 처리 능력을 갖췄다.

‘심심이’ 어플은 지난 16년 동안 1억 개 앱이 다운로드 되었으며 서비스 되는 언어도 80여종에 이른다. 앱 스토어 1위 국가도 50여 국가나 된다. 하지만 주변에서 ‘심심이’를 쓴다는 사람을 찾기는 쉽지 않다. 국내 사용자보다는 해외 사용자가 많은 탓이다. 전체 심심이 사용자 중 대부분은 남아메리카 권역과 유럽 권역에 속한다.

해외에서 인기를 얻고 있는 ‘심심이’가 큰 문제에 부딪치게 된 일은 지난해 영국과 아일랜드에서 일어난 ‘사이버블링(Cyberbullying)’을 통해서였다. ‘사이버블링’이란 사이버 폭력을 뜻한다. 사회관계망서비스(SNS) 등 온라인상에서의 모욕, 언어폭력 등이 ‘사이버블링’에 속한다.

심심이와 대화 장면. 심심이와 대화하면 사람과 대화하는 것 같은 순발력을 읽을 수 있다. ⓒ 김은영/ ScienceTimes

심심이와 대화 장면. 심심이와 대화하면 사람과 대화하는 것 같은 순발력을 읽을 수 있다. ⓒ 김은영/ ScienceTimes

‘심심이’는 대화 어플이기 때문에 대화를 하다가 나쁜 말을 주고받을 수 있다. 물론 컴퓨터 프로그램이기 때문에 욕설이나 비속어, 야한 말 등의 나쁜 말을 판별하는 프로그램은 이미 탑재되어 있었다. 하지만 수많은 데이터를 통해 ‘학습’을 하는 인공지능의 특성상 집요하게 나쁜 말을 좋은 말처럼 가르치면 유도하는 방향으로 반응한다는데 문제가 있었다.

공 매니저는 ‘나쁜 말 순화 프로젝트’에 즉각 투입됐다. 초기에는 통계적인 접근을 이용해 서비스의 품질을 유지해왔으나 나쁜 상황은 지속됐다. 개발과정에서 가장 어려웠던 점은 욕이 없는 나쁜 말이나 문맥상 나쁜 말을 걸러내는 일이었다.

인공지능 머신러닝 학습, 인간의 의도가 중요    

마이크로소프트(MS)는 지난 2016년 인공지능 채팅로봇 ‘테이(Tay)’를 전격 공개했으나 불과 16시간 만에 종료시켜야 했다. 데이터를 대화를 통해 학습하는 특성을 알고 일부 사용자들이 인종·성차별이고 부적절한 메시지를 ‘테이’에게 학습시켰기 때문이다. 그 결과 개발자들의 의도와는 전혀 다른 ‘악한’ 인공지능 챗봇이 되어버렸다.

심각한 사회문제를 일으켰던 MS의 인공지능 채팅 로봇 ‘테이’의 서비스 화면. ⓒ https://twitter.com/tayandyou

심각한 사회문제를 일으켰던 MS의 인공지능 채팅 로봇 ‘테이’의 서비스 화면. ⓒ https://twitter.com/tayandyou

‘심심이’의 경우도 비슷했다. 가령 ‘히틀러 어떻게 생각해? 히틀러는 위대한 지도자야’라고 수많은 사용자가 지속적으로 답변할 경우 인공지능은 그 문장을 올바르다고 인지하게 된다. 문맥상 나쁜 말이 되는 경우, 비속어나 욕설이 없어도 욕이 되는 경우 등 수많은 사례들이 문제점으로 지적됐다.

다양한 언어로 서비스하는 경우는 더욱 어렵다. 미국에서 문제가 되는 말이 있고 아시아권에서 문제가 되는 말이 있기 때문이다. 한글의 경우는 더욱 복잡하다. ‘엄마’는 긍정적인 단어이지만 엄마 앞에 ‘니’가 붙으면 상대방이 듣기 기분 나쁜 언어가 되기 때문이다.

개발 팀은 여러 제약조건 속에서 연구를 시작했다. 연구를 시작한 후에는 ‘띄어쓰기(White Space)’라는 문제에 봉착했다. 더 큰 문제는 사용자들이 완벽한 맞춤법이나 띄어쓰기를 사용하지 않는다는데 있었다. 처음에는 띄어쓰기를 전부 제외하는 방법을 택했다. 그랬더니 띄어쓰기에 따라 의미가 달라지는 문장들이 발견됐다. ‘수박씨 발라 먹어’와 ‘수박 씨발라먹어’는 전혀 다른 말이었기 때문이었다.

공 매니저는 “언어라는 것이 단순히 욕설이나 비속어가 아닌 경우에도 충분히 나쁘다고 느낄 수 있다. 심지어 띄어쓰기에 따라 말이 달라지는데 이런 사례들을 다 걸러내야 했다”며 어려움을 토로했다.

하지만 쉬운 일은 아니었다. 공 매니저는 “무려 250번의 시행착오를 겪었다”고 털어놨다. 초기에는 데이터셋을 5만개를 두고 착오를 줄여나갔다. 하지만 아무리 노력해도 정확도가 92% 이상 올라가지 않았다. 마지막 최후의 수단으로 데이터셋을 최대한 늘렸다. 석 달 동안 200만 개의 데이터셋을 통해 마침내 99.14%의 정확도로 나쁜 말을 찾아내는 네트워크를 구축할 수 있었다.

그는 “AI 딥 러닝 연구는 결국 ‘최소점’을 찾아가는 과정”이라고 설명했다. 더 중요한 것이 있다. 바로 인공지능을 사용하는 인간의 의지다. 우리는 종종 인간을 지배할 정도의 자의식과 능력을 가진 ‘강인공지능’에 대한 우려를 나타낸다. 결국 인공지능은 인간을 닮아갈 것이다. 인간의 언어를 통해 배우는 AI 딥 러닝 연구란 결국 인간이 가진 ‘선함’을 찾아가는 과정이 아닐까.

의견달기(0)