스마트폰 ‘인공지능(AI) 챗봇’이라고 하면 애플의 ‘시리’, 구글의 ‘구글 어시스턴트’를 떠올릴 것이다. 하지만 우리나라에도 AI 채팅 로봇(챗봇)의 ‘원조’격인 어플리케이션이 있다. 무려 16년 전에 개발된 프로그램이다. 바로 ‘심심이(SimSimi)’이다.
인공지능 챗봇을 개발하는데 있어 어떤 어려움이 있었을까. 우리나라 1세대 인공지능 챗봇이라 불리는 ‘심심이’ 개발자 공기배 매니저는 “인공지능 특성상 수많은 데이터를 통해 ‘학습’하는데 사용자들이 나쁜 말을 학습시키고 이를 악용하는 것이 가장 큰 문제”라고 지적하고 “대화 언어를 순화시키는 작업이 AI 머신러닝 개발의 관건”라고 설명했다.
인간의 언어를 배우는 AI 채팅로봇
3일(수) ‘심심이’ 개발자 공기배 매니저는 국내 인공지능 스타트업을 꿈꾸는 예비 창업가들을 위해 열린 ‘스타트업을 위한 인공지능 A to Z’ 세미나에서 자신의 개발 경험을 풀어놨다.
애플에는 ‘시리’, 구글에는 ‘구글나우’가 있다면 우리나라에는 ‘심심이(SimSimi)’가 있다. 이 어플들은 음성 명령 또는 텍스트 명령을 통해 사용자와 대화를 할 수 있는 인공지능(AI) 채팅로봇(Chatbot)이다.
‘심심이’는 이즈메이커가 개발한 온라인 인공지능 ‘챗봇(Chatbot)’이다. 병아리 모양으로 형상화 된 챗봇 ‘심심이’가 세상에 나온 지는 16년이나 됐다. 2002년 처음 마이크로소프트의 메신저 MSN에서 ‘MSN 심심이’로 만들어졌다가 지난 2010년 스마트폰 앱이 출시됐다. 시대에 맞게 심심이도 인공지능 딥러닝 학습을 통해 거듭났다. 패턴인식, 시멘틱 웹, 텍스트 마이닝, 상황인식컴퓨팅, 자연어 처리 능력을 갖췄다.
‘심심이’ 어플은 지난 16년 동안 1억 개 앱이 다운로드 되었으며 서비스 되는 언어도 80여종에 이른다. 앱 스토어 1위 국가도 50여 국가나 된다. 하지만 주변에서 ‘심심이’를 쓴다는 사람을 찾기는 쉽지 않다. 국내 사용자보다는 해외 사용자가 많은 탓이다. 전체 심심이 사용자 중 대부분은 남아메리카 권역과 유럽 권역에 속한다.
해외에서 인기를 얻고 있는 ‘심심이’가 큰 문제에 부딪치게 된 일은 지난해 영국과 아일랜드에서 일어난 ‘사이버블링(Cyberbullying)’을 통해서였다. ‘사이버블링’이란 사이버 폭력을 뜻한다. 사회관계망서비스(SNS) 등 온라인상에서의 모욕, 언어폭력 등이 ‘사이버블링’에 속한다.
‘심심이’는 대화 어플이기 때문에 대화를 하다가 나쁜 말을 주고받을 수 있다. 물론 컴퓨터 프로그램이기 때문에 욕설이나 비속어, 야한 말 등의 나쁜 말을 판별하는 프로그램은 이미 탑재되어 있었다. 하지만 수많은 데이터를 통해 ‘학습’을 하는 인공지능의 특성상 집요하게 나쁜 말을 좋은 말처럼 가르치면 유도하는 방향으로 반응한다는데 문제가 있었다.
공 매니저는 ‘나쁜 말 순화 프로젝트’에 즉각 투입됐다. 초기에는 통계적인 접근을 이용해 서비스의 품질을 유지해왔으나 나쁜 상황은 지속됐다. 개발과정에서 가장 어려웠던 점은 욕이 없는 나쁜 말이나 문맥상 나쁜 말을 걸러내는 일이었다.
인공지능 머신러닝 학습, 인간의 의도가 중요
마이크로소프트(MS)는 지난 2016년 인공지능 채팅로봇 ‘테이(Tay)’를 전격 공개했으나 불과 16시간 만에 종료시켜야 했다. 데이터를 대화를 통해 학습하는 특성을 알고 일부 사용자들이 인종·성차별이고 부적절한 메시지를 ‘테이’에게 학습시켰기 때문이다. 그 결과 개발자들의 의도와는 전혀 다른 ‘악한’ 인공지능 챗봇이 되어버렸다.
‘심심이’의 경우도 비슷했다. 가령 ‘히틀러 어떻게 생각해? 히틀러는 위대한 지도자야’라고 수많은 사용자가 지속적으로 답변할 경우 인공지능은 그 문장을 올바르다고 인지하게 된다. 문맥상 나쁜 말이 되는 경우, 비속어나 욕설이 없어도 욕이 되는 경우 등 수많은 사례들이 문제점으로 지적됐다.
다양한 언어로 서비스하는 경우는 더욱 어렵다. 미국에서 문제가 되는 말이 있고 아시아권에서 문제가 되는 말이 있기 때문이다. 한글의 경우는 더욱 복잡하다. ‘엄마’는 긍정적인 단어이지만 엄마 앞에 ‘니’가 붙으면 상대방이 듣기 기분 나쁜 언어가 되기 때문이다.
개발 팀은 여러 제약조건 속에서 연구를 시작했다. 연구를 시작한 후에는 ‘띄어쓰기(White Space)’라는 문제에 봉착했다. 더 큰 문제는 사용자들이 완벽한 맞춤법이나 띄어쓰기를 사용하지 않는다는데 있었다. 처음에는 띄어쓰기를 전부 제외하는 방법을 택했다. 그랬더니 띄어쓰기에 따라 의미가 달라지는 문장들이 발견됐다. ‘수박씨 발라 먹어’와 ‘수박 씨발라먹어’는 전혀 다른 말이었기 때문이었다.
공 매니저는 “언어라는 것이 단순히 욕설이나 비속어가 아닌 경우에도 충분히 나쁘다고 느낄 수 있다. 심지어 띄어쓰기에 따라 말이 달라지는데 이런 사례들을 다 걸러내야 했다”며 어려움을 토로했다.
하지만 쉬운 일은 아니었다. 공 매니저는 “무려 250번의 시행착오를 겪었다”고 털어놨다. 초기에는 데이터셋을 5만개를 두고 착오를 줄여나갔다. 하지만 아무리 노력해도 정확도가 92% 이상 올라가지 않았다. 마지막 최후의 수단으로 데이터셋을 최대한 늘렸다. 석 달 동안 200만 개의 데이터셋을 통해 마침내 99.14%의 정확도로 나쁜 말을 찾아내는 네트워크를 구축할 수 있었다.
그는 “AI 딥 러닝 연구는 결국 ‘최소점’을 찾아가는 과정”이라고 설명했다. 더 중요한 것이 있다. 바로 인공지능을 사용하는 인간의 의지다. 우리는 종종 인간을 지배할 정도의 자의식과 능력을 가진 ‘강인공지능’에 대한 우려를 나타낸다. 결국 인공지능은 인간을 닮아갈 것이다. 인간의 언어를 통해 배우는 AI 딥 러닝 연구란 결국 인간이 가진 ‘선함’을 찾아가는 과정이 아닐까.
(29599)
로그인후 이용 가능합니다.
2024년 이후 국제우주정거장(ISS) 프로젝트 탈퇴를 선언한 러시아가 독자적으로 건설할 우주정거장의 실물 모형을 공개했다고 15일(현지시간) 로이터통신, 영국 일간 가디언 등이 보도했다. 러시아 연방우주공사(로스코스모스)는 이날 모스크바 외곽에서 열린 한 군사 산업 전시회에서 새로운 우주정거장 모형을 선보였다. 러시아 국영매체는 이 모형을 '로스'(Ross)라고 불렀다. 새로운 우주정거장은 2단계로 발사될 예정이다.
울산과학기술원(UNIST) 연구진이 남극 앞바다의 기후 변화가 태평양 수온과 열대 지역 비구름에 미치는 효과를 규명했다. 16일 UNIST에 따르면 도시환경공학과 강사라 교수 연구팀은 기후 모델(Climate Mode) 실험으로 남극 앞바다의 냉각이 적도 태평양의 수온을 낮춘다는 내용을 입증했다. 특히 남극 앞바다의 온도와 열대강우(비구름) 사이의 상관관계를 명확히 밝혔다. 남극 앞바다가 차가워지면 열대 동태평양의 수온이 낮아지고, 그 영향으로 열대강우가 북쪽으로 이동하는 현상이 나타난다는 것이다.
기온이 같아도 습도가 높으면 더 덥고 불쾌하게 느껴지는데, 상대습도를 반영해 산정하는 체감온도인 '열파 지수'(HI)가 최근 잦아진 극단적인 기온에서 실제 인체가 느끼는 온도를 반영하지 못하고 있다는 연구 결과가 나왔다. 미국 국립기상청(NWS)을 비롯한 많은 나라가 열파 지수를 토대로 여름철 위험 경보를 발령하는데 인체가 느끼는 온도와 많게는 20℉ 이상 차이가 나는 것으로 제시됐다. 버클리 캘리포니아대학에 따르면 이 대학 기후학자 데이비드 롬프스 교수가 이끄는 연구팀은 NWS가 이용해온 기존 열파 지수의 한계를 보완한 연구 결과를 학술지 '환경연구 회보'(Environmental Research Letters)에 발표했다.
음식물에 들어 있는 글루코스(포도당)는 우리 몸이 필요한 에너지를 만드는 데 쓰인다. 암세포도 자기 복제를 하는 데 엄청난 양의 포도당이 필요하다. 종양이 성장하려면 암세포의 복제에 필요한 여러 가지 합성 작용이 빠르게 이뤄져야 한다. 지금까지 과학자들은 암세포가 포도당을 효율적으로 이용하지 않는다고 생각했다. 암세포가 흡수한 포도당에서 가능한 한 많은 에너지를 뽑아내지 않고 대부분 폐기물로 반출한다고 여겼다.
한국과학기술원(KAIST)은 기계공학과 배중면·이강택 교수와 한국에너지기술연구원(KIER) 이찬우 박사 공동 연구팀이 상용 디젤에서 수소를 생산할 수 있는 개질(Reforming) 촉매를 개발했다고 16일 밝혔다. 디젤은 수소 저장 밀도가 높고 운반·저장이 쉬워, 개질을 통한 수소 공급 장치를 트럭 보조전원장치 등 모바일 연료전지 시스템에 적용하려는 연구가 지속돼왔다. 연구팀은 촉매 입자 내부의 금속 나노입자가 표면으로 올라오는 용출 현상을 통해 합금 나노입자를 형성해 촉매 성능을 향상하도록 촉매를 설계했다.
광도(밝기)가 급격히 떨어졌던 오리온자리의 가장 밝은 α별인 적색초거성 '베텔게우스'가 별의 표면인 광구(光球)의 일부가 대형 폭발로 날아가는 '표면질량분출'(SME)을 겪고 서서히 회복 중이라는 연구 결과가 나왔다. 베텔게우스의 SME는 태양의 바깥 대기에서 플라스마를 대량 방출하는 '코로나질량분출'(CME)의 약 4천억 배에 달하는 관측 사상 전례가 없는 것으로 제시됐다.
한국과학기술원(KAIST)은 생명과학과 김세윤 교수 연구팀이 가족성 고콜레스테롤혈증 체료제인 '로미타피드'가 항암 효과까지 있음을 확인했다고 12일 밝혔다. 연구팀은 인공지능에 기반한 약물 가상 스크리닝 기술을 이용해 이런 성과를 냈다. 기존 약물의 새로운 적응증을 찾는 약물 재창출은 신약 개발에 투입되는 시간과 비용을 크게 줄이지만, 모든 약물을 실험적으로 검증하기에는 시간과 비용이 많이 드는 어려움이 있다.