스마트폰 ‘인공지능(AI) 챗봇’이라고 하면 애플의 ‘시리’, 구글의 ‘구글 어시스턴트’를 떠올릴 것이다. 하지만 우리나라에도 AI 채팅 로봇(챗봇)의 ‘원조’격인 어플리케이션이 있다. 무려 16년 전에 개발된 프로그램이다. 바로 ‘심심이(SimSimi)’이다.
인공지능 챗봇을 개발하는데 있어 어떤 어려움이 있었을까. 우리나라 1세대 인공지능 챗봇이라 불리는 ‘심심이’ 개발자 공기배 매니저는 “인공지능 특성상 수많은 데이터를 통해 ‘학습’하는데 사용자들이 나쁜 말을 학습시키고 이를 악용하는 것이 가장 큰 문제”라고 지적하고 “대화 언어를 순화시키는 작업이 AI 머신러닝 개발의 관건”라고 설명했다.
인간의 언어를 배우는 AI 채팅로봇
3일(수) ‘심심이’ 개발자 공기배 매니저는 국내 인공지능 스타트업을 꿈꾸는 예비 창업가들을 위해 열린 ‘스타트업을 위한 인공지능 A to Z’ 세미나에서 자신의 개발 경험을 풀어놨다.
애플에는 ‘시리’, 구글에는 ‘구글나우’가 있다면 우리나라에는 ‘심심이(SimSimi)’가 있다. 이 어플들은 음성 명령 또는 텍스트 명령을 통해 사용자와 대화를 할 수 있는 인공지능(AI) 채팅로봇(Chatbot)이다.
‘심심이’는 이즈메이커가 개발한 온라인 인공지능 ‘챗봇(Chatbot)’이다. 병아리 모양으로 형상화 된 챗봇 ‘심심이’가 세상에 나온 지는 16년이나 됐다. 2002년 처음 마이크로소프트의 메신저 MSN에서 ‘MSN 심심이’로 만들어졌다가 지난 2010년 스마트폰 앱이 출시됐다. 시대에 맞게 심심이도 인공지능 딥러닝 학습을 통해 거듭났다. 패턴인식, 시멘틱 웹, 텍스트 마이닝, 상황인식컴퓨팅, 자연어 처리 능력을 갖췄다.
‘심심이’ 어플은 지난 16년 동안 1억 개 앱이 다운로드 되었으며 서비스 되는 언어도 80여종에 이른다. 앱 스토어 1위 국가도 50여 국가나 된다. 하지만 주변에서 ‘심심이’를 쓴다는 사람을 찾기는 쉽지 않다. 국내 사용자보다는 해외 사용자가 많은 탓이다. 전체 심심이 사용자 중 대부분은 남아메리카 권역과 유럽 권역에 속한다.
해외에서 인기를 얻고 있는 ‘심심이’가 큰 문제에 부딪치게 된 일은 지난해 영국과 아일랜드에서 일어난 ‘사이버블링(Cyberbullying)’을 통해서였다. ‘사이버블링’이란 사이버 폭력을 뜻한다. 사회관계망서비스(SNS) 등 온라인상에서의 모욕, 언어폭력 등이 ‘사이버블링’에 속한다.
‘심심이’는 대화 어플이기 때문에 대화를 하다가 나쁜 말을 주고받을 수 있다. 물론 컴퓨터 프로그램이기 때문에 욕설이나 비속어, 야한 말 등의 나쁜 말을 판별하는 프로그램은 이미 탑재되어 있었다. 하지만 수많은 데이터를 통해 ‘학습’을 하는 인공지능의 특성상 집요하게 나쁜 말을 좋은 말처럼 가르치면 유도하는 방향으로 반응한다는데 문제가 있었다.
공 매니저는 ‘나쁜 말 순화 프로젝트’에 즉각 투입됐다. 초기에는 통계적인 접근을 이용해 서비스의 품질을 유지해왔으나 나쁜 상황은 지속됐다. 개발과정에서 가장 어려웠던 점은 욕이 없는 나쁜 말이나 문맥상 나쁜 말을 걸러내는 일이었다.
인공지능 머신러닝 학습, 인간의 의도가 중요
마이크로소프트(MS)는 지난 2016년 인공지능 채팅로봇 ‘테이(Tay)’를 전격 공개했으나 불과 16시간 만에 종료시켜야 했다. 데이터를 대화를 통해 학습하는 특성을 알고 일부 사용자들이 인종·성차별이고 부적절한 메시지를 ‘테이’에게 학습시켰기 때문이다. 그 결과 개발자들의 의도와는 전혀 다른 ‘악한’ 인공지능 챗봇이 되어버렸다.
‘심심이’의 경우도 비슷했다. 가령 ‘히틀러 어떻게 생각해? 히틀러는 위대한 지도자야’라고 수많은 사용자가 지속적으로 답변할 경우 인공지능은 그 문장을 올바르다고 인지하게 된다. 문맥상 나쁜 말이 되는 경우, 비속어나 욕설이 없어도 욕이 되는 경우 등 수많은 사례들이 문제점으로 지적됐다.
다양한 언어로 서비스하는 경우는 더욱 어렵다. 미국에서 문제가 되는 말이 있고 아시아권에서 문제가 되는 말이 있기 때문이다. 한글의 경우는 더욱 복잡하다. ‘엄마’는 긍정적인 단어이지만 엄마 앞에 ‘니’가 붙으면 상대방이 듣기 기분 나쁜 언어가 되기 때문이다.
개발 팀은 여러 제약조건 속에서 연구를 시작했다. 연구를 시작한 후에는 ‘띄어쓰기(White Space)’라는 문제에 봉착했다. 더 큰 문제는 사용자들이 완벽한 맞춤법이나 띄어쓰기를 사용하지 않는다는데 있었다. 처음에는 띄어쓰기를 전부 제외하는 방법을 택했다. 그랬더니 띄어쓰기에 따라 의미가 달라지는 문장들이 발견됐다. ‘수박씨 발라 먹어’와 ‘수박 씨발라먹어’는 전혀 다른 말이었기 때문이었다.
공 매니저는 “언어라는 것이 단순히 욕설이나 비속어가 아닌 경우에도 충분히 나쁘다고 느낄 수 있다. 심지어 띄어쓰기에 따라 말이 달라지는데 이런 사례들을 다 걸러내야 했다”며 어려움을 토로했다.
하지만 쉬운 일은 아니었다. 공 매니저는 “무려 250번의 시행착오를 겪었다”고 털어놨다. 초기에는 데이터셋을 5만개를 두고 착오를 줄여나갔다. 하지만 아무리 노력해도 정확도가 92% 이상 올라가지 않았다. 마지막 최후의 수단으로 데이터셋을 최대한 늘렸다. 석 달 동안 200만 개의 데이터셋을 통해 마침내 99.14%의 정확도로 나쁜 말을 찾아내는 네트워크를 구축할 수 있었다.
그는 “AI 딥 러닝 연구는 결국 ‘최소점’을 찾아가는 과정”이라고 설명했다. 더 중요한 것이 있다. 바로 인공지능을 사용하는 인간의 의지다. 우리는 종종 인간을 지배할 정도의 자의식과 능력을 가진 ‘강인공지능’에 대한 우려를 나타낸다. 결국 인공지능은 인간을 닮아갈 것이다. 인간의 언어를 통해 배우는 AI 딥 러닝 연구란 결국 인간이 가진 ‘선함’을 찾아가는 과정이 아닐까.
(29569)
로그인후 이용 가능합니다.
유방암은 흔한 암 유형 가운데 하나다. 세계보건기구(WHO)에 따르면 매년 전 세계에서 유방암 진단을 받는 사람이 약 230만 명에 달한다. 유방암도 초기에 찾아내면 대체로 치료 효과를 볼 수 있다. 하지만 이미 다른 부위로 전이된 상태에서 발견되면 훨씬 더 치료하기 어렵다. 암의 전이는, 원발 암에서 떨어져 나온 '순환 종양 세포' 클러스터(CTCs)가 혈류를 타고 다른 기관으로 이동해 새로운 종양을 형성하는 것이다.
화성 탐사 후발주자인 중국이 미국보다 2년 앞서 화성 암석시료를 지구로 가져올 것이라고 중국 우주탐사 관계자가 밝혔다. UPI 통신과 우주 전문 매체 '스페이스뉴스' 등에 따르면 중국의 화성탐사 미션 '톈원(天問)1'을 설계한 쑨쯔어저우 연구원은 지난 20일 난징대학 개교 120주년 세미나에 참석해 우주선 두 대를 활용해 화성 암석 시료를 지구로 가져오는 '톈원3호' 계획을 공개했다.
정부가 주류시장으로 나아갈 수 있을 것으로 예측되는 미래혁신기술 15개를 도출했다. 선정된 기술은 완전자율 비행체·주행차, 맞춤형 백신, 수소에너지, 초개인화된 인공지능(AI), 생체칩, 복합재난 대응시스템, 양자암호통신기술 등이다. 과학기술정보통신부(과기정통부)는 23일 제40회 국가과학기술자문회의 심의회의 운영위원회를 열고 이같은 내용이 담긴 제6회 과학기술예측조사 결과안 등을 심의·보고했다.
한국과학기술원(KAIST)은 신소재공학과 이건재 교수팀이 100㎚(나노미터) 두께 단일 소자에서 인간 뇌의 뉴런과 시냅스를 동시에 모사하는 뉴로모픽 메모리를 개발했다고 23일 밝혔다. 뉴런은 신경계를 이루는 기본적인 단위세포이고, 시냅스는 뉴런 간 접합 부위를 뜻한다. 1천억개 뉴런과 100조개 시냅스의 복잡한 네트워크로 구성된 인간 뇌는 그 기능과 구조가 고정된 것이 아니라 외부 환경에 따라서 유연하게 변한다.
올해 하반기부터 자율주행차 실증 구간이 기존 7개 지구에서 14개 지구로 확대된다. 국토교통부는 최근 '자율차 시범운행지구 위원회'를 통해 서울 강남과 청계천, 강원도 강릉 등 7개 신규지구 선정과 광주광역시 등 기존 3개 지구 확장에 대한 평가를 마쳤다면서 24일에 시범운행지구를 확정·고시를 할 예정이라고 23일 밝혔다.
'숨소리 빼곤 다 거짓말'이라는 비유적 표현이 있는데, 인간이 내쉬는 날숨도 개인마다 달라 지문이나 홍채 등처럼 생체인증 정보로 활용할 수 있다는 연구 결과가 나왔다. 일본 규슈대학에 따르면 이 대학 재료화학공학연구소 과학자들이 도쿄대학과 함께 날숨에 섞여 있는 화합물을 분석해 개인을 식별, 인증할 수 있는 인공코 시스템을 개발한 결과를 과학 저널 '케미컬 커뮤니케이션스'(Chemical Communications)에 발표했다.
연조직 육종(soft-tissue sarcoma)은 근육, 결합조직, 지방, 혈관, 신경, 힘줄, 관절 활막(joint lining) 등에 생기는 암이다. 신체 부위별로 보면 팔다리, 복강 후벽, 내장, 체강, 두경부 순으로 자주 발생한다. 희소 암으로 분류되기는 하지만, 미국의 경우 한 해 5천 명 넘는 환자가 연조직 육종으로 사망한다. 특히 활막 육종은 폐로 많이 전이해 예후가 좋지 않다.