자연어처리 기술, 사람 수준 뛰어넘었다

[AI 돋보기] NLP 응용한 서비스 개발 활기

인공지능(AI) 시대라고 하면, 터미네이터와 같은 공상과학(SF) 영화를 종종 떠올릴 것이다. SF 영화에서 AI는 사람의 말을 자연스럽게 이해하고 대화까지 하기도 한다. 그리고 사람과의 우정을 나누는 모습도 보인다.

실제로 기계 혹은 시스템을 다룰 때, 마우스가 아닌 음성명령은 사람이 기계에 좀 더 친숙함을 느끼게 한다. 시장 연구 기관 ‘캡제미니(Capgemini)’는 2017년 5041명을 대상으로 AI 스피커 사용 이유에 관한 설문을 조사한 바 있다. 그중 37%가 자연스러움을 이유로 꼽았고, 또한 35%는 사람과 같은 친숙함을 느끼는 것을 이유로 꼽기도 했다.

이러한 조사는 사람이 기계에 느끼는 우정은 결코 SF 영화에서만 일어나지 않음을 보여준다. SF 영화와 같은 일이 곧 벌어질 수 있음을 보여준다.

사람 언어를 이해하게 하는 자연어처리 기술

사람과 소통하는 ‘자연어처리’ 기술 ⓒPixabay

이처럼 사람과 소통할 수 있게 하는 기술을 자연어처리(NLP, Natural Language Processing)라고 한다. ‘자연어처리의 상업용 응용(Commercial Application of Natural Language Processing)’이라는 논문에 따르면, NLP 연구 분야는 5가지로 나눌 수 있다.

첫 번째 분야는 자연어 이해 부분이다. 이는 사람의 언어를 이해하는 기술을 말한다. 두 번째는 자연어 생성이다. 기계의 작문 기술로 이해할 수 있다. 세 번째는 음성인식기술이 있다. 네 번째는 기계번역(MT, Machine Translation)이다. 마지막은 오타 검열이다.

이처럼 NLP 적용 분야는 방대하다. 역사 또한 생각보다 오래됐다. NLP 역사는 1946년으로 거슬러 올라간다. 미국 과학자 워런 웨이버(Warren Weaver)는 2차 세계대전 때 적군의 암호문을 번역해 정보를 알아내기 위한 용도로 기계번역(MT, Machine Translation)이라는 기술을 개발해냈다. 그 후 MT는 암호문 분석뿐만 아니라 언어 번역에도 확장돼 연구되기 시작했다.

1970년부터는 자연어 생성에 관한 연구도 활발하게 진행되기 시작했다. 미국 컬럼비아대학교수인 캐틀린 매케운(Kathleen McKeown)은 ‘텍스트 생성(Text Generation)’이라는 저서를 출간했는데, 이는 자연어 생성 연구 보편화에 많은 영향을 미쳤다. 그리고 미국 펜실베이니아대학교수인 로버트 루빈오프(Robert Rubinoff)는 단문을 생성할 수 있는 시스템을 개발했다.

현재 NLP는 빠르게 발전하고 있다. 이는 인터넷 등장과 관련이 있다. 인터넷은 자연어로 된 문서를 시스템에 등록할 수 있게 했는데, 컴퓨터(혹은 시스템)가 학습할 수 있는 방대한 자료가 쌓인 셈이다.

이와 함께 기계학습 등장은 NLP 기술 수준을 급진적으로 발전시켰다. 기계학습은 주어진 데이터로 알고리즘을 만들어내는 기술이다. 참고로 알고리즘은 시스템 동작을 위한 규칙 혹은 공정도로 정의할 수 있다. 따라서 NLP에서 기계학습은 자연어에 필요한 규칙 혹은 알고리즘을 스스로 만드는 역할을 한다.

사람보다 언어를 더 잘 이해하는 시스템

그럼 현재 NLP 수준은 어디까지 와있는 것일까?

핫팟큐에이(HotpotQA)는 미국 대학에서 만든 영어 부분의 자연어 이해 경진대회로, 시스템이 문제에 관한 답을 위키피디아에서 찾는 형식이다. 삼성SDS는 가장 난이도가 높은 ‘완전위키설정(FullwikiSetting)’라는 곳에서 1등을 했는데, 2개 이상의 문장으로 된 질문이 주어지면 위키피디아에서 답을 찾는 형태이다.

삼성SDS는 한국어 부분의 자연어 이해 대회에서도 1등을 차지한 바 있다. 코쿼드(KorQuAD, Korean Question Answering Dataaset)은 시스템의 한국어 이해 능력을 평가하는 시험이다. 삼성SDS는 한국어 위키피디아 전체에서 답을 찾는 부분 대회에서 1등을 차지했는데, 더 놀라운 점은 사람보다 더 높은 점수를 받았다는 것이다. 이러한 점은 NLP의 수준이 사람을 능가하고 있음을 보여준다.

자연어 이해뿐만 아니라 문장 생성에서도 기술 수준이 빠르게 발전하고 있다. 전 세계적으로 AI 연구로 유명한 오픈에이아이(OpenAI)는 지난 6월  3세대 지피티(GPT-3)를 공개했다. GPT-3은 3000억 개의 자료집합(Data Set)으로 구성돼 있으며, 매개변수는 1750억 개에 달한다. 이러한 매개변수 수치는 작년에 출시된 GPT-2보다 100배 이상 높다.

참고로 GPT-3는 핵심어만 몇 개 넣으면 알아서 문장으로 만들어주는 기술인데, 500자 중문에서 일반 성인과 비슷한 수준으로 글을 만들어낸다.

GPT-3 수정 권한을 얻은 MS. ⓒWikimedia

최근 오픈에이아이는 매개변수가 100조 개에 달하는 GPT-4를 출시 준비 중인 것으로 알려져 있다. 그뿐만 아니라 지난 9월 마이크로소프트(MS)가 GPT 3에 관한 수정 권한을 독점적으로 획득했다고 알려졌는데, 이에 따라 MS가 주도하는 NLP 기술 발전이 기대되고 있다.

구글의 경우에는 작년에 NLP 모델인 버트(BERT)를 선보였다. 그리고 이를 검색엔진에도 적용했는데, 검색엔진의 정확도가 크게 올라간 것으로 알려져 있다.

지난 12일 네이버는 자체 슈퍼컴퓨터를 이용해 한국어와 일본어 부분에 있어 최고 성능의 NLP를 개발하겠다고 밝혔다. NLP 성능에 있어 언어 데이터 분석이 핵심인데, 이에 슈퍼컴퓨터를 이용하겠다는 계획을 수립했다.

케이티(KT)는 지난 26일에 고객상담 편의를 위해 제공하는 챗봇 서비스인 케이톡3.0을 출시했다고 밝혔다. 케이톡3.0은 고객의 이해를 돕기 위해 이미지형 답변 제시뿐만 아니라 질문 의도를 미리 파악할 수 있는 기능까지 추가됐다. 같은 일자에 카카오는 자체 AI 플랫폼을 탑재한 AI 스피커인 ‘미니 핵사’를 선보였다. 다른 AI 스피커와 마찬가지로 카카오 챗봇 기능을 통해 음성 명령을 내릴 수 있다.

이처럼 NLP 분야에 관한 연구가 한창이다. 한 축에는 NLP 자체 연구가 진행되고 있다면, 다른 축에서는 이를 응용한 서비스 개발이 한창이다. SF 영화처럼 시스템(혹은 기계)과 자연스러운 대화할 날이 곧 다가올 것으로 보인다.

(3211)

태그(Tag)

전체 댓글 (0)

과학백과사전