사이언스타임즈 로고

정보통신기술
김연희 객원기자
2012-10-09

자연어처리, 미래 국가 경쟁력 좌우 컴퓨터 개발 역사와 궤를 같이해

  • 콘텐츠 폰트 사이즈 조절

    글자크기 설정

  • 프린트출력하기

자연어처리에 대한 관심이 늘어나고 있다. 자연어란 컴퓨터 프로그램 언어의 대비되는 말로 영어, 한글 등을 뜻한다. 자연어처리 분야가 우리의 일상에 얼마나 가까이 다가왔는지 자연어처리의 전문가인 서강대 서정연 교수를 만나 이야기를 나누었다.

컴퓨터 개발 역사가 곧 자연어처리 역사

“자연어처리 역사는 컴퓨터 개발 역사와 같습니다. 미국에서 숫자계산을 빨리해 재무제표를 빨리 처리하려고 했던 것도 있지만 러시아 문서를 영어로 빨리 번역할 수 있지 않을까 하는 생각에 컴퓨터 연구를 하기 시작했거든요.”

과거 미국은 텍스트프로세싱에 관한 대형 프로젝트를 많이 진행시켰다. 매해 대회도 열어 연구를 독려하기까지 했다. 우리가 알고 있는 검색엔진이 개발된 배경이다. 구글이나 네이버 같은 검색엔진에는 자연어처리가 바탕이 되고 있다. 간단한 키워드만 넣으면 사용자가 원하는 것을 찾아낸다. 이 때 컴퓨터는 글과 언어로 이루어진 다양한 문서를 처리하는데, 자연어처리 기술이 이 순간 이용된다.

▲ 우리나라 컴퓨터에는 세종대왕의 한글이 없다. ⓒwikipedia

기계번역 서비스 역시 자연어처리 분야 중 하나다. 소프트웨어가 하는 번역이 완벽하지는 않다. 하지만 구글에서 기본적으로 제공하는 번역을 보면 어느 정도 의미 파악이 가능하다. 외국어를 모르지만 다른 나라의 문서를 이해하는 데 도움이 되고 있다.

누리꾼들도 활발하게 이용하고 있다. 특히 한류 열풍이 불면서 우리나라 드라마나 음악에 다른 누리꾼들이 어떤 생각을 갖고 있는지 궁금해 하는 사람이 많아졌다. 그래서 외국 커뮤니티에 그들의 게시판 글을 구글로 번역해 퍼오는 경우가 종종 있다. 국제 경기가 있을 때도 그렇다. 올림픽이나 월드컵 같은 큰 대회일수록 다른 나라의 반응을 공유하는 모습을 심심치 않게 보게 되는데, 구글 번역을 적극 이용하고 있다.

서 교수는 “자연어처리에 과거보다 더 관심이 많아지고 있는 이유 중 하나가 빅데이터 때문”이라면서 “현재 SNS 등으로 과거와는 비교할 수 없을 만큼 많은 문서들이 생산되고 있는데, 이것을 실시간으로 모니터링할 수 있다면 어마어마한 정보가 될 수 있다”고 말했다.
 
자연어처리 종착지는 인공지능

그럼 지금 자연어처리 연구 수준은 어느 정도일까. 미국에 지오파디(Jeopardy)라는 퀴즈 프로그램이 있다. 이 프로그램에서 IBM에서 만든 왓슨이라는 컴퓨터와 사람들이 대결을 펼친 적이 있다. IBM이 기술력 과시를 위해 이 대회에 참여한 것. 사회자가 ‘1988년 올림픽은 어디에서 열렸는가?’ 라는 질문을 하면 답을 맞히는 방식의 게임이다.

왓슨은 백과사전 분량의 어마어마한 데이터를 갖고 있다. 그리고 수천 대의 컴퓨터를 병렬로 돌려 해답을 찾아낸다. 결과도 정확하고 사람보다 빨리 찾아내 1등을 했다. 왓슨은 현재 자연어를 이용한 문서처리 기술 수준을 엿볼 수 있는 한 예이다.

자연어처리는 음성처리 분야와도 밀접한 관계를 맺고 있다. 우리가 스마트폰에 말을 하면 텍스트로 바꾼 후, 그 텍스트가 의미하는 것이 무엇인지 알아내서 응답을 해주거나 다른 처리를 하게 된다.

“사람이 말로 명령을 내리면 그것을 기호로 바꿉니다. 그런 다음 드라마 검색인지, 볼륨을 올려달라는 것인지를 알아내 처리하게 되는데, 자연어처리 기술이 이때 이용되지요. 구글의 무인자동차가 대표적인 기술적용 예라고 할 수 있어요. 현재 네바다주 라스베이거스에서 주행권이 인정돼 운행이 가능하답니다.”

자연어처리는 언어학을 분석해 컴퓨터에 적용하는 기술이다. 의도를 분석하는 것이 현재 최종목표이다. 사실 이 정도 수준이면 인공지능이라고 볼 수 있다. 쉽게 상상하자면 터미네이터이다. 터미네이터2 영화를 보면 터미네이터가 헤어질 때 “눈물의 의미를 이제야 알 것 같군.”이란 말을 한다. 스스로 학습을 통해 의미와 의도를 파악하고 있음을 보여주는 장면이다.

아직도 갈 길이 먼 분야

▲ 서강대 서정연 교수 ⓒiini0318
우리나라 자연어처리 기술은 어느 정도 수준에 올라왔지만 여전히 갈 길이 멀다. 정확히 말하자면 첫 걸음부터 문제를 안고 있었다. 각 나라마다 글이 다르다. 글자마다 표현방법도 달랐다. 컴퓨터 글자에 대한 코드 표준을 만들게 된 계기이다.
 
미국에서 아스키코드가 나온 이유가 알파벳 코드를 표준화하기 위해서였다. 우리나라 역시 1987년 정부가 표준을 만들었다. 그런데 세종대왕의 창제원리와 다르게 만들어졌다. 자음과 모음만 만들면 될 코드였지만 중국처럼 한 글자당 하나의 코드인 완성형으로 만들었다.

당시 초등학교 교과서에 나오는 글자도 안 되는 경우가 생기기도 했다. 문제제기 끝에 1992년 조합형도 표준코드로 인정했다. 하지만 이미 그 사이에 어마어마한 문서들이 만들어져 버렸다. 조합형 코드로의 변환을 주저한 이유이다.

그래서 우리나라 컴퓨터에는 세종대왕의 한글이 없다. 더 끔직한 것은 우리나라는 한자, 영어, 한글 모두 사용하기 때문에 3개국의 코드가 필요하다. 중국보다 더 많은 코드를 쓰고 있는 셈이다. 하지만 난관이 있다고 포기할 수는 없는 일.

서 교수는 “약 60년간 자연어처리 연구과정에서도 수많은 문제들이 있었지만 컴퓨터가 사람처럼 똑똑하게 뭔가 해줄 수 있기를 바라고 있는 이상 이 연구는 계속될 수밖에 없다”면서 “자연어처리는 국가 경쟁력을 좌우하게 될 미래 총아이기 때문에 투자와 인재육성에 국가적으로 더욱 관심을 가질 필요가 있다”고 지적했다.

김연희 객원기자
iini0318@hanmail.net
저작권자 2012-10-09 ⓒ ScienceTimes

관련기사

목록으로
연재 보러가기 사이언스 타임즈에서만 볼 수 있는
특별한 주제의 이야기들을 확인해보세요!

인기 뉴스 TOP 10

속보 뉴스

ADD : 06130 서울특별시 강남구 테헤란로7길 22, 4~5층(역삼동, 과학기술회관 2관) 한국과학창의재단
TEL : (02)555 - 0701 / 시스템 문의 : (02) 6671 - 9304 / FAX : (02)555 - 2355
정기간행물 등록번호 : 서울아00340 / 등록일 : 2007년 3월 26일 / 발행인 : 정우성 / 편집인 : 윤승재 / 청소년보호책임자 : 윤승재
한국과학창의재단에서 운영하는 모든 사이트의 콘텐츠는 저작권의 보호를 받는 바 무단전재, 복사, 배포 등을 금합니다.

사이언스타임즈는 과학기술진흥기금 및 복권기금의 지원으로 우리나라의 과학기술 발전과 사회적 가치 증진에 기여하고 있습니다.