October 20,2018

기계번역 어디까지 진화했나?

스스로 학습해 번역 수준 높여

FacebookTwitter

필자는 종종 외부에서 전문가 기고 요청을 받는다. 이중 황당한 사례가 간혹 있다.

몇 달 전의 일이다. 특정 국가의 IT 정책 추진 방향에 대한 원고를 청탁받았다. 여기까지는 일반적인 원고 요청과 크게 다르지 않았다.

문제는 발주 기관에서 독일어로 된 보고서를 주면서 벌어졌다. 해당 내용을 원고에 꼭 반영해달라는 요청이었다.

필자가 “독일어를 못 한다”고 얘기하자 “구글 번역기를 쓰면 된다”는 답변이 돌아왔다. 평소 번역기를 사용할 일이 없어서인지 필자는 약간 당황했다.

그런데 이러한 당황스러움은 놀라움으로 변했다. 구글 번역기를 활용해 독일어를 영어로 번역한 내용을 읽었는데 번역이 거의 완벽한 것이었다.

간혹 이상한 번역이 있긴 했지만, 내용 이해에는 어떤 영향도 주지 않았다. 기계번역 기술이 크게 진보했음을 처음으로 느낀 순간이었다.

언어를 자동으로 번역해주는 ‘기계번역’  ⓒ Pixabay

언어를 자동으로 번역해주는 ‘기계번역’ ⓒ Pixabay

AI보다 먼저 출현한 기계번역

기계번역은 특정 언어를 자동으로 번역해주는 기술이다. 구글 번역 또한 이에 속한다.

기계번역이 이처럼 발전한 이유는 개발 역사가 길기 때문이다. 인공지능(AI)보다도 먼저 출현했다.

AI는 1956년 다트머스 대학교 회의에서 처음 논의돼 그 개념이 확립됐다. 기계번역은 그보다 2년 전인 1954년에 이미 실증 기술이 나올 정도로 연구가 활발히 진행되고 있었다.

기계번역의 역사는 냉전 시대인 1947년까지 거슬러 올라간다. 당시 록펠러 재단의 워런 웨이버 (Warren Weaver) 연구 책임자는 매사추세츠 공과 대학(MIT) 노버트 위너 (Nobert Wiener) 교수에게 기계번역과 유사한 개념을 개발할 것을 제안했다. 그러나 위너 교수는 이에 회의적이어서 본격적인 연구는 진행되지 않았다.

본격적인 연구는 1951년이 되어서야 진행됐다. 1951년 워런 웨이버는 미 국립과학재단 (NSF)의 이사가 되면서 기계번역 연구 관련 지원펀드를 조성했다. 이를 계기로 워싱턴 대학, 미시건 대학, UC 버클리 등 주요 대학이 기계번역 연구에 적극적인 관심을 가지게 되었다.

그러나 당시 기계번역 수준은 매우 낮았다. 문장을 사전으로 바꿔주는 수준에 불과했다.

이에 많은 이들이 회의감을 드러냈다. 당시 기계번역 연구에 참여했던 언어학자 여호수아 바 힐레(Yehosua Bar-Hillel) 조차 “기계번역이 인간 번역가를 완전히 대체하기는 어려울 것”이라고 전망했다.

기계번역 연구 확립에 핵심 역할을 한 ‘워렌 웨이버’  ⓒ Picry

기계번역 연구 확립에 핵심 역할을 한 ‘워렌 웨이버’ ⓒ Picry

이에 아랑곳 않고 기계번역 연구는 계속 진행됐다. 이후 기계번역 기술은 몇 가지 단계를 거치며 발전해나갔다.

그 첫 번째가 ‘규칙 기반 기계번역(RBMT)’의 등장이다. 이는 개발자가 입력한 규칙에 따라 시스템이 번역하는 방식이었다.

RBMT에서 가장 먼저 등장한 접근법은 ‘직접적인 기계번역(Direct Machine Translation)’이다.

해당 접근법은 원문을 규칙에 따라 바로 번역문으로 바꾸는 방식이다. 개발자가 정한 단어 배열, 어법에 따라 시스템이 번역 결과를 산출해내는 것이다.

이후 다국어를 좀 더 효과적으로 번역하게 하기 위한 접근법인 ‘중간언어 기계번역 (Interlingual Machine Translation)’이 등장했다.

이 방식이 기존 방식과 다른 점은 원문과 번역문 사이에 ‘중성 언어(Neutral Language)’가 존재한다는 것이다. 여기서 중성 언어는 ‘특정 언어에 국한되지 않고 모든 언어를 아우를 수 있는 언어’다.

두 방식의 차이를 좀 더 구체적으로 설명하기 위해 예를 들어보자. ‘안녕’이라는 단어를 RBMT 방식으로 구현하는 것이다.

직접적인 기계번역 방식은 한국어를 영어, 일본어, 불어, 독일어 등으로 번역할 때의 규칙을 일일이 만들어야 한다.

반면 중간언어 기계번역은 중성 언어에 ‘안녕’에 해당하는 각국 언어를 포함시키기만 하면 되기 때문에 규칙을 일일이 만들 필요가 없다.

위에서 보듯이, 중간언어 기계번역은 이전의 직접적인 기계번역에 비해 훨씬 효율적이다.

그러나 RBMT 방식 자체가 가진 문제점을 뛰어넘을 수는 없었다. 사람이 규칙을 만들어야 하므로 수많은 언어를 번역할 수 있는 시스템을 구현하기에는 한계가 있었던 것이다.

그래서 등장한 것이 ‘말뭉치 기반 기계번역(Corpus-based Machine Translation)’이다.

말뭉치 기반 기계번역은 크게 ‘예시 기반 기계번역(EBMT)’와 ‘통계 기반 기계번역(SMT)’으로 나뉜다.

예시 기반 기계번역은 번역한 원문과 번역문의 정보를 그대로 저장해뒀다가, 똑같은 문장의 번역 요청이 있을 시 이러한 정보를 활용해 번역 결과를 내놓는다.

통계 기반 기계번역은 원문과 번역문의 언어 상관관계 빈도수를 분석하고 이를 통계화해 번역문 산출에 활용한다.

해당 번역 시스템은 통계화 방식을 ‘단어’로 하느냐, ‘구’로 하느냐에 따라 번역 방식이 달라지는 특성이 있다. 단어 기반으로 통계화할 시에는 단어 조합 및 배열에 초점을 두는 반면, 구를 기반으로 통계화할 시에는 구(혹은 말뭉치)에 초점을 둔다.

통계 기반 기계번역은 시스템이 자동으로 번역 방식을 익힌다는 점에서 RBMT보다 번역구현이 용이하다. 뿐만 아니라 번역 완성도도 높다는 장점이 있다.

딥 러닝 알고리즘이 더해진 기계번역 기술 ‘NMT’  ⓒ Pixabay

딥 러닝 알고리즘이 더해진 기계번역 기술 ‘NMT’ ⓒ Pixabay

딥 러닝 알고리즘으로 더욱 발전

근래에는 딥 러닝 알고리즘을 통해 기계번역의 수준이 급상승하고 있다. 최근 주목받고 있는 기술은 ‘인공 신경망 기반의 기계번역(NMT)’이다.

인공 신경망은 원문을 번역문으로 번역할 때, 원 문장을 벡터라는 값으로 전환한다.

해당 벡터 속에는 단어, 어순, 문법 등 여러 요인이 포함돼 있다. 인공 신경망은 이러한 요인을 기반으로 정확도가 높은 번역문을 산출해낸다.

아울러 기계번역이 스스로 학습하는 기술도 개발되고 있다. 대표적인 기술로 ‘역 번역(Back Translation)’과 ‘디노이징(Denoising)’이 있다.

역 번역은 말 그대로 원문에서 나온 번역문을 다시 원문의 언어로 번역해서 기존 원문과 유사한지를 확인함으로써 정확도를 개선하는 기술이다.

디노이징은 역 번역보다 좀 더 복잡한 개념이다. 역 번역 과정에서 문장에 단어 등을 추가해 원문의 언어로 번역하게 한다. 그 유사성을 분석해 정확도를 개선하는 기술이다.

이렇게 기계번역은 오랜 기간의 발전을 거쳐 상당한 수준에 이르게 됐다. 인간 번역가를 대체할 수 있다는 전망도 나올 정도다.

언어 정보 제공 사이트 에스놀로그(Ethnologue)에 따르면 세계에는 7,097가지의 언어가 존재한다. 기계번역으로 인해 이러한 언어의 장벽이 무너지지 않을까 하는 생각이 든다.

의견달기(0)