스스로 학습해 번역 수준 높여
필자는 종종 외부에서 전문가 기고 요청을 받는다. 이중 황당한 사례가 간혹 있다.
몇 달 전의 일이다. 특정 국가의 IT 정책 추진 방향에 대한 원고를 청탁받았다. 여기까지는 일반적인 원고 요청과 크게 다르지 않았다.
문제는 발주 기관에서 독일어로 된 보고서를 주면서 벌어졌다. 해당 내용을 원고에 꼭 반영해달라는 요청이었다.
필자가 “독일어를 못 한다”고 얘기하자 “구글 번역기를 쓰면 된다”는 답변이 돌아왔다. 평소 번역기를 사용할 일이 없어서인지 필자는 약간 당황했다.
그런데 이러한 당황스러움은 놀라움으로 변했다. 구글 번역기를 활용해 독일어를 영어로 번역한 내용을 읽었는데 번역이 거의 완벽한 것이었다.
간혹 이상한 번역이 있긴 했지만, 내용 이해에는 어떤 영향도 주지 않았다. 기계번역 기술이 크게 진보했음을 처음으로 느낀 순간이었다.
AI보다 먼저 출현한 기계번역
기계번역은 특정 언어를 자동으로 번역해주는 기술이다. 구글 번역 또한 이에 속한다.
기계번역이 이처럼 발전한 이유는 개발 역사가 길기 때문이다. 인공지능(AI)보다도 먼저 출현했다.
AI는 1956년 다트머스 대학교 회의에서 처음 논의돼 그 개념이 확립됐다. 기계번역은 그보다 2년 전인 1954년에 이미 실증 기술이 나올 정도로 연구가 활발히 진행되고 있었다.
기계번역의 역사는 냉전 시대인 1947년까지 거슬러 올라간다. 당시 록펠러 재단의 워런 웨이버 (Warren Weaver) 연구 책임자는 매사추세츠 공과 대학(MIT) 노버트 위너 (Nobert Wiener) 교수에게 기계번역과 유사한 개념을 개발할 것을 제안했다. 그러나 위너 교수는 이에 회의적이어서 본격적인 연구는 진행되지 않았다.
본격적인 연구는 1951년이 되어서야 진행됐다. 1951년 워런 웨이버는 미 국립과학재단 (NSF)의 이사가 되면서 기계번역 연구 관련 지원펀드를 조성했다. 이를 계기로 워싱턴 대학, 미시건 대학, UC 버클리 등 주요 대학이 기계번역 연구에 적극적인 관심을 가지게 되었다.
그러나 당시 기계번역 수준은 매우 낮았다. 문장을 사전으로 바꿔주는 수준에 불과했다.
이에 많은 이들이 회의감을 드러냈다. 당시 기계번역 연구에 참여했던 언어학자 여호수아 바 힐레(Yehosua Bar-Hillel) 조차 “기계번역이 인간 번역가를 완전히 대체하기는 어려울 것”이라고 전망했다.
이에 아랑곳 않고 기계번역 연구는 계속 진행됐다. 이후 기계번역 기술은 몇 가지 단계를 거치며 발전해나갔다.
그 첫 번째가 ‘규칙 기반 기계번역(RBMT)’의 등장이다. 이는 개발자가 입력한 규칙에 따라 시스템이 번역하는 방식이었다.
RBMT에서 가장 먼저 등장한 접근법은 ‘직접적인 기계번역(Direct Machine Translation)’이다.
해당 접근법은 원문을 규칙에 따라 바로 번역문으로 바꾸는 방식이다. 개발자가 정한 단어 배열, 어법에 따라 시스템이 번역 결과를 산출해내는 것이다.
이후 다국어를 좀 더 효과적으로 번역하게 하기 위한 접근법인 ‘중간언어 기계번역 (Interlingual Machine Translation)’이 등장했다.
이 방식이 기존 방식과 다른 점은 원문과 번역문 사이에 ‘중성 언어(Neutral Language)’가 존재한다는 것이다. 여기서 중성 언어는 ‘특정 언어에 국한되지 않고 모든 언어를 아우를 수 있는 언어’다.
두 방식의 차이를 좀 더 구체적으로 설명하기 위해 예를 들어보자. ‘안녕’이라는 단어를 RBMT 방식으로 구현하는 것이다.
직접적인 기계번역 방식은 한국어를 영어, 일본어, 불어, 독일어 등으로 번역할 때의 규칙을 일일이 만들어야 한다.
반면 중간언어 기계번역은 중성 언어에 ‘안녕’에 해당하는 각국 언어를 포함시키기만 하면 되기 때문에 규칙을 일일이 만들 필요가 없다.
위에서 보듯이, 중간언어 기계번역은 이전의 직접적인 기계번역에 비해 훨씬 효율적이다.
그러나 RBMT 방식 자체가 가진 문제점을 뛰어넘을 수는 없었다. 사람이 규칙을 만들어야 하므로 수많은 언어를 번역할 수 있는 시스템을 구현하기에는 한계가 있었던 것이다.
그래서 등장한 것이 ‘말뭉치 기반 기계번역(Corpus-based Machine Translation)’이다.
말뭉치 기반 기계번역은 크게 ‘예시 기반 기계번역(EBMT)’와 ‘통계 기반 기계번역(SMT)’으로 나뉜다.
예시 기반 기계번역은 번역한 원문과 번역문의 정보를 그대로 저장해뒀다가, 똑같은 문장의 번역 요청이 있을 시 이러한 정보를 활용해 번역 결과를 내놓는다.
통계 기반 기계번역은 원문과 번역문의 언어 상관관계 빈도수를 분석하고 이를 통계화해 번역문 산출에 활용한다.
해당 번역 시스템은 통계화 방식을 ‘단어’로 하느냐, ‘구’로 하느냐에 따라 번역 방식이 달라지는 특성이 있다. 단어 기반으로 통계화할 시에는 단어 조합 및 배열에 초점을 두는 반면, 구를 기반으로 통계화할 시에는 구(혹은 말뭉치)에 초점을 둔다.
통계 기반 기계번역은 시스템이 자동으로 번역 방식을 익힌다는 점에서 RBMT보다 번역구현이 용이하다. 뿐만 아니라 번역 완성도도 높다는 장점이 있다.
딥 러닝 알고리즘으로 더욱 발전
근래에는 딥 러닝 알고리즘을 통해 기계번역의 수준이 급상승하고 있다. 최근 주목받고 있는 기술은 ‘인공 신경망 기반의 기계번역(NMT)’이다.
인공 신경망은 원문을 번역문으로 번역할 때, 원 문장을 벡터라는 값으로 전환한다.
해당 벡터 속에는 단어, 어순, 문법 등 여러 요인이 포함돼 있다. 인공 신경망은 이러한 요인을 기반으로 정확도가 높은 번역문을 산출해낸다.
아울러 기계번역이 스스로 학습하는 기술도 개발되고 있다. 대표적인 기술로 ‘역 번역(Back Translation)’과 ‘디노이징(Denoising)’이 있다.
역 번역은 말 그대로 원문에서 나온 번역문을 다시 원문의 언어로 번역해서 기존 원문과 유사한지를 확인함으로써 정확도를 개선하는 기술이다.
디노이징은 역 번역보다 좀 더 복잡한 개념이다. 역 번역 과정에서 문장에 단어 등을 추가해 원문의 언어로 번역하게 한다. 그 유사성을 분석해 정확도를 개선하는 기술이다.
이렇게 기계번역은 오랜 기간의 발전을 거쳐 상당한 수준에 이르게 됐다. 인간 번역가를 대체할 수 있다는 전망도 나올 정도다.
언어 정보 제공 사이트 에스놀로그(Ethnologue)에 따르면 세계에는 7,097가지의 언어가 존재한다. 기계번역으로 인해 이러한 언어의 장벽이 무너지지 않을까 하는 생각이 든다.
(11159)
로그인후 이용 가능합니다.
/ 과학기술정보통신부는 23일 올해 공공 분야의 소프트웨어·정보통신기술(ICT) 장비·정보보호 사업 규모가 작년보다 2.7% 증가한 6조2천239억원으로 집계됐다고 밝혔다. 소프트웨어 구축 사업 예산이 4조5천406억원으로 가장 많았고 상용 소프트웨어 구매에 3천605억원이 소요되는 것으로 조사됐다. 컴퓨팅, 네트워크, 방송 장비 등 ICT 장비 구매 비용은 1조 3천227억원으로 나타났다. (11)
/ 36개국이 한국에 모여 기후변화 대응을 위한 기술 협력방안 도출에 머리를 맞댄다. 과학기술정보통신부는 유엔기후변화협약 기술메커니즘 이사회가 24일 개막했다고 밝혔다. 이사회는 오는 29일까지 인천 송도에서 계속된다. 유엔기후변화협약은 온실가스 감축을 위해 1992년 설립된 협약이다. 총 198개국이 참여하는 규범으로, 매년 당사국총회를 열어 주요 사항을 결정한다. 기후메커니즘은 2010년 당사국총회에서 기후변화대응을 위한 과학기술 중요성에
/ 울산과학기술원(UNIST)은 혈관이 막혀 실명으로 이어질 수 있는 응급 질환인 망막혈관폐쇄질환을 치료할 수 있는 실마리를 발견했다고 23일 밝혔다. UNIST에 따르면 화학과 조재흥 교수팀은 서울아산병원 안과 이준엽 교수팀, 한국과학기술원(KAIST) 백무현 교수팀과 망막혈관폐쇄질환의 새로운 치료법을 찾기 위한 공동연구를 진행했다. 공동연구진은 폐쇄된 혈관을 확장해 효과적으로 흐름을 복구하는 ‘철-일산화질소 복합체’ 개발에 성공했다 일산화질소는
/ 충남 천안아산 KTX역세권 연구개발(R&D) 집적지구 1호 사업인 충남지식산업센터가 23일 준공됐다. 센터는 천안시 서북구 불당동 4천510㎡ 부지에 지하 1층·지상 6층 규모(연면적 1만2천471㎡)로 건립됐다. 입주대상은 지식산업, 정보통신, 제조업과 관련 지원시설 등이다. 반도체 장비 제조, 엔지니어링, 소프트웨어 개발, 산업용 필터 등 12개 기업이 이달 중 입주할 예정이다. 충남도는 지식산업센터를 통해 일자리
/ 한국과학기술원(KAIST) 부설 인공지능(AI) 바이오 영재고가 청주시 흥덕구 오송읍에 들어선다. 개교 목표 시기는 2027년 3월이다. 충북도는 23일 한국과학기술원이 희망하는 학교 부지요건 등에 대한 의견을 듣고 도교육청과 함께 숙고한 끝에 오송읍을 건립 부지로 결정했다고 밝혔다. 부지 선정의 결정적 요건은 향후 설립될 한국과학기술원 오송캠퍼스와의 접근성, 핵심인력 양성의 용이성 등이었다. 오송에는 첨단의료제품
/ 교육부는 교원의 인공지능(AI)·디지털 역량을 강화하기 위한 ‘2023년 아이에답(AIEDAP) 사업 착수보고회’를 23일 서울 중구 한국프레스센터에서 연다고 밝혔다. 아이에답은 민·관·학 디지털 전문가가 현직 교원과 예비 교원의 디지털 역량 강화를 지원하는 사업으로 지난해 시작됐다. 올해는 지역 여건에 맞는 사업을 추진할 수 있도록 권역별 사업지원단을 꾸리고, 교육 현장에서 디지털 기술을 바탕으로 수업을
/ 강원 양구군은 치매 환자, 독거노인 등 돌봄이 필요한 고령자를 대상으로 인공지능(AI) 말벗 인형 ‘천사친구 효돌·효순이’ 서비스를 제공한다고 23일 밝혔다. 군은 치매안심센터에 등록한 맞춤형 사례관리 대상자 중 우울 척도가 높은 10명에게 오는 12월까지 말벗 인형을 지원한다. 이는 정서·인지 정도가 다소 낮은 어르신을 돕는 인형 모양의 로봇이다. 일상 중 말벗이