기획·칼럼

터치가 아닌 음성 명령 시대로 전환하다?

[AI 돋보기] 음성 합성·화자 인식이 함께 주목받을 전망

음성인식 시대를 연 알렉사. ⓒ Flickr

인공지능(AI) 기반 음성인식은 2017년부터 꾸준히 주목받고 있다. 2017년 아마존은 자체 AI 스피커인 알렉사를 업무 전시용으로 활용했는데, 이는 많은 사람이 음성인식 기술에 관심을 두게 했다.

이러한 주목은 음성인식 기능을 주위에서 쉽게 찾아볼 수 있게 했다. 스마트폰을 열면, 스마트폰 자체 혹은 앱에서 이러한 기능을 엿볼 수 있다. 가령 검색, 입력 등의 업무를 음성 명령어로 수행할 수 있다.

음성 인식이 보편화됨에 따라 음성 인식 시장도 빠르게 성장할 전망이다. 그랜드뷰리서치(GrandViewResearch)는 2017년 음성 인식 시장규모를 91.2억 달러(약 1.1조 원)로 추정했다. 그리고 2025년까지 연간 17.2%로 성장해 318.2억 달러(약 38.2조 원)의 시장을 형성할 것으로 전망했다.

국내 산업, 음성인식 경쟁력 갖추기 위한 준비 중

이러한 흐름에 발맞춰 국내 산업은 음성 인식의 경쟁력을 세계 수준으로 올리기 위해 노력 중이다. 지난 4일 엘지유플러스(LGU+)와 엘지전자(LG전자)는 AI원팀에 참여한다고 밝혔다. AI원팀은 AI 생태계를 구축을 위해 구성된 협의체이다. 해당 협의체에는 케이티(KT)를 비롯해 한국과학기술원(KAIST), 현대중공업, 한양대학교, 한국전자통신연구원(ETRI) 등이 참여하고 있다.

특히, LGU+는 AI원팀에 참여할 뜻을 밝힘으로써, 경쟁사인 KT와 함께 협력하게 된다. 세계 시장과 경쟁하기 위해서는 국내 경쟁사와의 협력도 꺼리지 않겠다는 입장이다.

LGU+, LG전자 그리고 KT는 AI 사업 관련으로 여러 부분에서 협력할 계획이다. 음성인식 부분에서도 협력할 계획인데, KT와 LGU+는 음성 인식 플랫폼을 서로 연동케 할 계획이다. 또한 LG전자는 두 기업과 함께 스마트홈서비스도 연동할 계획인데, 이에 따라 음성인식 기술도 연동할 수 있을 것으로 보인다.

법 또한 음성인식 기술 경쟁력 향상을 위해 개선될 전망이다. 지난 3일 방송통신위원회(방통위)는 신산업 현장 애로 부분을 해소하기 위해 35건의 규제를 개선하기로 했다. 그중 음성인식에 관한 법안도 포함돼 있다.

현재 AI 스피커 사업자는 사용자 음성 데이터를 수집하기 위해 사용자 동의를 매번 받고 있다. 이는 작년 음성 데이터 수집으로 논란됐던 개인정보침해 가능성을 예방하고자 함이다. 그러나 이러한 규제는 해외 사업자에게는 적용되지 않아 형평성 문제가 있을 뿐만 아니라, 세계 시장에서 경쟁력을 떨어뜨린다.

데이터 학습은 AI 경쟁력에서 핵심인데, 매번 동의를 받는 것은 AI 음성인식 기술 경쟁력을 떨어뜨리는 행위이다. 이러한 이유로, 방통위는 음성 데이터 사용 동의 절차를 간소화하도록 했다. 사용자 음성인식 기술 고도화 시 최초 1회만 동의 받도록 개선했다. 해당 규제는 올 12월부터 시행된다.

음성인식을 포함한 3가지 기술이 주목받을 전망

국내외 상황을 볼 때, 음성인식 산업은 빠르게 발전 중이다. 그럼 음성인식은 어떤 원리로 동작하는 것일까?

음성 인식은 시스템이 음성을 인식해 문자로 바꿔주는 기술로 정의하는데, 음향 모델과 언어 모델을 기반으로 하고 있다. 음향 모델은 글자 기호의 소리에서 나타나는 음향 신호를 수집하고 분석해놓은 알고리즘이다. 특정 음향이 들리면, 이러한 알고리즘에 따라 글자 기호를 추론한다.

언어 모델은 음향 모델을 교정하는 역할을 한다. 음향모델에서 추론한 기호를 보고, 해당 기호와 매칭되는 단어 혹은 문장을 연결해 준다. 음향 모델에서 추론한 기호와 단어 간에 관계를 분석한 알고리즘으로 볼 수 있다.

최근 음성 인식은 시스템이 음성 내용을 이해할 수 있는 기능까지 포함하고 있다. 따라서 이러한 기술에서 자연어 처리 기술까지 포함하는 것이 강조되고 있다. 그뿐만 아니라, 음성 합성 기술까지 중요해지고 있다.

음성 합성은 음성을 만들어내는 기술인데, 이러한 기술이 중요해진 이유는 시스템이 음성 내용을 이해함에 따라 사람과의 상호작용이 가능해지고 있기 때문이다. 기술 구현 방법은 음성 인식과 비슷하다. 엄밀히 말해, 음성 인식과 반대로 생각하면 된다. 음성 합성은 발음할 단어에 따른 음향 정보를 추론해 음성을 만들어내기 때문이다.

시스템이 사람 간의 상호 작용을 위해서 음성 인식과 음성 합성만으로는 충분하지 않다. 누구와 대화하고 있는지에 관한 인식도 중요하다. 다자간 대화 시에 필요한 상대방 인식이 필요한 셈이다.

화자 인식이 이러한 역할을 담당한다. 화자 인식은 시스템이 사용자의 목소리를 분석해 사용자를 인식하는 기술이다. 해당 기술은 2017년 하반기부터 적용되기 시작했는데, 이유는 AI 스피커가 사용자와 관계없이 음성 명령어에 반응했기 때문이다.

참고로 2017년 1월 미국 텍사스주에는 이와 관련한 황당한 사건이 발생했다. 6살 소녀가 AI 스피커에 장난으로 말한 말이 그대로 실행됐기 때문이다. 소녀는 AI 스피커에 장난감과 쿠키를 요구했는데, 그대로 실행돼 배달됐다.

성문을 표현한 그림. ⓒ Needpix

화자 인식은 생각보다 오래전인 1937년부터 연구됐다. 당시 목적은 법정에서 활용되는 목소리 출처를 분명하게 밝히기 위함이다. 녹음된 음성 주체가 본인이 아니라고 반박할 수 있는 소지가 있는데, 화자 인식은 이러한 반박의 여지를 막는다.

화자 인식 원리는 목소리 지문이라고 불리는 ‘성문’에 있다. 성문에 나타나는 특징으로 말하는 주체를 파악하는 셈인데, 화자 인식은 성문 분석과 함께 발전해왔다.

음성인식의 최대 장점은 편리성’과 ‘친밀성’

앞서 살펴봤듯이, 음성인식 시장은 빠르게 확산될 전망이다. 이처럼 빠르게 확산되는 이유가 무엇일까?

시장 조사 전문 기관 ‘캡제미니(Capgemini)’는 5041명을 대상으로 음성인식 기능 활용 이유에 관해 조사했는데, 편리성의 이유가 가장 높은 것으로 확인됐다. 응답자의 52%가 동작 간소화를 이유로 꼽았고, 48%는 동시 업무 처리 가능성으로 꼽았기 때문이다.

친밀성 또한 확산의 동기로도 보고 있다. 37%는 자연스러운 교감을 꼽았다. 그리고 35%는 사람과 대화하는 것처럼 느끼기 때문이라고 응답하기도 했다. 이러한 응답은 음성 합성과 화자 인식도 함께 중요해질 것임을 보여주는 항목이다.

음성 인식 기술이 소개된 지는 얼마 되지 않았다. 그러나 무서운 속도로 빠르게 확산하고 있다. 앞으로 음성인식은 편리성을 넘어 시스템과 교감하는 새로운 상호작용 방식으로 진화할 전망이다.

(588)

태그(Tag)

전체 댓글 (0)

과학백과사전