기획·칼럼

원하는 음성을 누구나 쉽게 구현 가능

[ICT 레이더] 음성합성 기술로 AI 스피커를 좀 더 친숙하게

인공지능(AI) 스피커는 주목 단계를 넘어서 스마트폰처럼 일상 속에 스며드는 단계를 맞이하고 있다. AI 스피커는 아마존에서 시작됐다고 봐도 무방하다. 아마존은 2014년부터 AI 스피커 ‘에코(Echo)’를 개발했고, 2017년 미국 국제전자박람회(CES)에 전시하면서 AI 스피커 시대를 알렸다. 당시, CES는 ‘관심 가져야 할 기술(Tech Trends to Watch)’로 선정했다.

이후, AI 스피커 시장은 빠르게 성장하기 시작했다. 시장 통계 전문 기관인 스태티스타(Statista)는 AI 스피커에서 발생하는 전 세계 매출 규모를 전망했다. 전망에 따르면, 2017년 매출 규모는 44억 달러(약 5.3조 원) 정도이며, 2022년 6배가 넘는 278억 달러(약 33.4조 원)로 성장할 전망이다. 연평균 성장률이 무려 35.9%에 달하는 성장 추세이다.

이러한 성장 추세는 AI 스피커가 보급되는 규모에서도 추론할 수 있다. 시장 조사 전문 기관 카날리스(Canalys)는 2017년 AI 스피커 판매 대수가 50만 대 이하인 것으로 분석했다. 그리고 이러한 대수는 5년 만에 7배가량 증가할 것을 전망했는데, 2022년에 350만대로 늘어날 것으로 전망했다. 38.3%에 달하는 연평균 성장률이다. 이러한 수치는 판매 대수가 시장 규모와 함께 빠르게 성장하고 있음을 보여준다.

친밀성 또한 AI 스피커가 성장하는 요인

AI 스피커 모습. ⓒ piqsel

AI 스피커 시장이 빠르게 성장하는 이유가 무엇일까? AI 스피커가 주는 이점에서 해답을 찾을 수 있다. 우선 AI 스피커는 기존보다 더 편한 인터페이스를 제공한다. 마우스보다 말로 기기에 명령을 내릴 수 있기 때문에 원거리에서도 조작이 가능할 뿐만 아니라, 최신 기기에 익숙하지 않는 사람도 사용할 수 있다.

시장 조사 전문 기관 캡제미니(Capgemini)가 조사한 자료에서 AI 스피커가 주는 이점을 명확히 확인할 수 있다. 캡제미니는 5041명을 대상으로 AI 스피커 사용 동기를 조사했다. 응답자의 52%가 편리성이라고 답했다. 48%는 동시 업무 가능성에 응답했다.

그리고 일부 응답자는 AI 스피커와의 친밀성을 이유로 이를 활용한다고 응답하기도 했다. 응답자의 37%는 기기와의 자연스러운 교감이 가능하다고 답했다. 35%는 진짜 사람에게 말하는 것과 같은 느낌을 이점으로 들었다.

AI 스피커가 주는 친밀성을 이점으로 생각하지 않을 수 있다. 그런데 1인 시대가 증가하는 추세로 보면, 이는 큰 이점이 될 수 있다. 2012년 경제협력개발기구(OECD)에 따르면, 2030년까지 1인 가구 비중이 연간 1.57%씩 증가할 전망이다. 집에서 교감할 동반자가 없는 사람이 증가하는 것을 의미한다.

실제로 친밀함을 AI 스피커의 강점으로 내세운 기업들도 등장하고 있다.  SKT는 홀로그램 AI 스피커를 선보였다. 해당 스피커는 애니메이션 캐릭터를 홀로그램으로 구현할 수 있는데, 목적은 친밀함을 주기 위함이다.

친밀감을 높이기 위한 가장 중요한 요소는 사람처럼 자연스럽게 말하는 것이다. 하지만 스마트폰의 AI 스피커 기능을 떠올려보면, 친밀함을 느끼기에는 어투가 어색하다. 그러므로 AI 스피커가 자연스럽게 말할 수 있는 기술 구현이 필요한데, 음성합성이 이러한 역할을 담당하고 있다.

음성합성, 음성과 어투까지 사람과 똑같이 구현할 수 있도록 발전해

음성합성은 시스템에 문자로 입력한 내용을 음성으로 바꿔주는 기술이다. AI 스피커에 음성합성이 중요한 이유는 AI 스피커가 문자에 기반해 음성으로 답하도록 구현 돼 있기 때문이다.

이러한 구조는 시각 장애인을 위한 안내 서비스에도 활용할 수 있다. 음성합성은 주변 문자를 인식해 시각 장애인에게 음성으로 정보를 제공할 수 있기 때문이다. 실제로, 마이크로소프트(MS)는 씽AI(SeeingAI)라는 스마트폰 앱을 출시했는데, 해당 앱은 이미지 정보를 통해 문자를 인식해 음성으로 답하도록 했다.

음성합성 기술 검토(Review on Text-To-Speech Synthesizer)라는 논문에 따르면, 음성합성은 세 가지 과정을 거친다.

사용자가 문자 정보를 입력하면 음성합성은 두문자어(頭文字語), 동의어 등 문자 내용을 분석한다. 그리고 단어의 발음 기호뿐만 아니라, 문단과 부호를 가지고 음성과 발음을 구상한다. 끝으로 구현할 음조를 구성한다.

AI 스피커 기술은 사람 목소리 흉내 낼 수 있는 수준으로 발전했다. ⓒ Flickr

최근, 음성합성은 유명인의 음성과 똑같이 구현할 수 있는 수준으로 발전하고 있다. 기계학습은 사용자의 음성, 음조, 어투 등을 학습해, 이와 유사한 음성으로 구현할 수 있는 알고리즘을 산출한다.

AI 스피커와 함께 발전할 전망…가짜 뉴스 악용에 대응 방안 모색도 필요

음성합성은 AI 스피커와 함께 우리 삶에 스며들 전망이다. 그런데 이러한 속도는 생각보다 빠르게 진행되고 있고, 여기에 기반을 둔 서비스를 쉽게 찾아볼 수 있다. 카카오는 음성합성 기술을 개발했는데, 이를 활용할 수 있는 플랫폼을 제공하고 있다. 그뿐만 아니라, 카카오는 내비게이션 서비스 ‘카카오 내비’에 음성합성을 적용해 사용자와의 친근감을 높였다. 뽀로로, 헬로 카봇 등 유명 목소리를 길 안내 음성으로 제공하고 있다.

SKT 또한 음성합성 서비스를 제공하고 있다. SKT는 자체 AI 스피커 ‘누구(NUGU)’에 음성합성을 접목해 유명인 목소리를 들을 수 있게 했다. 그리고 유명인의 음성을 활용한 알람서비스  ‘셀럽’, ‘SMTOWN 스케줄’ 등의 서비스를 제공하고 있다.

지난 10일 네이버는 ‘클로바 더빙’을 출시했다. 해당 서비스는 음성합성을 이용해 문자 입력만으로 더빙을 가능하게 하는 서비스이다. 다시 말해, 성우의 목소리 녹음이 필요 없다. 참고로 해당 서비스에는 21종의 음성이 제공된다.

네이버는 자체 음성합성 기술 ‘클로바 보이스’를 개발했는데, 클로바 더빙은 이를 기반으로 하고 있다.

해외 기업으로는 구글이 음성합성을 개발해 12개 언어를 32개의 음성으로 제공하고 있다. 특히 사용자 취약점을 고려해 발음 속도, 음조 등을 자유롭게 조종할 수 있도록 했다.

이처럼 음성합성은 우리의 삶 속에 밀접하게 들어오고 있다. 하지만 이러한 기술에도 부작용이 있다.

유명인 목소리를 음성합성으로 구현해 정보를 왜곡하는 것이다. 실제로 영화감독 조던 필(Jordan Peele)은 미국 전 대통령 버락 오바마의 목소리를 음성합성으로 구현한 영상을 공개하며 가짜 뉴스의 위험성을 경고하기도 했다. 이에 따라 음성합성 기술이 발전함에 따라 이를 악용한 가짜 뉴스에 대응할 방안도 강구할 필요가 있다.

(339)

태그(Tag)

전체 댓글 (0)

과학백과사전