November 20,2017

AI 스피커의 성공 비밀은?

딥 러닝 통한 언어 학습

FacebookTwitter

“알렉사, 음악 좀 틀어줘”, “아리아, 오늘 우산을 가져갈까?”

음악을 들려주고 날씨를 알려주는 ‘알렉사’, ‘지니’, ‘아리아’는 누구의 이름일까? 최근 각광을 받고 있는 ‘인공지능(AI) 스피커’들의 명칭들이다.

최근 사물인터넷(IoT)과 인공지능(AI)으로 작동하는 ‘AI 스피커’ 경쟁이 치열해지고 있다. 집을 기점으로 각각의 사물과 사람을 연결하는 허브 역할을 ‘AI 스피커’가 할 것으로 전망되고 있기 때문이다.

해외에서는 아마존 ‘에코’와 구글 ‘홈’이, 국내에서는 SK텔레콤의 ‘누구’와 KT의 ‘기가지니’가 적극적인 사업 공세에 나선 상황이다.

빠른 시간 내 시장에 안착한 ‘AI 스피커’는 어떤 원리로 작동될까.

지난 14일(금) 카이스트문술대학원에서 주최한 국가미래전략 토론회에서는 한양대학교 장준혁 교수가 최근 각광을 받고 있는 음성인식 ‘인공지능(AI) 스피커’에 숨겨진 작동의 비밀을 풀어놨다.

이 날 컨퍼런스는 ‘4차산업혁명과 기술 - 인공지능(AI) 음성인식’을 주제로 서울창조경제혁신센터 컨퍼런스홀에서 열렸다. ⓒ 김은영/ ScienceTimes

‘4차산업혁명과 기술 – 인공지능(AI) 음성인식’을 주제로 한 카이스트문술대학원의 국가미래전략토론회가 서울창조경제혁신센터 컨퍼런스홀에서 열렸다. ⓒ 김은영/ ScienceTimes

AI 스피커, 인공지능 허브로 자리매김할까

집 안에서 다른 가전 및 전자기기와 통신하며 비서 역할을 톡톡히 해내고 있는 인공지능 스피커. AI 스피커는 사용자의 음성에 반응해 각종 명령을 수행하는 원리로 만들어졌다.

그렇다면 음악을 듣거나 TV를 보고 있을 때, 다른 소음과 잡음이 있을 때는 과연 제대로 작동할 수 있을까? 사용자가 멀리 있을 때는 어떻게 소리를 인식할 수 있을까?

장준혁 한양대학교 융합전자공학부 교수와 연구팀은 이러한 의문점을 해결하기 위한 실험을 여러차례 실시해왔다.

먼저 원거리 음성에 대한 반응 실험. AI 스피커의 생명은 바로 ‘마이크’에 있었다. 최신 음성인식 기술이 스마트폰에서 스피커 형태로 변화하고 있는 것은 바로 원거리 음성 인식률이 급격하게 향상되었기 때문.

그동안 음성인식의 가장 걸림돌로 생각되던 원거리 음성의 문제를 잡고 시장의 퍼스트주자로 떠오른 기업은 ‘아마존’이었다.

아마존은 사용자가 멀리 있을 때 소리의 인식률이 떨어지는 문제를 잡기 위해 마이크를 무려 7개를 사용했던 것. 당시 시장에서는 마이크를 1개 정도만 사용하는 것이 관례였다.

아마존 에코는 기존 시장의 판도를 바꾸었다. ⓒ아마존

아마존 에코는 기존 시장의 판도를 바꾸었다. ⓒ아마존

아마존 에코는 소리의 방향을 잡고 원거리 소리에 정확도를 가하기 위해 기존의 관례를 깨고 마이크를 7개 달았다.  ⓒ 아마존

아마존 에코는 소리의 방향을 잡고 원거리 소리에 정확도를 가하기 위해 기존의 관례를 깨고 마이크를 7개 달았다. ⓒ 아마존

아마존은 인공지능 스피커 시장의 패러다임 자체를 바꾸면서 1등 주자로 잘잡았다. ⓒ 아마존

아마존은 인공지능 스피커 시장의 패러다임 자체를 바꾸면서 1등 주자로 자리 잡았다. ⓒ 아마존

AI 스피커 시장 패러다임을 바꾸어 놓은 아마존의 혁신

아마존은 이러한 고정관념을 한 번에 뒤집었다. 장준혁 교수는 “마이크 증설 이 후 원거리 음성 정확도가 확실히 높아졌다. 덕분에 타 기업에서도 서둘러 마이크를 추가하기 시작했다”며 “아마존이 패러다임을 바꾼 사례”라고 밝혔다.

그렇다면 음악과 TV 등 다른 소리가 가득할 때 이를 멈추게 하는 사용자의 목소리는 어떻게 인지할 수 있을까?

집에는 여러 잡음이 존재한다. 막혀 있는 공간에서는 소리가 반사되기까지 한다. TV나 음악을 듣고 있을 때는 더욱 심하다. AI 스피커는 사용자의 말을 알아듣기 위해 수많은 소리를 제거해야 한다.

장 교수는 “AI 스피커는 정말 ‘극한직업’”이라고 말했다. “옆 사람은 떠들지, 잡음은 들리지, 반사되는 소리(에코)까지 줄여야 하는 상황에서 사용자의 음성을 인식해야하기 때문”이라며 이유를 설명했다.

왜곡된 소리와 잡음 등을 제거하고 정확하게 사용자의 음성을 잡아내기 위해서는 음원이 진동을 그친 뒤에도 계속 들리는 현상인 ‘잔향음’을 제거하는 기술과 막혀있는 집안에서 반사되어 돌아오는 ‘에코’를 제거하는 기술이 필요하다.

장 교수는 “TV소리나 음악소리는 원거리용 화자로 구성해 인식기를 구성하면 소리가 제거되고 사용자의 음성만 남게 할 수 있다”고 설명했다.

사람이 고정된 자리에서 말하지 않고 움직이며 말하는 것도 AI 스피커에게는 곤혹스러운 일이다.

인간은 두 개의 귀와 귓바퀴가 있기 때문에 어디에서 소리가 들리는지 금방 알아차릴 수 있다. 하지만 기계는 전혀 그렇지 못하다. 사람과 인공지능 로봇간의 상대 위치가 지속적으로 가변하면 인공지능은 사용자의 질의 및 명령을 알아듣기 힘들다. 때문에 방향추정기술은 매우 중요하다.

장 교수는 “사람이 움직이면 어디서 이야기하는지 방향을 맞춰야 한다. 마이크가 많을 수록 유리하기도 하다”고 말한 후 “방향이 특정된 후에는 그 방향의 소리만 증폭될 수 있도록 화자의 방향에 빔 패턴을 편성하여 음성을 강화시키고 잡음을 줄이는 ‘빔포밍 기술’이 필요하다”고 설명했다.

또 멀리 있는 소리를 듣기 위해서는 음성을 증폭시키는 기술이 필요한데 단순히 음성만 증폭시켜서는 안 된다. 모든 잡음이 다 들어오기 때문. 장 교수는 “보청기와는 달리 잡음을 제거하고 음성만 증폭시키는 ‘자동이득제어기술’이 적용되어야 한다”고 덧붙였다.

부정확한 음성인식률이 획기적으로 발달할 수 있었던 원인은 ‘딥러닝’ 덕분

무엇보다 AI 스피커가 사용자의 말을 알아들을 수 있게 한 기술이 가장 결정적인 발달 요소였다. AI 스피커가 급격하게 발전할 수 있었던 최고의 비밀은 ‘딥 러닝’으로 기계가 수십만 개의 인간의 일상 언어를 빠르게 학습할 수 있었기 때문이었다.

특히 음향모델과 언어모델에도 딥 러닝이 적용되면서 기술이 획기적으로 향상되었다.

장 교수는 “최근 음향모델을 설계하는 것에도 딥 러닝이 적용되면서 AI 스피커가 발전하는데 결정적인 역할을 했다”고 강조했다. 음향모델이란 입력된 음성 신호에 가장 잘 매칭 되는 문자열을 추정하는 기술이다.

지난해 알파고 파급효과로 국내에서도 인공지능 관련 연구에 대해 관심이 뜨거운 상황이다. 장 교수는 “최근 인공지능 연구는 ‘활화산’을 넘어선 상태”라며 과열되고 있는 현상을 지적했다.

그는 이어 “보릿고개와 인공지능 연구개발의 역사가 동일하다”며 그동안 지난했던 연구 시절을 되돌아봤다. 불과 몇 년 전만 해도 인공지능이나 음성인식 기술은 국내에서 관심 받지 못했던 분야였기 때문이었다.

단기간 반짝하는 관심은 무의미하다. 아마존과 같은 혁신을 위해서는 패러다임을 바꿀 수 있는 혁신이 필요하다. 장 교수는 “서두르지 말고 장기간 지속될 수 있는 관심과 연구가 중요하다”고 조언했다.

의견달기(0)