사이언스타임즈

시각장애인들에게 있어 디지털 세계는 접촉하기 힘든 먼 나라 이야기에 불과했다. 그러나 최근 인공지능, 컴퓨터영상, 영상인식 기술이 급속히 발전하면서 시각장애인과 디지털 세계를 연결해주는 기술들이 속속 개발되고 있다.

7일 영국의 소비자 중심 과학기술 비평지 ‘알퍼(alphr)’에 따르면 기술개발 선두에 서 있는 기업들 중에는 스타트업도 포함돼 있다. 태블릿 등 새로운 발상의 기기를 만들어 시각장애인이 인터넷에 접속할 수 있는 가교 역할을 하고 있다.

호주의 스타트업 ‘BLITAB'이 대표적인 경우다. 이곳에서는 시각장애인들이 사용할 수 있는 태블릿을 제작했다. 이 태블릿은 전자책(e Book)과 비슷하게 생겼지만 자세히 들여다보면 매우 다르다. 일반 태블릿처럼 스크린을 사용하는 대신 점자판을 사용한다.

주변 이미지 인식해 사람 언어로 설명

시각장애인들은 이 점자판을 통해 정보를 음성으로 변환한 ‘터치 투 스피치( text-to-speech)’, 손가락으로 접촉할 수 있는 ‘터치 네비게이션(touch navigation)’ 등의 기능을 경험할 수 있다.

인공지능, 컴퓨터영상, 영상인식 기술이 급속히 발전하면서 시각장애인을 도울 수 있는 기술이 속속 개발되고 있다. 사진은 주변 영상을 사람 언어로 설명해주는 스마트폰 앱 '에어폴리'. — 인공지능, 컴퓨터영상, 영상인식 기술이 급속히 발전하면서 시각장애인을 도울 수 있는 기술이 속속 개발되고 있다. 사진은 주변 영상을 사람처럼 언어로 설명해주고 있는 스마트폰 앱 '에어폴리'. ⓒAirpoly

태블릿과 대화를 하면서 다양한 인터넷과 접촉할 수 있는 방식이다. BLITAB의 설립자인 크리스티나 츠베타노바(Kristina Tsvetanova) CEO는 “시각장애인들이 접촉과 소리를 통해 새로운 정보를 접촉하고, 또 새로운 정보를 입력할 수 있다”고 말했다.

BLTIAB에서는 현재 시각장애인들이 소통할 수 있는 플랫폼을 구축하고 있다. 플랫폼 안에 시각장애인들이 사용할 수 있는 다양한 소프트웨어를 축적하고 있는 중이다. 츠베타노바 CEO는 “전통적인 개념을 넘어선 새로운 솔루션들이 개발되고 있다”고 말했다.

인공지능을 활용하는 사례도 등장하고 있다. 페이스북은 AI 기술을 활용, 이미지 인식 기술을 메모리 네트워크(MemNets)과 접목시키는 방안을 개발하고 있다. ‘비쥬얼 Q&A'란 이름의 이 솔루션은 ’사진 속에 무엇이 있니?‘라고 물으면 그 내용을 상세히 설명해주는 방식이다.

욕조 속에서 놀고 있는 아기 사진을 보고 ‘아기가 어디 있니?’ 하고 물으면 ‘욕조 안에 있다’고 답변하고, ‘무엇을 하고 있니?’ 하고 물으면 ‘이를 닦고 있다’고 답변해주는 식이다. 영상 인식이 가능한 것은 첨단 인공지능 때문이다.

딥러닝 방식에 사람처럼 추상화된 정보를 해석할 수 있는 나선구조신경망 (CNN, Convolutional Neural Network)을 추가했는데, 이를 통해 언어와 영상을 동시에 이해할 수 있는 능력이 보완되고 있다.

최근 열린 기술 발표회에서 페이스북 관계자는 “영화 ‘반지의 제왕’을 보고 10만 개의 질문을 주고받는 등 다양한 방식으로 정확도를 높여가고 있다”고 말했다. 페이스북에서는 앞으로 이 인공지능 기술이 시각장애인을 도울 수 있을 것으로 보고 있다.

AI가 영상·언어 함께 이해할 수 있어

마이크로 소프트(MS)에서도 인공지능을 통해 사람의 시각을 보완할 수 있는 기술을 개발하고 있다. 지난달에 열린 ‘빌드(Build)' 컨퍼런스에서 사람이 접촉하는 그때그때의 상황을 실시간으로 영상 인식해 설명해줄 수 있는 능력을 개발하고 있다고 밝혔다.

책을 잃는 것은 물론 영화를 보고, 사람의 얼굴 표정까지 읽고 해석하는 기능이 여기에 포함된다. 영상을 말로 설명해줄 수 있는 인공지능 기능이 완성될 경우 특히 시각장애인들에게 주변 상황을 시각적으로 이해할 수 있는 길이 열릴 것으로 보인다.

시각장애인들을 위한 기술로 ‘에이폴리(Aipoly)’도 있다. 시각 장애인을 위해 모바일 앱으로 스마트폰 등에 설치하면 눈앞의 물체나 장면을 분석해 음성으로 설명해준다. 이 앱을 개발한 '에어폴리‘는 실리콘밸리 소재 싱귤레리티 대학에서 설립한 스타트업이다.

그동안 미국 항공우주국 에임즈 연구센터(NASA Ames Research Center)와 협력해 인간 삶에 있어 접할 수 있는 주변 상황을 영상으로 인식할 수 있는 능력과 이를 말로 설명할 수 있는 능력을 업그레이드시켜왔다.

이 앱을 통해 사용자들은 자신의 주변에서 일어나는 약 5000개 유형의 상황을 설명하는 것을 들으면서 삶을 영위해나갈 수 있다. 흥미로운 것은 눈앞에 벌어지는 일뿐만 아니라 멀리 떨어져 있는 집안, 혹은 사무실 상황까지 감독할 수 있다는 점이다.

에어폴리 공동설립자인 알베르토 리졸리(Alberto Rizzoli) CEO는 “현재 진행하고 있는 영상과 언어 해석을 위한 업그레드 작업이 완성되면 눈을 감고서도 주변 상황을 상세하게 인식할 수 있는 길이 열리게 된다”고 말했다.

에어폴리에서는 현재 ‘알파고’왁 유사한 인공지능 시스템 테라 딥러닝(Tera Deep Learning) 시스템에 추상적인 언어·영상 이해가 가능한 나선구조신경망(CNN)을 결합해 인공지능의 능력을 확대하고 있는 중이다.

리졸리 CEO는 “현재 약 1000만 개의 이미지를 입력했으며, 이들 이미지를 사람처럼 이해하고 설명할 수 있는 언어 훈련을 시키고 있다”고 말했다. 그는 또 “이 기술이 시각장애인을 비롯 시각적인 어려움을 겪고 있는 사람들에게 큰 도움을 줄 것”이라고 말했다.

이강봉 객원기자

태그(Tag)

통합검색

인기 뉴스 TOP 10

속보 뉴스

QUICK LINK