기획·칼럼

AI 시대, 데이터 활용 연구가 중요한 이유

[AI 돋보기] 제도와 기술 보완이 함께 이뤄져야

AI 시대에 중요해진 데이터 ⓒPixabay

인공지능(AI) 기반 채팅앱인 이루다는 성차별과 같은 막말로 사회적 논란을 일으켰다. 하지만 분명한 것은 AI 산업에 두 가지 교훈을 남겼다.

첫 번째 교훈은 AI 학습의 중요성이고, 둘째는 개인 정보 침해다. 이루다는 학습에 따라 행동한다. 따라서 잘못된 학습이 이뤄질 경우에 잘못된 행동이 나올 수밖에 없다. 이루다 막말 논란은 이러한 학습의 실수에서 발생한 것으로 볼 수 있다.

두 번째 교훈은 개인 정보 침해이다. 스캐터랩(Scatter Lab)은 1억 건 이상의 개인 카카오톡 대화 내용을 가지고 이루다를 학습시켰다. 여기서 문제는 개인 대화 내용을 활용한 점이다. 개인 정보 침해에 해당할 수 있는 내용이다. 이로 인해 300명이 넘는 사람이 스캐터랩을 상대로 개인 정보 침해로 집단소송했다.

데이터 활용 방안이 점차 중요해져

이루다의 두 가지 교훈은 데이터 활용의 중요성이라는 하나의 시사점으로 귀결된다. 이루다 문제는 모두 데이터 활용 방안 수립을 간과해서 발생했기 때문이다. 막말 행동은 학습과정에서 주어진 데이터의 문제로 볼 수 있다. 그리고 개인 정보 침해 또한 개인 데이터를 활용했기 때문에 발생한 문제로 볼 수 있다.

데이터의 중요성은 이루다에만 국한되지 않는다. 모든 AI 시스템 개발에 적용된다.

먼저 학습 부분에서 살펴보자. AI는 기존 학습 방식대로 동작한다. 이러한 학습에 매개체가 되는 것이 바로 데이터이다. 학습 데이터가 잘못되면 AI 행동도 이상해질 수밖에 없다.

학습 데이터로 만들어진 AI 사고를 블랙박스로 흔히 표현한다. 이유는 AI가 어떤 사고를 가지고 있는지를 외부에서 확인하기 힘들기 때문이다. 가령 경제협력개발기구(OECD)는 “AI 사고가 블랙박스로 가려져 있기 때문에 사람이 의도치 않게 담합 문제를 일으킬 수 있다”라고 전망한 바 있다. 따라서 데이터 학습 방법에 관해 올바른 방법을 정립해야 한다.

개인 정보 침해 또한 중요하다. 데이터 학습 과정에서 개인 정보와 관련된 것이 많을 수 있다. 그럴 경우에는 개인 정보 침해에 해당한다. AI 스피커 사건은 개인 정보 침해의 대표 사례로 볼 수 있다.

AI 스피커 개발 기업은 음성인식 정확도를 높이기 위해 개인 음성데이터를 허락 없이 수집한 바 있다. 이로 인해 두 가지 논란이 있었다.

첫 번째 논란은 2016년에 발생했다. 미국 아칸소주 경찰은 AI 스피커로 녹음된 범죄 공모 음성 데이터를 확보해 용의자를 검거했다. 용의자를 잡은 것은 다행이나 AI 스피커가 사생활을 허락 없이 침범하고 있었다. 이에 많은 사람이 AI 스피커의 사생활 침해 문제를 제기했다. 이로 인해 현재는 AI 스피커에 명령어가 주어질 때 음성이 녹음된다.

두 번째 논란은 2019년에 발생했다. 사용자가 AI 스피커에 명령할 때 내린 음성 관련으로 논란이 일었다.

AI 스피커 개발 기업은 명령어를 기록하고 있었다. 여기까지는 괜찮다. 그런데 문제는 이러한 명령어를 음성인식 향상 목적으로 직원이 듣고 있었다는 것이다. 다시 말해, 개발 직원은 AI 스피커가 주어진 명령대로 수행했는지를 파악하기 위해 명령어 음성을 무작위로 추출해 대조 작업을 하고 있었다. 현재는 사용자가 허락하지 않으면 명령어 또한 기록되지 않는다.

이처럼 데이터 활용 방안은 학습과 정보 침해 관점에서 수립돼야 한다. 사실 데이터 활용 방안 수립의 중요성은 이미 널리 알려진 얘기이다. 그럼에도 불구하고 이루다 사태와 같은 일이 벌어진 이유는 무엇일까? 개발 방법에 변화 때문으로 볼 수 있다.

딥러닝(Deep Learning) 확산 여부에 따라 약 AI와 강 AI로 나눌 수 있다. 전자는 딥러닝이 적용되지 않은 AI이고, 후자는 딥러닝이 적용된 것이다.

약 AI에서는 알고리즘 개발이 중요하다. 개발자가 직접 행동 방식을 정의했기 때문이다. 그러므로 알고리즘에서 오류가 있었는지를 살피는 것이 중요하다. 데이터를 염두에 둘 일이 아예 없었다.

반면 강 AI에서는 알고리즘 개발이 상대적으로 중요하지 않다. AI가 데이터 학습으로 직접 알고리즘을 정의하기 때문이다. 여기서는 어떤 데이터를 활용해야 할지가 관건이다. 데이터 과학자가 부상한 이유도 이 때문이다. 경제학, 금융학, 통계학 등 사회과학 분야 사람도 AI 전문가로 활동할 수 있는 이유도 데이터 활용이 중요하기 때문이다.

정리하면 데이터 활용이 중요해진 개발 환경 변화를 아직 수용하지 못했기 때문에 발생한 일로 볼 수 있다. 이러한 일은 국내에서만 국한되지 않는다. 세계적으로도 발생하고 있다. 이루다 사태, AI 스피커의 사생활 침해 등과 같은 문제가 해외에서도 발생하고 있다는 뜻이다.

제도와 기술이 뒷받침될 필요 있어

이루다 사태는 고의성이라기보다는 관리 소홀로 발생한 문제로 볼 수 있다. 데이터 관리는 통신사 혹은 포털사이트와 같이 회원을 많이 보유한 기업에서 중요했지 이와 거리가 먼 스타트업 혹은 중소기업에서는 크게 중요하지 않았다.

그러나 AI 시대에는 데이터 관리 문제가 더욱 중요해지고 있고, 제도와 기술 차원에서 보완이 필요하다. 다행히 정부에서는 이미 이러한 보완을 진행하고 있다.

데이터 학습에서는 데이터 표준화 정책을 지원하고 있으며, 특히 AI에 학습할 데이터에 관한 표준을 마련하고 있다. 그리고 데이터 댐이라는 정책을 추진하면서 올바른 AI 학습에 필요한 데이터도 제공하는 체계도 마련해가고 있다.

그뿐만 아니라 기술적 지원을 위해 설명 가능한 AI(XAI, eXplainable AI) 개발도 지원하고 있다. XAI는 AI 사고를 예측할 수 있는 기술로서 AI 학습 형태를 추론할 수 있게 한다. 이를 통해 잘못된 학습을 바로잡을 수 있다.

개인 정보 보호에서도 여러 방안이 나오고 있다. 데이터 3법이 그중 하나이다. 데이터 3법은 개인 데이터 활용 시에 사생활 보호를 위해 지켜야 할 수칙을 담고 있다. 마이 데이터는 개인 정보에 관한 주권을 담는 정책 내용이다.

기술적 차원에서도 보완이 이뤄져야 한다. 데이터가 아닌 모델을 수집하는 연합 학습(Federated Learning)과 같은 기술도 함께 보완되고 있다. 영지식 증명 알고리즘(ZKP, Zero Knowledge Proof)은 개인 데이터를 노출하지 않게 하는 암호학 기술로 데이터 3법 대응에 용이할 것으로 보인다.

이처럼 데이터 활용 방안 지원이 한창이다. 이러한 정책 개발을 위한 노력이 더욱 활성화돼 이루다와 같은 사태가 다시 일어나지 않길 기대해 본다.

(2052)

태그(Tag)

전체 댓글 (0)

과학백과사전