닫기
연합 학습, 사생활 보호 방안으로 급부상

[ICT 레이더] 데이터가 아닌 학습 결과를 중앙으로 취합

데이터가 주목 받을 전망. ⓒNeedpix

4차 산업혁명은 인공지능(AI) 시대로 정의할 수 있다. AI가 경제에 미치는 영향력이 상당하기 때문이다. 프라이스워터하우스쿠퍼스(PwC)는 “2030년에 AI가 만들어낼 경제적 가치가 15.7조 달러(약 18.84경 원)에 이를 것”으로 전망했다.

엄밀히 말하면, AI는 아주 예전부터 존재하고 여러 분야에 적용돼 왔다. AI는 인간의 지능을 흉내 내는 기술인데, 계산기도 AI로 볼 수 있다. 따라서 AI 시대라는 표현이 부적절할 수도 있다.

그런데도 AI가 강조되는 이유는 딥 러닝(Deep Learning)으로 인해 AI 기술 수준이 비약적으로 향상됐기 때문이다. 대표적인 예로 알파고를 들 수 있다. 알파고는 AI의 한계 분야인 직관 영역을 뛰어넘을 수 있음을 보여줬다.

정리하면, 딥 러닝 기반 AI가 주목받는 시대라고 할 수 있다. 이러한 AI 특징은 데이터를 시스템 동작에 핵심 원천으로 삼고 있는 점인데, 딥러닝은 데이터를 학습해 AI를 구현하는 방식이기 때문이다. 따라서 데이터는 AI의 원유라고 표현할 정도로 주요 자산으로 인식되고 있다. 이와 함께, 데이터 생산량 또한 사물인터넷(IoT), 소셜네트워크서비스(SNS) 등으로 인해 폭발적으로 증가하고 있다. 포브스에 따르면, 하루 전 세계 데이터 생산량은 약 2.5억 기가바이트에 달한다. 하루에 고화질 영화 5000만 개 분량이 생성되는 셈이다.

전 세계는 AI 경쟁력을 위해 데이터 활용 방안에 주목하고 있다. 국내만 보더라도, 데이터 3법이 통과된 상태이다. 참고로 데이터 3법은 개인정보보호법·정보통신망법·신용정보법 등 3개의 정보보호법에 관한 개정하는 내용을 담고 있는데, 핵심은 사업자가 개인식별정보를 익명 처리해 데이터를 활용할 수 있도록 허용하는 것이다.

개인 데이터 침해 없는 연합 학습

데이터 활용성 증가는 AI 산업을 발전시킨다. 이는 분명한 사실이다. 그러나 부정적인 측면도 있다. 현재 많은 기관에서 데이터를 중앙으로 모으고 있다. 그리고 AI가 이를 학습해 동작하게 하고 있다. 이러한 방식은 사생활 침해라는 문제를 불러일으킨다. 개인식별정보를 익명으로 처리했다고 하더라도, 개인 데이터가 타인에게 넘어가는 것은 내키지 않는 일이다.

대표적인 사례로 지난해 AI 스피커의 개인 음성 데이터 수집에 대한 논란을 들 수 있다. 물론, 목적은 사생활 침해가 아니다. 음성 인식 향상이 목적이었다. AI 스피커 제조 기업은 AI 스피커가 인식한 내용과 실제 음성 명령어를 사람이 대조하는 방식으로 AI 스피커 정확도를 개선하게 했다. 수집 대상은 무작위 개인 음성 데이터가 아닌 명령어였다. 그런데도 많은 사람이 이에 관해 부정적인 인식을 보였다.

이에 따라 개인 데이터 보호를 위한 활용 규제안도 나오고 있다. 유럽연합(EU)가 2018년 5월에 시행한 개인데이터보호규정(GDPR)이 대표 사례라고 할 수 있다. 그래서 데이터 분야는 활용과 규제의 논란을 직면하고 있다.

다행히, 두 마리 토끼를 잡을 수 있는 기술이 있다. 해당 기술은 바로 ‘연합 학습(Federated Learning)’이다. 연합 학습은 기존처럼 데이터를 중앙에 모아서 학습하는 것이 아니라 사용자 기기에서 학습한 모델을 중앙으로 취합하는 학습 모델이다. 데이터를 중앙으로 수집하는 것이 아니기 때문에 사생활 침해 소지가 작다.

개인데이터보호 강화 정책인 “GDPR” ⓒPixabay

하이브리드 컴퓨팅과 영지식 증명

연합 학습을 구체적으로 살펴보면, 두 기술의 원리를 기반으로 하고 있다. ‘하이브리드 컴퓨팅’과 ‘영지식 증명’이 이에 해당한다.

하이브리드 컴퓨팅은 포그 컴퓨팅(Fog Computing)과 클라우드 컴퓨팅(Cloud Computing)을 혼합한 개념이다. 컴퓨팅 자원 활용에 따라 포그 컴퓨팅과 클라우드로 나눌 수 있다. 포그 컴퓨팅은 사용자 단말의 자원을 활용한다. 반면 클라우드 컴퓨팅은 중앙 서버의 자원을 활용한다.

연합 학습은 사용자 기기에서 학습해서 얻은 결과를 중앙 서버로 전송한다. 그리고 중앙에서는 이러한 학습 결과를 취합해 새로운 학습 모델을 만든다. 다시 말해, 연합 학습은 사용자 기기 컴퓨팅 파워와 중앙 서버 컴퓨팅 파워를 활용해 학습 모델을 만들어 낸다.

영지식 증명은 데이터를 노출하지 않고 추론을 돕는 기술이다. 매장에서 주류를 구매한다고 가정해보자. 성인 인증을 위해 주민등록증을 제시해야 한다. 그런데 이러한 방식은 과다하게 본인 개인 정보가 노출된다.

성인 여부를 QR코드로 찍어서 성인 여부만 확인할 수 있게 하면 어떨까? 불필요한 개인 정보를 노출하지 않아도 된다. 이러한 방법이 바로 영지식 증명이다. 실제로, 영지식 증명은 일부 분야에 보안을 위해 사용되고 있다.

로그인 계정을 생각해보자. 중앙에서 비밀번호 데이터를 가지고 있을까? 그렇지 않다. 중앙 시스템 관리자가 이를 조회하거나 외부에서 비밀번호 데이터를 유출할 수 있다. 대부분 중앙 시스템에는 해당 아이디로 접속 시에 비밀번호가 맞는지 여부만을 확인할 수 있도록 계정이 만들어져 있다. 따라서 중앙에 저장된 계정 정보가 노출되어도 비밀번호 유출 염려는 거의 하지 않아도 된다.

연합 학습에도 영지식 증명 방식을 활용하고 있다. AI 학습을 위해 사용자 정보 모두를 제공할 필요가 없다. 사용자 기기에서 산출된 학습 모델만 보내면 된다.

의료 산업을 중심으로 발전할 전망

연합 학습 원리를 살펴봤다. 연합 학습은 크게 세 가지 이점이 있다. 가장 큰 이점은 ‘사생활 보호’이다. 데이터가 아닌 학습 모델을 제공하기 때문이다.

두 번째 이점은 중앙 컴퓨팅 파워 부하 비중 감소이다. 기존에는 중앙에서 수많은 데이터를 학습해야 했다. 그러나 이러한 역할을 사용자 기기와 나눌 수 있게 됐다. 이에 따라, 부하량을 감소시킬 수 있다.

마지막 이점은 표본 데이터의 정확성이다. 다시 말해, 편향되지 않은 학습결과를 만들어 낼 수 있다. 기존에는 데이터를 수집해야 했는데, 이러한 방식은 반감이 있는 사용자로부터 데이터를 모으지 못하는 문제가 있었다. 표본 분포도의 문제가 생기는 셈이었다. 그러나 연합 학습은 데이터가 아닌 학습 모델을 모은다. 그러므로 기존보다 반감이 적고, 표본의 편향성도 줄어든다.

연합 학습은 상반된 데이터 정책 추진에 따라 주목받을 전망이다. 현재는 개인 데이터가 중요한 의료 산업을 중심으로 발전하고 있다. 엔비디아는 의료 산업의 실증을 중심으로 연합 학습 관련 기술을 선보이고 있다.

그러나 적용 대상은 의료 산업에만 국한되지않을 전망이다. 구글 또한 연합 학습을 연구하고 있는데, 자체 개발한 AI 오픈소스 ‘텐서플로우’에 연합 학습을 구현 가능케 했다. 이에 따라, 연합 학습이 여러 AI 서비스 분야에 활용될 전망이다.

(679)

태그(Tag)

전체 댓글 (0)

과학백과사전