기획·칼럼

AI와 빅데이터는 상호 관계

[AI 돋보기] AI와 빅데이터 연계한 바우처 사업 추진 필요

며칠 전에 재미있는 기사를 보았다. 한 통신회사가 인공지능(AI)을 활용해 콘텐츠가 아이에게 미치는 영향에 관한 내용을 발표한 것이다.

L사는 AI로 두 명의 미취학 아이를 구현했는데, 아이에게 서로 다른 콘텐츠를 제공했다. 한 명의 AI에는 아이용 콘텐츠를 제공했고, 다른 한 명에는 무분별한 콘텐츠를 제공하는 방식이었다. 이에 따라, AI 아이가 보이는 행동이 달라졌다. 전자에서는 올바른 언어를 사용했다면, 후자에서는 어른이 사용하는 비속어를 사용한 것이다.

어찌 보면 당연한 결과이다. 독특한 점은 AI를 사용했다는 점이다. 그런데 해당 내용이 올바른 시청 습관에게만 적용될 수 있을까? AI 학습의 중요성에도 적용되지 않을까?

L사는 AI 아이를 구현했다고 밝혔다. 그런데 좀 더 생각해보니, 모습만 어린아이 형태로 구현한 것이 아닌가 하는 생각이 든다. AI도 아이처럼 학습한 대로 행동하기 때문이다.

2016년 3월 M사가 선보인 AI 챗봇 ‘테이(Tay)’를 예로 들어보자. M사는 테이를 선보인 지 16시간 만에 챗봇 서비스 제공을 중단했다. 이유는 테이가 인종차별 발언 등 막말을 서슴지 않았기 때문이다.

그런데 테이의 이러한 막말은 자동으로 만들어낸 것이 아니다. 학습에 기반한 것이다. 실제로 M사는 개발과정에서 실수로 테이가 막말까지 학습하도록 설계돼 있었다고 밝혔다.

L사와 M사의 사례는 비슷해 보인다. 차이점은 활용 목적인데, 테이를 미취학 아동에 적용하고, L사의 AI 아이를 테이에 적용해도 결과는 유사할 것으로 추정된다.

이처럼 AI에서는 데이터 학습이 중요함을 알 수 있다. 더 나아가서는 AI가 빅데이터와 큰 연관이 있음을 알 수 있게 한다.

빅데이터와 3V

3V 특성을 지닌 빅데이터 ⓒpikrepo

두 기술의 연관성을 알기 위해서는 빅데이터의 특성을 아는 것이 중요하다. 시장 조사 전문기관인 가트너(Gartner)에 따르면, 빅데이터는 세 가지 특성을 보이고 있다. 2012년 가트너는 빅데이터를 3V로 정의했는데, 규모(Volume), 속도(Velocity) 그리고 다양성(Variety)의 뜻을 내포하고 있다.

규모는 빅데이터가 대량의 데이터를 보유하고 있어야 함을 의미하고, 속도는 데이터 처리가 빨라야 함을 의미한다. 그리고 다양성은 비정형 데이터도 처리할 수 있어야 함을 의미한다.

여기서 다양성에 주목할 필요가 있다. 해당 요인을 매개체로 AI와 빅데이터가 연계돼 있기 때문이다. 엄밀히 말해, 기계학습이 연관돼 있다.

AI는 인간의 지능을 흉내 내는 기술이라고 할 수 있다. 따라서 AI는 거의 모든 시스템에 적용돼 있다고 말해도 무방하다. 심지어 계산기에도 적용됐다고 말할 수 있다. 계산기는 사람의 계산하는 지능을 흉내 내고 있기 때문이다.

물론, 현재 말하는 AI 정의에는 계산기가 포함되지 않는다. 현재 AI 정의 구분은 구현 방식에 있다. 기존 AI에는 사람이 규칙을 만들어 시스템을 구현했다. 공식을 주입했다고 봐도 무방하다. 반면 현재 AI는 데이터를 통해 공식을 스스로 만들도록 하고 있다. 참고로 이를 기계학습이라고 한다.

정리하면, AI 구분은 공식 혹은 지능을 스스로 구현하는 여부로 구분할 수 있다. 현재 AI는 지능을 스스로 구현하는 셈인데, 주어진 데이터의 특성을 여러 요인으로 쪼개어 분석해 학습한다. 이는 여러 복잡 업무를 처리할 수 있게 하는데, 사물 인식과 같은 비정형적인 데이터도 분석할 수 있게 한다. AI는 사물의 특성을 여러 요인으로 쪼개어 학습해 사물을 인지할 수 있다.

따라서 현재 AI는 빅데이터의 다양성 부분을 구현할 수 있게 한다. 데이터의 여러 특성을 추출해 스스로 지능을 구현하는 방식이 비정형 데이터도 처리할 수 있게 한 것이다.

그렇다고 AI가 빅데이터에 종속되는 것은 아니다. 빅데이터 또한 AI 구현에 중요한 원동력이 되기 때문이다. 현재 AI에서는 데이터가 중요하다고 언급했다. 수많은 데이터를 빠르게 학습하는 것이 중요한데, 빅데이터가 이를 지원한다. 다시 말해, 빅데이터는 AI가 대규모 데이터를 빠르게 처리할 수 있도록 지원할 수 있다.

5V로 진화하는 빅데이터

데이터 신뢰에 활용되는 블록체인. ⓒPublic Domain Picture

최근에는 두 기술의 연관성으로 5V라는 용어까지 등장했다. 7V까지 등장했으나, 크게 의미가 없다.

추가된 특성을 살펴보면, 타당성(Validity)과 신뢰성(Veracity)이 있다. 타당성은 빅데이터가 올바른 데이터를 제공해야 함을 의미하는데, 이는 AI에게 영향을 준다. 올바르지 못한 데이터 제공은 테이와 같은 사태를 일으킬 수도 있기 때문이다.

설명가능한 인공지능(XAI, eXplainable AI)은 타당성을 지원한다. XAI는 AI의 추론 근거를 분석해 설명하는 기술로, AI가 잘못된 데이터를 바로 확인할 수 있게 한다. AI의 늑대 사진 구분을 예로 들어보자. XAI는 AI가 배경이 눈(Snow)인 경우에 늑대를 판단하는 편협함을 가짐을 발견하고, 이를 개발자에게 알려 편협함을 가지지 못하도록 다른 유형의 데이터를 제공하도록 한다. 눈이 있는 사진을 늑대 사진으로 구분한다면, 배경이 눈이 아닌 곳에서 찍은 늑대 사진을 제공하면 된다.

신뢰성은 빅데이터가 제공하는 데이터에 신뢰가능해야 함을 의미한다. 허위 데이터이면 안 된다는 뜻이다. 이 또한 AI와 연관이 있다. 참고로 블록체인은 데이터가 조작되지 않도록 하면서 신뢰성을 제공할 수 있다.

민간주도로 AI와 빅데이터 바우처 연계 모델 개발 필요

AI와 빅데이터는 중요하다. 그래서 과학기술정보통신부가 이를 적극적으로 지원하고 있다.

과기정통부는 AI 도입 지원 확산을 위해 AI 바우처를 추진하고 있고, 데이터 활용 기업 지원을 위한 데이터 바우처 사업도 지원하고 있다. 바우처 사업은 정부에서 대신 구매하면 수요 기업에게 제공하는 사업이다. AI 바우처는 AI 서비스를 정부가 대신 구매해 수요 기업에 제공하는 것이고, 데이터 바우처는 정부가 대신 데이터를 구매해 수요 기업에 제공하는 것이다.

두 사업 모두 기업에 관심을 받고 있는데, 그만큼 경쟁률도 치열하다. 지난 3월에 개시한 AI 바우처 사업은 22:1의 경쟁률을 기록했고,  데이터 바우처 사업도작년 1640곳 모집에 2795곳의 기업이 지원했다.

바우처의 치열한 경쟁은 정부가 해당 사업을 확대해야 함을 의미하지만, 확대만으로 수많은 수요 기업 담당할 수 없다. 오히려 해결책은 두 기업의 연결에 있다.

AI 기술 필요 기업은 데이터를 제공할 수 있다. 데이터 필요 기업은 AI 서비스를 제공할 수 있다. 이러한 두 기업의 연결은 정부 지원 없이도 서로의 수요를 맞출 수 있게 한다. 데이터 제공에 따른 기업 정보 유출이 우려될 수 있다. 그러나 연합 학습을 활용하면, 이를 해결할 수 있다. 연합 학습은 사용자가 데이터가 아닌 학습된 결과 모델을 제공하는 방식이다. 이러한 방식을 활용하면, AI 수요 기업은 정보 유출 없이 AI를 활용할 수 있다. 반면 데이터 수요 기업은 AI 구현에 필요한 결과 모델을 제공받을 수 있다.

(5995)

태그(Tag)

전체 댓글 (0)

과학백과사전