피해 갈 수 없는 빅데이터의 세계

과학서평 / 데이터 과학

햄버거 가게에 들어가서 햄버거를 주문하면 종업원들이 으레 물어본다. 감자칩도 필요하시냐고. 이 간단한 대화에는 상품 판매의 중요한 기초인 ‘교차판매’의 원리가 들어있다. 한 상품을 구입할 때 관련된 다른 상품을 구입하도록 유도하는 것이다.

교차판매는 슈퍼마켓의 상품 진열에 반영된다. 핫도그를 살 경우 케첩과 맥주를 같이 살 확률이 높다. 이들을 가깝게 배치하면 손님들의 손길을 끌어당기기 쉽다.

교차판매가 조금 더 복잡해지면 이상한 연관성이 발견되기도 한다. 미국 소매점에서 1980년대 컴퓨터 시스템을 구축하기 위해 데이터를 모아보니 맥주 판매량이 늘어나면 기저귀 판매량도 늘어났다. 서로 연관성이 없어 보이는 맥주-기저귀 동반 상승은 젊은 부부들이 주말에 맥주를 마시면서 시간을 보낼 때 어린 자녀를 위한 기저귀도 같이 산다는 추정이었다. 당연히 슈퍼마켓에 물건을 진열할 때 맥주와 기저귀를 가깝게 배치한다.

일상생활에서 쉽게 보는 상품 판매와 고객 관리, 정책 수립 및 의사결정 과정의 기본에는 데이터가 자리 잡고 있다. 데이터를 효과적으로 수집 분석하는 ‘데이터 과학’은 인간의 행복을 증진시키며, 시간을 절약하고, 부가가치를 높여준다.

더블린공과대학의 존 캘러허(John Kelleher)와 브렌던 티어니(Brendan Tierney)가 쓴 ‘데이터 과학’(DATA SCIENCE)은 최근 급격한 관심을 끄는 빅데이터를 다룬 책이다. 빅데이터가 등장한 배경과 빅데이터를 처리하는 기본 과학의 발달과정을 효과적으로 정리했다.

현대적인 의미의 빅데이터 수집 및 저장 기술은 1970년에 에드가 코드(Edgar Codd)가 발표한 ‘관계형 데이터 모델’(relational data model) 논문이 중요한 분기점이 됐다. 관계형 데이터베이스에 이어 더 많은 빅데이터가 쏟아지자 등장한 것이 NoSQL 데이터베이스이다.

존 캘러허, 브렌던 티어니 지음, 권오성 옮김 / 김영사

존 캘러허, 브렌던 티어니 지음, 권오성 옮김 / 김영사

데이터 과학의 또 다른 측면은 데이터 분석이다. 기계학습에 이어 나타난 딥러닝은 어마어마한 데이터를 분석할 때 인간의 신경회로가 작동하는 원리를 응용한 것이 특징이다. 이것이 바로 인공지능의 등장을 전 세계에 퍼트린 핵심적인 역할을 했다. 한국인에게는 컴퓨터가 결코 이기지 못할 것이라고 여겼던 바둑을 인공지능이 손쉽게 깨뜨리면서 갑자기 엄청난 각광을 받게 됐다.

데이터 과학이 지혜에 도달하려면

데이터 과학은 다른 관점에서 중요성을 강조할 수도 있다. 사람이 인생을 살면서 정말 중요한 결정을 내려야 할 때, 삶의 지혜를 어떻게 발휘할 것인지를 정하는 기본 구조를 알려주기도 한다.

각종 고전에서는 인간에게 지혜가 얼마나 중요하고 값어치 있는지를 모두 다 강조한다. 지혜를 얻으려면 풍부한 지식이 있어야 한다. 그렇다면 지식을 도출하는 하부 구조는 무엇일까? 조금만 생각하면 지식을 받치는 것이 정보임을 쉽게 짐작할 수 있다.

데이터 과학은 정보를 구성하는 하부 구조에 대한 설명이기도 하다. 정보의 하부 구조가 바로 데이터이고, 데이터는 실제 세계에서 추출한 추상적인 자료이다. 지혜-지식-정보-데이터-세계로 이어지는 이 구조의 기본을 이해하면 인생의 여러 가지 상황에서 올바른 결정을 내리는데 큰 도움을 얻을 수 있다.

그러나 저자는  데이터 과학의 미신을 경계할 것을 요구한다. 첫 번째 미신은 자동화된 공장에 데이터를 맡기면 모든 문제에 해답을 얻으리라는 잘못된 생각이다.

두 저자가 경계하는 두 번째 미신은 모든 데이터 과학에는 엄청난 양을 자랑하는 빅데이터가 꼭 필요하다는 미신이다. 많은 양의 데이터 보다 중요한 것은 적절한 데이터이다.

세 번째 미신은 데이터 관련 소프트웨어가 풍부하니 데이터 과학도 쉬울 것이라는 편견이다.

이런 몇 가지 미신이 합쳐져서 상승작용을 일으키면 데이터 과학은 재앙이 될 수도 있다. 그중 대표적인 것은 빅데이터를 과학적으로 처리했다는 이유만 가지고 소프트웨어가 내놓는 결과를 맹신하는 경우가 꼽힌다. 우리들은 이미 조직적인 허위정보와 페이크 뉴스에서 데이터 과학의 미신적인 부작용을 매일같이 목격한다. 이것이 민주주의의 근간을 뒤흔들 수 있다는 우려는 가볍게 넘길 일이 아니다.

문제 정의-해석은 여전히 인간의 몫

데이터 수집 및 분석 처리 과정에서 노련한 인간 전문가가 필요하다. 사람의 역할은 문제를 규정하고, 필요 데이터를 설계하고, 다양한 기계학습 알고리즘 중에서 적합한 것을 선택한다. 여기에 그치지 않고 분석 결과를 비판적으로 해석하고, 적절한 실행계획을 세우는 과정이 남아있다. 데이터 과학은 노련한 인간 감독자와의 협업이 절대적으로 중요하다.

즉 문제를 정의하고 결과를 해석하는 일은 사람의 몫으로 남아있다. 문제 정의와 결과 해석 능력은 세계적인 기업들이 인재를 찾을 때 요구하는 신입사원의 능력이기도 하다.

과학이 못하는 인간의 몫을 정확히 이해할 때 우리는 과학에 대한 막연한 두려움에서 벗어날 수 있을 것으로 기대된다.

(2866)

뉴스레터 구독신청
태그(Tag)

전체 댓글 (0)

과학백과사전