빅데이터가 경제·사회적 현안 해결의 실마리로 주목받고 있다. 하지만 빅데이터는 과거와 비교해 ‘크다’의 수준을 넘은 대용량의 데이터이다 보니 이를 처리하는 방법에도 관심이 집중되고 있는데, 그 중 데이터마이닝은 빅데이터를 해석해낼 대표적 방법으로 여겨지고 있다. 고려대학교 산업경영공학부의 김성범 교수를 만나 데이터마이닝에 대한 궁금증을 풀어봤다.
데이터 양의 증가는 하드웨어 발달 때문
“빅데이터는 양도 많지만 특성도 너무 다양해 기존의 데이터에서 보지 못한 복잡성을 갖고 있습니다. 그래서 대용량 데이터 분석을 위해 새로운 방법이 필요했고, 과거와 차별화된 명칭이 요구됐죠. 데이터마이닝이 세상에 나온 이유라고 할 수 있어요.”
김 교수는 “컴퓨터, 기계공학, 전자공학 등 하드웨어가 발달하면서 데이터 양이 급속도록 증가하기 시작했다”며 “데이터마이닝은 이런 방대하고 복잡한 데이터를 분석할 수 있는 현대적 의미의 데이터 분석이다”고 말했다.
백화점에서는 엄청난 고객 데이터를 분석해 비슷한 속성을 가진 고객들을 그룹화하여 관리하고 있다. 데이터마이닝의 군집분석을 통해 A제품, B제품을 구매하는 고객의 특성을 구분해 그들만을 위한 상품 소개 책자를 제작하는 등 타깃 마케팅을 하고 있다.
경영학에서 장바구니 분석이라고 불리는 연관성 분석도 데이터마이닝 기법 중 하나이다. 예를 들어 사과를 샀던 사람이 아이스크림을 사는 경우가 더 많다는 데이터 결과를 얻었다면 사과 판매대 옆에 아이스크림을 진열해 매출을 올릴 수 있다. 이 분석 기법은 현재 백화점이나 마트 등 진열장 배열 문제에서 자주 응용되고 있다. 미국의 전자유통회사인 베스트바이는 실제로 고객 분석을 통해 진열장을 재배치해 판매율을 올렸다.
데이터마이닝은 주가예측이나 판매예측에도 이용된다. 특히 신규 시장에 진입 할 때, 과거에는 감이나 경험에 의해서 이뤄졌다면 지금은 과거 데이터를 기반으로 행해진다.
데이터마이닝의 핵심은 협력
데이터마이닝의 현실 적용 예를 얼핏 살펴보면 단순한 분석 같다. 하지만 절대 그렇지 않다. 김 교수는 “데이터마이닝의 일반적인 정의를 보면 대용량의 복잡한 데이터로부터 유용한 정보를 이끌어내는 일련의 과정이라고 기술돼 있다”며 “여기서 중요한 점은 ‘일련의 과정’이라는 단어”라고 강조했다. 즉 데이터마이닝은 여러 개의 단계로 이어진 과정으로 데이터 분석은 그 과정 중 일부라고 할 수 있다.
데이터마이닝에서 가장 중요한 것은 협력이다. 데이터 분석을 하기 위해서는 의료면 의료분야, 판매면 마케팅 분야 등 해당 데이터에 대한 지식을 갖고 있어야 한다. 데이터를 모으고 저장하는 데도 특별한 기술을 요구한다. 분석을 위한 폼으로 바꾸는 데도 전문가의 손길을 거쳐야 한다. 그리고 난 다음, 데이터마이닝 기법을 이용한 데이터 분석이 들어간다.
그렇지만 이것으로 끝이 아니다. 가장 중요한 해석의 과정이 남아 있는데, 이 단계에서 현실을 반영한 해석을 위해 각 분야의 전문가와 함께 데이터에 관한 논의를 하게 된다. 만약 데이터가 현실성이 없다면 이전 과정으로 돌아가 다시 데이터마이닝의 과정을 진행하게 된다. 한마디로 각 분야의 전문가가 모여 하나의 결과물을 도출하는 과정인 셈이다.
현재 데이터마이닝을 가장 많이 이용하고 있는 곳은 IT 인프라가 잘 구축된 곳이다. 그리고 고객들을 직접 대면하는 백화점, 카드회사, 이동통신사들이 마케팅에 데이터마이닝을 활용하고 있다. 반도체나 디스플레이 제조업체에서는 각 공정마다 데이터를 조사해 불량품이 많이 나오는 공정을 알아낸 뒤 문제점을 찾아내고 해결하는 데 데이터마이닝을 이용하고 있다.
데이터마이닝의 중요성은 점점 증가될 것
김 교수는 “어떤 학문이든 산업이든 간에 데이터가 없는 분야는 없다”고 단언하면서 “데이터 분석은 복잡해진 사회의 문제점을 파악하고 발전방향을 설정하는 데 가장 기초적인 작업으로서의 역할을 톡톡히 수행하게 될 것”이고 전망했다.
그러나 아직까지 우리나라는 데이터마이닝에 대해 적극적이지 않다. 현장에서도 문제가 많은데 이것을 어떻게 풀어야 할지 모르고 있다. 그 결과 데이터를 분석하는 사람들도 현실과 동떨어진 문제를 풀고 있는 경우가 많다.
공공분야도 마찬가지이다. 의료, 항공, 재난 등 정부에서 이제까지 쌓아둔 데이터는 많지만 적극 활용해 재난을 관리하는 데 이용할 생각은 하지 않고 있다. 그나마 다행인 것은 기업에서 데이터마이닝에 대한 중요성을 인지하기 시작했다는 점이다.
“기업이 데이터마이닝 인재가 필요하다고 느끼게 되면 이 분야의 연구와 인력을 요구하게 된다”면서 “이는 데이터마이닝이 기술적 측면에서 벗어나 데이터 과학으로 발전하는 데 긍정적 역할을 할 것”이라고 김 교수는 예상했다.
- 김연희 객원기자
- iini0318@hanmail.net
- 저작권자 2012-07-18 ⓒ ScienceTimes
관련기사