기획·칼럼

빅데이터를 다차원으로 분석하다

[과학자의 연구실] [인터뷰] 강유 카이스트 전산학과 교수

앞으로 빅데이터를 다차원적으로, 보다 수준 높게 분석할 수 있는 길이 열릴 것으로 보인다. 국내 연구진과 해외 연구진이 함께한 국제 공동연구진이 ‘대용량 다차원 텐서 분석 시스템’을 개발한 것이다. 이를 활용할 경우 기존에 대비해 최소 10배에서 최대 100배의 큰 용량의 데이터를 효율적으로 분석할 수 있게 된다.

연구를 진행한 강유 카이스트 교수는 “데이터 분석 원천 기술을 확보함으로써, 거시적으로는 세계로 진출하는 국내 기업들의 데이터 분석 경쟁력을 높일 수 있을 것”이라고 강조했다.

강유 카이스트 전산학과 교수 ⓒ 강유

강유 카이스트 전산학과 교수 ⓒ 강유

기존 한계 극복한 분석 시스템

빅데이터가 시대의 이슈로 떠오른 지는 꽤 됐다. 과거 정보를 가진 자가 경쟁력을 갖게 됐다면 지금은 더 나아가 그러한 정보를 분석함으로써 보다 고차원적인 정보를 쥐고 있는 자가 경쟁력을 갖는 사회가 된 것이다.

기존에는 이러한 빅데이터를 분석하기 위해 ‘텐서 시스템’을 이용했다. 텐서란 2차원 행렬을 일반화 한, 3차원 이상의 다차원 배열을 의미한다. 일례로 ‘주어, 동사, 목적어’를 포함하는 지식 베이스 데이터는 3차원 배열 형태의 텐서이며, ‘발신 IP, 수신 IP, 시간, 포트’를 포함하는 네트워크 트래픽 데이터는 4차원 배열 형태의 텐서인 것이다. 통화 내역에 빗대어 이야기 하자면 발신자와 수신자만 포함할 경우 2차원 행렬로 표현되지만, 통화시점까지 포함할 경우 ‘발신자, 수신자, 시간’ 까지 3차원 텐서로 표현될 수 있다.

연구를 진행한 강유 교수는 “이번 연구에서 우리팀은 대용량 다차원(텐서) 데이터 마이닝을 통한 다중 방향 데이터 마이닝을 주제로 했다”며 “기존에 존재하지 않았던 새로운 텐서 마이닝 이론을 개발하고, 기존 알고리즘으로 처리하지 못했던 대용량 텐서 데이터를 분석할 수 있도록 했다. 그 결과 다양한 도메인의 데이터를 분석해 사회의 여러 문제를 해결할 수 있도록 했다”고 연구에 대해 설명했다.

강유 교수에 따르면 텐서는 웹 그래프와 지식베이스, 소셜 네트워크, 네트워크 트래픽 등 다양한 속성을 가진 고차원의 실제 세계 데이터를 모델링하기에 적합하다. 하지만 실세계 텐서 데이터의 크기가 기가 바이트(Giga Byte), 테라 바이트(Tera Byte) 스케일로 매우 빠르게 증가하고 있는 반면, 기존 알고리즘들은 대부분 단일 머신에서 동작하는 데 그치고 있기에 대용량의 텐서를 분석하기 어려운 상황이었다. 분산 환경에서 동작하는 경우에도 대용량의 중간데이터를 생성하므로 많은 디스크 용량을 필요로 한다는 문제점이 있었다.

“빅데이터가 주목을 받으면서 이를 분석하는 시스템 역시 함께 주목을 받고 있는 상태입니다. 하지만 해당 분야의 기술 수준이 만족할 만한 정도는 아니었어요. 무엇보다 기존의 분석 시스템은 크게 두 가지로 나눠 생각할 수 있었습니다. 단일 머신에서 동작하는 시스템과 분산 환경에서 동작하는 시스템이죠. 단일 머신용 시스템은 데이터가 시스템의 메모리보다 작다고 가정하기 때문에 작은 텐서 데이터는 처리할 수 있지만 메모리 용량을 초과하는 대용량 데이터는 분석하기 어려웠습니다. 분산 환경에서 동작하는 기존 시스템은 대용량의 중간데이터를 생성하게 돼 많은 디스크 용량을 필요로 한다는 문제점이 있었죠.”

이러한 한계를 극복하기 위해 연구팀은 단일머신에서 동작할 뿐 아니라 분산머신에서 동작하더라도 큰 용량의 중간데이터가 생겨나는 기존 알고리즘의 단점을 극복해 기존 대비 최대 100배 큰 텐서 데이터를 분석할 수 있는 시스템을 개발했다.

“저희 연구팀이 제안한 알고리즘은 효율적인 대용량 텐서 분해를 위해 대용량 데이터 처리에 적합한 분산 시스템을 기반으로 설계됐습니다. 분산 시스템에 알맞도록 텐서 분해 연산을 재설계하고 실세계 텐서 데이터의 희소성(sparseness)을 활용해 중간에 생성되는 데이터와 알고리즘의 수행시간을 최소화했어요. 이러한 방법으로 기존 알고리즘의 한계점을 극복한 것이죠.”

대용량 다차원 텐서 분석을 위해 제안한 텐서 분석 시스템. 본 연구팀이 제안한 대용량 다차원 텐서 분석 시스템은 하둡(Hadoop) 분산 시스템을 기반으로 동작하는 시스템으로, 대표적인 텐서 분해 알고리즘인 PARAFAC과 Tucker 분해 알고리즘을 지원한다.

대용량 다차원 텐서 분석을 위해 제안한 텐서 분석 시스템.
본 연구팀이 제안한 대용량 다차원 텐서 분석 시스템은 하둡(Hadoop) 분산 시스템을 기반으로 동작하는 시스템으로, 대표적인 텐서 분해 알고리즘인 PARAFAC과 Tucker 분해 알고리즘을 지원한다. ⓒ 한국연구재단

중간데이터 줄이고 알고리즘 수행시간 최소화

기존 한계를 극복하기 위해 연구를 진행한 결과 강유 교수팀은 앞서도 언급했듯 기존 알고리즘에 비해 최소 10배에서 최대 100배의 큰 크기의 텐서 분석이 가능하다는 사실을 증명했다. 제안한 알고리즘의 성능을 측정하기 위해 연구팀은 다양한 크기의 입력 텐서에 대해 제안한 알고리즘과 기존 알고리즘의 확장성을 비교하는 실험을 수행했다. 또한 개발한 시스템을 이용해 기존 방법으로 분해하기 어려운 9천900만 개의 지식으로 이뤄진 지식베이스 텐서인 ‘Freebase’와 ‘NELL’ 텐서를 분해, 흥미로운 개념그룹들을 도출할 수 있었다.

“연구결과가 성공적으로 나올 수 있던 것은 이처럼  실세계 데이터의 희소성을 활용해 중간데이터를 줄이고 알고리즘 수행시간을 최소화시켰기 때문입니다. 저희팀이 제안한 알고리즘은 대표적인 텐서 분해법인 PARAFAC 텐서 분해와 Tucker 텐서 분해의 두 가지 텐서 방법입니다. 두 분해법 모두 단일 머신 알고리즘을 분산 알고리즘으로 그대로 옮길 경우 매우 큰 중간 데이터를 생성하게 됩니다. 본 연구에서는 실세계 데이터가 희소성이 높고, 희소성이 높은 데이터와 희소성이 낮은 데이터에 대한 특정 연산 결과 또한 희소성이 낮다는 사실을 활용해 기존 알고리즘을 효율적인 분산 알고리즘으로 재설계 했습니다. 그 결과 중간 데이터의 크기를 크게 줄여서 수행시간을 줄일 수 있었던 거죠.”

강유 교수는 주로 대용량 그래프 마이닝을 연구하고 있다. 이번 연구 역시 바로 이러한 그의 연장선상에서 진행됐다고 볼 수 있는 셈이다. 강유 교수는 “그동안 진행했던 연구인 ‘그래프 마이닝’에서 ‘그래프’란 소셜 네트워크, 웹 등과 같이 개체와 연결선으로 표현될 수 있는 데이터를 의미한다”며 “기존의 대용량 그래프 마이닝 연구는 특정한 한 시점에 존재하는 정적 그래프에 초점을 맞췄지만 실제 세계 그래프는 시간이 지나면서 계속 변하기 때문에 동적 그래프를 분석하는 연구에 관심이 많았다”고 연구를 진행한 배경에 대해 이야기 했다. 동적 그래프를 표현하는 가장 대표적인 방법이 바로 3차원 배열, 즉 텐서이기 때문에 해당 분석시스템 연구를 시작하게 됐다는 의미였다.

“하지만 연구 과정이 쉽지는 않았어요. 모든 연구가 다 어려움을 수반하잖아요. 저희도 마찬가지였습니다. 2차원 행렬 데이터는 시각화하기가 쉽지만 3차원 또는 그 이상의 고차원 데이터는 시각화하기가 쉽지 않기 때문에 기존 알고리즘을 이해하는데 그리고 새로운 알고리즘을 생각하는데 시간이 많이 들었습니다. 또한 대용량 데이터를 처리하는데 시간이 오래 걸려서 다른 연구에 비해 연구 진행이 더뎠습니다.” 텐서는 다양한 형태의 데이터를 모델링 할 수 있기 때문에 의료, 네트워크, 웹 등 광범위한 분야에 범용적으로 활용될 수 있다. 특히 기존의 2차원 행렬로 이루어진 정적 데이터에 시간 축을 더한 텐서로 만들어 트렌드 분석 같은 시간에 따른 변화를 추적하는데 유용하게 쓰일 수 있다는 게 강 교수의 이야기였다.

“더욱이 저희 연구팀에서 제안한 알고리즘은 실세계의 대용량 텐서 분석을 위한 것으로 기존 방법으로 분석하기 어려웠던 매우 큰 크기의 데이터 분석에 널리 활용될 수 있습니다. 바로 이 점에 연구의 의의가 있겠죠.”

진행된 이번 기술은 통화 내역 분석, 지식 베이스, 사회 연결망, 네트워크 트래픽 등 다양한 다중 방향 텐서 데이터에서 패턴과 비정상 특성을 찾는 데 주로 활용될 수 있다. 예를 들어, 소셜 네트워크에서의 악성 사용자를 찾아냄으로써 온라인 SNS의 역기능을 완화하거나, 네트워크 트래픽에서의 악성 트래픽 분석을 통해 안전한 인터넷을 사용할 수 있도록 하는 것이다.

더 넓게는 이러한 데이터 분석 원천 기술을 확보함으로써 세계로 진출하는 국내 기업들의 데이터 분석 경쟁력을 높일 수 있다. 또한 다양한 도메인의 텐서 데이터를 분석하고 의미를 도출해 각 도메인에서 제공하는 서비스의 품질을 향상시키는 데이터 과학자 양성과 대용량 텐서 마이닝 기술에 기반한 지식 기반 벤처 창업 활성화에 기여할 수 있을 것으로 보인다.

“더욱 완성도 높은 연구를 위해 앞으로 해결해야 할 과제가 있습니다. 텐서 분석은 텐서를 만드는 방법, 알고리즘을 실행하기 위해 필요한 몇 가지 인자(parameter)에 따라 다른 결과를 얻을 수 있다는 특징이 있습니다. 따라서 원본 데이터를 텐서화하는 체계적인 방법 연구, 적절한 인자를 쉽게 학습하는 기법에 대한 연구가 필요합니다. 저희 연구실에서 주도한 연구가 세계 최우수 학회에서 인정받는 연구 성과를 낼 수 있어 매우 뿌듯해요. 앞으로도 대용량 빅데이터를 분석하는 우수한 기법을 연구하여 빅데이터의 가능성을 현실화하는데 최선을 다하겠습니다.”

한편 강유 카이스트 교수팀과 미국 크리스토스 팔로웃소스(Christos Faloutsos) 카네기멜론 대학 교수팀 공동으로 진행한 이번 연구는 4월 13일 데이터베이스분야 저명 국제학회 중 하나인 ‘IEEE(International Conference on Data Engineering’ 2015에 발표되기도 했다.

(7586)

뉴스레터 구독신청
태그(Tag)

전체 댓글 (0)

과학백과사전