December 14,2018

빅데이터 분석 및 처리 속도 높였다

[인터뷰] 김민수 DGIST 정보통신융합공학전공 교수

인쇄하기 과학자의 연구실 스크랩
FacebookTwitter

게임 등의 컴퓨터 프로그램이 발달하기 전, 그래픽 카드에 대한 인식은 미미했다. 그저 CPU(Central Processing Unit: 중앙처리장치)의 연산결과를 그림이나 글자 신호로 변환해 출력하는 정도로만 인식된 것이다. 하지만 시간이 흐르고 기술이 발전함에 따라 컴퓨터를 통한 다양한 프로그램을 구동하게 됐고 멀티미디어 콘텐츠를 사용하는 환경이 조성됐다. 이에 따라 그래픽 카드의 역할도 변화했다.

게임 캐릭터를 보다 입체감 있게 표현하기 위해 3D그래픽이 도입됐으며 입체적인 표현 역시 더욱 수준이 높아지면서 그래픽 카드가 처리해야 할 정보는 이전과 비교할 수 없을 만큼 많아졌다. 하지만 이러한 정보처리는 CPU가 감당하기에는 역부족이다. 때문에 이를 보조할 3D그래픽 연산 전용 프로세서가 개발, 그래픽 카드에 탑재됐다.

지스트림(GStream), 300배 이상 빠른 빅데이터 분석 기술

김민수 DGIST 정보통신융합공학전공 교수 ⓒ 김민수

김민수 DGIST 정보통신융합공학전공 교수 ⓒ 김민수

보다 많은 양의 정보를 처리를 보조할 그래픽처리장치(GPU, Graphic Processing Unit)가 등장했지만, 그럼에도 불구하고 수 기가바이트(GB) 정도에 지나지 않는 GPU로는 수십 배 이상 더 큰 규모의 그래프 같은, 복잡한 형태의 데이터를 처리할 수 있는 기술개발은 어려웠다. 이 때문에 실생활에서 잘 활용되지 않기도 했다.

“아직까지 GPU가 CPU를 대체할 수는 없지만 GPU는 지난 십 수 년 동안 눈부신 발전을 통해 CPU에 비해 다음 두 가지의 명백한 장점을 갖게 됐습니다. 첫째는 비슷한 가격대의 CPU에 비해 수 십 배 이상 뛰어난 이론적인 계산 성능을 가진 것입니다. 둘째는 비슷한 양의 계산을 하기 위해 필요한 에너지, 즉 전력 소비량이 CPU에 비해 훨씬 뛰어나다는 것이죠. 우리는 이미 빅 데이터 시대에 살고 있다고 할 수 있어요. 이제 곧 진정한 지능형 컴퓨팅을 위해 빅 데이터에 기반의 빅 컴퓨팅 시대에 접어들 것으로 예상할 정도입니다. 빅 컴퓨팅 측면에서 현재의 CPU 중심의 계산은 성능 및 에너지 효율성 측면에서 한계를 지니고 있기 때문에 앞으로 GPU 기반의 연구가 많이 필요할 것으로 생각합니다.”

이런 가운데 김민수 교수 연구팀이 GPU를 활용해 비용 대비 성능 측면에서 300배 이상 빠른 GPU기반의 빅데이터 분석 및 처리기술(GStream)을 개발해 주목을 받고 있다. 김민수 디지스트(DGIST) 정보통신융합공학전공 교수팀이 해당 연구를 진행, 세계 최고 수준의 성능 구현에 성공한 것이다.

연구팀이 개발한  GPU기반의 빅데이터 분석 및 처리기술(GStream) 기술은 웹과 소셜네트워크, 생명과학, 뇌과학 등 다양한 분야에서 사용되는 그래프 형태의 빅데이터를 두 개의 GPU가 장착된 PC 한 대를 이용해 초당 14억 개의 간선들을 분석할 수 있는 기술이다. 이는 세계 최고 수준의 성능(1,400 MTEPS)인 만큼 그 성과가 더욱 관심을 받고 있다.

“GStream 기술은 웹, 소셜 네트워크, 생명과학 등의 분야에서 널리 사용되는 그래프 형태의 빅 데이터에 대해 CPU보다 이론적인 계산 성능이 월등히 뛰어난 GPU를 이용, 매우 고속으로 분석하는 기술입니다. 지금까지 개발된 대표적 기술은 미국 카네기멜론대학의 GraphLab입니다. 이 기술은 64개의 고성능 서버와 10기가의 고속 네트워크로 구성된 5억 원 규모의 대규모 분산 시스템을 이용해 14억 개의 간선들로 이뤄진 트위터 데이터를 3.6초 만에 페이지랭크를 분석했어요. 하지만 저희 GStream 기술은 GPU 두 개가 장착된 PC(비용 약 500만원) 한 대로 단 1초 만에 분석했습니다. 이는 절대 성능 측면에서 3.6배, 비용 대비 성능 측면에서 약 360배 우수한 성능입니다. 수치상 초당 14억 개의 간선들을 분석할 수 있는 세계 최고 수준의 성능(1400 MTEPS)이라고 할 수 있죠.”

김민수 교수에 따르면 그래프 같은 복잡한 형태의 빅데이터를 빠르게 분석하는 기술은 미국 구글과 MS 사 같은 글로벌 IT대기업들이나 스탠포드 대학교, 카네기멜론 대학교 같은 세계적인 대학들이 앞 다퉈 개발하고 있는 매우 중요한 기술이다.

그는 “종래에 가장 대표적인 기술로는 앞서 말씀드린 미국 카네기멜론대의 GraphLab이라는 기술을 비롯해 구글에서 과거에 개발한 Pregel, 그리고 최근 각광받기 시작한 아파치의 Spark GraphX가 있다”며 “모두 GStream에 비해서는 훨씬 느린 성능을 보이고 있다. 국내에서는 포항공대의 한욱신 교수님 팀에서 개발한 TurboGraph라는 CPU 기반의 기술이 유명하다”며 국내외 연구 동향을 설명했다.

하지만 이러한 기술은 분명 한계점이 존재했다. 무엇보다 공통적인 한계점은 CPU를 기반으로 데이터를 처리한다는 것이었다.

“상대적으로 성능이 낮은 CPU를 이용하기 때문에 빠른 분석을 위해 여러 대의 컴퓨터를 사용해야 합니다. 하지만 그래프 같이 서로 간 연관성이 높고 복잡한 형태의 데이터는 여러 대의 컴퓨터에 나눠서 처리할 경우 네트워크를 통한 컴퓨터 간의 데이터 전송이 매우 많이 발생하는 치명적인 문제점을 가집니다. 반면 GPU를 장착한 한 대의 컴퓨터를 사용하면 컴퓨터들 간의 과도한 데이터 전송 문제가 완전히 사라지게 되죠. 대신 GPU의 내장 메모리 크기가 빅 데이터를 처리하기에는 너무 작다는 문제를 갖게 되는데, GStream 기술은 이 문제를 중첩 루프 세타 조인과 비동기적 스트리밍 기법을 융합한 새로운 접근 방법으로 해결했습니다.”

GPU이용한 빅데이터 분석, 보다 실질적인 효과 도출한 연구

이번 연구를 성공으로 이끈 가장 핵심적인 기술은 앞서도 언급한, ‘중첩 루프 세타 조인과 비동기적 스트리밍 기법을 융합한 새로운 접근 방법’ 이다. 김민수 교수는 “이에 대해 조금 더 자세히 설명하자면 그래프 데이터를 페이지 단위들로 나눠 주 메모리로부터 GPU 메모리로, 비동기적 방식으로 스트리밍하는 동시에 GPU의 수 천 개 계산 코어들로 세타 조인이라 불리는 연산을 수행하게 된다. 그렇게 되면 GPU의 메모리 크기에 제한 없이 빅 그래프 데이터를 고속으로 분석할 수 있다”고 덧붙였다.

“지금까지 학계 및 산업계에서 GPU가 CPU에 비해 이론적인 성능이 훨씬 우수함을 인지하고 있었지만 실제로 빅 데이터를 GPU를 이용해 어떻게 고속으로 분석할 수 있는지에 대해서는 효과적인 방법을 찾지 못했습니다. 그런데 이번 GStream 연구를 통해 해당 문제를 일부 해결했다고 생각합니다. 개인적으로는 이번 연구를 통해 장차 필요할, 하지만 지금까지는 상상하지 못했던 큰 규모의 데이터 분석이나 상상하지 못했던 복잡한 종류의 분석을 할 수 있는 토대를 마련한 것이 가장 큰 성과라고 생각합니다.”

김민수 교수가 이번 연구를 진행한 것은 과거 그가 미국 IBM알마덴 연구소에서 근무한 당시로 거슬러 올라간다. 그는 DGIST에 부임하기 전 미국 IBM 알마덴 연구소에서 대규모 병렬 시스템 상에서 작동하는 차세대 상용 빅 데이터 분석 엔진 개발을 진행한 바 있다. 그 과정 가운데 막강한 이론적 계산 성능을 지닌 GPU를 이용하여 빅 데이터 분석을 하면 매우 좋을 것 같다는 생각을 가졌고, 이후 귀국해 DGIST에서 GPU를 이용한 빅 데이터 처리 기술을 본격적으로 연구하고 개발하기 시작했다.

“연구를 진행하면서 어려운 게 많았어요. 기술적으로는 국내외에서 사례가 없는 시도를 하는 것이었기에 거의 모든 것에 대해 시행착오를 거쳐야했습니다. 기술 외적으로는 연구의 질보다 SCI 논문 편수로 측정되는 연구 양에 치중을 하는 우리나라 대학가 분위기에 적응하는 것이었습니다. 세계적 수준의 연구 결과를 내기 위해서는 오랜 시간과 노력이 드는 법인데, 일반적으로 그러한 노력이 잘 인정받지 못하는 분위기인 것 같아 안타까웠죠. 다행히 제가 몸담고 있는 DGIST는 KAIST와 마찬가지로 과학기술특성화 대학으로서 어느 정도의 범위에서는 연구의 질을 추구할 수 있는 기회를 주는 곳이었기 때문에 이번 연구를 성공할 수 있었습니다.”

어려운 과정을 거쳐 수행한 연구인만큼, 김민수 교수팀의 이번 결과는 앞으로 많은 파급효과를 미칠 것으로 기대를 받고 있다. 김 교수는 “학술적으로는 GPU를 이용해 빅 데이터를 빠르게 분석할 수 있는 가능성을 보였기 때문에 향후 좀 더 다양한 종류의 빅 데이터들과 다양한 종류의 분석이 필요한 문제에 대해 GPU를 이용한 연구가 활발하게 이뤄질 것으로 예상한다”며 “산업적으로는 그래프 형태의 빅 그래프 분석이 필요한 산업 분야들, 예를 들어 웨어러블, 사물인터넷(IoT), 통신 분야, 웹, 소셜 네트워크 분야, 그리고 생물학적 네트워크 분석이 필요한 바이오, 의료 분야 등에서 솔루션의 비용 절감을 위해 GPU 기반의 기술 도입을 가속화할 것으로 예상한다”고 설명했다.

“빅 데이터 분석을 종래보다 훨씬 소규모 장비로 더욱 빨리 분석할 수 있는 기술을 확보했습니다. 사물인터넷(IoT) 기술의 발전으로 장차 일상생활 속에서 복잡한 형태의 빅 데이터가 사용될 때 소형 컴퓨팅 장치로 빅 데이터를 분석할 수 있는 길을 열 수 있을 것입니다. 앞으로 저희 연구팀은 현재보다 1000 배 쯤 더 큰 규모의 복잡한 빅 데이터들을 고속으로 처리할 수 있도록 GStream 기술을 GPU가 장착된 분산 시스템 버전으로 확장한 ‘GStream+’ 기술 개발 계획을 갖고 있습니다. 그 기술 개발이 성공할 경우 우리나라도 유럽의 초대규모 프로젝트의 BBP(Blue Brain Project)처럼 인간 뇌 신경망의 시뮬레이션을 시도해볼 수 있어 인간 뇌의 비밀에 접근할 수 있는 엄청난 연구를 시도할 수 있게 될 것입니다.”

의견달기(0)