세상을 바꾸는 데이터 과학

[2019 우수과학도서] 빅데이터와 데이터 과학

데이터들을 분석하여 각 분야에서 활용할 수 있는 유의미한 결과들을 도출하는 방법이 빅데이터 과학이다. ⓒ게티이미지

‘빅데이터와 데이터 과학’은 대한민국 과학기술계 최고의 석학들이 모인 한국과학기술한림원의 ‘석학, 과학기술을 말하다’ 시리즈 중 하나로, 빅데이터와 데이터 과학의 발달과 그것이 우리 삶에 미치는 영향을 알기 쉽게 설명한 도서이다.

4차 산업혁명시대에 접어드는 오늘날, 이 책에서 다루는 통계학, 컴퓨터 과학, 빅데이터, 데이터 과학 등의 발전은 우리에게 매우 중요한 의미를 부여한다. 그 중심이 되는 데이터 과학(data science)은 통계학과 컴퓨터 과학의 융합 이후 응용 분야인 의학, 공학, 유전학, 경영, 금융 등 각 분야의 지식과 연결되어, 새로운 지식을 창출하는 새로운 융합학문이다.

이 책에서는 이러한 데이터 과학과 빅데이터 활용의 중요성과, 그것이 우리의 삶에 어떻게 적용되고 있는지를 실제 다양한 사례들을 통해서 독자들의 이해를 돕고 있다.

또한 독자들로 하여금 데이터 기반의 지능 디지털 변혁(data-based intelligent digital transformation)인 4차 산업혁명의 본질을 이해하고, 4차 산업혁명의 밑바탕이 되는 데이터 과학의 중요성을 인식하는 계기를 제공하고 있다.

빅데이터란 무엇인가?

데이터는 그 생산 방식에 따라서 구조적 데이터(structured date, 정형 데이터)와 비구조적 데이터(unstructured data, 비정형 데이터)로 나눌 수 있다.

구조적 데이터는 정해진 서식에 따라 특정 형식에 맞춰 잘 구조화되어 관리되는 데이터이다.

반면에 비구조적 데이터는 데이터 하나하나마다 크기와 내용이 달라 통일된 구조로 정리하기 어려운 데이터이다. 이 데이터들을 분석하여 각 분야에서 활용할 수 있는 유의미한 결과들을 도출하는 방법이 빅데이터 과학이다.

그렇다면 빅데이터란 무엇인가? ‘빅(big)’이 의미하는 ‘크다’라는 의미를 통해 빅데이터는 양적으로 매우 방대한 데이터라는 인상을 갖기 마련이다. 하지만 이는 단어에 따른 막연한 인상일 뿐이며, 빅데이터가 정확히 무엇을 의미하는지는 알 수 없다.

이 책의 저자들은 빅데이터의 의미를 좁은 의미와 넓은 의미로 나누어 다음과 같이 알기 쉽게 설명하고 있다.

좁은 의미에서 빅데이터는 기존 데이터베이스의 데이터 수집·저장·관리·분석의 역량을 넘어서는 구조적 및 비구조적 데이터를 포함하는 대용량의 데이터 집합이다. 반면 넓은 의미에서 보면 좁은 의미의 빅데이터를 포함하고, 추가로 이러한 빅데이터로부터 의사 결정에 필요한 정보와 지식을 추출하고 결과를 분석하는 데 필요한 인력과 조직 및 관리·분석기술을 통칭한다.

빅데이터와 데이터 과학 ⓒ 자유아카데미

구슬이 서 말이라도 꿰어야 보배

이 책에서는 구체적인 사례와 다양한 예시들을 통해 데이터에서 지식을 찾을 수 있는 방법을 서술하고 있다.

세균, 수인성 전염병, 비타민 성분의 발견 등 역사적으로 굵직한 사건들 외에도 일상생활에서도 우리는 경험적으로 데이터를 활용하여 결론을 도출하곤 한다. 지식 기반 정보화 사회는 데이터 홍수의 시대라고 할 수 있으며, 이러한 데이터로부터 필요한 정보를 순발력 있고 정확하게 추출할 수 있는 능력이 매우 중요하다. 또한 얻어진 데이터로부터 어떤 현상을 예측하기 위한 모델링과 이로부터의 예측은 경제와 사회의 발전에 중요한 역할을 하고 있다.

정보화 시대로 오면서 데이터의 크기가 점점 방대해지고 그것들을 다루는 데 소요되는 인력과 비용이 문제가 되던 시기가 있었다. 이때 컴퓨터의 등장으로 인해서 좀 더 체계적이고 확장된 통계적 분석 방법들이 제시되었다.

이 책에서는 데이터 과학의 출현 및 발달 과정을 세세하게 살피고 데이터가 어떻게 소중한 자원이 될 수 있었는지 그 활용과 함께 다각도로 보여 주고 있다. 동시에 시대의 변화에 발맞춘 통계적 사고의 함양을 강조하고 있기도 하다.

통계적 사고란 모든 프로세스에 대하여 과학적이고 확률적으로 생각하는 생활철학으로, 각 프로세스의 진행 시간은 평균과 산포를 가지고 있으며, 프로세스 간에는 상호 관계가 존재할 수 있고, 프로세스에서 나오는 정보를 어떻게 대하고, 그 정보를 어떻게 활용할 것인가를 생각하는 의사 결정 방식을 말한다.

이러한 통계적 사고가 밑바탕이 되고 빅데이터와 데이터 과학에서 선진화되어야 앞으로 세계를 선도하는 나라가 될 수 있을 것이다.

통계적 상상력: 과거와 현재의 데이터로 미래 사회를 그리다

인류 문명이 발달하며 지금까지 헤아릴 수 없는 정보들이 쌓여 왔다. 그 모든 것을 데이터화하여 그동안의 변화를 살펴보고, 앞으로 어떤 변화가 일어날 것인지 시뮬레이션(simulation) 할 수만 있다면, 미래 사회를 예측하는 것도 허황된 이야기만은 아니다.

이 책의 후반부에서는 그러한 통계적 상상력들이 구체화된 연구들을 소개하고 있다. 고령화 사회, 기대 수명, 경제 현황, 주택 공급, 치매 환자의 증가, 인공 지능의 활성화 시점, 중국과 미국의 패권 경쟁 등 다양한 분야들의 예시들을 다루고 있다.

이를 통해 우리는 통계가 그럴듯해 보이는 거짓말이 아닌 과학적인 근거를 바탕으로 한 합리적 예측이라는 사실을 알 수 있다.

(1615)

뉴스레터 구독신청
태그(Tag)

전체 댓글 (0)

과학백과사전