데이터들을 분석하여 각 분야에서 활용할 수 있는 유의미한 결과들을 도출하는 방법이 빅데이터 과학이다. ⓒ게티이미지
‘빅데이터와 데이터 과학’은 대한민국 과학기술계 최고의 석학들이 모인 한국과학기술한림원의 ‘석학, 과학기술을 말하다’ 시리즈 중 하나로, 빅데이터와 데이터 과학의 발달과 그것이 우리 삶에 미치는 영향을 알기 쉽게 설명한 도서이다.
4차 산업혁명시대에 접어드는 오늘날, 이 책에서 다루는 통계학, 컴퓨터 과학, 빅데이터, 데이터 과학 등의 발전은 우리에게 매우 중요한 의미를 부여한다. 그 중심이 되는 데이터 과학(data science)은 통계학과 컴퓨터 과학의 융합 이후 응용 분야인 의학, 공학, 유전학, 경영, 금융 등 각 분야의 지식과 연결되어, 새로운 지식을 창출하는 새로운 융합학문이다.
이 책에서는 이러한 데이터 과학과 빅데이터 활용의 중요성과, 그것이 우리의 삶에 어떻게 적용되고 있는지를 실제 다양한 사례들을 통해서 독자들의 이해를 돕고 있다.
또한 독자들로 하여금 데이터 기반의 지능 디지털 변혁(data-based intelligent digital transformation)인 4차 산업혁명의 본질을 이해하고, 4차 산업혁명의 밑바탕이 되는 데이터 과학의 중요성을 인식하는 계기를 제공하고 있다.
빅데이터란 무엇인가?
데이터는 그 생산 방식에 따라서 구조적 데이터(structured date, 정형 데이터)와 비구조적 데이터(unstructured data, 비정형 데이터)로 나눌 수 있다.
구조적 데이터는 정해진 서식에 따라 특정 형식에 맞춰 잘 구조화되어 관리되는 데이터이다.
반면에 비구조적 데이터는 데이터 하나하나마다 크기와 내용이 달라 통일된 구조로 정리하기 어려운 데이터이다. 이 데이터들을 분석하여 각 분야에서 활용할 수 있는 유의미한 결과들을 도출하는 방법이 빅데이터 과학이다.
그렇다면 빅데이터란 무엇인가? ‘빅(big)’이 의미하는 ‘크다’라는 의미를 통해 빅데이터는 양적으로 매우 방대한 데이터라는 인상을 갖기 마련이다. 하지만 이는 단어에 따른 막연한 인상일 뿐이며, 빅데이터가 정확히 무엇을 의미하는지는 알 수 없다.
이 책의 저자들은 빅데이터의 의미를 좁은 의미와 넓은 의미로 나누어 다음과 같이 알기 쉽게 설명하고 있다.
좁은 의미에서 빅데이터는 기존 데이터베이스의 데이터 수집·저장·관리·분석의 역량을 넘어서는 구조적 및 비구조적 데이터를 포함하는 대용량의 데이터 집합이다. 반면 넓은 의미에서 보면 좁은 의미의 빅데이터를 포함하고, 추가로 이러한 빅데이터로부터 의사 결정에 필요한 정보와 지식을 추출하고 결과를 분석하는 데 필요한 인력과 조직 및 관리·분석기술을 통칭한다.
빅데이터와 데이터 과학 ⓒ 자유아카데미
구슬이 서 말이라도 꿰어야 보배
이 책에서는 구체적인 사례와 다양한 예시들을 통해 데이터에서 지식을 찾을 수 있는 방법을 서술하고 있다.
세균, 수인성 전염병, 비타민 성분의 발견 등 역사적으로 굵직한 사건들 외에도 일상생활에서도 우리는 경험적으로 데이터를 활용하여 결론을 도출하곤 한다. 지식 기반 정보화 사회는 데이터 홍수의 시대라고 할 수 있으며, 이러한 데이터로부터 필요한 정보를 순발력 있고 정확하게 추출할 수 있는 능력이 매우 중요하다. 또한 얻어진 데이터로부터 어떤 현상을 예측하기 위한 모델링과 이로부터의 예측은 경제와 사회의 발전에 중요한 역할을 하고 있다.
정보화 시대로 오면서 데이터의 크기가 점점 방대해지고 그것들을 다루는 데 소요되는 인력과 비용이 문제가 되던 시기가 있었다. 이때 컴퓨터의 등장으로 인해서 좀 더 체계적이고 확장된 통계적 분석 방법들이 제시되었다.
이 책에서는 데이터 과학의 출현 및 발달 과정을 세세하게 살피고 데이터가 어떻게 소중한 자원이 될 수 있었는지 그 활용과 함께 다각도로 보여 주고 있다. 동시에 시대의 변화에 발맞춘 통계적 사고의 함양을 강조하고 있기도 하다.
통계적 사고란 모든 프로세스에 대하여 과학적이고 확률적으로 생각하는 생활철학으로, 각 프로세스의 진행 시간은 평균과 산포를 가지고 있으며, 프로세스 간에는 상호 관계가 존재할 수 있고, 프로세스에서 나오는 정보를 어떻게 대하고, 그 정보를 어떻게 활용할 것인가를 생각하는 의사 결정 방식을 말한다.
이러한 통계적 사고가 밑바탕이 되고 빅데이터와 데이터 과학에서 선진화되어야 앞으로 세계를 선도하는 나라가 될 수 있을 것이다.
통계적 상상력: 과거와 현재의 데이터로 미래 사회를 그리다
인류 문명이 발달하며 지금까지 헤아릴 수 없는 정보들이 쌓여 왔다. 그 모든 것을 데이터화하여 그동안의 변화를 살펴보고, 앞으로 어떤 변화가 일어날 것인지 시뮬레이션(simulation) 할 수만 있다면, 미래 사회를 예측하는 것도 허황된 이야기만은 아니다.
이 책의 후반부에서는 그러한 통계적 상상력들이 구체화된 연구들을 소개하고 있다. 고령화 사회, 기대 수명, 경제 현황, 주택 공급, 치매 환자의 증가, 인공 지능의 활성화 시점, 중국과 미국의 패권 경쟁 등 다양한 분야들의 예시들을 다루고 있다.
이를 통해 우리는 통계가 그럴듯해 보이는 거짓말이 아닌 과학적인 근거를 바탕으로 한 합리적 예측이라는 사실을 알 수 있다.
(3969)
로그인후 이용 가능합니다.
2024년 이후 국제우주정거장(ISS) 프로젝트 탈퇴를 선언한 러시아가 독자적으로 건설할 우주정거장의 실물 모형을 공개했다고 15일(현지시간) 로이터통신, 영국 일간 가디언 등이 보도했다. 러시아 연방우주공사(로스코스모스)는 이날 모스크바 외곽에서 열린 한 군사 산업 전시회에서 새로운 우주정거장 모형을 선보였다. 러시아 국영매체는 이 모형을 '로스'(Ross)라고 불렀다. 새로운 우주정거장은 2단계로 발사될 예정이다.
울산과학기술원(UNIST) 연구진이 남극 앞바다의 기후 변화가 태평양 수온과 열대 지역 비구름에 미치는 효과를 규명했다. 16일 UNIST에 따르면 도시환경공학과 강사라 교수 연구팀은 기후 모델(Climate Mode) 실험으로 남극 앞바다의 냉각이 적도 태평양의 수온을 낮춘다는 내용을 입증했다. 특히 남극 앞바다의 온도와 열대강우(비구름) 사이의 상관관계를 명확히 밝혔다. 남극 앞바다가 차가워지면 열대 동태평양의 수온이 낮아지고, 그 영향으로 열대강우가 북쪽으로 이동하는 현상이 나타난다는 것이다.
기온이 같아도 습도가 높으면 더 덥고 불쾌하게 느껴지는데, 상대습도를 반영해 산정하는 체감온도인 '열파 지수'(HI)가 최근 잦아진 극단적인 기온에서 실제 인체가 느끼는 온도를 반영하지 못하고 있다는 연구 결과가 나왔다. 미국 국립기상청(NWS)을 비롯한 많은 나라가 열파 지수를 토대로 여름철 위험 경보를 발령하는데 인체가 느끼는 온도와 많게는 20℉ 이상 차이가 나는 것으로 제시됐다. 버클리 캘리포니아대학에 따르면 이 대학 기후학자 데이비드 롬프스 교수가 이끄는 연구팀은 NWS가 이용해온 기존 열파 지수의 한계를 보완한 연구 결과를 학술지 '환경연구 회보'(Environmental Research Letters)에 발표했다.
음식물에 들어 있는 글루코스(포도당)는 우리 몸이 필요한 에너지를 만드는 데 쓰인다. 암세포도 자기 복제를 하는 데 엄청난 양의 포도당이 필요하다. 종양이 성장하려면 암세포의 복제에 필요한 여러 가지 합성 작용이 빠르게 이뤄져야 한다. 지금까지 과학자들은 암세포가 포도당을 효율적으로 이용하지 않는다고 생각했다. 암세포가 흡수한 포도당에서 가능한 한 많은 에너지를 뽑아내지 않고 대부분 폐기물로 반출한다고 여겼다.
한국과학기술원(KAIST)은 기계공학과 배중면·이강택 교수와 한국에너지기술연구원(KIER) 이찬우 박사 공동 연구팀이 상용 디젤에서 수소를 생산할 수 있는 개질(Reforming) 촉매를 개발했다고 16일 밝혔다. 디젤은 수소 저장 밀도가 높고 운반·저장이 쉬워, 개질을 통한 수소 공급 장치를 트럭 보조전원장치 등 모바일 연료전지 시스템에 적용하려는 연구가 지속돼왔다. 연구팀은 촉매 입자 내부의 금속 나노입자가 표면으로 올라오는 용출 현상을 통해 합금 나노입자를 형성해 촉매 성능을 향상하도록 촉매를 설계했다.
광도(밝기)가 급격히 떨어졌던 오리온자리의 가장 밝은 α별인 적색초거성 '베텔게우스'가 별의 표면인 광구(光球)의 일부가 대형 폭발로 날아가는 '표면질량분출'(SME)을 겪고 서서히 회복 중이라는 연구 결과가 나왔다. 베텔게우스의 SME는 태양의 바깥 대기에서 플라스마를 대량 방출하는 '코로나질량분출'(CME)의 약 4천억 배에 달하는 관측 사상 전례가 없는 것으로 제시됐다.
한국과학기술원(KAIST)은 생명과학과 김세윤 교수 연구팀이 가족성 고콜레스테롤혈증 체료제인 '로미타피드'가 항암 효과까지 있음을 확인했다고 12일 밝혔다. 연구팀은 인공지능에 기반한 약물 가상 스크리닝 기술을 이용해 이런 성과를 냈다. 기존 약물의 새로운 적응증을 찾는 약물 재창출은 신약 개발에 투입되는 시간과 비용을 크게 줄이지만, 모든 약물을 실험적으로 검증하기에는 시간과 비용이 많이 드는 어려움이 있다.