데이터 사이언스로 바이러스 ‘추적’

코로나19와 관련된 사회적 요인 분석해 국가 정책에 반영

최근 미국 시카고 대학에서는 공공보건 전문가, 컴퓨터 과학자, 경제학자, 정책 전문가 등이 모여 새로운 프로젝트를 시작했다.

코로나19 확산이 이어지고 있는 가운데 의료진은 물론 정치‧경제‧사회‧문화 등 각 분야의 전문가들이 모여 관련 데이터를 공유하고, 더 나아가 팬데믹 사태에 대응하기 위한 방안을 찾아나가자는 것.

빅데이터를 분석해 정책, 방역 시스템, 도시계획 등에 활용하기 위한 것으로 이전에 볼 수 없었던 포괄적 데이터 사이언스 시스템이다. 관계자들은 코로나19 사태가 데이터 사이언스의 변화를 가속화하고 있다고 보고 있다.

최첨단 인공지능 기술을 접목해 정치‧경제‧사회‧문화 등 각 분야의 데이터를 분석하고 새로운 데이터를 산출하는 포괄적 데이터 사이언스 시스템이 가동되기 시작했다. ⓒwharton university

교통, 주거시설 등 세부 분석 가능해

21일 ‘유시카고 뉴스(Uchicago News)’에 따르면 시카고 대학에서 시작된 이 프로젝트는 국가 차원의 데이터를 다루고 있는 총체적 개념의 빅데이터 시스템이다.

코로나19 사태로 기업들과 대학, 정부, 공공기관 등이 공동 발족한 연구 컨소시엄 ‘C3.ai 디지털 혁신 연구소(C3.ai Digital Transformation Institute, DTI)’의 지원을 받고 있는데 목표는 신종 바이러스 움직임을 추적하는 일이다.

이를 위해 정치‧경제‧사회‧문화 등 광범위한 분야의 데이터가 수집되고 있으며, 관련 데이터를 통합적으로 관리하고 분석 처리하면서 팬데믹 사태에 대응해나가고 있다.

최종 목표는 감염 및 의료, 방역 상황 등의 빅데이터를 활용한 정책 수립과 함께, 바이러스와 관련된 과학자들의 연구 활동, 그리고 의료계의 환자 진단과 치료, 그리고 방역 활동을 돕는 것 등이다.

프로젝트를 이끌고 있는 메리엘렌 가이거(Maryellen Giger) 교수는 “이 프로젝트를 수행하기 위해 인공지능(AI) 등 첨단 기술이 총동원되고 있으며,  다양한 분야에서 관련 데이터를 활용하기 위해 데이터 세트인 ‘데이터 레이크(Data Lake)’를 구축했다.”고 말했다.

데이터 세트란 컴퓨터상에서 특정 목적을 위한 데이터를 산출하기 위해 모든 데이터를 한 개의 단위로 취급하는 데이터의 집합을 말한다. 포괄적 개념의 데이터 사이언스 시스템으로 코로나19와 관련된 사회 변화를 실시간 추적하는 것을 목표로 하고 있다.

이를 통해 코로나19를 전파하는 신종 바이러스의 움직임을 추적하고, 더 나아가 바이러스 확산 원인과 과정 등을 분석해 사회 각 분야의 연구 및 정책을 수립하는데 기반이 되는 자료로 활용하자는 것.

이에 따라 데이터 처리 방식에도 변화가 주어지고 있다. 과거 데이터 사이언스 시스템의 경우 코로나19 감염자, 사망자, 병적인 상태 등을 중심으로 데이터를 수집해 왔다. 수집한 데이터를 분류해 그 차이점을 찾아내고 각 분야에서 대처 방안을 찾아나가는 방식이다.

미국 질병통제예방센터(CDC)의 보고서가 대표적인 경우다. 최근 발표된 보고서에서는 라틴 아메리카와 아프리카계 흑인들의 발병률이 백인들보다 3배 이상 높게 나타나고 있으며, 직업과 의료혜택 등 사회적 여건들과 밀접한 관련이 있다는 내용을 담고 있다.

시뮬레이션 통해 향후 정책 수립 가능해

그러나 시카고 대학에서는 이전과 다른 포괄적 데이터를 산출하고 있는 중이다.

프로젝트에 참여하고 있는 시카고 의대 안나 호튼(Anna Hotton) 교수는 “코로나19와 관련, 많은 사람들이 바이러스에 감염되는 중요한 사회적 요인들이 다수에 존재하고 있다.”고 말했다.

호튼 교수는 “의료분야에서 발생하고 있는 불평등과 같은 아직까지 밝혀내지 못한 사회‧경제‧문화적 요인들이 다수 존재할 수 있다.”는 것.  “수많은 사회적 요인들을 새로 출범한 데이터 사이어스 시스템을 통해 분석하며 이전에 몰랐던 새로운 사실들을 다수 밝혀내고 있다.”고 말했다.

분석 대상은 바이러스를 구성하고 있는 단백질 분석에서부터 사람들의 움직임, 교통체증 등에 이르기까지 광범위하다. 도시 건물이 어떻게 배치돼 있는지 혹은 주택 구조에 따라 바이러스가 어떻게 전파되고 있는지 분석을 통해 바이러스를 추적할 수 있다.

호튼 교수는 “시카고 시민을 대상으로 신종 바이러스가 퍼져나가는 상황과 함께 이와 관련된 교통, 건물, 인구분포, 학교 교육, 시민 간의 접촉 과정, 그리고 의료 및 방역 상황 등을 종합적으로 추적해나갈 수 있다.”고 설명했다.

교수는 또 “축적된 데이터를 다양한 방식으로 분석해 코로나19가 향후 어떻게 변화할 것인지, 더 나아가 방역 시스템을 어떻게 구축하는 등 향후 대처 방안을 시뮬레이션화할 수 있다.”고 설명했다.

시뮬레이션이 가능한 것은 실시간 변하고 있는 실제 환경를 가상현실화해 어떤 변화가 발생했을 경우 빠른 시간 적용이 가능하기 때문이다. 프로젝트에 참여하고 있는 연구진은 이 시스템을 다양한 분야에서 활용할 수 있어 향후 더 강력한 위력을 발휘할 수 있을 것으로 기대하고 있다.

최근 UN 산하 국제기구인 ‘UN 해비타트’는 지난 5월 성명서를 통해 코로나19을 막기 위해 주거 및 도시 개선이 시급하다고 주장한 바 있다.

코로나19 감염자의 95% 이상이 도시에 거주하고 있는 가운데 대부분 불법 주거와 도시 슬럼가에 거주하고 있기 때문이라는 것.

열악한 환경으로 인해 사회적 거리두기, 손씻기 등의 방역 조치가 불가능한 상황이라며 각국 정부에 대처 방안을 마련해 줄 것을 촉구했다.

사회적 요인을 심층적으로 분석할 수 있는 데이터 사이어스 시스템이 가동되기 시작한 것은 최근 코로나19가 무서운 속도로 재확산 되고 있기 때문이다.

코로나19로 인해 과학계가 큰 변화를 겪고 있지만 특히 데이터 사이언스 분야에 있어 그 변화 속도가 빠른 것으로 평가받고 있다. 코로나19에 맞서는 정보 분석 기술의 활약이 기대된다.

(1446)

뉴스레터 구독신청
태그(Tag)

전체 댓글 (0)

과학백과사전