데이터·AI가 이끄는 과학기술계의 패러다임 전환

[TePRI Report] Innopedia

단백질 구조를 밝힌 알파폴드2

작년 12월, 생명과학 분야의 최대 단백질 구조 예측 대회인 CASP (Critical Assessment of protein Structure Prediction)에서 구글 딥마인드가 개발한 알파폴드2가 100여개의 연구팀을 능가하는 높은 정확도로 단백질 구조를 예측하는 데 성공했다. CASP는 1994년 미국 메릴랜드대 존 몰트(John Moult) 교수가 만든 학술대회로, 단백질 구조 연구의 최적화된 예측 방법을 고안하기 위해 2년마다 개최되고 있다. 참가자들이 컴퓨터 시뮬레이션과 모델링을 기반으로 예측한 구조를 모범 답안의 단백질 구조와 비교하여 점수를 매기게 되는데, 100점에 가까울수록 서로 일치함을 의미한다. 고난이도 단백질 예측 문제에서 알파폴드2가 약 90점을 기록, 연구팀 최고 점수인 75점을 크게 상회한 점을 미루어 볼 때, 데이터를 기반으로 한 딥러닝 기술이 이미 과학자 수준 또는 그 이상의 정확도를 보여주었다고 평가되고 있다.

ⓒWikipedia

위 결과는 분자생물학계를 큰 충격에 빠트렸다. 단백질은 아미노산(amino acid)의 집합체로 이의 구조를 정확하게 예측하고 분석하는 것은 생명과학과 의·약학 분야에서 매우 중요한 일이다. 하지만, 단백질 구조는 아미노산 서열이 상호작용하여 3차원으로 구부러지거나 비틀어져 있는, 소위 ‘단백질 접힘’ 형태를 지니고 있어 이를 예측하는 것은 생물학계의 최대 난제 중 하나로 알려져 있었다. 지난 수십 년 동안 연구자들은 실험적으로 X선 결정학(X-ray crystallography)이나, 핵자기 공명 분광학(NMR), 또는 초저온-전자현미경(cryo-EM) 등의 방법을 활용하여 단백질의 입체구조를 해석해왔다. 현재까지 알려진 단백질 서열 2억개 중 구조까지 밝혀진 것은 약 17만개로, 이는 많은 연구진들이 고가의 실험장비 앞에서 짧게는 몇 달, 길게는 몇 년이라는 시간을 땀과 노력으로 함께 이루어낸 최종 산물이다.

과학기술 패러다임의 변화

그렇다면 연구진이 10년 동안 예측하지 못한 단백질의 구조를 알파폴드2는 어떻게 단 30분 만에 밝혀낼 수 있었던 것일까? 불가능해 보이는 이를 실현한 것은 바로 인공지능의 핵심기술인 딥러닝(Deep learning) 알고리즘이다. 1997년 IBM의 인공지능 컴퓨터 ‘딥블루’가 세계 체스 챔피언 가리 카스파로프(Garry Kimovich Kasparov)에게 승리하면서, 이른바 인공지능과 인간 대결이라는 첫 신호탄이 켜졌다. 하지만 딥블루는 체스의 모든 경우의 수를 계산하여 최적의 수를 선택하는 그저 뛰어난 계산 속도를 가진 컴퓨터에 불과했다. 그로부터 수십 년 동안 인공지능은 머신러닝이라는 기계학습법을 통해 스스로 학습하고 예측하는 능력을 키워왔고, 드디어 2016년에 이르러서 딥러닝으로 무장한 ‘알파고’는 전 세계 8천 만명 이상이 시청하는 앞에서 세계 최정상 프로 바둑기사 이세돌 9단을 압도적으로 승리하며 모두의 예상을 뒤엎었다.

바야흐로 인공지능의 새로운 역사를 맞이하게 된 것이다. 딥러닝의 기본적 모델인 인공신경망(Artificial Neural Network, ANN)은 인간의 뇌 신경세포(뉴런) 개념을 수학적으로 설계한 것이다. 뉴런이 정보를 전달하는 것처럼, 인공신경망 내에도 시냅스 결합을 통해 네트워크를 형성한 인공 뉴런이 지도학습 또는 비지도학습 등으로 문제 해결 능력을 키운다. 이러한 기계학습법은 복잡하고 거대한 양의 연산을 필요로 하기 때문에 개발 초기부터 여러 난관에 부딪혔다. 하지만 알고리즘이 점차적으로 개선되고, 강력한 성능의 하드웨어 GPU(Graphics Processing Unit) 발전과, 다양한 분야에서 수집된 풍부한 빅데이터를 통해 한계를 극복할 수 있었다.

Artificial Neural Network ⓒWikipedia

알파폴드2 개발자들은 이러한 딥러닝 기술을 활용하여 현존하는 단백질 서열과 3차원 구조를 신경망에 학습시켰고, 새로운 단백질 구조의 아미노산 쌍의 거리와 화학결합 각도를 스스로 예측할 수 있게 발전시켰다. 이 과정에서 새로운 알고리즘 접목은 예측 시간을 단축시켰고, 오픈소스 DB인 단백질 데이터 뱅크(Protein Data Bank)의 17만개의 단백질 빅데이터는 예측 정확도를 높일 수 있었다.

물론 알파폴드2가 개발되었다고 해서 그동안 실험적으로 분석하지 못한 모든 단백질의 3차원 구조를 단숨에 해결할 수 있는 것은 아니다. 여전히 복잡한 단백질 구조 예측에서는 기술적인 한계를 드러내고 있다. 하지만 우리가 주목해야 할 점은 미국을 비롯한 유럽, 일본 등 주요 선진국에서 이미 무수히 많은 과학기술 데이터를 확보하고 저장소를 구축, 운영하고 있다는 것이다. 여기에 그치지 않고 빅데이터 분석 도구와 인공지능 알고리즘을 접목하여 연구개발의 디지털화를 추진하고 있다.

ⓒ게티이미지뱅크

국가 차원의 인프라와 정부 정책을 기반으로 데이터 기반 신소재 설계에 가시적인 성과를 창출하고 있으며, 산업계 제조기업 중심으로도 시간과 비용을 획기적으로 절감하는 사례들이 나타나고 있다. 연구환경에서도 참신한 아이디어들이 구현되고 있는데, 실험과 장비 그리고 분석에 이르기까지 데이터·인공지능·로봇이 결합된 실험실의 디지털화를 통해 실험 가운과 연구 노트 없이 연구할 수 있는 미래의 스마트랩이 소개되고 있다. 과거 실험과 검증 기반의 정통적인 연구 방법에서 데이터와 인공지능 기반의 예측·가상 연구로 R&D 패러다임이 전환되고 있는 것이다.

우리의 도전과 남겨진 과제

우리나라에서도 디지털 뉴딜의 핵심이 되는 데이터 댐 구축 사업을 시작으로 산업, 교육 등 모든 분야에서 인공지능 도입을 가속화 하기 위한 인프라 조성과 인력양성에 총력을 다하고 있다. 데이터 3법과 지능정보화 기본법 개정을 통해 제도 기반을 정비하고 있으며, 대용량 데이터의 안정적 관리를 위해 초고성능 컴퓨팅 환경을 구축하고 있다. 또한, 연구기관별 또는 연구자별로 흩어져 있던 바이오·소재 분야 연구데이터를 ‘국가 바이오 연구 데이터 스테이션’, ‘국가 소재 연구데이터 센터’ 구축을 통해 확보하고 있다. 교육 분야에서도 KAIST, 포항공대 등 8개의 인공지능 대학원을 설립하여, 우수한 교수진을 확보하고 AI 인재 양성을 위한 전문 기관으로의 도약을 준비하고 있다.

민간 분야에서의 기업들의 노력도 주목할만하다. 삼성전자는 뉴욕, 토론토 등 전 세계 7개 지역에 AI 센터를 설립하여 글로벌 인재 유치에 힘쓰고 있으며, 현대차그룹은 미래 자동차 개발에서부터 생산 효율화까지 인공지능을 접목, LG, 네이버를 비롯한 산업계에서도 AI 전담 조직을 운영하며 기술개발에 힘쓰고 있다. 그러나 위와 같은 활발한 움직임에도 불구하고 산업 분야의 각종 규제와 전문 인재 부족으로 우리나라의 인공지능 생태계 수준이 세계 8위권에 머무르고 있다. 대한민국이 진정한 인공지능 강국으로 도약하기 위해서는 국가적 경쟁력을 더욱 갖춤과 동시에 새로운 기술의 확산과 보급으로 지속 가능한 발전을 모색해야 한다.

모스크바 AI센터가 위치한 화이트스퀘어 비즈니스센터 ⓒ삼성뉴스룸

2013년 맷데이먼이 주연으로 출연한 『앨리시움』이라는 영화가 있었다. 영화 속 2154년 미래의 지구는 인간이 더이상 건강한 삶을 영위할 수 없을 정도로 황폐해지는데, 극소수의 부유층 상위 1%만이 우주정거장 ‘엘리시움’에서 호화스러운 삶을 살아간다. 엘리시움에는 빅데이터와 인공지능을 활용한 의료 진단·치료 캡슐이 집집마다 보급되어 있는데, 캡슐에 누우면 스캐닝과 동시에 백혈병, 암 등과 같은 질병을 진단하고 수 분 이내로 치료 혜택을 받을 수 있다. 이와는 달리 지구에 남겨진 사람들은 로봇의 통제하에 상류층에게 필요한 물자를 생산하며 양극화된 삶을 살아가는데, 엘리시움의 최첨단 치료를 받기 위해 사활을 건 우주 비행의 시도를 멈추지 않는다. 현실은 어떠할까?

영화 엘리시움의 메디컬 머신 ⓒ소니픽쳐스

2021년 세계경제포럼에서 발표한 Global Risk에 따르면 코로나 이후 디지털 불평등이 더 심화되었다. 급속도로 진화하고 있는 데이터, 네트워크, 인공지능 기술 등의 발전으로 활용 역량이 낮은 사람들은 앞으로 경제, 사회, 문화 등 전반적인 혜택으로부터 점차 소외될 수 있다는 의미이다. 이제는 범정부 차원의 적극적인 지원뿐만 아니라 모두가 관련 역량을 확보하고 새로운 국면에 능동적으로 대처하는 변화가 필요하다. 민·관의 협력이 무엇보다 필요한 이유이다. 데이터와 인공지능을 보다 편리하게 활용할 수 있도록 해야하며, 장기적인 안목으로 개방과 공유, 그리고 상호협력을 통해 연구환경을 조성해 나가야 할 것이다. AI 국가전략에 담긴 비전 ‘2030년까지 디지털경쟁력 세계 3위, 삶의 질 세계 10위의 AI 강국’이라는 목표를 달성하기 위해서는 우리 모두가 경각심을 갖고 패러다임의 변화를 촉구해야 할 때이다.

* 이 글은 한국과학기술연구원(KIST)에서 발간하는 ‘TePRI Report’ 로부터 제공받았습니다.

(1418)

태그(Tag)

전체 댓글 (0)

과학백과사전