지난 3월 25일 사이언스타임즈는 GIST의 박지환 교수와 안현수 학생을 대상으로 단독인터뷰 기사를 게재한 바 있다. (기사링크 바로가기)
박지환 교수와 안현수 학생을 포함한 연구팀은 인공지능(AI) 기술인 ‘머신러닝’을 통해 코로나19 감염경험자 대다수가 겪는 코로나19 후유증의 원인이 ‘자가면역반응’임을 밝혀냈다. 그동안 코로나19 후유증의 원인으로 자가면역반응이 수차례 제시되었으나, 그 인과관계와 원리를 밝힌 것은 이번이 처음이다. 뿐만 아니라 후유증의 원인이 되는 후보 단백질까지 추려냄으로써 코로나19 후유증 치료제 개발 가능성을 크게 높였다. 해당 연구결과는 지난 2월 28일 생물정보학 분야 국제학술지인 ‘Briefings in Bioinformatics’에 게재되었다.
코로나19 때문에 내 몸이 스스로를 공격한다?
외부에서 세균이나 바이러스 등이 침입하면 우리 몸에서는 이에 대항하는 ‘항체’가 만들어진다. 그런데 이 항체가 면역체계의 혼란으로 인해 공격해야 할 세균과 바이러스가 아닌, 우리 몸의 세포를 공격하기도 하는데 이를 ‘자가면역반응’이라 한다.
코로나19 바이러스는 자신과 구조가 유사한 인체 내 단백질을 우리 몸이 바이러스로 인식하고 공격하게끔 유발한다. 이러한 자가면역반응은 세포를 손상시켜 혈액을 응고시키기도 하고, 폐나 뇌줄기를 손상시켜 호흡부전을 일으키기도 한다. 코로나19 완치자 대다수에게서 보고되는 호흡곤란, 기침, 혈전, 가슴통증 등 다양한 후유증이 바이러스가 유발한 자가면역반응이라는 것이 수차례 보고된 바 있다. 따라서 자가면역반응을 일으키는, 코로나19 바이러스와 단백질 구조가 유사한 인체 단백질을 찾는 것이 코로나19 후유증 치료의 핵심이다.
왜 AI여야 하는가
단백질은 20종류의 아미노산 수백 개 이상이 긴 사슬로 이어져 만들어진다. 이 아미노산들이 서로 상호작용을 하며 이리저리 접히는데, 그 덕에 단백질은 복잡한 3차원 구조를 갖게 된다. 이러한 단백질의 3차원 구조는 단백질의 특성과 직결되는데, 접히는 데에 있어 변수가 너무 많아 입체구조 예측이 무척 어려웠다. 이제까지는 수백 개의 아미노산들이 서로 어떤 상호작용을 하는지 분자단위로 하나하나 계산하며 구조를 찾아가는 방식이었다.
인공지능(AI) 기술인 ‘머신러닝(기계학습)’은 기존의 경험을 학습하여 이를 토대로 경험해보지 못한 것을 예측하는 기법이다. 즉, 이제까지 과학자들이 알아낸 단백질 구조를 학습시킴으로써, 새로운 단백질의 구조를 예측해낼 수 있는 것이다. 연구팀은 코로나19 바이러스와 구조가 유사한 인체 단백질을 예측할 수 있는 AI기반 프로그램 개발에 성공했다.
복잡한 구조를 예측하는 것 외에도, AI를 이용한 유사구조 단백질 찾기의 또다른 강점은 바로 '속도'다. 연구팀의 박지환 교수는 “머신러닝 기법을 통해 몇 달이 걸릴 분석을 누구나 단 며칠 만에 끝마칠 수 있는 분석 체계를 구축할 수 있었다”고 밝혔다. AI로 개발한 프로그램은 소요시간과 컴퓨터 프로세스를 함께 고려했을 때 기존보다 45배가량 효율적인 것으로 보인다.
그렇게 찾아냈습니다, 후유증 유발 단백질 후보
연구팀은 오미크론 변이를 포함한 모든 코로나19 바이러스 변이 단백질 500만 개와 인체 단백질 2만 개를 비교하여, 인체 단백질 중 코로나19 바이러스와 유사구조를 가진 단백질 800개를 추려냈다. 개발한 AI기반 프로그램이 수천만 개의 아미노산 구조들을 예측해낸 것이다. 심지어 구조 뿐 아니라, 바이러스와 구조가 비슷한 부위가 표면 가까이에 위치해있어 외부에서 감지하고 반응하기 쉬운지 아닌지까지 세심한 고려를 더했다.
연구팀은 추려낸 후보 단백질이 실제로 코로나19 환자의 폐 조직에서 크게 증가한 것을 관찰하는 데에 성공했다. 또한 자가면역반응이 폐에서 가장 많이 일어남을 알아냈으며, 이러한 관찰증명을 통해 코로나19 후유증의 원리와 치료 가능성을 더욱 명료히 했다.
배운 지식은 사람들을 위해 – 인터뷰를 떠올리며
연구팀은 개발한 프로그래밍 코드를 오픈소스로 공유했다. 또한 누구든 직접 단백질을 비교하고 분석할 수 있는 웹사이트를 개발했다. (https://ahs2202.github.io/3M) 인간의 능력으로는 불가능에 가까웠던, ‘단백질 구조에서 비슷한 부분 찾기’가 너무도 간단했다. 어떤 부분이 비슷한 구조인지를 표시해주고, 또 직접 마우스로 이리저리 돌려보면서 어느 부분이 같은 지 찾아보는 것도 신기했다. 일전의 인터뷰에서 안현수 학생이 “한눈에 이해되지 않는 복잡한 현상이라도 보다 쉽게 이해하고 설명할 수 있는 것이 시뮬레이션의 매력”이라 말했던 것이 단번에 와닿았다.
사실 연구팀이 본래 하고 있던 연구는 코로나19 바이러스가 아니었다. 안현수 학생은 “원래는 자가면역질환과 장내미생물(마이크로바이옴)을 연구하고 있었다”며 “2020년 3월, 함께 연구하던 은민호 학생과 관련 문헌을 같이 공부하던 중 단백질의 유사성이 자가면역질환의 원인 중 하나라는 사실을 알게 되었다”고 말했다. 그렇게 단백질의 유사성을 찾아내는 프로그램을 조사해보았지만 찾을 수 없었기에 “우리가 직접 만들어보면 어떨까”하는 아이디어를 떠올리게 되었다고 한다. 3개월 후 2020년 6월 이탈리아에서 코로나19 바이러스가 크게 퍼지면서 자가면역질환이 급증하자, 코로나19 바이러스에 프로그램을 적용하는 것을 목표로 구축을 시작했다는 것이다. 활발한 소통과 아이디어의 교류가 연구의 시작이 된 것이다.
박지환 교수는 안현수 학생 외에도 공동저자로서 “생명정보학 전공지식을 갖춘 은민호 학생, 단일세포 데이터 분석에 전공지식을 갖춘 이자운 연구원과 협업을 통해 연구가 이루어졌다”고 덧붙였다. 또한 연구의 의의로서 “그동안 임상적인 관찰로만 코로나19 후유증의 원인으로 자가면역반응이 제시되었지만, 이번 연구로 실제 자가면역반응을 일으킬 수 있는 후보단백질을 발굴하고 후유증과의 인과관계를 제시했다는 데 의의가 있다”고 밝히며, “코로나19 후유증 치료제의 개발 뿐만 아니라 향후 다른 바이러스의 백신 개발에도 활용될 수 있다”고 말했다.
- 김미경 리포터
- 95923kim@naver.com
- 저작권자 2022-04-05 ⓒ ScienceTimes
관련기사