October 16,2019

정크 DNA서 자폐증 돌연변이 발견

딥러닝 이용한 인공지능 분석법 활용

FacebookTwitter

질병의 원인이 되는 DNA 돌연변이는 실제 유전자(gene)가 아니라 한때 ‘정크’로 여겨졌던 유전체(genome)에 99%가 들어 있다.

비록 과학자들이 최근에야 이러한 방대한 DNA의 총합인 유전체가 실제로 중요한 역할을 한다는 것을 이해하게 되었지만, 유전체의 영향을 광범위한 규모로 해독하는 것은 지금까지 불가능했다.

프린스턴 대학 주도의 연구팀은 인공지능 기술을 이용한 혁신적인 분석법을 이용하여 소위 ‘정크’ DNA의 돌연변이가 자폐증을 일으킬 수 있다는 것을 보여줬다.

지난달 27일 ‘네이처 제네틱스’(Nature Genetics)에 발표된 이 연구는 정크 DNA의 돌연변이를 신경 발달 장애와 연계시킨 첫 번째 연구다.

유전자 돌연변이를 분석하기 위해 프린스턴 대학팀이 측정한 유전자. 푸른 색은 통신과 연관된 부분이고, 붉은 색은 크로마틴과 관련된 부분이다. ⓒ 프린스턴 대학

유전자 돌연변이를 분석하기 위해 프린스턴 대학팀이 측정한 유전자. 푸른 색은 통신과 연관된 부분이고, 붉은 색은 크로마틴과 관련된 부분이다. ⓒ 프린스턴 대학

연구팀은 한 아이가 자폐증 스펙트럼 장애를 갖고 있지만, 부모나 형제자매는 그렇지 않은 1790가구의 게놈을 분석했다. 이런 방법으로 자폐증 환자에게 영향을 미치는 12만 개의 돌연변이를 분류했다. 비록 그 결과로 자폐증의 정확한 원인은 밝혀지지 않았지만, 연구할 수 있는 수천 개의 원인을 밝혀냈다.

다른 질병 원인 분석에도 이용 가능

이번 연구결과가 미치는 영향은 자폐증을 넘어선다. 이번 연구는 비유전적, 비암호적 돌연변이가 인간의 복잡한 질병이나 장애를 유발하는 것을 보여주는 첫 번째 연구이다.

과학자들은 암이나 심장병과 같은 질병에서 비코딩 돌연변이가 수행하는 역할을 탐구하기 위해 이번 연구에 사용되는 것과 동일한 기술을 적용할 수 있다고 말한다.

인간 게놈의 1~2%만이 단백질을 만들기 위한 청사진을 인코딩하는 유전자로 구성되어 있다. 그 단백질들은 혈당 수치를 조절하고, 감염과 싸우고, 세포들 간의 통신을 보내는 것과 같은 우리 몸 전체에 걸쳐 임무를 수행한다.

하지만 게놈의 나머지 98%는 유전적으로 죽어 있는 것이 아니다. 비코딩 부위는 유전자가 단백질을 만드는 시기와 장소를 조절하는 데 도움이 된다.

미국에서 1000명 중 자폐증 증상을 가진 어린이의 숫자는 크게 늘고 있다. ⓒ 위키피디아

미국에서 1000명 중 자폐증 증상을 가진 어린이의 숫자는 크게 늘고 있다. ⓒ 위키피디아

자폐증 가족력이 없는 사람에게 단백질 코딩 영역의 돌연변이가 자폐증을 일으키는 원인은 최대 30%를 차지한다. 이 때문에 자폐증을 유발하는 돌연변이는 게놈의 다른 곳에서도 일어나야 한다고 과학자들은 생각해왔다.

그러나 코드화되지 않은 돌연변이가 자폐증을 일으키는지 밝혀내는 것은 매우 까다롭다. 한 개인에게 수십 개의 비코딩 변형이 있을 수 있으며, 그 대부분은 개인마다 고유한 형태로 변형되기 때문이다.

질병의 유전적 기반에 대한 대부분의 이전 연구들은 알려진 2만 개의 유전자와 그 유전자를 조절하는 DNA의 주변 부분에 초점을 맞추었다. 그러나 이 엄청난 양의 유전 정보조차도 인간 게놈에 있는 32억 화학쌍의 정보 중 1%를 약간 넘는 것에 불과하다. 다른 99%는 전통적으로 ‘어두운’ 혹은 ‘정크’로 생각되었지만, 최근의 연구는 그러한 생각을 뒤집기 시작했다.

수 억 번의 실험 없이 알고리즘이 찾아내

이번 논문에서, 연구팀은 이 방대한 게놈 데이터의 배열을 이해할 수 있는 새 방법을 제시한다. 이 시스템은 딥 러닝이라는 인공지능 기술을 이용해서 식별이 불가능했던 패턴을 해독하기 위해 연속적인 분석을 수행했다.

인공지능 알고리즘은 어떻게 DNA가 생물학적인 영향을 미치는지 스스로 식별하도록 배운다. 이를 바탕으로 유전자의 작용에 영향을 미치는 2000개 이상 단백질의 상호작용을 예측한다.

이 알고리즘은 ‘게놈을 따라 미끄러진다’는 표현처럼 모든 돌연변이를 스캔하기 전까지 1000쌍의 화학 쌍을 분석한다. 따라서 이 시스템은 게놈 전체에서 각각의 모든 화학 단위를 변화시키는 효과를 예측할 수 있다.

연구팀이 사용한 방법은 돌연변이의 가능성들을 모두 골라서 순위를 매기는 방식이다. 그리고 이미 알려진 질병 유발 변이를 기반으로 예측을 교정하고, 주어진 돌연변이가 질병에 얼마나 영향을 미칠 수 있는지에 대해 ‘질병 영향 점수’를 개발했다.

자폐증을 가진 아이가 일렬로 배열한 장난감 ⓒ 위키피디아

자폐증을 가진 아이가 일렬로 배열한 장난감 ⓒ 위키피디아

각 돌연변이의 기능적 영향을 예측하는 능력은 이번 연구의 핵심이다. 이전의 연구들은 영향을 받지 않은 사람들과 비교했을 때 자폐증 환자들의 돌연변이 차이를 발견하는 것은 어려웠다. 그러나 새로운 방법은 기능적 영향을 크게 미칠 것으로 예측되는 돌연변이를 훨씬 빠르게 발견할 수 있다.

연구원들은 이러한 돌연변이에 의해 어떤 유전자가 영향을 받았는지를 조사했을 때, 뇌 기능과 강하게 연관되어 있는 유전자로 밝혀졌다. 새로 발견된 이 돌연변이는 이전에 확인된 자폐증 돌연변이와 유사하게 유전자와 기능에 영향을 미쳤다.

의견달기(0)