사이언스타임즈

최근 고고학계에서는 AI를 활용하여 고대문명 연구가 활발히 진행되고 있다.

기존의 비문 복원과 해석 작업은 학자들이 방대한 평행 텍스트를 수동으로 검색하고 비교 분석하는 고도로 전문화된 과정으로 막대한 시간과 인력이 소요된다. 더욱이 현재까지 개발된 디지털 도구들은 단순한 문자열 매칭에 의존하여 언어학적·역사적 맥락을 반영하지 못하는 근본적 제약을 가지고 있었다.

이러한 문제를 해결하기 위해 구글 딥마인드 연구팀은 라틴 비문 분석에 특화된 생성형 신경망 모델을 개발했다. 국제학술지 네이처(Nature)에 발표된 이번 연구는 기존의 단순한 문자열 기반 접근법을 넘어 역사적 맥락과 언어학적 패턴을 학습하는 AI 시스템을 구현함으로써 인문학과 과학기술 융합 연구의 새로운 방향을 제시했다.

사르데냐에서 발견된 청동 군인 증명서 조각. 황제 트라야누스가 군함의 선원에게 발급한 것으로 알려진다. ⒸNature

멀티모달 신경망으로 고대 비문 해독 실현

야니스 아사엘(Yannis Assael) 구글 딥마인드 연구원과 테아 소머슈필드(Thea Sommerschield) 노팅엄대학교 교수가 공동 개발한 '아이네이아스(Aeneas)' 모델은 고대 라틴 비문의 맥락화, 복원, 지리적·연대적 속성 분석을 통합적으로 수행할 수 있는 생성형 신경망이다.

아이네이아스의 핵심은 텍스트와 이미지를 동시에 분석하는 멀티모달 접근법에 있다. 입력된 텍스트는 T5 트랜스포머 기반의 '몸통(torso)' 아키텍처에서 처리되며, 비문 이미지는 ResNet 신경망을 통해 형태, 도상학, 재료 등의 물리적 특성을 분석한다. 특히 기존 방법들이 복원 글자 수를 사전에 알아야 했던 제약을 극복하여, '#' 기호를 활용해 길이가 불분명한 손상 부분도 복원할 수 있도록 설계됐다.

이를 위해 연구팀은 모델 개발을 위해 로마 비문 데이터베이스(EDR), 하이델베르크 비문 데이터베이스(EDH), 클라우스-슬라비 비문 데이터베이스(EDCS_ETL)를 통합한 '라틴 비문 데이터셋(LED)'을 구축했다. 이 데이터셋에는 기원전 7세기부터 기원후 8세기까지 1,500년간의 비문 176,861개(총 1,600만 글자)가 포함되며, 이 중 5%에 해당하는 비문의 고해상도 이미지도 확보했다.

아이네이아스 모델의 아키텍처 구조도. 텍스트 입력('#' 표시는 길이를 알 수 없는 손상 부분)과 비문 이미지가 각각 트랜스포머 기반 디코더(몸통)와 ResNet 비전 네트워크를 통해 처리된다. ⒸNature — 아이네이아스 모델의 아키텍처 구조도. 텍스트 입력('#' 표시는 길이를 알 수 없는 손상 부분)과 비문 이미지가
각각 트랜스포머 기반 디코더(몸통)와 ResNet 비전 네트워크를 통해 처리된다. ⒸNature

고대 비문 해독 오류율 23.1% 불과

연구팀은 모델의 실용성을 검증하기 위해 23명의 비문학 전문가와 대규모 협업 실험을 진행했다.

실험은 3단계로 설계되어 1단계에서는 역사학자가 단독 작업을, 2단계에서는 아이네이아스가 제공한 유사 비문을 참조한 작업을, 3단계에서는 AI 예측 결과를 포함한 협업 작업을 수행했다.

소머슈필드 교수는 "아이네이아스가 제공한 유사 비문들이 나의 역사적 관점을 완전히 바꿨다. 15분 만에 찾을 수 있었던 것들을 혼자서는 며칠이 걸렸을 것"이라고 평가했다.

정량적 성과 분석에서도 아이네이아스의 우수성이 입증됐다. 텍스트 복원 과제에서 문자 오류율 23.1%, 지리적 속성 분석에서 72.3%의 정확도를 기록했으며, 연대 측정에서는 실제 연대 범위로부터 평균 13년 차이로 예측하는 성능을 보였다.

특히 인간-AI 협업 효과가 두드러졌다. 역사학자들은 아이네이아스가 제공한 유사 비문의 90%를 연구 출발점으로 유용하다고 평가했으며, 주요 과제에 대한 확신도가 44% 향상됐다. 복원 과제에서는 역사학자 단독 작업의 문자 오류율 39%가 아이네이아스와의 협업을 통해 21%로 대폭 개선되는 결과를 얻었다.

아이네이아스와 T5 모델의 임베딩 성능 비교 UMAP 시각화한 자료로 아이네이아스가 역사적 맥락을 더 효과적으로 학습함을 보여준다. (a)아이네이아스 연대 추정, (b)T5 연대 추정, (c)아이네이아스 지역 추정, (d) T5 지역 추정. ⒸNature — 아이네이아스와 T5 모델의 임베딩 성능 비교 UMAP 시각화한 자료로 아이네이아스가 역사적 맥락을 더 효과적으로 학습함을 보여준다.
(a)아이네이아스 연대 추정, (b)T5 연대 추정, (c)아이네이아스 지역 추정, (d) T5 지역 추정. ⒸNature

아우구스투스 황제 비문 분석을 통한 실증 연구

연구팀은 로마 황제 아우구스투스의 업적을 기록한 '레스 게스타에 디비 아우구스티(Res Gestae Divi Augusti)' 분석을 통해 아이네이아스의 실용성을 입증했다.

이 비문은 아우구스투스가 직접 작성한 자서전적 기록으로, 로마 제국 초기의 정치·경제·사회 상황을 파악할 수 있는 1차 사료다. 특히 튀르키예 앙카라(고대 안키라)의 로마 신전 벽면에 새겨진 '모누멘툼 안키라눔(Monumentum Ancyranum)'은 가장 완전한 형태로 보존되어 '라틴 비문의 여왕'으로 불린다.

아이네이아스는 이 비문의 연대를 기원후 10-20년으로 추정했는데, 이는 아우구스투스 사후(기원후 14년) 원로원에서 낭독되고 제국 전역에 복사 배포된 시기와 정확히 일치한다. 더욱 주목할 점은 모델이 비문에 언급된 수많은 집정관 연대 정보에 혼동되지 않고 언어학적 특징에 집중했다는 것이다.

예를 들어 'aheneis'(청동의)라는 고어 철자법이 기원후 1세기에 'aeneis'로 변화하는 언어학적 패턴을 포착했으며, '프린켑스 유벤투티스(princeps iuventutis)' 같은 아우구스투스 시대 특유의 제도적 용어들을 시대적 지표로 인식했다. 또한, 아라 파키스(평화의 제단) 같은 기원전 13년 건립된 기념물 언급을 통해서도 정확한 연대 추정 근거를 찾아냈다.

인문학과 과학기술 융합의 새로운 가능성 열려

이번 연구 공동저자인 워릭대학교 앨리슨 쿨리(Alison Cooley) 교수는 "아이네이아스는 전문가 수준의 분석 과정을 모방하면서도 전통적인 역사학 방법론을 보완하는 변혁적 도구"라고 평가했다. 연구팀은 현재 공식 홈페이지(→바로가기)에서 역사학자들이 직접 사용할 수 있는 공개 인터페이스를 제공하고 있다.

이번 연구는 AI가 인문학 연구를 대체하는 것이 아니라, 연구자들이 보다 깊이 있는 해석과 맥락 분석에 집중할 수 있도록 돕는 협력적 도구가 될 수 있음을 보여준다고 평가받는다. 아사엘 연구원은 "아이네이아스가 고대 언어와 다양한 기록 매체로 확장 가능하며, 대화형 언어 모델의 구성 요소로도 활용할 수 있다"며 향후 발전 가능성을 제시했다.