사이언스타임즈

2023년 AI 분야에서 가장 큰 화두는 ‘AI 챗봇’의 열풍이다. (관련기사 바로 가기 - “챗GPT가 쓴 사이언스타임즈 뉴스”)

Open AI가 개발한 Chat-GPT는 출시 5일 만에 100만 유저를 확보했으며, 글로벌 AI 선두기업들이 다양한 인공지능 모델 출시를 예고하고 있다.

구글은 AI 챗봇 ‘어프렌티스 바드(Apprentice Bard)’ 출시를 앞두고 미국 시간 8일에 유튜브 라이브 이벤트를 진행했다. 이 분야 신규 강자로 부상하고 있는 중국의 바이두는 3월에 ‘원신이앤(Wenxinyiyan)’을 출시한다고 발표했다.

Chat-GPT를 비롯해 곧 출시되는 챗봇은 자연어 이해 수준이었던 초기 모델을 넘어 텍스트 간의 관계 이해 및 고차원적인 사고 회로를 갖게 될 것으로 보인다. 말 그대로 인간의 언어에 도달하기 시작했다.

2023년 AI 분야에서 가장 큰 화두는 ‘AI 챗봇’의 열풍이다. ⓒAdobestock

‘한국어 암호’ 뚫렸다? AI 챗봇은 마음도 뚫고 대화 가능

최근 온라인 커뮤니티를 중심으로 ‘한국어 암호’가 뚫렸다는 내용의 게시글들이 화제를 모았다.

‘한국어 암호’는 한글을 모국어로 사용하는 사람만 인식할 수 있는 비문을 말한다. 예컨대 “지처금럼 네짜글씩 순바서꿔 써돼도요. 한인국은 읽수을가 있거든요. 이역거시 번기역론 안 와나요. (지금처럼 네 글자씩 순서 바꿔써도 돼요. 한국인은 읽을 수가 있거든요. 번역기론 안 나와요.)” 식의 문장이다.

이것이 등장한 배경은 주로 해외 사이트나 여행 서비스에 대한 불편했던 진짜 경험을 후기로 남겨 오로지 한국 사람들과 공유하기 위한 목적이었다. 이제는 일종의 ‘밈(meme)’처럼 번지고 있는 한국어 난독화는 개인이 작성하기도 하지만, 일부 번역기를 통해 자동 생성되기도 한다.

그런데 최근 구글과 네이버 파파고가 ‘한국어 암호’를 영어로 번역하기 시작했다. 어절 단위 안에 음절의 순서가 바뀐 비문, 띄어쓰기와 어순 등 문법을 파괴한 비문에 대하여 본래 문장에 가깝게 영문장으로 번역한 것. 일부 번역 프로그램은 용어사전을 구축하여 줄임말이나 신조어 등도 비교적 정확하게 번역한다.

이러한 서비스는 Open AI의 GPT-n 시리즈 3세대 모델 이상으로 불과 2년 안팎의 기간에 자연어 인식 수준을 넘어섰다. 학습 분야가 넓어진 덕에 기본적인 텍스트 간의 관계와 문장의 이해능력이 비약적으로 상승했고, 인간의 언어 구조를 파악하기 시작한 것이다. 바꿔 말하면 AI 언어모델은 ‘한국어 암호’를 뚫는 데에서만 끝나지 않을 전망이다. 이제는 사람의 마음도 관통한 대화형 챗봇도 등장하며 ‘사람의 언어’에 가까워지고 있기 때문이다.

AI 번역 기술은 자연어 수준을 넘어 기본적인 텍스트 간의 관계와 문장의 이해능력이 비약적으로 상승했다. ⓒGettyImagesBank

GPT의 성장… AI 언어 모델의 성장은 어디까지?

세계는 지금 Chat GPT-4에 열광한다.

GPT(Generative Pre-trained Transformer)는 대표적인 텍스트 생성 딥러닝 AI 모델이다. AI 언어모델은 기본적으로 자연어 처리 과정을 기반으로 수많은 데이터를 학습하여 인간의 언어를 분석하는데, GPT는 다양한 질문과 답변이 가능한 대화형 AI 서비스를 제공한다.

2018년 GPT-1에 이어 일 년 만에 공개된 GPT-2는 약 15억 개 이상의 매개변수를 활용하여 800만 건의 텍스트 데이터를 학습한 것으로 알려진다. 당시 버전으로는 키워드를 입력하면 뉴스 기사, 에세이 등을 한 페이지 분량으로 작성할 수 있다.

이후 2020년에 공개된 GPT-3 버전은 문장 이해능력이 비약적으로 상승하여 사용자 요구에 보다 정확하게 답변하기 시작했다. 거의 인간이 사용하는 언어와 유사한 수준으로 알려진다. 실제로 지난해에 세계적 석학 유발 하라리가 GPT-3에 책과 논문을 학습시켜 출판 10주년 서문을 작성하게 했는데, 자신의 글 수준의 글을 써 내 충격을 안겼다. 이 사례는 AI 언어 모델이 얼마나 빠르게 발전하고 있는지를 보여주며 동시에 AI 출판의 미래를 전망하게 한다.

그리고 불과 3년 만에 GPT-4가 임박했다. 정확하게 4세대 버전 출시일은 알려지지 않았지만, 현재 튜링 테스트 중이다. 정확한 사양 또한 알 수 없지만, 챗 GPT(GPT-3.5)의 결과를 보면 사람의 언어에 근접할 것으로 기대를 모은다.

AI는 인간이 정보를 모으고 사고하는 방식과 거의 동일한 구조로 발전하고 있다. 이제는 이것을 어떻게 활용하느냐의 문제를 고민할 시기다. ⓒbyteteck

AI 전문가들은 이전까지의 모델을 뛰어넘는 발전을 거듭해 온 GPT가 4세대 버전에서는 약 100조 개의 파라미터가 구동될 것으로 예상한다. 또한, 시각·청각·동작 등의 복합적인 입력 정보를 시스템 기준에 따라 분류하고, 그 사이의 관계를 이해하여 응답하는 멀티모달 AI도 기대를 모은다.

이렇게 되면 AI는 인간이 정보를 모으고 사고하는 방식과 거의 동일한 구조를 갖게 된다. 즉 글로만 배워온 세상을 더 넓게 경험하고 이해하면서 대화를 할 수 있게 되는 것이다. 사용자의 의도를 정확하게 이해하고 대응하는 고차원 모델의 장점은 마이크로소프트(MS)가 간파한 분위기다. MS는 미국 시간으로 7일에 GPT 기반의 언어모델을 Bing 검색에 통합했다고 발표했다. ‘프로메테우스 모델’이라 이름 붙여진 Bing 새 버전은 검색 엔진에 지각변동을 예고한다.

앞으로 놀랍고도 흥미로운 이 모델이 얼마나 인간의 언어에 도달하게 될지 그리고 이 기술이 또 다른 사업에 어떤 영향을 미치게 될지 세계는 주목하고 있다.