사이언스타임즈

지난 11일 과학기술정보통신부(과기부)는 ‘21년 “2021년 인공지능(AI) 학습용 데이터 구축사업 공모”를 시행한다고 밝혔다. 그리고 지난 19일에 설명회도 가졌다.

해당 사업은 개별 구축이 어려운 AI 학습용 데이터를 대규모로 구축해 AI허브(www.aihub.co.kr)로 개방하는 사업이다.

본 사업은 2017년부터 시작했는데, 2020년까지 191종의 데이터를 구축했다. 2025년까지 1,300종의 데이터 모집을 목표로 하고 있다. 올해에는 150종의 AI 학습데이터를 추가로 구축할 예정이다. 분야를 살펴보면 자연어 처리 32종, 이미지 인식 분야 30종, 의료분야 21종, 교통 및 물류 분야 13종, 농축산 분야 15종, 재난·안전·환경 분야 19종 등을 모집한다.

이처럼 과기부가 대규모로 학습용 데이터를 구축하는 이유는 데이터가 AI에서 핵심이기 때문이다. 엄밀히 말해 AI 구현에서는 “데이터”와 “시뮬레이션”이 중요하다고 할 수 있다.

요즘 대다수 AI는 기계학습으로 구현되는데, 다시 말해 자가학습으로 지능을 형성하는 방식이다. 이러한 학습방식은 사람과 유사하다고 볼 수 있다. 사람은 크게 두 가지 방법으로 학습한다. 하나는 책 혹은 강의를 통해 지식을 습득한다. 다른 하나는 직접 부딪치면서 경험으로 지식을 습득한다. 전자는 AI의 데이터 학습과 유사하다. 후자는 시뮬레이션을 통해 학습하는 방식과 유사하다. AI가 구체적으로 어떻게 학습하는지를 좀 더 구체적으로 살펴보자.

데이터로 학습하는 AI 방식

먼저 데이터로 학습하는 AI 방식을 살펴보자. 데이터를 번역하면 자료 및 정보이다. 따라서 AI가 데이터로 학습한다는 뜻은 자료 및 정보로 학습한다는 뜻과 유사하다. 앞서 과기부가 데이터를 모은다는 뜻은 AI를 가르칠 자료 및 정보를 모은다는 뜻으로 해석할 수 있다.

그런데 여기서 중요한 점은 ‘과기부가 “학습용 데이터”라고 표기했다”는 것이다. 왜 굳이 학습용을 붙였을까?

AI도 사람처럼 본인에게 이해하기 쉬운 정보를 주면, 이를 학습해서 지능을 구현하기 쉽기 때문이다. 강의를 예로 들어보자. 똑같은 내용이더라도 내용을 쉽게 가르치는 선생님이 있지만 어렵게 가르치는 선생님도 있다. 학생 입장에서는 전자 선생님의 강의가 학습에 더 효과적이다.

이러한 사실은 AI에도 적용할 수 있다. AI가 이해하기 쉬운 데이터를 획득하면, 그만큼 지능을 더 쉽게 구현할 수 있다. 과기부가 학습용 데이터를 모으는 것도 이 때문이라고 할 수 있다. 물론 AI는 이해하기 어려운 데이터를 가지고도 학습할 수 있다. 단지 학습이 어려울 뿐이다.

데이터를 통한 AI 학습법을 정리해보면, AI에 이해할 수 있는 데이터가 주어지느냐에 따라 학습법이 나뉠 수 있다. 지도학습은 AI에 이해할 수 있는 데이터를 주면서 학습하는 방식이다. 과기부의 학습용 데이터가 여기에 해당한다. 반면 비지도 학습은 이해하기 어려운 데이터를 가지고 AI를 학습하는 방식이다. 두 학습의 중간으로 준지도학습이 있다. 준지도 학습은 이해하기 쉬운 데이터와 어려운 데이터를 동시에 가지고 있는 경우이다.

지도학습은 문제와 정답을 동시에 제공하는 방식이다. 이를 통해 AI는 둘 사이의 관계를 파악해 지능을 획득할 수 있다. 이러한 지능은 대체로 분류, 회귀, 확률 등의 모양으로 구현된다.

참고로 개발자는 AI의 학습 이해도를 평가할 수 있다. 이러한 평가 방법을 교차검증(Cross-Validation)이라고 한다. 교차검증에는 “참(True)”과 “거짓(Fake)”의 데이터가 주어진다. 그리고 AI는 해당 데이터를 가지고 참과 거짓을 구분해야 한다.

이에 따라 AI는 두 가지 방식으로 평가될 수 있다. 첫 번째 방식은 정밀도이다. 개발자는 AI가 실제 데이터 중에서 참인 것을 얼마나 정확하게 참인 것으로 판단했는지를 평가할 수 있다. 재현율은 AI가 판단한 전체 데이터 중에서 참인 데이터를 얼마나 정확하게 판단했는지를 평가하는 방법이다.

비지도학습은 정답 없이 문제만 주어진 경우이다. 스스로 정답을 찾아야 한다. 이때 AI 지능은 대체로 분류 형태로 표현된다. AI가 정답을 알 수 없기에 특성별로 문제(혹은 데이터)를 분류하는 것이다.

비지도학습에는 두 가지 방법이 사용된다. 첫째는 특성별로 묶는 “클러스터링(Clustering)”이 사용된다. 둘째는 차원축소(Dimension Reduction)이다. 차원축소는 한 데이터에 가지는 특성 중에 불필요한 것을 제거하는 작업이다.

경험으로 학습하는 AI 방식

AI는 시뮬레이션으로도 학습할 수 있다. 이를 강화학습이라고 한다. 강화학습에는 데이터가 주어지지 않는다. 스스로 부딪치면서 경험하는 것이 전부이다.

대표적인 예로 알파고 제로가 있다. 2016년 3월 알파고는 바둑에서 이세돌을 이겼다. 그리고 2017년 후속 버전으로 알파고 제로가 개발됐다. 특징은 기보를 스스로 익힌 점이다. 다시 말해, 데이터 입력방식으로 학습되지 않았다.

알파고 제로는 순수하게 40일간 3천만번이 넘는 바둑 대전을 스스로 진행하면서 기보를 익혔다. 그리고 이전 알파고와의 대국에서 100번 모두 이겼다.

강화학습은 생쥐를 미로 속에서 치즈를 찾게 하는 실험과 유사하다. 혹은 파블로프의 개 실험과도 유사하다. 강화학습에는 보상이 주어진다. 알파고 제로의 바둑에서는 승리가 보상이다. 실행과 결과만이 주어지는 셈이다. 따라서 강화학습은 시행착오로 지능을 구현하는 방식이라고 볼 수 있다.

강화학습에는 보상이 중요하다. 보상 방법, 보상의 가치측정법 등으로 AI 지능 구현방안을 고려한다. 보상 방법에는 단순합계와 할인 누적합계가 있다. 단순합계는 보상 가치를 연속으로 더하는 방식이다. 할인누적합계는 보상 시기를 고려해 보상점수를 매기는 방식이다. 현재 사탕이 미래 사탕보다 더 가치 있다는 판단 근거에서 보상 점수를 매기는 방식이다.

가치측정법에는 상태가치함수가 있다. 현재 상태에서 규칙에 따라 행동했을 때에 얻게 되는 보상을 계산하는 기법이다. 그리고 상태·행동 가치함수는 현재 상태에서 특정 행동을 하고 난 뒤에 규칙에 따라 행동을 했을 시에 얻게 되는 보상을 계산하는 기법이다. 참고로 이러한 계산은 알파고에도 사용됐던 “몬테카를로 방법(Monte Carlo Method)”에 사용된다.

지금까지 AI 학습법에 관해 살펴봤다. 학습법은 다르지만 공통점이 하나 있다. 자가학습으로 이뤄진다는 점이다. 이러한 학습에는 사람이 개입할 여지가 많지 않다. 데이터를 잘 주거나 보상 정책을 잘 만드는 것뿐이다. 정부가 대규모 학습용 데이터를 구축하려는 것 또한 이러한 이유라고 할 수 있다.