[AI 돋보기] “데이터”와 “시뮬레이션”이 중요
자가학습하는 AI ⓒFlickr
지난 11일 과학기술정보통신부(과기부)는 ‘21년 “2021년 인공지능(AI) 학습용 데이터 구축사업 공모”를 시행한다고 밝혔다. 그리고 지난 19일에 설명회도 가졌다.
해당 사업은 개별 구축이 어려운 AI 학습용 데이터를 대규모로 구축해 AI허브(www.aihub.co.kr)로 개방하는 사업이다.
본 사업은 2017년부터 시작했는데, 2020년까지 191종의 데이터를 구축했다. 2025년까지 1,300종의 데이터 모집을 목표로 하고 있다. 올해에는 150종의 AI 학습데이터를 추가로 구축할 예정이다. 분야를 살펴보면 자연어 처리 32종, 이미지 인식 분야 30종, 의료분야 21종, 교통 및 물류 분야 13종, 농축산 분야 15종, 재난·안전·환경 분야 19종 등을 모집한다.
이처럼 과기부가 대규모로 학습용 데이터를 구축하는 이유는 데이터가 AI에서 핵심이기 때문이다. 엄밀히 말해 AI 구현에서는 “데이터”와 “시뮬레이션”이 중요하다고 할 수 있다.
요즘 대다수 AI는 기계학습으로 구현되는데, 다시 말해 자가학습으로 지능을 형성하는 방식이다. 이러한 학습방식은 사람과 유사하다고 볼 수 있다. 사람은 크게 두 가지 방법으로 학습한다. 하나는 책 혹은 강의를 통해 지식을 습득한다. 다른 하나는 직접 부딪치면서 경험으로 지식을 습득한다. 전자는 AI의 데이터 학습과 유사하다. 후자는 시뮬레이션을 통해 학습하는 방식과 유사하다. AI가 구체적으로 어떻게 학습하는지를 좀 더 구체적으로 살펴보자.
데이터로 학습하는 AI 방식
먼저 데이터로 학습하는 AI 방식을 살펴보자. 데이터를 번역하면 자료 및 정보이다. 따라서 AI가 데이터로 학습한다는 뜻은 자료 및 정보로 학습한다는 뜻과 유사하다. 앞서 과기부가 데이터를 모은다는 뜻은 AI를 가르칠 자료 및 정보를 모은다는 뜻으로 해석할 수 있다.
그런데 여기서 중요한 점은 ‘과기부가 “학습용 데이터”라고 표기했다”는 것이다. 왜 굳이 학습용을 붙였을까?
AI도 사람처럼 본인에게 이해하기 쉬운 정보를 주면, 이를 학습해서 지능을 구현하기 쉽기 때문이다. 강의를 예로 들어보자. 똑같은 내용이더라도 내용을 쉽게 가르치는 선생님이 있지만 어렵게 가르치는 선생님도 있다. 학생 입장에서는 전자 선생님의 강의가 학습에 더 효과적이다.
이러한 사실은 AI에도 적용할 수 있다. AI가 이해하기 쉬운 데이터를 획득하면, 그만큼 지능을 더 쉽게 구현할 수 있다. 과기부가 학습용 데이터를 모으는 것도 이 때문이라고 할 수 있다. 물론 AI는 이해하기 어려운 데이터를 가지고도 학습할 수 있다. 단지 학습이 어려울 뿐이다.
데이터를 통한 AI 학습법을 정리해보면, AI에 이해할 수 있는 데이터가 주어지느냐에 따라 학습법이 나뉠 수 있다. 지도학습은 AI에 이해할 수 있는 데이터를 주면서 학습하는 방식이다. 과기부의 학습용 데이터가 여기에 해당한다. 반면 비지도 학습은 이해하기 어려운 데이터를 가지고 AI를 학습하는 방식이다. 두 학습의 중간으로 준지도학습이 있다. 준지도 학습은 이해하기 쉬운 데이터와 어려운 데이터를 동시에 가지고 있는 경우이다.
지도학습은 문제와 정답을 동시에 제공하는 방식이다. 이를 통해 AI는 둘 사이의 관계를 파악해 지능을 획득할 수 있다. 이러한 지능은 대체로 분류, 회귀, 확률 등의 모양으로 구현된다.
참고로 개발자는 AI의 학습 이해도를 평가할 수 있다. 이러한 평가 방법을 교차검증(Cross-Validation)이라고 한다. 교차검증에는 “참(True)”과 “거짓(Fake)”의 데이터가 주어진다. 그리고 AI는 해당 데이터를 가지고 참과 거짓을 구분해야 한다.
이에 따라 AI는 두 가지 방식으로 평가될 수 있다. 첫 번째 방식은 정밀도이다. 개발자는 AI가 실제 데이터 중에서 참인 것을 얼마나 정확하게 참인 것으로 판단했는지를 평가할 수 있다. 재현율은 AI가 판단한 전체 데이터 중에서 참인 데이터를 얼마나 정확하게 판단했는지를 평가하는 방법이다.
비지도학습은 정답 없이 문제만 주어진 경우이다. 스스로 정답을 찾아야 한다. 이때 AI 지능은 대체로 분류 형태로 표현된다. AI가 정답을 알 수 없기에 특성별로 문제(혹은 데이터)를 분류하는 것이다.
비지도학습에는 두 가지 방법이 사용된다. 첫째는 특성별로 묶는 “클러스터링(Clustering)”이 사용된다. 둘째는 차원축소(Dimension Reduction)이다. 차원축소는 한 데이터에 가지는 특성 중에 불필요한 것을 제거하는 작업이다.
클러스터링 데이터 학습방법 예시 ⓒ위키미디어
경험으로 학습하는 AI 방식
AI는 시뮬레이션으로도 학습할 수 있다. 이를 강화학습이라고 한다. 강화학습에는 데이터가 주어지지 않는다. 스스로 부딪치면서 경험하는 것이 전부이다.
대표적인 예로 알파고 제로가 있다. 2016년 3월 알파고는 바둑에서 이세돌을 이겼다. 그리고 2017년 후속 버전으로 알파고 제로가 개발됐다. 특징은 기보를 스스로 익힌 점이다. 다시 말해, 데이터 입력방식으로 학습되지 않았다.
알파고 제로는 순수하게 40일간 3천만번이 넘는 바둑 대전을 스스로 진행하면서 기보를 익혔다. 그리고 이전 알파고와의 대국에서 100번 모두 이겼다.
강화학습은 생쥐를 미로 속에서 치즈를 찾게 하는 실험과 유사하다. 혹은 파블로프의 개 실험과도 유사하다. 강화학습에는 보상이 주어진다. 알파고 제로의 바둑에서는 승리가 보상이다. 실행과 결과만이 주어지는 셈이다. 따라서 강화학습은 시행착오로 지능을 구현하는 방식이라고 볼 수 있다.
강화학습에는 보상이 중요하다. 보상 방법, 보상의 가치측정법 등으로 AI 지능 구현방안을 고려한다. 보상 방법에는 단순합계와 할인 누적합계가 있다. 단순합계는 보상 가치를 연속으로 더하는 방식이다. 할인누적합계는 보상 시기를 고려해 보상점수를 매기는 방식이다. 현재 사탕이 미래 사탕보다 더 가치 있다는 판단 근거에서 보상 점수를 매기는 방식이다.
가치측정법에는 상태가치함수가 있다. 현재 상태에서 규칙에 따라 행동했을 때에 얻게 되는 보상을 계산하는 기법이다. 그리고 상태·행동 가치함수는 현재 상태에서 특정 행동을 하고 난 뒤에 규칙에 따라 행동을 했을 시에 얻게 되는 보상을 계산하는 기법이다. 참고로 이러한 계산은 알파고에도 사용됐던 “몬테카를로 방법(Monte Carlo Method)”에 사용된다.
지금까지 AI 학습법에 관해 살펴봤다. 학습법은 다르지만 공통점이 하나 있다. 자가학습으로 이뤄진다는 점이다. 이러한 학습에는 사람이 개입할 여지가 많지 않다. 데이터를 잘 주거나 보상 정책을 잘 만드는 것뿐이다. 정부가 대규모 학습용 데이터를 구축하려는 것 또한 이러한 이유라고 할 수 있다.
(12842)
로그인후 이용 가능합니다.
성인 암 생존자는 심부전, 뇌졸중 등 심뇌혈관 질환이 발생할 위험이 높다는 연구 결과가 나왔다. 미국 존스 홉킨스대학 의대 심장-종양 실장 로베르타 플로리도 교수 연구팀이 1987년에 시작된 '지역사회 동맥경화 위험 연구'(Atherosclerosis Risk in Communities Study) 참가자 1만2천414명(평균연령 54세)의 2020년까지의 기록을 분석한 결과 이 같은 사실이 밝혀졌다고 미국 과학진흥 협회(AAAS)의 과학 뉴스 사이트 유레크얼러트(EurekAlert)가 29일 보도했다.
오늘은 국제 소행성의 날입니다. 소행성 충돌 위험을 알리고 이에 대한 대응 노력을 국제사회에 요청하기 위해 2016년 유엔(UN)이 공식 지정했죠. 6월 30일은 1908년 러시아 시베리아 퉁구스카 지역 상공에서 지름 50m급 소행성이 폭발해 2천㎢의 숲을 황폐화한 날이기도 합니다.
한국형 발사체 누리호(KSLV-Ⅱ)에 실려 궤도에 올라간 성능검증위성에서 조선대 학생팀이 만든 큐브위성(초소형 위성)이 성공적으로 사출(분리)돼 일부 상태 정보를 지상으로 보냈다. 다만 자세 안정화에 시간이 걸릴 것으로 보인다. 과학기술정보통신부(과기정통부)와 한국항공우주연구원(항우연)은 조선대팀 큐브위성 'STEP Cube Lab-Ⅱ'가 29일 오후 4시 50분께 성공적으로 분리된 뒤 30일 오전 3시 48분께 지상국이 이 큐브위성의 일부 상태정보(비콘신호)를 수신했다고 밝혔다.
남아프리카공화국 케이프타운에서 동쪽으로 약 100㎞ 떨어진 '간스바이' 해역은 바다의 최상위 포식자 중 하나로 꼽히는 백상아리가 자주 출몰하는 천혜의 집결지로 알려져 있다. 백상아리가 몰려들다 보니 바닷속 철창 안이나 배 위에서 이들을 가까이 보고 체험하려는 관광객이 자주 찾는 유명 관광지이기도 하다. 하지만 지난 2017년부터 범고래 한 쌍이 나타나 백상아리를 사냥하기 시작한 뒤 다른 백상아리들이 이들에 대한 두려움으로 간스바이의 특정 해역에 나타나지 않고 있다는 연구결과가 나왔다.
울산과학기술원(UNIST)은 나노 입자를 제어해 폭은 좁고 키가 큰 섬모 구조를 제작하는 자가 조립 방식을 개발했다고 29일 밝혔다. UNIST에 따르면 기계학과 정훈의 교수 연구팀은 나노미터(㎚·10억분의 1m) 크기 자성 입자를 위로 쌓아 올리는 방식으로 섬모 구조를 가늘고 길게 합성해 낼 수 있는 기술을 개발했다. 섬모는 액체 속에서도 움직임이 자유롭고, 작은 외부 힘에도 민감하게 반응해 다양한 기능을 만들어낼 수 있다.
'붉은 행성' 화성에서 고대 생명체 흔적을 확인하기 위해 로버가 활동 중이지만 이를 찾아내는 것이 예상보다 훨씬 더 어려울 수 있는 것으로 나타났다. 이 로버들은 약 5㎝를 드릴로 뚫고 토양과 암석 시료를 채취하는데, 화성 표면에 내리쬐는 우주선(線)으로 고대 생명체 흔적이 있었다고 해도 모두 분해돼 적어도 2m 이상 파고들어야 하는 것으로 제시됐기 때문이다. 미국 항공우주국(NASA)에 따르면 고더드 우주비행센터의 알렉산더 파블로프 박사가 이끄는 연구팀은 화성 환경 조건을 만들어 고대 생명체의 증거가 될 수 있는 아미노산의 분해를 실험한 결과를 과학저널 '우주생물학'(Astrobiology)에 발표했다.
지구온난화로 기온이 억제 목표인 산업화 이전 대비 2℃ 이상 오르면 절정을 찍고 다시 떨어진다고 해도 이후에도 수십년에 걸쳐 생물다양성을 위협할 것이라는 비관적 전망이 나왔다. 지구촌이 합의한 기온 상승 억제 목표를 최종적으로 달성해도 중간 과정에서 이를 넘어서면 파괴적 영향이 이어지는 만큼 일시적으로라도 이를 넘어서지 않도록 시급한 조치가 필요하다는 것이다.