AI 데이터 품질 관리에 주목하는 이유

[AI 돋보기] 이용 주체 확대 및 기계 학습으로 더욱 중요해져

지난 5일 과학기술정보통신부는 인공지능(AI) 시대에 필요한 데이터 품질 표준안을 개발할 계획이라고 밝혔다. 그리고 이를 위해 과기부는 한국정보통신기술협회(TTA)에 AI 데이터 표준안을 만들 수 있는 기구 설치를 공식 제안한 상황이고, TTA는 내년 6월까지 이를 검토할 계획이다.

정부는 AI 데이터 품질 표준안을 준비하고 있다. ⓒPixabay

이를 제안한 목적은 AI에 필요한 유용한 데이터를 확보하고자 함이다. 이는 국내 AI 경쟁력을 위해서 필수 사항이기 때문이다.

과기부에 따르면 AI 데이터 품질 수준은 세계적으로 높지 않은 상황이다. 글로벌 정보통신기술(ICT)인 구글과 마이크로소프트의 경우 다년간 AI를 위한 데이터를 축적했지만, 정확도는 43%에서 83% 수준에 불과하다. 그래서 데이터 품질 표준안 마련으로 AI를 위한 데이터 관리를 올바르게 한다면, 국내 AI 기술 경쟁력을 제고할 수 있다.

과기부는 표준안에 이미 AI를 위한 데이터 품질 표준안도 제안했는데, 데이터 자체 품질 관리와 구축 과정 품질 관리로 구분돼 있다.

전자는 데이터 유형에 따라 품질 관리에 필요한 요구 사항을 담고 있으며, 원시데이터, 데이터 가공, 데이터 활용 등의 유형으로 나뉘어 있다. 참고로 원시데이터는 최초로 획득했을 때의 데이터 유형을 말하고, 데이터 가공은 검수자에 의해서 정의된 상태의 데이터를 뜻한다. 그리고 데이터 가공은 정제 과정을 거쳐서 AI에 활용될 수 있는 상태의 데이터를 뜻한다.

또한 후자인 데이터 구축 과정 품질 관리에서는 획득, 정제, 가공, 품질 검수 등 구축 과정에서의 요구 사항을 포함하고 있다.

국가 차원에서 오랫동안 중요하게 인식된 데이터

과기부의 이러한 제안 내용은 데이터 품질 관리가 중요해졌음을 알 수 있게 하는데, 엄밀히 말해 데이터 품질은 옛날부터 중요했다.

데이터는 자료를 뜻하는 데이텀(Datum)의 복수형인데, 자료 묶음 혹은 정보 덩어리로 표현할 수 있다. 그러므로 데이터는 판단 근거, 증명 등을 위해 활용될 수 있기 때문에 오랜 옛날부터 중요 역할을 했다고 볼 수 있다.

물론 데이터 활용 범위는 전쟁에만 국한되지 않는다. 국가관리 차원에서도 데이터가 중요함을 알 수 있다. 대표 분야로 호구조사를 들 수 있다. 호구조사를 통해 얻은 데이터가 제대로 관리되지 않을 시, 국가 예산 낭비를 초래할 수 있다.

실제로 과거 미국 국세청은 거주지와 수취인 데이터의 불확실성으로 세금 고지서 발송에 어려움을 겪은 바 있다. 국내의 경우, 과거에 주민등록번호가 잘못 기재돼, 국민이 대출, 구직, 혼인신고 등의 행정처리 불편을 겪은 사례도 발생했다. 이러한 일은 최근에도 간혹 발생되곤 한다.

기계학습으로 데이터 품질이 더욱더 중요해져

최근에는 시스템을 위한 데이터 품질 관리가 중요해지고 있다. ⓒPixabay

이처럼 데이터 품질 관리는 오랫동안 중요했다. 물론 과거에는 데이터 이용 주체가 사람으로 한정돼 있었다는 차이가 있다. 다시 말해, 최근에는 이용 주체가 컴퓨터 시스템으로 확대됐다고 볼 수 있다.

참고로 이를 제안한 사람은 스웨덴 우메오 대학의 ‘크리토 아이반노브(Krosto Ivanov)’ 교수다. 1972년 당시 스웨덴공립대학 박사학위 논문으로 컴퓨터 시스템을 위한 데이터 품질 관리 기법에 관한 내용을 다뤘다.

그러나 데이터 품질 국제 표준화는 30년이 지나서야 이뤄졌다. 2006년에 데이터 품질관리를 위한 국제표준 워킹그룹(WG)이 최초로 만들어졌다.

정리하면, 데이터 관리는 인간 주체에서 시스템 주체로 확대됐다. 데이터 품질 2.0 시대인 셈이다. 그런데 최근 데이터 품질 관리 3.0 시대가 도래하려 하고 있다. 이유는 AI 등장 때문이다. 엄밀히 말해, 기계학습 방식 때문이라고 할 수 있다.

기존 컴퓨터 시스템은 사람이 만든 규칙으로 동작한다. 참고로 이러한 규칙을 컴퓨터공학에서는 알고리즘이라고 한다. 계산기를 예로 들어보면, 사람이 세운 알고리즘에 의해서 숫자를 계산하고 결괏값을 산출한다. 그래서 투입 값이 올바르게 기재됐는지 만을 보면 된다.

그런데 현재 널리 활용되는 기계학습은 이러한 관리 범위를 넓혔다. 기계학습은 알고리즘을 직접 만드는 방식으로 설명할 수 있다. 기존에는 사람이 만들었다면, 기계학습은 주어진 방대한 데이터를 학습해 알고리즘을 만드는 형태이다.

이유는 알고리즘 동작 원리가 가시적이지 않기 때문이다. 이는 데이터 품질 관리 영역을 넓혔다고 할 수 있다. 규칙 기반의 경우 정확하게 입력만 하면 됐다면, 기계학습은 데이터 편협성, 충분성 등도 함께 검토해야 한다. 잘못된 데이터 투입은 잘못된 알고리즘을 산출하게 할 수 있기 때문이다.

신뢰성과 충분성을 갖추는 것이 필수

결국, AI 시대에는 올바른 데이터를 확보하는 것이 관건이다. 이를 위해서는 2가지 측면에 초점을 맞출 필요가 있다.

첫째는 데이터 신뢰성이다. 사회공학 논문을 살펴보면, 방법론이 내용의 절반을 차지하고 있다. 특히, 그중에서도 데이터 정확도에 관한 내용이 많이 차지한다. 대부분 사회공학 논문이 데이터를 기반으로 결괏값을 도출하기 때문으로 볼 수 있다.

AI에서도 마찬가지이다. AI도 데이터를 가지고 행동 근거의 알고리즘을 만들어낸다. 그래서 AI 신뢰성을 갖기 위해서는 어떤 데이터를 어떻게 학습했는지 관리하는 것이 중요하다. 그러기 위해서는 신뢰성을 갖는 데이터를 확보하는 것이 중요하다.

둘째는 데이터 충분성이다. 사이버 보안에는 지능형위협정보시스템이 있다. 해당 시스템은 악성코드가 아니라 증후만으로도 탐지할 수 있는 시스템이다. 그런데 이러한 탐지 정확성을 위해서는 증거가 될 충분히 다양한 종류의 데이터가 필요하다. 다시 말해, 다양한 증거가 필요하다.

AI 또한 충분히 다양한 종류의 데이터를 학습해야 한다. 여러 증거를 종합해 결론을 내리기 때문이다. 따라서 AI 데이터 품질 관리를 위해서는 AI 학습에 이용될 다양한 유형의 증거 데이터를 학습시키도록 해야 한다.

(343)

태그(Tag)

전체 댓글 (0)

과학백과사전