사이언스타임즈

인공지능(AI) 기반 컴퓨터 비전 시스템의 고질적 약점으로 꼽혀온 저해상도 특징맵(feature map) 문제를 별도 훈련 데이터 없이 해결하는 기술이 등장했다. KAIST와 미국 MIT, 마이크로소프트 연구진이 공동 개발한 '업샘플 애니싱(Upsample Anything)'은 AI가 제한된 메모리 환경에서도 주변을 더 정밀하게 볼 수 있도록 돕는 기술로 GPU(그래픽처리장치) 메모리 효율을 최대 16배 높이면서도 추가 학습 데이터가 전혀 필요 없다. 스마트폰, 휴머노이드 로봇, 자율주행 등 다양한 분야에서의 활용 가능성을 열었다는 평가다.

KAIST 전기및전자공학부 김창익 교수 연구팀이 주도한 이 연구는 AI·컴퓨터 비전 분야 세계 최고 권위의 학술대회인 'CVPR 2026'에서 6월 7일 발표됐다. 특히 계산 자원의 효율적 활용을 인정받아 'CVPR Compute Gold Star'를 수상했고, 연구 과정 투명성과 재현성 부문에서 종합 1위에 해당하는 'Transparency Champion'으로도 선정됐다.

저해상도로 압축된 이미지(왼쪽)가 업샘플 애니싱 적용 후 경계선과 구조까지 선명하게 복원된 모습(오른쪽) ⒸKAIST

작을수록 더 잘 보여야 한다…스마트폰·로봇이 직면한 딜레마

최근 휴머노이드 로봇, 자율주행 시스템, 세계 모델 기반 AI는 처리 속도를 높이고 메모리 사용을 줄이기 위해 입력 이미지를 저해상도 핵심 정보로 압축해 활용한다. 문제는 이 압축 과정에서 작은 물체, 가는 구조물, 미세한 결함 같은 중요한 시각 정보가 손실된다는 점이다.

반대로 처음부터 모든 이미지를 고해상도로 처리하려면 방대한 GPU 메모리와 연산 자원이 필요해 실시간 처리가 어렵다. 이동성이 중요한 스마트폰이나 로봇처럼 소형 기기가 주변 환경을 정밀하게 인식해야 하는 상황에서, 이 문제는 오랫동안 해결되지 못한 과제로 남아 있었다.

기존 연구들은 이 간극을 메우기 위해 저해상도 정보를 고해상도로 복원하는 업샘플링 기술을 개발해 왔다. 그러나 대부분 특정 데이터 세트에 맞춰 별도로 다시 학습시켜야 했다. 새로운 환경이나 기기에 적용하려면 처음부터 훈련을 반복해야 한다는 뜻이다. 훈련 없이 작동하는 유일한 대안은 이미지 한 장을 처리하는 데 평균 49초가 걸려 현실적으로 쓰기 어려웠다.

자연 사진, 의료 영상, 자율주행, 위성 이미지 등 8개 분야에서 업샘플 애니싱(Ours)이 저해상도(LR) 대비 경계선과 세부 구조를 얼마나 선명하게 복원하는지 보여주는 비교 결과 ⒸCVPR 2026

이미지 한 장만 있으면 돼… 0.4초 안에 최적 복원

연구팀이 개발한 업샘플 애니싱은 입력 이미지 한 장만으로 즉시 최적의 복원 방법을 찾아낸다. 별도의 학습 데이터나 사전 훈련 과정이 필요 없다.

작동 방식은 AI가 이미지를 처리할 때 압축해 만들어낸 저해상도 핵심 정보를 원본 이미지의 경계선과 구조 정보를 활용해 고해상도로 되살리는 식이다. 모든 것을 고해상도로 저장하고 처리하는 대신 핵심 정보만 압축해 활용하기 때문에 GPU 메모리 사용량이 크게 줄어든다. AI 연구에서 널리 쓰이는 224×224 크기 이미지(약 5만 화소) 기준으로 약 0.4초 만에 원본에 가까운 시각 정보를 복원하면서, GPU 메모리 효율을 최대 16배 높이는 성능을 달성했다.

기존 방법들이 새로운 환경에 적용될 때마다 재학습이 필요했던 것과 달리 업샘플 애니싱은 의료 영상, 자율주행, 위성 이미지, 제조업 불량 검사 등 분야를 가리지 않고 즉시 적용할 수 있다는 장점이 있다. 연구팀은 논문에서 "이 메커니즘은 새로운 값을 만들어내는 것이 아니라, 기존 저해상도 정보의 혼합 비율만을 학습한다. 덕분에 AI 구조와 작업 종류에 관계없이 자연스럽게 작동한다"고 설명했다.

기존 방식(왼쪽)은 대규모 데이터 학습이 필요한 반면, 업샘플 애니싱(오른쪽)은 이미지 한 장으로 0.4초 만에 고해상도를 복원한다.ⒸCVPR 2026

물체 인식부터 거리 측정까지, 다양한 실험에서 최고 성능

연구팀은 물체 인식과 거리·깊이 추정 두 영역에서 기존 기술들과 성능을 비교했다.

물체 인식 분야에서는 연구팀이 선정한 세 가지 표준 평가 환경 모두에서 가장 높은 정확도를 기록했다. 추가 학습 없이 이룬 성과라는 점에서 의미가 크며, 경계선이 복잡하고 작은 물체가 많을수록 기존 기술과의 성능 차이가 더욱 두드러졌다.

거리·깊이 추정에서의 우위는 더 뚜렷했다. 실내 공간을 기준으로 비교 방법들 중 가장 낮은 오차를 기록한 반면, 특정 데이터에 맞춰 학습된 기존 기술은 새로운 환경에서 오히려 단순 보간 방식보다 성능이 떨어지는 결과를 보였다. 연구팀은 "거리 측정처럼 기하학적 정밀도가 중요한 작업일수록, 시각 정보 복원 품질이 최종 성능에 미치는 영향이 훨씬 크다"고 밝혔다.

고해상도 처리 능력도 확인됐다. 기존 최고 성능 기술은 1024×1024 이상의 해상도에서 메모리 초과로 작동이 멈추는 반면, 업샘플 애니싱은 동일 조건에서 안정적으로 구동됐다.

김창익 교수는 "이 기술은 더 적은 자원으로 AI의 시각 정밀도를 크게 높일 수 있는 알고리즘으로, 휴머노이드 로봇과 온디바이스 AI의 상용화를 앞당길 것으로 기대한다"며 "CVPR에서 성능뿐 아니라 계산 효율성과 연구 투명성까지 인정받은 점에서 더욱 의미 있다"고 덧붙였다.