사이언스타임즈 로고

정보통신기술
연합뉴스
2025-10-02

"사진 속 깊이까지 읽는다" AI 공간 추론 명령어 기술 개발 켄텍 이석주 교수 연구팀, AI 3차원 공간 인식 한계 돌파

  • 콘텐츠 폰트 사이즈 조절

    글자크기 설정

  • 프린트출력하기
기계가 직접 이해할 수 있는 비인간 언어 경량 프롬프트(명령어) 학습 기술 ⓒ 한국에너지공대 제공
기계가 직접 이해할 수 있는 비인간 언어 경량 프롬프트(명령어) 학습 기술 ⓒ 한국에너지공대 제공

사진이나 영상 속 3차원 공간의 깊이 등 정보를 세밀하게 추론할 수 있는 인공지능(AI) 기술이 개발됐다.

한국에너지공대(KENTECH·켄텍)는 이석주 교수 연구팀이 AI 비전 언어 모델(Vision Language Model)의 3차원 공간 추론을 가능하게 하는 경량 프롬프트(명령어) 학습 기술을 개발했다고 1일 밝혔다.

다양한 유형의 데이터를 처리하고 통합할 수 있는 AI 시스템인 멀티모달(multimodal)이나 비전 언어 모델은 이미지와 텍스트를 동시에 이해하는 AI로, 비전과 자연어 처리 융합 분야에서 널리 활용된다.

예를 들어 고양이라는 단어를 보여주면 수많은 사진 속에서 고양이를 찾아내는 방식이다.

하지만 거리와 깊이 같은 기하학적 공간 인식에는 한계가 있었다.

연구팀은 사람이 쓰는 언어 대신 기계가 이해하기 최적화된 새로운 표현 방식인 비인간 언어 프롬프트를 도입했다.

이를 통해 카메라에 찍힌 사진이나 영상만으로도 물체의 깊이를 정밀하게 파악할 수 있도록 했다.

이 기술은 약 110만개 학습 파라미터만으로도 3억개 이상이던 기존 대형 모델과 견줄 만한 성능을 보였다.

이번 연구는 국제 학술지 'Pattern Recognition (Elsevier, SCIE Q1, IF=7.6)'에 지난달 26일 온라인으로 게재됐다.

이 교수는 "자율주행, 로봇 비전, 증강현실 등 경량화가 필수적인 다양한 공간 컴퓨팅 분야에 활용 가능한 핵심 원천기술로 자리매김할 것"이라고 말했다.

연합뉴스
저작권자 2025-10-02 ⓒ ScienceTimes

관련기사

목록으로
연재 보러가기 사이언스 타임즈에서만 볼 수 있는
특별한 주제의 이야기들을 확인해보세요!

인기 뉴스 TOP 10

속보 뉴스

ADD : 06130 서울특별시 강남구 테헤란로7길 22, 4~5층(역삼동, 과학기술회관 2관) 한국과학창의재단
TEL : (02)555 - 0701 / 시스템 문의 : (02) 6671 - 9304 / FAX : (02)555 - 2355
정기간행물 등록번호 : 서울아00340 / 등록일 : 2007년 3월 26일 / 발행인 : 정우성 / 편집인 : 차대길 / 청소년보호책임자 : 차대길
한국과학창의재단에서 운영하는 모든 사이트의 콘텐츠는 저작권의 보호를 받는 바 무단전재, 복사, 배포 등을 금합니다.

사이언스타임즈는 과학기술진흥기금 및 복권기금의 지원으로 우리나라의 과학기술 발전과 사회적 가치 증진에 기여하고 있습니다.