오늘 생성형 AI를 얼마나 사용했을까? 문서 작성부터 번역, 코딩까지 우리가 AI에게 던진 질문들이 승용차 8km를 달릴 때만큼의 탄소를 배출했다. AI 챗봇과의 대화가 우리 일상의 창작과 업무에 혁신을 가져다주고 있는 동안 이 편리함 뒤에는 상상보다 훨씬 무거운 환경적 대가가 숨어있다.
실제로 ChatGPT가 세상에 나온 후 인공지능 언어 모델에 대한 관심이 폭발적으로 증가했다. 관련 학술논문이 하루 평균 0.40편에서 8.58편으로 21배 넘게 늘어날 정도다. 생성형 AI가 1년간 소비하는 전력량은 29.3TWh로 아일랜드 한 나라의 연간 전력 소비량과 맞먹는다. 그런데 놀랍게도 AI 언어 모델 연구논문 중 탄소 배출 문제를 다룬 것은 고작 1.82%에 불과해 환경 영향에 대한 과학적 분석이 절실히 필요한 상황이다.

7억 개부터 720억 개까지, 모델 규모별 환경 영향 첫 측정
독일 뮌헨 응용과학대학교 디지털과학AI센터의 막시밀리안 다우너(Maximilian Dauner) 교수와 구드룬 소허(Gudrun Socher) 박사 연구팀이 AI 모델의 숨겨진 환경비용을 최초로 정밀 측정했다.
이들은 최근 ‘프론티어스 인 커뮤니케이션’지에 발표한 연구에서 7억 개부터 720억 개의 매개변수(AI가 학습한 지식의 양을 나타내는 수치)를 가진 14개 대형 언어 모델을 직접 비교 분석했다.
실험 대상은 메타의 라마(Llama) 시리즈, 알리바바의 큐엔(Qwen) 모델, 그리고 복잡한 추론이 가능한 딥시크(DeepSeek) R1 등 현재 가장 주목받는 AI 모델들이었다. 연구팀은 이들 모델에게 철학부터 수학까지 5개 분야의 1,000개 문제를 풀게 한 뒤, 정답률과 함께 전력 소비량을 실시간으로 측정했다.
다우너 교수는 "엔비디아의 A100 GPU를 사용해 각 모델이 문제를 푸는 과정에서 소비하는 전력량을 페룬(Perun) 프레임워크로 측정하고 전 세계 평균 탄소 배출 기준인 480gCO2/kWh를 적용해 이산화탄소 배출량으로 환산했다"고 연구 방법을 설명했다.
똑똑할수록 환경에 더 큰 부담, 최대 74배 차이
연구에서 발견한 핵심은 AI가 생성하는 '단어의 양'과 탄소 배출량 사이의 밀접한 관계였다.
AI는 정보를 '토큰'이라는 작은 단위로 처리하는데, 이는 단어나 문장의 일부를 뜻한다. 객관식 문제에서 일반 모델들은 평균 37.7개의 토큰으로 답했지만, 추론 모델들은 무려 543.5개의 '생각 과정'을 거쳐 답을 도출했다.
더 놀라운 것은 주관식 답변에서였다. 코지토 8B 추론 모델은 추상대수학 문제 하나에 대해 무려 37,575개의 토큰을 생성했는데, 이는 A4 용지 수십 장 분량의 텍스트에 해당한다. 마치 간단한 질문에도 장황하게 설명하는 사람처럼, AI도 말이 많을수록 더 많은 전력을 소모하고 더 많은 탄소를 배출하는 것이다.
과목에 따라 AI의 성능과 에너지 소비 패턴도 크게 달랐다. 고등학교 세계사 같은 사실 기반 문제에서는 평균 76.3%의 정답률을 보였지만, 추상적 사고가 필요한 추상대수학에서는 51.4%로 떨어졌다. 특히 추상대수학 문제를 풀 때는 다른 과목보다 훨씬 많은 '생각 과정'이 필요해 평균 865.5개의 토큰을 생성했다.
연구진은 "AI가 인간처럼 창의적이고 추상적인 사고를 할 때 더 많은 에너지를 소모한다는 점이 확인됐다. 이는 마치 사람이 어려운 수학 문제를 풀 때 더 많은 뇌 에너지를 쓰는 것과 비슷하다"고 설명했다.

성능과 환경 효율성의 균형점은?
연구에서 가장 주목받은 것은 '성능 대비 환경 효율성'이 뛰어난 모델의 존재였다.
추론 기능을 갖춘 코지토 70B 모델은 84.9%라는 최고 정답률을 달성하면서도 1,341.1g의 탄소를 배출했다. 반면 딥시크 R1 70B는 78.9% 정답률에 2,042.4g을 배출해, 6%포인트 낮은 성능에도 34.3% 더 많은 탄소를 내뿜었다. 이는 AI 개발에서 단순히 '더 크고 더 많은 매개변수'가 아닌 '효율적 설계'의 중요성을 보여준다.
또한, 흥미로운 발견은 모델 크기와 효율성이 반드시 비례하지 않는다는 점이었다. 큐엔 2.5 72B 모델은 77.6%의 정답률을 보이면서 탄소는 426.8g만 배출해 코지토 70B보다 3배 이상 효율적이었다. 이는 같은 720억 매개변수급에서도 설계 방식에 따라 환경 영향이 크게 달라질 수 있다는 결론이다.
한편 주관식에서는 AI의 인지적 한계가 선명하게 드러났다. 고등학교 수학이 69.4%로 가장 높은 정답률을 보인 반면, 철학은 52.1%로 가장 낮았다. 계산과 논리적 추론이 명확한 수학 영역에서는 상대적으로 적은 에너지로도 높은 성과를 낼 수 있지만, 추상적이고 주관적 해석이 필요한 철학 영역에서는 많은 '생각 과정'을 거쳐도 성과가 제한적이었다.
다우너 교수는 "AI 모델들이 인간의 사고 과정과 유사하게, 복잡하고 창의적인 문제일수록 더 많은 계산 자원을 소모하면서도 정답률은 떨어지는 패턴을 보였다"고 분석했다. 이러한 결과는 AI 개발 방향에서 무작정 큰 모델을 추구하기보다는 작업별 특성을 고려한 효율적 설계가 필요함을 보여준다.

지속가능한 AI 시대를 위한 새로운 기준
연구팀은 "더 똑똑하고 추론 능력이 뛰어난 AI일수록 작은 모델들을 압도하는 성능을 보이지만, 그 대가로 탄소 배출량과 전력 소비가 급격히 증가한다"며 "특히 복잡한 사고가 필요한 분야에서 AI의 추론 효율성과 응답 간결성을 최적화하는 것이 환경을 고려한 AI 기술 발전을 위해 중요하다"고 결론지었다.
이번 연구는 단순히 '얼마나 똑똑한가'를 넘어 '얼마나 친환경적인가'라는 새로운 AI 평가 기준의 필요성을 제시했다. 앞으로 AI 개발자들은 성능 향상과 함께 환경 효율성을 고려한 설계에 더욱 주목해야 할 것으로 보인다.
- 김현정 리포터
- vegastar0707@gmail.com
- 저작권자 2025-07-30 ⓒ ScienceTimes
관련기사