AI 토큰 경제의 역설… 사용량 늘수록 수익성 흔들린다

기업들 ‘비용 예측 불가능성’ 확대에 저가 혼합 전략 전환
마진 압박 불씨 엔비디아·빅테크 공급망 전반으로 전이

인공지능(AI) 서비스의 기본 과금 단위인 토큰 요금 체계가 복잡해지면서 기업 사용자와 금융시장의 혼란이 커지고 있다. 고성능 인공지능 모델과 자율형 에이전트 도입으로 토큰 소비량이 급증하자, 기업들은 비용 감축을 위해 저가 모델로 눈을 돌리기 시작했다. 이미지=제미나이3

인공지능(AI) 서비스의 기본 과금 단위인 토큰 요금 체계가 복잡해지면서 기업 사용자와 금융시장의 혼란이 커지고 있다. 고성능 인공지능 모델과 자율형 에이전트 도입으로 토큰 소비량이 급증하자, 기업들은 비용 감축을 위해 저가 모델로 눈을 돌리기 시작했다.

토큰 사용량 증가가 매출이 아니라 비용과 함께 팽창하는 구조로 작동하면서, 반도체와 에너지, 인공지능 모델 공급사로 이어지는 인공지능 진영 전반의 수익성이 나빠질 수 있다는 우려가 나온다.

숨겨진 내부 연산과 반복 실행이 만든 비용 블랙홀

인공지능의 연산 단위인 토큰 비용이 기업 경영의 새로운 걸림돌로 부각했다. 배런스는 지난 2일(현지시각) 인공지능 지출 관리가 월가와 기업들의 핵심 과제로 떠올랐다고 보도했다.

비용 폭증의 주요 원인은 지난해부터 본격화한 추론 모델의 등장이다. 일반 인공지능과 달리 추론 모델은 스스로 질문하고 단계를 나누어 문제를 해결한다. 이 과정에서 내부 데이터 검색과 연산을 반복해 가시화되지 않는 내부 토큰을 대량으로 소비한다. 입력과 출력 외에 숨겨진 추론 토큰 비용이 발생하는 구조다.

자율형 에이전트 프로그램의 확산은 비용 예측 불가능성을 더 키운다. 구글과 마이크로소프트 등이 참여한 공동 연구팀 조사 결과, 특정 실험 환경에서 소프트웨어 개발에 투입한 코딩 에이전트는 같은 작업을 수행하는 인간보다 토큰을 최대 1000배 이상 더 많이 사용했다.

에이전트가 목표 달성을 위해 명령을 반복 실행하는 과정에서 실패 시 재시도 비용이 급격히 증가하기 때문이다. 간단한 질의 1회는 수천 토큰에 그치지만, 에이전트 작업 1건은 재시도를 포함해 수십만에서 수백만 토큰을 단숨에 삼킨다. 업무 효율화를 위해 에이전트를 도입했던 기업들은 예상을 뛰어넘는 청구서를 받아 들고 비용 축소에 나섰다.

공급망 주체별 수익성 메커니즘과 마진 압박

토큰 소비량 급증은 인공지능 공급망 각 주체의 손익 계산서를 흔들고 있다. 오픈AI와 앤트로픽 같은 모델 개발사는 토큰 사용량 증가로 매출이 늘어나는 것처럼 보이지만, 추론에 드는 매출원가(COGS)도 동반 상승해 고성능 모델일수록 심각한 마진 압박을 받는다.

앤트로픽의 경우 최근 텍스트 분석 방식을 바꾸면서 동일한 단어를 처리할 때 토큰 요금을 기존보다 30%에서 40%가량 더 부과하기 시작했다. 오픈AI 역시 최고급 모델의 경우 100만 토큰에 최대 30달러(약 4만 5900원)를 받으며 비용 보전에 나섰다.

클라우드 컴퓨팅 기업인 아마존웹서비스(AWS), 마이크로소프트 애저, 구글 클라우드는 단기적으로 그래픽처리장치(GPU) 대여 가격을 올리며 마진을 방어하고 있다. 아마존웹서비스는 7월 첫째 주 엔비디아 GPU 대여 가격을 올해 들어 두 번째로 인상했다. 그러나 중장기적으로 고객사들이 비용 통제에 돌입하면 클라우드 사용량 자체가 둔화할 위험이 상존한다.

엔비디아를 필두로 한 반도체 기업들은 현재 빅테크의 설비투자(CAPEX) 사이클 수혜를 누리고 있다. 하지만 기업들이 비용 부담 때문에 추론 효율화에 집중하고 경량화 모델로 대거 전환하기 시작하면, 시장에서는 반도체 수요가 정점에 도달했다는 논쟁이 본격화할 수 있다.

투자자 관점에서는 클라우드 업체의 GPU 임대 단가 하락이나 예약 대기시간 감소 등이 이러한 수요 둔화의 명확한 선행 신호가 될 전망이다.

‘모형 선택 분배 체계’ 도입과 구조적 성장통

비용 압박을 이기지 못한 기업들은 인공지능 구조를 다변화하는 혼합 전략, 즉 '모형 선택 분배 체계'로 대응하고 있다. 모든 작업에 고가 모델을 쓰는 대신, 보안과 안정성이 필수인 고난도 작업에는 미국 선도 모델을 배치하고 단순 반복 작업에는 오픈소스 기반이나 증류 기술로 가격을 낮춘 중국산 초저가 모델을 분리해 할당하는 방식이다.

인공지능 시스템 구축 시 어떤 모델을 선택하느냐 자체가 비용 통제의 핵심 수단으로 이동한 셈이다. 중국산 모델은 보안과 데이터 거버넌스 한계가 뚜렷해 완전 대체는 불가능하지만, 비용 방어용 우회로로 활용도가 높아지고 있다.

이러한 지출 통제 움직임은 인공지능 거품론보다는 과거 정보기술(IT) 투자 주기에서 나타난 구조적 성장통에 가깝다. 클라우드 초창기나 서비스형 소프트웨어(SaaS) 도입기에도 초기 투자 비용이 생산성 이익을 웃돌아 침체기를 겪었으나, 이후 프로세스 최적화를 통해 구조적 효율 개선을 이뤄냈다.

문제는 수요의 붕괴가 아니라 투자수익률(ROI) 발현 시점 지연

스탠퍼드대 경제학 연구소는 기술 도입이 생산성 개선으로 이어지려면 사업 구조 자체를 재설계해야 하므로 수년에서 수십 년이 걸릴 수 있다고 설명했다.

인공지능 진영의 지속 성장을 가늠하려는 투자자들은 단순히 빅테크의 총 설비투자 규모만 볼 것이 아니라, 클라우드 매출 내 인공지능 기여도 선행 지표, 인공지능 도입 기업의 매출 대비 비용 비율, 반도체 시장 내 추론용 칩의 평균판매가격(ASP) 유지 여부를 핵심 점검 지표로 삼아 시장의 기초체력을 점검해야 한다.

김주원 글로벌이코노믹 기자 park@g-enews.com