"엔비디아만 고집하면 도태"… 빅테크, AI 칩 생태계 '가성비'로 전면 재편

토큰당 비용이 곧 수익… 엔비디아 독주 막을 '추론 칩' 급부상
메타-아마존 '에이전트 AI' 동맹… GPU 대신 CPU 선택한 배경은
투자자가 지켜봐야 할 '칩 시장 3대 변화'… 핵심은 수익성

인공지능(AI) 시장의 판도가 근본적인 변화를 맞았다. 최근 업계 전문가들은 AI 인프라 시장이 '성능 과시' 단계에서 '비용 효율성'을 따지는 생존 단계로 진입했다고 입을 모은다. 핵심 지표는 이제 시간당 GPU 대여료가 아닌 '100만 토큰당 처리 비용'이다. 이미지=제미나이3

인공지능(AI) 시장의 판도가 근본적인 변화를 맞았다. 최근 업계 전문가들은 AI 인프라 시장이 '성능 과시' 단계에서 '비용 효율성'을 따지는 생존 단계로 진입했다고 입을 모은다. 핵심 지표는 이제 시간당 GPU 대여료가 아닌 '100만 토큰당 처리 비용'이다.

이는 단순히 칩 제조사 간의 기술 경쟁을 넘어, 데이터센터를 운영하는 빅테크 기업들이 엔비디아의 독점적 지위에서 벗어나 인프라 다변화를 꾀하려는 전략적 움직임이다.

'GPU 시간당 비용' 시대 저물고 '토큰당 비용'이 표준으로

지난 23일(현지시각) IT 매체 Wccftech에 따르면, AI 인프라 업계의 비용 체계가 근본부터 흔들리고 있다. 네비우스(Nebius) 소속 전문가는 현재 업계 AI 워크로드 수요의 90~95%가 학습(Training)이 아닌 추론(Inference)에 집중돼 있다고 분석했다.

기업들은 더 이상 모델 개발에만 막대한 자금을 쏟아붓지 않는다. 기성 모델을 활용한 서비스 운영이 주류가 되면서, 추론 효율성이 기업의 최종 수익성을 결정짓는 핵심 변수가 됐다. 엔비디아의 최신 칩인 블랙웰(B200)의 온디맨드 비용은 시간당 4.90~6.50달러에 달한다.

반면, 엔비디아의 라이선스 파트너인 그록(Groq)의 칩은 100만 토큰당 비용이 엔비디아 대비 5분의 1 수준에 불과하다. 처리 속도 또한 그록(800토큰/초)이 엔비디아(450토큰/초)를 압도한다. 성능보다 '가성비'를 앞세운 추론 전용 칩의 파상공세가 엔비디아의 아성을 정조준하고 있다.

메타-아마존 '에이전트 AI' 동맹… CPU가 GPU 밀어낸다

메타(Meta)와 아마존(Amazon)의 밀착 행보는 이러한 흐름을 가속화한다. 지난 24일 야후 파이낸스는 메타가 아마존의 자체 CPU인 '그라비톤(Graviton)'을 AI 서비스에 대거 도입하기로 했다고 보도했다.

과거에는 AI 워크로드 하면 GPU가 절대적이었으나, 이메일 요약이나 웹 검색 등 실시간 데이터 처리가 필요한 '에이전트형 AI'는 CPU 처리가 훨씬 효율적이다. 아마존의 칩 사업은 이미 연간 매출 200억 달러(약 29조 5500억 원) 규모로 성장했다. 제프 베조스 아마존 CEO가 외부 판매 가능성까지 시사하면서 '엔비디아=AI 칩'이라는 공식은 깨지고 있다.

하드웨어 측면에서는 AMD의 움직임도 예사롭지 않다. AMD는 차세대 'EXPO 1.2' 기술을 통해 중국산 DDR5 메모리 지원을 대폭 강화한다. 모듈 구성 유연성을 높이고 저지연(ULL) 모드를 탑재해 데이터센터 구축 비용을 낮추는 전략이다. 이는 고가의 HBM(고대역폭메모리) 의존도를 낮추고 메모리 공급망을 다변화하려는 포석으로 풀이된다.

K-반도체 기회와 위기, 생태계 재편에 따른 대응 전략 시급

AI 추론 시장의 효율화는 K-반도체에 기회이자 위기다. 긍정적으로는 칩 아키텍처가 GPU에서 CPU·ASIC으로 다변화해도, 연산 성능을 뒷받침할 고대역폭 메모리(HBM) 수요는 구조적으로 증가한다. 특정 칩 구조에 종속되지 않는 고성능 메모리 기술력이 한국 기업의 강력한 차별점이 될 것이다.

반면, 엔비디아 의존도가 낮아지면 GPU용 HBM의 폭발적 성장세가 둔화될 수 있고, 최근 AMD가 중국산 DDR5 지원을 확대한 것처럼 범용 메모리 시장에서 중국 업체의 저가 공세가 거세질 전망이다. 향후 K-반도체는 단순 HBM 양산을 넘어, 고객사별 맞춤형 메모리(Custom HBM)와 CXL(컴퓨트 익스프레스 링크) 기반의 차세대 솔루션으로 포트폴리오를 빠르게 재편해야 주도권을 잃지 않을 것이다.

2026년 하반기, 투자자가 챙겨야 할 '3가지 생존 지표'

AI 인프라 시장은 이제 '누가 더 빠른 칩을 만드느냐'를 넘어 '누가 더 낮은 비용으로 추론 서비스를 제공하느냐'의 싸움으로 변했다. 거품 논란을 잠재울 열쇠는 결국 수익성이다. 시장 참여자들은 다음 세 가지를 반드시 확인해야 한다.

첫째, 기업별 CAPEX 효율성이다. 빅테크 기업들이 설비투자(CAPEX) 대비 얼마나 효율적인 AI 추론 인프라를 구축하고 있는가를 살펴야 한다.

둘째, 추론용 칩 매출 비중 변화 여부다. 엔비디아 중심의 GPU 매출이 아닌, CPU 및 가성비 추론 칩 업체의 매출 성장 속도가 어디까지 올라왔는가를 지켜봐야 한다.

셋째, 메모리 공급망 다변화 여부다. 특정 제조사에 의존하던 메모리 수급이 중국 등 신흥 공급망 확대로 가격 안정화를 이룰 수 있는가도 점거해야 한다.

성능 혁신도 중요하지만, 이제는 서비스 운용 단가를 낮추는 기업이 시장의 승자로 자리매김할 것이다. '엔비디아 일변도'의 투자 전략을 수정할 시점이 다가왔다.

김주원 글로벌이코노믹 기자 park@g-enews.com