AI 추론칩 부상에 엔비디아 독주 흔들리나

네비우스 “그록, 특정 조건에서 비용 5분의1·속도 2배”…비용 중심 구조로 시장 재편 조짐

미국 일리노이주 아르곤국립연구소에 설치된 AI 반도체 스타트업 그록(Groq)의 ‘그록노드(GroqNode)’ 서버 랙. 사진=로이터

인공지능(AI) 반도체 시장에서 엔비디아의 독주 체제가 이어지는 가운데 추론(inference) 특화 칩을 앞세운 신생 기업들이 비용 경쟁력을 무기로 빠르게 존재감을 키우고 있다는 분석이 나왔다.

25일(현지시각) IT 전문매체 Wccftech에 따르면 AI 연산용 클라우드·데이터센터를 제공하는 인프라 기업 네비우스의 한 관계자는 그록(Groq)의 AI 추론용 칩이 특정 조건에서 엔비디아 최신 블랙웰 계열 그래픽처리장치(GPU)보다 비용 측면에서 최대 5배 저렴하고 처리 속도도 약 2배 빠를 수 있다고 설명했다.

이같은 내용은 금융·기업 데이터를 AI로 검색·분석하는 리서치 플랫폼 알파센스와의 인터뷰에서 나온 것으로 그록은 AI 추론 전용 칩(LPU)을 만드는 반도체 스타트업이다.

◇ ‘토큰당 비용’ 중심으로 시장 재편

이 관계자는 AI 인프라 시장이 기존의 ‘시간당 GPU 사용료’ 중심 구조에서 ‘토큰당 비용’ 기준으로 빠르게 전환되고 있다고 진단했다.

현재 온디맨드 기준으로 엔비디아 H100 GPU는 시간당 약 2.95달러(약 4360원), H200은 3.50달러(약 5180원), 블랙웰 B200은 4.90~6.50달러(약 7250~9620원)에 형성돼 있다. 다만 장기 계약으로 용량을 미리 확보할 경우 H100은 1.50달러(약 2220원), H200은 2.20달러(약 3260원), B200은 최소 3.50달러(약 5180원 수준)까지 낮아진다.

반면 그록 칩은 토큰 기반 과금 구조를 채택해 100만 토큰당 0.05~0.10달러(약 74~148원) 수준으로 제시됐고 엔비디아 GPU는 약 0.25달러(약 370원) 수준으로 나타나 비용 차이가 발생한다는 설명이다.

◇ 속도·비용 우위 주장…조건 따라 차이

처리 속도 측면에서도 차이가 언급됐다. 이 관계자는 그록 칩이 초당 최대 800토큰을 처리할 수 있는 반면 엔비디아 칩은 약 450토큰 수준이라고 설명했다.

다만 이 같은 비교는 특정 추론 작업 기준에 따른 것으로, 학습 기능까지 포함하는 범용 GPU와 단순 비교하기에는 한계가 있다는 지적도 나온다.

실제로 엔비디아 GPU는 대규모 AI 모델 학습과 다양한 워크로드를 동시에 처리할 수 있는 범용성을 강점으로 갖고 있고 그록 칩은 추론 처리에 특화된 구조를 갖고 있어 사용 목적에 따라 성능과 비용 효율이 달라질 수 있다.

◇ AI 수요의 90% 이상 ‘추론’ 전환

AI 시장 구조 변화도 주요 배경으로 지목됐다. 이 관계자는 현재 기업용 AI 작업의 90~95%가 추론 단계에서 발생한다고 설명했다.

기업들이 자체 모델을 새로 학습하기보다 사전 학습된 모델이나 응용프로그램인터페이스(API)를 활용하는 방식으로 전환하면서 고속 추론 처리 능력이 핵심 경쟁력으로 부상하고 있다는 분석이다.

이에 따라 그록을 비롯한 추론 특화 반도체 업체들이 비용 효율성과 처리 속도를 앞세워 점유율 확대를 노리고 있고, 엔비디아 중심의 기존 구조에도 점진적인 변화가 나타날 수 있다는 전망이 나온다.

김현철 글로벌이코노믹 기자 rock@g-enews.com