HBM 수요 꺾인다고? 구글 '터보퀀트' 충격에 숨겨진 반도체 역설

"메모리 압축할수록 더 큰 AI 돌린다"… SK하이닉스·삼성 HBM 투자자가 꼭 봐야 할 구조
구글의 KV 캐시 6분의 1 압축 기술 '터보퀀트' 발표로 메모리 관련주 일시 하락
효율화가 수요를 줄이는 것이 아니라 오히려 키우는 '제번스 역설' 구조 작동
HBM의 본질적 병목인 '대역폭'은 압축으로 해결되지 않으며, 학습 수요는 터보퀀트와 무관

구글 리서치가 고대역폭메모리(HBM)의 핵심 수요처인 키-값(KV) 캐시를 최대 6분의 1로 줄이는 알고리즘 '터보퀀트(TurboQuant)'를 발표하면서 반도체 수요가 꺾이는 것 아니냐는 공포가 시장을 뒤흔들었지만, 오히려 수요 폭증을 가져올 수 있다는 주장이 나온다. 이미지=제미나이3 — 구글 리서치가 고대역폭메모리(HBM)의 핵심 수요처인 키-값(KV) 캐시를 최대 6분의 1로 줄이는 알고리즘 '터보퀀트(TurboQuant)'를 발표하면서 "반도체 수요가 꺾이는 것 아니냐"는 공포가 시장을 뒤흔들었지만, 오히려 수요 폭증을 가져올 수 있다는 주장이 나온다. 이미지=제미나이3

삼성전자와 SK하이닉스 주가가 술렁였다. 구글 리서치가 고대역폭메모리(HBM)의 핵심 수요처인 키-값(KV) 캐시를 최대 6분의 1로 줄이는 알고리즘 '터보퀀트(TurboQuant)'를 발표하면서 "반도체 수요가 꺾이는 것 아니냐"는 공포가 시장을 뒤흔든 것이다.

그러나 전문가들의 분석은 정반대를 가리킨다. 압축 기술이 곧 하드웨어 다이어트를 의미하지 않으며, 오히려 더 큰 AI 모델과 더 많은 연산을 가능하게 해 HBM 수요를 자극하는 촉매가 된다는 것이다.

수요 감소 공포는 '오독'… 3단 구조로 읽어야 한다

이번 사태를 정확히 이해하려면 단순한 직관 대신 3단 인과 구조를 따라가야 한다고 디지타임즈는 3일(현지시각) 보도했다.

첫째, 단위 메모리 감소(압축 효과)다. 터보퀀트는 대규모언어모델(LLM) 추론 과정에서 발생하는 KV 캐시를 3비트 수준으로 압축해 토큰당 메모리 사용량을 최대 6분의 1로 줄인다. 표면적으로는 HBM 탑재량이 줄어드는 것처럼 보인다.

둘째, 사용량 폭증(행태 변화)이다. 그러나 기업들은 확보된 여유 공간을 절약이 아닌 확장에 쓴다. 더 긴 컨텍스트 윈도우, 더 거대한 파라미터 모델, 복수의 에이전트 AI 동시 실행이 그 선택지다. 공개된 기술 문헌들에 따르면 GPT-4급 대형 모델에서 KV 캐시는 전체 추론용 메모리의 30~50%를 차지하며, 컨텍스트 길이가 10배 늘어나면 메모리 요구량도 그에 비례해 선형 증가한다.

셋째, 총수요 증가(결론)다. 단위당 비용이 낮아질수록 더 많이 소비하는 구조, 즉 경제학에서 말하는 '제번스 역설(Jevons Paradox)'이 작동한다. 19세기 영국에서 증기기관 효율이 높아지자 오히려 석탄 소비가 급증한 것과 같은 원리다. 국내 반도체 업계에서는 "효율 개선이 AI 수요의 지평을 넓히는 확장 구조에 이미 진입했다"는 평가가 확산하고 있다.

HBM과 일반 D램은 다르다… 압축이 건드리지 못하는 '대역폭 병목'

투자자 관점에서 이 구분은 결정적이다.

HBM(고대역폭메모리)과 일반 DDR D램은 AI 연산에서 상호보완적 역할을 수행한다. HBM은 그래픽처리장치(GPU)에 근접 배치되어 초고속 대역폭을 제공함으로써 데이터 전송의 '대역폭 병목' 현상을 해결하는 데 핵심적이다. 반면 DDR D램은 서버 시스템의 주 기억장치로서 방대한 데이터를 담는 용량 중심의 '용량 병목'을 완화한다.

구글 터보퀀트 같은 압축 기술이 도입되면 물리적 용량 한계가 뚜렷한 서버용 D램에서 유효한 개선 효과가 나타날 것으로 보인다. 반면 연산 속도가 최우선인 HBM 영역에서는 압축에 따른 절감 효과가 상대적으로 제한적일 것이라는 분석이 나온다.

KV 캐시 압축은 '용량(Capacity)'의 부담을 줄이는 기술이다. 그러나 AI 연산의 본질적 병목은 '대역폭(Bandwidth)'에 있다. GPU가 연산을 처리하는 속도를 메모리가 데이터를 공급하는 속도가 따라가지 못하는 것이 AI 인프라의 근본적 한계이며, HBM은 바로 이 대역폭 문제를 풀기 위해 존재한다. 터보퀀트는 이 병목을 해소하지 못한다.

업계에서도 KV 캐시 압축은 폭발적으로 불어나는 수요를 다룰 수 있는 범위 안으로 끌어내리는 수단에 불과하며 HBM 수요의 상승 기조는 흔들리지 않을 것으로 진단한다.

터보퀀트는 '추론' 기술… HBM 최대 수요처인 '학습'은 무관

시장이 간과한 또 하나의 핵심이 있다. 바로 AI 연산의 두 단계, '학습(Training)'과 '추론(Inference)'의 구분이다.

터보퀀트는 추론 단계에서 발생하는 KV 캐시를 압축하는 기술이다. 사용자가 AI에게 질문하고 답변을 받는 그 순간에만 작동한다. 그러나 HBM 수요의 최대 동력은 여전히 학습 단계다. 수십억~수천억 개의 파라미터를 가진 모델을 수개월에 걸쳐 훈련하는 이 과정에는 KV 캐시가 존재하지 않는다. 터보퀀트는 추론 효율을 개선하는 기술일 뿐, HBM 최대 수요처인 학습 영역을 대체하지 못한다.

반도체 업계 관계자들은 오픈AI·구글·메타 등이 2025~2026년에 계획한 대규모 모델 훈련 투자는 이번 기술 발표와 무관하게 진행될 것으로 내다보고 있다.

에이전트 AI의 등장… "한 번의 답변이 수십 번의 추론 체인으로"

기존의 AI 챗봇이 '1회 질문 → 1회 추론'이라면, 에이전트형 AI는 완전히 다른 연산 구조를 갖는다. 스스로 계획을 세우고, 웹을 검색하고, 코드를 실행하고, 결과를 검증하고, 오류 시 재시도하는 과정이 하나의 사용자 요청 안에서 수십 번 반복된다. 에이전트 AI는 '한 번의 답변'을 '수십 번의 추론 체인'으로 전환시킨다.

이 구조에서 KV 캐시 누적량은 단순 챗봇의 수십 배에 달한다. 소프트웨어 압축 기술이 이 폭발적 작업량을 온전히 흡수하기에는 역부족이라는 평가가 지배적이다. 여기에 AI 로봇공학과 자율주행처럼 물리 세계와 결합한 애플리케이션이 늘어나면서 실시간으로 생성되는 센서·영상 데이터의 양은 기하급수적으로 증가하고 있다.

압축의 '숨겨진 비용'… 메모리 아끼면 연산이 늘어난다

기술적 트레이드오프도 무시할 수 없다. 구글은 터보퀀트가 정확도를 유지하면서 3비트 수준으로 압축할 수 있다고 밝혔다. 그러나 전문가들은 압축 데이터를 연산에 활용하기 위해 다시 원래 형태로 복원하는 '역양자화(Dequantization)' 과정에서 GPU 연산 부하가 추가로 발생한다고 경고한다. 메모리를 줄이는 대신 연산을 늘리는 트레이드오프 구조인 셈이며, 이는 GPU와 HBM에 대한 수요를 다른 형태로 유지하는 요인이 된다. 과도한 압축 시 모델 정확도 저하나 처리 지연(Latency) 증가 가능성도 실용화의 제약 요인으로 꼽힌다.

시장 영향 타임라인은 단기 충격, 중장기 재가속

이번 발표가 시장에 미치는 영향은 시기별로 다르게 전개될 전망이다. 전문가들은 AI 메모리 시장의 흐름을 단기 진통 후 중장기적 수요 확대로 이어지는 '3단계 확장기'로 분석한다.

지난해부터 올해까지는 터보퀀트 등 압축 기술 발표에 따른 심리적 충격으로 메모리 관련주의 변동성이 커지는 단기 조정 국면이다. 내년부터 2028년 사이에는 에이전트 AI와 멀티모달 서비스가 확산하며 추론 수요가 급증하는 중기 확장기로 이어질 것으로 보인다. 이때 압축 기술은 하드웨어 대체가 아닌 수요 관리의 보조 수단으로 자리 잡는다. 2028년 이후 장기 관점에서는 차세대 초거대 모델 학습 투자가 재가속하며 HBM 탑재량 증가세가 다시 가팔라질 전망이다.

엔비디아의 차세대 CPX 아키텍처가 기존 D램 수요에 미칠 영향에 대해서도 전문가들은 실제 시장 침투 시점을 2027년 이후로 내다보고 있어 단기 우려는 과도하다는 진단이 우세하다. 메모리 제조사와 고객사 간 장기 공급 계약이 3년 이상으로 연장되는 추세도 가격과 수요의 하방 지지선으로 작용하고 있다.

한국 반도체 산업이 주목해야 할 부분

SK하이닉스와 삼성전자는 HBM 시장의 핵심 공급자다. 이번 터보퀀트 발표가 주가 변동 요인이 됐지만 업계 시각은 장기 투자 논리를 훼손하지 않는다는 쪽으로 모아진다. 국내 업계의 진짜 숙제는 따로 있다. 추론 효율이 개선되는 흐름 속에서 학습 전용 HBM의 대역폭과 전력 효율을 선도하고, 에이전트 AI 시대의 대용량·고속 처리 요구에 맞춘 차세대 HBM 로드맵을 얼마나 빠르게 구체화하느냐다.

정부 차원에서는 AI 인프라 투자에 대한 세액공제 확대와 반도체 클러스터 전력 공급망 확충이 시급한 정책 과제로 부각되고 있다. 경쟁국들이 보조금과 인프라 투자로 자국 반도체 생태계를 구축하는 속도를 감안하면, 국내 지원 체계의 정비가 더 이상 미룰 수 없는 현안이라는 지적도 나온다.

AI 메모리 사이클이 진짜 꺾이는지 확인하려면 지금 당장 세 가지 지표를 눈에 담아 두어야 한다. 첫째, 마이크로소프트·구글·아마존의 분기별 설비투자(CAPEX) 증가율 변화다. 이 수치가 꺾이지 않는 한 터보퀀트 발표는 시장 노이즈에 불과하다. 둘째, SK하이닉스·삼성전자의 HBM3E 출하량과 단가 추이다. 단가 하락보다 가동률 유지 여부가 실수요를 읽는 더 중요한 신호다. 셋째, OpenAI 오퍼레이터·구글 제미나이 에이전트 등 에이전트 AI의 기업 도입 속도다. 상용화가 빨라질수록 추론 수요 폭증 시나리오의 현실화도 앞당겨진다.

AI 시대의 메모리 압축은 '수요 절감 기술'이 아니라 '수요 확대 기술'이다. 효율성이 높아질수록 더 큰 AI를 구동하려는 욕구가 커지며, 반도체 시장의 중력은 위쪽을 향한다. 구글의 터보퀀트는 그 욕구에 날개를 달아준 셈이다. 시장의 진짜 질문은 이제 "HBM 수요가 줄어드느냐"가 아니라 "누가 더 빨리, 더 많이 공급하느냐"로 이동했다.

김주원 글로벌이코노믹 기자 park@g-enews.com