HBM 우회 AI 칩 동맹… 바이트댄스, '추론 특화 LPU'로 판 흔든다

HBM 대체 아닌 '의존도 축소'… K-메모리 슈퍼사이클 변수 부상
온칩 SRAM·오프칩 DRAM 하이브리드 설계로 가성비 추론 시장 정조준

틱톡의 모기업인 중국 바이트댄스가 미국 반도체 기업 그록(Groq)의 아키텍처를 벤치마킹한 자체 인공지능(AI) 추론용 칩 개발에 착수했다. 이미지=제미나이3

디지타임스는 지난 1일(현지시각) 틱톡의 모기업인 중국 바이트댄스가 미국 반도체 기업 그록(Groq)의 아키텍처를 벤치마킹한 자체 인공지능(AI) 추론용 칩 개발에 착수했다고 보도했다. 이번 개발은 고대역폭메모리(HBM) 의존도를 낮추려는 전략적 시도다. AI 패러다임이 학습에서 실시간 추론으로 이동하는 가운데 산업 지형을 흔들 변수로 부상하고 있다.

고정형 데이터플로우와 하이브리드 메모리의 결합

바이트댄스는 중국의 저항성메모리(ReRAM) 전문 반도체 제조사 이노스타(InnoStar)와 손잡고 언어처리장치(LPU) 기반의 AI 칩을 공동 개발한다.

IT 전문 매체 더인포메이션에 따르면 바이트댄스와 알리바바 창업자 마윈이 이끄는 윤펑캐피탈, 앤트그룹 및 중국 국영 자본은 이노스타의 지분을 인수하며 4억 달러(약 6050억 원) 규모의 투자금을 수혈했다. 거대 자본과 기술 동맹이 결합한 형태다.

바이트댄스가 설계 중인 LPU는 결정론적 실행(Deterministic Execution)과 고정형 데이터플로우 아키텍처를 지향한다는 점에서 그록의 하드웨어 구조와 유사하다. 이는 복잡한 제어 장치를 줄이고 연산 장치와 메모리를 밀집시켜 데이터 처리 지연을 최소화하는 방식이다.

메모리 구성의 경우 고가인 HBM을 완전히 배제하기보다, 초저지연 구현을 위한 '온칩(On-chip) SRAM'과 대용량 데이터 보완을 위한 '오프칩(Off-chip) 기존 DRAM'을 혼용하는 하이브리드 구조를 채택할 가능성이 높다. 이노스타의 ReRAM 기술은 가속기 내에서 전력 소모를 줄이는 비휘발성 보조 캐시 메모리나 실험적인 가속 셀 형태로 활용될 가능성이 있는 것으로 분석된다.

거대 자본의 투하와 소프트웨어·패키징의 장벽

바이트댄스는 오는 2026년 AI 인프라 확충에 최대 700억 달러(약 105조 원)의 자본지출을 단행할 계획이며, 이 거대 자금의 상당수가 추론 가성비 노선에 투입된다. 대형 언어 모델(LLM) 학습 단계에서는 여전히 거대 대역폭을 가진 HBM 탑재 GPU가 필수적이지만, 월간 활성 사용자 3억 명을 보유한 자체 AI 챗봇 '두오바오' 등 실시간 서비스 운영에는 LPU 방식이 전력 및 비용 측면에서 유리하기 때문이다.

그러나 바이트댄스의 자급화 동맹이 안착하기까지는 기술적 장벽이 높다. LPU 계열의 본질은 전력당 성능인데, 미세공정의 한계로 인해 대규모 SRAM을 단일 칩에 집적할 때 발생하는 발열과 전력 효율 제어가 난제다.

엔비디아의 첨단 패키징(CoWoS) 독점에 맞설 독자적인 패키징 생태계 확보도 미지수다. TSMC CoWoS의 제한된 생산 캐파 역시 단기 공급 병목 변수로 작용하고 있다. 무엇보다 엔비디아의 굳건한 소프트웨어 생태계인 쿠다(CUDA)를 우회하여 바이트댄스의 자체 소프트웨어 스택이 실제 대규모 데이터센터 단에서 얼마나 높은 구동 안정성을 보여줄지가 시장 안착의 핵심 승패를 가를 전망이다.

피크아웃 아닌 변동성 확대… 투자자가 볼 3대 지표

국내 반도체 전문가들은 중국의 이 같은 흐름이 당장 한국 기업들의 HBM 슈퍼사이클을 무너뜨리지는 않을 것으로 가늠한다. 증권가에서는 단기적으로 미국 빅테크의 HBM3E 및 HBM4 수요가 워낙 견조하여 타격이 제한적일 것으로 보지만, 중장기적으로 추론 특화 ASIC 칩이 늘어나면 HBM의 평균판매단가(ASP) 압박이 커지며 반도체 사이클의 변동성이 확대될 수 있다고 진단한다.

국내 투자자가 자산 손실을 방어하기 위해 주시해야 할 실질적 지표는 다음과 같다.

첫째, 중국 SMIC의 N+2(7나노급) 공정 가동률과 심자외선(DUV) 기반 생산 수율을 확인해야 한다. 미국의 규제 속에서 EUV 장비 없이 미세공정을 유지하며 대면적 AI 칩 기준으로 바이트댄스의 칩을 안정적으로 위탁 생산할 수 있는지에 따라 추론 칩 공급 속도가 결정되기 때문이다.

둘째, 글로벌 빅테크 기업들의 인프라 내 자체 ASIC(주문형반도체) 도입 비중 수치를 추적해야 한다. 구글의 TPU나 아마존웹서비스(AWS)의 인퍼런시아 등 빅테크의 자체 추론 칩 워크로드 비중이 상승할수록 전체 시장 내 HBM 수요 둔화 시점이 앞당겨질 수 있다.

셋째, HBM4 계약 가격과 레거시 DDR5 가격 간의 스프레드 추이를 점검해야 한다. 추론 시장 다변화에 따른 프리미엄 메모리의 단가 방어력을 직접 확인할 수 있는 지표이며, 온디바이스 AI의 확산 속도 및 국내 기업들의 첨단 패키징(I-Cube 등) 병목 해소 여부와 동행하기 때문이다.

김주원 글로벌이코노믹 기자 park@g-enews.com