닫기

글로벌이코노믹

엔비디아, GDDR7 달고 ‘루빈 CPX’로 AI 서버 시장 뒤흔든다

글로벌이코노믹

엔비디아, GDDR7 달고 ‘루빈 CPX’로 AI 서버 시장 뒤흔든다

GDDR7·HBM 병행 전략으로 비용·성능 잡고, 삼성·SK하이닉스 ‘메모리 전쟁’ 격화
엔비디아가 2026년 말 양산을 목표로 내세운 추론 특화 GPU ‘루빈 CPX’는 HBM 대신 GDDR7을 얹어 문맥 처리 속도를 끌어올리면서도 단가를 크게 낮췄다. 사진=로이터이미지 확대보기
엔비디아가 2026년 말 양산을 목표로 내세운 추론 특화 GPU ‘루빈 CPX’는 HBM 대신 GDDR7을 얹어 문맥 처리 속도를 끌어올리면서도 단가를 크게 낮췄다. 사진=로이터
엔비디아가 2026년 말 양산을 목표로 내세운 추론 특화 GPU ‘루빈 CPX’HBM 대신 GDDR7을 얹어 대규모 문맥 처리 속도를 끌어올리면서도 단가를 크게 낮췄다 지난 17(현지시각) 트렌드포스가 전했다.

미국의 대중 수출 제한 속에서도 CSP(클라우드 서비스 제공사)들의 랙 수요가 폭발적으로 늘어 통합 시스템 중심으로 재편이 가속화되고 있다. 메모리 공급사인 삼성전자와 SK하이닉스는 GDDR7HBM을 양축으로 시장 지배력을 키우고 있다.

엔비디아가 9월 초 공개한 루빈 CPX는 루빈 CPX128GB GDDR7 메모리와 30PFLOPS급 연산 성능으로 백만 토큰 이상의 긴 문맥 처리에 최적화된 분산 추론(disaggregated inference)’ 구조를 구현했다. 전처리(prefill) 단계에선 GDDR7, 토큰 생성(decode) 단계에선 HBM을 사용해 각각 적합한 메모리를 활용한다.

VR NVL144 CPX 시스템에는 루빈 CPX GPU 144, 기존 루빈 GPU 72, 베라 CPU 36개가 결합된다. 이 조합은 랙당 최대 8 엑사플롭스 성능을 내며, 전력 소비는 랙당 약 400 kW. 어텐션 처리 속도가 기존 플랫폼보다 3배 빨라져 긴 시퀀스 추론 시 성능 저하를 크게 줄였다.
·중 기술 전쟁 속에 엔비디아는 중국 전용 칩 B30(RTX PRO 6000D)에도 GDDR7을 적용하기로 했다. 삼성전자는 엔비디아 요청에 맞춰 GDDR7 공급량을 두 배로 늘려달라며 생산라인을 확대했다. 삼성전자는 24Gb(3GB) GDDR7을 개발해 42.5Gbps 속도를 구현, 20251분기부터 양산에 돌입했다. 업계 추산으로는 엔비디아에 공급하는 GDDR7 규모가 수천억~조원대에 이르는 것으로 알려졌다.

SK하이닉스는 HBM 시장 점유율 75%를 유지 중이며, 자체 개발한 3GB GDDR72025년 하반기부터 양산할 계획이다. 하지만 HBM4LPDDR 서버용 DRAM이 주력 포트폴리오로 남아 있다.

글로벌 AI 서버 시장은 202524.3% 성장해 2047억 달러(2826900억 원)에 달하고, 2030년까지 연평균 34.3% 성장해 8378억 달러(1157조 원)로 확대될 전망이다. CSP들은 랙 단위 통합 시스템 수요를 늘리며 비용 대비 성능을 중시하는 원스톱 AI’ 전략을 강화하고 있다. 루빈 CPX의 시장 안착 여부가 AI 추론 생태계의 향후 방향을 좌우할 것으로 보인다.


박정한 글로벌이코노믹 기자 park@g-enews.com