現 블랙웰 모델보다 17% 급증…AI 서버 구축 핵심 비용으로 부상
차기 '루빈 울트라' TDP 3600W…액침 냉각 등 새 기술 도입 불가피
차기 '루빈 울트라' TDP 3600W…액침 냉각 등 새 기술 도입 불가피
이미지 확대보기11일(현지시각) 톰스 하드웨어와 테크레이더가 인용한 모건 스탠리 분석에 따르면, 현재 블랙웰 칩 기반의 'GB300 NVL72' 랙 스케일 AI 시스템의 액체 냉각 비용은 유닛당 약 4만9860달러에 이른다. 반면 차세대 루빈 아키텍처 기반 '베라 루빈 NVL144' 랙은 전력 소모가 최대 1800W 수준으로 상승하고, 차기 루빈 GPU, 베라 CPU, NVLink 6.0 인터커넥트의 전력 소비량이 급증함에 따라 냉각 비용 부담이 더욱 커졌다. 이 시스템의 냉각 하위 시스템 가격은 기존 대비 17% 상승한 약 5만5710달러에 이를 것으로 예상된다.
'블랙웰'과 '루빈', 냉각 비용 상세 비교
AI 서버에서 냉각 비용의 상당 부분은 CPU와 GPU 전용으로 설계된 고성능 맞춤형 콜드 플레이트(냉각판)가 차지한다. 모건 스탠리의 자재 명세서(BOM) 분석을 보면, NVL72 시스템은 18개의 컴퓨트 트레이(서랍)와 9개의 스위치 트레이로 구성된다. 각 컴퓨트 트레이는 약 6.6kW의 전력을 소비하며, 이 중 6.2kW를 냉각으로 방출해야 해 트레이당 2260달러의 냉각 비용이 발생한다.
각 NV스위치 트레이는 개당 약 1020달러의 냉각 비용이 든다. 이를 합산하면 컴퓨트 트레이 총 4만680달러(18개), 스위치 트레이 총 9180달러(9개)로, 총 4만9860달러가 된다.
차기 '베라 루빈 NVL144'는 랙 구조는 동일하게 유지하면서 트레이마다 성능을 대폭 향상시킨다. 최대 1800W 수준의 고전력 베라 CPU와 루빈 GPU, 새로운 NV스위치 6.0 ASIC이 결합해 방출해야 할 열이 훨씬 많아진다.
트레이 수는 동일하지만, 더 정밀한 콜드 플레이트와 첨단 냉각 기술이 도입되면서 컴퓨트 트레이마다 냉각 비용은 약 18% 증가한 2660달러로 상승한다. 반면 스위치 트레이 냉각 비용은 개당 870달러로 소폭 감소할 수 있다. 이에 따라 컴퓨트 트레이 총 4만7880달러(18개), 스위치 트레이 총 7830달러(9개)로, 랙마다 총합은 5만5710달러에 이른다.
냉각, 부수 비용에서 핵심 자본 요소로
테크레이더는 펌핑 모듈, 냉각수 흐름(순환 루프), 설치 비용 등 부대 비용을 포함하면 실제 총 냉각 비용은 랙마다 5만7000달러를 초과할 수 있다고 지적했다. AI 서버 구축에서 냉각 시스템은 더 이상 부수적 비용이 아닌, 핵심 자본 구성 요소로 자리 잡은 셈이다.
엔비디아는 앞으로 '루빈 울트라 GPU'에서 4개의 컴퓨트 칩렛과 16개의 HBM4E 메모리 칩렛을 하나의 패키지로 통합하는 새 아키텍처를 채택, 열설계전력(TDP)을 최대 3600W까지 끌어올릴 계획이다. 일부 응용 분야에서는 완전히 새로운 콜드 플레이트 설계나 액침 냉각, 임베디드 냉각 솔루션이 필요할 수도 있다.
고성능 차세대 AI 칩 개발과 함께 냉각 비용이 급증하는 현실이 수치로 확인된 것이다. AI 서버와 데이터센터의 냉각 비용은 이제 단순한 기술 선택이 아닌 필수적인 요소로 자리 잡았다.
업계에서는 고성능 GPU와 서버의 전력과 열 부하 증가가 냉각 비용 상승의 주원인이라고 분석한다. 냉각 시스템 기술 개발과 비용 효율화가 미래 AI 하드웨어 경쟁의 핵심 과제로 떠오른 이유다.
박정한 글로벌이코노믹 기자 park@g-enews.com
































