닫기

글로벌이코노믹

"싼 GPU의 저주"… AI 전쟁 승패, '시간당 요금'이 아닌 '굿풋'이 가른다

글로벌이코노믹

"싼 GPU의 저주"… AI 전쟁 승패, '시간당 요금'이 아닌 '굿풋'이 가른다

韓, 블랙웰 26만 장·HBM 586조 시대… 이제 '운영 소프트웨어'가 완성의 마지막 퍼즐
'최고급 엔진' 만드는 韓 반도체, 이 엔진 100% 뽑아낼 '운영 기사'가 필요하다
세미애널리시스 'ClusterMAX 2.0'이 던진 제언… AI 인프라 다음 단계는 '굿풋 경쟁'
현대 인공지능(AI) 스타트업들이 조달 자금의 80% 이상을 그래픽처리장치(GPU) 임대에 쏟아붓는 '머니 게임'이 극한으로 치닫고 있다. 엔비디아가 2030년까지 한국에 공급하기로 약속한 블랙웰 GPU만 26만 장. 여기에 정부가 1조 4600억 원을 투입한 1만 3000장짜리 국가 GPU 사업까지 더해지며 한반도는 순식간에 세계 최대급 'AI 연산 격전지'로 떠올랐다. 이미지=제미나이3이미지 확대보기
현대 인공지능(AI) 스타트업들이 조달 자금의 80% 이상을 그래픽처리장치(GPU) 임대에 쏟아붓는 '머니 게임'이 극한으로 치닫고 있다. 엔비디아가 2030년까지 한국에 공급하기로 약속한 블랙웰 GPU만 26만 장. 여기에 정부가 1조 4600억 원을 투입한 1만 3000장짜리 국가 GPU 사업까지 더해지며 한반도는 순식간에 세계 최대급 'AI 연산 격전지'로 떠올랐다. 이미지=제미나이3
"블랙웰(Blackwell) GPU 한 대가 중형차보다 비싸고, 단일 주택보다 많은 전력을 쓴다."

현대 인공지능(AI) 스타트업들이 조달 자금의 80% 이상을 그래픽처리장치(GPU) 임대에 쏟아붓는 '머니 게임'이 극한으로 치닫고 있다. 엔비디아가 2030년까지 한국에 공급하기로 약속한 블랙웰 GPU26만 장. 여기에 정부가 14000억 대, 1만 이상 규모의 국가 GPU 사업이 이미 가동됐고, 20264월 현재 약 2조 원 규모의 추가 확보 사업까지 추진되면서 한반도는 순식간에 세계 최대급 'AI 연산 격전지'로 떠올랐다.

하드웨어 인프라는 글로벌 수준에 도달했다. 남은 과제는 '얼마나 유용한 결과물'을 뽑아낼지다. 미국 IT 시장조사업체 세미애널리시스(SemiAnalysis)가 내놓은 'ClusterMAX 2.0' 2.1 업데이트 보고서는 바로 이 지점을 정조준한다. GPU 시간당 임대료가 똑같아도 제공업체별 실제 총소유비용(TCO)5~15% 차이가 나며, 단순 가격표만 보고 '저렴한 클러스터'를 택하면 생산성 저하와 장애 대응 비용이라는 보이지 않는 청구서가 뒤늦게 날아든다는 경고다. 글로벌 업계는 이미 '운영 소프트웨어 전쟁' 국면에 진입했고, 한국도 그 기준에 맞춘 소프트웨어 스택 역량을 내재화할 시점이라는 얘기다.

GPU 클러스터 TCO 구성 요소 요약. 도표=글로벌이코노믹이미지 확대보기
GPU 클러스터 TCO 구성 요소 요약. 도표=글로벌이코노믹

시간당 요금은 빙산의 일각… '7가지 숨겨진 비용'의 실체


기업들은 AI 특화 클라우드(네오클라우드·Neocloud) 업체를 평가할 때 통상 '시간당 GPU 가격'이라는 표면가에만 매몰된다. 세미애널리시스는 이를 전형적인 착시라고 지적하며 GPU 클라우드 비용을 7가지 범주로 재정의했다. GPU 임대료 ▲스토리지 ▲네트워킹 ▲제어 평면(Control Plane) ▲지원 서비스 ▲굿풋(Goodput) 손실 ▲설치 및 디버깅 비용이 그것이다.

많은 기업이 1번 항목인 'GPU 임대료'에만 집중하지만, 실질 수익성 차이는 보이지 않는 비용에서 발생한다. 특히 '설치 및 디버깅 비용''굿풋 손실'은 회계 장부에는 찍히지 않으면서 엔지니어의 피를 말리는 주범이다.

굿풋(Goodput)이란 단순히 클러스터가 돌아가는 '처리량(Throughput)'이 아니라, 실제로 유용한 작업을 마친 결과물을 뜻한다. GPU가 버스(Bus)에서 이탈하거나, 체크포인트 저장 중 오류가 발생하면 그때까지의 훈련 처리량은 전부 '나쁜 데이터'로 전락한다. 4096GPU 클러스터에서 하드웨어 장애로 작업이 중단되면 초기화에만 10~15분이 소요된다. 고장 간격(MTBF)이 짧고 복구 시간이 긴 업체를 택하면, 훈련 시간의 상당 부분이 장애 대응과 재시작 대기로 허비된다.

'플래티넘 독점' 코어위브, 글로벌은 이미 '운영 소프트웨어 전쟁'


세미애널리시스는 공급자를 플래티넘(Platinum)·골드(Gold)·실버(Silver)·브론즈(Bronze)·언더퍼폼(UnderPerform) 5단계로 나눈다. 2025116일 공개된 ClusterMAX 2.0에서 '플래티넘' 등급을 받은 유일한 업체는 미국의 코어위브(CoreWeave). 2년 연속 단독 1위다. 골드 티어에는 크루소(Crusoe)·네비우스(Nebius)·오라클·애저·투게더AI 등이, 실버 티어에는 AWS·람다(Lambda)·스케일웨이 등이 포진했다. AWS조차 실버에 머물렀다는 사실은 이 평가 기준이 얼마나 까다로운지를 보여준다.
주목할 대목은 '티어별 TCO 역전 현상'이다. 세미애널리시스는 "GPU 가격을 동일하게 놓고 비교했을 때, 대규모 학습 워크로드에서 골드 티어의 TCO가 실버 티어보다 5~15% 낮다"고 못박았다. 실버 티어는 공격적 할인으로 고객을 유혹하지만, 실제로는 잦은 장애와 하드웨어 튜닝 부족이 사용자에게 '엔지니어링 세금'으로 전가된다는 것이다.

골드 티어의 프리미엄은 사실상 '신뢰성 보험료'. 철저한 하드웨어 점검 자동화, 핫스페어(Hot-spare) 노드 운영, NCCL(NVIDIA Collective Communications Library)·EFA(Elastic Fabric Adapter) 네트워크 파라미터 최적화 덕분에 고객사 엔지니어가 튜닝에 시간을 허비할 필요가 없다. 반면 실버 티어의 '저렴한 시간당 가격'은 덫이 될 수 있다. 네트워크 장애 디버깅에 고임금 개발자들이 매달 수십 시간을 태우고, 가동 중단으로 훈련 시간까지 낭비되면 결국 실버가 골드보다 훨씬 비싼 청구서를 만든다.

'글로벌 스탠더드 문턱' 앞에 선 K-클라우드… 하드웨어는 채웠다, 다음은 소프트웨어


국내 상황도 숨가쁘게 돌아가고 있다. 과학기술정보통신부는 지난해 714600억 원 규모의 'GPU 확보·운용 지원사업' 최종 사업자로 네이버클라우드·NHN클라우드·카카오 3사를 선정했다. NHN클라우드는 엔비디아 B200 7656장을 서울 양평 리전에 구축하며 4000장 이상을 단일 클러스터로 묶었고, 수냉식 냉각 시스템도 도입했다. 네이버는 '각 세종' 데이터센터에 270MW 전력·랙당 30kW·800G 네트워크 대역폭을 투입해 LEED 플래티넘 인증까지 받았다. 20264월 현재 약 2조 원 안팎의 추가 확보 사업이 논의·추진 중이며, 삼성SDS·KT클라우드·에리스그룹·쿠팡 등이 경쟁에 뛰어들었다.

물리적 인프라 측면에서 한국은 이미 글로벌 최상위권에 올라서 있다. 정부의 대규모 투자와 민간 3사의 실행력이 맞물려 '국가 AI 고속도로'의 기초 공사는 성공적으로 마무리되고 있다는 평가다. 다만 세미애널리시스가 ClusterMAX 2.0에서 글로벌 209GPU 클라우드 가운데 84개만을 평가 대상으로 삼았는데, 이 명단에 국내 'K-클라우드 빅4'(네이버클라우드·KT클라우드·NHN클라우드·삼성SDS)의 이름이 아직 본격적으로 오르지 못한 점은 향후 과제다. 일본의 GMO인터넷이 실버 등급을 받아 "PyTorch 라이브러리 시작 시간 약 1"라는 기술 지표를 앞세우며 국제무대에 이름을 올린 것은 국내 업계에도 유의미한 참고점이다.

ClusterMAX가 요구하는 다음 단계는 '철근 콘크리트'가 아니다. InfiniBand·RoCE 전용 펜테스팅(Pentesting) VPC 격리 ▲액티브·패시브 헬스체크 자동화 ▲Slurm on Kubernetes(SUNK) 같은 오케스트레이션 ▲WEKA·VAST Data 급의 병렬 파일 시스템 ▲내결함성(Fault Tolerance) 프레임워크 TorchFT 지원 등 '운영 소프트웨어 스택'의 총체적 완성도다. 글로벌 시장이 이 영역으로 경쟁의 축을 옮긴 만큼, 한국 CSP들도 하드웨어 확충 성공 경험을 바탕으로 소프트웨어 스택 내재화라는 다음 관문을 준비해야 할 시점이다.

업계 한 관계자는 "국내에서는 GPU 확보 자체가 구조적으로 제한적이어서 CSP들이 물량 확보와 버티컬 모델 전략에 먼저 집중할 수밖에 없었다"면서 "지금까지 쌓아올린 하드웨어 자산 위에 ClusterMAX 같은 제3자 운영 품질 기준을 충족하는 소프트웨어 역량이 얹혀야, AI 반도체 강국이라는 완결된 그림이 만들어질 것"이라고 말했다.

최고급 엔진과 운영 기사… 韓 반도체와 AI 서비스의 '짝 맞추기'


이 보고서가 한국 반도체 생태계에 주는 함의는 복합적이다. 표면적으로는 '호재' 일색이다. SK하이닉스는 2025년 한 해 매출 971000억 원, 영업이익 472000억 원을 기록하며 창사 이래 최대 실적을 달성했다. 제조업의 한계를 넘어 소프트웨어 기업급 수익성이다. UBS 최신 보고서는 엔비디아 차세대 '루빈(Rubin)' 플랫폼용 HBM4 시장 점유율을 SK하이닉스 60%, 삼성전자 30%, 마이크론 10% 구도로 제시했다. 삼성전자의 파운드리 협력을 통한 HBM4 추격 속도를 반영한 수치다.

업계의 추정치 및 요구 물량에 따르면, 엔비디아가 한국에 공급하기로 한 26만 장의 블랙웰 GPU(정부 5·삼성 5·SK 5·현대차 5·네이버 6)에 탑재될 HBM3E 12단만 약 208만 개에 달한다. KB증권(김동원 리서치센터장)2026년 삼성전자와 SK하이닉스 합산 영업이익이 전년 대비 546% 폭증한 586조 원에 달할 것으로 내다봤다. HBM4 수율 안정화까지 겹치면 메모리 빅2'초호황 사이클'2027년 말까지 이어질 공산이 크다.

문제는 반도체 빅2의 성과와 국내 클라우드 CSP의 운영 역량은 별개의 트랙이라는 점이다. 자동차에 비유하면 이해가 쉽다. 삼성전자와 SK하이닉스는 세계에서 가장 정밀한 엔진(HBM)을 만드는 데 성공했다. 하지만, 성능 좋은 하드웨어(GPU)가 있다고 해서, 반드시 최고의 결과물(AI 모델)이 나오는 것은 아니다. '최적의 세팅을 잡는 운영 기사', 즉 클라우드 소프트웨어 스택과 운영팀이 필요하다. 지금 한국은 세계 최고의 엔진 공장을 갖췄지만, 그 엔진을 100% 뽑아낼 운영 기사는 해외 네오클라우드가 먼저 길러내고 있는 셈이다.

실제로 세미애널리시스가 별도로 발표한 보고서에 따르면 H100 1년 계약 임대가는 지난해 10월 시간당 1.70달러에서 올해 32.35달러로 6개월 만에 40% 급등했다. 신규 배포 예정 물량은 이미 완판됐고, 일부 운영사는 2028년까지 4년 재계약까지 체결했다. GPU 공급 타이트가 HBM 공급 타이트로 이어지는 구조는 메모리 빅2에게 단기 호재임이 분명하다. 다만 이 호황의 수혜를 단순 메모리 수출을 넘어 '국내 AI 서비스 부가가치'로 확장하려면, 운영 품질 검증을 동반한 국산 AI 인프라 고도화가 필수라는 점도 분명해진다.

해외 '보안 설정 결함' 사례의 반면교사… 초기 단계부터 검증 내재화


세미애널리시스가 구체적으로 지목한 사례 중에는 베트남 FPT 스마트 클라우드나 영국계 Ori 등 일부 해외 업체에서 발견된 보안 설정 결함 문제가 있다. 글로벌 시장에서도 성장 과정에서 이런 초기 설정 실수가 비일비재하다는 사실은 한국 업계에도 중요한 반면교사다. 국내 업계가 하드웨어 확충 속도를 소프트웨어 검증 속도가 뒷받침하지 못할 경우 유사한 리스크에 노출될 수 있는 만큼, 초기 구축 단계부터 NCCL·HPC-X 튜닝, InfiniBand 펜테스팅, 원격직접메모리접근(RDMA) 이중화 등 보안 설정과 오케스트레이션 검증을 최우선 순위에 놓는 프로세스를 제도화할 필요가 있다.

네이버가 최근 자회사 네이버클라우드로부터 9190억 원 상당 GPU·IT인프라 자산을 직접 인수하기로 한 결정의 배경에도 이런 고민이 작용한다. '운영 기술 내재화' 없이는 AI 학습·추론 효율이 구조적 병목에 걸린다는 판단이다. 카카오엔터프라이즈가 '하이브리드 GPUaaS' 모델로 고객이 GPU를 자산으로 직접 소유하게 하는 것도 굿풋 리스크를 고객과 분담하려는 포석으로 읽힌다. 국내 CSP 진영이 이미 운영 역량 강화로 방향타를 돌리기 시작했다는 신호다.

CTO·CFO를 위한 'TCO 체크리스트 3가지'


세미애널리시스가 제시한 경영진용 체크리스트는 간명하다.

첫째, 실질 복구 시간(MTTR)이다. 장애 발생 시 핫스페어 노드로 즉시 전환 가능한지, 수동 복구를 몇 시간이나 기다려야 하는지를 계약 전 반드시 확인해야 한다.

둘째, 엔지니어링 디버깅 비용이다. NCCL·EFA 등 네트워크 파라미터 튜닝을 위해 자사 팀이 매달 투입해야 할 인건비를 TCO에 명시적으로 반영해야 한다.

셋째, 굿풋 기반 TCO. 시간당 1달러를 지불할 때 실제 유용한 작업을 완료하는 비율, '달러당 토큰'을 정량 지표로 관리해야 한다.

진정한 TCO 계산은 '가격표'가 아니라 '가동률의 실체'를 꿰뚫어 보는 데서 시작된다. 한국이 2026'메모리 슈퍼사이클 586조 잭팟'을 넘어 'AI 인프라 강국'이라는 다음 고지까지 올라서려면, HBMGPU라는 엔진을 쌓아 올리는 속도만큼 '그 엔진에서 굿풋을 뽑아내는 운영 소프트웨어'에도 균형 잡힌 투자가 필요하다. 하드웨어 확충이라는 1단계 미션을 성공적으로 완수한 지금, 소프트웨어 스택 내재화라는 2단계 미션을 민·관이 함께 준비해야 할 시점이다.

"GPU는 없다. 그저 엔지니어의 야근으로 청구서가 뒤로 밀릴 뿐이다." 세미애널리시스가 던진 이 한 문장이, 블랙웰 26만 장과 HBM 586조 잭팟을 앞둔 한국 AI 생태계가 다음 단계 완성도를 위해 새겨야 할 교훈이다.


김주원 글로벌이코노믹 기자 park@g-enews.com