닫기

글로벌이코노믹

[심층분석] AI 팩토리 네트워크 전쟁, 엔비디아·화웨이·오픈 연합 3파전

글로벌이코노믹

[심층분석] AI 팩토리 네트워크 전쟁, 엔비디아·화웨이·오픈 연합 3파전

402억 달러 고속 상호연결 시장 주도권 경쟁
인공지능(AI) 급성장과 엑사스케일급 슈퍼컴퓨터 개발 경쟁이 엔비디아의 인피니밴드, 화웨이의 유니파이드버스, 오픈 이더넷 연합의 울트라 이더넷 트랜스포트라는 세 가지 네트워크 패브릭 기술을 둘러싼 글로벌 주도권 다툼으로 번지고 있다. 이미지=GPT4o이미지 확대보기
인공지능(AI) 급성장과 엑사스케일급 슈퍼컴퓨터 개발 경쟁이 엔비디아의 인피니밴드, 화웨이의 유니파이드버스, 오픈 이더넷 연합의 울트라 이더넷 트랜스포트라는 세 가지 네트워크 패브릭 기술을 둘러싼 글로벌 주도권 다툼으로 번지고 있다. 이미지=GPT4o
인공지능(AI) 급성장과 엑사스케일급 슈퍼컴퓨터 개발 경쟁이 엔비디아의 인피니밴드, 화웨이의 유니파이드버스, 오픈 이더넷 연합의 울트라 이더넷 트랜스포트라는 세 가지 네트워크 패브릭 기술을 둘러싼 글로벌 주도권 경쟁으로 번지고 있다고 최근 EE 타임스가 보도했다.

네트워크 패브릭은 수천~수만 개 노드를 연결해 대용량 데이터를 고속·안정적으로 전송하도록 설계된 통합 통신 구조로, 슈퍼컴·AI 팩토리 성능을 좌우하는 핵심 요소로 부상하고 있다.

통신 백본, 슈퍼컴 중앙 신경계로 부상


칸타브리아 대학교 교수이자 바르셀로나 슈퍼컴퓨팅 센터 연구원인 라몬 베이비데(Ramon Beivide)상호 연결 네트워크가 고성능 컴퓨팅 시스템 핵심 요소다. 대용량 AI 작업을 처리하려면 CPU 성능이 아니라 네트워크를 통한 데이터 전송 속도와 안정성이 중요하다고 말했다. 이전에는 프로세서가 성능 병목이었지만 이제는 통신 백본이 핵심 병목으로 떠올랐다.

AI 모델 훈련과 대규모 시뮬레이션을 위해 수천~수만 개 노드를 잇는 슈퍼컴퓨터와 AI 팩토리에서는 데이터 이동 능력이 성능 향상의 분수령이 되면서 네트워크 기술이 중앙 신경계 역할을 맡고 있다.

엔비디아 인피니밴드와 개방형 이더넷 대립


고속 상호연결 시장은 2024년 기준으로 최대 402억 달러(56조 원가량) 규모에 달하며 AI와 머신러닝 기반 시설 구축에 힘입어 가파르게 성장했다.

첫째, 엔비디아 통합 솔루션이다. 엔비디아는 2020년 멜라녹스(Mellanox)70억 달러(97600억 원가량)에 인수해 GPU와 인피니밴드(InfiniBand)를 결합했다. 인피니밴드는 원격 직접 메모리 접근(RDMA)을 네이티브로 지원해 수십만 개 GPU 분산 학습 지연을 크게 줄인다. 엔비디아는 네트워크 단계에서 집계·감소 연산을 처리하는 SHARP 프로토콜을 적용해 GPU 유휴 시간을 최소화한다고 설명했다.

둘째, 개방형 이더넷 연합이다. 이더넷은 사무실이나 가정에서 쓰는 컴퓨터 네트워크 규격으로, 데이터 전송용 표준 케이블과 통신 방식을 뜻한다. AMD·브로드컴·시스코·HPE·인텔·메타·마이크로소프트 등 주요 기업은 2023년 울트라 이더넷 컨소시엄(UEC)을 결성했다. 이들은 기존 RoCE(RDMA over Converged Ethernet)를 발전시킨 울트라 이더넷 트랜스포트(UET) 프로토콜로 이더넷에서도 RDMA 성능을 구현하려 한다. 업계 관계자는 이더넷은 보급률과 비용에서 우위가 있어 다양한 환경에 알맞다고 말했다.

엑스AI의 세계 최대 AI 슈퍼컴퓨터 콜로서스(Colossus)는 엔비디아 스펙트럼-X 기반 이더넷 네트워크를 사용해 10만 개 GPU를 연결했다. 표준 이더넷은 데이터 처리량이 60%로 떨어지고 수천 건의 플로우 충돌이 발생하지만, 스펙트럼-X95% 처리량을 달성하고 패킷 손실이 전혀 없었다.

화웨이 UnifiedBusCPO 기술 경쟁


중국 화웨이는 상하이 화웨이 커넥트 2025에서 차세대 어센드 AI 칩과 함께 유니파이드버스(UB) 인터커넥트 프로토콜을 공개했다. 화웨이 순환 회장 에릭 쉬(Eric Xu)지속 가능한 컴퓨팅 파워가 AI 발전 바탕이라며 아틀라스 950 슈퍼클러스터는 52만 개 NPU를 통합해 세계 최강 컴퓨팅 집단이 될 것이라고 말했다.

유니파이드버스 2.0은 약 2.1마이크로초 초저지연, 연결 안정성이 100배 향상됐으며 최대 200미터 거리까지 통신을 지원한다. 화웨이는 이 프로토콜을 외부 파트너에 공개해 업계 전반 협력과 생태계 확장에 나설 계획이다.

한편 코팩키지드 옵틱스(CPO) 기술이 차세대 네트워크 핵심으로 떠올랐다. 브로드컴은 202451.2TCPO를 상용화하며 차세대 AI 네트워크 필수 기술이라고 평가했다. 엔비디아도 2025년 퀀텀-X와 스펙트럼-XCPO를 도입해 전력 소모를 3.5배 줄인다고 밝혔다.

현재 승자는 결정되지 않았다. 네트워크 구성과 패킷 라우팅, 전력 소모 한계 극복이 남은 과제다. 라몬 베이비데 교수는 홉 수(데이터가 출발지에서 목적지까지 중간 장비를 거치는 횟수)를 줄여 지연을 낮추고 복수 경로를 활용해 처리량을 늘려야 한다고 말했다. AI 팩토리 네트워크 전쟁은 프로세서 경쟁을 넘어 네트워크 주도권 확보로 확산됐으며, 엑사스케일·지능형 컴퓨팅 시대를 이끌 해법은 고성능·저지연·저전력 네트워크 솔루션이 될 것이다.


박정한 글로벌이코노믹 기자 park@g-enews.com