퀄컴, 랙-스케일 데이터센터 추론 성능 재정의하는 AI 200·AI250 공개

업계 최고 수준 TCO로 랙-스케일 성능과 메모리 제공
소프트웨어 스택과 주요 AI 프레임워크와 완벽한 호환
매년 정기적 업그레이드로 다세대 데이터센터 AI 추론

퀄컴은 AI200과 AI250을 공개했다. 퀄컴 AI200과 AI250 모습. 사진=퀄컴

퀄컴 테크날러지스(이하 퀄컴)는 데이터센터용 차세대 인공지능(AI) 추론 최적화 솔루션인 퀄컴 AI200과 퀄컴 AI250 칩 기반 가속 카드와 랙을 공개했다. 이를 활용하면 생성형 AI추론을 신속하게 처리할 수 있다고 설명했다.

퀄컴의 NPU 기술 리더십을 기반으로 개발된 이번 솔루션은 랙 스케일 성능과 우수한 메모리 용량을 제공해 와트당 비용 대비 성능 측면에서 뛰어난 생성형 AI의 추론을 가능하다. 퀄컴AI200은 대규모 언어모델(LLM)과 멀티모달 모델(LMM) 추론을 비롯한 다양한 AI 워크로드를 위해 총소유비용(TCO)을 최소화하고 성능을 최적화하도록 설계된 랙 수준 AI 추론 전용 솔루션이다. AI200은 카드당 768GB 저전력 더블 데이트 레이트(LPDDR) 메모리를 지원해 더 높은 메모리 용량과 비용 효율성을 동시에 실현하며 대규모 추론 환경에서 탁월한 확장성과 유연성을 제공한다.

퀄컴AI250은 근접 메모리 컴퓨팅 기반의 혁신적인 메모리 아키텍처를 새롭게 도입해 메모리 대역폭을 10배 이상 향상시키고 전력 소모를 획기적으로 절감해 AI 추론 워크로드의 효율성과 성능을 세대를 뛰어넘는 수준으로 끌어올렸다. 이 솔루션은 하드웨어 자원을 보다 효율적으로 활용할 수 있는 분리형 방식의 추론 구조를 지원해 고객의 성능 및 비용 요구사항을 동시에 충족시킨다. 두 솔루션 모두 열 효율성을 위한 직접 액체 냉각 방식과 확장성을 위한 PCle 및 이더넷을 지원한다. 또 보안이 강화된 AI 워크로드 처리를 위한 기밀 컴퓨팅을 탑재했으며 랙 단위 전력 소비는 160㎾ 수준이다.

두르가 말라디 퀄컴 테크날러지스 수석 부사장 겸 기술 기획 및 엣지 솔루션 및 데이터 센터 본부장은 "퀄컴 AI200 과 AI250 으로 우리는 랙 스케일 AI 추론의 가능성을 새롭게 정의하고 이번 혁신적인 AI 인프라 솔루션은 뛰어난 총소유비용(TCO)으로 생성형 AI를배포할 수 있도록 지원해 데이터센터가 필요로 하는 유연성과 보안성을 동시에 보장한다"며 "퀄컴의 풍부한 소프트웨어 스택과 개방형 생태계 지원을 통해 개발자와 기업은 이미 학습된 AI 모델을 당사의 최적화된 AI 추론 솔루션을 통해 손쉽게 통합·관리·확장 가능하고 주요 AI 프레임워크와의 완벽한 호환성, 원클릭 모델 배포 기능을 통해 두 제품은 손쉬운 도입과 빠른 혁신을 위한 완벽한 기반을 제공한다"고 말했다.

퀄컴의 하이퍼스케일러급 AI 소프트웨어 스택은 애플리케이션 계층부터 시스템 소프트웨어 계층까지 엔드 투 엔드로 구성됐으며 AI 추론에 최적화됐다. 이 스택은 주요 머신러닝(ML) 프레임워크과 추론 엔진, 생성형 AI 프레임워크뿐만 아니라 분리형 방식과 같은 LLM·LMM 추론 최적화 기술을 폭넓게 지원한다. 개발자는 퀄컴의 이피션트 트랜스포머 라이브러리와 퀄컴AI 인퍼런스 스위트를 통해 허깅 페이스 모델을 원클릭으로 배포하고 손쉬운 모델 온보딩을 경험할 수 있다.

아울러 퀄컴의 소프트웨어는 AI를 실제 업무에 적용할 수 있도록 즉시 활용 가능한 AI 애플리케이션과 에이전트, 포괄적인 툴, 라이브러리, API 및 서비스를 제공한다. 퀄컴AI200과 AI250은 각각 내년과 오는 2027년 상용 출시될 예정이다. 향후 매년 주기적으로 업데이트되는 데이터센터 로드맵을 통해 업계 최고 수준의 AI 추론 성능과 에너지 효율성 그리고 탁월한 총소유비용 (TCO)을 실현하는데 집중하고 있다. 자세한 내용은 퀄컴 공식 웹사이트에서 확인할 수 있다.

이재현 글로벌이코노믹 기자 kiscezyr@g-enews.com