“오픈AI·구글 꺾었다”... 알리바바 ‘Qwen3.7-Max’, 글로벌 코딩 AI 리더보드 4위 등극

미국 버클리大 등 주관 ‘Code Arena’서 1,541점 획득… 상위 5위 안의 유일한 비미국계 모델
앤트로픽 ‘클로드’ 진영과 최상위권 경쟁… 장시간 복잡한 업무 수행하는 ‘자율 에이전트’ 진화
국제 표준 언어 기반으로 글로벌 가치사슬 장벽 완화… 딥시크 등 中 AI 진영 코딩 전선 가세

중국의 빅테크 알리바바의 최신 인공지능(AI) 모델이 글로벌 핵심 코딩 벤치마크 시장에서 미국의 오픈AI와 구글을 전격 제치고 최상위권을 장악했다.

범용 대화형 챗봇의 한계를 넘어 실제 상업적 현금 흐름을 창출할 수 있는 차세대 소프트웨어 자율 에이전트 시장에서 중국 기술 공급망의 매서운 저력을 증명했다는 평이 나온다.

27일(현지시각) 사우스차이나모닝포스트(SCMP) 보도에 따르면, 알리바바 그룹 홀딩(Alibaba Group Holding)의 최신 AI 모델 ‘Qwen3.7-Max’는 전 세계에서 가장 권위 있는 AI 코딩 리더보드 중 하나인 ‘코드 아레나(Code Arena)’ 최신 순위에서 1,541점을 기록하며 당당히 전 세계 4위 왕좌를 차지했다.

이번 랭킹에서 상위 5위 안에 이름을 올린 개발사 중 미국 기업이 아닌 곳은 알리바바가 유일하다.

‘깜깜이 블록버스터’ 테스트서 오픈AI 추월… 앤트로픽 클로드와 정면 승부

이번에 알리바바가 굵직한 발자취를 남긴 ‘코드 아레나’는 미국 캘리포니아 대학교 버클리(UC 버클리) 연구진이 캘리포니아 대학교 샌디에이고(UCSD), 카네기 멜론 대학교(CMU)와 협력하여 설립한 권위 있는 연구 단체 ‘아레나(Arena)’가 직접 운영하고 감독한다.

기존의 HumanEval이나 SWE-bench 같은 정형화된 표준 테스트와 달리, 코드 아레나는 AI 모델이 사용자 프롬프트 지시어에 따라 독립적으로 완전하고 상호작용이 가능한 웹 애플리케이션을 바닥에서부터 얼마나 정밀하게 빌드해 내는지를 평가한다.

실제 개발자 유저들이 익명으로 처리된 모델별 결과물을 직접 블라인드로 비교 분석한 뒤 투표를 던지기 때문에, 엔지니어들의 실제 선호도 대차대조표와 실무 능력을 가장 가깝게 반영하는 지표로 정평이 나 있다.

이번 랭킹에서 알리바바의 Qwen3.7-Max는 오픈AI(OpenAI)와 구글(Google)의 핵심 경쟁 모델들을 아득히 밀어내며 기술적 충격을 안겼다.

현재 상위 5위권 중 알리바바의 자리를 제외한 나머지 네 자리는 또 다른 AI 거두 앤트로픽(Anthropic)의 다양한 ‘클로드(Claude)’ 모델들이 독식하고 있어, 사실상 ‘알리바바 대 앤트로픽’의 헤게모니 싸움으로 전선이 압축되는 양상이다.

“인간 감독 없는 35시간 연속 코딩”... 챗봇에서 자율 에이전트로 세대교체

글로벌 기술 가치사슬이 코딩 부문에 사활을 거는 이유는 지속적인 사용자 유입과 뚜렷한 유료 구독 이익률(비용 규율)이 증명된 유일한 비즈니스 모델이기 때문이다.

실제로 글로벌 개발자 커뮤니티 스택 오버플로우(Stack Overflow)의 최근 설문조사에 따르면, 전 세계 전문 개발자의 84%가 AI 도구 사용 체제를 장착했거나 계획 중이며, 51%는 매일 일상적으로 활용하고 있다.

알리바바가 항저우에서 개최된 클라우드 서밋에서 전격 출시한 Qwen3.7-Max는 인간의 개입을 최소화한 채 스스로 장기 워크플로우를 독자 제어하는 ‘자율 AI 에이전트’ 설계 공법을 채택했다.

알리바바가 공개한 세부 대차대조표에 따르면 이 모델은 인간의 감독이나 명령 없이도 최대 35시간 동안 연속으로 복잡한 개발 업무를 처리할 수 있다.

또한, 장기 레이스 중 소프트웨어 도구를 스스로 판단해 1,000회 이상 교차 활용하며 자체 코드를 작성하고 오류를 수정(디버깅)하는 괴력을 발휘한다.

중국 내 경쟁 팹리스 및 기술 기업들의 추격도 매섭다. 글로벌 시장을 뒤흔들었던 딥시크(DeepSeek) 역시 최근 코딩 에이전트 부문의 전문 제품 관리자(PM)와 소프트웨어 엔지니어를 대거 확충하며 전면전에 나섰다.

첸 델리 딥시크 수석 연구원은 “새로운 칩 아키텍처 및 자율 에이전트 전환에 필수적인 소프트웨어 인프라인 코딩 ‘하네스’를 개발해 미국의 클로드 코드와 정면 벤치마킹 대결을 벌일 것”이라고 배수진을 쳤다.

문화 장벽 깬 프로그래밍 언어… “결국 개발자 일상 스며드는 자가 승리”

소프트웨어 개발 영역은 일반적인 소비자 대상 인터넷 서비스나 생성형 언어 모델과 달리, 전 세계적으로 통용되는 ‘표준화된 프로그래밍 언어(C++, Python 등)’에만 의존한다.

따라서 문화적 맥락이나 국가별 규제 제약이 적어 중국 기술 진영이 서방의 디커플링(공급망 차단) 장벽을 우회해 글로벌 시장 가치사슬을 장악하기에 가장 유리한 영토다.

물론 실무 생태계에서는 여전히 커서(Cursor), 깃허브 코파일럿(GitHub Copilot), 클로드 코드 등 미국의 기성 플랫폼들이 글로벌 워크플로우를 굳건히 지배하고 있다.

자산운용사 테크 전문가는 사티아 나델라 마이크로소프트 최고경영자(CEO)와 다리오 아모데이 앤트로픽 CEO 등의 발언을 인용하며 “최종 글로벌 AI 패권의 승부처는 리더보드의 일회성 점수 경쟁이 아니다”라며 “어떤 완성도 높은 모델이 전 세계 개발자들의 지배적인 일상 인프라로 스며들어 대차대조표상 대체 불가능한 뼈대가 되느냐의 싸움이며, 알리바바의 이번 4위 진입은 중국산 AI 스택이 서방 엔지니어들의 기본 도구로 침투할 수 있는 강력한 명분을 획득한 셈”이라고 분석했다.

신경원 글로벌이코노믹 기자 shincm@g-enews.com