닫기

글로벌이코노믹

“中 사투리·억양 완벽 포착”... 알리바바 AI 음성 모델, 美 오픈AI 제치고 세계 탑5 진입

글로벌이코노믹

“中 사투리·억양 완벽 포착”... 알리바바 AI 음성 모델, 美 오픈AI 제치고 세계 탑5 진입

인공분석 음성 아레나 리더보드 5위 안착... 중국산 시스템 중 유일
30개 이상 언어, 7대 중국 방언, 20개 이상 지역 사투리 전방위 지원
단어 오류율 1.8%로 세계 1위 석권... 금융·의료용 맞춤형 기업 인터페이스 공급
알리바바 로고는 2026년 4월 1일 베이징 사무실 밖에 사진으로 나와 있다. 사진=AFP/연합뉴스이미지 확대보기
알리바바 로고는 2026년 4월 1일 베이징 사무실 밖에 사진으로 나와 있다. 사진=AFP/연합뉴스
중국 빅테크의 한 축인 알리바바 그룹 홀딩이 서구 인공지능(AI) 선두 주자들의 전유물이었던 음성 합성 및 인식 시장에서 기술적 대전환을 이뤄냈다.

범용 챗봇을 넘어 실제 산업 현장에 내장할 수 있는 음성 AI 비서 개발 경쟁이 치열해지는 가운데, 알리바바가 복잡한 아시아권 방언과 지역 억양의 한계를 분쇄하며 글로벌 탑클래스 지위를 굳혔다.

30일(현지시각) 사우스차이나모닝포스트(SCMP) 보도와 글로벌 생성형 AI 업계에 따르면, 알리바바 통이 랩(Tongyi Lab)이 개발한 실시간 음성 생성 모델 ‘Fun-Realtime-TTS-Preview’가 주요 글로벌 벤치마크에서 미국 OpenAI와 xAI를 제치고 기술적 우위를 입증했다.

해당 모델은 AI 평가 기관인 ‘인공분석(Artificial Analysis)’이 운영하는 음성 아레나 리더보드(Speech Arena Leaderboard)에서 1,190점을 획득하며 전 세계 5위에 등극했다. 글로벌 상위 5위권에 진입한 중국산 음성 시스템은 알리바바가 유일하다.

정확도 30% 미만 사투리 장벽 분쇄... 단어 오류율 1.8%로 세계 1위


이번 돌파구는 그동안 아시아 음성 인공지능 기술의 고질적인 병목 현상으로 지적되던 지역별 사투리와 억양 문제를 완벽히 해결했다는 점에서 의미가 크다.

기존 표준 만다린어(보통화) 중심으로 훈련된 전통 음성 시스템은 억양이 강한 화자의 음성 인식 정확도가 60% 이하로 떨어졌고, 각 지역 방언에서는 30% 미만으로 추락해 상용화에 애를 먹어왔다.

알리바바는 이 간극을 메우기 위해 모델의 체급을 대대적으로 개조했다. 알리바바 클라우드 부문에 따르면, 새 음성 모델은 전 세계 30개 이상의 언어는 물론, 중국 내 7대 주요 방언과 20개 이상의 지역 사투리 및 억양을 매끄럽게 지원한다.

함께 공개된 음성 인식 모델 ‘Fun-Realtime-ASR’은 인공분석 단어 오류율(WER) 지수에서 단 1.8%의 오류율을 기록하며 세계 1위를 차지했다. 이는 AI가 100단어를 받아적을 때 틀리는 단어가 2단어 미만일 정도로 극도의 정밀함을 갖췄다는 방증이다.

“사용자 교육 필요 없다”... 가전·차량 보조장치 및 의료·금융 현장 투입

중국 AI 개발자들은 텍스트 기반 인터페이스보다 일반 사용자가 진입장벽 없이 직관적으로 채택할 수 있는 음성 AI로 급격히 가치사슬을 이동하고 있다. 스마트폰, 스마트 스피커, 차량 내 인포테인먼트 및 자율주행 보조장치 전반에서 인간과 컴퓨터의 상호작용을 극대화할 수 있기 때문이다.

알리바바는 실리주의적 상업화를 위해 금융과 의료 산업에 최적화된 기업용(B2B) 맞춤형 커스터마이징 인터페이스를 즉각 공급하기 시작했다.

가혹한 격무에 시달리는 의료 현장에서 의사가 구두로 남긴 음성 노트를 AI가 실시간으로 인식, 구조화된 임상 기록 대차대조표로 자동 변환하여 진료 효율성을 극대화한다.

별도의 사용자 교육 없이도 복잡한 사투리를 쓰는 현장 노동자나 고객의 음성을 오차 없이 포착해 비즈니스 데이터로 즉각 자산화할 수 있다.

자산운용사 테크 전문가는 “구글과 일레븐랩스(ElevenLabs)를 포함한 미국 기업들이 여전히 글로벌 상업용 음성 개발자 생태계를 장악하고 있는 것은 사실”이라고 짚으면서도 “그러나 텐센트와 바이트댄스 등이 저가 치킨게임을 벌이고 중국 공업정보화부가 자국 중심의 기술 표준 청사진을 펴는 격변기 속에서, 알리바바가 아시아권 언어의 독점적 데이터 장벽을 바탕으로 탑5 지위를 뺏어낸 것은 서방의 테크 디커플링 압박에 맞서 실제 비즈니스 현장에 스며들 수 있는 가장 무서운 실리주의적 안보 무기를 확보한 셈”이라고 평가했다.


신경원 글로벌이코노믹 기자 shincm@g-enews.com