닫기

글로벌이코노믹

메타, 생성형 음성 AI '보이스박스' 공개

글로벌이코노믹

메타, 생성형 음성 AI '보이스박스' 공개

6개 언어로 다중 음성 합성 작업 가능
메타플랫폼이 새로운 생성형 음성 AI '보이스박스'를 공개했다. 사진=로이터이미지 확대보기
메타플랫폼이 새로운 생성형 음성 AI '보이스박스'를 공개했다. 사진=로이터
페이스북과 인스타그램 등을 보유하고 있는 메타플랫폼(이하 메타)이 음성 생성 인공지능(AI) 보이스박스(VoiceBox)를 공개했다.

지난 16일(현지시간) 메타는 다중 음성 합성 작업을 위한 최초의 음성 생성 AI모델인 보이스박스를 공식 발표했다. 메타에 따르면, 보이스박스는 기존 음성 모델들과 달리 편집과 노이즈 제거, 스타일 전송 등을 포함해 아직 훈련되지 않은 많은 작업을 수행할 수 있다. 보이스박스는 메타가 고안한 특별한 방법으로 학습되었으며 악용 우려로 메타는 보이스박스를 출시하지 않았지만 다양한 분야에 쓰일 수 있기 때문에 그 효용 가치가 주목받고 있다.

보이스박스가 지원하는 언어는 △영어 △프랑스어 △스페인어 △독일어 △폴란드어 △포르투갈어 등의 6개의 언어다. 보이스박스는 이 언어들을 합성할 수 있고 음성오디오 샘플을 매핑하는 패턴을 학습하도록 플로우 매칭(Flow Matching) 방법으로 훈련됐다. 수동으로 레이블을 지정할 필요 없이 연구자들은 50,000시간 분량의 음성과 오디오북의 대본으로 보이스박스를 훈련시킴으로써 미세 조종 없이 다양한 작업에 적용이 가능한 것으로 알려졌다.

보이스박스는 다양한 방식의 스타일 전송도 지원한다. 두 개의 오디오 샘플에 대해 첫 번째 오디오 샘플을 기준으로 두 번째 오디오 샘플의 음성과 톤을 수정할 수 있다. 뿐만 아니라 다양한 편집작업도 수행할 수 있다. 이러한 특성을 바탕으로 실제 음성으로 훈련된 모델과 거의 동일한 성능을 발휘한다.
메타는 많은 장점에도 불구하고 사이버 범죄 등에 보이스박스가 악용될 수 있기 때문에 출시하지 않았다면서 기술문서에서 아키텍처와 교육 프로세스에 대한 기술 세부 정보만 공개했다.


장용석 글로벌이코노믹 기자 jangys@g-enews.com