"15초 샘플로 목소리 복제" 오픈AI '보이스 엔진' 공개

오픈AI가 실제 사람의 음성 샘플을 기반으로 모방 음성을 만들어내는 보이스 엔진 기술을 공개했다. 사진=오픈AI

오픈AI가 15초 길이의 음성 샘플 하나로 사람의 목소리를 그대로 모방한 샘플을 만들어 내는 인공지능(AI) 기술을 공개했다.

29일(현지시각) 오픈AI는 자사 블로그에 '합성(Synthetic) 음성의 도전과 기회 탐색'이라는 제목의 게시글을 올리고 AI 음성 도구 '보이스 엔진(Voice Engine)'을 공개했다. 실제 사람이 녹음한 15초 길이의 음성 샘플만 있으면 그를 흡사하게 모방해 다양한 음성 샘플을 만들어 내는 기술이다.

게시글에는 실제 사람의 목소리 샘플과 함께 보이스 엔진이 생성한 △생물학 △독서 △화학 △수학 △물리학과 관련된 오디오 샘플이 포함됐다. 실제 사람이라고 생각할 만큼 흡사한 목소리로, 기존의 AI 생성 음성의 단점으로 지적된 위화감을 거의 확인할 수 없었다.

오픈AI는 "보이스 엔진을 이용해 프랑스어 화자의 오디오 샘플로 영어 텍스트를 생성하면 원래의 프랑스어 억양까지 살린 음성이 생성되는 등 실제 원어민 억양을 그대로 유지할 수 있다"고 덧붙였다.

예시로 든 보이스 샘플에서 영어 화자의 목소리로 만들어진 일본어 샘플을 확인했을 때, 실제 화자의 목소리는 물론 영어를 모국어로 하는 원어민 특유의 억양까지 반영된 것이 확인됐다. 그저 목소리만 단순히 복사해서 만드는 게 아닌, 실제 화자가 일본어를 배워 말하는 듯한 샘플이 생성된 것이다.

보이스 엔진은 언어 관련 질환에 필요한 치료는 물론 교육, 광고 등 다목적으로 사용될 수 있다. 노먼 프린스 신경과학 연구소에서는 임상 실험에서 AI 활용을 모색 중이다. 종양 또는 신경학적 원인으로 언어 장애를 겪는 개인에게 보이스 엔진을 제공하는 프로그램을 시범적으로 운영 중이다. 오픈AI는 환자의 목소리가 담긴 비디오, 오디오 파일을 사용해 혈관성 뇌종양으로 인해 목소리를 잃은 환자의 목소리를 복원할 수 있었다고 설명했다.

하지만 AI 기술을 이용한 음성 생성 기술은 심각한 위험 부담을 안고 있다. 이미 미국에서는 바이든 대통령의 목소리를 흉내 낸 모방 음성이 전화의 자동 메시지를 통해 유권자들에게 투표하지 말 것을 권하는 사건이 큰 논란을 빚기도 했다.

오픈AI 역시 이러한 점을 언급하며, "보이스 엔진을 테스트 중인 파트너들은 동의나 법적 권리 없이 다른 개인이나 단체를 사칭하는 것을 금지하는 사용 정책에 동의했다"고 말했다.

이어 "정책에 따라 모방 샘플의 생성에 있어 모델이 되는 실제 화자의 명시적인 사전 동의가 필요하며 모방 음성이 인공지능으로 생성된 것을 명확하게 공개해야 한다"며 "이를 위해 보이스 엔진에서 생성된 모든 오디오의 출처 추적을 위한 워터마크 및 사전 모니터링 등을 포함한 일련의 보안 조치도 함께 구현했다"고 설명했다.

편슬기 글로벌이코노믹 기자 pyeonhaeyo@g-enews.com