29일(현지시각) 오픈AI는 자사 블로그에 '합성(Synthetic) 음성의 도전과 기회 탐색'이라는 제목의 게시글을 올리고 AI 음성 도구 '보이스 엔진(Voice Engine)'을 공개했다. 실제 사람이 녹음한 15초 길이의 음성 샘플만 있으면 그를 흡사하게 모방해 다양한 음성 샘플을 만들어 내는 기술이다.
오픈AI는 "보이스 엔진을 이용해 프랑스어 화자의 오디오 샘플로 영어 텍스트를 생성하면 원래의 프랑스어 억양까지 살린 음성이 생성되는 등 실제 원어민 억양을 그대로 유지할 수 있다"고 덧붙였다.
예시로 든 보이스 샘플에서 영어 화자의 목소리로 만들어진 일본어 샘플을 확인했을 때, 실제 화자의 목소리는 물론 영어를 모국어로 하는 원어민 특유의 억양까지 반영된 것이 확인됐다. 그저 목소리만 단순히 복사해서 만드는 게 아닌, 실제 화자가 일본어를 배워 말하는 듯한 샘플이 생성된 것이다.
보이스 엔진은 언어 관련 질환에 필요한 치료는 물론 교육, 광고 등 다목적으로 사용될 수 있다. 노먼 프린스 신경과학 연구소에서는 임상 실험에서 AI 활용을 모색 중이다. 종양 또는 신경학적 원인으로 언어 장애를 겪는 개인에게 보이스 엔진을 제공하는 프로그램을 시범적으로 운영 중이다. 오픈AI는 환자의 목소리가 담긴 비디오, 오디오 파일을 사용해 혈관성 뇌종양으로 인해 목소리를 잃은 환자의 목소리를 복원할 수 있었다고 설명했다.
하지만 AI 기술을 이용한 음성 생성 기술은 심각한 위험 부담을 안고 있다. 이미 미국에서는 바이든 대통령의 목소리를 흉내 낸 모방 음성이 전화의 자동 메시지를 통해 유권자들에게 투표하지 말 것을 권하는 사건이 큰 논란을 빚기도 했다.
오픈AI 역시 이러한 점을 언급하며, "보이스 엔진을 테스트 중인 파트너들은 동의나 법적 권리 없이 다른 개인이나 단체를 사칭하는 것을 금지하는 사용 정책에 동의했다"고 말했다.
편슬기 글로벌이코노믹 기자 pyeonhaeyo@g-enews.com