Microsoft cria IA capaz de gerar áudio com 3 segundos da sua voz; ouça

Sua voz pode gerar outros áudios - Getty Images/iStockphoto — Sua voz pode gerar outros áudios Imagem: Getty Images/iStockphoto

Abinoan Santiago

Colaboração para Tilt, em Florianópolis

10/01/2023 13h51Atualizada em 10/01/2023 18h39

Qualquer voz humana poderá ser imitada com apenas três segundos de áudio, segundo um novo modelo de IA (Inteligência Artificial) apresentado pela Microsoft. Chamado de VALL-E, o mecanismo criado pela big tech é capaz de sintetizar o áudio de uma pessoa e transformá-lo em outro mantendo as características da voz original.

Isto é, a IA consegue, por exemplo, usar o som da sua voz falando "eu amo animais" e transformá-lo em outro completamente diferente, como "eu odeio animais", mantendo os tons da fala.

Segundo a Microsoft, a ideia é usar os algoritmos para melhorar ferramentas "text-to-speech" (texto para fala), que transformam textos em voz, a fim de deixar o áudio mais natural e menos robotizado, como aqueles que usamos no Google Tradutor, por exemplo, ou no Waze.

Como a mágica acontece?

A Microsoft diz que, diferentemente de outras ferramentas do mercado, a IA produzida pela empresa não trabalha nas ondas sonoras, mas usa códigos de codec (codificador) de áudio a partir de prompts (comandos) de texto e acústicos.

Ou seja, pega seu áudio e o divide em vários componentes que sintetizem suas características de voz. Logo em seguida, os combinam para que a IA possa reproduzi-los em outro áudio, tendo o mesmo ambiente acústico ou não.

"O VALL-E oferece recursos de aprendizado e pode ser usado para sintetizar fala personalizada de alta qualidade com apenas uma gravação registrada de 3 segundos de um falante invisível como um prompt acústico", diz um trecho do paper de apresentação da Microsoft.

Para chegar ao resultado final, os cientistas usaram 60 mil horas de gravação de mais de 7 mil falantes do LibriLight, composta por audiolivros de domínio público.

Os resultados da experiência mostram que o VALL-E supera significativamente o sistema TTS zero-shot de última geração em termos de naturalidade da fala e similaridade do locutor. Microsoft

Nas amostras disponibilizadas pela empresa, é perceptível a semelhança entre o áudio original e o final gerado pela VALL-E, apesar de alguns ainda demonstrarem ser robotizados.

De acordo com Microsoft, a ferramenta é aprimorada para que fique o mais natural possível para chegar próximo dos 100% de similaridade com qualquer tipo de voz antes de seu lançamento oficial.

Ferramenta abre brecha para fakes e preocupa Microsoft

De acordo com a Microsoft, a nova ferramenta pode ser usada nas seguintes situações:

Aplicativos que convertem textos em falas
Edição de fala em que a gravação de algo dito pela pessoa pode ser alterada para outra frase completamente diferente
Criação de conteúdos de áudio com a voz de alguém.

Apesar das suas funcionalidades, a Microsoft decidiu não deixar o código da IA aberto em razão dos riscos que a tecnologia poderia resultar com fakes news, como colocar na boca de alguém algo não dito, o que é uma preocupação dos pesquisadores.

Para conter eventuais danos quando o código já estiver operando comercialmente, a empresa trabalha para criar um modelo capaz de detectar se o áudio é verdadeiro ou produzido pelo VALL-E.

"Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, ele pode trazer riscos potenciais de uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico. Para mitigar esses riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E", concluiu.

Inteligência artificial

Microsoft cria IA capaz de gerar áudio com 3 segundos da sua voz; ouça

Como a mágica acontece?

Ferramenta abre brecha para fakes e preocupa Microsoft

Ocorreu um erro ao carregar os comentários.

{{comments.total}} Comentário

{{comments.total}} Comentários

Seja o primeiro a comentar

Essa discussão está encerrada

Só assinantes do UOL podem comentar

Inteligência artificial

Virou rede social? ChatGPT ganha memória para lembrar quem você é

Medir desempenho e mais: como a IA será usada nos Jogos Olímpicos de Paris

Banir o TikTok é a prova de que os EUA perderam a hegemonia tecnológica

Geladeiras da Samsung usam IA para aprender hábitos e controlar energia

O avanço da IA na China depende diretamente de água - e aqui está o motivo

Exterminador do ChatGPT? Conheça a nova IA do Facebook, WhatsApp e Insta

IA será capaz de se reproduzir sem ajuda humana até 2028, diz CEO

Gestão de Tarcísio escolhe o pior e mais preguiçoso uso de IA na educação

O jogo virou? CEOs agora temem que a IA possa roubar seus empregos

Conselho fará consulta pública sobre regulamentação da IA no Brasil

Dinheiro gera mais poder: 4 pontos para entender a competição global de IA

Dona do chatGPT teria usado secretamente vídeos do YouTube para treinar IA

Relacionadas

Noel de lantejoulas: IA traduz em imagens percepção de cegos sobre o Natal

Xô, garrancho: Google quer usar IA para decifrar letra de médico em receita

Se IAs conseguem até desenhar e escrever, qual é o futuro dos artistas?

Como a mágica acontece?

Ferramenta abre brecha para fakes e preocupa Microsoft

As mais lidas agora

'Cometa do Diabo' ficará visível hoje no Brasil: saiba o horário

WhatsApp: aprenda a criar listas, deixar avisos e mudar foto das conversas

De carros a escova de dentes, por que a Xiaomi aparece em todo lugar?

Ocorreu um erro ao carregar os comentários.

{{comments.total}} Comentário

{{comments.total}} Comentários

Seja o primeiro a comentar

Essa discussão está encerrada

Inteligência artificial

Virou rede social? ChatGPT ganha memória para lembrar quem você é

Medir desempenho e mais: como a IA será usada nos Jogos Olímpicos de Paris

Banir o TikTok é a prova de que os EUA perderam a hegemonia tecnológica

Geladeiras da Samsung usam IA para aprender hábitos e controlar energia

O avanço da IA na China depende diretamente de água - e aqui está o motivo

Exterminador do ChatGPT? Conheça a nova IA do Facebook, WhatsApp e Insta

IA será capaz de se reproduzir sem ajuda humana até 2028, diz CEO

Gestão de Tarcísio escolhe o pior e mais preguiçoso uso de IA na educação

O jogo virou? CEOs agora temem que a IA possa roubar seus empregos

Conselho fará consulta pública sobre regulamentação da IA no Brasil

Dinheiro gera mais poder: 4 pontos para entender a competição global de IA

Dona do chatGPT teria usado secretamente vídeos do YouTube para treinar IA