Topo

IA da Samsung impressiona com Monalisa falante, mas isso deve te preocupar

Monalisa, Salvador Dali e Einstein foram animados com nova técnica - Reprodução
Monalisa, Salvador Dali e Einstein foram animados com nova técnica Imagem: Reprodução

Rodrigo Trindade

Do UOL, em São Paulo

26/05/2019 13h05

Resumo da notícia

  • Novo sistema é capaz de produzir vídeo a partir de retratos de qualquer pessoa
  • Procedimentos parecidos já existiam no passado, mas este novo torna o processo muito mais simples
  • Criadores sabem de riscos, mas acreditam que estes serão contornados e que tecnologia é importante para o futuro

Você já parou para pensar como seria se a Monalisa, o quadro mais famoso do mundo, se movesse? Um sistema de inteligência artificial desenvolvido por um laboratório da Samsung em Moscou fez disso uma realidade, que pode ser tanto divertida como assustadora.

Na última segunda-feira (20), Egor Zakharov, Aliaksandra Shysheya, Egor Burkov e Victor Lempitsky apresentaram um trabalho realizado em conjunto pelo centro de inteligência artificial da Samsung e pelo Skolkovo Institute of Science and Technology que trouxe uma nova forma de criar vídeos a partir de imagens estáticas.

O simples ato de tornar uma imagem em um vídeo não é uma novidade, mas até então era necessária uma grande base de dados composta por fotos para treinar redes neurais que aí sim seriam capazes de montar um vídeo. O novo procedimento precisa de muito menos dados prévios para saber como fazer um rosto de uma foto se expressar enquanto se "comunica".

O sistema criado pelos pesquisadores da Samsung realizou seu aprendizado vendo vídeos de como as faces das pessoas se movem. Ao saber como uma boca abre e fecha, sobrancelhas se movem e como é a aparência de um nariz em diferentes ângulos, ele pega essas informações e consegue animar uma imagem estática.

O vídeo a seguir, publicado por um dos pesquisadores, ilustra como o sistema opera. Uma foto basta para que um vídeo animado seja feito, mas se outras forem fornecidas, o resultado fica ainda melhor.

A tecnologia criada pelos pesquisadores impressiona e tem potenciais divertidos. Um possível uso é você gravar um vídeo de você mesmo falando, pegar uma imagem de um quadro famoso, ou uma foto de uma celebridade, combinar os dois no seu celular e compartilhar com os amigos a animação de tal quadro ou celebridade com sua voz e expressão.

O oposto desse espectro também é válido e merece grande preocupação: uma vez liberado para todo mundo, se é que vai ser, tal sistema permite que alguém vá no seu Facebook, pegue sua foto de perfil (e mais outras, por que não?) e use seu rosto para dizer coisas que nunca saíram da sua boca. Seria uma mais simples de criar os chamados deepfakes, vídeos com rostos inseridos artificialmente no corpo de outras pessoas.

Tal tipo de recurso foi usado para colocar rostos de celebridades em filmes pornô, forjar vídeos de fins políticos e para "pornôs de vingança". Até então, no entanto, o processo para fazer um vídeo desses não era tão simples.

Você é o produto: cada passo que você dá na web gera rastros e essas informações são usadas para te vigiar e influenciar o seu comportamento

Entenda
Preparado para a repercussão negativa do sistema, Egor Zakharov escreveu, na descrição do vídeo publicado no YouTube, uma declaração em defesa do propósito da criação dessa tecnologia. O pesquisador disse que a equipe está ciente do risco do uso dela para criação de deepfakes, mas deu exemplos de outras tecnologias que tiveram impacto negativo que acabou mitigado.

"A democratização de tecnologias sempre teve efeitos negativos. A democratização das ferramentas de edição de som levou à ascensão dos golpistas e áudios falsos, a de gravação de vídeo levou à aparição de gravações feitas sem consentimento", argumentou, para depois dizer que o saldo dessas democratizações foi positivo, com "mecanismos para minimizar os efeitos negativos foram criados".

A expectativa dos pesquisadores é que o mesmo ocorra com esse tipo de tecnologia, que eles acreditam ser fundamental para futuros sistemas de telepresença, nos quais as pessoas precisarão ser representadas por imagens semelhantes delas mesmas e, para criar tais imagens, o procedimento precisará ser fácil.