Topo

Ricardo Cavallini

IA vai usar deepfake para resolver conexão ruim na videoconferência

14/10/2020 04h00

Receba os novos posts desta coluna no seu e-mail

Email inválido

Depois que a pandemia botou todo mundo online fazendo reunião, finalmente as empresas entenderam que as ferramentas de videoconferência podem (e devem) evoluir muito.

A necessidade tem feito surgir muitas iniciativas nessa direção, uma delas está vindo do laboratório de pesquisa da Nvidia. A empresa, conhecida por suas placas gráficas usadas por gamers, criou uma solução que utiliza inteligência artificial para permitir chamadas de vídeo com boa qualidade usando pouca banda de internet.

A solução permite manter a mesma qualidade usando mil vezes menos informação. Nos testes, usando apenas 0,1 KB por quadro foi possível obter uma imagem que precisaria de 98 KB por quadro.

A lógica da técnica é bastante simples, o sistema envia uma imagem base do rosto da pessoa (o quadro base) e, a partir deste momento, a inteligência artificial reconhece os pontos principais da face como olhos, bocas e outros pontos de referência e envia em tempo real para quem vai receber o vídeo.

Do outro lado, no computador da pessoa que vai receber o vídeo, outra inteligência artificial utiliza a imagem base e cria uma animação usando como referência a posição dos olhos, boca e outros pontos enviados.

Na prática, é como se fosse um deepfake de você mesmo. É também similar a técnica de motion capture que a indústria de cinema utiliza para fazer animações que usam expressões de atores reais. A grande diferença é que a inteligência artificial não demanda usar roupas especiais com bolinhas ou adesivos para marcar os pontos de referência como faz Hollywood.

Dupla faz demonstração de motion capture -  mrkim/ Flickr -  mrkim/ Flickr
Dupla faz demonstração de motion capture
Imagem: mrkim/ Flickr

Por que é relevante?

A grande vantagem da solução é permitir fazer videoconferência usando uma conexão ruim, caso de muitos brasileiros.

Outra possível vantagem é aumentar a resolução, usando como base uma fotografia feita na hora.

Dois exemplos de quando isso seria interessante. Mesmo com uma conexão 3G ou 4G boa, não é possível para um repórter que esteja na rua enviar uma imagem com resolução 4K. E em casa, mesmo usando uma webcam de baixa resolução (720p, por exemplo), seria possível gravar e enviar vídeos de alta resolução.

Outro artifício bastante interessante seria funcionar como teleprompter. Como a técnica pode corrigir a direção da face e dos olhos, você poderia ler um papel ou olhar no celular que o vídeo continuaria sendo transmitido como se você estivesse olhando para a câmera.

Quer mais vantagem? Que tal usar como base um vídeo com boa luz, maquiagem feita, cabelo e barba bem arrumados, sua camisa preferida, mas depois poder realizar a reunião todo esbugalhado sem ninguém perceber? Faz a reunião impecável sem ter que perder a preguiça.

Para o futuro, dá esperança de participar daquelas reuniões com 15 pessoas colocando apenas um assistente 100% virtual no seu lugar sem ninguém perceber.

Porém, toda essa maravilha não vem de graça. A ausência de banda é compensada por poder de processamento nas duas pontas. Computadores e smartphones precisam de bastante processamento para conseguir entregar essa inteligência toda em tempo real.

E as versões atuais da solução precisam, é claro, de uma placa gráfica produzida pela empresa.

Com a evolução tecnológica, os novos aparelhos deverão ter cada vez mais tecnologia e poder para processar esse tipo de inovação. O que hoje está apenas em uma versão beta, muito provavelmente vai virar padrão nos próximos anos.

Depois da pandemia, a tecnologia por trás da videoconferência vai evoluir muito. A necessidade e a preguiça são motores importantes para a inovação. E, neste caso, os dois favorecem esse tipo de solução.