Diogo Cortiz

Diogo Cortiz

Siga nas redes
Só para assinantesAssine UOL
Reportagem

Labirinto contra a IA: como sites enganam a coleta de dados

Nos últimos dias você deve ter acompanhado - e talvez tenha entrado - na trend do Studio Ghibli. A última atualização do ChatGPT permitiu a criação de imagens com traços do famoso estúdio de animação japonês.

Esse fenômeno foi um momento de desafogo e diversão nas redes, mas jogou lenha em um debate que nunca esteve apagado: o uso de dados de terceiros para o treinamento de IA.

Se o ChatGPT é capaz de reproduzir o estilo do estúdio japonês, é porque foi treinado com obras deles — o problema é que a OpenAI nunca pediu autorização para isso. E se tivesse pedido, talvez recebesse uma recusa. Hayao Miyazaki, fundador do Studio Ghibli, disse em 2016 que o uso de IA na criação era um "insulto à própria vida".

Da mesma maneira que a IA pode aprender um estilo artístico de uma imagem, também captura os padrões com os quais grandes escritores concatenam suas palavras. E o aprendizado não se restringe apenas à forma, mas também invade o conteúdo.

Se a IA consegue responder sua pergunta, é porque ela leu a resposta em algum lugar - certamente em algum texto escrito por alguém.

Não tem jeito, para a Inteligência Artificial Generativa existir, os modelos precisam ser treinados com uma quantidade absurda de conteúdos em diferentes formatos: textos, imagens, vídeos, entre outros. E quanto mais dados, melhor será o desempenho do modelo. É por este motivo que as empresas de tecnologia fazem uma verdadeira colheita de dados, sem pedir a permissão para os seus donos.

As técnicas para conseguir os conteúdos variam muito. Tudo é possível. Recentemente, vazou que a Meta chegou até mesmo a baixar livros pirateados para treinar sua IA. No entanto, uma das técnicas mais comum é o "web scraping", que consiste no uso de "crawlers", bots automatizados que acessam sites e coletam os conteúdos.

Jornais, revistas, artigos científicos, livros, portais, blogs, tudo que está online é alvo dos "crawlers". Essa estratégia é tão agressiva que está sobrecarregando os servidores da Wikipédia. A Fundação Wikimedia anunciou que essa coleta incessante tem puxado terabytes de informação e aumentado em 50% o uso de banda para download de conteúdo.

A resposta dos donos de conteúdos

Os donos de portais, no entanto, estão começando a reagir. E a resposta está vindo de muitas direções. Desde ações jurídicas, como o The New York Times que processou a OpenAI, como também com soluções técnicas.

Continua após a publicidade

Uma das primeiras propostas foi buscar um controle voluntário por meio do "robot.txt", um arquivo de texto colocado nos servidores em que os donos dos conteúdos especificam quais partes dos sites não devem ser acessados pelo bots. Porém, o desafio dessa abordagem é ser justamente voluntária. Ou seja, os "crawlers" podem simplesmente desrespeitar o arquivo e coletar os dados mesmo assim.

Foi então que entrou em cena uma ação mais dura. Algoritmos que detectam que o tráfego está vindo de um bot de IA e bloqueiam o acesso. Em um primeiro momento, a técnica deu efeito, mas logo em seguida os próprios desenvolvedores de crawlers notavam o "bloqueio" e criavam maneiras de burlar o bloqueio.

É um verdadeiro jogo de gato e rato, que acaba de ganhar um dos capítulos mais engenhosos. A proposta agora é encurralar esses bots em um labirinto arquitetado pela própria IA.

A ideia é assim: quando o servidor identifica o acesso de um bot de IA indesejável, em vez de levá-lo para a página real, o acesso é redirecionado para um ambiente com páginas fakes criadas por IA.

Desta forma, o bot não detecta nenhum bloqueio, fica gastando recursos ao navegar entre diferentes páginas, mas sem conseguir acessar o conteúdo original. Enquanto isso, é possível investigar o comportamento do próprio bot.

A Cloudflare, uma das principais empresas de serviço de segurança e otimização de tráfego, lançou esse serviço recentemente para seus clientes. Em breve, esse tipo de estratégia deve se popularizar, o que fará com que os "crawlers" também busquem alternativas para sair da armadilha. Se vai funcionar, ainda não sabemos, mas não deixa de ser uma disputa tecnológica interessantíssima de ser estudada.

Continua após a publicidade

As contradições e o efeito colateral

Tem um ponto importante que não podemos deixar de fora desta conversa. Uma contradição que nasce do encontro entre essas novas tecnologias e a mudança no comportamento das pessoas — e que pode acabar gerando um efeito colateral para quem produz ou controla o conteúdo.

Hoje, a maior parte de quem cria conteúdo não quer que seu material seja utilizado sem autorização para o treinamento de modelos. A justificativa é que não são remunerados pelo treinamento ou que não recebem tráfego quando uma IA responde uma pergunta com base em seu conteúdo.

Essa é uma reclamação autêntica, eu concordo com ela, mas simplesmente bloquear o acesso ao conteúdo pode trazer um efeito ainda mais danoso.

Não podemos perder de vista que a IA está virando uma importante alternativa de fonte de pesquisa e consulta, então estar fora de sua base de aprendizado pode causar um esquecimento pelo qual ninguém queira passar.

O futuro com a IA é um desafio enorme e cheio de contradições para criadores e marcas, que vão precisar repensar suas estratégias e modelos de negócios para um novo paradigma do mundo digital. Na guerra por dados, o esquecimento pode ser tão perigoso quanto uma apropriação indevida dos conteúdos.

Reportagem

Texto que relata acontecimentos, baseado em fatos e dados observados ou verificados diretamente pelo jornalista ou obtidos pelo acesso a fontes jornalísticas reconhecidas e confiáveis.

Deixe seu comentário

O autor da mensagem, e não o UOL, é o responsável pelo comentário. Leia as Regras de Uso do UOL.