Inteligência artificial

Pornô e imagens sem consentimento: a 'inspiração' podre das IAs pintoras

Raspagem de imagens sem critérios para inteligência artificial pode gerar ilustrações estereotipadas - Yuliana Organogold/Wikimedia Commons — Raspagem de imagens sem critérios para inteligência artificial pode gerar ilustrações estereotipadas Imagem: Yuliana Organogold/Wikimedia Commons

Rosália Vasconcelos

Colaboração para Tilt, do Recife

27/09/2022 04h00

A pintora Lapine DeLaTerre é uma das muitas artistas fascinadas pelo Dall-E 2, uma inteligência artificial capaz de criar qualquer ilustração a partir de uma descrição via texto. Mas Lapine descobriu, da maneira mais assustadora, que todo artista tem suas "inspirações". E, no caso do Dall-E 2, ela mesma estava no "banco de dados" do programa.

Lapine encontrou uma foto do próprio rosto no banco de imagem LAION-5B, um dos mais utilizados para alimentar as referências desse tipo de inteligência artificial - uma imagem que ela acreditava estar protegida por sigilo médico.

"Em 2013, um médico fotografou meu rosto como parte de documentação clínica. Ele morreu em 2018 e, de algum jeito, essa imagem acabou online e chegou ao banco de dados", contou no Twitter. Ela anexou uma imagem: "A foto pela qual assinei um consentimento ao meu médico — e não a um banco de dados."

My face is in the #LAION dataset. In 2013 a doctor photographed my face as part of clinical documentation. He died in 2018 and somehow that image ended up somewhere online and then ended up in the dataset- the image that I signed a consent form for my doctor- not for a dataset. pic.twitter.com/TrvjdZtyjD
-- Lapine (@LapineDeLaTerre) September 16, 2022

A violação de privacidade é apenas um dos aspectos problemáticos destes "datasets" (conjuntos de dados para análise). Uma mera visita a outro site desse tipo, Have I Been Trained, revela que as inteligências artificiais estão sendo alimentadas por vastas quantidades de imagens violentas, pornográficas ou até mesmo criminosas, como pornografia infantil.

Uma busca por palavras-chaves como "enfermeira" mostra referências muito mais sexualizadas do que uma enfermeira da vida real. Isso pode levar Dall-E 2 e outros programas similares a produzir ilustrações estereotipadas e misóginas.

Não é como o Google

As denúncias foram feitas pelos veículos norte-americanos Motherboard, canal de tecnologia da revista Vice, e pelo portal ARS Technica. Ambos citam os sites Have I Been Trained e LAION-5B como dois dos principais bancos de imagens sem curadoria. Eles atuam como uma espécie de hospedeiros de URLs de onde as imagens foram geradas originalmente.

This site let's you search the giant database behind image-making AI systems like Stable Diffusion. It's supposed to be for artists to see if their art is in the data, but it also shows the sheer volume of NSFW/toxic stuff that's behind these AI tools.https ://t.co/gAGf7F2IMT
-- Arthur Holland Michel (@WriteArthur) September 14, 2022

Na prática, funciona assim: o usuário digita uma palavra-chave no sistema de busca, o Have I Been Trained e LAION-5B mostram as imagens correspondentes àquele termo.

No entanto, ao clicar nas imagens, os bancos não informam a URL original das fotos na world wide web (www), como acontece no Google, por exemplo. Elas levam ao Github, onde as imagens estão destrinchadas em códigos textuais, através de um método chamado clip-retrieval. São esses códigos que alimentam ferramentas de inteligência artificial, como Stable Diffusion, DALL-E 2 e Midjourney.

Ou seja, nem o LAION nem o Have I Been Trained dizem hospedar as imagens em si. E orientam os pesquisadores a irem atrás das imagens de seus locais de origem quando quiserem usá-las em um projeto.

De quem é a responsabilidade?

O portal ARS Technica descobriu - e Tilt confirmou - que a imagem da mulher americana não é a única a ter esse tipo de conteúdo exposto. Há milhares de fotos com caráter privativo, que vão desde registros médicos até fotos de pessoas acamadas em hospitais e dentro de ambulâncias, algumas divulgando detalhes e situações inóspitas aos pacientes.

De acordo com a Vice, o Have I Been Trained contém atualmente cerca de 5,8 bilhões de imagens extraídas da Internet, enquanto o LAION-5B e LAION 400M contém 400 milhões de imagens, todas raspadas da rede.

A raspagem de imagens abertas da rede, sem filtros específicos e bloqueios de conteúdos tóxicos, é um imenso problema social que ultrapassa os limites jurídicos e jurisdicionais dos países. Colocam em xeque também a responsabilidade sobre o material que circula na rede.

Lapine é um exemplo de como imagens vazadas nesse tipo de banco pode virar um jogo de empurra-empurra sobre quem deve ser obrigado a responder pelas fotos e de quem é a responsabilidade pela remoção do conteúdo.

A pintora disse ter solicitado que o LAION retirasse as imagens de seu banco de pesquisas, mas a empresa teria dado uma negativa sob a justificativa de que hospedava apenas a URL e não a imagem em si.

"A melhor maneira de remover uma imagem da Internet é pedir que o site de hospedagem (original) pare de hospedá-la. Não estamos hospedando nenhuma dessas imagens", escreveu o engenheiro da LAION, Romain Beaumont, ao ser questionado publicamente no canal do site.

Na página principal do LAION, inclusive, há um termo de "isenção de responsabilidade sobre a finalidade do conjunto de dados e aviso de conteúdo" do que eles denominam de "nocivo". A empresa diz recomendar o uso dos dados apenas para fins de pesquisa.

Na carta, a LAION confirma que seu banco é formado por um "conjuntos de dados de grande escala e sem curadoria rastreados da Internet publicamente disponível" e que os "links coletados podem levar a um conteúdo altamente desconfortável e perturbador para um espectador humano".