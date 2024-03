As IAs comerciais apresentam um desempenho superior para o inglês e muitas vezes usam de traduções que achatam a cultura para contornar essa limitação para outros idiomas. Muitos usuários nem percebem essa restrição porque ela acaba ocultada pela verborragia da máquina.

Uma das principais causas desse problema é a falta de dados regionais, linguísticos e culturais para treinamento de modelos de IA. Um estudo recente de pesquisadores do MIT (Massachusetts Institute of Technology) fez uma grande auditoria nos principais conjuntos de dados usados para treinar IA e mostrou a altíssima concentração na língua inglesa e dados do Ocidente.

Esse desequilíbrio se reflete diretamente no comportamento dos modelos. Recentemente, eu e alunos da PUC-SP publicamos um artigo acadêmico preliminar mostrando a dificuldade da IA generativa em representar a identidade cultural brasileira no processo de criação de imagens.

Com suas imensas infraestruturas computacionais e gigantescos modelos de IA generativa, as big techs, detentoras do 'hard power' da tecnologia, passam agora a dominar uma nova forma de 'soft power' por modular e influenciar os tipos de conteúdos que o mundo irá produzir e consumir.

Isso não quer dizer que devemos parar de usar ChatGPT, Gemini, Midjourney entre outras. Em um cenário equilibrado, podemos ter soluções locais específicas coexistindo com os serviços das big techs. Quanto mais possibilidades, melhor.

Este é mais um motivo para pensarmos em alternativas para diminuir a assimetria que existe no universo da IA. O MCTI (Ministério da Ciência, Tecnologia e Inovação) está trabalhando para atualizar a Estratégia Brasileira de IA, e este é um bom sinal. Pelo que acompanho das discussões, o foco está mais em como fomentar o ecossistema de IA no Brasil do que para "o governo vai criar sua própria IA".