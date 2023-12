Foi a versão Ultra do Gemini que surpreendeu nos principais benchmarks de IA - conjunto de testes utilizados para avaliar os desempenhos dos modelos em diferentes tarefas. A nova IA do Google foi melhor do que o ChatGPT em 30 dos 32 testes. E foi a primeira vez que uma IA atingiu a nota de 90%, maior do que os humanos especialistas, no teste MMLU, que combina conhecimentos de 57 assuntos, que variam de matemática e física a história, medicina e ética.

O diferencial do Gemini está na forma como ele foi treinado. Até hoje, o mais comum era treinar separadamente os modelos com modalidades diferentes - um especialista em linguagem, outro em áudio, outro em imagem etc. - e depois juntar tudo para oferecer uma funcionalidade mais complexa para o usuário. Essa abordagem funciona para diversas tarefas, como a descrição e geração de imagem, mas o fato de ter componentes isolados dificulta que a IA tire proveito de um raciocínio mais complexo e integrado.

O Gemini foi projetado para ser nativamente multimodal e treinado desde o início em diferentes modalidades (texto, imagens, sons). Os engenheiros ainda refinaram o modelo em cada uma das modalidades para aumentar a sua eficácia. Esse tipo de treinamento traz benefícios pois aumenta a compreensão e raciocínio do modelo a partir de diferentes formas de dados.

Apesar do Google ter conseguido bater o ChatGPT nesse mundaréu de testes, a diferença é muito pequena. Eu tenho uma hipótese (que é compartilhada por muitos acadêmicos e especialistas) de que podemos estar chegando no pico da capacidade desses modelos baseados na arquitetura de redes neurais chamadas Transformers (que também é utilizada pelo ChatGPT) e que são a base dos Modelos de Linguagem.

Só escalar o tamanho pode não ser mais suficiente. Em 2024, a competição será para ver quem consegue integrar melhor novas técnicas e abordagens de aprendizado para a IA. Só que a competição desta vez será diferente, porque Google e OpenAI estão se fechando e divulgando cada vez menos do que estão pesquisando e desenvolvendo. É um caminho bem diferente do que nos trouxe até aqui, em que tudo era aberto e compartilhado.

IA de código aberto: uma resposta do resto do mundo?

Só que a realidade é mais complexa do que parece. O movimento de código aberto (open source) promete ser um importante contrapeso para essa decisão de algumas Big techs de focar em IA fechada e proprietária.