A convocação ocorre dias após o criador do ChatGPT ter apresentado um novo modelo, conhecido como OpenAI o1, que “destruiu os benchmarks de raciocínio mais populares”, disse Dan Hendrycks, diretor-executivo do CAIS e consultor da startup xAI de Elon Musk.

Hendrycks foi coautor de dois artigos em 2021 que propuseram testes para sistemas de IA que agora são amplamente utilizados: um testando o conhecimento em nível de graduação no ensino superior sobre temas como história dos EUA e o outro avaliando a capacidade dos modelos de raciocínio matemático em nível das competições sobre a disciplina. O teste para nível de graduandos tem mais downloads no hub de IA online Hugging Face do que qualquer outro conjunto de dados similar.

Na época desses artigos, a IA dava respostas quase aleatórias às perguntas das provas. “Agora eles são facilmente respondidos”, Hendrycks disse à Reuters.

Por exemplo, os modelos Claude, do laboratório de IA Anthropic, atingiram uma pontuação de cerca de 77% no teste de nível graduandos em 2023 e chegaram a quase 89% um ano depois, de acordo com um importante ranking.

Como resultado, esses testes comuns de referência passam a ficar menos importantes.

A IA parece ter ido mal em testes menos conhecidos que envolvem formulação de planos e quebra-cabeças de reconhecimento de padrões visuais, de acordo com o Relatório de Índice de IA da Universidade de Stanford, divulgado em abril. O OpenAI o1 marcou cerca de 21% em uma versão do teste de reconhecimento de padrões ARC-AGI, por exemplo, disseram os organizadores do ARC na sexta-feira.