Como você testaria a IA? Último exame da humanidade junta questões difíceis
Especialistas em IA estão convocando o mundo para participar do "O Último Exame da Humanidade". A chamada pede para que pessoas de diferentes áreas enviem contribuições para o que vem sendo chamado de "conjunto de perguntas mais difíceis e amplo de todos os tempos".
O objetivo deste teste é avaliar os sistemas de IA mais avançados para tentar identificar suas reais habilidades e quando uma IA poderia supostamente atingir o nível de um especialista humano.
O projeto conduzido pelo Center for AI Safety (CAIS) e a startup Scale AI foi anunciado depois do lançamento do modelo o1, a última IA da OpenAI que apresenta funcionalidade de raciocino mais avançada do que os modelos anteriores.
Eu escrevi um tempo atrás uma coluna em que explico como é difícil avaliar as reais capacidades de uma IA. As empresas usam benchmarks, conjuntos de testes específicos, para entender o quanto o modelo consegue resolver os desafios.
Por isso é preciso cautela quando alguém sugere que um modelo consegue fazer alguma coisa melhor do que um humano. Na verdade, o que isso quer dizer é que o modelo teve um desempenho superior em um conjunto de testes que podem ser limitados e defasados.
O objetivo do "O Último Exame da Humanidade" é coletar um vasto volume de contribuições para tentar criar um conjunto de perguntas extremamente difíceis.
E você pode participar com a sua expertise. Se enviar uma pergunta desafiadora que passe pela revisão, o seu nome será associado à questão e será convidado a se tornar coautor do artigo associado ao futuro conjunto de dados.
As perguntas devem ser difíceis para não especialistas e não facilmente respondidas por pessoas comuns. Porém, não podem ser apenas "pegadinhas". Assim que você submeter suas perguntas, elas serão avaliadas pelos modelos de IA mais avançados. Caso a questão não seja facilmente respondida por uma IA, então você deverá escrever uma solução completa, mas concisa, para o problema.
Para ter uma noção do grau de dificuldade das questões que estão esperando no conjunto de dados, os organizadores do projeto descobriram que se um estudante de graduação aleatório consegue entender o que está sendo perguntado, a pergunta é provavelmente muito fácil para um modelo.
Ainda é cedo para dizer qual será a efetividade deste conjunto de perguntas, mas a iniciativa mostra que avaliar os modelos de IA está longe de ser uma tarefa trivial. No entanto, alguns pesquisadores seguem na luta de encontrar uma forma de traçar uma linha de fronteira para dizer se e quando fomos superados por máquinas.
Deixe seu comentário