Mesmo alguns dos melhores IA não conseguem superar este novo benchmark

Visão Polar

Monday, April 21 2025

O Centro de Segurança de IA (CAIS), uma organização sem fins lucrativos, e a Scale AI, uma empresa que oferece uma série de serviços de rotulagem de dados e desenvolvimento de IA, lançaram um novo benchmark desafiador para sistemas de IA de ponta.

O benchmark, chamado Humanity's Last Exam, inclui milhares de perguntas coletadas por multidões sobre temas como matemática, humanidades e ciências naturais. Para tornar a avaliação mais difícil, as perguntas estão em vários formatos, incluindo formatos que incorporam diagramas e imagens.

Em um estudo preliminar, nenhum sistema de IA emblemático disponível publicamente conseguiu obter uma pontuação melhor do que 10% no Humanity's Last Exam.

O CAIS e a Scale AI afirmam que planejam abrir o benchmark para a comunidade de pesquisa para que os pesquisadores possam "aprofundar-se nas variações" e avaliar novos modelos de IA.

Visão Polar

Mesmo alguns dos melhores IA não conseguem superar este novo benchmark

Recent Posts

As inscrições para palestrantes do TechCrunch Sessions: AI encerram em 7 de março

Estas contas bancárias pouco conhecidas permitem que americanos com deficiências economizem e invistam

Tênis olímpico: a chinesa Zheng Qinwen e croata Donna Vekic se enfrentarão pela medalha de ouro de simples feminina

Gumloop, fundada em um quarto em Vancouver, permite que os usuários automatizem tarefas com módulos de arrastar e soltar

Flip, o concorrente da TikTok Shop, lança um fundo para criadores que concede até $100 mi de valor patrimonial