
O Centro de Segurança de IA (CAIS), uma organização sem fins lucrativos, e a Scale AI, uma empresa que oferece uma série de serviços de rotulagem de dados e desenvolvimento de IA, lançaram um novo benchmark desafiador para sistemas de IA de ponta.
O benchmark, chamado Humanity's Last Exam, inclui milhares de perguntas coletadas por multidões sobre temas como matemática, humanidades e ciências naturais. Para tornar a avaliação mais difícil, as perguntas estão em vários formatos, incluindo formatos que incorporam diagramas e imagens.
Em um estudo preliminar, nenhum sistema de IA emblemático disponível publicamente conseguiu obter uma pontuação melhor do que 10% no Humanity's Last Exam.
O CAIS e a Scale AI afirmam que planejam abrir o benchmark para a comunidade de pesquisa para que os pesquisadores possam "aprofundar-se nas variações" e avaliar novos modelos de IA.