
À medida que as técnicas convencionais de avaliação da IA se mostram inadequadas, os criadores de IA estão recorrendo a maneiras mais criativas de avaliar as capacidades dos modelos de IA generativos. Para um grupo de desenvolvedores, isso é o Minecraft, o jogo de construção de sandbox de propriedade da Microsoft.
O site Minecraft Benchmark (ou MC-Bench) foi desenvolvido colaborativamente para colocar modelos de IA uns contra os outros em desafios mano a mano para responder a prompts com criações no Minecraft. Os usuários podem votar em qual modelo fez um trabalho melhor e só depois de votar podem ver qual IA fez cada construção no Minecraft.

Para Adi Singh, o estudante do 12º ano que iniciou o MC-Bench, o valor do Minecraft não está tanto no jogo em si, mas na familiaridade que as pessoas têm com ele - afinal, ele é o jogo mais vendido de todos os tempos. Mesmo para pessoas que não jogaram o jogo, ainda é possível avaliar qual representação em blocos de um abacaxi está melhor realizada.
O MC-Bench atualmente lista oito pessoas como colaboradores voluntários. Anthropic, Google, OpenAI e Alibaba subsidiaram o uso dos produtos do projeto para rodar prompts de benchmark, de acordo com o site do MC-Bench, mas as empresas não têm afiliação de outra forma.
“Atualmente estamos apenas fazendo construções simples para refletir o quão longe chegamos da era do GPT-3, mas [nós] poderíamos nos ver escalando para esses planos de maior duração e tarefas orientadas por objetivos”, disse Singh. “Os jogos podem ser apenas um meio de testar o raciocínio agente que é mais seguro do que na vida real e mais controlável para fins de teste, tornando-o mais ideal aos meus olhos.”
Outros jogos como Pokémon Red, Street Fighter e Pictionary foram usados como benchmarks experimentais para IA, em parte porque a arte de avaliar IA é notoriamente complicada.
Os pesquisadores frequentemente testam modelos de IA em avaliações padronizadas, mas muitos desses testes dão à IA uma vantagem em seu território. Por causa da maneira como são treinados, os modelos são naturalmente talentosos em certos tipos de resolução de problemas, particularmente resolução de problemas que requerem memorização ou extrapolação básica.
Simplificando, é difícil entender o que significa que o GPT-4 da OpenAI pode pontuar no 88º percentil no LSAT, mas não consegue discernir quantos Rs há na palavra “morango”. O Soneto Claude 3.7 da Anthropic alcançou 62,3% de precisão em um benchmark padronizado de engenharia de software, mas é pior em jogar Pokémon do que a maioria das crianças de cinco anos.

O MC-Bench é tecnicamente um benchmark de programação, já que os modelos são solicitados a escrever código para criar a construção solicitada, como “Frosty the Snowman” ou “uma encantadora cabana tropical na praia intocada e arenosa.”
Mas é mais fácil para a maioria dos usuários do MC-Bench avaliar se um boneco de neve parece melhor do que analisar o código, o que dá ao projeto um apelo mais amplo - e, portanto, o potencial para coletar mais dados sobre quais modelos consistentemente pontuam melhor.
Se essas pontuações significam muito em termos de utilidade da IA é uma questão em aberto, é claro. Singh afirma que elas são um forte sinal, no entanto.
“O atual leaderboard reflete muito de perto minha própria experiência em usar esses modelos, o que é diferente de muitos benchmarks de texto puro”, disse Singh. “Talvez [MC-Bench] possa ser útil às empresas para saber se estão indo na direção certa.”