Zuckerberg elogia a mais recente visão de IA em vídeo da Meta com o CEO da Nvidia Jensen Huang

A Meta teve um grande sucesso no ano passado com o Segment Anything, um modelo de aprendizado de máquina que podia identificar e delinear rapidamente e de forma confiável praticamente qualquer coisa em uma imagem. A sequência, que o CEO Mark Zuckerberg estreou no palco na segunda-feira no SIGGRAPH, leva o modelo para o domínio do vídeo, mostrando o quão rápido o campo está avançando.

A segmentação é o termo técnico para quando um modelo de visão examina uma imagem e identifica as partes: 'este é um cachorro, esta é uma árvore atrás do cachorro', esperançosamente, e não 'esta é uma árvore crescendo em um cachorro'. Isso vem acontecendo há décadas, mas recentemente tem melhorado muito e se tornado mais rápido, com o Segment Anything sendo um grande avanço.

O Segment Anything 2 (SA2) é uma continuação natural, pois se aplica nativamente a vídeos e não apenas a imagens estáticas; embora você pudesse, é claro, executar o primeiro modelo em cada quadro de um vídeo individualmente, não é o fluxo de trabalho mais eficiente.

'Os cientistas usam esse tipo de coisa para estudar, como recifes de coral e habitats naturais, coisas assim. Mas ser capaz de fazer isso em vídeo e ter zero treinamento e dizer o que você quer, é muito legal,' disse Zuckerberg em uma conversa com o CEO da Nvidia, Jensen Huang.

O processamento de vídeo é, é claro, muito mais exigente computacionalmente, e é um testemunho dos avanços feitos em toda a indústria em termos de eficiência que o SA2 pode rodar sem derreter o datacenter. Claro, ainda é um modelo enorme que precisa de hardware sério para funcionar, mas a segmentação rápida e flexível era praticamente impossível mesmo um ano atrás.

Créditos da imagem: Meta

O modelo, assim como o primeiro, será aberto e gratuito para uso, e não há notícias de uma versão hospedada, algo que essas empresas de IA às vezes oferecem. Mas há um demo gratuito.

Naturalmente, um modelo desse tipo requer uma tonelada de dados para treinar, e a Meta também está lançando um grande banco de dados anotado com 50.000 vídeos que foi criado apenas para este propósito. No artigo descrevendo o SA2, outro banco de dados com mais de 100.000 vídeos 'disponíveis internamente' também foi usado para treinamento, e este não está sendo disponibilizado publicamente - eu perguntei à Meta mais informações sobre o que é isso e por que não está sendo divulgado. (Nossa suposição é que é proveniente de perfis públicos do Instagram e do Facebook.)

Exemplos de dados de treinamento rotulados.
Créditos da imagem: Meta

A Meta tem sido líder no domínio da IA 'aberta' há alguns anos, embora na verdade (como Zuckerberg opinou na conversa) tenha feito isso há muito tempo, com ferramentas como o PyTorch. Mas mais recentemente, o LLaMa, o Segment Anything e alguns outros modelos que ela disponibilizou gratuitamente se tornaram um padrão relativamente acessível para o desempenho da IA nessas áreas, embora sua 'abertura' seja motivo de debate.

Zuckerberg mencionou que a abertura não é completamente por bondade de coração na Meta, mas isso não significa que suas intenções sejam impuras:

'Isso não é apenas como um software que você pode construir - você precisa de um ecossistema em torno disso. Isso quase nem funcionaria tão bem se não o tivéssemos de código aberto, certo? Não estamos fazendo isso porque somos pessoas altruístas, embora eu ache que isso será útil para o ecossistema - estamos fazendo isso porque achamos que isso tornará o que estamos construindo o melhor.'

Certamente será muito utilizado, de qualquer forma. Confira o GitHub aqui.