O agente baseado na web 'Large Action Model' do Rabbit chega ao r1 em 1 de outubro

Visão Polar

Monday, April 21 2025

O Rabbit r1 foi o gadget obrigatório do início de 2024, mas o entusiasmo diminuiu rapidamente quando as promessas exageradas da empresa não se concretizaram. O CEO Jesse Lyu admite que “no primeiro dia, estabelecemos expectativas muito altas”, mas também disse que uma atualização que chegará aos dispositivos na próxima semana finalmente liberará o tão aclamado Large Action Model na web.

Enquanto os céticos podem (justificadamente) ver isso como tarde demais ou outra mudança de objetivos, a aspiração do Rabbit de construir um agente agnóstico à plataforma para aplicativos web e móveis ainda tem um valor fundamental, se ainda em grande parte teórico.

Falando ao TechCrunch, Lyu disse que os últimos seis meses foram um furacão de envios, correção de bugs, melhoria nos tempos de resposta e adição de recursos mínimos. Mas apesar de 16 atualizações over-the-air para o r1, ele continua fundamentalmente limitado a interagir com um LLM ou acessar um dos sete serviços específicos, como Uber e Spotify.

“Aquela foi a primeira versão do LAM, treinado em gravações coletadas de trabalhadores de dados, mas não é genérico — só se conecta a esses serviços”, disse. Se era ou não o que eles chamam de LAM é praticamente acadêmico neste ponto; seja qual for o modelo, ele não proporcionou as capacidades detalhadas do Rabbit em sua estreia.

Um agente generalista baseado na web

Mas o Rabbit está pronto para lançar a primeira versão genérica, que não é específica para nenhum aplicativo ou interface, do LAM, demonstrado por Lyu para mim.

Esta versão é um agente baseado na web que raciocina as etapas para fazer qualquer tarefa comum, como comprar ingressos para um show, registrar um site ou até mesmo jogar um jogo online. “Nosso objetivo é muito claro: No final de setembro, seu r1 de repente fará muito mais coisas. Deveria suportar qualquer coisa que você possa fazer em qualquer site”, disse Lyu. (A empresa posteriormente forneceu uma data final aproximada de 1 de outubro para a atualização.)

Dada uma tarefa, primeiro a divide em etapas, e então começa a executá-las analisando o que vê na tela: botões, campos, imagens, independentemente de posição ou aparência. Então interage com o elemento apropriado com base no que aprendeu de forma geral sobre como os sites funcionam.

Pedi a ele (através de Lyu, que o operava remotamente) para registrar um novo site para um festival de cinema. Tomando uma ação a cada poucos segundos, ele procurou registros de domínio no Google, escolheu um (um patrocinado, eu acho), colocou festival de cinema na caixa de domínio e da lista de opções resultante escolheu “filmfestival2023.com” por US$ 14. Tecnicamente eu não havia dado a ele nenhuma restrição como “para 2025” ou “festival de terror” ou algo do tipo.

Da mesma forma, quando Lyu pediu a ele para procurar e comprar um r1, ele rapidamente encontrou o caminho para o eBay, onde dezenas estavam à venda. Talvez um bom resultado para um usuário, mas não para o fundador da empresa que se apresentava para a imprensa! Ele riu e fez o comando novamente com a adição de que deveria comprar apenas do site oficial. O agente teve sucesso.

Em seguida, ele o fez jogar o jogo diário de palavras do Dictionary.com. Levou um pouco de engenharia de comando (o modelo encontrou uma saída ao perceber que poderia terminar rapidamente pressionando “encerrar jogo”), mas conseguiu.

Qual navegador ele usa, contudo? Um novo e limpo na nuvem, disse Lyu, mas eles estão trabalhando em versões locais, como uma extensão do Chrome, que permitiria que você usasse sessões existentes e não precisasse entrar em seus serviços.

Nesse sentido, como os usuários estão compreensivelmente (e corretamente) cautelosos em dar a qualquer empresa acesso total às suas credenciais, o agente não está equipado com elas. Lyu sugeriu que um pequeno modelo de linguagem isolado com suas credenciais poderia ser invocado privadamente no futuro para realizar logins. Parece ser uma questão em aberto como isso funcionará, o que é em certa medida esperado dada a novidade do espaço.

Um exemplo de análise de IU dentro de aplicativos do site do Rabbit.

Ainda aprendendo

A demonstração me mostrou algumas coisas. Em primeiro lugar, se dermos à empresa e aos desenvolvedores o benefício da dúvida de que isso não é tudo um elaborado embuste (como alguns acreditam), parece ser um agente web genérico e funcional. E isso seria, se não uma novidade em si mesma, certamente a primeira a ser facilmente acessível para consumidores.

“Existem empresas fazendo verticais, para Excel ou documentos legais, mas acredito que este seja um dos primeiros agentes genéricos para consumidores”, disse Lyu. “A ideia é que você possa dizer qualquer coisa que possa ser realizada por meio de um site. Teremos o agente genérico para sites primeiro, e depois para aplicativos.”

Em segundo lugar, mostrou que a engenharia de comando ainda é muito necessária. Como você formula uma solicitação pode facilmente ser a diferença entre o sucesso e o fracasso, e provavelmente não é algo que consumidores comuns tolerarão.

Lyu alertou que esta é uma “versão playground”, não final de forma alguma, e que embora seja um agente web geral totalmente funcional, ainda pode ser aprimorado de muitas maneiras. Por exemplo, ele disse: “o modelo é inteligente o suficiente para fazer o planejamento, mas não é inteligente o suficiente para pular etapas.” Ele não “aprende” que um usuário prefere não comprar seus eletrônicos no eBay, ou que deveria rolar para baixo após a pesquisa para evitar a parede de resultados patrocinados.

Os dados do usuário não serão coletados para melhorar o modelo — ainda. Lyu atribuiu isso ao fato de que basicamente não há método de avaliação para um sistema como este, então é difícil dizer quantitativamente se melhorias foram feitas. Um “modo de ensino” também está chegando, para que você possa mostrar a ele como fazer um tipo específico de tarefa.

Curiosamente, a empresa também está trabalhando em um agente de desktop que pode interagir com aplicativos como editores de texto, tocadores de música e, é claro, navegadores. Isso ainda está em estágios iniciais, mas está funcionando. “Você nem precisa inserir um destino, ele simplesmente tenta usar o computador. Contanto que haja uma interface, ele pode controlá-la.”

Em terceiro lugar, ainda não há um “aplicativo matador”, ou pelo menos não um óbvio. O agente é impressionante, mas eu pessoalmente teria pouco uso para ele, infelizmente sentando na frente de um navegador oito horas por dia de qualquer maneira. Certamente há algumas ótimas aplicações, mas nenhuma veio à mente que torne a utilidade de um autômato baseado em navegador tão óbvia quanto a de, digamos, um aspirador de pó robô.

Por que não um aplicativo, novamente?

Levantei a objeção comum ao modelo de negócios inteiro do Rabbit, essencialmente que “isso poderia ser um aplicativo”.

Lyu claramente ouviu essa crítica muitas vezes, e estava confiante em sua resposta.

“Se fizermos as contas, não faz sentido”, disse ele. “Sim, é tecnicamente possível, mas você vai irritar a Apple e o Google desde o primeiro dia. Eles nunca vão deixar isso ser melhor que a Siri ou o Gemini. Assim como não há como a inteligência da Apple controlar melhor as coisas do Google, ou vice-versa. E eles pegam 30% de receita! Se no início tivéssemos apenas construído um aplicativo, nunca teríamos alcançado esse momentum.”

O coelho r1 em uso. Modelo da mão: Chris Velazco do The Washington Post.

A premissa fundamental que o Rabbit está fazendo é que pode haver uma IA ou dispositivo de terceiros que possa acessar e operar todos os seus outros serviços, e de fora deles, como você. “Um sistema de agente genérico multiplataforma”, como Lyu chamou. “Vamos controlar cada IU, e o site é um bom começo. Depois iremos para o Windows, para o MacOS, para os telefones.”

Falando nisso: “Nunca dissemos que nunca construiremos um telefone no futuro.” Isso não é antitético à sua tese original de um dispositivo menor e mais simples? Talvez, talvez não.

Enquanto isso, eles estão trabalhando para começar a cumprir as promessas feitas no início deste ano. O novo modelo deverá estar disponível para qualquer proprietário do r1 em algum momento desta semana, quando a atualização OTA for lançada. Instruções sobre como invocá-lo também chegarão nesse momento. Lyu alertou os usuários expectantes com seu característico subtom.

“Estamos ajustando as expectativas corretamente. Não é perfeito”, disse ele. “É apenas o melhor que a raça humana alcançou até agora.”

Visão Polar

O agente baseado na web 'Large Action Model' do Rabbit chega ao r1 em 1 de outubro

Um agente generalista baseado na web

Ainda aprendendo

Por que não um aplicativo, novamente?

Recent Posts

Armis compra Otorio por $120M para reforçar a cibersegurança em espaços físicos

Mesmo alguns dos melhores IA não conseguem superar este novo benchmark

'Cão Homem' supera 'Olhos do Coração', 'O Amor Dói' na bilheteria

Microsoft traz visões alimentadas por IA para o Bing

Bravos ativam RHP Spencer Strider da IL para começar em Toronto na tarde de quarta-feira