IA de limpeza de papel da Reliant enfrenta a monotonia dos dados científicos

Os modelos de IA têm se mostrado capazes de muitas coisas, mas quais tarefas realmente queremos que eles realizem? Preferencialmente a monotonia - e há muita dela na pesquisa e na academia. A Reliant espera se especializar no tipo de trabalho de extração de dados demorado que atualmente é especialidade de estudantes de pós-graduação exaustos e estagiários.

"A melhor coisa que você pode fazer com a IA é melhorar a experiência humana: reduzir o trabalho braçal e permitir que as pessoas façam as coisas que são importantes para elas", disse o CEO Karl Moritz. No mundo da pesquisa, onde ele e os co-fundadores Marc Bellemare e Richard Schlegel trabalham há anos, a revisão de literatura é um dos exemplos mais comuns desse "trabalho braçal".

Cada artigo cita trabalhos anteriores e relacionados, mas encontrar essas fontes no mar da ciência não é fácil. E alguns, como as revisões sistemáticas, citam ou usam dados de milhares.

Para um estudo, Moritz lembrou, "Os autores tiveram que analisar 3.500 publicações científicas, e muitas delas acabaram não sendo relevantes. É uma tonelada de tempo gasto extraindo uma pequena quantidade de informações úteis - isso parecia algo que realmente deveria ser automatizado pela IA."

Eles sabiam que os modelos de linguagem modernos poderiam fazer isso: um experimento colocou o ChatGPT na tarefa e descobriu que ele foi capaz de extrair dados com uma taxa de erro de 11%. Como muitas coisas que os modelos de linguagem podem fazer, é impressionante, mas não é exatamente o que as pessoas precisam.

Créditos da Imagem: Reliant AI

"Isso simplesmente não é bom o suficiente", disse Moritz. "Para essas tarefas de conhecimento, por mais banais que sejam, é muito importante que você não cometa erros."

O produto principal da Reliant, Tabular, é baseado em parte em um modelo de linguagem em particular (LLaMa 3.1), mas aumentado com outras técnicas proprietárias, sendo consideravelmente mais eficaz. Na extração do estudo de vários milhares de documentos acima, eles disseram que realizaram a mesma tarefa sem erros.

O que isso significa é: você insere mil documentos, diz que quer esses, aqueles e outros dados deles, e a Reliant os analisa e encontra essas informações - quer estejam perfeitamente rotuladas e estruturadas ou (mais provavelmente) não estejam. Em seguida, ele apresenta todos esses dados e quaisquer análises que você deseja em uma interface agradável para que você possa se aprofundar em casos individuais.

"Nossos usuários precisam ser capazes de trabalhar com todos os dados de uma vez, e estamos desenvolvendo recursos para permitir que eles editem os dados disponíveis, ou vão dos dados para a literatura; vemos nosso papel como ajudar os usuários a encontrar onde devem concentrar sua atenção", disse Moritz.

Essa aplicação personalizada e eficaz de IA - não tão chamativa como um amigo digital, mas quase certamente muito mais viável - poderia acelerar a ciência em várias áreas altamente técnicas. Os investidores notaram, financiando uma rodada semente de US$11,3 milhões; Tola Capital e Inovia Capital lideraram a rodada, com a participação do anjo Mike Volpi.

Como qualquer aplicação de IA, a tecnologia da Reliant é muito intensiva em computação, razão pela qual a empresa comprou seu próprio hardware em vez de alugá-lo de um dos grandes fornecedores. Ter hardware interno oferece tanto risco quanto recompensa: você precisa fazer essas máquinas caras pagarem por si mesmas, mas tem a chance de abrir o problema com computação dedicada.

"Uma coisa que descobrimos é que é muito desafiador dar uma boa resposta se você tem pouco tempo para fornecer essa resposta", explicou Moritz - por exemplo, se um cientista pedir ao sistema para realizar uma tarefa de extração ou análise inovadora em cem artigos. Pode ser feito rapidamente ou bem, mas não ambos - a menos que prevejam o que os usuários podem perguntar e descubram a resposta, ou algo semelhante, antecipadamente.

"A questão é que muitas pessoas têm as mesmas perguntas, então podemos encontrar as respostas antes que elas perguntem, como ponto de partida", disse Bellemare, o diretor científico da startup. "Podemos destilar 100 páginas de texto em algo mais simples, que pode não ser exatamente o que você deseja, mas é mais fácil para nós trabalharmos."

Pense da seguinte forma: se você fosse extrair o significado de mil romances, esperaria que alguém pedisse os nomes dos personagens para ir atrás e pegá-los? Ou você simplesmente faria esse trabalho antecipadamente (juntamente com coisas como locais, datas, relacionamentos, etc.) sabendo que os dados provavelmente serão solicitados? Certamente o último - se você tivesse a capacidade de cálculo para isso.