Na explosão da IA generativa, dados são o novo petróleo. Então, por que você não deveria poder vender o seu próprio?
De grandes empresas de tecnologia a startups, os criadores de IA estão licenciando e-books, imagens, vídeos, áudio e muito mais de corretores de dados, tudo em busca de treinar produtos de IA mais capazes (e mais legalmente defensáveis). A Shutterstock tem acordos com o Meta, Google, Amazon e Apple para fornecer milhões de imagens para o treinamento de modelos, enquanto a OpenAI assinou acordos com várias organizações de notícias para treinar seus modelos em arquivos de notícias.
Em muitos casos, os criadores e proprietários individuais desses dados não viram um centavo do dinheiro em circulação. Uma startup chamada Vana quer mudar isso.
Anna Kazlauskas e Art Abal, que se conheceram em uma aula no MIT Media Lab focada em construir tecnologia para mercados emergentes, fundaram a Vana em 2021. Antes da Vana, Kazlauskas estudou ciência da computação e economia no MIT, eventualmente saindo para lançar uma startup de automação fintech, Iambiq, na Y Combinator. Abal, advogado corporativo por formação e educação, era associado na The Cadmus Group, uma consultoria com sede em Boston, antes de liderar o impact sourcing na empresa de anotação de dados Appen.
Com a Vana, Kazlauskas e Abal se propuseram a construir uma plataforma que permite aos usuários "agrupar" seus dados - incluindo bate-papos, gravações de voz e fotos - em conjuntos de dados que podem então ser usados para treinamento de modelos de IA generativa. Eles também querem criar experiências mais personalizadas - por exemplo, um correio de voz motivacional diário baseado em seus objetivos de bem-estar, ou um aplicativo gerador de arte que entende suas preferências de estilo - ajustando modelos públicos com base nesses dados.
"A infraestrutura da Vana cria efetivamente um tesouro de dados de propriedade do usuário", disse Kazlauskas ao TechCrunch. "Ele faz isso permitindo que os usuários agreguem seus dados pessoais de uma maneira não custodial ... A Vana permite que os usuários possuam modelos de IA e usem seus dados em aplicativos de IA."
Aqui está como a Vana apresenta sua plataforma e API para desenvolvedores:
A API da Vana conecta os dados pessoais de um usuário em várias plataformas ... para permitir que você personalize o seu aplicativo. Seu aplicativo obtém acesso instantâneo a um modelo de IA personalizado de um usuário ou aos dados subjacentes, simplificando o embarque e eliminando preocupações com custos de computação. ... Achamos que os usuários devem poder trazer seus dados pessoais de jardins murados, como Instagram, Facebook e Google, para o seu aplicativo, para que você possa criar experiências personalizadas incríveis desde o primeiro contato de um usuário com seu aplicativo de IA para o consumidor.
Criar uma conta com a Vana é bastante simples. Após confirmar seu e-mail, você pode anexar dados a um avatar digital (por exemplo, selfies, uma descrição de si mesmo e gravações de voz) e explorar aplicativos construídos usando a plataforma e conjuntos de dados da Vana. A seleção de aplicativos varia de chatbots estilo ChatGPT e livros de histórias interativos a um gerador de perfil do Hinge.
Créditos da imagem: Vana
Agora, você pode estar se perguntando - nesta era de aumento da conscientização sobre privacidade de dados e ataques de ransomware - por que alguém voluntariamente forneceria suas informações pessoais a uma startup anônima, muito menos a uma apoiada por capital de risco? (A Vana arrecadou US$ 20 milhões até o momento da Paradigm, Polychain Capital e outros investidores.) Alguma empresa orientada por lucro realmente pode ser confiável para não abusar ou manipular quaisquer dados monetizáveis que obtenha?
Créditos da imagem: Vana
Em resposta a essa pergunta, Kazlauskas destacou que o objetivo da Vana é que os usuários "retomem o controle sobre seus dados", observando que os usuários da Vana têm a opção de hospedar seus dados por conta própria em vez de armazená-los nos servidores da Vana e controlar como seus dados são compartilhados com aplicativos e desenvolvedores. Ela também argumentou que, porque a Vana ganha dinheiro cobrando dos usuários uma assinatura mensal (a partir de US$ 3,99) e aplicando uma taxa de "transação de dados" aos desenvolvedores (por exemplo, para transferir conjuntos de dados para treinamento de modelos de IA), a empresa não tem incentivo para explorar os usuários e os tesouros de dados pessoais que trazem consigo.
"Queremos criar modelos de propriedade e governança dos usuários que contribuam com seus dados", disse Kazlauskas, "e permitir que os usuários tragam seus dados e modelos com eles para qualquer aplicativo."
Agora, embora a Vana não esteja vendendo dados dos usuários para empresas para treinamento de modelos de IA generativa (pelo menos é o que ela afirma), ela quer permitir que os usuários façam isso por conta própria, se escolherem - começando com seus posts no Reddit.
Neste mês, a Vana lançou o que está chamando de Reddit Data DAO (Organização Autônoma Digital), um programa que reúne os dados do Reddit de vários usuários (incluindo seu karma e histórico de postagens) e permite que eles decidam juntos como esses dados combinados serão usados. Depois de se juntar com uma conta do Reddit, enviar uma solicitação ao Reddit para seus dados e fazer upload desses dados para o DAO, os usuários ganham o direito de votar ao lado de outros membros do DAO em decisões como licenciar os dados combinados para empresas de IA generativa em busca de lucro compartilhado.
Nós fizemos as contas e r/datadao é agora a maior DAO de dados da história: a Fase 1 recebeu 141.000 usuários do Reddit com 21.000 uploads completos de dados.
— r/datadao (@rdatadao) 11 de abril de 2024
É uma espécie de resposta às recentes iniciativas do Reddit para comercializar dados em sua plataforma.
Anteriormente, o Reddit não restringia o acesso a postagens e comunidades para fins de treinamento de IA generativa. Mas ele mudou de posição no final do ano passado, antes de sua IPO. Desde a mudança de política, o Reddit arrecadou mais de US$ 203 milhões em taxas de licenciamento de empresas, incluindo o Google.
"A ideia principal [com o DAO é] liberar dados de usuários das principais plataformas que buscam reter e monetizar", disse Kazlauskas. "Isso é um começo e faz parte de nosso esforço para ajudar as pessoas a agruparem seus dados em conjuntos de dados de propriedade dos usuários para treinar modelos de IA."
Como era de se esperar, o Reddit - que não está trabalhando oficialmente com a Vana - não está satisfeito com o DAO.
O Reddit baniram o subreddit da Vana dedicado à discussão sobre o DAO. E um porta-voz do Reddit acusou a Vana de "explorar" seu sistema de exportação de dados, que é projetado para cumprir regulamentos de privacidade de dados como o GDPR e a Lei de Privacidade do Consumidor da Califórnia.
"Nossos acordos de dados nos permitem impor limites a essas entidades, mesmo em informações públicas", disse o porta-voz ao TechCrunch. "O Reddit não compartilha dados pessoais não públicos com empresas comerciais e, quando os usuários do Reddit solicitam uma exportação de seus dados para nós, eles recebem dados pessoais não públicos de volta de acordo com as leis aplicáveis. Parcerias diretas entre o Reddit e organizações verificadas, com termos claros e responsabilidade, são importantes, e essas parcerias e acordos impedem o mau uso e abuso dos dados das pessoas."
Mas o Reddit realmente tem motivos para se preocupar?
Kazlauskas prevê que o DAO cresça a ponto de impactar a quantidade que o Reddit pode cobrar dos clientes por seus dados. Isso está longe de acontecer, se é que acontece; o DAO tem pouco mais de 141.000 membros, uma pequena fração dos 73 milhões de usuários do Reddit. E alguns desses membros podem ser bots ou contas duplicadas.
Além disso, há a questão de como distribuir de maneira justa os pagamentos que o DAO possa receber dos compradores de dados.
Atualmente, o DAO concede "tokens" - criptomoedas - aos usuários correspondentes ao seu karma do Reddit. Mas o karma pode não ser a melhor medida de contribuições de qualidade para o conjunto de dados - especialmente em comunidades menores do Reddit com menos oportunidades para ganhá-lo.
Kazlauskas sugere a ideia de que os membros do DAO poderiam optar por compartilhar seus dados multiplataforma e demográficos, tornando o DAO potencialmente mais valioso e incentivando inscrições. Mas isso também exigiria que os usuários confiassem ainda mais na Vana para tratar seus dados sensíveis de forma responsável.
Pessoalmente, não vejo o DAO da Vana atingindo massa crítica. Os obstáculos no caminho são muitos. No entanto, acredito que não será a última tentativa popular de afirmar o controle sobre os dados cada vez mais utilizados para treinar modelos de IA generativa.
Startups como a Spawning estão trabalhando em maneiras de permitir que os criadores imponham regras orientando como seus dados são usados para treinamento, enquanto fornecedores como Getty Images, Shutterstock e Adobe continuam a experimentar esquemas de compensação. Mas ninguém conseguiu desvendar o código ainda. Será que ele pode realmente ser desvendado? Dada a natureza implacável da indústria de IA generativa, certamente é uma tarefa árdua. Mas talvez alguém encontre uma maneira - ou os formuladores de políticas forçarão uma solução.