A organização por trás do conjunto de dados usado para treinar a Difusão Estável afirma ter removido CSAM

LAION, a organização de pesquisa alemã que criou os dados usados para treinar a Difusão Estável, entre outros modelos de IA generativa, lançou um novo conjunto de dados que afirma ter sido 'rigorosamente limpo de links conhecidos para material de abuso sexual infantil suspeito (CSAM)’.

O novo conjunto de dados, Re-LAION-5B, é na verdade um relançamento de um conjunto de dados antigo, LAION-5B - mas com 'correções' implementadas com recomendações da organização sem fins lucrativos Internet Watch Foundation, Human Rights Watch, o Centro Canadense de Proteção à Criança e o agora extinto Observatório de Internet de Stanford. Está disponível para download em duas versões, Re-LAION-5B Research e Re-LAION-5B Research-Safe (que também remove conteúdo NSFW adicional), ambas foram filtradas para milhares de links conhecidos - e 'provavelmente' - para CSAM, segundo a LAION.

“A LAION tem se comprometido a remover conteúdo ilegal de seus conjuntos de dados desde o início e implementou medidas apropriadas para alcançar isso desde o início”, escreveu a LAION em um post no blog. “A LAION adere estritamente ao princípio de que o conteúdo ilegal é removido o mais rápido possível depois de se tornar conhecido”.

Vale ressaltar que os conjuntos de dados da LAION não - e nunca - contêm imagens. Em vez disso, são índices de links para imagens e texto alternativo de imagens que a LAION curou, todos provenientes de um conjunto de dados diferente - o Common Crawl - de sites e páginas da web raspados.

O lançamento do Re-LAION-5B ocorre após uma investigação em dezembro de 2023 pelo Observatório de Internet de Stanford que descobriu que o LAION-5B - especificamente um subconjunto chamado LAION-5B 400M - incluía pelo menos 1.679 links para imagens ilegais raspadas de postagens em redes sociais e sites adultos populares. De acordo com o relatório, o 400M também continha links para 'uma ampla gama de conteúdo inapropriado, incluindo imagens pornográficas, insultos racistas e estereótipos sociais prejudiciais'.

Embora os coautores do relatório da Stanford tenham observado que seria difícil remover o conteúdo ofensivo e que a presença de CSAM não necessariamente influencia a saída dos modelos treinados no conjunto de dados, a LAION disse que temporariamente tiraria o LAION-5B do ar.

O relatório da Stanford recomendou que os modelos treinados no LAION-5B 'deveriam ser descontinuados e a distribuição cessada onde possível'. Talvez relacionado, a startup de IA Runway recentemente retirou seu modelo Stable Diffusion 1.5 da plataforma de hospedagem de IA Hugging Face; entramos em contato com a empresa para mais informações. (A Runway em 2023 se uniu à Stability AI, a empresa por trás da Difusão Estável, para ajudar no treinamento do modelo original de Difusão Estável).

Do novo conjunto de dados Re-LAION-5B, que contém cerca de 5,5 bilhões de pares de texto e imagem e foi lançado sob a licença Apache 2.0, a LAION diz que os metadados podem ser usados por terceiros para limpar cópias existentes do LAION-5B removendo o conteúdo ilegal correspondente.

A LAION enfatiza que seus conjuntos de dados são destinados a fins de pesquisa - não comerciais. Mas, se a história for um indicativo, isso não dissuadirá algumas organizações. Além da Stability AI, o Google já usou conjuntos de dados da LAION para treinar seus modelos geradores de imagens.

“No total, 2.236 links [para CSAM suspeitos] foram removidos após corresponder com as listas de links e hashes de imagem fornecidas por nossos parceiros”, continuou a LAION no post. “Esses links também englobam 1008 links encontrados no relatório do Observatório de Internet de Stanford em dezembro de 2023... Instamos fortemente todos os laboratórios de pesquisa e organizações que ainda usam o antigo LAION-5B a migrar para os conjuntos de dados Re-LAION-5B o mais rápido possível”.