Por que o novo modelo de IA da DeepSeek pensa que é o ChatGPT

\n

Esta semana, a DeepSeek, um laboratório de IA chinês bem financiado, lançou um modelo de IA "aberto" que supera muitos concorrentes em benchmarks populares. O modelo, DeepSeek V3, é grande, mas eficiente, lidando com tarefas baseadas em texto, como codificação e redação de ensaios com facilidade.

\n

Parece também pensar que é o ChatGPT.

\n

Postagens na X — e os próprios testes do TechCrunch — mostram que a DeepSeek V3 se identifica como ChatGPT, a plataforma de chatbot alimentada por IA da OpenAI. Ao pedir detalhes, a DeepSeek V3 insiste que é uma versão do modelo GPT-4 da OpenAI lançado em 2023.

\n
\n

Isso realmente se reproduz até hoje. Em 5 de 8 gerações, a DeepSeek V3 afirma ser o ChatGPT (v4), enquanto se identifica como DeepSeek V3 apenas 3 vezes.

\n

Dá uma ideia aproximada da distribuição de seus dados de treinamento. https://t.co/Zk1KUppBQM pic.twitter.com/ptIByn0lcv

\n

— Lucas Beyer (bl16) (@giffmana) 27 de dezembro de 2024

\n
\n

As ilusões são profundas. Se você fizer uma pergunta à DeepSeek V3 sobre a API da DeepSeek, ela lhe dará instruções sobre como usar a API da OpenAI. A DeepSeek V3 até conta algumas das mesmas piadas que o GPT-4 — até os desfechos.

\n

Então, o que está acontecendo?

\n

Modelos como ChatGPT e DeepSeek V3 são sistemas estatísticos. Treinados em bilhões de exemplos, eles aprendem padrões nesses exemplos para fazer previsões — como o padrão de que "a quem" em um e-mail geralmente precede "pode se preocupar com isso".

\n

A DeepSeek não revelou muito sobre a origem dos dados de treinamento da DeepSeek V3. Mas não faltam conjuntos de dados públicos contendo texto gerado pelo GPT-4 via ChatGPT. Se a DeepSeek V3 foi treinada com esses dados, o modelo pode ter memorizado algumas saídas do GPT-4 e agora está regurgitando-as textualmente.

\n

“Obviamente, o modelo está vendo respostas diretas do ChatGPT em algum momento, mas não está claro onde isso acontece”, disse Mike Cook, pesquisador da King’s College London especializado em IA, ao TechCrunch. “Pode ser ‘acidental’ ... mas, infelizmente, vimos casos de pessoas treinando diretamente seus modelos com as saídas de outros modelos para tentar aproveitar o conhecimento deles.”

\n

Cook observou que a prática de treinar modelos com saídas de sistemas de IA concorrentes pode ser “muito prejudicial” para a qualidade do modelo, pois pode levar a alucinações e respostas enganosas como as mencionadas acima. “Assim como tirar uma cópia de uma cópia, perdemos cada vez mais informações e conexão com a realidade”, disse Cook.

\n

Também pode ser contra os termos de serviço desses sistemas.

\n

Os termos da OpenAI proíbem os usuários de seus produtos, incluindo os clientes do ChatGPT, de usar as saídas para desenvolver modelos que concorram com os da própria OpenAI.

\n

A OpenAI e a DeepSeek não responderam imediatamente aos pedidos de comentário. No entanto, o CEO da OpenAI, Sam Altman, postou o que parecia ser uma provocação à DeepSeek e outros concorrentes na X na sexta-feira.

\n

“É (relativamente) fácil copiar algo que você sabe que funciona”, escreveu Altman. “É extremamente difícil fazer algo novo, arriscado e difícil quando você não sabe se vai funcionar.”

\n

É certo que a DeepSeek V3 está longe de ser o primeiro modelo a se identificar erroneamente. O Gemini do Google e outros às vezes afirmam ser modelos concorrentes. Por exemplo, ao ser questionado em mandarim, o Gemini diz que é o chatbot Wenxinyiyan da empresa chinesa Baidu.

\n

E isso porque a web, de onde as empresas de IA obtêm a maior parte de seus dados de treinamento, está se tornando um depósito de lixo de IA. Fazendas de conteúdo estão usando IA para criar cliques. Bots estão inundando o Reddit e a X. Segundo uma estimativa, 90% da web pode ser gerada por IA até 2026.

\n

Essa “contaminação”, por assim dizer, tornou bastante difícil filtrar completamente as saídas de IA dos conjuntos de treinamento.

\n

É possível que a DeepSeek tenha treinado a DeepSeek V3 diretamente no texto gerado pelo ChatGPT. A propósito, o Google já foi acusado de fazer o mesmo.

\n

Heidy Khlaaf, cientista-chefe de IA do AI Now Institute, disse que a economia de custos ao “destilar” o conhecimento de um modelo existente pode ser atraente para os desenvolvedores, independentemente dos riscos.

\n

“Mesmo com os dados da internet agora transbordando de saídas de IA, outros modelos que, inadvertidamente, treinariam as saídas do ChatGPT ou GPT-4 não necessariamente demonstrariam saídas que lembram mensagens personalizadas da OpenAI”, disse Khlaaf. “Se for o caso de a DeepSeek ter realizado a destilação parcialmente usando modelos da OpenAI, isso não seria surpreendente”.

\n

Mais provável, no entanto, é que muitos dados do ChatGPT/GPT-4 tenham chegado ao conjunto de treinamento da DeepSeek V3. Isso significa que o modelo não pode ser confiável para se auto-identificar, por um lado. Mas o que é mais preocupante é a possibilidade de a DeepSeek V3, ao absorver e iterar de forma acrítica nas saídas do GPT-4, poder agravar alguns dos vieses e falhas do modelo.

\n

O TechCrunch possui um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo em sua caixa de entrada todas as quartas-feiras.

\n