O novo modelo de IA da DeepSeek parece ser um dos melhores desafiantes 'abertos' até agora

Um laboratório chinês criou o que parece ser um dos modelos de IA 'abertos' mais poderosos até agora.

O modelo, DeepSeek V3, foi desenvolvido pela empresa de IA DeepSeek e foi lançado na quarta-feira sob uma licença permissiva que permite aos desenvolvedores baixá-lo e modificá-lo para a maioria das aplicações, incluindo comerciais.

O DeepSeek V3 pode lidar com uma variedade de cargas de trabalho e tarefas baseadas em texto, como codificação, tradução e redação de ensaios e e-mails a partir de um prompt descritivo.

De acordo com os testes de benchmarking internos da DeepSeek, o DeepSeek V3 supera tanto os modelos 'abertos' disponíveis para download quanto os modelos de IA 'fechados' que só podem ser acessados através de uma API. Em um subconjunto de competições de codificação hospedadas no Codeforces, uma plataforma para concursos de programação, o DeepSeek supera outros modelos, incluindo o Llama 3.1 405B da Meta, o GPT-4o da OpenAI e o Qwen 2.5 72B da Alibaba.

O DeepSeek V3 também supera a concorrência no Aider Polyglot, um teste projetado para medir, entre outras coisas, se um modelo consegue escrever novo código que se integre ao código existente.

DeepSeek-V3!

60 tokens/segundo (3x mais rápido que V2!)
Compatibilidade com API intacta
Modelos e papers totalmente de código aberto
Parâmetros MoE de 671B
Parâmetros ativados de 37B
Treinado em 14,8T de tokens de alta qualidade

Vence o Llama 3.1 405b em quase todos os benchmarks https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf

- Chubby♨️ (@kimmonismus) 26 de dezembro de 2024

DeepSeek afirma que o DeepSeek V3 foi treinado em um conjunto de dados de 14,8 trilhões de tokens. Na ciência de dados, tokens são usados para representar pedaços de dados brutos - 1 milhão de tokens equivale a cerca de 750.000 palavras.

Não é apenas o conjunto de treinamento que é massivo. O DeepSeek V3 é enorme em tamanho: 671 bilhões de parâmetros, ou 685 bilhões na plataforma de desenvolvimento de IA Hugging Face. (Parâmetros são as variáveis internas que os modelos usam para fazer previsões ou decisões.) Isso é cerca de 1,6 vezes o tamanho do Llama 3.1 405B, que possui 405 bilhões de parâmetros.

DeepSeek (co chinesa de IA) tornando fácil hoje com um lançamento de pesos abertos de um LLM de classe de fronteira treinado com um orçamento de piada (2048 GPUs por 2 meses, $6M).

Para referência, esse nível de capacidade deve exigir clusters de aproximadamente 16K GPUs, os que estão sendo ... https://t.co/EW7q2pQ94B

- Andrej Karpathy (@karpathy) 26 de dezembro de 2024

A contagem de parâmetros muitas vezes (mas nem sempre) se correlaciona com a habilidade; modelos com mais parâmetros tendem a superar modelos com menos parâmetros. Mas modelos grandes também exigem hardware mais robusto para funcionar. Uma versão não otimizada do DeepSeek V3 precisaria de um banco de GPUs de alta qualidade para responder a perguntas em velocidades razoáveis.

Embora não seja o modelo mais prático, o DeepSeek V3 é uma conquista em alguns aspectos. A DeepSeek conseguiu treinar o modelo usando um data center de GPUs Nvidia H800 em cerca de dois meses - GPUs que empresas chinesas foram recentemente restritas pelo Departamento de Comércio dos Estados Unidos de adquirir. A empresa também afirma ter gasto apenas US $5,5 milhões para treinar o DeepSeek V3, uma fração do custo de desenvolvimento de modelos como o GPT-4 da OpenAI.

O lado negativo é que as opiniões políticas do modelo são um pouco ... rígidas. Pergunte ao DeepSeek V3 sobre a Praça da Paz Celestial, por exemplo, e ele não responderá.

Créditos da imagem: Anychat

A DeepSeek, sendo uma empresa chinesa, está sujeita a benchmarking pelo regulador de internet da China para garantir que as respostas de seus modelos 'incorporem valores socialistas fundamentais'.

Muitos sistemas de IA chineses se recusam a responder a temas que possam irritar os reguladores, como especulações sobre o regime de Xi Jinping.

A DeepSeek, que em fins de novembro apresentou o DeepSeek-R1, uma resposta ao modelo de 'raciocínio' o1 da OpenAI, é uma organização curiosa. Ela é apoiada pela High-Flyer Capital Management, um hedge fund quantitativo chinês que usa IA para informar suas decisões de negociação.

A High-Flyer constrói seus próprios clusters de servidores para treinamento de modelo, um dos mais recentes dos quais custou 1 bilhão de ienes (~$138 milhões) e tem 10.000 GPUs Nvidia A100. Fundado por Liang Wenfeng, formado em ciência da computação, a High-Flyer tem como objetivo alcançar uma IA 'superinteligente' por meio de sua organização DeepSeek.

Em uma entrevista no início deste ano, Wenfeng caracterizou a IA de código fechado como um 'fosso temporário'. '[Isso] não impediu outros de alcançar', observou ele.

De fato.


O TechCrunch tem um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo em sua caixa de entrada todas as quartas-feiras.