
Empresas chinesas continuam a lançar modelos de IA que rivalizam com as capacidades dos sistemas desenvolvidos pela OpenAI e outras empresas de IA dos EUA.
Esta semana, a MiniMax, uma startup apoiada pela Alibaba e Tencent que levantou cerca de US$ 850 milhões em capital de risco e é avaliada em mais de US$ 2,5 bilhões, lançou três novos modelos: MiniMax-Text-01, MiniMax-VL-01 e T2A-01-HD. MiniMax-Text-01 é um modelo apenas de texto, enquanto MiniMax-VL-01 pode entender tanto imagens quanto texto. Já o T2A-01-HD gera áudio, especificamente discurso.
A MiniMax afirma que o MiniMax-Text-01, que tem 456 bilhões de parâmetros, tem um desempenho superior a modelos como o Gemini 2.0 Flash do Google em testes como MATH e SimpleQA, que medem a capacidade de um modelo responder a problemas matemáticos e perguntas de fatos. Parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo e modelos com mais parâmetros geralmente têm um melhor desempenho do que aqueles com menos parâmetros.
Quanto ao MiniMax-VL-01, a MiniMax diz que rivaliza com o Claude 3.5 Sonnet da Anthropic em avaliações que exigem compreensão multimodal, como o ChartQA, que desafia os modelos a responder a perguntas relacionadas a gráficos e diagramas (por exemplo, "Qual é o valor máximo da linha laranja neste gráfico?"). No entanto, o MiniMax-VL-01 não supera o Gemini 2.0 Flash em muitos desses testes. O GPT-4o da OpenAI e o Llama 3.1 da Meta também o vencem em vários testes.
Vale ressaltar que o MiniMax-Text-01 tem uma janela de contexto extremamente grande. O contexto de um modelo se refere à entrada (por exemplo, texto) que um modelo considera antes de gerar a saída (texto adicional). Com uma janela de contexto de 4 milhões de tokens, o MiniMax-Text-01 pode analisar cerca de 3 milhões de palavras de uma só vez - ou um pouco mais de cinco cópias de "Guerra e Paz".
Para referência, a janela de contexto do MiniMax-Text-01 é aproximadamente 31 vezes maior do que a do GPT-4o e do Llama 3.1.
O último dos modelos lançados pela MiniMax esta semana, T2A-01-HD, é um gerador de áudio otimizado para fala. O T2A-01-HD pode gerar uma voz sintética com cadência, tom e timbre ajustáveis em cerca de 17 idiomas diferentes, incluindo inglês e chinês, e clonar uma voz a partir de apenas 10 segundos de uma gravação de áudio.
A MiniMax não publicou resultados de benchmark comparando o T2A-01-HD com outros modelos geradores de áudio. Mas aos ouvidos deste repórter, as saídas do T2A-01-HD soam equivalentes aos modelos de áudio da Meta e de startups como a PlayAI.
Com exceção do T2A-01-HD, que está disponível exclusivamente através da API da MiniMax e da plataforma de IA Hailuo, os novos modelos da MiniMax podem ser baixados do GitHub e da plataforma de desenvolvimento de IA Hugging Face.
Só porque os modelos estão "abertamente" disponíveis não significa que eles não estejam bloqueados em certos aspectos, no entanto. O MiniMax-Text-01 e o MiniMax-VL-01 não são verdadeiramente de código aberto no sentido de que a MiniMax não disponibilizou os componentes (por exemplo, dados de treinamento) necessários para recriá-los do zero. Além disso, eles estão sob a licença restritiva da MiniMax, que proíbe os desenvolvedores de usar os modelos para melhorar modelos de IA concorrentes e exige que plataformas com mais de 100 milhões de usuários ativos mensais solicitem uma licença especial da MiniMax.
A MiniMax foi fundada em 2021 por ex-funcionários da SenseTime, uma das maiores empresas de IA da China. Os projetos da empresa incluem aplicativos como o Talkie, uma plataforma de interpretação de papéis alimentada por IA nos moldes do Character AI, e modelos de texto para vídeo que a MiniMax lançou na Hailuo.
Alguns dos produtos da MiniMax se tornaram objeto de pequenas polêmicas.
O Talkie, que foi removido da App Store da Apple em dezembro por razões técnicas não especificadas, apresenta avatares de IA de figuras públicas, incluindo Donald Trump, Taylor Swift, Elon Musk e LeBron James, nenhum dos quais parece ter consentido em ser apresentado no aplicativo.
Em dezembro, a revista Broadcast relatou que os geradores de vídeo da MiniMax podem reproduzir os logotipos de canais de televisão britânicos, sugerindo que os modelos da MiniMax foram treinados em conteúdo desses canais. E a MiniMax está sendo processada pela iQiyi, um serviço de streaming de vídeo chinês, que alega que a MiniMax treinou ilegalmente em gravações com direitos autorais da iQiyi.>
Os novos modelos da MiniMax chegam dias depois que a administração Biden propôs regras mais rígidas de exportação e restrições sobre tecnologias de IA para empreendimentos chineses. Empresas na China já estavam impedidas de comprar chips de IA avançados, mas se as novas regras entrarem em vigor conforme escritas, as empresas enfrentarão limites mais rígidos tanto na tecnologia de semicondutores quanto nos modelos necessários para inicializar sistemas de IA sofisticados.
Na quarta-feira, a administração Biden anunciou medidas adicionais focadas em manter chips sofisticados fora da China. Fundições de chips e empresas de embalagem que desejam exportar certos chips estarão sujeitas a requisitos de licença mais amplos, a menos que exerçam um escrutínio e due diligence maiores para evitar que seus produtos cheguem aos clientes chineses.