Este modelo obteve uma licença do MIT, o que significa que pode ser usado livremente para fins comerciais, e os primeiros testes na indústria confirmaram que o modelo pode ser executado diretamente em hardware de consumo, como o Apple MacStudio de mercado de última geração.
A pesquisadora de IA Awni Hannun disse que o novo modelo DeepSeek-V3 pode rodar a uma velocidade de 20 tokens por segundo em um computador Apple equipado com um chip M3 Ultra. Isto quebra o consenso anterior da indústria sobre o conflito entre as capacidades do modelo de inteligência artificial e a operação localizada, e também significa que os data centers não são uma combinação necessária para grandes modelos.
Outro pesquisador de inteligência artificial, Xeophon, afirmou no X que depois de testar a nova versão do DeepSeek-V3 em uma bancada interna, descobriu que havia dado um grande salto em todos os indicadores testados. É agora o melhor modelo não inferencial, superando o Claude Sonnet 3.5 da Oracle.
Discreto, mas sensacional
DeepSeek-V3-0324 foi lançado sem white paper ou qualquer publicidade, apenas um arquivo ReadMe vazio. Esta forma de lançamento quase austera contrasta fortemente com o modelo de promoção de produtos cuidadosamente selecionado do Vale do Silício.
Ao mesmo tempo, os modelos do DeepSeek são todos de código aberto e gratuitos para qualquer pessoa baixar e usar, ao contrário de um dos melhores modelos comerciais, ClaudeSonnet, que cobra uma taxa mensal de US$ 20.
Além disso, o DeepSeek reimagina fundamentalmente a forma como grandes modelos de linguagem operam, ativando apenas cerca de 37 bilhões de parâmetros em vez de todos os chamados módulos “especialistas”, durante uma tarefa específica, o que reduz bastante os requisitos computacionais.
O modelo também apresenta duas outras tecnologias inovadoras: Atenção Multi-Latente (MLA) e Previsão Multi-Tag (MTP). O MLA aprimora a capacidade do modelo de manter o contexto em textos longos, enquanto o MTP gera vários tokens em cada etapa, em vez do método usual de gerar um token por vez. Juntas, essas inovações aumentam a velocidade de produção em quase 80%.
Até certo ponto, o DeepSeek incorpora o espírito da busca final por eficiência e recursos das empresas chinesas, ou seja, como alcançar desempenho igual ou mais otimizado com recursos computacionais limitados. Esta inovação impulsionada pela procura permitiu que a inteligência artificial da China chocasse o mundo em poucos meses.
As mudanças no novo modelo da DeepSeek também são de grande importância para a indústria. Por um lado, reduz enormemente o consumo de energia e os custos de computação dos grandes modelos, abalando ainda mais os pressupostos de Wall Street sobre a escala do investimento em infra-estruturas de modelos de topo. Por outro lado, o amplo consenso sobre o código aberto na indústria de inteligência artificial da China promoveu rapidamente o desenvolvimento da indústria nacional de IA, encurtando continuamente a distância entre esta e os principais adversários do mundo.
Outros acreditam que, com a rápida recuperação do DeepSeek, o modelo R2 que planeja lançar em abril pode desafiar diretamente o modelo GPT-5 da OpenAI, há muito divulgado. Se esta perspectiva realmente acontecer, então as diferentes ideias da China e dos Estados Unidos no desenvolvimento da inteligência artificial poderão dar início a um confronto directo.