DeepSeek anunciou oficialmente que está testando um novo modelo grande, que pode ser o V4 Lite

Houve uma explosão de IA doméstica nos últimos dias. GLM-5, Minimax 2.5 e DeepSeek lançaram novos modelos grandes no mesmo dia, dia 11, entre os quais o DeepSeek naturalmente atraiu mais atenção. Já relatamos que esta atualização melhora principalmente a capacidade de contexto, atingindo 1M, enquanto a série DeepSee V3 anterior era de 128K, o que é 7 vezes maior que o modelo grande da série V3 anterior.

DeepSeek também confirmou isso oficialmente no grupo oficial esta noite,Indica que a página da web e a versão do APP estão testando uma nova estrutura de modelo de texto longo e suportam contexto de 1 milhão.

Ao mesmo tempo, DeepSeek também enfatizou que o serviço API não mudou. Ainda é um modelo grande da série V3.2 e suporta apenas contexto de 128K.

A julgar pela introdução do DeepSeek, este novo modelo ainda é um modelo de texto. A principal melhoria é a capacidade contextual, que também é muito importante em muitos campos. Durante longas conversas, é fácil para modelos grandes não conseguirem lembrar o conteúdo anterior devido ao contexto insuficiente.

Embora tenha havido muitos testes reais na Internet mostrando que este modelo grande do DeepSeek melhorou muito em termos de programação, velocidade de saída, etc., mas em comparação com as expectativas anteriores, esta atualização é inevitavelmente um pouco decepcionante.

O modelo grande desta vez obviamente não é o V4, mas mais provavelmente o V4 Lite, porque o número de parâmetros é relatado como sendo de apenas 200 bilhões, o que é muito menos do que os 670 bilhões da série V3, então é normal que alguns recursos sejam piores que o V3.

Especula-se que este modelo seja o V4 lite. É improvável que a DeepSeek lance apenas um grande modelo V4 no futuro. Em vez disso, haverá versões diferentes. Cada série tem direções e designs diferentes. O atual V4 Lite é apenas um desbravador, portanto não há muitas melhorias. Além disso, os responsáveis da DeepSeek não detalharam a sua arquitetura técnica e mais informações ainda não foram divulgadas.

A suposta versão completa do DeepSeek V4 tem 1,5 trilhão de parâmetros, mais que o dobro da série V3.Novas tecnologias como Engram e mHC previamente estudadas pela DeepSeek também serão utilizadas.O desempenho é amplamente melhorado enquanto o custo ainda é baixo. Essa expectativa ainda é muito alta.