Faltam apenas alguns dias para o final de abril, e o lançamento do modelo grande DeepSeek V4 tocou o coração das pessoas. Ontem, os pesquisadores da empresa atualizaram repentinamente a biblioteca do operador DeepGEMM, considerada precursora do lançamento do V4. No entanto, eles obviamente anteciparam a reação do mundo exterior e adicionaram uma explicação adicional após a atualização,Ressalta-se que esta atualização está relacionada apenas ao desenvolvimento do DeepGEMM e não tem nada a ver com o lançamento do modelo interno.Ou seja, não pense muito, isso não significa que o V4 será lançado.

Porém, quanto mais essa afirmação é feita, mais as pessoas se interessam pelo DeepSeek V4, pois há muitos destaques nesta onda de atualizações do DeepGEMM, e ela não pode ser relacionada ao modelo grande V4.

Além de oferecer suporte à operadora híbrida FP8_FP4 e otimizar o suporte para NVIDIA Blackwell, esta atualização inclui principalmente Mega MoE e HyperConnection. O Mega MoE pode trazer uma grande atualização para a arquitetura do MoE.

O Mega MoE tem muitos benefícios e há muitas explicações na Internet.A análise da Gemini sugere que o número de especialistas ativados na V4 será significativamente maior do que os 256 na V3, podendo chegar a milhares.Obviamente, isso melhorará muito o desempenho do V4, mantendo a flexibilidade e sem demandas exageradas de poder de computação e memória de vídeo.

Mais importante ainda, esta atualização do DeepGEMM também sugere a quantidade de parâmetros do modelo grande V4. Os internautas disseram que o MoE de camada única é de aproximadamente 25,37B.Se ainda tiver 60 camadas, então o V4 provavelmente será um modelo grande de 1,6T ou, na pior das hipóteses, será um modelo grande de 1,25T de 48 camadas.

Comparado com rumores anteriores de que o V4 tem 1T trilhões de parâmetros, os parâmetros 1.6T significam que é 60% maior do que as expectativas anteriores, então vale a pena esperar pelo desempenho.

Caso 1.6T não seja realizado, o volume de parâmetros de 1.25T será duplicado em comparação com os 670 bilhões de parâmetros do atual V3. Ainda podemos esperar pelo desempenho. Afinal, se a tecnologia Mega MoE puder ativar milhares de especialistas novamente, será definitivamente uma transformação e um marco no desenvolvimento de grandes modelos de arquitetura MoE.