Se você pudesse resumir o ritmo atual do grande círculo do modelo de IA em uma palavra, “velocidade DeepSeek” não poderia ser mais apropriado. Menos de cinco dias após o lançamento da versão somente texto do V4, o oficial organizou uma blitz de preços de “três rodadas de quedas consecutivas de preços”. Antes que a indústria pudesse se recuperar, o próximo trunfo já havia surgido – o V4 “completo” com capacidades multimodais, entrando oficialmente na contagem regressiva para o lançamento.
O pesquisador principal revela pessoalmente: A habilidade visual nativa está chegando
Chen Xiaokang, membro central da equipe multimodal DeepSeek, publicou recentemente um artigo sobre a plataforma X, anunciando claramente que a “nova versão do DeepSeek V4” está chegando. Combinado com o contexto atual, é quase certo que esta “nova versão” será a tão esperada versão multimodal.
Desde o lançamento do V4, a maior discussão acalorada e um traço de arrependimento na indústria apontam para a mesma coisa: apenas dois modelos somente de texto, Flash (rápido) e Pro (especialista), foram lançados na primeira onda. As capacidades de texto puro são certamente a base, mas na grande arena de modelos de hoje, a “multimodalidade nativa” tem sido há muito tempo a passagem para os escalões superiores. Sem compreensão visual de imagens e vídeos, o limite superior do modelo em cenas reais complexas ficará firmemente bloqueado. O lançamento da versão multimodal desta vez é um passo fundamental para o DeepSeek compensar a última deficiência.
O APP já deu uma dica: não se trata de pontos corridos, mas de “acessibilidade”

Usuários cuidadosos descobriram que após a recente atualização do cliente DeepSeek, a barra de seleção de modelo adicionou silenciosamente três opções independentes: “Rápido”, “Especialista” e “Visual”. Os dois primeiros correspondem ao Flash e Pro do V4, e a opção “Visual”, que estava no estado “a ser ativado”, é obviamente uma interface reservada para a próxima nova versão do multimodal V4.
Quanto a que classificação este V4 multimodal completo pode alcançar em termos de hard power? Nenhum dado específico está disponível ainda. No entanto, referindo-se ao desempenho dominante do V4 Pro no campo de texto simples, a indústria geralmente prevê que suas capacidades visuais estarão pelo menos firmemente no primeiro escalão - no entanto, isso nunca foi o que mais preocupa o DeepSeek.
O verdadeiro trunfo: “derrubar” o preço da multimodalidade
Para o DeepSeek, que sempre seguiu um caminho não convencional, avançar cegamente para o ranking não é o objetivo principal. “Reduzir o preço dos grandes modelos multimodais para preços de repolho, para que os desenvolvedores e usuários comuns possam realmente comprá-los” é o seu verdadeiro trunfo. Lembre-se de que o V4 realizou “três rodadas de cortes de preços” apenas cinco dias após seu lançamento. Se o custo das chamadas API multimodais subsequentes também for reduzido ao preço mínimo, a remodelação da indústria será muito mais intensa do que a guerra de preços no campo do texto simples.
Resumo de uma frase: A chegada da versão multimodal V4 não é apenas uma capacidade complementar, mas também o ponto de partida para o DeepSeek derrubar a tabela de preços da pista multimodal.