De acordo com pessoas familiarizadas com o assunto, a empresa chinesa de inteligência artificial DeepSeek planeja lançar a última geração do modelo de linguagem grande V4 na próxima semana. Esta é a primeira grande atualização da empresa desde o lançamento do seu último produto de grande sucesso, há mais de um ano. É considerado um passo importante para a China continuar a desafiar os concorrentes americanos no domínio da inteligência artificial.

Segundo duas pessoas familiarizadas com a situação, a DeepSeek está sediada em Hangzhou, e o V4 lançado desta vez será um modelo multimodal com capacidade de geração de imagem, vídeo e texto. Várias pessoas familiarizadas com o assunto disseram que a DeepSeek cooperou com os fabricantes locais de chips de IA da China, Huawei e Cambrian, para personalizar e otimizar o V4 para se adaptar aos produtos de chips de última geração de ambas as partes, formando assim uma colaboração mais estreita no nível de poder de computação. Esta medida é vista como mais um sinal de que as empresas tecnológicas chinesas estão a acelerar o afastamento da dependência dos chips de IA topo de gama da Nvidia, que estão actualmente sujeitos a controlos de exportação dos EUA e medidas relacionadas destinadas a conter a ascensão tecnológica da China.
O momento deste lançamento também é bastante simbólico. A DeepSeek planeja lançar o V4 na véspera das “Duas Sessões” nacionais anuais da China, que este ano serão abertas em 4 de março. Esta reunião política de alto nível fornece à empresa uma importante janela de exposição e pode solidificar ainda mais sua imagem como uma “campeã nacional de IA”.
Esta é a primeira iteração de versão principal do DeepSeek desde o lançamento do modelo de inferência R1 em janeiro de 2025. Naquela época, a empresa alegou ter treinado um sistema que era comparável em capacidade aos modelos líderes com uma escala de poder de computação muito inferior à usada pelas empresas líderes no Vale do Silício. Esta notícia já causou choque no mercado de ações de tecnologia dos EUA. Alguns analistas descreveram-no como um “momento Sputnik” que marcou a rápida recuperação e até mesmo a reescrita da paisagem da China no campo da inteligência artificial. Desde então, a DeepSeek lançou mais atualizações incrementais do que uma arquitetura totalmente nova, o que também deu aos concorrentes nacionais, incluindo Alibaba e Moonshot, espaço adicional para crescimento no mercado de modelos chineses de baixo custo e código aberto.
Várias pessoas familiarizadas com o assunto prevêem que a otimização do V4 da DeepSeek especificamente para chips domésticos de IA ajudará a aumentar a demanda do mercado por chips locais e acelerará a transferência para fabricantes chineses como Huawei e Cambrian no estágio de inferência de modelo (ou seja, o processo de uso de modelos treinados para gerar respostas), reduzindo a dependência de chips Nvidia e AMD. A Reuters já havia relatado o progresso da cooperação da DeepSeek com Huawei e Cambrian. Outra pessoa familiarizada com a situação disse que DeepSeek não está trabalhando com a Nvidia na otimização V4.
No entanto, no campo do treinamento de modelos, a NVIDIA ainda domina, especialmente na fase de pré-treinamento que requer grande poder de computação, e sua GPU ainda é o padrão da indústria. O Financial Times informou anteriormente que o DeepSeek tentou concluir este treinamento inicial em hardware Huawei, mas encontrou dificuldades técnicas no processo. Quando a empresa lançou o modelo R1 no ano passado, também publicou um relatório técnico detalhado explicando como treinar e executar o modelo de forma mais eficiente em chips NVIDIA. Os métodos de engenharia relevantes têm recebido ampla atenção e elogios. Alguns especialistas acreditam que o compartilhamento do DeepSeek de seus métodos de treinamento para a construção de "modelos de inferência" na verdade fornece a outros laboratórios um caminho de engenharia reutilizável, ajudando estes últimos a melhorar as capacidades de inferência de modelos sob poder de computação limitado.
O chamado “modelo de inferência” refere-se a um paradigma de modelo especificamente otimizado para resolver problemas complexos. Sua ideia central é dividir o problema em vários subproblemas que podem ser resolvidos passo a passo e, em seguida, tirar a conclusão final por meio de raciocínio em várias etapas. Pessoas próximas ao plano DeepSeek revelaram que a empresa deverá lançar o V4 na próxima semana com um documento de descrição técnica mais curto com foco nos principais pontos de melhoria, e lançar um relatório técnico mais detalhado cerca de um mês depois para divulgar sistematicamente a arquitetura do modelo e os métodos de treinamento.
Ao mesmo tempo, a controvérsia em torno da propriedade intelectual e do “empréstimo” de modelos também está a aquecer. No início desta semana, a empresa americana de IA Anthropic acusou DeepSeek e dois outros laboratórios chineses de IA de realizar os chamados "ataques de destilação" aos seus modelos, ou seja, utilizar a saída de modelos mais poderosos para treinar modelos pequenos, para que estes últimos possam aproximar-se do desempenho dos primeiros sem utilizar diretamente o mesmo nível de recursos computacionais. Huawei, DeepSeek e Cambrian não responderam aos pedidos de comentários.