A conferência Nvidia GTC deu início à mudança para chips de IA. A CPU retornará ao centro do palco?

Em 14 de março, de acordo com a CNBC, a unidade de processamento gráfico (GPU) da Nvidia tem sido o chip mais popular no mercado por muitos anos, mas o aumento repentino de agentes de IA trouxe um renascimento para sua unidade central de processamento (CPU) de chip host mais discreta.

O mais recente CPU Vera da Nvidia

Agora, a Nvidia está se preparando para revelar novos detalhes sobre suas CPUs otimizadas para agentes de IA em sua conferência anual GTC, que começa na segunda-feira, quando provavelmente revelará um rack de CPU puro no estande.

“As CPUs estão se tornando um gargalo no dimensionamento dos fluxos de trabalho de IA e de agentes”, disse o diretor de infraestrutura de IA da Nvidia, Dion Harris, à CNBC esta semana. Ele acredita que esta é uma “oportunidade emocionante”.

A Nvidia lançou sua primeira CPU para data center, Grace, em 2021, e seu produto de próxima geração, Vera, já está em produção. Essas CPUs são frequentemente implantadas em sistemas completos em escala de rack junto com as famosas GPUs Hopper, Blackwell ou Rubin da Nvidia.

O aumento na procura por GPUs transformou a Nvidia num nome familiar e na empresa pública mais valiosa do mundo, com uma capitalização de mercado de 4,4 biliões de dólares. Em fevereiro deste ano, a estratégia geral de chips da Nvidia passou por uma grande mudança. Na época, a Nvidia fechou um acordo plurianual com a Meta que incluía a primeira implantação independente em grande escala de CPUs Grace, com planos de implantar o Vera em 2027.

Milhares de CPUs individuais da Nvidia também estão alimentando supercomputadores no Texas Advanced Computing Center e no Laboratório Nacional de Los Alamos, disse a Nvidia à CNBC.

Agentes inteligentes impulsionam o renascimento da CPU

O Bank of America prevê que o tamanho do mercado de CPU pode mais que dobrar, de US$ 27 bilhões em 2025 para US$ 60 bilhões em 2030. Somente no último trimestre, a Nvidia gerou mais de US$ 62 bilhões em receitas de data center, um aumento de 75% ano após ano.

O renascimento da CPU decorre de mudanças fundamentais nos requisitos de computação: com a popularização em larga escala da IA, os cenários de aplicação mudaram gradualmente de robôs de bate-papo de perguntas e respostas para aplicativos de agentes orientados a tarefas.

Embora as GPUs sejam ótimas para treinar e executar modelos de IA porque possuem milhares de pequenos núcleos focados na execução de um grande número de operações simultaneamente, as CPUs possuem um número menor de núcleos de alto desempenho que podem executar tarefas contínuas de uso geral.

Os agentes de IA exigem uma grande quantidade de poder computacional de uso geral porque precisam transmitir e processar grandes quantidades de dados em fluxos de trabalho de IA, bem como colaborar e agendar entre vários agentes.

Jen-Hsun Huang

O CEO da Nvidia, Jensen Huang, disse em uma teleconferência de resultados no mês passado: "Esses sistemas de agentes estão gerando diferentes agentes que trabalham juntos como uma equipe. O número de tokens gerados aumentou exponencialmente, por isso precisamos realizar inferências em uma velocidade maior."

Huang Renxun mencionou agentes de IA muitas vezes durante a teleconferência e disse: “À medida que os requisitos de hardware mudam, o mais importante é o desempenho por watt”.

A Nvidia disse em um comunicado à imprensa que suas CPUs discretas melhoraram significativamente o desempenho por watt nos data centers da Meta. Ben Bajarin, analista de chips da Creative Strategies, disse: "Esta é uma infraestrutura completamente nova: uma nova expansão de racks de CPU puros que são responsáveis apenas pela execução de agentes de IA. Seu software estará localizado em outro lugar e seus aceleradores serão responsáveis apenas pelo processamento de tokens, mas deve haver uma camada intermediária responsável por coordenar o agendamento."

Crise de fornecimento de CPU

Hoje, o outrora silencioso mercado de CPU enfrenta o que a empresa de consultoria The Futurum Group chama de “crise silenciosa de fornecimento”. A agência prevê que até 2028, a taxa de crescimento do mercado de CPU poderá ultrapassar a de GPUs.

De acordo com a Reuters, os principais fornecedores de CPU, AMD e Intel, emitiram avisos de escassez de fornecimento aos clientes chineses. Segundo relatos, o ciclo de entrega da CPU chega a seis meses e o preço aumentou mais de 10%.

“Vimos um aumento sem precedentes na demanda nos últimos seis a nove meses”, disse o diretor do data center da AMD, Forrest Norrod, à CNBC em entrevista.

Norod acredita que a demanda por CPU não irá desacelerar ou parar de crescer no curto prazo, mas a AMD previu o aumento da demanda e está “intensificando seus esforços” para atendê-la.

Um porta-voz da Intel disse à CNBC que a empresa espera que os estoques atinjam um “ponto baixo” neste trimestre, “mas estamos respondendo proativamente e esperamos que a oferta melhore gradualmente do segundo trimestre até o final de 2026”.

O analista de chips da Creative Strategies, Bayarin, disse: "Os wafers não crescem por conta própria. Não podemos colher 10% mais wafers de silício do nada. Toda a indústria está enfrentando restrições de fornecimento. Infelizmente, o fornecimento de wafers de CPU é limitado."

Quando questionado se a Nvidia sofreria atrasos no envio de CPU, Harris, diretor de infraestrutura de IA da Nvidia, disse à CNBC que “tudo está normal no momento”.

Ele disse que a Nvidia tem uma “cadeia de suprimentos robusta” que pode lidar com as pressões da demanda, em grande parte graças ao fato de a empresa vender muitas de suas CPUs junto com GPUs em sistemas em escala de rack.

Otimizado para GPU

Harris disse que a Nvidia adotou uma abordagem fundamentalmente diferente de design, tornando suas CPUs “mais adequadas” para processamento de dados e fluxos de trabalho de agentes de IA em comparação com as CPUs de uso mais geral produzidas pela Intel e AMD.

Uma das principais diferenças é o número de núcleos por CPU. As CPUs de servidor de alto desempenho da série EPYC da AMD e Intel Xeon normalmente têm 128 núcleos, enquanto as CPUs Grace da Nvidia têm 72 núcleos.

CPUs de servidor da série AMD EPYC

“Se você é uma empresa de nuvem em hiperescala, deseja maximizar o número de núcleos por CPU, essencialmente para reduzir o custo por núcleo”, explicou Harris. “Portanto, é um modelo de negócios.”

No entanto, a Nvidia projetou suas CPUs especificamente para auxiliar seu produto estrela, GPU, na execução de cargas de trabalho de IA. “Neste caso, o desempenho de um único thread é mais importante do que o custo por núcleo, porque você quer ter certeza de que aquele recurso extremamente caro, a GPU, não ficará ocioso”, disse Harris.

As CPUs da Nvidia também são baseadas na arquitetura ARM, que é mais comumente usada em chips para dispositivos de baixo consumo de energia, como smartphones, enquanto as CPUs da Intel e da AMD são baseadas na arquitetura x86 tradicional. Introduzido pela Intel há quase 50 anos, o x86 dominou o design de processadores para PCs e servidores desde o seu início.

“Acho que a Nvidia otimizou muito bem seus chips para fornecer poder de computação para GPUs, mas eles não estão muito bem otimizados para aplicações de uso geral”, disse Norod, diretor de data centers da AMD.

Na verdade, a Nvidia depende de CPUs de uso mais geral para alguns produtos. Por exemplo, na plataforma HGX Rubin NVL8, a Nvidia emparelha suas próprias GPUs com CPUs host da Intel ou AMD para os clientes usarem como componentes básicos para construir seus próprios racks de IA.

À medida que a Nvidia entra no mercado de CPU independente, mais e mais clientes estão desenvolvendo processadores baseados na arquitetura ARM para seus próprios data centers.

A Amazon foi a primeira grande empresa de serviços em nuvem em hiperescala a lançar uma CPU autodesenvolvida, lançando o processador Graviton em 2018. O Grupo Futurum disse que o processador Axion do Google, lançado em 2024, agora lida com cerca de 30% dos aplicativos internos. A Microsoft lançou seu processador Cobalt de segunda geração em novembro do ano passado. Espera-se que a ARM lance sua CPU de desenvolvimento próprio este ano, e a Meta se tornará seu primeiro cliente.

A empresa de pesquisa Mercury Research estima que no quarto trimestre de 2025, a participação no mercado de CPU para servidores será dominada pela Intel, respondendo por 60%, AMD respondendo por 24,3% e Nvidia respondendo por 6,2%. As ações restantes são ocupadas por CPUs autodesenvolvidas baseadas na arquitetura ARM de empresas de computação em nuvem de ultragrande escala, como Amazon, Microsoft e Google.