NVIDIA cria nova LPU Groq 3: cache SRAM de 500 MB, largura de banda 7 vezes maior HBM4

CPU, GPU, NPU, VPU, DPU, TPU, PPU, IPU... Depois disso, a família XPU adicionou novos membros!A NVIDIA criou um novo “LPU”, que significa “Unidade de Processamento de Idioma”, que é a unidade de processamento de idioma.

é umChip dedicado de aceleração de inferência de IA, baseado no Groq adquirido pela NVIDIA no ano passado, é especializado em decodificação de baixa latência e raciocínio interativo, complementa GPUs focadas em treinamento e computação geral e oferece suporte conjunto a todo o processo de IA, do treinamento à implementação.

A plataforma NVIDIA Rubin Vera incluía anteriormente seis chips diferentes:Acelerador GPU Rubin, processador Vera CPU, unidade de processamento de dados Bluefield 4 DPU, placa de rede inteligente ConnectX 9, switch de expansão NVLink 6, switch de expansão Spectrum-X.

Agora, o Groq 3 LPU se juntou a esta família.

Groq 3 LPU integra 98 bilhões de transistores e possui uma estrutura simples de até 500 MB SRAM (memória estática de acesso aleatório), ou seja, a unidade de cache usada na CPU e GPU.

Embora sua capacidade seja muito menor que a do HBM4 de 288 GB, ele pode fornecer uma largura de banda surpreendente de 150 TB/s, que é muito mais de 7 vezes a do HBM4 de 22 TB/s.

Você sabe, as operações de decodificação de IA exigem muita largura de banda e o Groq 3 pode satisfazê-las perfeitamente, e a latência é muito menor.

Ao mesmo tempo, o poder de computação de precisão do FP8 da LPU Groq 3 atinge 1,2PFlops (1.200 trilhões de operações por segundo).

Com base nisso,A NVIDIA construiu um rack Groq 3 LPX, incluindo 256 LPUs Groq 3, uma capacidade total de cache de 128 GB de SRAM e uma largura de banda assustadora de 40 PB/s.

Os racks são conectados por meio de uma interface de expansão vertical dedicada com largura de banda de 640 TB/s, e o poder geral de computação de inferência de IA atinge315PFlops (3,15 bilhões de vezes por segundo).

Groq LPX está posicionado como um coprocessador da plataforma Rubin Vera, que pode acelerar o processamento de cada token em cada camada do modelo de IA e melhorar o desempenho de decodificação.

Também está pronto para sistemas multiagentes, que são vistos como a próxima fronteira da IA e exigem inferência em trilhões de modelos de parâmetros e processamento de milhões de janelas de contexto de token, mantendo o desempenho interativo.

A GPU Rubin combinada com a LPU Groq atingirá o rendimento atual de 100 tokens por segundo.Envie para 1.500 tokens por segundo ou mais, suportando perfeitamente cenários de interação de agentes de IA.