Um dos elementos mais negligenciados pelo público, a rede do data center é, na verdade, responsável por todas as comunicações entre os nós. No entanto, a NVIDIA sabe que data centers com milhões de GPUs estão no horizonte e, para obter modelos de IA mais rápidos, eles precisarão estar interconectados, mesmo entre múltiplas instalações. É por isso que a NVIDIA lançou hoje o Spectrum-XGS Ethernet, uma extensão da plataforma de rede Spectrum-X projetada para interconectar vários data centers geograficamente dispersos em um só.Superfábrica de IA.
A empresa afirma que o Spectrum-XGS elimina as limitações de capacidade de uma única instalação, introduzindo redes com reconhecimento de distância que oferecem desempenho previsível e de baixa latência em campi, cidades e continentes.

A tecnologia é fornecida principalmente por meio de atualizações de software e firmware para switches Spectrum-X e SuperNICs ConnectX existentes, e não por meio de novo silício. O Spectrum-XGS fornece controle de congestionamento autoajustável otimizado para links de longa distância, gerenciamento preciso de latência que minimiza o jitter e telemetria abrangente de ponta a ponta, permitindo que as operadoras visualizem e controlem o tráfego de rede em vários locais.
A NVIDIA relata que essas melhorias quase dobram o rendimento da NCCL (Biblioteca de Comunicação Coletiva) para trabalhos de treinamento multi-GPU e multi-nós e experimentos em grande escala, tornando as cargas de trabalho de IA distribuídas mais eficientes. A NVIDIA posiciona o Spectrum-XGS como um novo eixo de crescimento para a infraestrutura de IA: após o dimensionamento em servidores e o dimensionamento em data centers, o dimensionamento em escala cruzada conecta instalações em uma estrutura de computação unificada.

Os operadores de hiperescala estão a preparar-se para adotar esta abordagem. CoreWeave será uma das primeiras empresas a conectar múltiplas instalações com Spectrum-XGS. A empresa utilizará seus locais distribuídos como um supercomputador, proporcionando aos clientes maior capacidade agregada e operações simplificadas para experimentos em escala de gigabit e execuções de treinamento de produção.
Spectrum-XGS faz parte da plataforma Spectrum-X e foi demonstrado na conferência Hot Chips. Espera-se que mais detalhes sejam revelados na conferência Hot Chips, mas treinamentos massivos em todo o continente não são mais uma quimera. Com soluções como Spectrum-XGS, o único céu (e a grade) é o limite.