Revelação detalhada do acelerador AMD MI300: processamento paralelo de oito canais excede 1 bilhão de vezes, superando a NVIDIA em todos os aspectos

Em junho deste ano, a AMD anunciou a série InstinctMI300 de aceleradores AI/HPC de nova geração em São Francisco, EUA, incluindo o primeiro acelerador APU MI300A do mundo e uma nova geração de acelerador GPU MI300X. Naquela época, a AMD anunciou apenas alguns detalhes técnicos. Não mencionou o número de núcleos de CPU/GPU, desempenho/consumo de energia/eficiência energética e outros indicadores, e faltou casos de aplicação suficientes. Agora, o mágico finalmente revela todos os seus segredos.

Na madrugada de 7 de dezembro, horário de Pequim, na conferência AMDAdvancingAI em San Jose, Califórnia, a AMD anunciou oficialmente as especificações detalhadas e o desempenho dos aceleradores da série InstinctMI300, bem como vários casos de implantação de aplicativos, levando a inteligência artificial de IA e a computação de alto desempenho HPC a um novo nível.

O nascimento do conceito de IA tem quase 70 anos. Após um longo período de evolução, penetrou em todos os cantos do trabalho e da vida das pessoas. Porém, em muitos casos, a percepção não é tão forte. Mais frequentemente, as pessoas sentem o poder da IA durante algum tempo de nó.

Nos primeiros dias, foi como a derrota do mestre de xadrez Garry Kasparov pelo supercomputador Deep Blue da IBM. Nos últimos tempos, tem sido como a batalha Go entre AlphaGo, Li Shishi e Ke Jie. A coisa mais quente recentemente é, obviamente, a onda de grandes modelos de linguagem e IA generativa desencadeada pelo ChatGPT.

Falando francamente, os grandes modelos de linguagem parecem estar um pouco superaquecidos no momento, mas do ponto de vista técnico e de perspectiva, a IA é definitivamente o futuro. Não importa a forma que assuma, é uma tendência geral e um mercado enorme, especialmente com a demanda sem precedentes por poder computacional.

Há um ano, a AMD estimou internamente que o mercado global de aceleradores de IA para data centers atingiria aproximadamente US$ 30 bilhões em 2023. A partir de agora, a taxa composta anual de crescimento excederá 50% e, até 2027, formará um valor de mais de US$ 150 bilhões, o que é ilimitado.

Agora parece que esses dados são muito conservadores.A AMD elevou sua previsão de mercado de aceleradores de IA para data centers para US$ 40 bilhões e US$ 450 bilhões em 2023 e 2027, respectivamente, com uma taxa composta de crescimento anual de mais de 70%.

Como fabricante com as soluções mais abrangentes, a AMD pode atender às necessidades de IA, especialmente IA generativa, para superpoder de computação e ampla aplicação de todos os ângulos:

Do lado da GPU está o processador EPYC líder mundial, do lado da GPU está o crescente acelerador Instinct, do lado da rede estão tecnologias como Alveo e Pensando, e do lado do software está a plataforma de desenvolvimento ROCm, formando assim uma solução orgânica e completa.

As primeiras tecnologias subjacentes do acelerador de computação da AMD vieram todas da mesma arquitetura RDNA das placas gráficas de jogos, que obviamente carecia de pertinência, então nasceu a arquitetura CDNA especificamente para computação.

O produto de primeira geração da série InstinctMI100 é a primeira GPU dedicada da AMD que pode fornecer aceleração para cargas de trabalho FP32/FP64HPC. O produto de segunda geração da série InstinctMI200 evoluiu rapidamente e ocupou algum espaço em muitos sistemas de supercomputação.

A série InstinctMI300 de terceira geração é baseada na arquitetura CDNA3 e é dividida em duas rotas: APU de data center e GPU dedicada. Ele se concentra em melhorar o desempenho da memória unificada, do desempenho da IA, da rede de nós, etc., juntamente com pacotes avançados e maior eficiência energética, para atender à forte demanda por IA generativa.

InstinctMI300X: O monstro de 192 bilhões de transistores vence NVIDIA H100

InstinctMI300X é uma solução tradicional de acelerador de GPU, um design de GPU puro, baseado na arquitetura de computação CDNA3 de última geração.

Integra oito módulos de computação acelerada XCD (AcceleratorComputeDie), cada XCD possui 38 unidades de computação CU, um total de 304 unidades.

Para cada dois XCDs em um grupo, coloque um módulo IOD na parte inferior deles, responsável pelas conexões de entrada, saída e comunicação,Um total de quatro IODs fornecem até sete canais de conexão InfinityFabric de quarta geração, com uma largura de banda total de até 896 GB/s e até 256 MB de cache ilimitado InfinityCache.

Os periféricos XCD e IOD sãoOito memórias HBM3 de alta largura de banda, com capacidade total de até 192 GB, podem fornecer largura de banda ultra-alta de aproximadamente 5,3 TB/s.

Na era AI/HPC, a HBM é sem dúvida a melhor solução de memória para fornecer suporte de alta velocidade, e a AMD foi a primeira a promover a aplicação e popularização da HBM.

Todos os módulos acima são integrados e empacotados por meio de interposer de silício 2,5D, ligação híbrida 3D e outras tecnologias, que a AMD chama de tecnologia de empacotamento 3,5D.

O número total de transistores chega a 153 bilhões, dos quais a parte central da computação XCD é um processo de 5 nm, e a parte responsável pelo intermediário e interconexão é um processo de 6 nm.

A propósito, existem oito pequenos wafers de silício localizados entre as memórias HBM no diagrama estrutural. Eles não possuem funções reais de computação e transmissão, mas são usados para suporte mecânico e garantia da estabilidade da estrutura geral.

O MI300X pode superar o NVIDIA H100 em todos os indicadores de desempenho (o H200 foi anunciado, mas não estará disponível até o segundo trimestre do próximo ano, portanto a comparação ainda não é possível) e também possui vantagens exclusivas.

Em termos de HPC,A matriz de ponto flutuante de precisão dupla MI300XFP64 e o desempenho vetorial chegam a 163,4 TFlops (163,4 trilhões de cálculos por segundo) e 81,7 TFlops, respectivamente. O desempenho de ponto flutuante de precisão única do FP32 é de 163,4 TFlops, que são 2,4 vezes, vezes infinitas, 2,4 vezes e 2,4 vezes o do H100, respectivamente.——H100 não suporta operações de matriz FP32.

Em termos de IA, o desempenho do ponto flutuante MI300XTF32 é de 653,7 TFlops, o desempenho do ponto flutuante de meia precisão FP16 e o desempenho do ponto flutuante BF16 podem atingir 1307,4 TFlops, o desempenho do ponto flutuante FP8 e o desempenho inteiro INT8 podem atingir 2.614,9 TFlops, todos 1,3 vezes maiores que o H100.

TF32 é TensorFloat32, um novo padrão de precisão de ponto flutuante. Por um lado, mantém a mesma precisão do FP16, com 10 bits de mantissa. Por outro lado, mantém a mesma faixa dinâmica do FP32 (os bits expoentes são todos de 8 bits).

BF16 é BloatFloat16, um formato de ponto flutuante otimizado para aprendizado profundo.

Além disso, também é adequado para memória de alta largura de banda HBM3. O MI300X supera o H100 em termos de capacidade e largura de banda.O consumo geral de energia é controlado em 750W, um pouco superior ao H100700W.

Além disso, a AMD também criou a plataforma MI300X, que consiste em oito módulos MI300X conectados em paralelo e é compatível com qualquer plataforma padrão de computação aberta OCP.

Desta forma, em um único espaço de servidor, há um total de 2.432 unidades computacionais, 1,5 TB de memória HBM3 e largura de banda de memória de 42,4 TB/s.

O desempenho disparou diretamente.O desempenho de ponto flutuante do BF16/FP16 excedeu até 10PFlops, o que representa mais de 1 bilhão de cálculos por segundo, comparável a um supercomputador de médio porte.

Comparado com a plataforma de computação H100HXG composta pelos mesmos oito H100s, ele também tem muitas vantagens em desempenho computacional e capacidade HBM3, e está em um nível comparável em termos de largura de banda e rede.

Em particular, o tamanho dos modelos grandes que podem ser executados em cada GPU é duplicado diretamente, o que pode melhorar significativamente a eficiência da computação e reduzir os custos de implantação.

Em termos de desempenho real do aplicativo, dê uma olhada em alguns dados oficiais fornecidos pela AMD. Os objetos de comparação são todos H100.

Modelos de linguagem grande de uso geral, tanto kernels médios quanto grandes, podem liderar em 10-20%.

Em termos de desempenho de inferência, todos os servidores paralelos de oito vias são usados. O poder de computação do modelo Bloom de 176 bilhões de parâmetros pode estar até 60% à frente, e a latência do modelo de 70 bilhões de parâmetros Llama2 pode estar 40% à frente.

Em termos de desempenho de treinamento, o poder de computação do modelo MPT de 30 bilhões de parâmetros é comparável ao mesmo servidor de oito vias.

Em geral, seja inferência de IA ou treinamento de IA, a plataforma MI300X tem melhor desempenho do que a plataforma H100 e pode facilmente dobrar o desempenho em muitos casos.

Um produto poderoso não pode ser separado do apoio de parceiros. MI300X ganhou o apoio de muitos fabricantes OEM e fabricantes de soluções, incluindo o conhecidoHewlett Packard Enterprise (HPE), Dell, Lenovo, Super Micro, Gigabyte, Honbai (uma subsidiária da Hon Hai/colega Foxconn), Inventec, Quanta, Wistron, Wiwynn.

Entre eles, o servidor PowerEdgeXE9680 da Dell possui oito MI300Xs. Os produtos da Lenovo serão lançados no primeiro semestre de 2024. O acelerador H13 da Supermicro usa uma combinação de processadores EPYC de quarta geração e aceleradores MI300X.

Existem também alguns parceiros que introduziram o MI300X na infraestrutura, incluindo: Aligned, ArkonEngergy, Cirrascale, Crusoe, DenvrDataworks, TensorWare, etc.

Em termos de soluções para clientes, como as máquinas virtuais da série Azure NDMI300Xv5 da Microsoft, as instâncias de IA baremetal (bare metal) da Oracle Cloud, como a introdução do data center Meta (Facebook) e o alto reconhecimento da otimização de grandes modelos ROCm6Llama2, etc.

InstinctMI300A: A primeira APU de computação convergente do mundo atinge 20 bilhões de vezes

Se o MI300X é uma evolução dos aceleradores GPU tradicionais, o MI300A é uma revolução. Atualmente, apenas a AMD pode alcançar a verdadeira integração de CPU e GPU.

Por outro lado, embora o NVIDIA GraceHopper também seja uma combinação de CPU e GPU, eles são chips independentes e precisam ser conectados externamente e colocados em uma placa PCB, que ainda está um nível atrás.

FalconShores, a solução de integração planejada da Intel, foi temporariamente cancelada por vários motivos. Permanecerá pura GPU no curto prazo e terá impacto na integração no futuro.

MI300A é o primeiro acelerador APU do mundo para IA e HPC. Ele integra Zen3CPU e CDNA3GPU em um chip, usa memória HBM3 de maneira unificada e interconecta todos eles usando o barramento de alta velocidade InfinityFabric, simplificando bastante a estrutura geral e os aplicativos de programação.

Esta arquitetura unificada tem muitas vantagens notáveis:

Um émemória unificada, a CPU e a GPU se compartilham, não há necessidade de copiar e transmitir dados repetidamente e não há necessidade de armazená-los e processá-los separadamente.

O segundo éCache ilimitado compartilhado, a transmissão de dados é mais simples e eficiente.

O terceiro éBalanceamento de potência dinâmico, independentemente de o poder de computação estar focado na CPU ou na GPU, ele pode ser ajustado em tempo real, mais direcionado e com maior eficiência energética.

O quarto éSimplifique a programação, a CPU e a GPU podem ser integradas em um sistema de programação unificado para aceleração colaborativa sem a necessidade de chamadas de programação separadas.

O MI300A possui seis módulos XCD, com um total de 228 unidades computacionais. As outras duas posições XCD no MI300X são substituídas por três CCDs, com um total de 24 núcleos de CPU. Estes últimos são exatamente iguais aos CCDs da série EPYC9004 de quarta geração e podem ser reutilizados diretamente.

Quatro IODs, cache ilimitado de 256 MB, oito memórias HBM3 e embalagem 3,5D são exatamente iguais ao MI300X.A única diferença é que a pilha de memória HBM3 é reduzida de 12H para 8H, e a capacidade única é reduzida de 24GB para 16GB, com capacidade total de 128GB., mas isso não afeta a largura de banda, que é a mesma de 5,3 TB/s.

O número total de transistores é de 146 bilhões, dos quais os processos XCD e CCD são ambos de 5 nm, as partes intermediárias e de interconexão ainda são de 6 nm e a interface de empacotamento de soquete externo é independente.

Em termos de desempenho,O desempenho da matriz/vetor MI300AFP64 e do vetor FP32 é 1,8 vezes maior que o do HJ100 (nenhum suporta matriz FP32), enquanto TF32, FP16, BF16, FP8 e INT8 são todos igualmente compatíveis.

Entre eles, o desempenho da matriz FP64 e do FP32/vetor são ambos de 122,6 TFlops, e o desempenho do vetor FP64 é de 61,3 TFlops, o que equivale a 75% do MI300X.

O desempenho do TF32 é de 493,0 TFlops, o desempenho do FP16 e BF16 é de 980,6 TFlops, o desempenho do FP8 e INT8 é de 1961,2 TFlops, o que também é 75% do MI300X.

Por que eles são sempre 75%? Como o módulo XCD é reduzido em 1/4, o núcleo da GPU é naturalmente reduzido em 1/4. Em outras palavras, tudo se resume ao desempenho da GPU e não inclui a parte da CPU.

O consumo geral de energia do MI300A é550-760 WDentro da faixa, depende das diferentes especificações da frequência.

Comparado com o H100, o MI300A pode alcançar até 4 vezes a vantagem no teste de computação de alto desempenho OpenFOAM com apenas 550 W de consumo de energia e pode liderar de 10 a 20% em diferentes aplicações práticas.

Comparado com o mais recente GH200, a vantagem de eficiência energética do MI300A760W no pico de consumo de energia pode chegar a 2 vezes.

O MI300A foi instalado no ElCapitan, um supercomputador de nova geração do Laboratório Nacional Lawrence Livermore, nos Estados Unidos.

Seu objetivo de design é se tornar o primeiro supercomputador exascale de 20 bilhões do mundo e também o segundo supercomputador exascale baseado na plataforma AMD.

A linha de OEM e parceiros de soluções do MI300A também está em constante expansão. Atualmente, existemHPE, Eviden (parte da Atos francesa), Gigabyte e AMD.

Entre eles, HPE EX255a é o primeiro servidor blade acelerador de supercomputação baseado em MI300A e será lançado no início de 2024.

Atualmente, os aceleradores da série AMDInstinct têm sido usados em muitas empresas, universidades e instituições de pesquisa científica, especialmente na área de supercomputadores.O último ranking Supercomputing 500 lançado em novembro conquistou 5 lugares entre os 25 primeiros, como o primeiro colocado Frontier of Oak Ridge National Laboratory nos Estados Unidos e o quinto colocado LUMI da Finlândia, ambos usam MI250X.

ao mesmo tempo,O acelerador Instinct também ocupa 7 dos 10 primeiros lugares no ranking Green Supercomputer 500, incluindo 6 MI250X e 1 MI210, entre os quais o FrontierTDS ocupa o segundo lugar e o LUMI o terceiro, o que mostra sua alta eficiência energética.

Este também é um nó importante na meta 30x25 da AMD – a AMD está comprometida em melhorar a eficiência energética dos processadores de servidores e aceleradores AI/HPC em até 30 vezes entre 2020 e 2025.

Ecologia de Software: ROCm6 evolui totalmente e combina software e hardware para aumentar a velocidade em 8 vezes

Um bom cavalo vem com uma boa sela. Assim como uma placa gráfica de jogo deve ter um driver para liberar seu potencial de desempenho, o desempenho de um acelerador AI/HPC não pode ser alcançado sem a assistência total de plataformas e ferramentas de desenvolvimento.

AMDROCm é uma plataforma de software aberta e agora chega a uma nova geração de ROCm6.

Ele se concentra na otimização e melhoria de grandes modelos de linguagem e IA generativa, bem como no fortalecimento do suporte ao código aberto, na expansão do suporte ecológico, na adição de mais bibliotecas de IA, etc.

Por exemplo, em termos de otimização de modelos de linguagem grande, ele suporta a estrutura de aceleração de inferência de modelos grandes de código aberto vLLM e otimiza a biblioteca de inferência, melhorando o desempenho de latência em até 2,6 vezes;

A estrutura de aprendizagem e análise gráfica de alto desempenho suportada HIPGraph otimiza o tempo de execução e melhora o desempenho da latência em 1,4 vezes;

Suporta o algoritmo de atenção com eficiência de memória FlashAttention, otimiza o kernel e melhora o desempenho de latência em 1,3 vezes.

O poder da nova geração de hardware e da nova geração de plataforma de desenvolvimento é bastante poderoso. Por exemplo, em comparação com MI250X e ROCm5, a combinação de MI300X e ROCm6 pode executar inferência de modelo grande Llama2 de 27 bilhões de parâmetros, e o desempenho de latência pode ser melhorado em até 8 vezes!

É claro que a plataforma ROCm6 também continuará a suportar hardware de plataforma antiga para explorar ainda mais o potencial.

Comparado com produtos concorrentes, como o grande modelo Llama2 com 13 bilhões de parâmetros, o desempenho de latência do MI300X está 20% à frente do H100.

Em termos de suporte ecológico, o ROCm6 também está se expandindo rapidamente, especialmente com base na rota consistente de código aberto da AMD. Por um lado, contribui ativamente com as suas próprias bibliotecas de desenvolvimento para a comunidade de código aberto; por outro lado,Você pode fazer uso completo de vários modelos, algoritmos e estruturas de IA de código aberto e aberto, incluindo HuggingFace, PyTorch, TensorFlow, Jax, OAITriton, ONNX, etc.

em,OpenAI oferecerá suporte oficial a AMDGPU na próxima versão Triton 3.0. AMD Instinct pode estar por trás do ChatGPT com o qual você conversará no futuro.

No geral, a nova geração de aceleradores InstinctMI300X/MI300A da AMD possui design de hardware de última geração e desempenho de computação e eficiência energética líderes mundiais. Em particular, a APU verdadeiramente integrada está na vanguarda da indústria e abre novas possibilidades.

Juntamente com a cooperação do processador EPYCCPU e da solução de rede, ele fornece uma base de plataforma de computação poderosa para raciocínio, treinamento e aplicação de IA generativa.

Em termos de desenvolvimento de software e cooperação ecológica, a AMD também acompanha ativamente os tempos, abraça abertamente a comunidade e a indústria, simplifica os processos de desenvolvimento e aplicação, aumenta muito a sua própria competitividade e tem um futuro promissor pelo qual vale a pena esperar.