AMD e Intel lançam em conjunto o white paper ACE para promover a instrução de arquitetura de aceleração de matriz padrão x86 set

Em outubro de 2024, a AMD e a Intel estabeleceram conjuntamente o x86 Ecosystem Advisory Group (x86 Ecosystem Advisory Group) para reunir líderes da indústria para promover conjuntamente o futuro da arquitetura de computação x86. Quando a EAG foi criada, anunciou quatro recursos principais: FRED, AVX10, ChkTag e ACE.Agora, a AMD e a Intel lançaram em conjunto o white paper ACE, promovendo oficialmente este conjunto de instruções conhecido como “arquitetura de aceleração de matriz padrão x86” para a comunidade de desenvolvedores.

O objetivo principal do ACE é simples: melhorar o desempenho de multiplicação de matrizes de chips x86 em ordens de grandeza.

A multiplicação de matrizes é a unidade básica de computação de redes neurais e grandes modelos de linguagem. Embora os conjuntos de instruções SIMD existentes, como o AVX10, possam completar operações de matriz, existem gargalos óbvios na densidade e escalabilidade da computação.

Ao introduzir um mecanismo de aceleração de matriz baseado em operações de produto externo, o ACE atinge uma densidade computacional 16 vezes maior que a operação de multiplicação e acumulação equivalente do AVX10 enquanto consome o mesmo vetor de entrada.

Em termos de suporte ao formato de dados, o ACE cobre nativamente os atuais padrões de precisão convencionais no campo de IA, incluindo INT8, OCP FP8, OCP MXFP8, OCP MXINT8 e BF16.

Como um conjunto estendido de instruções do AVX10, a adaptação ecológica do software ACE já está em andamento. Bibliotecas subjacentes de Deep Learning e HPC, bibliotecas de computação científica Python, como NumPy e SciPy, e estruturas convencionais de aprendizado de máquina, como PyTorch e TensorFlow, iniciaram o trabalho de integração.

AMD e Intel enfatizaram no white paper que o conceito de design do ACE é baixo atrito e ampla cobertura. De notebooks a supercomputadores, os desenvolvedores não precisam reescrever códigos para diferentes plataformas de hardware.

Isto contrasta fortemente com a solução de migração da computação de IA para aceleradores dedicados, que muitas vezes requer adaptação de código adicional e custos de migração.