Ontem, a Arm anunciou progressos significativos em seu plano de “design total”. Lançado há um ano, o programa visa acelerar o desenvolvimento de chips personalizados para data centers, promovendo a colaboração entre parceiros da indústria. O ecossistema cresceu para incluir quase 30 empresas participantes, com as recentes adições de AlcorMicro, Egis, PUFSecurity e SEMIFIVE.

Um desenvolvimento digno de nota é que Arm, Samsung Foundry, AD Technology e Rebellions colaboraram para criar uma plataforma de chip CPU de inteligência artificial. A colaboração visa fornecer soluções para cargas de trabalho em nuvem, HPC e AI/ML, combinando aceleradores de IA da Rebellions com chips de computação da AD Technology, implementados usando a tecnologia FET Gate-All-Around (GAA) de 2 nm da Samsung Foundry.


Espera-se que a plataforma traga melhorias significativas de eficiência para cargas de trabalho generativas de inteligência artificial, e estima-se que para um LLM como o Llama3.1 com 405 bilhões de parâmetros, sua eficiência será 2 a 3 vezes maior do que os designs de CPU padrão.

A abordagem da Arm enfatiza a importância da computação CPU no suporte a toda a pilha de IA, incluindo tecnologias avançadas, como pré-processamento de dados, orquestração e geração de aumento de recuperação (RAG). O Subsistema de Computação (CSS) da empresa foi projetado para atender a esses requisitos, fornecendo uma base para os parceiros construírem diversas soluções de chipset. 

Várias empresas, incluindo AlcorMicro e Alphawave, anunciaram planos para desenvolver chips baseados em CSS para uma variedade de aplicações de inteligência artificial e computação de alto desempenho. O programa também se concentra na preparação do software, garantindo que as principais estruturas e sistemas operacionais sejam compatíveis com os sistemas baseados em Arm. Esforços recentes incluem a introdução da tecnologia ArmKleidi, que otimiza a inferência baseada em CPU para projetos de código aberto, como PyTorch e Llama.cpp. 

É importante notar que, como afirma o Google, a maioria das cargas de trabalho de IA são inferidas na CPU, portanto, faz muito sentido construir a CPU mais eficiente e de melhor desempenho para IA.