MLCommons anunciou oficialmente os resultados do teste de benchmark de desempenho da inferência MLPerf v3.1 para o modelo de linguagem grande de 6 bilhões de parâmetros e o modelo de visão computacional e processamento de linguagem natural GPT-J. O processador Intel CPU e o acelerador de IA tiveram um bom desempenho e são bastante competitivos na inferência de IA.
Os resultados do treinamento MLCommonsAI divulgados anteriormente e os resultados do teste de benchmark de desempenho HuggingFace em junho mostraram que o acelerador Intel Gaudi2AI pode superar completamente o desempenho do acelerador NVIDIA H100 em modelos avançados de linguagem visual.Pode ser considerada a única alternativa viável ao NVIDIAH100/A100, os resultados mais recentes confirmam isso novamente.
No modelo GPT-J, a consulta do servidor GPT-J-99, GPT-J-99.9 do acelerador Intel Gaudi2 e o desempenho de inferência de amostra offline são de 78,58 vezes/segundo e 84,08 vezes/segundo, respectivamente.
Comparado com produtos concorrentes, o H100 tem apenas 1,09 vezes (servidor) e 1,28 vezes (offline) vantagens de desempenho em relação ao Gaudi2. Gaudi2 tem vantagens de desempenho 2,4 vezes (servidor) e 2 vezes (offline) em relação ao A100.
Vale a pena mencionar queOs resultados apresentados por Gaudi2 utilizam o tipo de dados FP8 com uma precisão de 99,9%.
O software Gaudi2 é atualizado a cada 6-8 semanas e continuará a melhorar o desempenho do benchmark MLPerf e a expandir a cobertura do modelo.
Ao mesmo tempo, a Intel apresentou 7 testes de benchmark de inferência baseados nos processadores escaláveis Xeon de quarta geração da SapphireRapids, incluindo o modelo GPT-J.
Os resultados mostram que o Xeon de quarta geração tem um desempenho muito bom ao lidar com cargas de trabalho gerais de IA, incluindo modelos de visão, processamento de linguagem, fala e tradução de áudio, bem como o modelo maior de recomendação de aprendizagem profunda DLRMv2 e o modelo ChatGPT-J.
A partir de agora,A Intel continua sendo o único fornecedor a enviar resultados públicos de CPU usando software de ecossistema de aprendizagem profunda padrão do setor.
De acordo com os últimos resultados,Usando GPT-J para resumir um comunicado de imprensa de 1.000 palavras com aproximadamente 1.000-1.500 palavras, o Xeon de quarta geração pode completar dois parágrafos por segundo no modo offline e um parágrafo por segundo no modo de servidor em tempo real.
também,Intel envia resultados de testes MLPerf para processadores Xeon CPUMax pela primeira vez, que integra memória de alta largura de banda HBM3 de até 64 GB, é a única CPU que pode atingir 99,9% de precisão para GPT-J, o que é muito adequado para aplicações com requisitos de precisão extremamente altos.
Visite a página de compra:
Loja principal da Intel