Recentemente, o apresentador da UP de Bilibili "embora mas Zhang Heihei" compartilhou um vídeo,Ele mostra os resultados do teste da versão completa do Apple M3Ultra executando o modelo DeepSeekR1 de 671 bilhões de parâmetros. Sua velocidade é ainda maior que a de oito placas gráficas A100, mas o custo é bem menor.

A execução do modelo DeepSeekR1 de 671 bilhões de parâmetros geralmente requer um servidor de nível profissional equipado com 6 a 8 A100s. O preço total ultrapassa facilmente um milhão de yuans, o que é quase impossível para os usuários comuns pagarem.

No entanto, a versão completa do M3Ultra requer apenas um MacStudio para obter desempenho semelhante e é extremamente econômica.

Os resultados do teste mostram que ao executar o modelo DeepSeekR1, o desempenho de oito placas gráficas A100 é de 16,41Tokens/s, enquanto a versão full-blood do M3Ultra atinge 15,78Tokens/s no formato GGUF.

Depois de mudar para o formato MLX que pode aproveitar a memória unificada, a velocidade aumentou para 19,17Tokens/s, ultrapassando 8 placas gráficas A100. Além disso, quando o M3Ultra executou o modelo de parâmetros DeepSeekV3671 bilhões, a velocidade também atingiu 19,66Tokens/s.

No entanto, isso não significa que o M3Ultra possa superar o A100 em todos os cenários. Quando um único usuário realiza inferência de modelo único, ele depende principalmente da largura de banda e da capacidade da memória e não consegue realizar totalmente o potencial do A100. Em cenários de inferência multiusuário e treinamento de modelos grandes, o M3Ultra é completamente incapaz de se comparar com o A100.

Além disso, o M3Ultra teve um bom desempenho no teste de velocidade de inferência de modelos de linguagem grande,Quer seja o modelo Llama3.170B, Gemma227B ou Qwen2.514B, sua velocidade é significativamente melhor do que outros chips da série M. Comparado com o M2Ultra, a velocidade aumentou 13%, 34% e 18%, respectivamente.

A versão completa do M3Ultra testada desta vez está equipada com 512 GB de memória unificada e o preço total é de 74.249 yuans. Para a maioria dos usuários, se não precisarem executar um modelo em grande escala, a capacidade de memória unificada pode ser reduzida de forma adequada para economizar custos.