O mais recente teste de inferência de modelo grande GPT do

MLPerf foi lançado! Esta empresa nacional de poder de computação ocupa novamente o primeiro lugar no mundo, com desempenho até 1,8 vezes maior que o NVIDIA H100. À medida que os aplicativos AIGC, como o ChatGPT, desencadearam uma onda de grandes modelos, a camada de poder computacional, como infraestrutura, tornou-se a primeira indústria a se beneficiar.

No entanto, problemas como alta demanda de poder de computação e alto custo tornaram-se pontos problemáticos comuns para as empresas implementarem grandes modelos e são mais propensos a restringir o desenvolvimento futuro da IA: grandes parâmetros de modelos estão aumentando dia a dia, enquanto gargalos no fornecimento de energia de computação são iminentes, criando uma enorme contradição entre os dois.

Como explorar melhores soluções de poder de computação para modelos grandes é o foco da indústria.

Recentemente, a avaliação oficial mundial MLPerf anunciou os últimos resultados da avaliação de inferência. Esta é a primeira vez que o MLPerf introduz o teste de inferência de modelos grandes GPT. A taxa de participação atingiu um novo recorde, com mais de 13.500 resultados de desempenho apresentados pela NVIDIA, Intel, Google, Qualcomm e outras empresas.

Em MLPerfInference3.1, a placa de computação MoffetAI S30 foi classificada em primeiro lugar no modelo grande GPT-J (6 bilhões de parâmetros), com poder de computação de placa única, 4 placas e 8 placas em primeiro lugar.


Esta é a terceira defesa de título consecutiva para Ink Core no MLPerf.

Anteriormente, o núcleo de tinta conquistou o primeiro lugar no MLPerfInference2.0 e 2.1 por dois anos consecutivos.


Ink core S30 placa de computação

As conquistas do núcleo de tinta trouxeram direções inovadoras viáveis para o poder de computação do modelo em grande escala soluções.

Os fatos provaram que a inovação colaborativa de hardware e software que combina modelos de IA e plataformas de computação pode liberar maior potencial de poder de computação. Isso também prova mais uma vez que as tecnologias inovadoras representadas pela computação esparsa serão a chave para o desenvolvimento do poder da computação na era dos grandes modelos.

O núcleo de tinta participa da partição aberta MLPerf. Segundo o organizador MLCommons, esta partição visa incentivar a inovação. Portanto, os concorrentes podem explorar maneiras de melhorar o poder computacional por meio da colaboração de software e hardware.

No modelo grande GPT-J no MLPerf, em comparação com a solução de aceleração de hardware pura H100 do processo de 4 nm, a placa de computação Ink Core S30 de processo de 12 nm obteve uma vantagem de até 1,8 vezes por meio da abordagem "algoritmo esparso duplo original + colaboração de hardware".

O modelo GPT-J nesta avaliação é um modelo de IA generativo. O desempenho da placa de computação Ink Core S30 nos modos de 8 placas, 4 placas e placa única é de 170,5, respectivamente. 9, 91,57, 23,28 (amostra/s), atingindo 1,6 vezes, 1,8 vezes e 1,8 vezes o desempenho do NVIDIA H100, demonstrando as capacidades dos produtos principais de tinta em tarefas AIGC.


venceu o campeonato três vezes. O grande poder computacional do modelo foi o primeiro a “enviar o artigo”, e a colaboração de software e hardware continuou a inovar. A força do produto Ink Core foi rigorosamente testada várias vezes pelo MLPerf e também explorou um novo caminho para o desenvolvimento de poder de computação de grandes modelos.

01

Computação esparsa rara - "estoque potencial" de modelos grandes ganhou mercado reconhecimento

Os excelentes resultados do núcleo de tinta se devem principalmente ao design colaborativo de software e hardware baseado em algoritmo esparso.

Na era dos grandes modelos, a importância da computação esparsa é evidente: o tamanho de um modelo de IA é diretamente proporcional ao seu potencial de esparsificação.

Ou seja, quando o modelo é maior, há maior possibilidade de dispersão no algoritmo, e o grau de aceleração dos cálculos esparsos também é maior. Para modelos gerais de linguagem grande, a computação esparsa pode trazer uma aceleração dezenas de vezes maior.

O algoritmo esparso duplo original do Inkcore, combinado com o design colaborativo de software e hardware, torna o chip Antoum® da Inkcore o primeiro chip AI de alta ampliação esparsa do mundo, suportando dispersão de até 32 vezes - esta é a chave para o recorde do Inkcore neste MLPerf.

Quanto maior o modelo, mais óbvia é a vantagem da computação esparsa - especialmente na situação atual, onde os parâmetros de modelos grandes como o GPT geralmente atingem dezenas de bilhões ou centenas de bilhões, o que torna o fosso do núcleo de tinta mais estável.

A força do produto do núcleo de tinta e a tendência geral de computação esparsa também foram reconhecidas pela indústria: O processo de comercialização do núcleo de tinta fez avanços importantes um após o outro, ajudando as empresas a acelerar os aplicativos de IA.

Recentemente, o Ink Core se tornou oficialmente um dos fornecedores que apoiam o ByteMLPerf.


Fonte: site ByteMLPerf

Endereço do projeto: https://github.com/bytedance/By teMLPerf/blob/main/README.md

Atualmente, a plataforma de computação Ink Core AI pode suportar grandes modelos de diferentes níveis de parâmetros, incluindo BLOOM, OPT, GPT-J, LLaMA, StableDiffusion, etc.

Ao mesmo tempo, possui as características de alto rendimento, baixa latência e baixo consumo de energia, o que alivia a dificuldade do poder de computação e realmente traz soluções de poder de computação de grande modelo "fáceis de usar" e "acessíveis" para as empresas.

02

traz mudanças fundamentais no poder da computação, e a computação esparsa ajuda o desenvolvimento do modelo Lida

A solução de computação esparsa do núcleo de tinta pode não apenas aliviar o atual problema de poder de computação, mas também abrir um novo espaço para o desenvolvimento sustentável da IA.

A computação esparsa reduz a quantidade de cálculo dos modelos de IA, o que significa que modelos grandes podem aumentar o número de parâmetros em várias ordens de magnitude sem gerar muita quantidade de cálculo. Espera-se que a contradição entre o grande crescimento dos parâmetros do modelo e os gargalos do poder de computação seja fundamentalmente resolvida.

Ao mesmo tempo, devido à redução no valor do cálculo, os pontos problemáticos de altos requisitos de poder de computação, alto consumo de energia e alto custo de modelos grandes também foram resolvidos, alcançando um efeito "ganha-ganha".


Núcleo de tinta Chip Antoum: o primeiro chip AI de alta ampliação esparsa do mundo, suportando até 32 vezes esparso

TAGPH5 2Os excelentes resultados de três MLPerfs consecutivos não apenas comprovam a força dos produtos principais de tinta, mas também trazem novas revelações para a indústria: Com a ajuda de tecnologias como a computação esparsa, espera-se que o desenvolvimento e a aplicação de grandes modelos inaugurem um espaço mais amplo para o desenvolvimento, acelerando a proliferação de AIGC e outras aplicações em todas as esferas da vida.

03

TAGPH 59Sobre MLPerf

MLPerf Iniciado pelo vencedor do Prêmio Turing, David Patterson, em colaboração com instituições acadêmicas importantes, como Google, Stanford e Universidade de Harvard, é o teste de benchmark internacional de desempenho de IA mais confiável e influente para conduzir rastreamento e avaliação oportunos dos crescentes requisitos e desempenho de computação de IA.