Samsung reconstrói a rede de fonte de alimentação HBM4E: reduzindo significativamente a taxa de defeitos e explorando a viabilidade de separação do GPU

A Samsung está fazendo grandes ajustes estruturais na rede de fornecimento de energia de sua nova geração de memória de vídeo de alta largura de banda HBM4E para lidar com os problemas cada vez mais proeminentes de engenharia de fornecimento de energia e dissipação de calor no design de chips de IA de próxima geração. Esta mudança ocorre apenas duas semanas depois que a empresa anunciou que o primeiro lote mundial de HBM4 alcançou remessas comerciais. Naquela época, o produto produzido em massa era capaz de operar de forma estável a 11,7 Gbps, com redundância de velocidade reservada para atingir 13 Gbps.

À medida que a arquitetura evolui de HBM4 para HBM4E, o número de pontos de solda da fonte de alimentação em um único chip aumenta de 13.682 para 14.457. No entanto, ele ainda é comprimido na mesma área do pacote e acoplado a uma fiação mais fina e de maior densidade, a densidade de corrente e a resistência do fio aumentam simultaneamente. O resultado é uma queda de tensão IR mais grave dentro do chip (a tensão atenua gradualmente no caminho de transmissão), formando um ciclo de feedback negativo sob a superposição de calor, o que não apenas afeta o desempenho, mas também pode causar falha no circuito local.

Para quebrar esse gargalo no fornecimento de energia, a Samsung optou por “operar” na própria estrutura da rede de energia. No chip base da HBM, o bloco de energia MET4 centralizado em forma de favo de mel de grande área, originalmente localizado próximo ao intermediário de interconexão, foi dividido em quatro partições menores, e a camada superior de fiação metálica foi ainda mais espalhada para encurtar o caminho crítico e aliviar o congestionamento da fiação local. Uma avaliação interna feita pela Samsung mostra que após esta rede de energia segmentada, a incidência de defeitos no circuito metálico caiu 97% em comparação com o HBM4, e a queda de tensão IR melhorou em 41%, liberando mais margem de tensão para o chip operar de forma estável em frequências mais altas, e também ajudando a melhorar a confiabilidade geral.

Enquanto “opera” na rede de fornecimento de energia, a Samsung também se concentrou em uma rota de evolução de empacotamento em nível de sistema mais radical – para “desmontar” completamente o HBM e a GPU fisicamente. Um dos caminhos técnicos é usar interconexão fotônica para manter largura de banda extremamente alta em distâncias maiores por meio de transmissão de sinal óptico. Segundo relatos, sua capacidade teórica de transmissão pode atingir cerca de 1.000 vezes a da interconexão de cobre existente, o que é suficiente para compensar a perda de atraso e largura de banda após o aumento da distância entre HBM e GPU. A Samsung acredita que, com a melhoria contínua das capacidades de fiação do substrato de embalagem, espera-se que a distância entre o HBM e a GPU aumente para mais de 5 centímetros, mesmo sem depender inteiramente da interconexão fotônica. Isso aliviará muito a densidade de calor e a pressão de dissipação de calor causada pelo empacotamento compacto de chips de computação centrais e pilhas HBM multicamadas nas atuais placas aceleradoras de IA de ponta.

Analistas da indústria apontaram que, no contexto da carga vertiginosa de treinamento e inferência de IA, o fornecimento de energia e o resfriamento da HBM tornaram-se "pontos de impasse" importantes que restringem a expansão linear contínua do poder de computação. A reconstrução da rede de energia da Samsung no HBM4E e sua exploração prospectiva da solução de separação HBM-GPU mostram sua intenção de assumir a liderança na próxima rodada da competição de tecnologia de memória gráfica de ponta. Os detalhes técnicos desta vez foram inicialmente divulgados pela mídia coreana "Korea Economy" e pela agência de pesquisa de mercado TrendForce, e posteriormente confirmados pelos materiais técnicos de exibição relevantes da Samsung.