À medida que os modelos de IA continuam a se expandir, a HBM pode não ser capaz de atender às demandas futuras por capacidade de memória de vídeo, levando a indústria a ver a arquitetura de armazenamento orientada por GPU como uma potencial próxima fronteira tecnológica. No ano passado, houve notícias de que a Nvidia estava trabalhando com SK Hynix e Kioxia, respectivamente, para promover o desenvolvimento de AI SSD e usar peças SSD personalizadas para substituir o HBM como expansor de memória GPU. Além disso, este ano a SK Hynix também cooperou com a SanDisk para trazer HBF (High Bandwidth Flash), uma solução de memória de próxima geração para a era de inferência de IA, para resolver o mesmo problema.

De acordo com relatórios da TrendForce, a Nvidia está avançando no desenvolvimento da arquitetura de armazenamento de acesso direto da GPU e planeja introduzi-la a partir da plataforma Vera Rubin e ativar a função GIDS (GPU-Initiated Direct Storage Access). Pessoas de fora acreditam que esta mudança pode acelerar o desenvolvimento do HBF.
O GIDS é diferente da função GDS (GPU Direct Storage) existente. Há uma diferença entre os dois: no GDS, a CPU envia uma solicitação de dados ao dispositivo de armazenamento antes de transmitir os dados à GPU. No GIDS, a GPU acessa diretamente o dispositivo de armazenamento, ignorando a CPU e a DRAM no meio.
Tanto o GIDS quanto o GDS visam superar os gargalos de transmissão de dados nas arquiteturas de computação tradicionais, e há rumores de que a Microsoft e a AMD estão explorando abordagens semelhantes. O principal problema é que o método tradicional de transmissão de dados é ineficiente. A CPU possui uma estrutura limitada no processamento de threads, enquanto a GPU pode gerar dezenas de milhares de threads paralelos. Atualmente, a transmissão de dados GPU-HBM é responsável por cerca de metade do consumo total de energia do sistema, o que suporta ainda mais a arquitetura HBF e aproxima a memória flash NAND de altíssima velocidade da GPU para lidar com futuros gargalos de IA.
O surgimento do GIDS pode permitir que o flash NAND desempenhe um papel mais importante nos sistemas de armazenamento de IA, ao mesmo tempo que reduz a pressão sobre a HBM em termos de capacidade. Essa mudança requer memória flash NAND de alto desempenho para acompanhar as velocidades de processamento da GPU. A vantagem da memória flash NAND é sua densidade de bits, que é cerca de 30 vezes maior que a DRAM, alcançando maior capacidade de armazenamento em um espaço semelhante.
No entanto, a memória flash NAND tem durabilidade limitada, enquanto a DRAM tem capacidades de gravação quase ilimitadas. Portanto, o HBF é considerado mais adequado para armazenar parâmetros do modelo de IA, porque esta parte dos dados permanece basicamente inalterada durante o processo de inferência e é usada apenas como carga de trabalho somente leitura.