Na terça-feira, horário do leste, o Google lançou o algoritmo mais recente que explodiu no círculo tecnológico do Vale do Silício: o algoritmo de compressão de memória AI ultraeficiente TurboQuant. O Google afirma que esse algoritmo pode reduzir o consumo de memória cache de modelos de linguagem grandes em pelo menos 6 vezes e melhorar o desempenho em 8 vezes sem perder a precisão. Em essência, permite que a inteligência artificial lembre mais informações enquanto ocupa menos espaço na memória.

Assim que esse algoritmo foi lançado, os estoques de chips dos EUA caíram. Google e Wall Street também iniciaram uma discussão acalorada: o atual desastre de escassez de chips de memória que assola muitos gigantes da tecnologia pode terminar aqui?
O que é TurboQuant?
Primeiro, vamos falar sobre o que é exatamente esse algoritmo TurboQuant.
De acordo com a introdução do Google no site oficial, TurboQuant é um método de compactação que pode reduzir significativamente o tamanho do modelo sem perder qualquer precisão, por isso é muito adequado para suportar compactação de cache de valor-chave (KV Cache) e pesquisa vetorial. Isso é feito por meio de duas etapas principais:
1. Compressão de alta qualidade (método PolarQuant): O TurboQuant primeiro gira aleatoriamente o vetor de dados. Essa etapa inteligente simplifica a geometria dos dados, facilitando a aplicação de um quantizador padrão de alta qualidade a cada parte do vetor separadamente. O primeiro estágio utiliza a maior parte do poder de compressão (a maioria dos bits) para preservar os principais conceitos e características dos vetores originais.
2. Elimine erros ocultos: O TurboQuant usa uma pequena quantidade de potência de compressão restante (apenas 1 bit) para aplicar o algoritmo QJL aos pequenos erros que sobraram do primeiro estágio. O estágio QJL atua como um verificador de erros matemáticos, eliminando preconceitos, resultando em pontuações de atenção mais precisas.
Simplificando, o TurboQuant essencialmente compacta o modelo de IA enquanto mantém a estrutura central do modelo de IA inalterada e não requer pré-processamento ou dados de calibração específicos.
O Google afirma que usou modelos de contexto longo de código aberto (Gemma e Mistral) para avaliar rigorosamente os três algoritmos TurboQuant, PolarQuant e KIVI em vários testes de benchmark, incluindo LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval.
Dados experimentais mostram que o TurboQuant atinge desempenho de pontuação ideal em termos de distorção e recuperação de produto escalar, ao mesmo tempo em que minimiza o uso de memória de valor-chave (KV).

A figura acima mostra as pontuações abrangentes de desempenho dos algoritmos de linha de base TurboQuant, PolarQuant e KIVI em diferentes tarefas, como resposta a perguntas, geração de código e resumo.
O Google afirma que o TurboQuant alcançou resultados downstream perfeitos em todos os benchmarks, ao mesmo tempo que reduziu o tamanho da memória de valor-chave em pelo menos 6x.
Eles planejam apresentar sua pesquisa na conferência ICLR 2026 no próximo mês, além de demonstrar dois métodos para alcançar tal compressão: o método de quantização PolarQuant e um método de treinamento e otimização chamado QJL.
O Google está tendo seu momento DeepSeek?
Este algoritmo do Google lembra muitas pessoas da empresa startup fictícia Pied Piper na série de TV da HBO "Silicon Valley" (transmitida de 2014 a 2019). Na série de TV, Pied Piper também desenvolveu um algoritmo de compactação inovador que pode reduzir significativamente o tamanho do arquivo com compactação quase sem perdas.

Na realidade, a tecnologia TurboQuant lançada pelo Google Research Institute também está empenhada em alcançar a compressão máxima sem perder qualidade, mas é aplicada ao principal gargalo dos sistemas de inteligência artificial.
O CEO da Cloudflare, Matthew Prince, e outros até o chamaram de momento DeepSeek do Google, acreditando que se espera que ele, como o DeepSeek, reduza significativamente os custos operacionais da IA por meio de ganhos de eficiência extremamente elevados, permanecendo competitivo em termos de resultados.

“A inferência de IA ainda tem muito espaço para otimização em termos de velocidade, uso de memória, consumo e utilização de energia”, escreveu ele em um artigo sobre X.
A demanda do chip de memória esfriará?
O lançamento do algoritmo do Google ocorre num momento em que a escassez global de chips de memória está se tornando cada vez mais grave.
À medida que os grandes gigantes do mundo trabalham arduamente para construir infra-estruturas de IA, a procura de memória continua a aumentar e será difícil aliviar a escassez de oferta a curto prazo. Os desenvolvedores das principais empresas de tecnologia criaram várias maneiras inovadoras de superar ou pelo menos lidar com a escassez de memória, e o TurboQuant do Google é atualmente considerado pelas pessoas da indústria de tecnologia como uma solução sustentável para resfriar a demanda de memória.
Esta expectativa é naturalmente positiva para os gigantes da tecnologia empenhados na construção de infraestruturas de IA. Mas para os fabricantes de chips de memória, os resultados podem ser diferentes.
Afetado pelas expectativas de que a demanda por memória possa esfriar, o setor de chips de memória dos EUA despencou logo após a abertura das negociações na quarta-feira, horário do leste: SanDisk caiu 6,5%, Micron Technology caiu 4%, Western Digital caiu mais de 4% e Seagate Technology caiu mais de 5%.

As ações da SanDisk caíram acentuadamente no início do pregão de quarta-feira
Durante a sessão asiática de quinta-feira, a SK Hynix caiu 4,42% e a Samsung caiu 3,02% até o momento desta publicação.
Shay Boloor, da Futurum Equity Research, afirma:
“O mercado vê isso como um potencial obstáculo para os estoques de memória, já que a memória que a inferência de IA de contexto longo pode exigir por carga de trabalho pode agora ser significativamente reduzida.”
Damo apresenta a visão oposta
No entanto, alguns gigantes de Wall Street expressaram a opinião oposta.
Por exemplo, o analista da Lynx Equity Strategies, KC Rajkumar, sugeriu que a tecnologia da TurboQuant pode não ser tão “perturbadora” como a mídia a descreve.
Ele disse que a chamada “melhoria de desempenho de 8x” do Google é baseada na comparação com o antigo modelo de 32 bits. No entanto, o modelo de inferência atual utiliza amplamente dados quantificados de 4 bits, portanto a melhoria de desempenho não é tão exagerada.
Além disso, o Morgan Stanley também destacou que a tecnologia Google TurboQuant atua apenas no cache de valor-chave na fase de inferência, não afeta o HBM ocupado pelo peso do modelo e não tem nada a ver com a tarefa de treinamento.
Portanto, não se trata de uma redução de 6x nos requisitos totais de armazenamento ou de hardware total, mas sim de um aumento no rendimento de uma única GPU através de ganhos de eficiência - o mesmo hardware pode suportar contextos 4x a 8x mais longos, ou um aumento significativo no tamanho do lote sem desencadear um estouro de memória.
Mais importante ainda, o Morgan Stanley citou ainda o “Paradoxo de Jevons” para explicar a opinião de que a procura de memória não irá arrefecer.
O paradoxo de Jevons é um conceito importante em economia, que se refere a uma relação contra-intuitiva entre o progresso tecnológico e o consumo de recursos. A definição é: quando o progresso tecnológico melhora a eficiência, o consumo de recursos não só não diminui, como aumenta. Por exemplo, a máquina a vapor melhorada de Watt permitiu que o carvão fosse queimado de forma mais eficiente, mas o resultado foi um aumento na procura de carvão.
O Morgan Stanley acredita que, ao reduzir significativamente o custo do serviço de uma única consulta, o TurboQuant pode migrar modelos que só podem ser executados em clusters caros na nuvem para locais, reduzindo efetivamente o limite para implantação em larga escala de IA, o que pode impulsionar ainda mais a demanda geral.
Na verdade, o DeepSeek, mencionado pelo CEO da Cloudflare, Matthew Prince e outros, é o exemplo mais vívido do paradoxo de Jevons: quando o DeepSeek foi lançado no início do ano passado, o mercado estava preocupado com o esfriamento da demanda por hardware de IA. Mas o facto é que a melhoria da eficiência provocou uma maior popularização das aplicações de IA, e a procura de hardware de IA também voltou a aquecer.