À medida que a onda de inteligência artificial aumenta a procura de eletricidade nos centros de dados, uma equipa de investigação da Universidade de Illinois em Urbana-Champaign desenvolveu uma nova tecnologia de placas de arrefecimento de cobre puro impressas tridimensionais, que deverá reduzir significativamente o consumo de energia dos centros de dados para arrefecimento, de cerca de 30% do consumo total de energia atual para cerca de 1,1%. Os investigadores estimam que se esta tecnologia for totalmente aplicada em centros de dados de grande escala, espera-se que o consumo global de energia relacionado com o arrefecimento seja reduzido em mais de 90%, aproximando-se do limite de eficiência que a engenharia térmica actual pode alcançar.

De acordo com a Agência Internacional de Energia, o consumo global de eletricidade dos centros de dados atingirá 485 terawatts-hora em 2025, dos quais aproximadamente 30% – um valor que já excede o consumo anual de eletricidade da Suécia – será utilizado para as próprias instalações de refrigeração. Ao mesmo tempo, o rápido desenvolvimento da inteligência artificial generativa levou a indústria a considerar a construção de centros de dados no espaço para obter um fornecimento mais direto de energia solar. O que é ainda mais irônico é que cerca de um terço desses enormes gastos com energia não têm nada a ver com a computação em si, mas são usados ​​para “afastar” a energia elétrica convertida em calor pelos chips.

Tomando como exemplo o chip GB200 da Nvidia, o consumo de energia de um único chip chega a 1.200 watts, e o consumo diário de energia é de cerca de 28,8 quilowatts-hora, o que está próximo do consumo médio diário de energia de uma família americana média. Devido ao inevitável efeito de aquecimento Joule, estes 1200 watts são quase igualmente convertidos em potência de aquecimento, o que é teoricamente suficiente para aquecer mais de 50 copos de água em apenas uma hora. Se milhares, ou mesmo centenas de milhares, desses chips forem empilhados densamente em racks como estão agora, sem qualquer intervenção de resfriamento, os 220.000 GPUs e 300 megawatts de potência no data center Colossus 1 da xAI serão suficientes para aquecer aproximadamente 785.000 pés quadrados de espaço a cerca de 1.200 graus Celsius em uma hora, o que é mais quente que o magma. Pode-se observar que o resfriamento se tornou um elo inevitável e até de vida ou morte na operação dos data centers.

Behnood Bazmi, o primeiro autor do artigo e engenheiro mecânico, destacou: "O resfriamento é o gargalo do design atual de chips. Ao preencher a lacuna entre o design de computação e as capacidades de fabricação, nossa solução fornece um novo caminho para o resfriamento líquido de chips com maior eficiência energética e vários equipamentos eletrônicos." Durante muito tempo, os data centers confiaram principalmente no resfriamento do ar: instalação de dissipadores de calor metálicos em CPUs e GPUs, expansão da área de troca de calor por meio de aletas finas e complementação com convecção forçada por ventiladores de alta potência. Para acionar um enorme sistema de tratamento de ar, esse método em si consome muita energia e, diante do aumento acentuado da densidade do fluxo de calor da nova geração de chips aceleradores de IA, o resfriamento de ar tradicional está se tornando cada vez mais inadequado.

Portanto, a indústria está acelerando a mudança para soluções diretas de resfriamento líquido de chips, ou seja, instalando uma "placa fria" de metal acima do processador, guiando o fluxo do refrigerante através de seus minúsculos canais internos e dissipando rapidamente o calor do chip. As placas frias convencionais no mercado já são utilizadas há muito tempo, mas o design de suas aletas internas e canais de fluxo geralmente prioriza a facilidade de processamento. As formas geométricas são em sua maioria retangulares ou cilíndricas e os materiais são feitos principalmente de liga de alumínio ou aço inoxidável. É difícil equilibrar o desempenho final da troca de calor e o controle da resistência ao fluxo.

A inovação da equipe da Universidade de Illinois está concentrada em dois aspectos principais: material e estrutura das aletas. Os pesquisadores usaram métodos de otimização topológica e introduziram algoritmos matemáticos de otimização para redesenhar a microestrutura interna da placa fria, evoluindo da tradicional coluna quadrada e geometria cilíndrica para uma forma tridimensional mais complexa, irregular e nítida para maximizar a área de transferência de calor e o desempenho térmico, levando em consideração a resistência do canal de fluxo. Como essas estruturas altamente complexas são quase impossíveis de processar economicamente por meio de processos tradicionais, a equipe recorreu à fabricação aditiva eletroquímica avançada (ECAM) para gerar diretamente a forma desejada, camada por camada. Em termos de seleção de materiais, eles usaram ousadamente cobre puro, que possui excelente condutividade térmica, mas é extremamente difícil de modelar com precisão na impressão 3D convencional.

De acordo com o engenheiro mecânico Nenad Miljkovic, autor correspondente do artigo, a tecnologia ECAM pode processar cobre puro em características finas de 30 a 50 mícrons, que é ainda menor que o diâmetro de um fio de cabelo humano. Resultados experimentais mostram que, em comparação com placas frias convencionais comerciais, esta placa fria com topologia otimizada feita de cobre puro pode melhorar o desempenho de resfriamento em até cerca de 32% sob condições de resfriamento líquido, ao mesmo tempo que reduz a queda de pressão do sistema em até 68%. A diminuição na queda de pressão significa que a potência da bomba necessária para promover a circulação do líquido refrigerante por unidade de tempo é bastante reduzida. A combinação dos dois traz economias significativas no consumo geral de energia.

A equipe de pesquisa conduziu ainda análises de modelagem no nível geral do data center. No cenário atual, onde o arrefecimento a ar ainda domina, um centro de dados com uma capacidade instalada de 1 GW pode necessitar de aproximadamente 550 MW de energia adicional apenas para a infraestrutura de arrefecimento. Depois de adotar a solução otimizada de refrigeração líquida proposta, espera-se que o consumo de energia de refrigeração da instalação do mesmo tamanho seja reduzido para aproximadamente 11 megawatts. Em outras palavras, embora mantendo a dissipação efetiva do calor extremo gerado pelo hardware de IA em grande escala, espera-se que o consumo de energia do resfriamento seja comprimido dos atuais aproximadamente 30% a 35% para aproximadamente 1,1%, uma redução geral de mais de 95%.

Se essas previsões do modelo puderem ser reproduzidas em implantações reais em hiperescala, o impacto na eficiência energética do data center será revolucionário. De acordo com a estimativa da equipe de pesquisa, este sistema pode ajudar o data center a atingir uma eficiência de uso de energia (PUE) de cerca de 1,011, o que significa que quase todo watt de energia fornecido pela rede elétrica é usado diretamente para computação, em vez de ser consumido em meios auxiliares, como resfriamento, perdas de transmissão e distribuição ou iluminação. Para efeito de comparação, a maioria dos PUEs de data centers de ultragrande escala mais avançados do mundo estão entre 1,1 e 1,3, enquanto o PUE teórico "perfeito" do data center é 1,0, ou seja, nenhuma energia é desperdiçada em refrigeração e infraestrutura de suporte.

É claro que a equipe de pesquisa também admitiu que os números atuais sobre o consumo de energia de todo o data center ainda estão em fase de dedução do modelo e não são baseados em resultados de medição no local de data centers reais de nível de gigawatt. Mesmo assim, se a tecnologia conseguir manter o desempenho em implementações em grande escala conforme esperado, terá o potencial de reduzir significativamente um dos maiores consumos de energia ocultos e negligenciados por detrás do actual boom da IA ​​– o arrefecimento dos centros de dados. Os investigadores acreditam que esta ideia de combinar a otimização do design com processos de fabrico avançados não se limita aos data centers, mas também pode ser expandida para uma gama mais ampla de equipamentos eletrónicos e até mesmo outras áreas da engenharia que requerem uma gestão térmica eficiente.