Em uma pradaria empoeirada em Abilene, Texas, engenheiros de hardware da OpenAI e da Crusoe, empresa contratada de data center da Oracle, trabalharam horas extras durante dias para fazer com que várias unidades de turbina a gás funcionassem de forma estável com o supercomputador de IA mais caro da história.

Uma unidade de turbina a gás é instalada próxima ao data center Stargate AI construído pela Oracle e OpenAI em Abilene, Texas.
Uma unidade de turbina a gás é instalada próxima ao data center Stargate AI construído pela Oracle e OpenAI em Abilene, Texas.

Várias pessoas familiarizadas com o projeto, engenheiros residentes e especialistas em redes de energia revelaram que o projeto faz parte do projeto de infraestrutura de energia computacional OpenAI Stargate, e a dificuldade geral de implementação e o investimento de capital estão muito além das expectativas iniciais.

A base de Abilene é considerada uma referência para a construção global de data centers de IA. A Oracle, cliente da Crusoe, implantou servidores para OpenAI aqui, consumindo pelo menos centenas de megawatts de energia; a empresa planeja implantar mais chips em novos edifícios neste verão, com uma carga total de energia de até 1,2 gigawatts, o que é suficiente para atender às necessidades de iluminação de toda a cidade de São Francisco.

Mas o primeiro problema é garantir o fornecimento de energia ininterrupto. Pessoas familiarizadas com o assunto disseram que devido a vários problemas, como falhas no sistema de refrigeração, anomalias nas unidades de turbina e novas regulamentações de controle de flutuação da rede a serem introduzidas pela agência reguladora da rede elétrica do Texas, Crusoe teve que suspender as operações em etapas para evitar múltiplos riscos para equipamentos, mão de obra e fundos.

Além de várias dificuldades operacionais no local do projeto, todos os fabricantes de infraestruturas de IA estão a enfrentar custos fora de controlo. Há algumas semanas, o CEO da Crusoe, Chase Rockmiller, revelou numa palestra na Universidade de Stanford que o custo de construção de uma “principal central electrificada” para um centro de dados de 1 gigawatt chega a 19,2 mil milhões de dólares, cobrindo os principais materiais de construção, equipamento mecânico e eléctrico, apoiando centrais eléctricas a gás e todos os custos laborais.

Este número aumentou acentuadamente em comparação com as cotações para projectos com as mesmas especificações há dois ou três anos: sob o boom da computação de IA, os salários técnicos dos empreiteiros aumentaram geralmente 30% e os custos laborais representaram quase um quarto do investimento total. “A competição por mão de obra técnica na indústria nunca foi tão acirrada”, disse Rockmiller.

O custo de outros equipamentos de suporte de hardware também disparou. Ele disse aos estudantes que o custo de uma central eléctrica alimentada a gás de um único gigawatt quase triplicou nos últimos anos, atingindo até 3 mil milhões de dólares; dados do Federal Reserve Bank de St. Louis mostram que o preço dos transformadores e comutadores aumentou 80% desde 2020. O custo de aquisição dos chips e equipamentos de suporte de servidores necessários para um data center de 1 GW é de aproximadamente US$ 40 bilhões.

Actualmente, o plano de partilha de custos da Crusoe, Oracle, OpenAI e outros parceiros não foi divulgado; se ocorrerem derrapagens orçamentais e atrasos na construção, não existe uma conclusão clara sobre as entidades de responsabilidade legal relevantes. Um porta-voz da Crusoé respondeu que o orçamento da empresa reservou reservas de risco para lidar com diversas emergências.

Uma coisa é muito clara: o ciclo global de construção de data centers está geralmente se alongando, e os três fatores: prolongamento do ciclo de aprovação do uso do solo, escassez de equipamentos básicos e escassez de mão de obra continuam a desacelerar o progresso. Os economistas do JP Morgan divulgaram um relatório no mês passado dizendo que imagens de satélite mostram que mais de 60% dos data centers originalmente programados para entrar em operação antes de 2027 ainda não iniciaram a construção, e outros 7% dos cronogramas dos projetos foram adiados, indicando que o ritmo de expansão da indústria pode desacelerar.

O trabalho de resolução de problemas de Crusoe na base de Abilene também soou como um alerta para toda a indústria: não há espaço para negligência na construção de data centers em hiperescala em escala de gigawatts. Qualquer erro pode levar ao superaquecimento e danos aos cavacos, à quebra das pás da turbina e dos eixos de transmissão, aos trabalhadores da construção civil serem feridos ou feridos devido a choque elétrico ou à queima completa do equipamento de suporte da rede elétrica.

CEO da Crusoé, Chase Rockmiller
CEO da Crusoé, Chase Rockmiller

Múltiplas dificuldades, como gargalos no fornecimento de energia e novas restrições regulatórias, são também as principais razões pelas quais empresas de IA, como OpenAI e Anthropic, relatam que não conseguem obter poder computacional suficiente de data centers recém-construídos e iterar novas tecnologias na velocidade esperada.

A Crusoe está estabelecida há oito anos. Nos seus primeiros dias, dependia de energia residual para operar minas de criptomoedas. Em 2022, transformar-se-á totalmente numa via de infraestrutura de IA. A avaliação de capital privado da empresa ultrapassou os 10 mil milhões de dólares há sete meses, e as últimas notícias mostram que a sua ronda de financiamento pré-IPO deverá ser avaliada na faixa dos 300 mil milhões a 400 mil milhões de dólares. Os executivos corporativos que trabalharam com a Crusoe deram avaliações positivas à sua equipe de gestão, dizendo que a equipe acelerou enormemente a eficiência da construção industrial e resolveu com flexibilidade vários problemas na implementação e supervisão do projeto.

A Crusoe divulgou oficialmente um comunicado dizendo: "As características de demanda de energia das cargas de computação de IA são fundamentalmente diferentes da lógica de adaptação do projeto das fontes de alimentação de backup tradicionais na indústria de energia. Este é um grande problema de engenharia que toda a indústria precisa superar. Os projetos que entregamos aos nossos clientes estabeleceram precedentes na indústria em termos de velocidade de construção e escala de implementação, e estamos muito orgulhosos disso."

Como pioneiro no caminho do data center de IA, os vários perigos ocultos expostos pelo projeto Crusoe equivalem à limpeza antecipada de minas para toda a indústria. Semelhante à implantação anterior de baterias de armazenamento de energia da Tesla para resolver choques de pulso de energia no data center xAI (agora incorporado à SpaceX).

Outro fabricante local de infraestrutura do Texas comentou que a Crusoe ousou testar e errar rapidamente e iterar soluções em troca da velocidade máxima de construção, mas às custas de altos custos de investimento. Um ex-engenheiro da OpenAI familiarizado com o projeto Abilene confirmou isso. Especialistas do projeto revelaram que a solução inicial de fonte de alimentação de backup da base tinha resistência insuficiente a mudanças repentinas de tensão e oscilações de energia, e a equipe teve que modificar várias versões do projeto.

Como essas turbinas a gás são usadas apenas como energia de reserva para o data center, elas não afetam a conexão da linha principal entre a base e a rede elétrica pública do Texas. O parceiro do projeto Lancium é responsável pela construção da subestação local. Pessoas familiarizadas com o período de construção disseram que o andamento do projeto da subestação está dentro do padrão ou até mesmo adiantado, garantindo que a OpenAI possa usar até 1,2 GW de energia da rede externa neste verão.

No entanto, o fornecimento de energia suficiente da rede não significa que OpenAI e Oracle possam ser usados ​​com capacidade total imediatamente. Os engenheiros precisam concluir o teste da máquina de cozimento de chips de servidor e otimizar simultaneamente o projeto da fonte de alimentação e do sistema de resfriamento para concluir a depuração de todo o cluster de computação antes do verão. Um ex-engenheiro envolvido no projeto revelou que no início deste ano, a unidade de refrigeração usada para evitar o superaquecimento e derretimento do servidor de chip (falha de fuga térmica) falhou em um ambiente de baixa temperatura, fazendo com que a energia de computação fosse interrompida por quase um dia inteiro.

Riscos de sair da rede

O consumo de energia da carga de computação de IA varia muito entre milissegundos. Pesquisas relevantes apontam que o gerenciamento e o controle inadequados produzirão incompatibilidade de frequência (distorção harmônica), danificarão eletrodomésticos e equipamentos de subestações e acelerarão a perda da bateria do próprio data center. Assim que uma anormalidade na rede elétrica for detectada, o data center se desconectará proativamente da rede para se proteger. Em 2024 e 2025, dezenas de salas de computadores no “corredor do data center” da Virgínia ficaram offline duas vezes, quase provocando um apagão regional.

No verão e outono de 2024, uma fazenda de mineração de criptografia no oeste do Texas continuou a causar violentas oscilações de energia na rede elétrica devido a um defeito no programa de firmware. O fabricante reescreveu o firmware e a falha foi resolvida.

Os operadores da rede elétrica do Texas estão altamente vigilantes sobre isso. De acordo com estatísticas da GridMonitor, uma agência de monitoramento de conferências de redes elétricas, só neste ano, o termo “oscilação de energia” foi mencionado 80 vezes em várias reuniões do Conselho de Confiabilidade Elétrica do Texas (ERCOT). A agência está implementando novas regulamentações de controle de distorção, forçando os data centers a serem equipados com buffers de energia de alta precisão e sistemas de estabilização de tensão. A solução principal são as baterias de armazenamento de energia, e os fabricantes também estão desenvolvendo simultaneamente soluções alternativas, como pequenos grupos geradores, capacitores e células de combustível.

Outra nova regulamentação a ser implementada exige que os data centers tenham a capacidade de superar falhas na rede e não serem diretamente desconectados da rede em caso de anormalidade. A boa notícia é que o design geral do parque de nova geração está equipado com uma bateria tampão de armazenamento de energia mais eficiente, e o hardware de suporte de IA também foi adaptado e otimizado. Sean James, arquiteto de sistemas de energia da NVIDIA, disse: “A NVIDIA continua otimizando os circuitos integrados dos servidores para melhorar a capacidade de armazenar pulsos de energia em buffer”.

Impedir que o poder da computação da IA ​​impacte a rede elétrica atingiu o nível de supervisão unificada na América do Norte. A North American Electric Reliability Corporation (NERC) emitiu um raro aviso de nível três em 4 de maio, exigindo que os planejadores da rede elétrica implementassem medidas básicas de retificação antes de 3 de agosto para provar que a rede elétrica pode transportar novas cargas computacionais ultragrandes, como centros de dados de IA.

O CEO da NERC, Jim Robb, disse: "O Vale do Silício sempre acreditou em tentativas e erros rápidos, antigos e novos, mas essa lógica não se aplica à rede elétrica - toda a infraestrutura para a operação da sociedade depende de um fornecimento de energia estável. O modo de operação dos data centers e das minas criptografadas deve garantir a confiabilidade geral da rede elétrica".

Um porta-voz da Oracle respondeu: "Garantir a estabilidade da rede elétrica é o princípio central do design do data center em hiperescala da Oracle. A empresa cooperou profundamente com a Lancium e coordenou-se com empresas de energia locais para garantir a operação segura da rede elétrica."