De acordo com as notícias de 24 de Fevereiro, embora os investidores já tivessem dúvidas, enormes quantias de dinheiro de grandes empresas tecnológicas, governos e instituições de capital de risco estão a fluir para o campo da inteligência artificial a um ritmo sem precedentes. Para compreender as razões por detrás deste fenómeno, a chave é obter informações sobre as tendências evolutivas da própria tecnologia de inteligência artificial.
Atualmente, a tecnologia de inteligência artificial está se transformando de modelos tradicionais de grandes linguagens em modelos de raciocínio e agentes de IA. O processo de treinamento de modelos tradicionais de grandes linguagens, usados pela maioria dos chatbots de IA gratuitos, consome enormes quantidades de energia e tempo de computação. No entanto, à medida que a tecnologia avança, estamos rapidamente a encontrar formas de reduzir os recursos necessários para executar estes modelos quando os utilizadores os invocam. Em contraste, o processo real de execução de um modelo de inferência baseado em um modelo de linguagem grande consome várias vezes mais recursos computacionais e de energia do que um modelo tradicional.
Desde que a OpenAI lançou seu primeiro modelo de inferência o1 em setembro de 2024, as empresas de inteligência artificial aceleraram o lançamento de sistemas que possam competir com ele. Isso inclui o DeepSeekR1, que abalou toda a indústria de inteligência artificial e derrubou as avaliações de muitas empresas de tecnologia e energia. Na semana passada, a startup de inteligência artificial xAI de Elon Musk também lançou seu modelo de inferência Grok3.
O lançamento do DeepSeek causou certo pânico porque demonstrou que os modelos de inteligência artificial podem ser treinados de forma mais barata, potencialmente reduzindo a necessidade de data centers e chips avançados caros. No entanto, DeepSeek realmente empurrou a indústria de inteligência artificial com mais firmeza em direção a modelos de inferência com uso intensivo de recursos, o que significa que a demanda por infraestrutura computacional ainda é muito forte.
Dadas as maiores capacidades dos modelos de inferência, eles poderão em breve se tornar a forma padrão como as pessoas usam a inteligência artificial para realizar uma variedade de tarefas. O CEO da OpenAI, Sam Altman, disse que a próxima grande atualização nos modelos de inteligência artificial da empresa incluirá capacidades avançadas de raciocínio.
Então, por que os modelos de inferência e seus produtos relacionados, como ferramentas de “pesquisa profunda” e agentes de IA, exigem tantos recursos computacionais? A resposta está em como eles funcionam.
Kari Briski, vice-presidente de gerenciamento de produtos para inteligência artificial da Nvidia, explicou em um blog recente que os modelos de raciocínio de inteligência artificial geralmente consomem mais de 100 vezes os recursos computacionais dos modelos tradicionais de linguagem grande. Isso ocorre porque o modelo de raciocínio precisa conversar consigo mesmo por muito tempo na “cadeia de pensamento”, e esses processos de raciocínio muitas vezes são invisíveis para os usuários. Os recursos computacionais consumidos por um modelo são proporcionais ao vocabulário que ele gera, portanto, se um modelo de inferência gerar 100 vezes o vocabulário de um modelo convencional, ele também consumirá energia e recursos computacionais correspondentes.
Quando os modelos de inferência estiverem conectados à Internet, como fazem os modelos de "pesquisa profunda" do Google, OpenAI e Perplexity, o consumo de recursos será ainda maior. As demandas desses modelos em termos de recursos computacionais são apenas o começo. A este respeito, Google, Microsoft e Meta planeiam investir um total de pelo menos 215 mil milhões de dólares em despesas de capital em 2025, a maior parte dos quais será usada para construir centros de dados de inteligência artificial. Isso marca um aumento de 45% em suas despesas de capital em relação ao ano passado.
Em janeiro deste ano, com o lançamento do modelo de IA DeepSeekR1 da China, o custo do poder de computação por token (incluindo despesas de eletricidade e hardware) parece estar prestes a despencar. A DeepSeek provou através de artigos que a eficiência de treinamento e implantação de seu modelo de IA excede em muito os métodos divulgados anteriormente pelo laboratório de IA dos EUA.
Superficialmente, isto parece indicar que a futura procura de recursos computacionais por parte da inteligência artificial será significativamente reduzida, talvez apenas um décimo da procura actual, ou até menos. Mas à medida que os modelos de inferência se tornam disponíveis, é provável que a procura por recursos computacionais quando respondam a consultas aumente significativamente. Em suma, se novos modelos eficientes baseados na tecnologia DeepSeek reduzirem a demanda por poder de computação de IA para um décimo, e a popularidade dos modelos de inferência aumentar a demanda de uso em 100 vezes, a demanda geral de poder de computação ainda aumentará 10 vezes no futuro.
E este é apenas o ponto de partida. À medida que as empresas descobrem novos modelos de IA mais capazes, elas recorrerão a esses modelos com cada vez mais frequência, mudando a demanda por recursos computacionais do treinamento de modelos para o uso de modelos, o que a indústria de IA chama de “inferência”.
Tuhin Srivastava, CEO da Baseten, que fornece recursos de computação de inteligência artificial para outras empresas, disse que essa mudança nas necessidades de inferência já está em andamento. Seus clientes incluem empresas de tecnologia que usam inteligência artificial em aplicativos e serviços, como a Descript, que permite aos criadores de conteúdo editar áudio e vídeo por meio de transcrição, e a PicnicHealth, uma startup que processa registros médicos.
Srivastava disse que à medida que a demanda dos clientes por seus próprios produtos crescia rapidamente, eles descobriram a necessidade de mais poder de processamento de inteligência artificial. Ele acrescentou: “Seis meses atrás, ajudamos um cliente a reduzir seus requisitos de recursos computacionais em 60%, mas apenas três meses depois, o consumo de energia computacional havia excedido o nível original”.
Empresas como OpenAI, Google e Meta ainda correm para treinar modelos de IA mais capazes. Não importa quão alto seja o custo, seu objetivo é aproveitar o máximo possível do mercado nascente de inteligência artificial. “Acho que é provável que os laboratórios de ponta precisem continuar a investir enormes somas de dinheiro para desenvolver tecnologias de ponta”, disse Chris Taylor, CEO da FractionalAI. Sua empresa, como a Baseten e muitas outras no crescente ecossistema de IA, depende desses modelos de ponta para atender seus clientes.
O capitalista de risco e fundador da TheoryVentures, Tomasz Tunguz, prevê que nos próximos anos, novas inovações e mais microchips específicos para inteligência artificial poderão tornar os sistemas de inteligência artificial mais eficientes do que hoje, ou aumentar a eficiência dos sistemas finais em mil vezes. Os investidores e as grandes empresas tecnológicas apostam que a procura por modelos de inteligência artificial deverá crescer dramaticamente durante a próxima década devido à popularidade e à rápida adopção de modelos de inferência.
“Cada pressionamento de tecla que você fizer, ou cada sílaba que você falar em um microfone, cada nó operacional será processado em tempo real por pelo menos um sistema de IA”, disse Tunguz. Se fosse esse o caso, acrescentou, o mercado de IA poderia em breve ser 1.000 vezes maior do que é agora.