Na quinta-feira, a OpenAI lançou oficialmente uma nova geração de modelos básicos, GPT‑5.4, posicionando-o como “o modelo mais poderoso, eficiente e de ponta para trabalho profissional até hoje”. Além da versão padrão, a OpenAI lançou simultaneamente duas variantes: GPT‑5.4 Thinking, que enfatiza capacidades de raciocínio complexas, e GPT‑5.4 Pro, voltado para cenários de aplicativos de alto desempenho.

Em termos de capacidades de modelo, a versão API do GPT‑5.4 suporta uma janela de contexto de até 1 milhão de tokens, excedendo em muito qualquer modelo fornecido anteriormente pela OpenAI, o que é benéfico para processar fluxos de trabalho de cadeia longa, como documentos longos, projetos complexos ou tarefas multi-round. A OpenAI também enfatizou a melhoria da eficiência do uso de tokens, dizendo que o GPT-5.4 pode completar tarefas da mesma dificuldade do modelo da geração anterior com significativamente menos tokens, formando assim vantagens em custo e velocidade de resposta.

Os últimos resultados dos testes de benchmark mostram que o GPT-5.4 alcançou uma liderança significativa em diversas avaliações confiáveis, incluindo o estabelecimento de novos recordes nos dois testes de cenário de "operação de computador" do OSWorld-Verified e WebArena Verified, e alcançando a pontuação mais alta de 83% no próprio conjunto de avaliação de trabalho de conhecimento da OpenAI, GDPval. O GPT‑5.4 também ficou em primeiro lugar no benchmark APEX‑Agents definido pela startup Mercor para competências profissionais como direito e finanças.

O CEO da Mercor, Brendan Foody, disse em um comunicado que o GPT-5.4 se destaca na produção de resultados de longo prazo, incluindo apresentações, modelos financeiros e análises jurídicas, “enquanto mantém o desempenho superior, mais rápido e com menor custo do que modelos de ponta comparáveis”.

Em termos de confiabilidade, o GPT‑5.4 dá continuidade à direção de pesquisa e desenvolvimento da OpenAI para reduzir “ilusões” e erros factuais. Os resultados oficiais da avaliação interna mostram que, em comparação com o GPT-5.2, o novo modelo apresenta uma redução de 33% na probabilidade de erros ao nível de uma única afirmação e uma redução de 18% na probabilidade de erros na resposta global.

Esta versão também vem com uma importante mudança na camada de API: OpenAI lança um novo mecanismo de chamada de ferramenta chamado Tool Search. Na solução antiga, o prompt do sistema deve injetar as definições de todas as ferramentas disponíveis no modelo de uma só vez. À medida que o número de ferramentas aumenta, esta parte do prompt ocupará uma grande quantidade de tokens. A nova Pesquisa de Ferramentas permite que os modelos consultem definições de ferramentas sob demanda, reduzindo significativamente a sobrecarga em sistemas com tamanhos de ferramentas maiores, tornando as invocações mais rápidas e menos dispendiosas.

Com foco na segurança e controlabilidade, a OpenAI adicionou uma nova avaliação de segurança, desta vez para testar o desempenho da “cadeia de pensamento” do modelo em tarefas de várias etapas. Os pesquisadores há muito se preocupam com o fato de que modelos com capacidade de raciocínio possam “disfarçar” ou ocultar o verdadeiro caminho do raciocínio durante o processo de pensamento em cadeia. Pesquisas anteriores mostraram que isso pode realmente acontecer sob certas condições. Os novos resultados da avaliação fornecidos pela OpenAI mostram que na versão do GPT-5.4 Thinking, a probabilidade de tal desempenho “enganoso” é ainda menor. “Isso mostra que o modelo não tem a capacidade de ocultar ativamente o processo de raciocínio, e o monitoramento da cadeia de pensamento ainda é uma ferramenta de segurança eficaz.”

Através do lançamento simultâneo do GPT‑5.4 e das suas versões Pro e Thinking, a OpenAI está a tentar encontrar um novo equilíbrio entre produtividade profissional, eficiência de custos e controlabilidade de segurança, empurrando modelos grandes ainda mais para cenários de alto valor, como direito, finanças e trabalho de conhecimento.