Em 23 de abril, a OpenAI lançou uma nova geração do modelo principal GPT-5.5 e escreveu em seu site oficial que é o modelo mais inteligente, intuitivo e fácil de usar até o momento, e também é o próximo passo em uma nova maneira de concluir o trabalho em computadores. Este lançamento atraiu rapidamente a atenção da indústria, não apenas porque afirmava ter alcançado um avanço nas tarefas de agentes inteligentes, mas também devido ao seu “domínio” demonstrado em vários testes de benchmark.
De acordo com a lista abrangente de índices de inteligência divulgada pela agência de avaliação terceirizada Artificial Analysis, a OpenAI ocupa quatro dos seis primeiros lugares com sua série GPT-5.5. A agência acredita que “o GPT-5.5 permite que a OpenAI retorne ao primeiro lugar no campo da IA, rompendo o empate triplo com a Anthropic e o Google”.
Mas junto com o alto desempenho, houve também uma alta taxa de alucinações. No benchmark privado AA-Omniscience da Artificial Analysis, a taxa de alucinações do GPT-5.5 chega a 86%, o que é muito superior aos 36% de Claude Opus 4.7.
Isto significa que quando o cérebro de IA atualmente “mais inteligente” enfrenta um problema incerto ou desconhecido, a probabilidade de escolher “não saber com confiança” é extremamente baixa. Em vez disso, é mais provável que “fabrique com confiança” uma resposta. Uma vez colocado esse alto índice de alucinações em um cenário de trabalho que exige alta confiabilidade, é provável que leve a vieses de análise, erros de tomada de decisão e até perdas financeiras.
A IA mais poderosa é também o “mentiroso” mais perigoso? Diante de uma alta taxa de alucinações, o GPT-5.5 pode concluir com segurança tarefas complexas de conhecimento em aplicações práticas? Para responder a essas questões-chave, realizamos testes reais no GPT-5.5, desde o processamento de registros domésticos até a escrita de jogos de batalha em tempo real, para testar seu trabalho de conhecimento e capacidades de programação ao lidar com contextos longos e lógica complexa.
Este teste não trata apenas do desempenho de um modelo, mas também de como podemos abraçar as suas poderosas capacidades e, ao mesmo tempo, lidar com os seus riscos potenciais após a tecnologia de IA entrar na área de águas profundas.
01.Conhecimento e habilidade: realmente sabe trabalhar como um profissional
De acordo com os resultados oficiais dos testes de benchmark, o GPT-5.5 superou a geração anterior GPT-5.4 em quase todos os indicadores principais, e seu desempenho é particularmente notável no campo do trabalho do conhecimento.
Em um teste GDPval cobrindo 44 ocupações, o GPT-5.5 alcançou uma pontuação de 84,9%, não apenas excedendo o nível de 83,0% do pessoal real do local de trabalho, mas também superior aos 80,3% do Claude Opus 4.7 e aos 67,3% do Gemini 3.1 Pro. O teste simula o trabalho diário de várias profissões de colarinho branco, como analistas financeiros, gerentes de mercado e engenheiros de software, e exige que o modelo conclua tarefas abrangentes, como integração de informações, raciocínio analítico, recomendações para tomada de decisões e geração de relatórios.
Além disso, o GPT-5.5 também teve um bom desempenho em testes em muitos outros cenários práticos. Em um teste que simula conversas complexas de atendimento ao cliente, pode atingir uma precisão de 98,0% sem orientação especial; em um teste que permite à IA operar um computador para completar tarefas como uma pessoa real, obteve 78,7%; em uma prova que exige combinação de compreensão de imagens e textos e uso de ferramentas para resolução de problemas, obteve notas de 83,2% e 75,3% respectivamente. Esses resultados mostram que o GPT-5.5 está gradualmente abrindo uma série de habilidades como “ver, falar e fazer”.
OpenAI também usa casos reais internos para provar seu valor de produtividade. Sua equipe financeira utilizou-o para revisar 24.771 formulários fiscais K-1, totalizando 71.637 páginas de documentos, e disse que o processo foi concluído duas semanas antes do ano anterior. Isso mostra que o GPT-5.5 é uma ferramenta de produtividade que pode ser diretamente integrada ao fluxo de trabalho e melhorar efetivamente a eficiência.
Como essas habilidades funcionam na vida real? Projetamos um teste perto de casa para verificar.
Fornecemos ao GPT-5.5 vários dados de despesas de um único mês em um formato confuso e solicitamos que ele atuasse como um analista de dados familiares, completando tarefas como organização de dados, cálculo de despesas totais, análise da proporção de cada método de pagamento, classificação de estatísticas de despesas e, finalmente, geração de um relatório de recomendação para membros da família.
Embora este cenário de teste seja projetado para ser simples, ele pode mostrar claramente se a IA é realmente “fácil de usar”. A contabilidade doméstica é uma rotina diária para muitas pessoas, mas os registros costumam ser manuscritos e em formatos confusos. Os dados contábeis “confusos” exigem que a IA não apenas processe tabelas organizadas, mas também “leia” registros manuscritos, entenda o que cada quantia de dinheiro significa e agrupe itens semelhantes.
Calcular o razão geral, analisar onde o dinheiro é gasto e dar sugestões de poupança correspondem, na verdade, a um processo de pensamento completo. O GPT-5.5 precisa primeiro classificar as informações, depois ver as pistas delas, propor métodos viáveis e, finalmente, deixá-lo “escrever um relatório”. Isto exige que relate o seu trabalho de uma forma que as pessoas possam compreender e aceitar.
Os resultados do teste mostram que ele combina com precisão "almoço para viagem" e "jantar para viagem", e solicita proativamente que as "deduções automáticas do Alipay" sejam incluídas nas estatísticas do "Alipay", demonstrando a capacidade de entender contas confusas e as verdadeiras intenções dos usuários.


GPT-5.5 organiza tabelas de forma autônoma e fornece análises
Na análise, calculou a proporção e apontou que as despesas da categoria “compras online” (roupas, livros) são relativamente altas, e a maioria delas são suprimentos não urgentes. Portanto, recomenda-se definir um orçamento para este tipo de consumo, sendo que as sugestões apresentadas são específicas e viáveis. O relatório final gerado também é repleto de toque humano. A frase “Se você controlar um pouco o impulso de fazer compras online, as despesas da nossa família serão mais fáceis”. Atende aos requisitos de comunicação de “mostrar para sua família”. O tom é cordial e recomenda-se ter os pés no chão.
Este teste simples equivale a restaurar as capacidades essenciais examinadas pelo teste GDPval acima em cenários de vida. Os resultados atuais também mostram que suas capacidades profissionais podem ser utilizadas na vida real.
02.Capacidade de programação: do básico ao complexo, não causa confusão
Além de seu desempenho confiável em tarefas diárias de conhecimento, o GPT-5.5 também mostrou bons progressos em “habilidades difíceis”, como programação que exige maior precisão.
Num teste de benchmark (Terminal-Bench 2.0) que testa “agentes inteligentes”, obteve uma pontuação elevada de 82,7%. Este teste simula a execução de uma série de operações complexas na linha de comando, da mesma forma que permite que a IA conclua sozinha uma operação de várias etapas e uma tarefa de manutenção. Sua pontuação não só é superior à da geração anterior (75,1% do GPT-5.4), mas também supera significativamente o seu concorrente Claude Opus 4.7 (69,4%). Isso mostra que ele funciona melhor quando você precisa se lembrar de etapas, depurar-se e persistir na conclusão de tarefas de longo prazo.
Em segundo lugar, houve melhorias no tratamento de conteúdos muito longos. Em teste de recuperação de textos muito longos, variando de 500 mil a 1 milhão de caracteres, obteve 74,0%, mais que o dobro da geração anterior (36,6%). Isso significa que quando for solicitado a analisar um livro grosso ou navegar em um enorme depósito de códigos, será menos provável que ele "perca" ou "lembre-se incorretamente", encontre informações com mais precisão e tenha ideias mais coerentes.
Além disso, vários resultados de testes mostram que, ao executar as mesmas tarefas de programação, o GPT-5.5 consome significativamente menos tokens do que o GPT-5.4. Até Michael Truell, cofundador do editor de código Cursor, comentou que ele é mais inteligente e mais resiliente que a geração anterior, pode chamar ferramentas de forma mais confiável e pode persistir por mais tempo diante de tarefas complexas e de longo prazo.
Simplificando, em cenários de operação complexos, como programação, os dados acima mostram que o GPT-5.5 não é apenas mais forte, mas também mais estável e economiza recursos, e é adequado para lidar com tarefas reais de desenvolvimento que têm muitas etapas e são demoradas.
Para verificar suas reais capacidades de programação, testamos-o com uma tarefa específica de desenvolvimento, construindo e atualizando gradativamente um jogo Lianliankan do zero, e estipulando que ele deve usar as 12 expressões emoji diferentes fornecidas.
Primeiro, deixamos o GPT-5.5 gerar um jogo Lianliankan completo e executável.
Isso exige que ele entenda as necessidades de texto dos desenvolvedores, projete interfaces, gerencie os estados do jogo e implemente de forma independente o algoritmo de busca de caminho principal. Acabou sendo feito em questão de minutos.

Minijogo Lianliankan gerado por GPT-5.5
Em seguida, aumentamos a dificuldade e pedimos para adicionar um adereço de “redesenho” ao jogo.
A função deste adereço é: quando o jogador o utiliza, ele pode consumir energia de “combinação” e atualizar aleatoriamente todos os ícones do tabuleiro que sejam do mesmo tipo da última vez que foram eliminados.
Para conseguir isso, o GPT-5.5 deve fazer duas coisas. Uma delas é modificar as regras de dados por trás do jogo para oferecer suporte a esse novo recurso; a outra é garantir que o layout atualizado do tabuleiro ainda seja “solucionável” e não deixe os jogadores ficarem presos. Finalmente, o GPT-5.5 escreveu esta parte do código com sucesso.
Depois disso, continuamos permitindo que ele adicionasse um sistema de usuário completo ao jogo, incluindo login, registro de pontuação e exibição de classificação.
O principal teste desta etapa é se o GPT-5.5 pode integrar suavemente novas funções à estrutura existente, enquanto mantém a jogabilidade central original e a lógica do jogo sem ser destruída.
Mais uma vez, ele deu conta do recado e mostrou moderação ao iterar o código sem refatorar demais ou introduzir alterações desnecessárias.

GPT-5.5 implementa ajustes nos detalhes do jogo
Por fim, levamos a dificuldade para um nível mais alto do modo de batalha em tempo real, permitindo que dois jogadores compitam em eliminação em tempo real em navegadores diferentes.
Isso envolve uma série de problemas típicos de multiplayer online, como sincronização do estado da placa, resolução de conflitos operacionais e processamento de atrasos na rede. Diante de um desafio tão complexo com alta integração e forte desempenho em tempo real, o GPT-5.5 ainda alcançou uma entrega precisa.
Este teste simples a complexo mostra que em tarefas reais de programação, o GPT-5.5 pode não apenas lidar com lógica complexa e design arquitetônico, mas também responder com precisão às necessidades do desenvolvedor e não refatorar ou introduzir outro código à vontade. Mesmo quando pedimos para reverter para a versão anterior, ele pode restaurar de forma estável para o estado anterior.
03.Alta taxa de alucinação: você pode usá-lo, mas não ousa deixá-lo passar
Apesar do seu impressionante desempenho em testes reais, combinado com dados públicos, o GPT-5.5 ainda não excede as expectativas do mercado e existem riscos que não podem ser ignorados.
Vejamos um conjunto de dados comparativos.
No benchmark privado AA-Omniscience da Artificial Analysis, o GPT-5.5 alcançou uma taxa de ilusão de 86%, enquanto Claude Opus 4.7 alcançou apenas 36%. Isso significa que no cenário definido por este teste, que é projetado especificamente para detectar os limites do conhecimento do modelo, quando o GPT-5.5 enfrenta uma resposta incerta, sua probabilidade de “confessar não saber” é muito menor que a de seu oponente, e está mais propenso a gerar uma resposta possivelmente errada.
Deve-se notar que esses 86% não significam que o modelo terá alucinações na maioria das perguntas e respostas diárias, mas sim sua tendência comportamental específica ao tocar em pontos cegos do conhecimento. Um profissional explicou que isso pode ocorrer porque o GPT-5.5 tem uma cobertura de conhecimento factual mais forte, mas a incerteza também é mais radical e as pessoas adivinharão as respostas a perguntas incertas. Contudo, este indicador ainda requer um alto grau de cautela ao ser utilizado para tarefas que exigem alta confiabilidade.
Esta tendência de alta alucinação pode representar riscos quando o GPT-5.5 é implantado em cenários de “trabalho autônomo”.
Por exemplo, em tarefas de análise de dados e geração de relatórios, ele pode citar com segurança dados inexistentes, fabricar tendências estatísticas ou fazer sugestões de tomada de decisão com base em fatos errôneos, fazendo com que os usuários façam julgamentos de negócios que se desviam da realidade. No processo de programação e depuração, a solução de código fornecida pode parecer razoável, mas pode não funcionar ou até mesmo ocultar vulnerabilidades de segurança, aumentando significativamente o custo de investigação e reparo posteriores.
Além disso, tais alucinações são frequentemente apresentadas de uma forma altamente confiante e logicamente consistente. Para usuários que não possuem experiência profissional relevante, esse tipo de resultado “determinístico” é extremamente enganoso e requer maior vigilância.
Além das preocupações técnicas, a estratégia de negócios da OpenAI desta vez também mostra intenções claras: primeiro usar o ecossistema para prender os usuários e depois usar os aumentos de preços para colher o mercado.
Por um lado, o GPT-5.5 não abriu a API ao mesmo tempo em que foi lançado. Ele foi usado apenas por seu próprio ChatGPT e Codex, inicialmente prendendo os usuários em seu ecossistema de aplicativos. Por outro lado, o preço do GPT-5.5 aumentou significativamente em comparação com a geração anterior. De acordo com dados oficiais, o GPT-5.5 cobra US$ 5 pela entrada e US$ 30 pela saída para cada 1 milhão de tokens processados. Os preços de entrada e saída da geração anterior GPT-5.4 foram de US$ 2,5 e US$ 15 respectivamente, o que significa que o preço da nova geração dobrou diretamente.
Se comparado com os principais concorrentes atuais, o modelo mais forte da Anthropic, o Opus 4.7, custa US$ 5 para entrada e US$ 25 para produção por milhão de tokens. Pode-se observar que o GPT-5.5 é igual ao seu oponente no preço de entrada, mas 20% superior no preço de saída.
Embora a OpenAI tenha explicado que a melhoria na eficiência do uso de tokens pode proteger contra aumentos de preços, de modo que os custos reais dos usuários não aumentem significativamente, a relação custo-eficácia específica ainda precisa de uma verificação mais aprofundada por parte da indústria.
Em relação a este modelo, Zhao Jiangjie, um agente sênior, comentou que o lançamento do GPT-5.5 não levou a um avanço. Não é tão grande quanto a enorme melhoria esperada para o modelo “Spud” que é popular na comunidade. No entanto, continua a manter a sua posição de liderança em capacidades de agente e codificação. Embora as capacidades dos agentes estejam melhorando, isso também está incentivando os fabricantes de modelos básicos a melhorar a eficiência da iteração do modelo. O modelo inovador de próxima geração da OpenAI (GPT-6) provavelmente estará a caminho.
Resumindo, para usuários comuns, pode valer a pena tentar o GPT-5.5, mas não deve ser considerado uma ferramenta absolutamente confiável. Para usuários corporativos, eles devem ser cautelosos antes de integrá-lo ao fluxo de trabalho principal. Quando esses 86% de “erros de confiança” ocorrerem, quem será o responsável?