Fazer a mesma pergunta 10 vezes fará com que o ChatGPT duvide da sua vida e se contradiga muitas vezes

Um estudo mais recente da Universidade Estadual de Washington, nos Estados Unidos, mostra que, quando confrontado com afirmações científicas complexas, o grande modelo de linguagem ChatGPT muitas vezes “adivinha a resposta”, embora suas respostas pareçam muito confiantes. Sua exatidão não apenas é limitada, mas também é inconsistente na mesma questão, tornando especialmente difícil a identificação de informações falsas.

A pesquisa foi liderada por Mesut Cicek, professor associado do Departamento de Marketing e Negócios Internacionais da Washington State University College of Business. Ele e a sua equipa extraíram um grande número de declarações hipotéticas de artigos de investigação científica e submeteram-nas repetidamente ao ChatGPT, pedindo-lhe que avaliasse se essas declarações eram apoiadas por pesquisas existentes. Em essência, deixe a IA fazer julgamentos sobre “verdadeiro ou falso”. Os pesquisadores selecionaram um total de 719 hipóteses de pesquisa de artigos de periódicos de negócios desde 2021 e submeteram cada hipótese ao ChatGPT 10 vezes para examinar a consistência de suas respostas.

No primeiro experimento, realizado em 2024, o ChatGPT acertou “ostensivamente” 76,5% das vezes; quando a experiência foi repetida em 2025, esse número subiu ligeiramente para 80%. No entanto, depois de eliminar o fator "cego" e ajustar estatisticamente os resultados com base em suposições aleatórias, a equipe de pesquisa descobriu que o desempenho real do modelo era apenas cerca de 60% superior à resposta aleatória por "jogar uma moeda", o que está longe de ser confiável. Aos olhos dos pesquisadores, está mais próximo de uma “nota D de baixa pontuação”. Especialmente na identificação de declarações falsas, o desempenho do ChatGPT é particularmente fraco, com uma taxa de julgamento correto de apenas 16,4% para “proposições falsas”.

A questão da consistência também é proeminente. Mesmo que a pergunta seja repetida várias vezes exatamente com as mesmas palavras, o ChatGPT nem sempre chega à mesma conclusão. Cicek observou que de 10 perguntas e respostas repetidas, o modelo manteve respostas consistentes apenas em cerca de 73% das vezes. Em alguns exemplos específicos, entre as 10 respostas à mesma hipótese, o ChatGPT aparecerá na situação de “alternância verdadeiro e falso”, e até na situação extrema de “metade das respostas são verdadeiras e metade das respostas são falsas”.

Os autores do estudo, publicado na Rutgers Business Review, acreditam que os resultados destacam a necessidade de extrema cautela ao usar IA generativa em áreas importantes de tomada de decisão, especialmente aquelas que envolvem raciocínios complexos e nuances. Cicek enfatizou que os atuais modelos de linguagem em larga escala podem responder perguntas com uma linguagem muito fluente e persuasiva, mas isso não significa que eles tenham verdadeiras “capacidades de compreensão”. “As ferramentas de IA existentes não compreendem o mundo da mesma forma que os humanos – elas não têm realmente um ‘cérebro’”, disse ele. “Eles estão principalmente memorizando e combinando, o que pode fornecer algumas dicas, mas não sabem realmente do que estão falando.”

No método específico, a equipe de pesquisa foi completada por Cicek em colaboração com Sevincgul Ulu da Southern Illinois University, Can Uslay da Rutgers University e Kate Karniouchina da Northeastern University. Eles selecionaram hipóteses de pesquisa de 719 artigos de revistas de negócios. Tais hipóteses são frequentemente afetadas por múltiplas variáveis. Julgar se um estudo “apoia” uma determinada hipótese é em si um processo de raciocínio altamente complexo. Comprimir esta complexidade num simples julgamento de “sim/não” é um teste severo à compreensão e capacidade de raciocínio da ferramenta.

É importante notar que a equipe testou a versão gratuita do ChatGPT-3.5 em 2024 e o ChatGPT-5 mini atualizado em 2025. Os resultados mostraram que o desempenho geral das duas gerações de modelos nesta tarefa foi semelhante. Após o ajuste para o fator de adivinhação aleatória, a melhoria do modelo em comparação com a probabilidade de "adivinhação" de 50% em ambos os experimentos foi de apenas cerca de 60%.

O estudo apontou ainda que existe uma lacuna significativa entre a “fluência linguística” e a “capacidade real de raciocínio” de grandes modelos linguísticos. Estes sistemas podem produzir textos bem estruturados, redigidos com naturalidade e persuasivos, mas muitas vezes têm dificuldades com julgamentos lógicos mais profundos, pesando provas e identificando informações erradas, o que pode resultar em respostas que parecem corretas, mas que são, na verdade, problemáticas.

Com base nas conclusões acima, os investigadores recomendam que os gestores de negócios e os decisores devem sempre verificar os resultados e manter o ceticismo necessário ao utilizar ferramentas de IA generativas, como o ChatGPT. Apelaram também a uma maior formação dos utilizadores nas organizações para ajudar os funcionários a compreender os pontos fortes e as limitações de tais ferramentas e evitar vê-las como substitutos "autorizados" do julgamento profissional. Cicek destacou que embora o objeto deste estudo tenha sido o ChatGPT, outros sistemas de IA semelhantes tiveram desempenho aproximadamente igual em testes relacionados. Este trabalho também dá continuidade à pesquisa anterior sobre “exagero da IA”. Por exemplo, um inquérito nacional de 2024 mostrou que quando as empresas enfatizam “alimentado pela IA” no marketing, isso na verdade reduz a intenção de compra de alguns consumidores.

“Não importa o que aconteça, seja cético”, disse Cicek. “Não sou contra a IA, eu mesmo uso, mas é preciso ter muito cuidado com ela.”