DeepMind confirma: Objeções fazem o GPT-4o desistir facilmente da resposta correta

LLM é muito lisonjeiro! Mesmo se você questionar aleatoriamente sua resposta, um modelo grande e tão poderoso quanto o GPT-4o pode mudar imediatamente de ideia.AgoraGoogle DeepMind faz parceria com Universidade de LondresUm novo estudo descobriu:Esse comportamento pode não ser bajulação, mas sim falta de autoconfiança.

Além disso, a equipe descobriu que grandes modelos de linguagem, como GPT-4o e Gemma 3, têm comportamentos conflitantes de serem “teimosos” e “vacilantes quando questionados”.

Simplificando, a pesquisa deles descobriu por que os grandes modelos às vezes são confiantes, mas às vezes duvidam de si mesmos. A chave reside em dois pontos: primeiro, eles sempre sentem que o que dizem está certo no início e, segundo, levam muito a sério as objeções das outras pessoas.

Quando grandes modelos parecem confiantes nas suas respostas, isso é consistente com a cognição humana – as pessoas normalmente defendem as suas opiniões.

Porém, quando o modelo é excessivamente sensível diante de vozes opostas, vacila e escolhe outras respostas, vai contra a tendência humana de apoiar as próprias opiniões.

Vamos dar uma olhada no processo experimental específico.

Grandes modelos são excessivamente sensíveis a opiniões adversas

Os pesquisadores usam LLMs paraNão retém memória de julgamento inicialPara obter as características de confiança nas circunstâncias, selecionamos grandes modelos representativos, como Gemma 3, GPT4o e o1-preview, e projetamos um experimento de resposta de duas rodadas.

A primeira rodada é a resposta inicial:DarResposta LLMJogue fora uma questão de escolha binária e deixe o fictícioRecomendar LLMDê comentários e sugestões.

A segunda rodada é para receber sugestões e decisões finais: Apresentando sugestões de feedback para o LLM, permitindo que o LLM respondente faça a escolha final após receber as sugestões, seja para manter a resposta inicial ou modificar a resposta com base nas sugestões.

Os pesquisadores definiram três atributos principais nas recomendações de feedback que recomendam o LLM:

Atitudes sugeridas: divididas em concordo, discordo e neutra. Concordar ou discordar é uma resposta que apoia ou nega o LLM; sugestões neutras fornecem apenas informações adicionais relevantes.
Etiqueta de precisão: A etiqueta de precisão anexada à sugestão de feedback varia de 50% (nível aleatório) a 100% (absolutamente confiável), com incrementos de 10%.
Método de apresentação de informações: Apresente as sugestões ao LLM respondente em um formato claro e padronizado para garantir que o modelo possa ler e compreender com precisão o conteúdo das sugestões e evitar viés de tomada de decisão causado por má comunicação de informações.

A variável chave no experimento é controlar se o LLM de resposta é visível para a resposta inicial.

Os pesquisadores estabeleceram duas condições: exibição inicial da resposta e ocultação inicial da resposta, e observaram os resultados finais da tomada de decisão do LLM nas duas situações.

Resultados experimentais mostram que quando o LLM consegue ver sua resposta inicial, ele tende a não mudar sua resposta.

Isto é um pouco semelhante à tomada de decisão humana, ou seja, uma vez feita uma escolha, a pessoa manterá subconscientemente o seu próprio ponto de vista e não o mudará facilmente, mesmo que outras informações sejam recebidas.

Porém, quando a resposta inicial está oculta, a probabilidade de o LLM alterar a resposta torna-se maior.

Os modelos mostram uma ênfase excessiva nas contra-sugestões e a sua sensibilidade está muito além do intervalo razoável. Mesmo que as objeções sejam incorretas, elas “duvidarão de si mesmas”, levando ao fácil abandono final da resposta inicial originalmente correta.

Isso está um pouco desviado da cognição humana. As pessoas geralmente não ficam confusas com informações “falsas à primeira vista”.

Pode-se dizer que os modelos grandes costumam ter muita confiança em si mesmos no mecanismo de memória.

Mas sem um mecanismo de memória, os modelos podem ficar com “falta de confiança” e não serem capazes de manter suas próprias opiniões como os humanos.

Por que os modelos grandes têm “orelhas macias”?

Em resposta a este resultado experimental, os investigadores acreditam que pode haver várias razões para a oscilação do grande modelo.

nível de treinamentoPor exemplo, a aprendizagem por reforço a partir do feedback humano (RLHF) faz com que o modelo atenda excessivamente a insumos externos e tende a ser excessivamente sensível a informações opostas, mas carece de um julgamento independente sobre a confiabilidade das informações.

na lógica de tomada de decisão, a resposta do modelo não se baseia no raciocínio lógico, mas na correspondência estatística de padrões de textos massivos.Correlações de alta frequência entre sinais de objeção e respostas corrigidasDeixando-os vulneráveis a objeções superficiais e à sua incapacidade de autoverificar se a resposta inicial está correta.

Em termos de mecanismo de memória, a dependência do caminho quando a resposta inicial for visível fortalecerá a "teimosia", e quando a resposta inicial estiver oculta, o grande modelo perderá seu ponto de ancoragem e deixará que as sugestões opostas se tornem o sinal dominante, fazendo com que sejam facilmente abaladas.

Resumindo, os "ouvidos moles" dos grandes modelos de linguagem são o resultado da atenção excessiva ao feedback externo durante o treinamento, da confiança em padrões de correspondência em vez do raciocínio lógico ao tomar decisões e da falta de suporte de raciocínio profundo no mecanismo de memória.

Esta característica pode facilitar ser perturbado por informações opostas (até mesmo erros) que aparecem posteriormente em múltiplas rodadas de diálogo e, em última análise, desviar-se da conclusão correta.

Parece que precisamos prestar atenção às estratégias ao usar o LLM ~

Endereço do artigo: https://www.arxiv.org/abs/2507.03120

https://venturebeat.com/ai/google-study-shows-llms-abandon-correct-answers-under-pression-ameaçando-multi-turn-ai-systems/