GPT-4 não sabe que está errado. A nova falha do LLM exposta: a taxa de sucesso da autocorreção é de apenas 1%

O GPT-4 nem sabe que cometeu um erro? A pesquisa mais recente descobriu que, em tarefas de raciocínio, o LLM não pode salvar o desempenho da deterioração após a autocorreção, atraindo a atenção do magnata da IA LeCun Marcus. Outra grande falha foi revelada no modelo grande, que chamou a atenção de dois marmanjos, LeCun e Marcus, que o encaminharam simultaneamente!

No experimento de inferência, o modelo que afirmava melhorar a precisão se autocorrigiu, “melhorando” a precisão de 16% para 1%!

Simplificando, o LLM não pode melhorar o seu resultado através da autocorreção em tarefas de raciocínio, a menos que o LLM já saiba a resposta correta durante o processo de autocorreção.

Dois artigos publicados por pesquisadores da ASU refutaram o método de "autocorreção" proposto por muitos estudos anteriores - permitir que grandes modelos autocorrijam seus próprios resultados de saída pode melhorar a qualidade de saída do modelo.

Endereço do artigo: https://arxiv.org/abs/2310.12397

Endereço do artigo: https://arxiv.org/abs/2310.08118

O professor Subbarao Kambhampati, coautor do artigo, está empenhado em pesquisar as capacidades de raciocínio da IA. Ele publicou um artigo em setembro e até negou completamente as capacidades de raciocínio e planejamento do GPT-4.

Endereço do artigo: https://arxiv.org/pdf/2206.10498.pdf

Além deste professor, recentemente pesquisadores da DeepMind e da UIUC University também questionaram a capacidade do LLM de “autocorreção” em tarefas de raciocínio.

Este artigo ainda apela a todos os estudiosos que realizam pesquisas relevantes para que levem sua pesquisa a sério e não digam ao grande modelo a resposta correta e depois deixem-no realizar a chamada "autocorreção".

Porque se o modelo não souber a resposta correta, a qualidade da saída diminuirá após o modelo "se autocorrigir".

https://arxiv.org/abs/2310.01798

A seguir, vamos dar uma olhada mais de perto nesses dois artigos mais recentes.

GPT-4 "se autocorrige" e os resultados de saída são piores

O primeiro artigo estuda o GPT-4, permitindo que o GPT-4 forneça soluções para problemas de coloração gráfica e, em seguida, deixando o GPT-4 "auto-corrigir" suas soluções propostas.

Ao mesmo tempo, o autor introduz um sistema de avaliação externa para avaliar a saída direta do GPT-4 e a saída após o ciclo de "autocorreção".

Os resultados experimentais mostram que a precisão do GPT-4 na adivinhação das cores é inferior a 20%, o que não parece surpreendente.

Mas, surpreendentemente, a precisão no modo "autocorreção" cai significativamente (segunda barra na imagem abaixo) - completamente contrária a todas as intenções de autocorreção!

O autor acredita que esta situação aparentemente contra-intuitiva pode ser explicada da seguinte forma: o GPT-4 também tem um desempenho muito fraco na verificação de respostas corretas!

Porque mesmo quando o GPT-4 adivinha acidentalmente a cor correta, sua “autocorreção” faz com que pense que há algo errado com a resposta correta e então a substitui pela resposta correta.

Outras pesquisas também revelaram que o GPT-4 melhora sua solução se um validador externo fornecer uma resposta comprovadamente correta para a cor adivinhada pelo GPT-4.

Neste caso, as palavras de alerta geradas pela "autocorreção" podem de fato melhorar a qualidade dos resultados de saída (3-5 barras na figura acima)

Resumindo, para a tarefa de "problema de colorização", a "autocorreção" independente do GPT-4 prejudicará o desempenho da saída, porque o GPT-4 não pode verificar se a resposta está correta.

Mas se um processo de verificação externa correto puder ser fornecido, a “autocorreção” gerada pelo GPT-4 pode de fato melhorar o desempenho.

Outro artigo estudou a capacidade de "autocorreção" de grandes modelos de linguagem na perspectiva de tarefas de planejamento, e os resultados da pesquisa foram semelhantes aos do artigo anterior.

Além disso, os pesquisadores descobriram que não foi a “autocorreção” do LLM que realmente melhorou a precisão dos resultados, mas o feedback de um verificador externo e independente.

Em última análise, o LLM não tem como realizar uma verificação independente e deve confiar na “resposta correta” dada por um verificador externo para se “autocorrigir” efetivamente.

O "problema de coloração" tem um desempenho ruim, o LLM não consegue verificar de forma independente a resposta correta

estrutura de projeto de pesquisa

O "problema de coloração" é um problema de raciocínio muito clássico. Mesmo que não seja difícil, as respostas são bastante diversas e a exatidão das respostas é fácil de verificar.

A diversidade de resultados torna difícil para os dados de treinamento LLM cobrir todos os dados, de modo a evitar a possibilidade de contaminação dos dados de treinamento LLM.

Essas razões tornam o "problema de coloração" muito adequado para estudar a capacidade de raciocínio do LLM, e também é conveniente para estudar a capacidade do LLM de "autocorreção" no raciocínio.

Os pesquisadores construíram seu próprio conjunto de dados, usando GrinPy2 para lidar com operações gráficas comuns. Cada parcela foi construída pelo método Erdos-Rényi (˝p=0,4).

Uma vez encontrada a resposta correta, ela é compilada no formato DiMacS padrão e anexada a uma anotação contendo seu número cromático pré-computado.

Para os experimentos a seguir, os pesquisadores geraram 100 instâncias, cada uma com uma média de 24 arestas, espalhadas por um intervalo de contagens de nós de 10 a 17 – uma distribuição porque a experiência mostrou que era um intervalo com comportamento suficientemente variável.

O diagrama utilizado pelos pesquisadores é mostrado na Figura 1 abaixo. Este processo inclui a primeira resposta do LLM, o prompt de retorno (backprompt) da resposta e o esquema de cores correto final.

Esquema de backprompting iterativo

Gerador de prompt:

Este gerador de prompt pega uma instância DIMACS e traduz cada aresta em uma frase, depois envolve tudo em um conjunto de instruções comuns para construir um prompt em linguagem natural.

Restringimos intencionalmente as diferenças entre os diferentes prompts de instância para reduzir a quantidade de informações específicas do problema que vazamos para o LLM. Exemplos de vários tipos de prompts podem ser encontrados no apêndice.

Modelo de linguagem grande:

O GPT-4 é chamado por meio do OpenAIAPI, que é o modelo de última geração atual.

Os pesquisadores fornecem uma função de sistema: "Você é um solucionador de satisfação de restrições que resolve vários CSPs (problemas de satisfação de restrições)".

Geração de palavra de prompt de retorno (BackpromptGeneration)

No modo de verificação, o LLM recebe um tipo diferente de prompt.

Além das instruções padrão, contém apenas uma descrição da figura e uma sugestão de esquema de cores. Sua tarefa é verificar a correção, a otimalidade e se cada vértice foi pintado com uma cor.

Se um conjunto de arestas na resposta gerada for contraditório, então o esquema de cores está errado.

Para comparar cada ponto, os pesquisadores também construíram um validador que lista todas as arestas contraditórias.

Como as respostas do LLM também estão em linguagem natural, os pesquisadores primeiro as traduziram para um formato que facilitou a análise. Para tornar o processo mais consistente, os pesquisadores criaram prompts iniciais para descrever o formato de saída preciso que um modelo precisa seguir. A resposta é então avaliada quanto à correção.

Para avaliar os resultados da validação do LLM, os pesquisadores examinam o quão bem eles funcionam na localização de erros nos esquemas de cores propostos.

Intuitivamente, estes devem ser fáceis de identificar: se dois vértices que compõem uma aresta compartilham uma cor, retorne essa aresta imediatamente. Do ponto de vista algorítmico, é apenas uma questão de detectar todas as arestas e comparar a cor de cada vértice com a cor dos seus pontos de conexão.

verificar

Para obter mais informações sobre as capacidades de verificação dos LLMs, os pesquisadores estudaram seu desempenho na localização de erros nos esquemas de cores propostos.

Intuitivamente, esses erros devem ser fáceis de detectar: se dois vértices que compõem uma aresta compartilham uma cor, essa aresta é retornada imediatamente. Do ponto de vista algorítmico, tudo o que precisa ser feito é percorrer todas as arestas e comparar a cor de cada vértice com a cor do vértice correspondente.

Os pesquisadores usaram o mesmo processo de análise, mas construíram um novo domínio que os pesquisadores chamaram de color_verification. O LLM é direcionado para verificar se a coloração está correta, otimizada e se cada vértice recebeu uma cor.

Caso a coloração esteja incorreta, é instruído a listar o erro na coloração, ou seja, se dois nós conectados compartilham uma cor, retornar a aresta para representar o erro. Nenhum backprompt é fornecido.

Os pesquisadores usaram a mesma instância gráfica de antes, mas geraram quatro esquemas de cores para testar o modelo:

Correto: Um esquema de sombreamento ideal sem erros gerado por um algoritmo ganancioso estocástico e iterativo (usando números de cores pré-computados para garantir a otimização).

Ablated: altera um nó aleatório de um conjunto anterior de esquemas de cores para a cor de seus vizinhos.

Não ideal: selecione aleatoriamente uma parte colorida do conjunto correto e recolora-a para um novo matiz.

Aleatório: Cores atribuídas de forma totalmente aleatória, o número de cores diferentes é igual ao número de cores na imagem.

LLM: Um esquema de cores selecionado aleatoriamente a partir da saída gerada pelo LLM no experimento anterior.

para concluir

O LLM foi solicitado, avaliado quanto às respostas e passou para a próxima instância sem qualquer resposta, resultando em uma pontuação inicial de 16%.

Quando os pesquisadores executaram a mesma instância, mas desta vez usando feedback gerado pelo mesmo modelo de linguagem que o verificador para prompts de retorno, o desempenho caiu drasticamente – apenas uma em cada 100 instâncias foi respondida corretamente.

Retornar dicas com um validador qualificado externamente pode inicialmente parecer mais eficaz.

O número de instâncias respondidas corretamente foi próximo de 40%, mas se isso significa que o GPT-4 está ouvindo, melhorando e raciocinando com base no feedback, então os pesquisadores esperam que avisos de retorno mais precisos levem a melhores resultados.

Contudo, neste domínio, as pontuações brutas (ver Figura 2 acima) não confirmam isto.

Capacidades de verificação do LLM

Os pesquisadores testaram a capacidade do GPT-4 de verificar esquemas de cores de gráficos nas mesmas instâncias, gerando cinco tipos diferentes de esquemas de cores para cada instância.

O resultado óbvio é exatamente o mesmo que o resultado da autocorreção do LLM acima: o modelo está quase relutante em marcar qualquer resposta como correta. Dos 100 esquemas de cores ideais, apenas 2 deles estavam corretos.

De toda a coleção de 500 esquemas de sombreamento, 118 deles estão corretos, e apenas afirma que 30 deles estão corretos. Desses 30, apenas 5 estavam realmente corretos.

No geral, o padrão permanece inalterado. Em menos de 10% dos casos, o LLM deu uma resposta “correta”, “não ideal” ou “tarefa faltante”. Nestes casos, o comportamento parece um tanto aleatório.

Em cerca de um quarto dos casos, ele responde com uma validação “isso não está correto”, a explicação corresponde à realidade, e faz isso especificando não mais do que uma aresta, minimizando assim a chance de deturpar algo.

Os resultados são mostrados na Tabela 2 acima. Observe que à medida que a taxa de erro do domínio aumenta, a proporção de alucinações diminui. Ou seja, quando há mais arestas incorretas, é mais provável que o modelo identifique os erros nelas.

LLM se autocrítica e o desempenho diminui em vez de aumentar

No artigo apresentado no dia 12, o autor também chegou a uma conclusão consistente com o exposto.

Quer se trate de planejamento, aritmética simples ou lógica, o atual modelo grande e mais avançado GPT-4 não é totalmente competente.

Muitos pesquisadores o exploraram e melhoraram, inclusive permitindo que o LLM aprenda autoiteração, autoverificação e outras estratégias para melhorar o desempenho.

Como resultado, as pessoas da indústria estão otimistas de que modelos grandes ainda podem ser salvos!

No entanto, a complexidade das tarefas de inferência no sentido clássico é irrelevante para modelos grandes porque o LLM é um modelo que utiliza recuperação aproximada em vez de inferência precisa.

Em um artigo submetido ao arXiv no dia 12, os pesquisadores da ASU avaliaram e analisaram sistematicamente a autocrítica e as capacidades de otimização iterativa do LLM em tarefas de planejamento.

No estudo, o autor propôs um sistema de planejamento contendo um LLM gerador e um LLM verificador.

Dentre eles, o gerador GPT-4 é responsável por gerar planos candidatos, e o verificador GPT-4 é responsável por verificar a exatidão do plano e fornecer feedback.

Os pesquisadores então conduziram experimentos no domínio de planejamento Blocksworld e avaliaram empiricamente:

-O impacto da autocrítica no desempenho da geração do plano de todo o sistema LLM+LLM

- Desempenho do verificador LLM relativamente à verificação da verdade terrestre;

- O impacto dos níveis de feedback no desempenho geral do sistema ao criticar a geração de LLM.

Os resultados mostram que a autocrítica reduz o desempenho da geração do plano LLM em comparação ao uso de um validador externo confiável.

A degradação do desempenho pode ser atribuída diretamente aos maus resultados do validador LLM, que gera um grande número de falsos positivos, o que pode prejudicar seriamente a confiabilidade do sistema.

A precisão da classificação binária do verificador LLM é de apenas 61% e há um grande número de falsos positivos (julgando o planejamento errado como correto).

Além disso, com base na comparação do nível detalhado de feedback, constatou-se que este tem pouco impacto no desempenho da geração do plano.

No geral, a investigação sistemática deste estudo fornece evidências preliminares que questionam a validade do LLM como validador de tarefas de planejamento dentro de uma estrutura iterativa e autocrítica.

Introdução do autor

Subbarao Kambhampati

SubbaraoKambhampati é professor de ciência da computação na Arizona State University. Kambhampati estuda questões fundamentais no planejamento e na tomada de decisões, particularmente motivadas pelos desafios dos sistemas de inteligência artificial com percepção humana.

Referências:

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736