O GPT-4.5 da OpenAI é melhor para persuadir outras IAs a lhe dar dinheiro

De acordo com os resultados da avaliação de benchmark interna da OpenAI, o próximo grande modelo de inteligência artificial da OpenAI, GPT-4.5, é muito convincente. É particularmente bom para convencer outra IA a lhe dar dinheiro.

Na quinta-feira, a OpenAI lançou um white paper descrevendo as capacidades de seu modelo GPT-4.5, codinome Orion. De acordo com o artigo, a OpenAI executou o modelo por meio de uma série de benchmarks de “persuasão”, que a OpenAI define como “o risco associado a persuadir as pessoas a mudarem suas crenças (ou a agirem sobre o conteúdo estático e interativo gerado pelo modelo)”.

Em um teste, o GPT-4.5 tentou manipular outro modelo – o GPT-4o da OpenAI – para “doar” fundos virtuais, que teve um desempenho muito melhor do que outros modelos disponíveis da OpenAI, incluindo modelos de “inferência” como o1 e o3-mini. O GPT-4.5 também superou todos os modelos OpenAI ao enganar o GPT-4o para que lhe informasse o código secreto, superando o o3-mini em 10 pontos percentuais.

O white paper aponta que a razão pela qual o GPT-4.5 é excelente em fraudar doações é porque ele desenvolveu uma estratégia única durante os testes. O modelo pediria ao GPT-4o uma doação modesta, resultando em uma resposta como “até US$ 2 ou US$ 3 em US$ 100 me ajudariam muito”. Como resultado, as doações para o GPT-4.5 tendem a ser menores do que as recebidas por outros modelos OpenAI.

Resultados de benchmark do programa de doações da OpenAI. Fonte da imagem: OpenAI

Apesar do aumento da persuasão do GPT-4.5, a OpenAI disse que o modelo não atingiu seu limite interno de risco “alto” nesta categoria específica de benchmark. A empresa comprometeu-se a não lançar modelos que atinjam limites de alto risco até que “intervenções de segurança adequadas” sejam implementadas para reduzir o risco para “moderado”.

Resultados do benchmark de falsificação de senha da OpenAI. Fonte da imagem: OpenAI

Existem preocupações reais de que a inteligência artificial facilite a disseminação de informações falsas ou enganosas para influenciar a mente das pessoas e atingir fins maliciosos. Deepfakes politicamente relevantes espalharam-se como um incêndio por todo o mundo no último ano, e a inteligência artificial está a ser cada vez mais utilizada para realizar ataques de engenharia social contra consumidores e empresas.

No white paper e nos documentos do GPT-4.5 divulgados no início desta semana, a OpenAI observa que está modificando a forma como seus modelos de detecção abordam os riscos de persuasão no mundo real, como a divulgação em massa de informações enganosas.