Além de jogar videogame, a matança de lobisomens por "artefatos sociais" dos humanos também foi aprendida pela IA. Oito ChatGPTs "sentam-se" juntos e desempenham cinco papéis vividamente, exatamente como pessoas reais. Este último experimento de simulação da sociedade humana foi concluído em conjunto pela Universidade Tsinghua e pelo Laboratório Zhongguancun.

De Stanford Town à Tsinghua Game Company, o uso de IA para simular a sociedade humana sempre foi um tema de pesquisa importante na comunidade acadêmica.

Se a Tsinghua Game Company simulou a cena de trabalho dos animais sociais, agora a vida social dos animais sociais nas horas vagas também foi simulada pela IA.

Neste jogo de matar lobisomens composto por 8 ChatGPTs, o disfarce e a confiança, a liderança e o confronto no mundo real são todos refletidos vividamente.

Mesmo sem o ensino humano, a IA descobriu muitas habilidades de jogo através da sua própria exploração.

Tudo isso pode ser alcançado por meio de instruções de design, sem a necessidade de ajustar os parâmetros do modelo.

Então, quais são as cenas maravilhosas deste “Mundo do Lobisomem”? Vamos dar uma olhada nisso juntos.

Estratégias e habilidades podem ser dominadas sem serem ensinadas

Antes de mostrar esses 8 diálogos do ChatGPT, vamos primeiro explicar a configuração do jogo: dois aldeões e dois lobisomens, um guarda, uma bruxa e um profeta, além de um deus.

Durante o experimento, os pesquisadores descobriram que o ChatGPT usava estratégias que não eram explicitamente mencionadas nas instruções e avisos do jogo.

Bom rapaz, você pode se tornar autodidata sem ser ensinado.

Especificamente, essas sete conversas do ChatGPT refletem confiança, camuflagem, confronto e liderança em jogos humanos.

Primeiro, vamos falar sobre confiança.

Os pesquisadores definiram os recém-chegados como aqueles que confiam que outros jogadores terão os mesmos objetivos que eles e trabalham juntos para alcançá-los.

Manifestações específicas incluem compartilhar ativamente informações prejudiciais a si mesmo ou unir forças com outros jogadores para acusar alguém de ser hostil.

Os pesquisadores observaram como as relações de confiança mudaram ao longo do tempo durante o jogo.

Na imagem abaixo, o círculo amarelo indica que o jogador numerado à esquerda confia no jogador numerado acima, e o círculo pontilhado representa o desaparecimento da relação de confiança.

Vejamos o confronto, isto é, as ações tomadas contra o campo adversário, como lobisomens atacando outros à noite ou acusando outros de serem lobisomens durante o dia.

Um dia do jogo, o jogador nº 1 (o lobisomem) pediu a expulsão dos aldeões do nº 5, mas foi rejeitado pelo nº 3 (o guarda).

Vendo que a trama falhou, o lobo decidiu matar o nº 5 diretamente à noite, mas o guarda nº 3 optou por proteger os aldeões.

A partir disso, podemos ver que esses ChatGPTs não seguirão cegamente o que os outros jogadores fazem, mas farão julgamentos independentes com base nas informações existentes.

Além da cooperação e do confronto, o disfarce também é uma habilidade essencial no jogo Lobisomem e é a chave para a vitória.

Por exemplo, um dia depois da véspera de Natal, o Lobisomem nº 1 fingiu ser inocente.

Além de fingir ser uma boa pessoa, o disfarce também pode ser usado para perceber os pequenos pensamentos do jogador. Por exemplo, vejamos o discurso do profeta.

A vidente mencionou ter visto lobisomens conversando, mas na verdade os lobisomens não falavam à noite.

Segundo o autor, após avaliação, esse fenômeno não é uma ilusão do ChatGPT, mas sim intencional.

Finalmente, vamos falar sobre liderança.

Embora não haja personagens concorrentes no ambiente desenhado pela equipe de pesquisa, os jogadores ainda podem ganhar controle sobre o processo do jogo.

Por exemplo, os dois lobos nº 1 e nº 4 tentam definir o ritmo e deixar que os outros jogadores sigam as suas próprias ideias.

Provavelmente para criar oportunidades pegando-as de surpresa.

Parece que esses ChatGPTs são realmente bem jogados.

Então, como a equipe de pesquisa treinou esses ChatGPTs que podem jogar Lobisomem?

Deixe o ChatGPT resumir sua própria experiência

Existem quatro pontos-chave na forma como a equipe de pesquisa melhora o desempenho dos jogadores do ChatGPT, a saber, informações valiosas V, questões selecionadas Q, mecanismo de reflexão R e raciocínio em cadeia C.

Os resultados do experimento de ablação mostram que os pares Q e C têm o maior impacto na racionalidade da fala do jogador (julgada por humanos).

O prompt também foi projetado com base nisso. É claro que as regras do jogo devem ser introduzidas antes disso e, finalmente, a seguinte estrutura é formada:

Apresentando regras de jogo e configurações de papéis, registros de bate-papo, informações e experiências valiosas, reflexão sobre sugestões humanas dadas ao ChatGPT com base na experiência, dicas sobre cadeias de pensamento

Não é difícil ver a partir disto que a recolha de informação histórica e o resumo da experiência a partir dela é um elo importante. Então, como essas experiências deveriam ser resumidas?

No final de cada rodada de jogo, as respostas, reflexões e pontuações de todos os jogadores são coletadas por todos os participantes, com pontuações determinadas por vitórias e derrotas.

Em uma nova rodada do jogo, os jogadores recuperam experiências relevantes e extraem sugestões baseadas nas reflexões do personagem atual.

Especificamente, com base nas classificações das experiências, deixe o modelo grande comparar suas diferenças e identificar boas experiências para raciocínio posterior.

Desta forma, o ChatGPT pode aprender habilidades de jogo sem ajustar parâmetros.

No entanto, embora a experiência seja importante, demasiada não é necessariamente uma coisa boa.

Os pesquisadores descobriram que quando a quantidade de experiência era muito grande, a taxa de vitórias do lado não-lobo na verdade diminuía e a duração do jogo (número de dias) também diminuía.

Eu me pergunto qual seria o resultado se deixássemos esses ChatGPTs competirem com pessoas reais?

Endereço do artigo: https://arxiv.org/abs/2309.04658