Os editores da Wikipédia adotam política de “exclusão rápida” para artigos de spam gerados por inteligência artificial

Os editores da Wikipédia acabaram de introduzir uma nova política para ajudá-los a lidar com o fluxo de artigos gerados por IA que inundam a enciclopédia online. A nova política dá aos administradores a capacidade de remover rapidamente artigos gerados por IA que atendam a determinados critérios. Isto não é apenas crucial para a Wikipédia, mas também fornece à plataforma um exemplo importante de como lidar com o caos crescente causado pela inteligência artificial.

A Wikipédia é mantida por uma comunidade colaborativa global de colaboradores e editores voluntários, e parte do que a torna uma fonte confiável de informações é que essa comunidade passa muito tempo discutindo, deliberando e debatendo tudo o que acontece na plataforma, sejam modificações em artigos individuais ou as políticas que regem essas modificações. É normal excluir um artigo inteiro da Wikipédia, mas o processo principal de exclusão geralmente envolve um período de discussão de uma semana, durante o qual os usuários da Wikipédia tentam chegar a um consenso sobre a exclusão do artigo.

No entanto, para lidar com questões comuns que violam claramente as políticas da Wikipédia, a Wikipédia também possui um processo de “remoção rápida”, onde uma pessoa sinaliza um artigo, um administrador verifica se ele atende a certas condições e, em seguida, exclui o artigo sem um período de discussão.

Por exemplo, entradas que consistem inteiramente em jargões alucinatórios, texto sem sentido ou o que a Wikipedia chama de "absurdo" podem ser sinalizadas para exclusão rápida. O mesmo se aplica a entradas que são meramente publicitárias e não têm valor enciclopédico. Se alguém está marcando um artigo para exclusão porque “provavelmente não é digno de nota”, essa é uma avaliação mais subjetiva que requer discussão completa.

Atualmente, os artigos marcados como gerados por IA pelos editores da Wikipédia se enquadram principalmente na última categoria porque os editores não têm certeza se foram gerados por IA. Ilyas Lebleu é membro fundador do Wikipedia AI Cleanup Project e editor que contribuiu com uma linguagem crítica para a política recentemente adotada sobre artigos gerados por IA e exclusão rápida. É por isso, ele me disse, que as propostas anteriores para regulamentar os artigos gerados por IA da Wikipédia tiveram dificuldades.

“Embora seja fácil dizer que algo é gerado por IA (por exemplo, escolha de palavras, travessões, listas com marcadores com títulos em negrito, etc.), os sinais muitas vezes não são tão óbvios e não queremos remover conteúdo por engano só porque parece IA”, LeBrew me disse por e-mail. "No geral, o aumento de conteúdo de IA facilmente gerado foi descrito como uma 'ameaça existencial' para a Wikipédia: como nossos processos são voltados para discussões (muitas vezes demoradas) e construção de consenso, a capacidade de gerar rapidamente grandes quantidades de conteúdo falso é problemática se não tivermos uma maneira de removê-lo rapidamente. É claro que o conteúdo de IA não é único, e os humanos são perfeitamente capazes de escrever conteúdo ruim, mas certamente não na mesma velocidade. Nossas ferramentas são projetadas para uma escala completamente diferente."

A solução proposta pelos wikipedistas é permitir a exclusão rápida de artigos que são claramente gerados por inteligência artificial e que atendem aproximadamente a duas condições. Primeiro, o artigo contém conteúdo “projetado para se comunicar com os usuários”. Isso se refere à linguagem no artigo que é claramente um modelo de linguagem grande (LLM) que responde às solicitações do usuário, como "Este é o seu artigo da Wikipedia sobre...", "A partir da minha última atualização de treinamento..." e "Como um modelo de linguagem grande". Isso indica claramente que o artigo foi gerado por um grande modelo de linguagem, uma abordagem que também usamos anteriormente para identificar publicações em mídias sociais e artigos científicos gerados por IA.

Lebleu me disse que já viu essas situações “muitas vezes” e, mais importante, disse ele, elas indicam que os usuários nem sequer leram os artigos que enviaram.

“Se os usuários não verificarem essas coisas básicas, podemos assumir com segurança que eles não verificaram nada que copiaram e colaram, e isso é tão inútil quanto o ruído branco”, disseram eles.

Outra condição que faz com que os artigos gerados por IA sejam rapidamente removidos é se suas referências estiverem obviamente erradas, o que é outro erro que os grandes modelos de linguagem (LLMs) estão propensos a cometer. Isto pode incluir a inclusão de links externos para livros, artigos ou artigos científicos que não existem e não podem ser analisados, ou links para conteúdos completamente não relacionados. A nova política da Wikipédia dá um exemplo: “Um artigo sobre uma espécie de besouro é citado em um artigo de ciência da computação”.

Lebleu disse que a remoção rápida é uma “medida provisória” que aborda os problemas mais óbvios, e que os problemas de IA persistirão à medida que mais e mais conteúdos gerados por IA não atenderem às novas condições para remoção rápida. Eles também observaram que a IA poderia ser uma ferramenta útil que poderia trazer força positiva à Wikipédia no futuro.

“No entanto, a situação atual é muito diferente e a especulação sobre o rumo da tecnologia nos próximos anos pode facilmente desviar-nos da resolução dos problemas atuais”, afirmaram. "Um pilar fundamental da Wikipédia é que não temos regras definidas e quaisquer decisões que tomarmos hoje poderão ser revistas em alguns anos, à medida que a tecnologia evolui."

LeBrew disse que a nova política acabará por deixar a Wikipédia em uma posição melhor do que antes, mas não é perfeita.

A boa notícia (além da rápida exclusão) é que emitimos oficialmente um comunicado sobre artigos gerados por grandes modelos de linguagem. Este tem sido um ponto de discórdia na comunidade: embora a grande maioria se oponha ao conteúdo de IA, a forma exacta de lidar com ele tem sido um ponto de discórdia, e as primeiras tentativas de desenvolver uma política ampla falharam. Aqui, com base no progresso anterior em imagens de IA, rascunhos e comentários de discussão, discutimos um padrão mais específico, mas que afirma explicitamente que o conteúdo não moderado de modelos de linguagem grande é espiritualmente incompatível com a Wikipédia.

Artigos relacionados:

Wikipedia suspende piloto de resumo de IA após protesto dos editores