O conhecido fórum da Internet Reddit revelou recentemente que a empresa descobriu que uma empresa de inteligência artificial extraiu dados do Reddit por meio do site Wayback Machine do Internet Archive, o que violou os termos de uso do Reddit.

O Reddit bloqueou anteriormente o rastreamento de dados pela maioria dos rastreadores de mecanismos de pesquisa e rastreadores de inteligência artificial. Se quiser rastrear dados para treinamento de modelo de inteligência artificial, você precisa assinar uma licença comercial com o Reddit e pagar uma taxa antes de rastrear.
Por exemplo, o Google paga até US$ 60 milhões por ano ao fórum Reddit para acesso a dados. O Google pode rastrear postagens massivas do Reddit e outros dados para treinamento de modelo. Este ainda é um negócio que vale a pena para o Google.
Embora o Internet Archive trabalhe há muito tempo com o Reddit para indexar postagens e colocá-las na máquina do tempo do site para que possam ser visualizadas no futuro, empresas de inteligência artificial que não querem pagar as taxas começaram a direcionar seus rastreadores para o Internet Archive, usando o Internet Archive como meio para rastrear o Reddit.
Depois de descobrir esta situação, o Reddit decidiu começar imediatamente a bloquear o rastreamento e indexação da maioria das páginas pelo Internet Archive. A função de máquina do tempo do site não pode mais rastrear páginas de detalhes de postagens, comentários e informações pessoais. Pelo contrário, a máquina do tempo do site só pode rastrear de forma limitada a página inicial do Reddit ou a navegação de postagens populares, ou seja, só pode rastrear conteúdo como títulos.
O CEO do Reddit disse que bloquearia a coleta de dados do Internet Archive a partir de hoje e entrou em contato com o Internet Archive com antecedência para informá-los antes que as restrições entrassem em vigor. O Internet Archive disse que está atualmente se comunicando ativamente com o Reddit sobre o assunto.
O Reddit também processou anteriormente o desenvolvedor Claude, Antrópico. O Reddit acusou a Anthropic de rastrear conteúdo sem autorização. Mesmo que o Reddit declarasse que bloqueou seu rastreador de rastrear dados, a Anthropic continuaria a rastrear conteúdo e violaria os termos de uso do Reddit.