De acordo com notícias divulgadas pela WIRED, muitos sites nos Estados Unidos começaram a bloquear a função snapshot da Wayback Machine do Internet Archive, ou seja, a Wayback Machine não tem mais permissão para capturar as páginas desses sites de notícias e arquivá-las. A razão é que os rastreadores de IA capturam dados e os usam para treinar modelos.

O atual boom da inteligência artificial fez com que um grande número de tráfego de sites diminuísse significativamente, e as empresas de IA estão encontrando maneiras de contornar restrições e rastrear ilegalmente o conteúdo do site e, em última análise, usar os dados capturados para robôs de conversação de IA ou para treinar modelos subsequentes de inteligência artificial.
Para sites, esse comportamento envolve rastreamento e uso de conteúdo sem permissão e fará com que o tráfego do site diminua. Portanto, muitos sites proibiram explicitamente que rastreadores de pesquisa de inteligência artificial rastreiem dados de sites em robots.txt.
Tanto o Internet Archive quanto seus usuários foram mortos por engano:
A fim de proteger os seus direitos e interesses legítimos, muitos meios de comunicação conhecidos, incluindo o USA Today, o New York Times, etc., bloquearam a máquina do tempo do site do Internet Archive. Esses sites de notícias excluem o rastreador ia_archiverbot, que é o rastreador usado pelo Internet Archive.
Além da mídia noticiosa, fóruns online como o Reddit também proíbem o Internet Archive de rastrear conteúdo. O Reddit assinou acordos de licenciamento com o Google e a OpenAI para permitir que essas empresas rastreiem dados e os usem para treinar modelos de inteligência artificial. Pelo menos para o Reddit, se o Internet Archive tiver permissão para rastrear dados e as empresas de IA rastrearem os dados do Internet Archive, talvez não seja possível continuar a vender dados.
O problema é que muito conteúdo não existe permanentemente. A importância da máquina do tempo do site é que você pode visualizar as alterações no conteúdo da página da web e continuar a navegar no conteúdo por meio de instantâneos quando a página da web for excluída. Isso é muito importante para muitos usuários.
Portanto, sob a mania da IA, a mídia de notícias que bloqueia o Internet Archive de rastrear dados é na verdade um homicídio culposo do Internet Archive e dos usuários: para bloquear empresas de IA e, em seguida, bloquear usuários que normalmente usam funções relacionadas.
O USA Today disse que isso não era direcionado ao Internet Archive:
Um porta-voz do USA Today disse que o bloqueio de conteúdo rastreado pelo Internet Archive não visa especificamente o Internet Archive. É plano normal da empresa bloquear amplamente todos os rastreadores da web.
O diretor de assuntos comerciais e licenciamento do The Guardian disse que a empresa está se comunicando com o Internet Archive para discutir o possível uso indevido de empresas de inteligência artificial para rastrear conteúdo para fins de preservação (mas ainda não há um resultado claro).
A julgar por esta situação, mais e mais meios de comunicação poderão bloquear o Internet Archive no futuro para evitar que seu conteúdo seja rastreado por empresas de IA através do Internet Archive. Em última análise, a causa raiz ainda são essas empresas de IA.
Não é incomum que essas empresas de IA rastreiem conteúdo sem autorização e rastreiem conteúdo em altas frequências. Em última análise, isto pode mudar o panorama da Internet aberta, permitindo que mais websites passem do acesso público para o acesso registado ou mesmo para o acesso pago.