Claude é um aplicativo de inteligência artificial desenvolvido pelo desenvolvedor de inteligência artificial Anthropic. Como a maioria dos desenvolvedores de inteligência artificial, os rastreadores enviados pela Anthropic recuperam e rastreiam grandes quantidades de conteúdo na Internet todos os dias para treinar modelos de inteligência artificial. iFixit é um site de desmontagem e reparo bem conhecido na indústria. O site tem muitos artigos de desmontagem com textos e imagens, então o rastreador enviado pela Anthropic também lançou um rastreamento maluco no iFixit.

O webmaster reclamou no X/Twitter: Eu sei que você está faminto por dados e Claude é muito inteligente, mas você realmente precisa acessar nossos servidores um milhão de vezes em 24 horas? Você não está apenas roubando nosso conteúdo sem pagar por ele, mas também tirando nossos recursos de DevOps, o que não é legal.

Os registros do site mostram que ClaudeBot inicia milhares de visitas ao iFixit a cada minuto, o que terá um impacto negativo no servidor iFixit, porque esse tipo de rastreamento não só consumirá recursos da CPU do servidor, mas também consumirá largura de banda da rede. Nenhum site quer ver esta situação.

iFixit disse em entrevista à 404media:

Temos o maior banco de dados de informações de manutenção do mundo e, se eles pegassem todas as informações sem permissão, nossos servidores travariam. Atualmente, o iFixit tem milhões de links para vários guias de reparo, histórico de revisões de reparo, blogs, postagens de notícias, pesquisas, fóruns, guias de reparo contribuídos pela comunidade, perguntas e respostas e muito mais.

A equipe de suporte da Anthropic não se desculpou pela reclamação e deu a seguinte resposta:

Seguindo os padrões do setor, a Anthropic usa uma variedade de fontes de dados para o desenvolvimento de modelos, como dados disponíveis publicamente na Internet, coletados por meio de web crawlers. Nosso rastreamento não deve ser intrusivo ou destrutivo, e nosso objetivo é minimizar interrupções respeitando a latência do rastreamento quando apropriado.

A maneira mais fácil para um site é bloquear diretamente o rastreador Claude. Bluedot.com também enfrenta ataques DDoS do rastreador Claude. O rastreador rastreia milhares de vezes por minuto, o que tem impacto no servidor Bluedot.com, por isso bloqueamos o rastreador Claude antecipadamente.

Se quiser bloqueá-lo, você pode adicionar o seguinte conteúdo ao robots.txt:

User-agent: ClaudeBotDisallow: /

Claro, para garantir a segurança, também usamos expressões regulares no Nginx para corresponder ao rastreador ClaudeBot. Se o rastreador ClaudeBot não estiver em conformidade com o protocolo robots.txt e continuar rastreando, ele poderá ser interceptado diretamente.

Para evitar que o rastreador não consiga rastrear o arquivo robots.txt, é recomendável que o webmaster atualize o robots.txt primeiro. Se você ainda conseguir ver registros de ClaudeBot capturando arquivos não robots.txt no log do site depois de alguns dias, significa que o protocolo não foi seguido. Você pode retornar HTTP 444 diretamente por meio do Nginx para descartar a conexão e reduzir a carga do servidor.