Depois que a Cloudflare criticou publicamente a estratégia de rastreamento da Perplexity, alguns começaram a defendê-la

Quando Cloudflare na segunda-feira acusou o mecanismo de busca AI PerplexityPegar secretamenteObtenha dados do site, embora ignorando os métodos específicos pelos quais os sites o bloquearam, muitos defenderam o Perplexity. Eles argumentaram que o comportamento da Perplexity ao acessar sites contra a vontade de seus proprietários era controverso, mas aceitável. À medida que os agentes de inteligência artificial proliferam na Internet, este debate deverá intensificar-se: Os agentes que visitam websites em nome dos utilizadores devem ser considerados bots? Ou deveria ser considerado um ser humano fazendo o mesmo pedido?

A Cloudflare é conhecida por fornecer rastreadores anti-bot e outros serviços de segurança cibernética para milhões de sites. Essencialmente, o caso de teste da Cloudflare envolve a criação de um novo site usando um novo nome de domínio que nunca foi rastreado por nenhum robô rastreador; configurar um arquivo robots.txt que bloqueia especificamente rastreadores de IA conhecidos pelo Perplexity; e depois pedindo à Perplexity o conteúdo do site. A perplexidade responde a esta pergunta.

Pesquisadores da Cloudflare descobriram que quando o próprio rastreador da web do mecanismo de pesquisa de IA foi bloqueado, ele estava usando “um navegador universal projetado para imitar o Google Chrome no macOS”. O CEO da Cloudflare, Matthew Prince, publicou o estudo em

Mas muitos discordaram da avaliação de Prince, argumentando que este não era realmente um mau comportamento. Aqueles que defenderam o Perplexity em sites como

“Se eu, como ser humano, solicitar um site, então devo ser capaz de ver seu conteúdo”, escreveu um usuário do Hacker News, acrescentando: “Por que o grande modelo de linguagem que acessa o site em meu nome estaria em uma categoria legal diferente do meu navegador Firefox?”

Um porta-voz da Perplexity negou anteriormente que os bots fossem da empresa e chamou a postagem no blog da Cloudflare de um discurso de vendas para a Cloudflare. No entanto, na terça-feira, a Perplexity publicou outra postagem no blog se defendendo (e seu ataque à Cloudflare em geral), alegando que o comportamento era resultado de um serviço de terceiros que a empresa usa ocasionalmente.

Mas o núcleo da postagem da Perplexity merece tanta atenção quanto seus apologistas online, que leram: “A diferença entre raspagem automatizada e conduzida pelo usuário não é apenas técnica, é sobre quem tem acesso às informações na web aberta. Esta controvérsia demonstra que os sistemas da Cloudflare são fundamentalmente inadequados para distinguir entre assistentes legítimos de IA e ameaças reais”.

As acusações da Perplexity também não são totalmente justas. Ao criticar a abordagem da Perplexity, Prince e Cloudflare argumentaram que a abordagem da OpenAI é diferente da da Perplexity.

Cloudflare escreve: "A OpenAI é um excelente exemplo de uma empresa líder de IA que segue essas práticas recomendadas. Eles respeitam os arquivos robots.txt e não tentam contornar as diretivas robots.txt ou o bloqueio no nível da rede. O agente ChatGPT assina solicitações HTTP usando o novo padrão aberto Web Bot Auth."

Web Bot Auth é um padrão apoiado pela Cloudflare desenvolvido pela Internet Engineering Task Force na esperança de criar um método criptografado para identificar solicitações de rede de agentes de IA.

O debate surge no momento em que a atividade dos bots remodela a Internet. Como o TechCrunch relatou anteriormente, os bots que tentam rastrear grandes quantidades de conteúdo para treinar modelos de IA tornaram-se uma ameaça, especialmente para sites menores.

De acordo com o “Relatório sobre Bots Maliciosos” da Imperva, divulgado no mês passado, pela primeira vez na história da Internet, a atividade dos bots excedeu a atividade humana online, com o tráfego de inteligência artificial representando mais de 50%. A maior parte dessa atividade vem do LLM. Mas o relatório também descobriu que os bots maliciosos representam agora 37% de todo o tráfego da Internet. Essas atividades variam desde a extração persistente de dados até tentativas de login não autorizadas.

Antes do advento dos grandes modelos de linguagem (LLMs), havia um consenso geral na Internet de que os sites poderiam e deveriam bloquear a maior parte da atividade de bots, que frequentemente usavam CAPTCHAs e outros serviços (como Cloudflare). Os sites também têm incentivos claros para trabalhar com bons atores específicos (como o Googlebot), instruindo o Googlebot por meio do robots.txt sobre qual conteúdo não deve ser indexado. O Google indexa a internet, que por sua vez envia tráfego para sites.

Hoje, os grandes modelos de linguagem (LLMs) estão consumindo cada vez mais tráfego. O Gartner prevê que o tráfego do mecanismo de pesquisa diminuirá 25% até 2026. Atualmente, as pessoas tendem a clicar nesses links quando o LLM é mais valioso para o site, ou seja, quando estão prontas para fazer uma transação.

Mas se os seres humanos, como prevê a indústria tecnológica, procurarem proativamente agentes – para nos ajudarem a organizar viagens, fazer reservas para jantares e fazer compras para nós – será que os sites que bloqueiam estes agentes prejudicarão os seus interesses comerciais? O debate sobre X ilustra perfeitamente este dilema:

“Quero que o Perplexity possa acessar qualquer conteúdo público em meu nome quando eu enviar solicitações/tarefas para ele!” alguém escreveu no discurso da Cloudflare condenando a Perplexidade.

"E se o proprietário do site não quiser isso? Ele só quer que você vá diretamente para a página inicial e veja o material deles", rebateu outro usuário, observando que o proprietário do site que criou o conteúdo deseja tráfego e receita potencial de anúncios, não para que a Perplexity os aceite.

“É por isso que não acho que a ‘navegação por proxy’ realmente funcione – é um problema muito mais difícil do que as pessoas pensam. A maioria dos proprietários de sites irá simplesmente bloqueá-la”, previu um terceiro.

Artigos relacionados:

Perplexidade acusada de rastrear sites que bloqueiam explicitamente o rastreamento de IA