A nova política da Cloudflare incentiva as empresas de IA a pagar aos editores pelo conteúdo e separar a pesquisa do treinamento crawlers

A Cloudflare anunciou recentemente que fará ajustes importantes na configuração padrão dos sites que usam seus serviços, estabelecendo um novo “prazo” para toda a indústria de inteligência artificial: exigindo que as empresas de IA distingam claramente os rastreadores da web usados para pesquisa tradicional dos rastreadores usados para agentes de IA e treinamento de modelo até 15 de setembro deste ano, caso contrário, esses rastreadores de “uso misto” serão bloqueados por padrão em um grande número de páginas de publicidade.

De acordo com os detalhes anunciados pela Cloudflare, qualquer rastreador de dados usado para pesquisa, invocação de agente de IA e treinamento de modelo ao mesmo tempo será impedido de rastrear por padrão se acessar uma página da web que hospeda anúncios, a menos que o proprietário do site altere ativamente as configurações relevantes. Essas novas configurações padrão serão aplicadas a novos clientes da Cloudflare, novos sites criados por clientes existentes e todos os sites de usuários gratuitos existentes. Esta mudança afetará diretamente a forma como os fornecedores de modelos de IA obtêm conteúdo web para treinamento e geração de serviços, e também mudará o padrão de fornecimento de dados por trás dos serviços de agentes de IA.

Cloudflare destacou que a maioria dos proprietários de sites espera que seu conteúdo possa ser descoberto por meio de mecanismos de busca tradicionais e também fica feliz em ser citado por serviços de IA sob certas condições, mas não quer que seus direitos de propriedade intelectual sejam apropriados indevidamente gratuitamente e em grande escala sem autorização. A Cloudflare nomeou “o maior mecanismo de busca do mundo” (aparentemente apontando para o Google) em sua descrição, dizendo que tem “aproximadamente o dobro da quantidade de informações acessíveis” em comparação com outras empresas de IA. A razão é que o gigante das buscas torna difícil para os sites manterem a visibilidade da pesquisa, ao mesmo tempo que evita completamente o uso de IA.

O Google sempre refutou acusações gerais semelhantes, enfatizando que fornece um robô chamado "Google Extended" para escolha dos sites, que é usado para recusar explicitamente o conteúdo do site a ser usado para treinamento de IA e produtos e serviços de IA, como Gemini Apps e Vertex API, sem afetar a inclusão do site na pesquisa do Google. No entanto, embora o principal rastreador do Google, o Googlebot, indexe páginas para pesquisa, ele também fornece suporte de dados para funções de IA incorporadas à pesquisa, como Visão Geral de IA e Modo AI.

Matthew Prince, cofundador e CEO da Cloudflare, disse no anúncio que, à medida que a estrutura do tráfego da Internet muda, “a grande maioria do tráfego na Internet hoje não é mais acessada por humanos”. A indústria esperava anteriormente que o ponto de inflexão em que “o tráfego de robôs excede o tráfego humano” não ocorreria até o próximo ano. Ele enfatizou: “Neste caso, devemos ir mais longe e avançar mais rápido para formar verdadeiramente um ecossistema sustentável”.

Prince disse que as novas ferramentas e parcerias da Cloudflare proporcionarão aos proprietários de sites maior visibilidade e oportunidades de negócios na era da IA, ao mesmo tempo que beneficiarão os rastreadores de IA com usos claros e intenções transparentes. Ele espera que, ao ajustar a política padrão, possa forçar “rastreadores de propósito misto” a separar claramente a pesquisa tradicional das chamadas de agente e dos fins de treinamento. No nível de negócios externos, a Cloudflare oferece uma variedade de produtos para ajudar os usuários a construir seus próprios sistemas de IA. Por outro lado, também lançou uma série de ferramentas de “aprimoramento de controle” para editores e partes de conteúdo nos últimos anos.

Já em 2024, a Cloudflare lançou uma ferramenta específica para combater rastreadores de IA e, em 2025, lançou um mercado chamado "Pay Per Crawl", permitindo que os sites cobrassem taxas de rastreamento dos rastreadores de IA. As últimas notícias mostram que este modelo está evoluindo para "Pay Per Use", ou seja, não cobra mais apenas com base no "comportamento de rastreamento", mas cobra das empresas de IA com base na real "criação de valor" do conteúdo no sistema de IA.

Cloudflare apontou que esse modelo de "pagamento por uso" não apenas fornece aos editores novos canais de receita, mas também ajuda a economizar largura de banda e recursos de computação, porque seus dados internos mostram que mais de 50% do tráfego de rastreamento do rastreador de IA é gasto no rastreamento repetido de páginas que não foram atualizadas. Através de novos mecanismos de cobrança e controle, os editores podem priorizar recursos limitados em solicitações verdadeiramente valiosas, ao mesmo tempo que impõem restrições financeiras a "rastreamentos duplicados ineficazes".

Em termos de cooperação específica de implementação, a Cloudflare lançou atualmente projetos piloto com dois parceiros, Ceramic.ai e You.com. Quando os editores decidirem aderir ao programa, eles receberão a compensação correspondente, desde que seu conteúdo apareça nos resultados de pesquisa de IA da Ceramic ou seja acessado como um “conteúdo premium pago” pelo You.com. Cloudflare disse que outras empresas de IA também podem personalizar e expandir esse modelo de pagamento de acordo com seus próprios formulários de produto.

No contexto da crescente atenção regulatória e pública sobre o rastreamento de IA e questões de direitos autorais, os ajustes políticos e as atualizações do modelo de negócios da Cloudflare visam obviamente ganhar mais voz e espaço de lucro para os editores, ao mesmo tempo que colocam nova pressão de transparência e conformidade sobre as empresas de IA. Para a indústria de IA, embora continue a depender de conteúdo massivo da web para treinar e operar vários agentes inteligentes, como encontrar um equilíbrio entre a conveniência técnica e os direitos e interesses dos proprietários de conteúdo se tornará uma questão central inevitável no futuro.