Os rastreadores de AI estão drenando Recursos do Site e Analítica de Skewing

Os rastreadores de AI estão drenando Recursos do Site e Analítica de Skewing


Os operadores de sites de toda a Web estão relatando uma atividade aumentada dos rastreadores da Web de IA. Esse aumento levanta preocupações sobre o desempenho do site, análise e recursos do servidor.

Esses bots consomem largura de banda significativa para coletar dados para grandes modelos de idiomas, o que pode afetar as métricas de desempenho relevantes para as classificações de pesquisa.

Aqui está o que você precisa saber.

Como os rastreadores da AI podem afetar o desempenho do site

Os profissionais de SEO otimizam regularmente os rastreadores tradicionais de mecanismos de pesquisa, mas a presença crescente de rastreadores de IA de empresas como OpenAI, Antrópica e Amazon apresenta novas considerações técnicas.

Vários operadores de sites relataram problemas de desempenho e aumentaram as cargas do servidor diretamente atribuíveis à atividade de rastreador de IA.

“O SourceHut continua enfrentando interrupções devido a rastreadores agressivos do LLM”, relatou o serviço de hospedagem Git em sua página de status.

Em resposta, a SourceHut “bloqueou unilateralmente vários provedores de nuvem, incluindo GCP (Google Cloud) e (Microsoft) Azure, para os altos volumes do tráfego de bot originários de suas redes”.

Os dados do Serviço de Hosting Cloud Vercel mostram a escala desse tráfego: o GPTBOT da OpenAI gerou 569 milhões de solicitações em um único mês, enquanto Claude da Anthropic representou 370 milhões.

Esses rastreadores de IA representaram cerca de 20 % do volume de rastreadores de pesquisa do Google durante o mesmo período.

O impacto potencial nos dados da análise

O tráfego BOT significativo pode afetar os dados da análise.

De acordo com a DoubleVerify, uma empresa de métricas de anúncios, “o tráfego inválido geral – também conhecido como GIVT, bots que não devem ser contados como visualizações de anúncios – aumentaram 86 % no segundo semestre de 2024 devido a rastreadores de IA”.

A empresa observou que “um recorde de 16 % da GIVT de impressões conhecidas em BOT em 2024 foi gerado por aqueles que estão associados a raspadores de IA, como GPTBOT, Claudebot e AppleBot”.

O projeto Read the Docs constatou que o bloqueio dos rastreadores de IA diminuiu seu tráfego em 75 %, de 800 GB para 200 GB diariamente, economizando aproximadamente US $ 1.500 por mês em custos de largura de banda.

Identificando padrões de rastreador de IA

Compreender o comportamento de rastreador de IA pode ajudar na análise do tráfego.

O que torna os rastreadores de IA diferente dos bots tradicionais é sua frequência e profundidade de acesso. Enquanto os rastreadores de mecanismos de pesquisa normalmente seguem padrões previsíveis, os rastreadores de IA exibem comportamentos mais agressivos.

Dennis Schubert, que mantém a infraestrutura da rede social da diáspora, observou que a AI rastreia “Não apenas rasteje uma página uma vez e depois siga em frente. Oh, não, eles voltam a cada 6 horas porque lol por que não.”

Esse rastreamento repetido multiplica o consumo de recursos, pois as mesmas páginas são acessadas repetidamente sem uma lógica clara.

Além da frequência, os rastreadores de IA são mais completos, explorando mais conteúdo do que os visitantes típicos.

Drew Devault, fundador da SourceHut, observou que os rastreadores acessa “todas as páginas de todos os logs do Git e todos os compromissos em seu repositório”, que podem ser particularmente intensivos em recursos para sites pesados.

Embora o volume de tráfego alto seja preocupante, identificar e gerenciar esses rastreadores apresenta desafios adicionais.

À medida que a tecnologia de crawler evolui, os métodos de bloqueio tradicionais se mostram cada vez mais ineficazes.

O desenvolvedor de software XE Iias observou: “É inútil bloquear os rastreadores AI porque eles estão, mudar seu agente de usuário, usar endereços IP residenciais como proxies e muito mais”.

Equilibrando a visibilidade com gerenciamento de recursos

Os proprietários de sites e os profissionais de SEO enfrentam uma consideração prática: gerenciar rastreadores com recursos intensivos, mantendo a visibilidade para os mecanismos de pesquisa legítimos.

Para determinar se os rastreadores de AI estão afetando significativamente seu site:

  • Revise os logs do servidor para padrões de tráfego incomuns, especialmente dos intervalos IP do provedor de nuvem
  • Procure picos no uso da largura de banda que não correspondem à atividade do usuário
  • Verifique se há um tráfego alto para páginas que entram em recursos, como arquivos ou terminais da API
  • Monitore padrões incomuns em suas métricas principais da Web Vitos

Várias opções estão disponíveis para aqueles afetados pelo tráfego excessivo de rastreador de IA.

O Google introduziu uma solução chamada Google-estendida no arquivo robots.txt. Isso permite que os sites parem de ter seu conteúdo usado para treinar os serviços Gemini e Vertex AI do Google, enquanto ainda permite que esses sites apareçam nos resultados de pesquisa.

A Cloudflare anunciou recentemente “Ai Labyrinth”, explicando: “Quando detectamos rastreamento não autorizado, em vez de bloquear o pedido, vincularemos a uma série de páginas geradas pela IA que são convincentes o suficiente para atrair um rastreador a atravessá-las”.

Olhando para o futuro

Como a IA se integra à pesquisa e descoberta, os profissionais de SEO devem gerenciar os rastreadores com cuidado.

Aqui estão alguns próximos passos práticos:

  1. Logs do servidor de auditor
  2. Considere a implementação do Google-estendida no robots.txt para manter a visibilidade da pesquisa e limitar o acesso ao treinamento da IA
  3. Ajuste os filtros de análise para separar o tráfego de bot para relatórios mais precisos
  4. Para sites severamente afetados, investigue opções de mitigação mais avançadas

A maioria dos sites se sairá bem com arquivos e monitoramento padrão robots.txt. No entanto, sites de alto tráfego podem se beneficiar de soluções mais avançadas.


Imagem em destaque: Lightspring/Shutterstock



Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *