O Google responde ao site que perdeu as fileiras após o Googlebot DDoS Crawl

O Google responde ao site que perdeu as fileiras após o Googlebot DDoS Crawl


John Mueller, do Google, respondeu a uma pergunta sobre um site que recebeu milhões de solicitações do Googlebot para páginas que não existem, com um URL inexistente recebendo mais de dois milhões de acertos, essencialmente solicitações de página no nível DDoS. As preocupações do editor sobre o orçamento de rastreamento e as classificações aparentemente foram realizadas, pois o site posteriormente experimentou uma queda na visibilidade da pesquisa.

Páginas noindex removidas e convertidas para 410

O código de resposta do servidor 410 Gone pertence aos códigos de resposta da família 400 que indicam que uma página não está disponível. A resposta 404 significa que uma página não está disponível e não faz reivindicações sobre se o URL retornará no futuro, simplesmente diz que a página não está disponível.

O código de status 410 Gone significa que a página se foi e provavelmente nunca retornará. Ao contrário do código de status 404, o 410 sinaliza o navegador ou o rastreador de que o status que faltava do recurso é intencional e que qualquer link para o recurso deve ser removido.

A pessoa que fazia a pergunta estava acompanhando uma pergunta que eles publicaram há três semanas no Reddit, onde observaram que tinham cerca de 11 milhões de URLs que não deveriam ter sido descobertos que eles removeram completamente e começaram a servir um código de resposta 410. Depois de um mês e meio, o Googlebot continuou a retornar procurando as páginas que faltavam. Eles compartilharam sua preocupação com o orçamento de rastreamento e os impactos subsequentes em seus rankings como resultado.

Mueller na época os encaminhou para uma página de suporte do Google.

A perda de classificação enquanto o Google continua a atingir o site nos níveis de DDoS

Três semanas depois, as coisas não melhoraram e publicaram uma pergunta de acompanhamento, observando que receberam mais de cinco milhões de solicitações de páginas que não existem. Eles postaram um URL real em sua pergunta, mas eu a anonimizei, caso contrário, é literalmente.

A pessoa perguntou:

“O Googlebot continua a engatinhar agressivamente um único URL (com cordas de consulta), mesmo que esteja retornando um status 410 (desaparecido) há cerca de dois meses.

Nos últimos 30 dias, vimos aproximadamente 5,4 milhões de solicitações do Googlebot. Desses, cerca de 2,4 milhões foram direcionados a este URL:
https://example.net/software/virtual-dj/ com a string de consulta?

Também vimos uma queda significativa em nossa visibilidade no Google durante esse período, e não posso deixar de me perguntar se há uma conexão – algo parece desligado. A página afetada é:
https://example.net/software/virtual-dj/?feature=…

A razão pela qual o Google descobriu todos esses URLs em primeiro lugar é que, involuntariamente, os expusemos em uma carga útil JSON gerada pelo Next.js – eles não eram links reais no site.

Mudamos como funciona nossos “vários recursos” (usando o?

Seria problemático adicionar algo assim aos nossos robots.txt?

Não permitir:/software/virtual-dj/?

Objetivo Principal: impedir que este rastejamento excessivo de inundar nossos troncos e potencialmente desencadear efeitos colaterais não intencionais. ”

John Mueller, do Google, confirmou que é o comportamento normal do Google voltar para verificar se uma página que está faltando foi retornada. Esse é o comportamento padrão do Google com base na experiência de que os editores podem cometer erros e, portanto, eles retornarão periodicamente para verificar se a página foi restaurada. Isso deve ser um recurso útil para editores que possam remover sem querer uma página da web.

Mueller respondeu:

“O Google tenta recriar páginas que existiam por um longo tempo e, se você tiver muitas delas, provavelmente verá mais delas. Isso não é um problema – é bom que as páginas desaparecessem, mesmo que sejam toneladas deles.

Cuidado: SEO técnico à frente

Esta próxima parte é onde o SEO se torna técnico. Mueller adverte que a solução proposta para adicionar um robots.txt poderia inadvertidamente quebrar a renderização de páginas que não devem estar faltando.

Ele está basicamente aconselhando a pessoa fazendo a pergunta a:

  • Verifique se o? Recurso?
  • Use o Chrome Devtools para simular o que acontece se esses URLs estiverem bloqueados – para fazer quebras mais cedo.
  • Monitore o console de pesquisa em busca de 404s suaves para identificar qualquer impacto não intencional nas páginas que devem ser indexadas.

John Mueller continuou:

“A principal coisa que eu observa é que todos eles estão realmente retornando 404/410, e não que alguns deles sejam usados ​​por algo como JavaScript nas páginas que você deseja ter indexado (desde que você mencionou o JSON Payload).

É realmente difícil reconhecer quando você não permitirá rastejar de um recurso incorporado (seja diretamente incorporado na página ou carregado sob demanda) – às vezes a página que faz referências que ela para de renderizar e não pode ser indexada.

Se você possui páginas JavaScript do lado do cliente, tentaria descobrir onde os URLs costumavam ser referenciados (se puder) e bloquear os URLs nas ferramentas do Chrome Dev para ver o que acontece quando você carrega a página.

Se você não conseguir descobrir onde eles estavam, eu não permitiria uma parte deles e monitorou os erros Soft-404 no console de pesquisa para ver se alguma coisa acontece visivelmente lá.

Se você não estiver usando o JavaScript Client-side-Rendering, provavelmente poderá ignorar este parágrafo :-). “

A diferença entre a razão óbvia e a causa real

John Mueller, do Google, está certo ao sugerir um diagnóstico mais profundo para descartar erros por parte do editor. Um erro do editor iniciou a cadeia de eventos que levaram à indexação de páginas contra os desejos do editor. Portanto, é razoável pedir ao editor para verificar se pode haver um motivo mais plausível para explicar uma perda de visibilidade da pesquisa. Esta é uma situação clássica em que uma razão óbvia não é necessariamente o motivo correto. Há uma diferença entre ser uma razão óbvia e ser a causa real. Portanto, a sugestão de Mueller de não desistir de encontrar a causa é um bom conselho.

Leia a discussão original aqui.

Imagem em destaque de Shutterstock/Plutusart



Postagens Similares

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *