Google no console de pesquisa noindex detectou erros
John Mueller, do Google, respondeu a uma pergunta no Reddit sobre um erro aparentemente falso ‘noindex detectado no erro de cabeçalho HTTP-Robots-TAG-TAG’ relatado no console de pesquisa do Google para páginas que não possuem esse X-Robots-TAG ou qualquer outra diretiva ou bloco relacionado. Mueller sugeriu alguns motivos possíveis, e vários redditores forneceram explicações e soluções razoáveis.
Noindex detectado
A pessoa que iniciou a discussão do Reddit descreveu um cenário que pode ser familiar para muitos. O Google Search Console relata que não poderia indexar uma página porque estava bloqueada não de indexar a página (que é diferente de bloqueada de rastreamento). Verificar a página não revela presença de um elemento de metaindex e não há robôs. TXT bloqueando o rastreamento.
Aqui está o que o descrito como sua situação:
- “O GSC mostra“ Noindex detectado no cabeçalho HTTP X-Robots-TAG ”para grande parte dos meus URLs. No entanto:
- Não consigo encontrar nenhum noindex na fonte HTML
- Sem noindex em robots.txt
- Nenhum noindex visível nos cabeçalhos de resposta ao testar
- Teste ao vivo em GSC mostra a página como indexível
- O site está por trás do CloudFlare (verificamos as regras da página/WAF etc) ”
Eles também relataram que tentaram falsificar o Googlebot e testaram vários endereços IP e solicitar cabeçalhos e ainda não encontraram pista para a fonte do X-Robots-TAG
Cloudflare suspeito
Um dos redditores comentou nessa discussão para sugerir solução de problemas se o problema fosse originado do CloudFlare.
Eles ofereceram uma abrangente instruções passo a passo sobre como diagnosticar se o Cloudflare ou qualquer outra coisa estava impedindo o Google de indexar a página:
“Primeiro, compare o teste ao vivo versus a página rastejada no GSC para verificar se o Google está vendo uma resposta desatualizada. Em seguida, inspecione as regras de transformação do CloudFlare, cabeçalhos de resposta e trabalhadores quanto a modificações. Use o CURL com o desvio do agente do usuário do Googlebot e do cache (controle de cache: sem cache) para verificar as respostas do servidor. Se estiver usando o WordPress, desative os plugins de SEO para descartar cabeçalhos dinâmicos. Além disso, registre solicitações do GoogleBot no servidor e verifique se o X-Robots-TAG aparece. Se tudo falhar, ignore o CloudFlare, apontando DNS diretamente para o seu servidor e novamente novamente. ”
O OP (pôster orginal, aquele que iniciou a discussão) respondeu que havia testado todas essas soluções, mas não conseguiu testar um cache do site via GSC, apenas o site ao vivo (do servidor real, não do CloudFlare).
Como testar com um googlebot real
Curiosamente, o OP afirmou que eles não conseguiram testar seu site usando o GoogleBot, mas na verdade existe uma maneira de fazer isso.
O Rich Results Tester do Google usa o GoogleBot User Agent, que também se origina de um endereço IP do Google. Esta ferramenta é útil para verificar o que o Google vê. Se uma exploração estiver fazendo com que o site exiba uma página encoberta, o rico testador de resultados revelará exatamente o que o Google está indexando.
A página de suporte de resultados ricos de um Google confirma:
“Esta ferramenta acessa a página como GoogleBot (ou seja, não usando suas credenciais, mas como Google).”
401 Resposta de erro?
A seguir, provavelmente não foi a solução, mas é um pouco interessante de conhecimento técnico de SEO.
Outro usuário compartilhou a experiência de um servidor respondendo com uma resposta de erro 401. Uma resposta 401 significa “não autorizada” e acontece quando uma solicitação de um recurso está faltando credenciais de autenticação ou as credenciais fornecidas não são as corretas. Sua solução para fazer as mensagens bloqueadas da indexação no Google Search Console foi adicionar uma notação nos robots.txt para bloquear os rastreamentos dos URLs da página de login.
John Mueller do Google no erro GSC
John Mueller entrou na discussão para oferecer sua ajuda para diagnosticar o problema. Ele disse que viu esse problema surgir em relação às CDNs (redes de entrega de conteúdo). Uma coisa interessante que ele disse foi que também viu isso acontecer com URLs muito antigos. Ele não elaborou o último, mas parece implicar algum tipo de erro de indexação relacionado aos URLs indexados antigos.
Aqui está o que ele disse:
“Fico feliz em dar uma olhada se você quiser me expressar algumas amostras. Eu já vi com CDNs, eu já vi isso com rastreamentos muito antigos (quando o problema estava lá há muito tempo e um site apenas tem muitos URLs antigos indexados), talvez haja algo novo aqui … ”
Takeaways -chave: Índice de Console de Pesquisa do Google Noindex detectado
- O Google Search Console (GSC) pode relatar “o Noindex detectado no cabeçalho HTTP X-Robots-TAG” mesmo quando esse cabeçalho não está presente.
- CDNs, como Cloudflare, podem interferir na indexação. As etapas foram compartilhadas para verificar se as regras de transformação, cabeçalhos de resposta ou cache do CloudFlare estão afetando como o Googlebot vê a página.
- Os dados de indexação desatualizados do lado do Google também podem ser um fator.
- O Rich Results Tester do Google pode verificar o que o Googlebot vê porque usa o agente de usuários e o IP do Googlebot, revelando discrepâncias que podem não estar visíveis ao falsificar um agente do usuário.
- 401 Respostas não autorizadas podem impedir a indexação. Um usuário compartilhou que seu problema envolvia páginas de login que precisavam ser bloqueadas via robots.txt.
- John Mueller sugeriu CDNs e URLs historicamente rastejados como possíveis causas.