Recursos de host em nome de host diferente para economizar orçamento de rastreamento
A Central de Pesquisa do Google lançou uma nova série chamada “Crawling December” para fornecer insights sobre como o Googlebot rastreia e indexa páginas da web.
O Google publicará um novo artigo todas as semanas deste mês explorando vários aspectos do processo de rastreamento que não são discutidos com frequência, mas que podem impactar significativamente o rastreamento de sites.
O primeiro publicar na série aborda os fundamentos do rastreamento e esclarece detalhes essenciais, porém menos conhecidos, sobre como o Googlebot lida com os recursos da página e gerencia os orçamentos de rastreamento.
Noções básicas de rastreamento
Os sites de hoje são complexos devido ao JavaScript e CSS avançados, tornando-os mais difíceis de rastrear do que as antigas páginas somente HTML. O Googlebot funciona como um navegador da web, mas com uma programação diferente.
Quando o Googlebot visita uma página da web, ele primeiro baixa o HTML do URL principal, que pode conter links para JavaScript, CSS, imagens e vídeos. Em seguida, o Web Rendering Service (WRS) do Google usa o Googlebot para baixar esses recursos e criar a visualização final da página.
Aqui estão as etapas em ordem:
- Download inicial de HTML
- Processamento pelo Serviço de Renderização Web
- Busca de recursos
- Construção da página final
Gerenciamento de orçamento de rastreamento
O rastreamento de recursos extras pode reduzir o orçamento de rastreamento do site principal. Para ajudar com isso, o Google diz que “o WRS tenta armazenar em cache todos os recursos (JavaScript e CSS) usados nas páginas que renderiza”.
É importante observar que o cache do WRS dura até 30 dias e não é influenciado pelas regras de cache HTTP definidas pelos desenvolvedores.
Essa estratégia de cache ajuda a economizar o orçamento de rastreamento de um site.
Recomendações
Esta postagem dá dicas aos proprietários de sites sobre como otimizar seu orçamento de rastreamento:
- Reduza o uso de recursos: use menos recursos para criar uma boa experiência do usuário. Isso ajuda a economizar orçamento de rastreamento ao renderizar uma página.
- Hospedar recursos separadamente: coloque recursos em um nome de host diferente, como um CDN ou subdomínio. Isso pode ajudar a transferir a carga do orçamento de rastreamento para longe do seu site principal.
- Use parâmetros de bloqueio de cache com sabedoria: tenha cuidado com os parâmetros de bloqueio de cache. Alterar URLs de recursos pode fazer com que o Google os verifique novamente, mesmo que o conteúdo seja o mesmo. Isso pode desperdiçar seu orçamento de rastreamento.
Além disso, o Google alerta que bloquear o rastreamento de recursos com robots.txt pode ser arriscado.
Se o Google não conseguir acessar um recurso necessário para renderização, poderá ter problemas para obter o conteúdo da página e classificá-lo corretamente.
Relacionado: 9 dicas para otimizar o orçamento de rastreamento para SEO
Ferramentas de monitoramento
A equipe do Search Central afirma que a melhor maneira de ver quais recursos o Googlebot está rastreando é verificando os registros brutos de acesso de um site.
Você pode identificar o Googlebot pelo seu endereço IP usando os intervalos publicados no desenvolvedor do Google documentação.
Por que isso é importante
Esta postagem esclarece três pontos principais que afetam a forma como o Google encontra e processa o conteúdo do seu site:
- O gerenciamento de recursos afeta diretamente seu orçamento de rastreamento, portanto, hospedar scripts e estilos em CDNs pode ajudar a preservá-lo.
- O Google armazena recursos em cache por 30 dias, independentemente das configurações de cache HTTP, o que ajuda a economizar seu orçamento de rastreamento.
- O bloqueio de recursos críticos no robots.txt pode sair pela culatra, impedindo que o Google renderize suas páginas adequadamente.
Compreender essa mecânica ajuda os SEOs e os desenvolvedores a tomar melhores decisões sobre hospedagem e acessibilidade de recursos – escolhas que afetam diretamente o quão bem o Google pode rastrear e indexar seus sites.
Relacionado: Google avisa: parâmetros de URL criam problemas de rastreamento
Imagem em destaque: ArtemisDiana/Shutterstock