WordPress robots.txt: O que você deve incluir?
O arquivo humilde robots.txt geralmente fica em silêncio no fundo de um site do WordPress, mas o padrão é um pouco básico fora da caixa e, é claro, não contribui para nenhuma diretiva personalizada que você queira adotar.
Não é necessário mais introdução – vamos mergulhar diretamente no que mais você pode incluir para melhorá -la.
(Uma pequena nota a ser adicionada: Esta postagem é útil apenas para instalações do WordPress no diretório raiz de um domínio ou subdomínio, por exemplo, domain.com ou exemplo.Domain.com.)
Onde exatamente está o arquivo wordpress robots.txt?
Por padrão, o WordPress gera um arquivo virtual robots.txt. Você pode vê -lo visitando /robots.txt da sua instalação, por exemplo:
https://yoursite.com/robots.txt
Esse arquivo padrão existe apenas na memória e não é representado por um arquivo no seu servidor.
Se você deseja usar um arquivo Robots.txt personalizado, tudo o que você precisa fazer é fazer upload de um na pasta raiz da instalação.
Você pode fazer isso usando um aplicativo FTP ou um plug -in, como o Yoast SEO (SEO → Ferramentas → Editor de arquivos), isso inclui um editor robots.txt que você pode acessar na área de administração do WordPress.
O padrão padrão robots.txt (e por que não é suficiente)
Se você não criar manualmente um arquivo robots.txt, a saída padrão do WordPress se fica com a seguinte:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Embora isso seja seguro, não é ideal. Vamos mais longe.
Sempre inclua seus mapas de sitém XML
Certifique -se de que todos os sitemaps XML estejam listados explicitamente, pois isso ajuda os mecanismos de pesquisa a descobrir todos os URLs relevantes.
Sitemap: https://example.com/sitemap_index.xml Sitemap: https://example.com/sitemap2.xml
Algumas coisas não para bloquear
Agora, existem sugestões datadas para proibir alguns diretórios do WordPress principal como/WP-inclui/,/wp-content/plugins/, ou par/wp-content/uploads/. Não!
Eis por que você não deve bloqueá -los:
- O Google é inteligente o suficiente para ignorar arquivos irrelevantes. O bloqueio de CSS e JavaScript pode prejudicar a renderabilidade e causar problemas de indexação.
- Você pode bloquear involuntariamente imagens/vídeos valiosos/outras mídias, especialmente as carregadas de/wp-content/uploads/, que contém toda a mídia carregada que você definitivamente deseja rastejar.
Em vez disso, deixe os rastreadores buscarem o CSS, o JavaScript e as imagens necessárias para a renderização adequada.
Gerenciando sites de estadiamento
É aconselhável garantir que os locais de preparação não estejam rastejados para fins de SEO e segurança geral.
Eu sempre aconselho a proibir o site inteiro.
Você ainda deve usar a meta -tag noindex, mas para garantir que outra camada seja coberta, ainda é aconselhável fazer as duas coisas.
Se você navegar para Configurações> Readingvocê pode marcar a opção “Desangue os mecanismos de pesquisa da indexação deste site”, que faz o seguinte no arquivo robots.txt (ou você pode adicionar isso em si mesmo).
User-agent: * Disallow: /
O Google ainda pode indexar as páginas se descobrir links em outros lugares (geralmente causados por chamadas para encenação da produção quando a migração não é perfeita).
IMPORTANTE: Quando você mudar para a produção, verifique novamente essa configuração para garantir que você reverta qualquer proibição ou não exacente.
Limpe alguns caminhos do WordPress não essencial
Nem tudo deve ser bloqueado, mas muitos caminhos padrão não agregam valor de SEO, como o abaixo:
Disallow: /trackback/ Disallow: /comments/feed/ Disallow: */embed/ Disallow: /cgi-bin/ Disallow: /wp-login.php
Proibir parâmetros de consulta específicos
Às vezes, você deseja impedir que os mecanismos de pesquisa rastreiam URLs com parâmetros de consulta de baixo valor de baixo valor, como parâmetros de rastreamento, respostas de comentários ou versões de impressão.
Aqui está um exemplo:
User-agent: * Disallow: /*?*replytocom= Disallow: /*?*print=
Você pode usar a ferramenta de parâmetros URL do console do Google para monitorar padrões de indexação orientados a parâmetros e decidir se não são dignos de adição de adição adicional.
Proibir taxonomias e SERPs de baixo valor
Se o seu site WordPress incluir arquivos de tags ou páginas de resultados de pesquisa interna que não oferecem valor agregado, você também poderá bloqueá -los:
User-agent: * Disallow: /tag/ Disallow: /page/ Disallow: /?s=
Como sempre, pese isso contra sua estratégia de conteúdo específica.
Se você usa as páginas de taxonomia de tag como parte do conteúdo que deseja indexadas e rastejadas, ignore isso, mas geralmente elas não adicionam nenhum benefício.
Além disso, verifique se sua estrutura de vinculação interna suporta sua decisão e minimiza qualquer vinculação interna às áreas que você não tem intenção de indexação ou rastejamento.
Monitore em estatísticas de rastreamento
Depois que seu robots.txt estiver em vigor, monitore as estatísticas de rastreamento via Google Search Console:
- Veja as estatísticas Crawl em Configurações para ver se os bots estão desperdiçando recursos.
- Use a ferramenta de inspeção de URL para confirmar se um URL bloqueado é indexado ou não.
- Verifique os sitemaps e verifique se eles apenas referenciam as páginas que você realmente deseja rastejadas e indexadas.
Além disso, algumas ferramentas de gerenciamento de servidores, como PLESK, CPALEL e CloudFlare, podem fornecer estatísticas de rastreamento extremamente detalhadas além do Google.
Por fim, use a substituição da configuração de Screaming Frog para simular mudanças e revisitar os recursos de otimização de rastreamento de Yoast Seo, alguns dos quais resolvem o acima.
Pensamentos finais
Embora o WordPress seja um ótimo CMS, ele não está configurado com os robôs padrão mais ideais.txt ou configurado com a otimização de rastreamento em mente.
Apenas algumas linhas de código e menos de 30 minutos do seu tempo podem economizar milhares de solicitações desnecessárias de rastreamento ao seu site que não são dignas de ser identificadas, além de garantir um problema de escala em potencial no futuro.
Mais recursos:
Imagem em destaque: Sklyareek/Shutterstock