Arquivo de tag Robots txt

Robots txt, como usar corretamente e ajudar o SEO

Neste tópico sobre robots txt será abordado os benefícios do bom uso para os bots do Google e de outros buscadores.

robots-txt

Os user-agent chamado de Googlebot são sem dúvida os mais conhecidos. mas existem no entanto outros user-agents que tem praticamente as mesmas funções, que são:

Navegar pela internet através dos links encontrados nas páginas dos sites à procura de novos links e conteúdos a serem indexados e exibido nos resultados de busca. Porém, você pode optar por não permitir que algumas de suas páginas sejam exibidas nos resultados de busca, como por exemplo (páginas de login).

O que são robots txt

Como o nome já diz, robots.txt é um arquivo no formato de texto (.txt) que é usado para facilitar a vida dos robôs dos sites de busca.
Nos permitindo informar quais determinadas páginas ou pastas dos sites eles podem acessar ou não.

O que é user-agent?

User-agent corresponde a um tipo de rastreador genérico para criação de regras de rastreamento do site. Alguns rastreadores têm mais de um token, como mostrado nessa tabela do próprio Google. Para que uma regra seja aplicada, basta que um token corresponda ao rastreador. Esta lista não está completa, mas inclui muitos dos rastreadores que podem acessar seu site.
Veja uma lista de alguns user-agents aqui.

Sobre o allow

O uso do Allow orienta aos robôs quais diretórios ou páginas eles podem ter acesso ao conteúdo e permitir sua indexação e adição nos indices dos buscadores.
Ele deve ser utilizado para permitir todo o diretórios do site “/”, ou quando você bloqueou o acesso a um diretório por meio do Disallow, mas precisa indexar um ou mais arquivos ou sub-diretórios dentro do diretório bloqueado.

Veja no exemplo a seguir:

Disallow: /arquivos
Allow: /arquivos/imagem

Disallow

O uso do disallow orienta aos robôs de busca sobre quais diretórios ou páginas não devem ser rastreadas e incluídas no índice das buscas.

Veja no exemplo a seguir:

  • Disallow: /rss – diz aos robôs que não indexem as pastas ou arquivos que comecem com rss;
  • Disallow: /user/ – diz aos robôs que não indexem o conteúdo dentro da pasta user.
  • Disallow: /readme.html – diz aos robôs que não indexem a página certificado.html.

Sitemap no robts txt

Outra função do robots.txt é a permissão para indicar o caminho e o nome dos sitemap.xml do site.

Veja exemplo de como inseri-los:

Sitemap: https://site. com/sitemap-index.xml
Sitemap: https://site. com/page-sitemap.xml
Sitemap: https://site. com/post-sitemap.xml
Sitemap: https://site. com/product-sitemap.xml
Sitemap: https://site. com/user-sitemap.xml

Segundo WordPress um robots.txt seguro seria assim

User­-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp­-admin/
Disallow: /wp­-content/
Disallow: /wp­-includes/
Disallow: /xmlrpc.php
Disallow: /wp­

Exemplo WordPress robots.txt

User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /wp-admin/$
Disallow: */trackback/$
Disallow: /comments/feed*
Disallow: /wp-login.php?*
Allow: /*.js*
Allow: /*.css*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/admin-ajax.php?action=*
Allow: /wp-content/uploads/*

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/$
Disallow: */trackback/$
Disallow: /comments/feed*
Disallow: /wp-login.php?*
Allow: /*.js*
Allow: /*.css*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/admin-ajax.php?action=*
Allow: /wp-content/uploads/*

Sitemap: https://site.com/sitemap-index.xml
Sitemap: https://site. com/page-sitemap.xml
Sitemap: https://site. com/post-sitemap.xml
Sitemap: https://site. com/product-sitemap.xml
Sitemap: https://site. com/user-sitemap.xml

A ferramenta google search console, é uma ferramenta própria da Google para uso dos Webmasters. Ela oferece um maior controle, sobre o funcionamento dos sitemaps. Mostrando seus erros e ajustes a serem feitos.

É essencial informar ao Google o local dos sitemaps nos arquivos robots txt.

Não é aconselhável o uso de plugins no caso do wordpres para a criação de robots.txt.

Segue link para testar seu arquivo robots.txt e incluí-lo no Google Search Console.