Arquivo Robots

Arquivos Robots e Sitemap, entender primeiro a relação entre eles e a importância de aplica-los em seu site é fundamental. Embora sejam diferentes, ambos possuem a mesma finalidade de rastrear, analisar e colocar o seu site no topo dos resultados de busca. Confira nesse artigo tudo sobre o arquivo Robots.xml e qual sua relação com o Sitemap.

Robots.xml

Os robôs dos buscadores são aplicativos que navegam pela internet através dos links encontrados nas páginas, em busca de conteúdo a ser indexado e exibido nos resultados de busca. Entretanto, você pode optar por não ter algumas de suas páginas exibidas nos resultados de busca, por exemplo:

Páginas de Login: uma página de login é uma área restrita, como acesso a intranet, que geralmente não deve ser indexada;
Páginas de conteúdo repetido: caso você tenha, por exemplo, diversas Landing Pages com conteúdo bastante similares rodando para suas campanhas Google AdWords, deve bloquear as cópias e deixar apenas uma versão ser indexada pelo Google, minimizando o problema do conteúdo duplicado;
Páginas de impressão: se seu site tiver versões para tela e impressão sendo indexadas, elimine a versão para impressão do índice do Google.

Como o próprio nome já diz, robots.txt é um arquivo no formato .txt (bloco de notas). Funciona como um filtro para os robôs dos sites de busca e faz com que os webmasters controlem permissões de acesso a determinadas páginas ou pastas dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexada pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raiz da hospedagem. O próprio Google usa um arquivo em http://www.google.com/robots.txt, e navegar por ele é no mínimo curioso. Semelhante ao exemplo abaixo:

User-agent: *

Disallow: /search

Allow: /search/about

Disallow: /sdch

Disallow: /groups

Disallow: /catalogs

Allow: /catalogs/about

Allow: /catalogs/p?

Disallow: /catalogues

Sitemap: https://www.google.com/edu/sitemap.xml

Sitemap: https://www.google.com/work/sitemap.xml

O arquivo robots.txt tem o papel de criar uma política de acesso aos Robots. Para a execução dessas tarefas, há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site. Vejamos os principais comandos do arquivo robots.txt.

User-agent

A função do comando user-agent é listar quais robôs devem seguir as regras indicadas no arquivo robots.txt. Supondo que você deseja que o mecanismo de busca do Google siga as definições apresentadas no arquivo robots.txt, basta indicar o User-agent como Googlebot. Confira as principais opções:

Google: User-agent - Googlebot
Google Imagens: User-agent - Googlebot-images
Google Adwords: User-agent - Adsbot-Google
Google Adsense: User-agent - Mediapartners-Google
Yahoo: User-agent - Slurp
Bing: User-agent - Bingbot
Todos os mecanismos: User-agent: * (ou simplesmente não incluir o comando user-agent)

Disallow

Esse comando instrui os sites de busca sobre quais diretórios ou páginas não devem ser incluídos no índice.

Exemplos:

Disallow: /prod – orienta aos robots a não indexarem pastas ou arquivos que comecem com “prod”;
Disallow: /prod/ – orienta aos robots a não indexarem conteúdo dentro da pasta “prod”
Disallow: print1.html – orienta aos robots a não indexarem conteúdo da página print1.html.

Allow

O comando Allow orienta aos robots qual diretório ou página deve ter o conteúdo indexado. Diretórios e páginas são por definição sempre permitidos. Assim, esse comando deve ser utilizado apenas em situações em que o webmaster bloqueou o acesso a um diretório por meio do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado. Note, por exemplo, no robots.txt do Google, logo no início, as duas linhas abaixo. O Allow permite que seja indexado o diretório /about abaixo do diretório /catalogs.

Disallow: /catalogs
Allow: /catalogs/about

Sitemap

Uma outra função permitida pelo robots.txt é a indicação do caminho e nome do sitemap em formato XML do site. A ferramenta para Webmasters do Google, oferece um maior controle e visibilidade para a mesma função: comunicar ao Google onde estão os arquivos sitemap. De forma resumida, o Sitemap serve como um mapa de navegação para os robôs que categoriza e mostra atualizações e novas páginas.

Note como o Google submete em seu robots.txt diversos sitemaps:

Sitemap: http://www.google.com/hostednews/sitemap_index.xml
Sitemap: http://www.google.com/sitemaps_webmasters.xml
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml
Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

Logo abaixo, será apresentado exemplos reais de robots.txt, mostrando que é muito fácil acessar o conteúdo de arquivos robots.txt de qualquer site, inclusive de concorrentes. Sendo assim, cuidado com o que será inserido nesse arquivo, evite colocar arquivos confidenciais. Nesses casos, o ideal é utilizar a meta tag robots (meta name = “robots”).

Exemplo: o webmaster não deseja que o conteúdo do diretório /docs seja indexado pelos robots, então bloqueou o acesso ao diretório /docs com o comando “Disallow: /docs” no arquivo robots.txt. Dentro desse diretório, existe um sub-diretório chamado “public” que deve ter seu conteúdo indexado. Para que isso aconteça, basta usar no arquivo robots.txt a instrução “Allow: /docs/public/”.

Para visualizar exemplos de arquivos robots.txt, saia navegando pela internet e inclua o arquivo /robots.txt na raiz dos sites visitados para verificar se eles utilizam o arquivo robots.txt.

Veja abaixo alguns exemplos:

Google: www.google.com.br/robots.txt - alguns sites interessantes listados;
Facebook: www.facebook.com/robots.txt – veja como esse sitemap utiliza áreas separadas para cada Bot (mas sem necessidade, visto que os comandos parecem ser os mesmos para todos);
Casa Branca: www.whitehouse.gov/robots.txt – note a correta utilização do comando Disallow para remover áreas de login, como Disallow: /user/password/ e Disallow: /user/login/ ;
Abradi: www.abradi.com.br/robots.txt – bloqueia acesso às áreas administrativas do WordPress;
COB: www.cob.org.br/robots.txt – bloqueia o acesso a uma área de uploads, provavelmente de arquivos submetidos por usuários.

Na plataforma para realizar a inclusão do conteúdo Robots.txt, acesse o Style Editor (SE) >> Arquivos >> Robots. Após inserido clique em "Salvar Arquivo".

Pesquisa

Robots.xml

User-agent

Disallow

Allow

Sitemap

Comentários

Pesquisa

Robots.xml

User-agent

Disallow

Allow

Sitemap

Artigos relacionados