Como o próprio nome já diz, robots.txt é um arquivo no formato .txt (bloco de notas), onde pode ser editado em qualquer aplicativo como bloco de notas e notepad do Windows.
Funciona como um filtro para os robôs de mecanismos de pesquisa controlar permissões de acesso em determinada página ou pastas dos sites, se deve ou não serem indexadas.
Como devo configurar?
A sintaxe do Robots.txt é uma estrutura muito simples, configuradas com comandos específicos para que os buscadores entendam a mensagem que deseja passar.
Comandos Robots.txt
Utilize o comando abaixo para indexar em todos os mecanismos de buscas
User-agent: *
(ou simplesmente não incluir o comando user-agent)
Caso queira definir para mecanismo de busca específicos, utilize o comando abaixo:
Google: User-agent: Googlebot
Google Imagens: User-agent: Googlebot-images
Google Adwords: User-agent: Adsbot-Google
Google Adsense: User-agent: Mediapartners-Google
Yahoo: User-agent: Slurp
Bing: User-agent: Bingbot
O comando guia os buscadores sobre quais diretórios ou páginas não devem ser indexadas nos buscadores.
Disallow: /segredo - orienta aos robots a não indexarem pastas ou arquivos que comecem com "segredo";
Disallow: /segredo/ - orienta aos robots a não indexarem conteúdo dentro da pasta "segredo"
Disallow: pagina-teste.html - orienta aos robots a não indexarem conteúdo da página pagina-teste.html.
Ao contrário do procedimento anterior, esse o comando Allow permite que os buscadores indexem determinas páginas e pastas. Diretórios e páginas são por definição sempre permitidos. Assim, este comando deve ser utilizado apenas em situações em que o webmaster bloqueou o acesso a um diretório por meio do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado. Note por exemplo no robots.txt do Google, logo no início, as duas linhas abaixo. O Allow permite que seja indexado o diretório /sobre abaixo do diretório /catalogos.
Disallow: /catalogos
Allow: /catalogos/sobre
Exemplos de arquivo robots.txt
Apesar de ser simples a configuração, não dispensa cuidados nas configurações. Você também pode olhar exemplo de configurações em site grande como Google ou Facebook.