Robots.txt é um simples arquivo de texto (assim como o nome sugere) que informa aos robôs rastreadores de mecanismo de pesquisa o que você quer que eles acessem ou não. Por padrão, os robôs tendem a rastrear todas as páginas de seu site, logo, a principal utilização do robots.txt é bloquear páginas que você não queria que esses robôs rastreiem.
Como criar um robots.txt
Por ser um arquivo .txt, criar um robots é bem simples, podendo ser feito até mesmo no bloco de notas. Você precisará saber de alguns comandos, como por exemplo, o nome dos robôs que você queria bloquear. Todos os mecanismo de busca tem o seu próprio robô, como por exemplo o Google que tem o Googlebot. Abaixo veja uma lista dos mecanismo mais famosos:
- GoogleBot
- Bingbot
- Slurp Bot
- DuckDuckBot
- Baiduspider
- Yandex Bot
- Sogou Spider
- Exabot
Segue uma lista mais detalhada sobre os mecânismos de busca: https://www.keycdn.com/blog/web-crawlers
Como citado anteriormente, por padrão esses mecanismo irão percorrer todo o seu site em busca de informação para indexa-los. Como o maior uso do robots.txt é bloquear páginas que por alguma razão você não quer que seja indexada, o comando Disallow é o mais comum.
Se por exemplo, você gostaria de impedir que o Google acesse uma página ou diretório de seu site com o nome newsletter você adicionará o seguinte comando:
User-agent: Googlebot
Disallow: /newsletter
Caso queria incluir todos os robôs de mecanismo de busca para que NÃO acessem alguma pasta/diretório (utilizando o exemplo do newsletter novamente), utilize o * para simbolizá-los. Exemplo:
User-agent: *
Disallow: /newsletter
Outro comando interessante é o Sitemap, porém devido ao Google Webmaster Tools já fazer este trabalho e de maneira mais prática e aperfeiçoada, acaba não sendo muito relevante. Todavia, segue o exemplo de comando caso queira introduzir no seu robots.txt:
Sitemap: https://www.seusiteaqui.com.br/sitemap.xml
Pronto! Após as configurações deseja seu robots.txt está pronto para ser utilizado. Agora você precisará ter acesso ao seu servidor e usar um cliente FTP ou gerenciador de arquivos para colocá-lo dentro de seu site. Coloque-o na mesma pasta onde esta o seu site (normalmente localizado no public_html) e deverá estar funcionando corretamente!
Para checar se está tudo correto, você sempre pode digitar a URL do seu site seguido de /robots.txt!