Robots.txt: O que é? Como criar?

Robots.txt é um simples arquivo de texto (assim como o nome sugere) que informa aos robôs rastreadores de mecanismo de pesquisa o que você quer que eles acessem ou não. Por padrão, os robôs tendem a rastrear todas as páginas de seu site, logo, a principal utilização do robots.txt é bloquear páginas que você não queria que esses robôs rastreiem.

Como criar um robots.txt

Por ser um arquivo .txt, criar um robots é bem simples, podendo ser feito até mesmo no bloco de notas. Você precisará saber de alguns comandos, como por exemplo, o nome dos robôs que você queria bloquear. Todos os mecanismo de busca tem o seu próprio robô, como por exemplo o Google que tem o Googlebot. Abaixo veja uma lista dos mecanismo mais famosos:

Como citado anteriormente, por padrão esses mecanismo irão percorrer todo o seu site em busca de informação para indexa-los. Como o maior uso do robots.txt é bloquear páginas que por alguma razão você não quer que seja indexada, o comando Disallow é o mais comum.

Se por exemplo, você gostaria de impedir que o Google acesse uma página ou diretório de seu site com o nome newsletter você adicionará o seguinte comando:

User-agent: Googlebot
Disallow: /newsletter

Caso queria incluir todos os robôs de mecanismo de busca para que NÃO acessem alguma pasta/diretório (utilizando o exemplo do newsletter novamente), utilize o * para simbolizá-los. Exemplo:

User-agent: *
Disallow: /newsletter


Outro comando interessante é o Sitemap, porém devido ao Google Webmaster Tools já fazer este trabalho e de maneira mais prática e aperfeiçoada, acaba não sendo muito relevante. Todavia, segue o exemplo de comando caso queira introduzir no seu robots.txt:

Sitemap: https://www.seusiteaqui.com.br/sitemap.xml

Pronto! Após as configurações deseja seu robots.txt está pronto para ser utilizado. Agora você precisará ter acesso ao seu servidor e usar um cliente FTP ou gerenciador de arquivos para colocá-lo dentro de seu site. Coloque-o na mesma pasta onde esta o seu site (normalmente localizado no public_html) e deverá estar funcionando corretamente!

Para checar se está tudo correto, você sempre pode digitar a URL do seu site seguido de /robots.txt!