Robots.txt Tutorial
Os motores de pesquisa procuram na raiz do vosso domÃnio por um ficheiro especial chamado "robots.txt" (
http://www.dominio.com/robots.txt). Este ficheiro informa o robot (spider - crawler - motor de pesquisa) quais os ficheiros ele pode percorrer para indexar. Este sistema é chamado o "Padrão de Exclusão dos Robots".
O formato do robots.txt é especial. Consiste em registos. Cada registo possui dois campos: uma linha referente ao User-agent (motor de pesquisa) e uma ou mais linhas de Exclusão (Disallow). O formato é o seguinte:
<Campo> ":" <valor>
O ficheiro robots.txt deverá ser criado no Modo "line ender" do Unix! A maior parte dos editores de texto possuem um Mode Unix ou o vosso cliente de FTP *deverá* fazer a devida conversão. Não tentem usar um editor de HTML que não possua um modo de texto especÃfico para criar um ficheiro robots.txt.
User-agent
A linha User-agent especifica o robot. Por exemplo:
User-agent: googlebot
Podem também usar o caracter "*" para especificar todos os robots:
User-agent: *
Podem encontrar os nomes do user agents nos vossos próprios logs ao verificar os pedidos ao ficheiros robots.txt. A maior parte dos motores de pesquisa têm pequenos nomes para os seus spiders.
Disallow:
A segunda parte de um registo consiste na linha Disallow: (exclusão). Este linha especifica ficheiros e/ou pastas. Por exemplo, a próxima linha informa aos spiders que não podem percorrer (fazer o download) do ficheiro email.htm:
Disallow: email.htm
Podem também especificar pastas:
Disallow: /cgi-bin/
Que irá bloquear os spiders de pesquisarem a pasta "cgi-bin".
Existe um modo de bloquear mais vasto na directiva. O padrão estipula que /bob irá bloquear /bob.html e /bob/index.html (tanto o ficheiro bob e os ficheiros dentro da pasta "bob" não serão indexados).
Se deixarem a linha Disallow em branco, isso indicará que TODOS os ficheiros serão indexados. Pelo menos uma linha de disallow deverá estar presente para directiva User-agent para estar correcta. Um ficheiro Robots.txt completamente em branco será igual ao mesmo não existir.
Espaço em Branco & Comentários
Qualquer linha no ficheiro robots.txt que comece com # é considerado ser apenas um comentário. O padrão permite comentários no fim de cada linha de directivas, mas será mesmo um mau princÃpio:
Disallow: bob #comentário
Alguns spiders não interpretarão correctamente a linha acima e em vez disso tentarão bloquear "bob#comment". O melhor é colocar os comentários em linhas próprias só para eles.
Espaços em branco no inÃcio de uma linha são permitidos, mas não recomendados.
Disallow: bob #comment
Exemplos
A seguinte linha permite todos os robots visitarem todos os ficheiros porque o "*" especifica todos os robots.
User-agent: *
Disallow:
A próxima linha coloca todos os robots de fora.
User-agent: *
Disallow: /
A próxima linha coloca todos os robots de fora das pastas cgi-bin e images:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Esta linha bane o Roverdog de todos os ficheiros do servidor:
User-agent: Roverdog
Disallow: /
Esta linha impede que o googlebot de chegar ao ficheiro cheese.htm:
User-agent: googlebot
Disallow: cheese.htm
Para exemplos mais complexos tentem verificar alguns ficheiros robots.txt de grandes site como Cnn ou Looksmart.
Extensões ao Padrão
Apesar de existirem propostas de extensões ao padrão como uma linha Allow (permissão) ou controle da versão do robot ainda não houve nenhuma mudança por parte do grupo de trabalho "Robots exclusion standard".
Traduzido de:
http://www.searchengineworld.com/robots/robots_tutorial.htm