Olá, Visitante. Por favor Entre ou Registe-se se ainda não for membro.
4 de Dezembro de 2008, 22:39:35
Início Ajuda Pesquisa Entrar Registe-se
Notícias: PARTICIPE NO NOSSO FÓRUM!
Coloque dúvidas, ajude quem precisa, mostre o que sabe, revele-nos os seus trabalhos, etc!


+  Redcodestudio
|-+  Webmaster's Lounge
| |-+  Tutoriais e Howto's
| | |-+  [Tutorial] Motores de Pesquisa (robots.txt)
« anterior seguinte »
Páginas: [1] Ir para o fundo Imprimir
Autor Tópico: [Tutorial] Motores de Pesquisa (robots.txt)  (Lida 3511 vezes)
redhotmustang
Administrador
Emblema de Bronze
*****
Offline Offline

Mensagens: 515



Ver Perfil WWW
« em: 21 de Janeiro de 2006, 16:16:47 »

Robots.txt Tutorial

Os motores de pesquisa procuram na raiz do vosso domínio por um ficheiro especial chamado "robots.txt" (http://www.dominio.com/robots.txt).  Este ficheiro informa o robot (spider - crawler - motor de pesquisa) quais os ficheiros ele pode percorrer para indexar. Este sistema é chamado o "Padrão de Exclusão dos Robots".

O formato do robots.txt  Ã© especial. Consiste em registos. Cada registo possui dois campos: uma linha referente ao User-agent (motor de pesquisa) e uma ou mais linhas de Exclusão (Disallow). O formato é o seguinte:

<Campo> ":" <valor>

O ficheiro robots.txt deverá ser criado no Modo "line ender" do Unix! A maior parte dos editores de texto possuem um Mode Unix ou o vosso cliente de FTP *deverá* fazer a devida conversão. Não tentem usar um editor de HTML que não possua um modo de texto específico para criar um ficheiro robots.txt.

User-agent

    A linha User-agent especifica o robot. Por exemplo:

User-agent: googlebot

    Podem também usar o caracter "*" para especificar todos os robots:

User-agent: *

    Podem encontrar os nomes do user agents nos vossos próprios logs ao verificar os pedidos ao ficheiros robots.txt. A maior parte dos motores de pesquisa têm pequenos nomes para os seus spiders.

Disallow:

    A segunda parte de um registo consiste na linha Disallow: (exclusão). Este linha especifica ficheiros e/ou pastas. Por exemplo, a próxima linha informa aos spiders que não podem percorrer (fazer o download) do ficheiro email.htm:

Disallow: email.htm

    Podem também especificar pastas:

Disallow: /cgi-bin/

    Que irá bloquear os spiders de pesquisarem a pasta "cgi-bin".

    Existe um modo de bloquear mais vasto na directiva. O padrão estipula que /bob irá bloquear /bob.html e /bob/index.html (tanto o ficheiro bob e os ficheiros dentro da pasta "bob" não serão indexados).

    Se deixarem a linha Disallow em branco, isso indicará que TODOS os ficheiros serão indexados. Pelo menos uma linha de disallow deverá estar presente para directiva User-agent para estar correcta. Um ficheiro Robots.txt completamente em branco será igual ao mesmo não existir.

Espaço em Branco & Comentários

    Qualquer linha no ficheiro robots.txt que comece com # é considerado ser apenas um comentário. O padrão permite comentários no fim de cada linha de directivas, mas será mesmo um mau princípio:

Disallow: bob #comentário

    Alguns spiders não interpretarão correctamente a linha acima e em vez disso tentarão bloquear "bob#comment". O melhor é colocar os comentários em linhas próprias só para eles.

    Espaços em branco no início de uma linha são permitidos, mas não recomendados.

    Disallow: bob #comment

Exemplos

    A seguinte linha permite todos os robots visitarem todos os ficheiros porque o "*" especifica todos os robots.

User-agent: *
Disallow:

    A próxima linha coloca todos os robots de fora.

User-agent: *
Disallow: /

    A próxima linha coloca todos os robots de fora das pastas cgi-bin e images:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

    Esta linha bane o Roverdog de todos os ficheiros do servidor:

User-agent: Roverdog
Disallow: /

    Esta linha impede que o googlebot de chegar ao ficheiro cheese.htm:

User-agent: googlebot
Disallow: cheese.htm

    Para exemplos mais complexos tentem verificar alguns ficheiros robots.txt de grandes site como Cnn ou Looksmart.

Extensões ao Padrão
Apesar de existirem propostas de extensões ao padrão como uma linha Allow (permissão) ou controle da versão do robot ainda não houve nenhuma mudança por parte do grupo de trabalho "Robots exclusion standard".

Traduzido de:
http://www.searchengineworld.com/robots/robots_tutorial.htm
Registado

Programação Web e Flash ActionScript

Se quiser agradecer a qualquer membro que o tenha ajudado, fale do Redcodestudio aos seus amigos!
Problemas c/ o fórum? Envia-me 1 mail
Spread
Aprendiz
**
Offline Offline

Mensagens: 189



Ver Perfil WWW
« Responder #1 em: 21 de Janeiro de 2006, 23:25:23 »

Bastante bom o tuto, mas fiquei com duvidas num aspecto. Eu fiz o meu robot.txt em notepad e não no kwrite. Há algum problema porcausa dos 'enters'?

Cumps Cool
Registado





redhotmustang
Administrador
Emblema de Bronze
*****
Offline Offline

Mensagens: 515



Ver Perfil WWW
« Responder #2 em: 22 de Janeiro de 2006, 01:18:58 »

O que é recomendado é um simples ficheiro de texto. O que é desanconselhado é fazê-lo num editor de HTML (no modo de Código - naturalmente), porque pode colocar lixo desnecessário.

Por isso deve dar bem no Notepad.
Registado

Programação Web e Flash ActionScript

Se quiser agradecer a qualquer membro que o tenha ajudado, fale do Redcodestudio aos seus amigos!
Problemas c/ o fórum? Envia-me 1 mail
Páginas: [1] Ir para o topo Imprimir 
« anterior seguinte »
Ir para:  


Entrar com nome de utilizador, password e duração da sessão


Powered by MySQL Powered by PHP Powered by SMF 1.1.4 | SMF © 2006-2007, Simple Machines LLC
Seo4Smf v0.2 © Webmaster's Talks
XHTML 1.0 válido! CSS válido!
Página criada em 0.059 segundos com 20 procedimentos.