Robots Exclusion Protocol para indicar restrições de acesso

Para que o AWP possa respeitar restrições de acesso, é aconselhável que os autores utilizem o Robots Exclusion Protocol (REP).

O Robots Exclusion Protocol (REP) permite descriminar conteúdos que não deverão ser arquivados pelo AWP. Este mecanismo é útil para comunicar restrições de acesso impostas pelos autores.

Todas as restrições de acesso podem ser especificadas num único ficheiro denominado robots.txt que deverá estar na raiz do sítio web (ex. http://arquivo.pt/robots.txt).

Permita que os robots dos arquivos da web recolham toda a informação necessária para reproduzir as páginas

Os motores de busca necessitam apenas de recolher conteúdos textuais para apresentarem resultados de um sítio web.
Os arquivos da web necessitam de todos os ficheiros que compõem uma página para que a possam reproduzir correctamente mais tarde (ex. ficheiros de imagens, CSS ou JavaScript).
As regras pré-definidas para alguns Sistemas de Gestão de Conteúdos necessitam de ser alteradas para permitirem o arquivo eficiente do sítio web (ex. Joomla, Mambo).

Permitir o arquivo de um sítio web pelo Arquivo da Web Portuguesa

Basta colocar as seguintes linhas no início do ficheiro robots.txt:

User-agent: Arquivo-web-crawler 
Disallow:

Proíba a recolha de conteúdos prejudiciais

O REP permite facilitar o arquivo da web, dando indicações ao robot para que não desperdice recursos a tentar recolher determinados conteúdos, como por exemplo:

Páginas que geram informação infinita como calendários online ou protegidas por palavra-passe.

Note-se que ao evitar que o robot recolha conteúdos desnecessários, evita-se também o desperdício de recursos do servidor que aloja o sítio web.

Proibir acesso a directoria usando o robots.txt

Ficheiro robots.txt que proíbe a recolha pelo Arquivo da Web Portuguesa de todos os conteúdos abaixo da pasta /calendar/:

User-agent: Arquivo-web-crawler 
Disallow: /calendar/

Proibir a recolha e indexação usando a meta tag ROBOTS

Alternativamente, poderá definir restrições de acesso para cada página, incluindo a meta tag ROBOTS no seu código.

Exemplo de meta tag ROBOTS que proíbe o acesso e indexação para todos os robots:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />

Note que as exclusões definidas através da meta tag ROBOTS se aplicam para todos os robots, incluindo os dos motores de busca como o Google.

Partilhar | |

Secções

Ferramentas Pessoais