Robots Exclusion Protocol para indicar restrições de acesso

Para que o AWP possa respeitar restrições de acesso, é aconselhável que os autores utilizem o Robots Exclusion Protocol.

O Robots Exclusion Protocol permite descriminar conteúdos que não deverão ser arquivados pelo AWP. Este mecanismo é útil para comunicar restrições de acesso impostas pelos autores.

Por outro lado, também permite facilitar o arquivo da web, dando indicações ao batedor para que não desperdice recursos a tentar recolher determinados conteúdos, como por exemplo, páginas que geram informação infinita como calendários online ou protegidas por palavra-passe. Note-se que ao evitar que o batedor recolha conteúdos desnecessários, evita-se também o desperdício de recursos do servidor que aloja o sítio web.

Exemplo do Robots Exclusion Protocol usando o robots.txt

Todas as restrições de acesso podem ser especificadas num único ficheiro denominado robots.txt que deverá estar na raiz do sítio web (ex. http://arquivo.pt/robots.txt).

Ficheiro robots.txt que proíbe a recolha pelo Arquivo da Web Portuguesa de todos os conteúdos abaixo da pasta /calendar/:

User-agent: Arquivo-web-crawler 
Disallow: /calendar/

Exemplo do Robots Exclusion Protocol usando a meta tag ROBOTS

Alternativamente, poderá definir restrições de acesso para cada página, incluindo a meta tag ROBOTS no seu código.

Exemplo de meta tag ROBOTS que proíbe o acesso e indexação para todos os robots:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />

Note que as exclusões definidas através da meta tag ROBOTS se aplicam para todos os robots, incluindo os dos motores de busca como o Google.

Secções

Ferramentas Pessoais

Robots Exclusion Protocol para indicar restrições de acesso

Exemplo do Robots Exclusion Protocol usando o robots.txt

Exemplo do Robots Exclusion Protocol usando a meta tag ROBOTS