Robots Exclusion Protocol para indicar restrições de acesso
Para que o AWP possa respeitar restrições de acesso, é aconselhável que os autores utilizem o Robots Exclusion Protocol.
O Robots Exclusion Protocol permite descriminar conteúdos que não deverão ser arquivados pelo AWP. Este mecanismo é útil para comunicar restrições de acesso impostas pelos autores.
Por outro lado, também permite facilitar o arquivo da web, dando indicações ao batedor para que não desperdice recursos a tentar recolher determinados conteúdos, como por exemplo, páginas que geram informação infinita como calendários online ou protegidas por palavra-passe. Note-se que ao evitar que o batedor recolha conteúdos desnecessários, evita-se também o desperdício de recursos do servidor que aloja o sítio web.
Exemplo do Robots Exclusion Protocol usando o robots.txt
Todas as restrições de acesso podem ser especificadas num único ficheiro denominado robots.txt que deverá estar na raiz do sítio web (ex. http://arquivo.pt/robots.txt).
Ficheiro robots.txt que proíbe a recolha pelo Arquivo da Web Portuguesa de todos os conteúdos abaixo da pasta /calendar/:
User-agent: Arquivo-web-crawler Disallow: /calendar/
Exemplo do Robots Exclusion Protocol usando a meta tag ROBOTS
Alternativamente, poderá definir restrições de acesso para cada página, incluindo a meta tag ROBOTS no seu código.
Exemplo de meta tag ROBOTS que proíbe o acesso e indexação para todos os robots:
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
Note que as exclusões definidas através da meta tag ROBOTS se aplicam para todos os robots, incluindo os dos motores de busca como o Google.