Recolha e arquivo de conteúdos

Recolha e arquivo de conteúdos da Web portuguesa

O que se entende por Web Portuguesa?

A Web portuguesa é composta por todos os conteúdos alojados sob o domínio .PT e outros alojados fora deste domínio que sejam de manifesto interesse para a comunidade portuguesa.

O que é o batedor do Arquivo?

O batedor do Arquivo da Web Portuguesa é o sistema informático que recolhe automaticamente conteúdos da web de Portugal para serem arquivados. Em inglês estes sistemas são denominados crawlers, spiders ou harvesters.

Como funciona?

O batedor automaticamente recolhe páginas da Web e segue as ligações nelas contidas para descobrir novas páginas.

Fui visitado?

Os administradores dos sítios web ao analisarem os registos de acessos aos seus servidores, podem detectar se foram visitados pelo nosso batedor verificando se existem pedidos efectuados por clientes identificados como:

Arquivo-web-crawler  (compatible; heritrix/1.14.3 +http://arquivo.pt)

Caso detectem alguma anomalia por favor contactem-nos, indicando a versão do batedor que o visitou (indicada a seguir ao User-Agent, separada por uma barra).

Qual a frequência dos acessos feitos ao meu sítio web?

O intervalo usado actualmente é de 10 segundos entre cada pedido HTTP a um mesmo sítio web, o que representa uma carga menor do que a imposta por um browser ao descarregar por exemplo, uma página HTML e as imagens correspondentes. Se detectar algum comportamento prejudicial executado pelo nosso batedor agradecemos que nos informe.

Com que periodicidade recolhem a Web portuguesa e quanto tempo levam?

Estamos a fazer 3 a 4 recolhas por ano. Cerca de 90% dos conteúdos são recolhidos ao fim de 7 dias. No entanto, a recolha continua para os sítios mais lentos ou com maior número de conteúdos. Em breve planeamos iniciar a recolha mais frequente de publicações portuguesas seleccionadas.

Recolhem a Web portuguesa toda?

Não. São impostas algumas restrições, por exemplo, ao:

tamanho máximo dos conteúdos descarregados da Web
número de conteúdos por sítio
número de ligações que o batedor percorre desde um endereço inicial até chegar a um conteúdo

Por outro lado, a fronteira da Web portuguesa é difícil de definir. Existem muitos conteúdos alojados fora de .PT e esses requerem particular esforço na sua identificação. Se desejar, pode sugerir um sítio para arquivo.

Que tipo de ficheiros são arquivados?

Todos os tipos de ficheiros.

E as páginas geradas dinamicamente?

As páginas geradas dinamicamente são recolhidas da mesma forma que as estáticas, desde que exista pelo menos uma ligação para o seu endereço.

Arquivam informação de acesso restrito?

Não. O Arquivo da Web Portuguesa apenas recolhe a Web pública. Todas as páginas protegidas por palavra-passe ou outros mecanismos de restrição de acesso não são recolhidas.

O batedor do Arquivo preenche formulários?

Não. Caso detecte uma situação destas por favor informe-nos.

Posso evitar que o meu sítio web seja recolhido?

Sim. O batedor do Arquivo da Web obedece ao protocolo de exclusão de robots (Robots Exclusion Protocol). Se pretender que o seu sítio não seja visitado total ou parcialmente pelo nosso batedor e consequentemente não pertença ao arquivo da web de Portugal, siga as instruções para o cumprimento do protocolo.