Ferramentas Pessoais
  •  
Você está aqui: Entrada Fui arquivado?

Fui arquivado?

Fique a saber se o seu sítio web está a ser arquivado e caso deseje, evitar que isso aconteça.

O que é o batedor do Arquivo?

O batedor do Arquivo da Web Portuguesa é o sistema informático que recolhe automaticamente conteúdos da web de Portugal para serem arquivados. Em inglês estes sistemas são denominados crawlers, spiders ou harvesters.

 

Como funciona?

A actividade de um batedor consiste num processo cíclico. Este processo inicia-se a partir de um conjunto de endereços iniciais, denominados raízes. A partir das raízes recolhem-se os primeiros conteúdos, sendo feita a extracção das ligações para novos documentos, seguindo-se um novo ciclo de recolha de documentos. Em cada nova recolha de Portugal, o
batedor utiliza como raízes as páginas de entrada de todos os sítios recolhidos com sucesso na última recolha pertencentes ao domínio .PT.

Fui visitado?

Os administradores dos sítios web ao analisarem os registos de acessos aos seus servidores, podem detectar se foram visitados pelo nosso batedor verificando se existem pedidos efectuados por clientes identificados como:

Arquivo-web-crawler  (compatible; heritrix/1.12.1 +http://arquivo-web.fccn.pt)

Caso detectem alguma anomalia por favor contactem-nos, indicando a versão do batedor que o visitou (indicada a seguir ao User-Agent, separada por uma barra).

 

Como foi implementado?

A sua versão actual é baseada no Heritrix, um batedor especialmente criado pelo Internet Archive para responder aos requisitos de um Arquivo da Web.

 

Que conteúdos são recolhidos?

O batedor pode recolher todo o tipo de documentos da web para que o máximo de informação seja preservada para o futuro. No entanto, para garantir o bom funcionamento do batedor face a sítios web mal intencionados ou com funcionamento deficiente, são impostas algumas restrições por exemplo, ao tamanho máximo dos conteúdos descarregados da web.

 

Qual a frequência dos acessos feitos ao meu sítio web?

Os sítios web são recolhidos respeitando sempre um intervalo de cortesia entre pedidos de modo a não sobrecarregar os servidores web. O intervalo usado actualmente é de 10 segundos entre cada pedido HTTP a um mesmo sítio web, o que representa uma carga menor do que a imposta por um browser ao descarregar por exemplo, uma página HTML e as imagens correspondentes. Se detectar algum comportamento prejudicial executado pelo nosso batedor agradecemos que nos informe.

 
 

Posso evitar que o meu sítio web seja visitado?

Sim. O batedor do Arquivo da Web obedece ao protocolo de exclusão de robots (Robots Exclusion Protocol). Se pretender que o seu sítio não seja visitado total ou parcialmente pelo nosso batedor e consequentemente não pertença ao arquivo da web de Portugal, siga as instruções para o cumprimento do protocolo.

 

Quando vou poder ver as versões arquivadas do meu sítio web?

O desenvolvimento do projecto de Arquivo da Web Portuguesa foi iniciado em Janeiro de 2008 pelo que, as recolhas feitas actualmente são experimentais e destinam-se à realização de testes ao sistema. Planeamos lançar um serviço de pesquisa sobre os conteúdos arquivados no prazo máximo de 2 anos. Os conteúdos arquivados serão disponibilizados com um intervalo mínimo para diminuir a possibilidade de acessos concorrentes com os sítios web que os publicaram.

FCCN - Fundação para a Computação Científica Nacional POSC - Programa Operacional Sociedade do Conhecimento UMIC - Agência para a Sociedade do Conhecimento UE - União Europeia - FEDER - Fundo Europeu de Desenvolvimento Regional