O que é o batedor do Tomba (Tomba-crawler)?
O batedor do Tomba é o sistema informático que recolhe
automaticamente conteúdos da web de Portugal para serem arquivados. Em
inglês estes sistemas são denominados crawlers, spiders ou harvesters.
Como funciona?
A actividade de uma batedor consiste num processo cíclico. Este
processo inicia-se a partir de um conjunto de endereços iniciais,
denominados raízes. A partir das raízes recolhem-se os primeiros
conteúdos, sendo feita a extracção das ligações para novos documentos,
seguindo-se um novo ciclo de recolha de documentos. Em cada nova
recolha de Portugal, o Tomba-crawler utiliza como raízes as páginas de
entrada de todos os sítios recolhidos com sucesso na última recolha
pertencentes ao domínio .PT.
Como foi implementado?
A sua versão actual é baseada no Heritrix, um batedor especialmente criado pelo Internet Archive para responder aos requisitos de um Arquivo da Web.
Que conteúdos são recolhidos?
O Tomba-crawler pode recolher todo o tipo de documentos da web para
que o máximo de informação seja preservada para o futuro. No entanto,
para garantir o bom funcionamento do batedor face a sítios web mal
intencionados ou com funcionamento deficiente, são impostas algumas
restrições por exemplo, ao tamanho máximo dos conteúdos descarregados
da web.
Qual a frequência dos acessos feitos ao meu sítio web?
Os sítios web são recolhidos respeitando sempre um intervalo de
cortesia entre pedidos de modo a não sobrecarregar os servidores Web. O
intervalo usado actualmente é de 2 segundos entre cada pedido HTTP, o
que representa uma carga menor do que a imposta por um browser ao
descarregar por exemplo, uma página HTML e as imagens correspondentes.
Se detectar algum comportamento prejudicial executado pelo nosso
batedor agradecemos que nos informe.
Fui visitado?
Os administradores dos sítios web ao analisarem os registos de
acessos aos seus servidores, podem detectar que foram visitados pelo
nosso batedor verificando se existem pedidos efectuados por clientes
identificados como "Tomba-crawler/0.1 (compatible; heritrix/1.12.1 +http://tomba.fccn.pt/)". Caso detectem alguma anomalia por favor contactem-nos, indicando a versão do Tomba-crawler que o visitou (indicada a seguir ao user-agent, separada por uma barra).
Posso evitar que o meu sítio web seja visitado?
Sim. O Tomba-crawler obedece ao protocolo de exclusão de robots (Robots Exclusion Protocol).
Se pretender que o seu sítio não seja visitado total ou parcialmente
pelo nosso batedor e consequentemente não pertença ao arquivo da web de
Portugal, siga as instruções para o cumprimento do protocolo.
Quando vou poder ver as versões arquivadas do meu sítio web?
O desenvolvimento do projecto Tomba foi iniciado em Janeiro de 2008
pelo que, as recolhas feitas actualmente são experimentais e
destinam-se à realização de testes ao sistema. Planeamos lançar um
serviço de pesquisa sobre os conteúdos arquivados no prazo máximo de 2
anos.