Crawler

Crawler (in English)

(...)

O que é o batedor do Tomba (Tomba-crawler)?

O batedor do Tomba é o sistema informático que recolhe automaticamente conteúdos da web de Portugal para serem arquivados. Em inglês estes sistemas são denominados crawlers, spiders ou harvesters.

Como funciona?

A actividade de uma batedor consiste num processo cíclico. Este processo inicia-se a partir de um conjunto de endereços iniciais, denominados raízes. A partir das raízes recolhem-se os primeiros conteúdos, sendo feita a extracção das ligações para novos documentos, seguindo-se um novo ciclo de recolha de documentos. Em cada nova recolha de Portugal, o Tomba-crawler utiliza como raízes as páginas de entrada de todos os sítios recolhidos com sucesso na última recolha pertencentes ao domínio .PT.

Como foi implementado?

A sua versão actual é baseada no Heritrix, um batedor especialmente criado pelo Internet Archive para responder aos requisitos de um Arquivo da Web.

Que conteúdos são recolhidos?

O Tomba-crawler pode recolher todo o tipo de documentos da web para que o máximo de informação seja preservada para o futuro. No entanto, para garantir o bom funcionamento do batedor face a sítios web mal intencionados ou com funcionamento deficiente, são impostas algumas restrições por exemplo, ao tamanho máximo dos conteúdos descarregados da web.

Qual a frequência dos acessos feitos ao meu sítio web?

Os sítios web são recolhidos respeitando sempre um intervalo de cortesia entre pedidos de modo a não sobrecarregar os servidores Web. O intervalo usado actualmente é de 2 segundos entre cada pedido HTTP, o que representa uma carga menor do que a imposta por um browser ao descarregar por exemplo, uma página HTML e as imagens correspondentes. Se detectar algum comportamento prejudicial executado pelo nosso batedor agradecemos que nos informe.

Fui visitado?

Os administradores dos sítios web ao analisarem os registos de acessos aos seus servidores, podem detectar que foram visitados pelo nosso batedor verificando se existem pedidos efectuados por clientes identificados como "Tomba-crawler/0.1 (compatible; heritrix/1.12.1 +http://tomba.fccn.pt/)". Caso detectem alguma anomalia por favor contactem-nos, indicando a versão do Tomba-crawler que o visitou (indicada a seguir ao user-agent, separada por uma barra).

Posso evitar que o meu sítio web seja visitado?

Sim. O Tomba-crawler obedece ao protocolo de exclusão de robots (Robots Exclusion Protocol). Se pretender que o seu sítio não seja visitado total ou parcialmente pelo nosso batedor e consequentemente não pertença ao arquivo da web de Portugal, siga as instruções para o cumprimento do protocolo.

Quando vou poder ver as versões arquivadas do meu sítio web?

O desenvolvimento do projecto Tomba foi iniciado em Janeiro de 2008 pelo que, as recolhas feitas actualmente são experimentais e destinam-se à realização de testes ao sistema. Planeamos lançar um serviço de pesquisa sobre os conteúdos arquivados no prazo máximo de 2 anos.

Secções

Ferramentas Pessoais