Arquitectura

Descreve sumariamente a arquitectura e funcionamento do sistema de arquivo.

Funcionamento geral

O funcionamento dos arquivos da web é semelhante ao dos motores de busca como o Google, divindindo-se em 3 etapas principais:

Recolha: a partir de um conjunto inicial de endereços de sítios da Web (raizes), inicia-se um processo automático que consiste em ciclicamente:
- recolher um conteúdo da Web e armazená-lo em disco;
- extrair endereços para outras páginas a partir das ligações;
- inserir os novos endereços descobertos para recolha.
Os sistemas que executam estas tarefas de recolha chamam-se batedores ou crawlers.
Processamento: terminada a recolha, toda a informação recolhida da Web é processada para construir os indices que permitirão realizar pesquisas rápidas;
Acesso: após criados os indices, são disponibilizados serviços de pesquisa e acesso à informação recolhida da Web. A principal diferença entre os motores de busca e os arquivos da web é que os arquivos têm a preocupação adicional de preservar a informação para mantê-la acessível ao longo do tempo.

Arquitectura do Arquivo da Web Portuguesa

Figura 1. Arquitectura do sistema de arquivo da web portuguesa.

A Figura 1 apresenta a arquitectura geral para concretizar o sistema de arquivo da web portuguesa. O arquivo divide-se em dois sub-sistemas:

Recolha e Armazenamento: destina-se a recolher, armazenar e preservar a informação proveniente da web. Este sub-sistema pode operar de forma independente do anterior;

Pesquisa Global: destina-se a proporcionar pesquisas sobre toda a informação arquivada.

Nós de Arquivo

Os Nós de Arquivo recolhem, armazenam e indexam a informação da web.

Aglutinadores

Os Aglutinadores contactam os Nós de Arquivo para obterem a informação distribuída entre eles, a fim de responderem a pesquisas globais, como por exemplo: pesquisar todas as páginas arquivadas que contenham os termos “eleições legislativas”.

Apresentação

O componente de Apresentação recebe os resultados devolvidos pelos Aglutinadores e apresenta-os aos utilizadores. O sistema deverá suportar como parâmetros de pesquisa o intervalo de tempo em que se pretende pesquisar e o termo/URL a procurar.

Dentro de um Nó de Arquivo

Figura 2. Componentes de um Nó de Arquivo.

Componentes de um Nó de Arquivo

A Figura 2 representa a arquitectura interna de um Nó de Arquivo. No início de uma recolha da web portuguesa, é atribuído um conjunto de sítios web a cada Nó de Arquivo, que são recolhidos pelo Batedor e guardados no Armazém de Conteúdos.

Os novos sítios web sob o domínio .PT que sejam encontrados durante a recolha são guardados como candidatos para a próxima recolha. No fim de cada recolha, é efectuada uma indexação dos conteúdos de modo a proporcionar pesquisas eficientes sobre conteúdos arquivados (Índices de Termos e URL).

Cada Nó de Arquivo disponibiliza uma Interface de Pesquisa que permite pesquisar sobre a informação nele arquivada através dos índices. O objectivo é que a informação armazenada em cada Nó de Arquivo possa ser acedida de forma independente do restante sistema, aumentando assim as suas probabilidades de preservação para o futuro.

Desde que o hardware se mantenha operacional, basta ligar um Nó de Arquivo para que se possa aceder à informação nele armazenada. Por outro lado, os Servidores de buscas respondem a pedidos efectuados pelos Aglutinadores a fim de permitirem as pesquisas globais sobre todo o arquivo.

O artigo Arquivo e medição da Web portuguesa detalha em maior pormenor o funcionamento do AWP. Se quiser saber mais, consulte a nossa página de publicações.

Secções

Ferramentas Pessoais