Ferramentas Pessoais
  •  
Você está aqui: Entrada Funcionamento Arquitectura

Arquitectura

Descreve sumariamente a arquitectura e funcionamento do sistema de arquivo.

Figura 1. Arquitectura do sistema de arquivo da web portuguesa.

 

A Figura 1 apresenta a arquitectura geral para concretizar o sistema de arquivo da web portuguesa. O arquivo divide-se em dois sub-sistemas:

  • Pesquisa Global: destina-se a proporcionar pesquisas sobre toda a informação arquivada;
  • Recolha e Armazenamento: destina-se a recolher, armazenar e preservar a informação proveniente da web. Este sub-sistema pode operar de forma independente do anterior.

Nós de Arquivo

Os Nós de Arquivo recolhem, armazenam e indexam a informação da web.

Aglutinadores

Os Aglutinadores contactam os Nós de Arquivo para obterem a informação distribuída entre eles, a fim de responderem a pesquisas globais, como por exemplo: pesquisar todas as páginas arquivadas que contenham os termos “eleições legislativas”.

Apresentação

O componente de Apresentação recebe os resultados devolvidos pelos Aglutinadores e apresenta-os aos utilizadores. O sistema deverá suportar como parâmetros de pesquisa o intervalo de tempo em que se pretende pesquisar e o termo/URL a procurar.  

 Dentro de um Nó de Arquivo

Figura 2. Componentes de um Nó de Arquivo.

Componentes de um Nó de Arquivo

 

A Figura 2 representa a arquitectura interna de um Nó de Arquivo. No início de uma recolha da web portuguesa, é atribuído um conjunto de sítios web a cada Nó de Arquivo, que são recolhidos pelo Batedor e guardados no Armazém de Conteúdos.

Os novos sítios web sob o domínio .PT que sejam encontrados durante a recolha são guardados como candidatos para a próxima recolha. No fim de cada recolha, é efectuada uma indexação dos conteúdos de modo a proporcionar pesquisas eficientes sobre conteúdos arquivados (Índices de Termos e URL).

Cada Nó de Arquivo disponibiliza uma Interface de Pesquisa que permite pesquisar sobre a informação nele arquivada através dos índices. O objectivo é que a informação armazenada em cada Nó de Arquivo possa ser acedida de forma independente do restante sistema, aumentando assim as suas probabilidades de preservação para o futuro.

Desde que o hardware se mantenha operacional, basta ligar um Nó de Arquivo para que se possa aceder à informação nele armazenada. Por outro lado, os Servidores de buscas respondem a pedidos efectuados pelos Aglutinadores a fim de permitirem as pesquisas globais sobre todo o arquivo.

Acções do Documento
FCCN - Fundação para a Computação Científica Nacional UMIC - Agência para a Sociedade do Conhecimento