Ferramentas Pessoais
  •  
Você está aqui: Entrada Sobre o Arquivo Funcionamento Arquitectura

Arquitectura

Descreve sumariamente a arquitectura e funcionamento do sistema de arquivo.

Funcionamento geral

O funcionamento dos arquivos da web é semelhante ao dos motores de busca como o Google, divindindo-se em 3 etapas principais:

  1. Recolha: a partir de um conjunto inicial de endereços de sítios da Web (raizes), inicia-se um processo automático que consiste em ciclicamente:
    • recolher um conteúdo da Web e armazená-lo em disco;
    • extrair endereços para outras páginas a partir das ligações;
    • inserir os novos endereços descobertos para recolha.
    Os sistemas que executam estas tarefas de recolha chamam-se batedores ou crawlers.
  2. Processamento: terminada a recolha, toda a informação recolhida da Web é processada para construir os indices que permitirão realizar pesquisas rápidas;
  3. Acesso: após criados os indices, são disponibilizados serviços de pesquisa e acesso à informação recolhida da Web. A principal diferença entre os motores de busca e os arquivos da web é que os arquivos têm a preocupação adicional de preservar a informação para mantê-la acessível ao longo do tempo.

Arquitectura do Arquivo da Web Portuguesa

 

Figura 1. Arquitectura do sistema de arquivo da web portuguesa.

 Figura 1. Arquitectura do sistema de arquivo da web portuguesa.

A Figura 1 apresenta a arquitectura geral para concretizar o sistema de arquivo da web portuguesa. O arquivo divide-se em dois sub-sistemas:

  • Recolha e Armazenamento: destina-se a recolher, armazenar e preservar a informação proveniente da web. Este sub-sistema pode operar de forma independente do anterior;
  • Pesquisa Global: destina-se a proporcionar pesquisas sobre toda a informação arquivada.

Nós de Arquivo

Os Nós de Arquivo recolhem, armazenam e indexam a informação da web.

Aglutinadores

Os Aglutinadores contactam os Nós de Arquivo para obterem a informação distribuída entre eles, a fim de responderem a pesquisas globais, como por exemplo: pesquisar todas as páginas arquivadas que contenham os termos “eleições legislativas”.

Apresentação

O componente de Apresentação recebe os resultados devolvidos pelos Aglutinadores e apresenta-os aos utilizadores. O sistema deverá suportar como parâmetros de pesquisa o intervalo de tempo em que se pretende pesquisar e o termo/URL a procurar.  

 Dentro de um Nó de Arquivo

Figura 2. Componentes de um Nó de Arquivo.

 Componentes de um Nó de Arquivo

A Figura 2 representa a arquitectura interna de um Nó de Arquivo. No início de uma recolha da web portuguesa, é atribuído um conjunto de sítios web a cada Nó de Arquivo, que são recolhidos pelo Batedor e guardados no Armazém de Conteúdos.

Os novos sítios web sob o domínio .PT que sejam encontrados durante a recolha são guardados como candidatos para a próxima recolha. No fim de cada recolha, é efectuada uma indexação dos conteúdos de modo a proporcionar pesquisas eficientes sobre conteúdos arquivados (Índices de Termos e URL).

Cada Nó de Arquivo disponibiliza uma Interface de Pesquisa que permite pesquisar sobre a informação nele arquivada através dos índices. O objectivo é que a informação armazenada em cada Nó de Arquivo possa ser acedida de forma independente do restante sistema, aumentando assim as suas probabilidades de preservação para o futuro.

Desde que o hardware se mantenha operacional, basta ligar um Nó de Arquivo para que se possa aceder à informação nele armazenada. Por outro lado, os Servidores de buscas respondem a pedidos efectuados pelos Aglutinadores a fim de permitirem as pesquisas globais sobre todo o arquivo.

O artigo Arquivo e medição da Web portuguesa detalha em maior pormenor o funcionamento do AWP. Se quiser saber mais, consulte a nossa página de publicações.

 

FCCN - Fundação para a Computação Científica Nacional UMIC - Agência para a Sociedade do Conhecimento POSC - Programa Operacional Sociedade do Conhecimento UE - União Europeia - FEDER - Fundo Europeu de Desenvolvimento Regional