Arquitectura
Descreve sumariamente a arquitectura e funcionamento do sistema de arquivo.
Funcionamento geral
O funcionamento dos arquivos da web é semelhante ao dos motores de busca como o Google, divindindo-se em 3 etapas principais:
- Recolha: a partir de um conjunto inicial de endereços de sítios da Web (raizes), inicia-se um processo automático que consiste em ciclicamente:
- recolher um conteúdo da Web e armazená-lo em disco;
- extrair endereços para outras páginas a partir das ligações;
- inserir os novos endereços descobertos para recolha.
- Processamento: terminada a recolha, toda a informação recolhida da Web é processada para construir os indices que permitirão realizar pesquisas rápidas;
- Acesso: após criados os indices, são disponibilizados serviços de pesquisa e acesso à informação recolhida da Web. A principal diferença entre os motores de busca e os arquivos da web é que os arquivos têm a preocupação adicional de preservar a informação para mantê-la acessível ao longo do tempo.
Arquitectura do Arquivo da Web Portuguesa
Figura 1. Arquitectura do sistema de arquivo da web portuguesa.
A Figura 1 apresenta a arquitectura geral para concretizar o sistema de arquivo da web portuguesa. O arquivo divide-se em dois sub-sistemas:
- Recolha e Armazenamento: destina-se a recolher, armazenar e preservar a informação proveniente da web. Este sub-sistema pode operar de forma independente do anterior;
- Pesquisa Global: destina-se a proporcionar pesquisas sobre toda a informação arquivada.
Nós de Arquivo
- Os Nós de Arquivo recolhem, armazenam e indexam a informação da web.
Aglutinadores
- Os Aglutinadores contactam os Nós de Arquivo para obterem a informação distribuída entre eles, a fim de responderem a pesquisas globais, como por exemplo: pesquisar todas as páginas arquivadas que contenham os termos “eleições legislativas”.
Apresentação
- O componente de Apresentação recebe os resultados devolvidos pelos Aglutinadores e apresenta-os aos utilizadores. O sistema deverá suportar como parâmetros de pesquisa o intervalo de tempo em que se pretende pesquisar e o termo/URL a procurar.
Dentro de um Nó de Arquivo
Figura 2. Componentes de um Nó de Arquivo.
A Figura 2 representa a arquitectura interna de um Nó de Arquivo. No início de uma recolha da web portuguesa, é atribuído um conjunto de sítios web a cada Nó de Arquivo, que são recolhidos pelo Batedor e guardados no Armazém de Conteúdos.
Os novos sítios web sob o domínio .PT que sejam encontrados durante a recolha são guardados como candidatos para a próxima recolha. No fim de cada recolha, é efectuada uma indexação dos conteúdos de modo a proporcionar pesquisas eficientes sobre conteúdos arquivados (Índices de Termos e URL).
Cada Nó de Arquivo disponibiliza uma Interface de Pesquisa que permite pesquisar sobre a informação nele arquivada através dos índices. O objectivo é que a informação armazenada em cada Nó de Arquivo possa ser acedida de forma independente do restante sistema, aumentando assim as suas probabilidades de preservação para o futuro.
Desde que o hardware se mantenha operacional, basta ligar um Nó de Arquivo para que se possa aceder à informação nele armazenada. Por outro lado, os Servidores de buscas respondem a pedidos efectuados pelos Aglutinadores a fim de permitirem as pesquisas globais sobre todo o arquivo.
O artigo Arquivo e medição da Web portuguesa detalha em maior pormenor o funcionamento do AWP. Se quiser saber mais, consulte a nossa página de publicações.