Arquitectura
Descreve sumariamente a arquitectura e funcionamento do sistema de arquivo.
Figura 1. Arquitectura do sistema de arquivo da web portuguesa.
A Figura 1 apresenta a arquitectura geral para concretizar o sistema de arquivo da web portuguesa. O arquivo divide-se em dois sub-sistemas:
- Pesquisa Global: destina-se a proporcionar pesquisas sobre toda a informação arquivada;
- Recolha e Armazenamento: destina-se a recolher, armazenar e preservar a informação proveniente da web. Este sub-sistema pode operar de forma independente do anterior.
Nós de Arquivo
- Os Nós de Arquivo recolhem, armazenam e indexam a informação da web.
Aglutinadores
- Os Aglutinadores contactam os Nós de Arquivo para obterem a informação distribuída entre eles, a fim de responderem a pesquisas globais, como por exemplo: pesquisar todas as páginas arquivadas que contenham os termos “eleições legislativas”.
Apresentação
- O componente de Apresentação recebe os resultados devolvidos pelos Aglutinadores e apresenta-os aos utilizadores. O sistema deverá suportar como parâmetros de pesquisa o intervalo de tempo em que se pretende pesquisar e o termo/URL a procurar.
Dentro de um Nó de Arquivo
Figura 2. Componentes de um Nó de Arquivo.
A Figura 2 representa a arquitectura interna de um Nó de Arquivo. No início de uma recolha da web portuguesa, é atribuído um conjunto de sítios web a cada Nó de Arquivo, que são recolhidos pelo Batedor e guardados no Armazém de Conteúdos.
Os novos sítios web sob o domínio .PT que sejam encontrados durante a recolha são guardados como candidatos para a próxima recolha. No fim de cada recolha, é efectuada uma indexação dos conteúdos de modo a proporcionar pesquisas eficientes sobre conteúdos arquivados (Índices de Termos e URL).
Cada Nó de Arquivo disponibiliza uma Interface de Pesquisa que permite pesquisar sobre a informação nele arquivada através dos índices. O objectivo é que a informação armazenada em cada Nó de Arquivo possa ser acedida de forma independente do restante sistema, aumentando assim as suas probabilidades de preservação para o futuro.
Desde que o hardware se mantenha operacional, basta ligar um Nó de Arquivo para que se possa aceder à informação nele armazenada. Por outro lado, os Servidores de buscas respondem a pedidos efectuados pelos Aglutinadores a fim de permitirem as pesquisas globais sobre todo o arquivo.