Ferramentas Pessoais
  •  
Você está aqui: Entrada Sobre o Arquivo Funcionamento Tecnologia

Tecnologia

Apresentamos em seguida as principais tecnologias utilizadas no desenvolvimento do sistema de Arquivo da Web Portuguesa.

As tecnologias de software usadas no Arquivo da Web Portuguesa são disponibilizadas principalmente pelo projecto Archive-access que aglutina várias ferramentas gratuitas e de código-aberto úteis para arquivar a web.

Inicialmente, as diversas iniciativas de arquivo da web trabalharam de forma praticamente independente, desenvolvendo os seus próprios sistemas de raiz. Esta situação levou a um grande desperdício de recursos.

Os problemas relacionados com o arquivo da web eram sentidos por todos, mas cada um ocupava-se de tentar resolvê-los sozinho. Ou seja, o mesmo problema era repetidamente resolvido sem necessidade.

Por outro lado, a web não parava de crescer e novos problemas surgiam a cada dia. Tornou-se óbvio que seria necessário juntar esforços para em conjunto tentar arquivar a web com sucesso. Surgiu assim o projecto Archive-access, que tem como principal contribuidor o Internet Archive.

A maior parte do software a ser utilizado no projecto de Arquivo da Web Portuguesa é de código-fonte aberto tendo em vista facilitar a preservação da informação arquivada e manutenção do sistema a longo prazo.

  • O batedor usa o Heritrix;
  • A pesquisa por URL baseia-se na Wayback Machine;
  • A pesquisa por termo no motor de busca NutchWax;
  • O processamento distribuído dos dados é feito recorrendo ao Hadoop, uma poderosa plataforma para processamento paralelo gratuita suportada pela Apache Software Foundation;
  • O sistema operativo usado é principalmente o Red Hat Enterprise Linux;
  • A principal linguagem de programação usada é o Java;
  • Como sistemas de suporte ao desenvolvimento e publicação na web usamos o Plone, Apache http server, Tomcat, Mediawiki e o Zope.

Toda esta tecnologia gratuita e de código-aberto constitui uma valiosa base para a criação do sistema de Arquivo da Web Portuguesa.

No entanto, as ferramentas específicas para o arquivo da web são tecnologia de ponta e estão em permanente evolução, não constituindo assim produtos "prontos-a-usar".

Frequentemente, os processos de instalação e operação não estão documentados e existem erros e incompatibilidades entre versões. Pelo que, a decisão de usar ferramentas do Archive-access exige que nos envolvamos na sua melhoria e na resolução dos problemas da preservação da web.

 

FCCN - Fundação para a Computação Científica Nacional POSC - Programa Operacional Sociedade do Conhecimento UMIC - Agência para a Sociedade do Conhecimento UE - União Europeia - FEDER - Fundo Europeu de Desenvolvimento Regional