Tecnologia
Apresentamos em seguida as principais tecnologias utilizadas no desenvolvimento do sistema de Arquivo da Web Portuguesa.
As tecnologias de software usadas no Arquivo da Web Portuguesa são disponibilizadas principalmente pelo projecto Archive-access que aglutina várias ferramentas gratuitas e de código-aberto úteis para arquivar a web.
Inicialmente, as diversas iniciativas de arquivo da web trabalharam de forma praticamente independente, desenvolvendo os seus próprios sistemas de raiz. Esta situação levou a um grande desperdício de recursos.
Os problemas relacionados com o arquivo da web eram sentidos por todos, mas cada um ocupava-se de tentar resolvê-los sozinho. Ou seja, o mesmo problema era repetidamente resolvido sem necessidade.
Por outro lado, a web não parava de crescer e novos problemas surgiam a cada dia. Tornou-se óbvio que seria necessário juntar esforços para em conjunto tentar arquivar a web com sucesso. Surgiu assim o projecto Archive-access, que tem como principal contribuidor o Internet Archive.
A maior parte do software a ser utilizado no projecto de Arquivo da Web Portuguesa é de código-fonte aberto tendo em vista facilitar a preservação da informação arquivada e manutenção do sistema a longo prazo.
-
O batedor usa o Heritrix e o módulo Deduplicator;
- A pesquisa baseia-se na Wayback Machine, no NutchWax e no Lucene;
- O corrector ortográfico usa o Hunspell.
- O processamento distribuído dos dados é feito recorrendo ao Hadoop, uma
poderosa plataforma para processamento paralelo gratuita suportada pela Apache
Software Foundation;
- O sistema operativo usado é principalmente o Red Hat Enterprise Linux;
- A principal linguagem de programação usada é o Java;
- Como sistema de gestão de base de dados usamos o PostgreSQL;
- Como sistemas de suporte ao desenvolvimento e publicação na web usamos o Mantis, Plone, Apache http server, Tomcat, Mediawiki e o Zope.
Toda esta tecnologia gratuita e de código-aberto constitui uma valiosa base para a criação do sistema de Arquivo da Web Portuguesa.
No entanto, as ferramentas específicas para o arquivo da web são tecnologia de ponta e estão em permanente evolução, não constituindo assim produtos "prontos-a-usar".
Frequentemente, os processos de instalação e operação não estão documentados e existem erros e incompatibilidades entre versões. Pelo que, a decisão de usar ferramentas do Archive-access exige que nos envolvamos na sua melhoria e na resolução dos problemas da preservação da web.