GAppA: Grid Appliance para o Arquivo (em desenvolvimento)
A Grid Appliance para o Arquivo (GAppA) é um sistema informático que tem como objectivo disponibilizar à comunidade científica nacional uma infra-estrutura para processamento paralelo dos conteúdos arquivados.
Periodicamente a Web portuguesa é recolhida e armazenada para preservação futura. Esta informação constitui um importante recurso para investigação em diversas áreas científicas, como por exemplo, História, Sociologia ou Linguística. Porém, é necessário disponibilizar mecanismos que permitam o processamento da grande quantidade de informação arquivada, o que poderá requerer recursos aos quais os investigadores não têm acesso.
A FCCN tem como objectivo disponibilizar uma infra-estrutura para processamento paralelo dos conteúdos arquivados à comunidade científica nacional. O projecto permitirá que investigadores executem os seus programas sobre a informação arquivada usando em paralelo as suas máquinas e o grupo de máquinas do AWP. O sistema informático a desenvolver para este fim tem o nome de GAppA (Grid Appliance para o Arquivo) e permitirá de uma forma relativamente simples:
- Disponibilizar à comunidade cientifica os dados arquivados e infra-estrutura de computação existente no AWP;
- Estender a capacidade de processamento do grupo de computadores do AWP através da adesão de computadores externos independentemente da sua localização física, estimulando assim a colaboração entre instituições.
A adesão de um computador externo ao AWP deverá ser feita facilmente através da instalação de uma aplicação cliente. Deverão ser utilizadas tecnologias que escondam a complexidade subjacente e que provoquem o mínimo de intrusão possível no sistema anfitrião.
Por outro lado, o GAppA terá de garantir que esta adesão ao grupo de computadores do AWP e a execução de tarefas será realizada em condições de segurança que não comprometam a integridade dos conteúdos arquivados e da infra-estrutura subjacente.
O Arquivo da Web Portuguesa utiliza o Hadoop para processar os conteúdos recolhidos da web. O principal objectivo do GAppA é permitir que o grupo de nós de processamento do Hadoop existente no AWP possa executar tarefas em cooperação com máquinas existentes noutras infra-estruturas, podendo estas ser até computadores pessoais. Tecnicamente, pretendem-se aplicar técnicas de virtualização de sistemas e overlays de virtualização de rede para atingir este fim.
Os projectos de investigação IPOP Grid Appliance desenvolvido pelo Advanced Computing and Information Systems Laboratory da Universidade da Florida e Hadoop On Demand suportado pela Apache Software Foundation apresentam afinidades com os requisitos apresentados para o GAppa, pelo que poderão constituir um preciosa plataforma tecnológica para o desenvolvimento do projecto.