GRITO

Logotipo do Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

Inesc-ID - Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento em Lisboa  

GRITO - Uma Grid para preservação

Outros participantes: Associação para o Desenvolvimento das Telecomunicações e Técnicas de Informática (ADETTI), Instituto de Engenharia Electrónica e Telemática de Aveiro (IEETA/UA), Intraneia - Sistemas de Informação, Lda.

Investigador responsável: José Luis Brinquete Borbinha

Duração: 2007-06-15 a 2010-06-14

Financiamento: 140.000 €

Uma data grid é uma infra-estrutura de software que dá suporte ao acesso a dados no contexto de infra-estruturas grid.

Neste projecto propomos construir uma data grid para a preservação digital que possa ser usada por qualquer organização com objectivos de manter a integridade dos dados por um tempo vasto. Exemplos destas entidades incluem bibliotecas universitárias ou públicas, organizações sem fins lucrativos, etc.

O objectivo da preservação digital é assegurar que a informação esteja acessível por um período de tempo vasto, sendo necessário tratar este problema a três níveis:

- Físico – relacionado com o armazenamento dos objectos na presença de falhas nos dispositivos de armazenamento.
- Lógico – necessidade de compreender as estruturas de dados dos objectos ao longo do tempo.
- Intelectual – relevante quando os objectos têm requisitos de processamento específicos que se possam sofrer alterações.

Neste projecto, vamos lidar com este problema principalmente ao nível físico (com algumas soluções que atingem o nível lógico). Existem várias ameaças à preservação digital ao nível físico:

- Falhas nos componentes – incluindo falhas de hardware e software
- Catástrofes – como incêndios, terramotos, inundações, etc.
- Falha humana – utilizadores ou operadores podem apagar conteúdo acidentalmente
- Falhas nos meios de armazenagem – os discos estão sujeitos ao chamado “bit rot” (acumulação de erros).
- Obsolescência do hardware, software, e meios de armazenagem.
- Perda de contexto, como chaves de cifra.
- Falhas organizacionais e económicas – as organizações, projectos, ou grupos podem desaparecer a qualquer instante, ou ter cortes orçamentais que ponham em causa a manutenção dos dados.
- Ataques informáticos.

Em consequência destas ameaças, uma solução para o problema da preservação digital terá de usar a diversidade a vários níveis (administração, software, hardware, geografia, etc.) como fora de evitar falhas correlacionadas que conduziriam à perda de dados.

Apesar de existirem alguns projectos na área da preservação digital, normalmente estes exigem investimentos avultados em centros de dados, pessoal, ou mesmo outsourcing. Como tal estas soluções não são adequadas para pequenas e médias organizações, ou organizações que não tenham um rendimento estável (como bibliotecas públicas ou projectos de investigação).

Para estas entidades, o problema pode ser resolvido usando esforços colaborativos para montar infra-estruturas grid. No entanto, as “data grids” actuais não estão desenhadas para resolver o problema da preservação digital, por motivos como estratégias de replicação inadequadas, pressupostos imprecisos sobre os padrões de acesso, ou a falta de mecanismos básicos de preservação como a auditoria dos dados (estas limitações são discutidas em detalhe na secção “state of the art”).

Neste projecto iremos desenvolver uma nova plataforma de middleware de data grid, desenhada para a preservação digital. Apesar de apontarmos para uma plataforma de uso geral, queremos que o projecto seja orientado às aplicações, e teremos dois casos reais de utilização do sistema, no contexto da Biblioteca Nacional:

- Estruturas de dados: Este caso é ilustrado pela PORBASE, uma base de dados de bibliografias nacionais, que contém registos de 160 bibliotecas do país, incluindo bibliotecas de universidades.
- Objectos digitais: Este caso considerará objectos heterogéneos comuns em bibliotecas digitais, nomeadamente o caso das obras da Biblioteca Nacional, que neste perfazem mais de 40 TB de informação, e da biblioteca digital da Universidade de Aveiro.

Um dos aspectos inovadores desta proposta é integrar dois cenários de armazenamento:

- Grids exclusivamente preservação: Este cenário consiste de máquinas dedicadas à data grid, normalmente sob controlo do dono dos dados (e.g., a Biblioteca Nacional).

- Grids estendidas para a preservação: Os clusters grids existentes podem ser aproveitados para a preservação, utilizando os seus recursos excedentários.

Estes cenários podem ser desenvolvidos independentemente, mas a mais-valia do GRITO será a sua integração. Para tal, lançaremos inicialmente grids estendidas nas grids do INESC-ID, IST, ADETTI, e Universidade de Aveiro, incluindo a GridPT, um projecto aprovado pela FCT integrado na Rede Nacional de Geofísica com um orçamento de 500K euros, onde a FCUL, ADETTI, e o Instituto de Meteorologia são parceiros. A ADETTI servirá como ligação. Iremos também criar um novo cluster para uma grid exclusiva na Biblioteca Nacional (usando hardware existente e a adquirir). Finalmente, integraremos estes dois tipos de grids.