Ferramentas Pessoais
  •  
Você está aqui: Entrada Colaborar Desafios

Desafios

Quais os principais desafios com que o arquivo da web se depara.

O projecto visa a criação de um sistema de Arquivo da Web Portuguesa no prazo de dois anos, adaptando tecnologia existente e desenvolvendo nova tecnologia para satisfazer os requisitos da comunidade portuguesa. No entanto, a criação deste sistema não é simples e existem requisitos que devem ser considerados desde o início do projecto:

  • Necessidade de uma componente de investigação: a tecnologia de arquivo da web não está estabilizada. Pelo que, o desenvolvimento do sistema terá de ser complementado com uma componente de investigação que permita analisar as soluções existentes e resolver novos problemas que surjam;
  • Necessidade de continuidade: o projecto proposto tem a duração de dois anos. No entanto, o sistema será construído tendo em conta os requisitos da preservação da informação a longo prazo. O esforço imposto no desenvolvimento deste projecto será inútil se não existir um plano a longo prazo que permita a sua continuidade e preservação da informação para o futuro.

Qualquer sistema destinado a processar informação proveniente da web tem de enfrentar à partida a imprevisibilidade característica desta fonte de informação. A web é extremamente heterogénea e está em permanente mutação, pelo que, à partida é difícil fazer suposições realistas acerca das suas características. Os principais desafios que se prevê que este projecto tenha de enfrentar são: 

  • A necessidade de alterações inesperadas ao sistema para acompanhar uma súbita alteração da web. É difícil prever exactamente a evolução da web. Como tal, as estimativas iniciais podem ser ultrapassadas devido a factores externos fora de controlo. Por exemplo, nos últimos anos o aparecimento dos blogs fez disparar a quantidade de informação publicada na web;
  • As dificuldades no processamento automático de informação. A maioria das páginas da web portuguesa apresentam uma fraca qualidade técnica, desrespeitando frequentemente as especificações e os princípios elementares que regem a web. Este problema faz com que as ferramentas ou sistemas que apresentam bons resultados noutras webs, não consigam ser eficientes na web portuguesa. No entanto, os problemas de processamento automático afectam também os motores de busca que simplesmente ignoram as páginas que apresentam estes problemas. O resultado tem sido uma progressiva perda de visibilidade dos sítios web portugueses. Felizmente, os publicadores portugueses começam a estar cientes deste problema, o que no futuro poderá levar a um avanço positivo na sua resolução;
  • A dificuldade na criação de um serviço de pesquisa eficiente. Criar um motor de pesquisa sobre uma recolha da web portuguesa é uma tarefa difícil. Conseguir fazê-lo num arquivo que contenha múltiplas recolhas da web eleva este problema para um nível de complexidade ainda superior.

Contamos com a colaboração de todos neste projecto.

FCCN - Fundação para a Computação Científica Nacional POSC - Programa Operacional Sociedade do Conhecimento UMIC - Agência para a Sociedade do Conhecimento UE - União Europeia - FEDER - Fundo Europeu de Desenvolvimento Regional