WebClass:Classificação automática de conteúdos web arquivados (em desenvolvimento)
O WebClass é um sistema informático para classificação automática de conteúdos web arquivados.
Periodicamente a web portuguesa é recolhida e armazenada para preservação futura. Esta grande quantidade de dados requer mecanismos que permitam aceder à informação, restringir o espaço de procura e extrair documentos relevantes.
A classificação de documentos contribui para responder a estas necessidades, permitindo navegar hierarquicamente por uma árvore de classes onde os documentos se encontrem agrupados. Os directórios de pesquisa Yahoo e Dmoz são exemplos deste paradigma, permitindo pesquisar informação de uma forma alternativa aos motores de busca, agrupando conteúdos por classe e oferecendo assim um cenário de navegação pela informação.
O objectivo do WebClass é criar um sistema automático de classificação de documentos web armazenados ao longo do tempo no Arquivo da Web Portuguesa. A classificação será feita por classe e sub-classe, identificando o assunto que o documento descreve (ex. desporto, futebol, política, economia). Desta forma, será possível pesquisar no Arquivo vários documentos pertencentes a um determinada classe.
Esta classificação permitirá também ajudar a desambiguar pesquisas por termo realizadas sobre o Arquivo. Por exemplo, um utilizador deseja encontrar informação acerca do jogador de futebol conhecido por "Figo" e faz uma pesquisa por esta palavra. Porém, o sistema de pesquisa poderia apresentar entre os resultados páginas contendo a palavra pesquisada referenciando o jogador de futebol "Luis Figo" ou o fruto "figo". Mas se o utilizador pesquisar por "Figo" seleccionando a classe desporto, então o sistema de pesquisa poderá retornar com maior exactidão as páginas desejadas pelo utilizador.
Um aspecto particular num arquivo da web é que uma página pode sofrer evoluções ao longo do tempo e assim sendo, as classes atribuídas poderão também evoluir.
O WebClass será implementado na linguagem JAVA sobre a tecnologia Hadoop, uma implementação de código-aberto gratuita do paradigma de programação MapReduce desenvolvido pelo Google. Esta tecnologia permite distribuir e paralelizar processamento por clusters com milhares de processadores, sobre quantidades de dados na ordem de grandeza dos Petabytes. Esta escalabilidade é atingida com reduzido esforço para o programador e está actualmente a ser utilizada pelo Yahoo em mais de 10.000 máquinas, para diversos estudos e tarefas, inclusive na indexação de toda a web para o seu motor de busca.