WebClass:Classificação automática de conteúdos web arquivados (em desenvolvimento)

O WebClass é um sistema informático para classificação automática de conteúdos web arquivados.

Periodicamente a web portuguesa é recolhida e armazenada para preservação futura. Esta grande quantidade de dados requer mecanismos que permitam aceder à informação, restringir o espaço de procura e extrair documentos relevantes.

A classificação de documentos contribui para responder a estas necessidades, permitindo navegar hierarquicamente por uma árvore de classes onde os documentos se encontrem agrupados. Os directórios de pesquisa Yahoo e Dmoz são exemplos deste paradigma, permitindo pesquisar informação de uma forma alternativa aos motores de busca, agrupando conteúdos por classe e oferecendo assim um cenário de navegação pela informação.

O objectivo do WebClass é criar um sistema automático de classificação de documentos web armazenados ao longo do tempo no Arquivo da Web Portuguesa. A classificação será feita por classe e sub-classe, identificando o assunto que o documento descreve (ex. desporto, futebol, política, economia). Desta forma, será possível pesquisar no Arquivo vários documentos pertencentes a um determinada classe.

Esta classificação permitirá também ajudar a desambiguar pesquisas por termo realizadas sobre o Arquivo. Por exemplo, um utilizador deseja encontrar informação acerca do jogador de futebol conhecido por "Figo" e faz uma pesquisa por esta palavra. Porém, o sistema de pesquisa poderia apresentar entre os resultados páginas contendo a palavra pesquisada referenciando o jogador de futebol "Luis Figo" ou o fruto "figo". Mas se o utilizador pesquisar por "Figo" seleccionando a classe desporto, então o sistema de pesquisa poderá retornar com maior exactidão as páginas desejadas pelo utilizador.

Um aspecto particular num arquivo da web é que uma página pode sofrer evoluções ao longo do tempo e assim sendo, as classes atribuídas poderão também evoluir.

O WebClass será implementado na linguagem JAVA sobre a tecnologia Hadoop, uma implementação de código-aberto gratuita do paradigma de programação MapReduce desenvolvido pelo Google. Esta tecnologia permite distribuir e paralelizar processamento por clusters com milhares de processadores, sobre quantidades de dados na ordem de grandeza dos Petabytes. Esta escalabilidade é atingida com reduzido esforço para o programador e está actualmente a ser utilizada pelo Yahoo em mais de 10.000 máquinas, para diversos estudos e tarefas, inclusive na indexação de toda a web para o seu motor de busca.

Share | |

Sections

Personal tools

WebClass:Classificação automática de conteúdos web arquivados (em desenvolvimento)