Diferença entre motores de busca, directórios
e portais
Estes 3 tipos de sistema de pesquisa de informação
na web são distintos. Embora, os seus utilizadores frequentemente
os confundam porque são utilizados de modo semelhante.
Cada um destes sistemas apresenta um funcionamento
diferentes e é importante saber distingui-los para que
se possam criar páginas visiveis em todos eles.
Motores de busca
Um motor de busca periodicamente recolhe páginas
da web e constrói um novo índice
que permite efectuar pesquisas rápidas sobre esta informação.
Um motor
de busca é composto por 5 componentes principais: o crawler,
o repositório, o indexador e o ordenador.
O crawler descobre e recolhe automáticamente
conteúdos da web, seguindo os links contidos nas páginas.
Apenas os conteúdos que o crawler seja capaz de encontrar
e recolher poderão vir a constar em resultados de pesquisas
no motor de busca. Logo, é crucial escrever páginas
amigas dos crawlers.
O repositório armazena as páginas recolhidas
de modo a que possam ser indexadas e mostradas em cache.
O indexador extrai as palavras dos conteúdos
web e cria um índice invertido.
Caso não seja possível extrair correctamente as palavras
de uma página, esta dificilmente será retornada como
resultado de pesquisas.
O ordenador ordena as páginas que contenham
os termos pesquisados por um utilizador de modo a que as mais relevantes
sejam apresentadas nos primeiros lugares. As páginas que
não tenham sido escritas considerando os requisitos dos motores
de busca são relegadas para posições mais baixas
em relação a páginas
optimizadas para motores de busca.
O apresentador gere a interface de utilização
do motor de busca.
A prioridade do motor de busca é satisfazer
a necessidade de informação do seu utilizador. Os
utilizadores de um motor de busca podem sugerir sites para serem
recolhidos. No entanto, um motor de busca tem controlo absoluto
sobre quais as páginas que irá recolher e em que posição
estas serão retornadas como resposta as pesquisas efectuadas
por parte dos seus utilizadores.
Como exemplos de motores de busca temos o Google,
o AltaVista, o AllTheWeb
ou o MSN Search.
Directórios
Os serviços de directório contêm
apontadores para sites, organizados por categorias. Um webmaster
regista um link para o seu site numa categoria do directório
fornecendo também uma descrição sumária
de todo o conteúdo do site.
Embora os directórios forneçam serviços
de pesquisa, estes procuram apenas entre as descrições
dos sites, ao contrário dos motores de busca que pesquisam
sobre todos os textos de todas as páginas de um site. Pelo
que, é muito importante fornecer boas descrições
dos sites, focando os aspectos em que o site se distingue dos restantes
na mesma categoria, e mantendo-as actualizadas de modo a reflectirem
os conteúdos actuais do site.
Os directórios permitem encontrar rapidamente
listas exaustivas de links para sites sobre um determinado tema.
Além disso, a qualidade dos sites registados é verificada
pelos responsáveis pelo serviço de directório,
pelo que os links contidos em directórios atestam a qualidade
de um site. Assim sendo, os motores de busca frequentemente iniciam
as recolhas da web partindo dos links contidos nos directórios.
Ao longo do tempo muitas páginas referenciadas
pelos directórios desaparecem e é necessário
efectuar operações de manutenção para
eliminar estes links inválidos, o que muitas vezes não
é feito com a frequência necessária para garantir
a qualidade dos resultados das pesquisas. Por sua vez, os motores
de busca eliminam URLs inválidos em cada nova recolha da
web porque as páginas referenciadas não podem ser
recolhidas e como tal não serão incluidas no novo
índice. Algumas páginas desaparecem entre actualizações
e são retornadas como resultados de pesquisas. Este problema
é atenuado pela funcionalidade de cache,
que permite visualizar as páginas arquivadas pelo motor de
busca.
Na área de investigação em Recuperação
de Informação frequentemente os directórios
são usados como termo de comparação para avaliar
novos algortimos ou sistemas. Por exemplo, vamos supôr que
um investigador está a desenvolver um novo programa para
detectar páginas escritas em português. Para avaliar
a eficiência do seu sistema, o investigador usa a categoria
do directório que referencia páginas escritas em português
como termo de comparação. Os serviços de referência
actuais como o Google ou o Yahoo
começaram como projectos universitários. É
interessante garantir que as nossas páginas já constam
nos serviços do futuro.
Como exemplos de serviços de directório
temos o DMOZ, o directório
do IOL ou do Sapo.
Portais
Os portais são sites que disponibilizam links
para sites dentro de uma determinada área temática.
Ao contrário dos directórios que apresentam links
para diversas áreas temáticas consoante as categorias
seleccionadas.
Os links para outros sites são exclusivamente
geridas pelos webmasters dos portais.
Os motores de busca também utilizam os portais
como ponto de partida para as suas recolhas, principalmente se procurarem
conteúdos sobre um determinado tema.
O portal
da ACM apresenta apontadores relacionados com investigação
cientifica na área de Informática. O Sapo
disponibiliza links relacionados com Portugal. O Jocsoft
apresenta links relacionado com MP3.
Conclusão
Os motores de busca recolhem automaticamente informação
da web.
Os links contidos nos directórios são
sugeridos pelos utilizadores da web e verificados pelos editores
do directório antes de ser incluidos.
Os portais são completamente geridos pelos
seus webmasters.
Os portais e directórios muitas vezes disponibilizem
acesso a funções de pesquisa que usam os serviços
de motores de busca. No entanto, não têm controlo sobre
que informação é recolhida pelos motores de
busca.
É importante que um site seja referenciado
por todos estes serviços porque todos apresentam vantagens
especificas e quantos mais caminhos existirem para o seu site mais
fácil será encontrá-lo, aumentando a sua visibilidade.
Uma vez que a web está em permanente evolução,
a qualidade dos resultados retornados por todos estes mecanismos
de pesquisa depende da frequência com que são actualizados
e mantidos.
Janeiro, 2007
/Daniel Gomes
|