Funcionamento de um motor de busca
Genericamente, um motor de busca é composto
por 5 componentes.
- Batedores: descobrem
e recolhem automáticamente conteúdos da web;
- Repositório: armazena as páginas recolhidas;
- Indexador: extrai as palavras das páginas armazenadas
e cria índices
para acelerar as pesquisas;
- Ordenador: ordena as páginas que contenham os
termos pesquisados por um utilizador de modo a que as mais relevantes
sejam apresentadas nos primeiros lugares;
- Apresentador: gere a interface de utilização
do motor de busca.
Quando se cria uma página deve-se ter presente que esta
terá de passar por várias fases de processamento antes
que possa ser apresentada nos resultados de um motor de busca. Se
a sua página não for processada correctamente em alguma
destas fases poderá ser excluída dos resultados dos
motores de busca.
Recolha
A partir de um conjunto inicial de URLs (raizes),
os batedores do motor de busca iniciam uma recolha da web. O processo
baseia-se em repetidamente recolher uma página, extrair os
links para outras páginas e inseri-los para serem recolhidos.
Para garantir que as suas páginas são recolhidas
é importante que efectue as submeta
nos motores de busca. Apenas é necessário submeter
a página de entrada
do seu site, uma vez que os batedores encontrarão as restantes
seguindo os links. Mesmo que decida submeter várias páginas
do seu site, é muito provável que os motores de busca
utilizem apenas a página de entrada como raíz, uma
vez que um número muito grande de raizes dificulta o funcionamento
dos batedores. Os motores de busca recolhem a web periodicamente.
Por isso, após submeter a sua página terá de
esperar algum tempo, poderão ser meses, até que ela
seja recolhida e possa constar nos resultados do motor de busca.
O tempo de espera varia consoante os motores de busca.
Por outro lado, mesmo que não submeta a sua página
é possível que esta seja encontrada pelos batedores
ao seguirem os links de outras páginas para a sua. Se não
quiser que algumas das suas páginas sejam recolhidas por
motores de busca utilize o Robots
Exclusion Protocol ou a
meta-tag ROBOTS.
Se o seu site contiver páginas que gerem spider
traps, contendo por exemplo calendários online ou identificadores
de sessão embutidos nos URLs, ao proibir a recolha destas
páginas está a ajudar os motores de busca. Os motores
de busca ao detectarem que um site contem uma spider trap podem
considerá-lo hóstil e banirem-no das suas recolhas
futuras.
Se as suas páginas não forem recolhidas, não
poderão constar nos resultados de um motor de busca. Para
garantir o sucesso da recolha é muito importante que cada
uma das suas páginas seja referida por um URL único
e que os links contidos nas páginas sejam facilmente extraídos.
Os batedores têm dificuldade em extrair links de páginas
que tenham sido criados utilizando as tecnologias
Javascript ou Flash.
Armazenamento
Após a recolha ter terminado, toda a informação
recolhida da web fica armazenada no repositório.
Os motores de busca têm de armazenar uma grande quantidade
de informação recolhida da web para que possa ser
posteriormente processada. Considerando a dimensão da web,
todo o espaço é pouco, por isso o repositório
comprime as páginas da web para poupar espaço.
É importante que as suas páginas
não sejam demasiado grandes, pois poderão ser
excluídas do repositório ou parcialmente cortadas.
O repositório suporta a funcionalidade de cache
dos motores de busca, disponibilizando as páginas armazenadas
mesmo que estas já não estejam online.
Indexação
e ordenação
O indexador extrai as palavras contidas nas páginas armazenadas
e constrói índices
invertidos que irão permitir efectuar pesquisas rápidas.
Se o indexador não conseguir extrair correctamente o texto
de uma página, esta dificilmente constará nos resultados
de uma pesquisa. Os
indexadores têm dificuldade em extrair textos publicados como
imagens, utilizando tecnologias como JavaScript, Flash ou outros
formatos proprietários. Alguns motores de busca, consideram
que o texto das âncoras
dos links é descritivo das página apontadas. Assim
sendo, conseguem obter alguns termos que descrevem o conteúdo
de páginas, das quais não foi possível extrair
qualquer texto. Quando estas páginas são retornadas
como resultados de pesquisas, o excerto
da página não aparece.
Num índice invertido, para cada palavra existe uma lista
das páginas (URLs) onde esta ocorre. O problema é
que na web cada palavra ocorre em milhões de páginas
diferentes e efectuar pesquisas exaustivas sobre listas deste tamanho
tornaria as pesquisas muito lentas.
A solução passa por fazer com que as páginas
mais importantes estejam no inicio das listas. Assim sendo, podem-se
pesquisar apenas as primeiras páginas de uma lista sem reduzir
a qualidade dos resultados. Existem várias maneiras de calcular
a importância de uma página, por exemplo:
- Frequência de termos:
as páginas mais importantes para uma palavra são
as que a repetem mais vezes no texto;
- PageRank: é um
algoritmo matemático em que as páginas mais importantes
são as que recebem o maior número de links ou links
das páginas mais importantes;
- Número de links: as páginas mais importantes são
as que recebem o maior número de links;
- tf-idf: calcula
a importância da página combinando a frequência
de um termo com a importância desse termo no conjunto de
todas as páginas armazenadas;
- Estrutura da página: a importância de uma página
é dada pela localização de um termo na sua
estrutura. Por exemplo, as páginas mais importantes são
as que contêm o termo no titulo;
- Análise de URLs: as páginas mais importantes são
as que contêm os termos no URL que as refere.
Na prática, os algoritmos usados para determinar a importância
de uma página combinam várias aproximações
e variam frequentemente para evitarem manipulação
de resultados por parte dos spammers. Os algoritmo de ordenação
são um dos pontos chave do negócio dos motores de
busca, por isso são mantidos secretos.
Conhecendo as várias técnicas existentes é
possível criar páginas
optimizadas para os motores de busca, mas o principal factor
de sucesso de uma página é que disponibilize informação
útil.
Se uma das suas páginas for importante, tenha cuidado em
manter o URL dessa página. Se alterar o URL da página,
todos os links de outros sites para a sua página ficarão
quebrados e uma vez que o número de links recebidos é
uma das métricas de importância de uma página,
esta perderá importância.
Preserve os URLs das suas páginas.
Apresentação
O apresentador recebe os termos pesquisados pelos utilizadores,
acede à informação dos índices e apresenta
os resultados da pesquisa na forma de links para as páginas.
No entanto, o motor de busca poderá estar a ser acedido através
de um dispositivo com capacidades limitadas, como por exemplo um
telemóvel, por isso certifique-se de que a sua página
apresenta características que permitam ser facilmente acedidas
em vários contextos de utilização.
É inútil que a sua página conste nos resultados
de um motor de busca se os seus utilizadores não conseguirem
visitá-la.
Bibliografia
Recolha
Armazenamento
Indexação e ordenação
Motores de busca
Janeiro, 2007
/Daniel Gomes
|