Data de publicação correctamente identificada
Para que os conteúdos de um sítio web possam correctamente analisados, é aconselhável que data de publicação seja identificada.
A data de publicação de um conteúdo facilita a sua localização cronológica e deverá ser fornecida através de:
- Texto escrito da página: só é possível fornecer esta informação em conteúdos textuais. A data de publicação de uma página deverá ser definida pelo autor e apenas alterada no caso de mudança significativa do conteúdo. Não se aconselha o uso de scripts de geração automática de data de última modificação;
- Last-Modified, campo do cabeçalho HTTP: deve ser fornecida para qualquer tipo conteúdo.
- O campo Last-Modified é gerado a partir da data de última alteração do ficheiro. Por isso, é necessário ter o cuidado de manter a data dos ficheiros se estes forem movidos para uma nova localização;
- As páginas geradas dinamicamente (ex.: .php, .asp, .jsp) deverão também fornecer o valor para o campo Last-Modified;
- O uso de frames deverá ser evitado porque na realidade estas são constituídas por várias páginas diferentes apresentadas visualmente como uma única, o que dificulta a identificação de uma data de publicação única.
- Date and Time, campo na informação EXIF das imagens: o EXIF é um esquema de metadados para imagens que permite fornecer informações relacionadas com condições de captura ou localização geográfica da fotografia.
Para colmatar possíveis erros ou omissões de data de publicação e evitar o arquivo repetido de conteúdos previamente armazenados recomenda-se o fornecimento da seguinte informação adicional:
- Content-Length, campo do cabeçalho HTTP: fornece o tamanho do conteúdo medido em número de bytes;
- ETag, campo do cabeçalho HTTP: é um código que permite identificar se a página mudou.
Para saber mais
- L. Clausen, Concerning Etags and Datestamps, 2004.
- Kristinn Sigurdsson, Incremental crawling with Heritrix, 2005.