Formatos adequados para preservação
Para que os conteúdos de um sítio web possam ser preservados para o futuro, é aconselhável a publicação de conteúdos usando formatos adequados.
Lista de formatos
Os formatos são agrupados em 3 níveis: Alta, Média e Baixa adequação para preservação de:
O que são formatos adequados?
Não se sabe quais serão os formatos usados no futuro. No entanto, analisando as características dos formatos do presente é possível identificar quais são os que têm maior probabilidade de preservação para o futuro.
Sempre que possível, deverão ser usados formatos adequados para preservação ou publicadas versões alternativas dos conteúdos usando estes formatos. Um formato adequado para preservação é:
- Isento de direitos legais que restrinjam a sua utilização;
- Uma norma emitida por um organismo oficial (ex. W3C);
- Documentado abertamente através de uma especificação pública e livre;
- Amplamente usado;
- Lido e escrito por múltiplas plataformas de software, incluindo código-aberto;
- Não comprimido ou comprimido sem perdas de informação.
Por antítese, um formato com fracas características de preservação é:
- Proprietário e de especificação fechada;
- Pouco usado;
- Lido e escrito através de poucas plataformas de software de código-fechado;
- Comprimido, tendo havido perda de informação durante o processo de compressão;
- Composto por elementos embebidos como por exemplo macros.
A seguinte lista facilita a escolha de formatos de acordo com as suas potencialidades de preservação para o futuro.
Texto
Alta adequação para preservação
- HTML, XHTML ou XML, contendo referência para o DTD ou esquema de validação de formato (.html, .xhtml, .xml)
- Textos planos usando codificação de caracteres UTF-8, USASCII ou UTF-16 com Byte Order Mark (.txt)
- PDF/A-1 segundo a norma ISO 19005-1 (.pdf)
- Open Document Text (.odt)
Média adequação para preservação
- HTML, XHTML ou XML, sem referência para o DTD ou esquema de validação de formato (.html, .xhtml, .xml)
- Cascading Style Sheets (.css)
- Texto plano com codificação de caracteres em ISO-8859-1 (.txt)
- PDF com fontes embebidas (.pdf)
- Rich Text Format 1.x (.rtf)
- HTML 4.x incluindo declaração de DOCTYPE (.html)
- Open Office Text Document (.sxw)
- Office Open XML (.docx)
- DTD (.dtd)
- SGML (.sgml)
Baixa adequação para preservação
- Microsoft Word (.doc)
- Postscript (.ps)
- PDF cifrado (.pdf)
- WordPerfect (.wpd)
- DVI (.dvi)
Imagem
Alta adequação para preservação
- PNG (.png)
- JPEG2000 usando compressão sem perda de informação (.jp2)
- TIFF sem compressão
- SVG (.svg)
Média adequação para preservação
- JPEG2000 usando compressão com perdas de informação (.jp2)
- GIF (.gif)
- JPEG/JFIF (.jpg)
- TIFF com compressão
- BMP (.bmp)
- Digital Negative (.dng)
- Computer Graphic Metafile e WebCGM (.cgm)
Baixa adequação para preservação
- Macromedia Flash (*.swf)
- PhotoShop (.psd)
- JPEG 2000 Part 2 (.jpf, .jpx)
- MrSID (.sid)
- TIFF em formato Planar (.tiff)
- FlashPix (.fpx)
- RAW
- Encapsulated Postscript (.eps)
Áudio
Alta adequação para preservação
- AIFF com Pulse-code modulation (.aif, .aiff)
- WAV com Pulse-code modulation (.wav, bwf)
- Ogg Vorbis (.ogg, .oga)
Média adequação para preservação
- MP3 (MPEG-1/2, Layer 3) (.mp3)
- Free Lossless Audio Codec (.flac)
- SUN Audio sem compressão (.au)
- Standard MIDI (.mid, midi)
- Advance Audio Coding (.mp4, .m4a, .aac)
Baixa adequação para preservação
- RealNetworks 'Real Audio' (.ra, .rm, .ram)
- Windows Media Audio (.wma)
- WAV com compressão (.wav)
- AIFC com compressão (.aifc)
- NeXT SND(.snd)
Vídeo
Alta adequação para preservação
- QuickTime Movie sem compressão (.mov)
- AVI sem compressão (.avi)
- Motion JPEG 2000 (ISO/IEC 15444-4) (mj2)
- Motion JPEG (.avi, .mov)
Média adequação para preservação
- MPEG-1,MPEG-2 (.mpg, .mpeg)
- MPEG-4 (.mp4)
- Ogg Theora (.ogg, .ogm, .ogv)
Baixa adequação para preservação
- Windows Media Video (.wmv)
- AVI com compressão (.avi)
- QuickTime Movie com compressão (.mov)
- RealNetworks 'Real Video' (.rv, .rm)
Outros formatos
Alta adequação para preservação
- Comma Separated Values (.csv)
- SQL DDL
Média adequação para preservação
- OpenOffice (.sxc/.ods, .sxi/.odp))
- OOXML segundo a norma ISO/IEC DIS 29500 (.xlsx, .pptx)
Baixa adequação para preservação
- Microsoft Excel (.xls)
- Microsoft PowerPoint (.ppt)
- Microsoft Access (.mdb)
- Microsoft Visio(.vsd)
A classificação para alguns dos formatos apresentados anteriormente não reúne concenso na comunidade científica. Para uma análise mais aprofundada recomenda-se a análise da bibliografia.
Bibliografia
- Miguel Ferreira, Introdução à preservação digital, 2006.
- Florida Digital Archive, Recommended Data Formats for Preservation Purposes in the Florida Digital Archive, 2008.
- IDEALS Illinois Digital Environment for Access to Learning and Scholarship, IDEALS Digital Preservation: Current Status and Future Directions, (matriz de formatos), 2006.
- Smithsonian Institution Archives, Recommendations for converting original to preservation formats, 2004.
- Sunita Barve, File Formats in Digital Preservation, 2007.
- The National Archives, Digital Preservation Guidance Note 1: Selecting file formats for long-term preservation, 2008.
- Library of Congress, Introduction to Digital Formats for Library of Congress Collections, 2007.
- Steen S. Christensen, Archival data format requirements, 2004.