čtvrtek 3. ledna 2013

Rizika formátu PDF

Na blogu Open Planets Foundation se objevil zajímavý příspěvek Johana van der Knijffa z holandské Královské knihovny. Upozorňuje na svoji starší práci, kde identifikoval rizika formátu PDF pro dlouhodobou archivaci:

Adobe Portable Document Format, Inventory of long-term preservation risks:
http://www.openplanetsfoundation.org/system/files/PDFInventoryPreservationRisks_0_2_0.pdf

a shrnuje svoje zkušenosti z používáním knihovny Apache Preflight (součást PDFBox) při identifikaci preservačních rizik existující sbírky PDF dokumentů. Apache Preflight je knihovna určená k validaci PDF/A, ovšem Johan ji tady používá trochu jinak. Protože zdaleka ne všechny sbírky PDF dokumentů jsou migrovány podle požadavků standardu PDF/A, Johan se snaží použít Apache Preflight k identifikaci z hlediska dlouhodobé archivace nežádoucích vlastností nearchivních PDF. Netestuje tedy zda a jak Apache Preflight validuje PDF/A, ale testuje, zda je tahle knihovna vhodným nástrojem k identifikaci vlastností, které jsou v PDF/A zakázány.

Identification of preservation risks in PDF with Apache Preflight a first impression:
http://www.openplanetsfoundation.org/system/files/pdfProfilingJvdK19122012.pdf

Jeho závěry nejsou zatím pro Apache Preflight moc optimistické. Především, pokud Apache Preflight identifikuje nějaké odchylky od požadavků PDF/A-1b, zastaví často další zpracování dokumentu, a není tedy schopen dodat kompletní report. Mnohem spolehlivější jsou zatím nástroje Acrobatu, který byl v jeho testech schopen identifikovat všechny rizikové vlastnosti PDF souborů.

Snad se Apache Preflight archivní komunita ujme, a posune jeho vývoj a testování dál. Jinak bude třeba spoléhat pouze na komerční nástroje.

A ještě malé doplnění. Existuje také starší projekt vývoje Jhove ve stejném směru, tedy k ověření kompatibility PDF se specifikací PDF/A:  https://github.com/blekinge/jhove-pdf-a