středa 29. června 2016

Máme vůbec chtít normalizovat PDF do PDF/A 1a?

Asi jste si všimli, že i v České republice platí nařízení, podle kterého jsou pro archivaci v Národní digitálním archivu vyžadovány objekty ve formátu PDF/A  úrovně 1a. 

Existuje Usnesení vlády ČR ze dne 3. listopadu 2008 č. 1338, které podepsal ještě premiér Topolánek, kde se píše: 
.............
I . s c h v a l u j e jako výstupní datový formát statických dokumentů v digitální podobě ze systémů spisové služby vykonávaných elektronickou formou za použití výpočetní techniky a jako datový formát statických dokumentů v digitální podobě připravovaných pro předání do Národního digitálního archivu 
1. formát PDF/A-1a (ISO 19005-1 – Portable Document Format – Electronic document file format for long-term preservation) pro statické textové, obrazové a kombinované dokumenty v digitální podobě, 

2. formáty PNG (ISO/IEC 15948:2004 – Portable Network Graphics) a TIFF (Tagged Image File Format – revize 6 – nekomprimovaný) pro statické obrazové dokumenty v digitální podobě;

--------------

Tohle je sice nařízení týkající se elektronických spisových služeb, ale v praxi má takové doporučení Národního archivu (mj. vyjádřené například také ve studii proveditelnosti NDA, ZD na NDA a jinde) dalekosáhlý dopad i na další projekty, knihovny, akademické instituce. 

Odhlédněme teď od problému, že Usnesení vlády ani žádný další předpis pokud vím neříká, co vlastně je PDF/A 1a - jak ho poznáme - čili, jak technicky prokázat, že nějaký objekt je validní reprezentací PDF/A 1a.  V tomhle bude jistě brzy jasněji, a online dostupný validátor PDF/A na webu NDA bude doplněn v polovině dalšího roku o validátor VeraPDF, kterýžto se v ideálním případě stane etalonem pro firmy produkující nástroje pro validaci, konverzi a produkci PDF. 

Tím ale nejasnosti nekončí. Zásadní požadavky na PDF/A 1a jsou:  
 • dokument musí obsahovat fonty se znaky v unicode (resp. znaky musí mít mapování na unicode) 
 • dokument musí být "tagovaný", tj. musí obsahovat popis všech komponentů (průběžné hlavicky stránek, čísla stránek) a hlavně vyjádření logické struktury. 
Zajímavý text na tohle téma na webu Ghostscriptu http://ghostscript.com/FAQ.html k tomu ale uvádí, že není v silách jakéhokoli obecného konvertoru PDF rozeznat v dokumentu poznámky pod čarou nebo nadpisy a korektně je označit, ba ani nemusí být schopen z dokumentu získat a vytvořit správnou logickou strukturu jednotlivých elementů, tak aby bylo zachováno autorem zamýšlené pořadí čtení.  
A dál citují standard PDF, kde se píše:
"PDF/A-1 writers should not add structural or semantic information that is not explicitly or implicitly present in the source material solely for the purpose of achieving conformance." ... "It is inadvisable for writers to generate structural or semantic information using automated processes without appropriate verification."
Jinými slovy, automaticky z PDF PDF/A 1a dělat nemáme. Podobně se standard PDF vyjadřuje k automatickému převodu/mapování znaků na unicode.

Co si z toho teď odnést? 
 • pokud máme velkou sbírku existujících PDF a chtěli bychom je ochránit, asi bychom se měli spokojit s PDF/A 1b
 • pokud už dokument PDF tagovaný je (jak to poznáme - viz dole k VeraPDF) a je ve fontech mapovaných na unicode, asi je šance, že se nám podaří vytvořit honest PDF/A 1a. Do PDF/A -1a ale nemůžeme s klidným srdcem (automaticky a bez asistence tvůrce dokumentu) dostat nic, co neobsahuje tagování a mapování na unicode
 • pokud nám nějaký nástroj poskytuje brute force konverzi do PDF/A 1a, měli bychom si být vědomi toho, že jde o "formální konverzi pro dosažení validace." Takový objekt projde validátory, ale je možné, že aby konverzí do PDF/A 1a prošel, bylo třeba něco oželet (některé znaky nemusí být ok, tak je prostě přeskočil), a struktura a tagování nevyjadřují - možná -záměry tvůrce dokumentu.
 • formálně vytvořený PDF/A 1a zkrátka nezaručí to, co PDF/A 1a zaručit má 
Komentář ve FAQ Ghostscriptu končí větou: For these reasons, at present we have no plans to implement PDF/A1-a in pdfwrite. Což je myslím docela výmluvné.

Jak tady může pomoci VeraPDF (díky Elišce) 
VeraPDF lze pustit i na soubory, které nejsou PDF/A 1a, a lze tak zjistit, jak daleko od standardu soubory jsou. Z výstupu extrakce VeraPDF poznáme přesně, kde se objekt od standardu PDF/A 1a liší:

A podmínky jsou pak vidět na githubu v seznamu pravidel:

K tomu směřovala krátká debata na semináři k VeraPDF v Praze na Pasigu. Teoreticky by archiv mohl být spokojen i se "skoro PDF/A 1a." Vytvoří si vlastní validační profil, který bude méně přísný něž striktní PDF/A 1a, a bude přijímat i objekty se známými chybami - například ty, které nejsou v RGB, nebo jim pouze chybí deklarace shody s PDF/A 1a (https://github.com/veraPDF/veraPDF-validation-profiles/wiki/PDFA-Part-1-rules#rule-6711-3) i když jinak se s PDF/A 1a shodují....

úterý 28. června 2016

RODA 2.0 v docker toolbox na hraní za 10 minut


Archivační systém RODA, který vyvíjí firma KEEP SOLUTIONS v Portugalsku, a který je dostupný pod LGPL licencí , se blíží k finální verzi 2.0. Poměrně rychle si lze nainstalovat Docker Toolbox a během pár minut demo běží.

https://github.com/keeps/roda#demo-mode-based-on-docker-containers


úterý 21. června 2016

Kde jsou dnes uživatelé Rosetty?

Na webu jsou prezentace z Rosetta Advisory Group. Je z toho pěkně vidět, kde se dnes tahle komunita pohybuje a jaké problémy řeší:
http://knowledge.exlibrisgroup.com/Rosetta/Product_Materials/Rosetta_Advisory_Group_Meetings/RAG_2016

Zvlášť zajímavá je prezentace jednoho z vývojářů o škálovatelnosti a výkonu ingestu, což je asi věc, kterou velké instituce s masívními sbírkami docela řeší - jak dostat pod kontrolu v systému DAM petabyty dat...pěkné jsou přiložené HW konfigurace implementací Rosetty ve třech větších institucích.

http://knowledge.exlibrisgroup.com/@api/deki/files/42494/Ingesting_and_Managing_Digital_Content_at_Scale_-_Josh_Weisman%2C_EXL.pdfčtvrtek 16. června 2016

Kde je dnes Norská národní knihovna?

OPF zveřejnila informaci o tom, že Norská národní knihovna se stala dalším členem konzorcia OPF. Krátké představení činnosti Norské národní knihovny v oblasti dlouhodobého ukládání digitálních dat stojí za ocitování.

Norská národní knihovna shromažďuje všechny typy médií publikované v Norsku, včetně rozhlasových a televizních pořadů, filmů, hudby a norské části Internetu. Během příštích 20-30 let má v plánu zdigitalizovat kompletně všechny své sbírky. Již bylo digitalizováno 90% všech knih publikovaných v Norsku, 30% všech novin a téměř 100% všech rozhlasových programů z největší a nejstarší rozhlasové stanice v Norsku.

V lednu 2016 byl revidován zákon o povinném výtisku,  který umožňuje národní knihovně sklízet celý obsah webu na národní doméně, a zavádí povinný výtisk digitálních předloh všech tištěných publikací. Pro Norskou národní knihovnu je systém pro důvěryhodné uchovávání digitálních dat klíčový; spravuje 5,2 PB unikátních dat,  ročně přibývá 1PB.  Cílem knihovny je uchování těchto dat v horizontu 1000 let. 

Wow!

středa 15. června 2016

Dlouhodobá archivace transakčních dat - DPC Technology Watch report

Preserving Transactional Data, Sara Day Thomson, 2016
http://dx.doi.org/10.7207/twr16-02

Velmi zajímavý text. Nejde jen o transakční data ve smyslu nějakých obchodních dat, dat o pohybech zboží, peněz, objednávkách, fakturách apod, ale o transakční data v širším smyslu, o jakákoli data generovaná v interakci s databází, třeba data administrativní povahy. Jak taková data spravovat dlouhodobě především pro účely vědeckého výzkumu a trvalého ukládání v archivech, a jak s nimi pracovat legálně? 

Mluví se tu o big data, o problematice archivace a re-use živých dat a databází, o tom, jak může být komplikované taková data získat a smysluplně použít k archivaci, protože jsou součástí širšího aplikačního prostředí a kontextu, jsou předmětem zákonných regulací týkajících se copyrightu, ochrany soukromí a bezpečnosti, nebo protože mohou vypadat jinak z různých access pointů...a nemusí být tedy jasné co je "autentická reprezentace" nebo "significant preperty", které by archiv měl uchovat. 

Tenhle typ dat nabourává tradiční představy archivů o tom, jak má vypadat archivovaný objekt. Tady už není nějaký dokument nebo spis, ale jen neustále se měnící záznamy v nějakých systémech a kontextech. Statický snapshot nemusí být vůbec snadné použít.....v této podobě uniká archivům stále více informací, které by mohly být pro budoucí badatele zajímavé. 

Jen pro inspiraci, par odkazů, které nemůžu nezapsat: 
Validator für TIFF-, SIARD-, PDF/A-, JP2- und JPEG-Dateien sowie SIPs (KOST-Val) -http://kost-ceco.ch/cms/index.php?kost_val_deDeepArc (BNF projekt transform relational database content into XML for archiving purposes)  - https://sourceforge.net/projects/deeparc/
Database preservation toolkithttp://www.database-preservation.com/


úterý 14. června 2016

A DIGITAL DARK NOW? Digital information loss at three archives in Sweden

Docela zajímavá diplomka ze Švédska. 


Autoři (sic! dva autoři jedné diplomky, švédové jsou ve všem napřed, na konci diplomky prostě jen vysvětlují kdo co dělal a proč psali spolu) provedli několik rozhovorů ve třech archivech. Ptali se na to, jak je dlouhodobá archivace digitálních dat organizována, jak se vlastně archivy s digitálními daty potýkají a kde jsou rizika. Jejich respondenti nebyli z většinou z IT oddělení, ale spíš archiváři.

Jedním z hlavních zjištění je, že různé archivy jsou ve zcela jiné situaci a co je problém v jednom, není problém v jiném: 

"In conclusion it can be stated that potential and actual information losses occur in many different ways. What is entirely unproblematic for one archive might constitute a great challenge for another. Examples of this include changes in format. At Archive B, these pose no threat, as this archive has the ability to affect the formats information is produced in. The situation is dramatically different at Archive C, where format changes are one of the absolute greatest challenges they have to overcome. Another example is that Archive B does not experience funding as a limitation in their preservation work, while Archive C is so hindered by it that they no longer feel that they truly preserve their material. ...."

Zajímavá je také klasifikace rizik, kde je zdůrazněno třeba používání postupů neadekvátních digitálním datům, "analogový přístup" k digitálním informacím. 
The reasons behind such actual and potential information loss were

 • Human error during the production of information 
 • An analog understanding and treatment of digital information 
 • A lack of organizational structure and strategies for digital preservation 
 • Lack of resources 
 • Technological limitations 
 • Lack of competencies amongst staff who produce digital informationčtvrtek 9. června 2016

Into the future - po 20 letech

Říká se, že to nejhorší, co můžete udělat svojí oblíbené knize, je přečíst si ji znovu po 20 letech. Tak si zkusme podobný experiment a podívejme se po 20 letech na film Into the future: On the preservation of knowledge in the electronic age z roku 1997.

Bizarní je, že se nedá sehnat celý online, zato se dá pořád koupit za 64USD (i poštovným) na VHSce: http://www.americanfilmfoundation.com/order/into_the_future.shtml

I ty kousky, které na webu najdeme, stoji určitě za shlédnutí. A popravdě řečeno, mě nepřipadá, že by se toho od roku 1997 tak moc změnilo. Jasně, média, notebooky, monitory a lidí vypadají komicky, ale problém zůstává a řešení nemáme, tak nějak stojíme i konceptuálně na místě...
 • Kdo si ještě dnes vzpomene, na hořící knihovnu v Sarajevu v roce 1992? Kde jsou asi teď asi data z pásek ze sond Viking (10 min a dále - velmi pěkný záběr - a "magnetic tape is just a disaster for an archiving storage media"- Planetary data systems). 
 • A Jeff Rothernerg: "The problem with preservation is one which archivists and librarians think about, because that’s their business, unfortunately computer science as a field has not put very much interest into this problem....it has a mindset that says, we are in a business of charging ahead into the future and dropping the past behind us and not carrying the baggage of old obsolete systems, people are more interested in what’s the new paradigm, how we going to create new exciting hypermedia with." a ve třetí části "My feeling is, we really cannot go back [to paper]...we have to admit that our documents will be digital in the future, but we have to address this problem of how they are going to remain readable and intepreterable..."
 • Ve třetí části stojí zato záběry z pohřebiště HW nebo záběry z data recovery lab...
 • Ve čtvrté části Jeff mluví o archivaci webu....škoda, že to není celéInto the Future: On the Preservation of... by kevinglick


Into the Future: On the Preservation of... by kevinglick


Into the Future: On the Preservation of... by kevinglick


Into the Future: On the Preservation of... by kevinglick

čtvrtek 2. června 2016

Identifikace kontejnerových formátů pomocí DROID

Ross Spencer publikuje pravidelně na svém blogu zajímavé příspěvky týkající se dlouhodobé archivace. Za přečtení určitě stojí jeho příspěvek z letošního ledna, který se týká problematiky identifikace kontejnerových formátů.

http://openpreservation.org/blog/2016/01/07/droid-container-signature-files-what-they-are-and-how-to-create-them-a-template-and-an-example-or-few/

Cílem toho příspěvku bylo primárně popsat, jak vytvořit signatures (magic numbers) pro nějaký nepopsaný souborový formát a dodat do Pronomu. Popis mechanismu identifikace kontejnerových formátů (zavedený do DROID ve verzi 6) je ale užitečné si přečíst, i pokud takové ambice nemáte.

Kontejnerové signatures publikuje Pronom zde: http://www.nationalarchives.gov.uk/aboutapps/pronom/droid-signature-files.htm
a Ross vysvětluje, jak jsou spolu tradiční formátové signatures a kontejnerové signatures provázány a jaký je postup identikace.

Především archivy, které pracují v různorodým sbírkami digital born dokumentů, by měly věnovat identifikaci formátů věnovat pozornost a tam kontejnerové formáty identifikovat pomocí odpovídajících signatures.

Vedle DROIDu existují dnes i další nástroje, které někdy používají data z Pronomu (FIDO) nebo umožňují používat zdrojů signatures víc, jako Siegfried.