úterý 18. října 2016

Organizational Assessment Frameworks for Digital Preservation

Chtěl bych upozornit na článek, z Journal of the Association for Information Science and Technology.

Analyzuje veškeré publikace věnované hodnocení kvality v oblasti dlouhodobé archivace. Analýza vede autory k závěru, že existující nástroje/rámce pro hodnocení kvality (jako ISO 16363, DRAMBORA, TRAC, DSA a mnohé další modely, o kterých na tomto blogu píšeme) mají robustní konceptuální základy, ale jsou nedostatečně empiricky ověřovány a validovány.

Maemura, E., Moles, N. and Becker, C., 2016. Organizational Assessment Frameworks for Digital Preservation: A literature review and mapping.
http://hdl.handle.net/1807/73869

čtvrtek 13. října 2016

Několik postřehů z iPRES 2016

Jak už jsme upozorňovali, před několika dny proběhla konference iPRES je zaměřená na digitální archivaci. Účastní se jí přední odborníci z oblasti a prezentovány jsou nejnovější výsledky výzkumu i informace o vývoji zásadních projektů a nástrojů.

Program konference: http://www.ipres2016.ch/frontend/index.php?folder_id=353

Sborník: http://www.ipres2016.ch/frontend/organizers/media/iPRES2016/_PDF/IPR16.Proceedings_4_Web_Broschuere_Link.pdf
pondělí 3. října 2016

iPRES 2016 právě probíhá

Ve švýcarském Bernu právě probíhá mezinárodní konference o digital preservation, iPRES 2016. Zájemci mohou sledovat dění online pomocí Twitter hashtage #ipres2016, mnoho přímých účastníků na Twitteru sdílí hlavní myšlenky prezentací, případně fotky slidů.
Zároveň kompletní sborník s plnými texty byl publikován se začátkem konference - dostupný zde https://ipr16.organizers-congress.org/frontend/organizers/media/iPRES2016/_PDF/IPR16.Proceedings_3_Web_Broschuere_Link.pdf

pondělí 19. září 2016

Essentials 4 Data Support - kurz RDNL

RDNL (asociace několika projektů v oblasti archivace vědeckých dat v Holandsku) má na webu pěkný kurz týkající se dlouhodobé archivace vědeckých dat. K dispozici je i verze zdarma a bez registrace.

http://datasupport.researchdata.nl/en/about-the-course/

středa 14. září 2016

Můj první "file format signature" - Andrea Byrne - aneb jak na to

Andrea Byrne (Archives New Zealand) popsala velmi zajímavou, návodnou a čtivou formou její experiment s vytvořením tzv. signature file pro databázi PRONOM, kterou provozuje Britský národní archiv. Signature files jsou poté používány pro automatizovanou identifikaci formátů dat, např. pomocí nástroje DROID.
Pokud máte formát, pro který signature file zatím neexistuje, zkuste si jej vytvořit, s pomocí návodu Andrey Byrne by to neměl být tak velký problém ;-D

http://openpreservation.org/blog/2016/09/08/making-the-switch-from-user-to-user-and-contributor-my-first-file-format-signature/

čtvrtek 8. září 2016

Preforma Experience Workshop - 23.11.2016

Prakticky za rohem, v Berlíně, se v listopadu koná seminář o výsledcích projektu PREFORMA.

http://experienceworkshop.preforma-project.eu/programme/

PREFORMA je zdaleka nejzajímavější aktivita v oblasti dlouhodobé archivace v Evropě - formou PPP EU financovala vývoj tří nástrojů pro dlouhodobou archivaci, resp. pro conformance checking - VeraPDF, DPF Manager, MediaConch.

Na semináři by mělo jít především o zkušenosti s těmito nástroji, které dnes mají některé paměťové instituce. 

středa 3. srpna 2016

Nové číslo ITLibu 2/2016 - řada zajímavých článků

Bezpochyby z hlediska dlouhodobého ukládání digitálních dat v paměťových institucích stojí tohle číslo časopisu ITLib za přečtení, je opravdu povedené.


Kompletní obsah nového čísla ITLIbu: 


Príhovor /Address
Príhovor /Address
Hlavné články/ Main Articles
Digitálne pramene – webharvesting a archivácia e-Born obsahu / Digital Resources – Webharvesting and E-Born Content Archiving
Projekt ArcLib – budování systému pro dlouhodobou archivaci digitálních dat v českých knihovnách / ArcLib Project: Designing Solution for Long-term Preservation in Czech Libraries
Knihovnícka profesia /Library Profession
Učící knihovník a vzdělávací technologie / The Teaching Librarian and Educational Technology
Uchovávanie dát / Data preservation
Uchovávanie digitálnych objektov a ich súčastí v prostrediach open-source systémov Invenio a DSpace / The Storing of Digital Objects and its Components in the Environment of Open-source Systems Invenio and DSpace
Uchování digitálního dědictví a systém Archivematica / Preservation of Digital Heritage and System Archivematica
The Importance of Establishing National Legislation on “Orphan Works”: Example of Old Doctoral Dissertations
Digitalizácia / Digitalization
Centrálny dátový archív roku 1 / Central Data Archive
Trustworthy Digital Preservation Repositories: an Introduction
Uchovávanie kultúrneho dedičstva / Preserving cultural heritage
Digitálny fond tradičnej ľudovej kultúry / Digital Fund of Traditional Folk Culture
Ochrana knižničných fondov / Collections preservation
Péče o novodobé knihovní fondy v Národní knihovně České republiky – průzkum fyzického stavu /Care about Libraries Collections after 1800 in The National Library of Czech Republic – Physical Conditions Survey
Internet
Public Collections on the Semantic Web in a Hungarian Context
Otvorený prístup/Open Access
Pasteur4OA: Kľúč na otvorenie vedy / Pasteur4OA: Key for Open Science
Podujatia / Events
INFORUM 2016 / INFORUM 2016

Publikace SAA: Digital Preservation Essentials

Docela zajímavě vypadající publikace Americké společnosti archivářů (The Society of American Archivists), asi nebude jednoduché si ji v ČR jako instituce koupit - prodává se jen v jejich e-shopu.

Digital Preservation Essentials
Edited by Christopher J. Prom & Erin O'Meara & Kate Stratton

Z obsahu
Module 12: Preserving Digital Objects
Module 13: Digital Preservation Storage

čtvrtek 21. července 2016

Vývoj archivace webu - zajímavý článek z Portugalska

Pánové z portugalského webového archivu napsali pěkný shrnující článek o archivaci webu, jak se tato oblast vyvíjela v různých zemích, s jakými problémy musela a musí bojovat. Stojí za přečtení.

http://sobre.arquivo.pt/about-the-archive/publications-1/the-evolution-of-web-archiving

středa 13. července 2016

středa 29. června 2016

Máme vůbec chtít normalizovat PDF do PDF/A 1a?

Asi jste si všimli, že i v České republice platí nařízení, podle kterého jsou pro archivaci v Národní digitálním archivu vyžadovány objekty ve formátu PDF/A  úrovně 1a. 

Existuje Usnesení vlády ČR ze dne 3. listopadu 2008 č. 1338, které podepsal ještě premiér Topolánek, kde se píše: 
.............
I . s c h v a l u j e jako výstupní datový formát statických dokumentů v digitální podobě ze systémů spisové služby vykonávaných elektronickou formou za použití výpočetní techniky a jako datový formát statických dokumentů v digitální podobě připravovaných pro předání do Národního digitálního archivu 
1. formát PDF/A-1a (ISO 19005-1 – Portable Document Format – Electronic document file format for long-term preservation) pro statické textové, obrazové a kombinované dokumenty v digitální podobě, 

2. formáty PNG (ISO/IEC 15948:2004 – Portable Network Graphics) a TIFF (Tagged Image File Format – revize 6 – nekomprimovaný) pro statické obrazové dokumenty v digitální podobě;

--------------

Tohle je sice nařízení týkající se elektronických spisových služeb, ale v praxi má takové doporučení Národního archivu (mj. vyjádřené například také ve studii proveditelnosti NDA, ZD na NDA a jinde) dalekosáhlý dopad i na další projekty, knihovny, akademické instituce. 

Odhlédněme teď od problému, že Usnesení vlády ani žádný další předpis pokud vím neříká, co vlastně je PDF/A 1a - jak ho poznáme - čili, jak technicky prokázat, že nějaký objekt je validní reprezentací PDF/A 1a.  V tomhle bude jistě brzy jasněji, a online dostupný validátor PDF/A na webu NDA bude doplněn v polovině dalšího roku o validátor VeraPDF, kterýžto se v ideálním případě stane etalonem pro firmy produkující nástroje pro validaci, konverzi a produkci PDF. 

Tím ale nejasnosti nekončí. Zásadní požadavky na PDF/A 1a jsou:  
  • dokument musí obsahovat fonty se znaky v unicode (resp. znaky musí mít mapování na unicode) 
  • dokument musí být "tagovaný", tj. musí obsahovat popis všech komponentů (průběžné hlavicky stránek, čísla stránek) a hlavně vyjádření logické struktury. 
Zajímavý text na tohle téma na webu Ghostscriptu http://ghostscript.com/FAQ.html k tomu ale uvádí, že není v silách jakéhokoli obecného konvertoru PDF rozeznat v dokumentu poznámky pod čarou nebo nadpisy a korektně je označit, ba ani nemusí být schopen z dokumentu získat a vytvořit správnou logickou strukturu jednotlivých elementů, tak aby bylo zachováno autorem zamýšlené pořadí čtení.  
A dál citují standard PDF, kde se píše:
"PDF/A-1 writers should not add structural or semantic information that is not explicitly or implicitly present in the source material solely for the purpose of achieving conformance." ... "It is inadvisable for writers to generate structural or semantic information using automated processes without appropriate verification."
Jinými slovy, automaticky z PDF PDF/A 1a dělat nemáme. Podobně se standard PDF vyjadřuje k automatickému převodu/mapování znaků na unicode.

Co si z toho teď odnést? 
  • pokud máme velkou sbírku existujících PDF a chtěli bychom je ochránit, asi bychom se měli spokojit s PDF/A 1b
  • pokud už dokument PDF tagovaný je (jak to poznáme - viz dole k VeraPDF) a je ve fontech mapovaných na unicode, asi je šance, že se nám podaří vytvořit honest PDF/A 1a. Do PDF/A -1a ale nemůžeme s klidným srdcem (automaticky a bez asistence tvůrce dokumentu) dostat nic, co neobsahuje tagování a mapování na unicode
  • pokud nám nějaký nástroj poskytuje brute force konverzi do PDF/A 1a, měli bychom si být vědomi toho, že jde o "formální konverzi pro dosažení validace." Takový objekt projde validátory, ale je možné, že aby konverzí do PDF/A 1a prošel, bylo třeba něco oželet (některé znaky nemusí být ok, tak je prostě přeskočil), a struktura a tagování nevyjadřují - možná -záměry tvůrce dokumentu.
  • formálně vytvořený PDF/A 1a zkrátka nezaručí to, co PDF/A 1a zaručit má 
Komentář ve FAQ Ghostscriptu končí větou: For these reasons, at present we have no plans to implement PDF/A1-a in pdfwrite. Což je myslím docela výmluvné.

Jak tady může pomoci VeraPDF (díky Elišce) 
VeraPDF lze pustit i na soubory, které nejsou PDF/A 1a, a lze tak zjistit, jak daleko od standardu soubory jsou. Z výstupu extrakce VeraPDF poznáme přesně, kde se objekt od standardu PDF/A 1a liší:

A podmínky jsou pak vidět na githubu v seznamu pravidel:

K tomu směřovala krátká debata na semináři k VeraPDF v Praze na Pasigu. Teoreticky by archiv mohl být spokojen i se "skoro PDF/A 1a." Vytvoří si vlastní validační profil, který bude méně přísný něž striktní PDF/A 1a, a bude přijímat i objekty se známými chybami - například ty, které nejsou v RGB, nebo jim pouze chybí deklarace shody s PDF/A 1a (https://github.com/veraPDF/veraPDF-validation-profiles/wiki/PDFA-Part-1-rules#rule-6711-3) i když jinak se s PDF/A 1a shodují....

úterý 28. června 2016

RODA 2.0 v docker toolbox na hraní za 10 minut


Archivační systém RODA, který vyvíjí firma KEEP SOLUTIONS v Portugalsku, a který je dostupný pod LGPL licencí , se blíží k finální verzi 2.0. Poměrně rychle si lze nainstalovat Docker Toolbox a během pár minut demo běží.

https://github.com/keeps/roda#demo-mode-based-on-docker-containers


úterý 21. června 2016

Kde jsou dnes uživatelé Rosetty?

Na webu jsou prezentace z Rosetta Advisory Group. Je z toho pěkně vidět, kde se dnes tahle komunita pohybuje a jaké problémy řeší:
http://knowledge.exlibrisgroup.com/Rosetta/Product_Materials/Rosetta_Advisory_Group_Meetings/RAG_2016

Zvlášť zajímavá je prezentace jednoho z vývojářů o škálovatelnosti a výkonu ingestu, což je asi věc, kterou velké instituce s masívními sbírkami docela řeší - jak dostat pod kontrolu v systému DAM petabyty dat...pěkné jsou přiložené HW konfigurace implementací Rosetty ve třech větších institucích.

http://knowledge.exlibrisgroup.com/@api/deki/files/42494/Ingesting_and_Managing_Digital_Content_at_Scale_-_Josh_Weisman%2C_EXL.pdfčtvrtek 16. června 2016

Kde je dnes Norská národní knihovna?

OPF zveřejnila informaci o tom, že Norská národní knihovna se stala dalším členem konzorcia OPF. Krátké představení činnosti Norské národní knihovny v oblasti dlouhodobého ukládání digitálních dat stojí za ocitování.

Norská národní knihovna shromažďuje všechny typy médií publikované v Norsku, včetně rozhlasových a televizních pořadů, filmů, hudby a norské části Internetu. Během příštích 20-30 let má v plánu zdigitalizovat kompletně všechny své sbírky. Již bylo digitalizováno 90% všech knih publikovaných v Norsku, 30% všech novin a téměř 100% všech rozhlasových programů z největší a nejstarší rozhlasové stanice v Norsku.

V lednu 2016 byl revidován zákon o povinném výtisku,  který umožňuje národní knihovně sklízet celý obsah webu na národní doméně, a zavádí povinný výtisk digitálních předloh všech tištěných publikací. Pro Norskou národní knihovnu je systém pro důvěryhodné uchovávání digitálních dat klíčový; spravuje 5,2 PB unikátních dat,  ročně přibývá 1PB.  Cílem knihovny je uchování těchto dat v horizontu 1000 let. 

Wow!