úterý 19. února 2013

Dokumentace důvěryhodného dlouhodobého repozitáře

Každý repozitář, který chce usilovat o důvěryhodnost ve smyslu ISO 16363, TRACu nebo NESTORu musí  připravit poměrně hodně dokumentace. Pěkná ukázka toho, jak ji lze zorganizovat pomocí jednoduché wiki stránky je
resp. 

Panové v Ontario Univerzity zjevně vědí, že důvěryhodnost se dá budovat jen pomocí transparentní dokumentace....

Tento archiv právě úspěšně prošel certifikací a Scholar Portal Ontarion Council of University Libraries je prvním kanadským archivem certifikovaným CRL podle TRACu! http://www.ocul.on.ca/node/1637

Webináře zdarma: Introduction to Digital Preservation

Americká asociace Association of Southeastern Research Libraries nabízí zdarma serii webinářů s úvodem do dlouhodobé archivace digitálních informací.
Témata jednotlivých prezentací jsou velmi zajímavá:

- Preservation Planning and Overview of PREMIS for Beginners (2. dubna 2013)
- Forbearing the Digital Dark Age: Capturing Metadata for Digital Object (9. dubna 2013)
- Management of Incoming Born-Digital Special Collections (16. dubna 2013)
- Using FITS to Identify File Formats and Extract Metadata (30. dubna 2013)

Prezentovat budou experti z amerických paměťových institucí a univerzit.

A ochutnávka, online volně dostupná prezentace z loňského roku ze stejné serie (na Vimeo jsou celkem 3):

ASERL Webinar: Intro to Digital Preservation #1: Identifying & Selecting Content from John Burger on Vimeo.

pátek 15. února 2013

DPC Technology watch: Právní otázky dlouhodobé ochrany digitálních informací

DPC zveřejnila analýzu právních podmínek dlouhodobé archivace.
http://www.dpconline.org/newsroom/latest-news/931-new-dpc-report-on-intellectual-property-rights-for-digital-preservation

Podle ní britské právo dnes klade efektivnímu využití současných technologií při dlouhodobé archivaci řadu překážek. Některé překážky jsou relikty starších právních úprav, které nereflektují existenci digitálních dokumentů, jsou v rozporu se zájmy držitelů práv a výrazně ztěžují provádění akcí nutných pro zajištění dlouhodobé ochrany informací v digitální podobě.

Další relevantní dokument k tomuto tématu je již starší analýza z projektu NESTOR (pouze německy), tedy z prostředí, které je nám z hlediska právní kultury asi bližší:
[http://nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:0008-20040916022] 

Prakticky se s právními překážkami museli vypořádat řešitelé projektu KEEP financovaného z EU, kde experimentovali s emulačními technologiemi. Viz např. článek:  Hoeven, van der, J., Sepetjan, S., Dindorf, M., Legal aspects of emulation, iPRES 2010, Vienna, Austria, 2010. In: proceedings iPRES 2010 (http://publik.tuwien.ac.at/files/PubDat_191968.pdf)

pátek 8. února 2013

Validace PDF/A: srovnání validátorů

V jedné konferenci proběhl odkaz na sice trochu starší, ale přesto velmi zajímavý dokument:
Bavaria Report on PDF/A Validation Accuracy
http://www.pdflib.com/fileadmin/pdflib/pdf/pdfa/2009-05-04-Bavaria-report-on-PDFA-validation-accuracy.pdf

Testované validátory:
Adobe Acrobat 9.0
Adobe Acrobat 9.1
Adobe LiveCycle PDF Generator
Apago PDF Appraiser
Callas pdfaPilot
Intarsys PDF/A Live
PDF Tools: 3Heights PDF Validator Shell
Seal Systems: PDF Longlife Suite/PDF Checker
Solid Documents: Solid Framework

středa 6. února 2013

IBM PDS Cloud: Dlouhodobá ochrana digitálních informací ve výpočetním oblaku

IBM Haifa zveřejnila článek shrnující výsledky výzkumu, který probíhá v rámci projektu ENSURE financovaného ze 7. Rámcového programu. PDS Cloud rozvíjí předcházející koncepty IBM  (Preservation DataStores) v prostředí cloudu.

PDS cloud je prototyp "preservation aware" ukládací služby založené na OAIS, využívající výpočetní oblaky více poskytovatelů. Hlavním cílem PDS Cloud je zajištění použitelnosti digitálního obsahu (obsahové informace) po dlouhou dobu, v prostředí měnící se technologie. IBM hodlá systém dále vyvíjet i po skončení projektu ENSURE.

Článek obsahuje v úvodu analýzu několika cloudových platforem z hlediska vhodnosti pro dlouhodobou ochranu digitálních informací na logické úrovni. Prototyp PDS Cloud se snaží nedostatky běžných platforem naplnit potřebnými funkcemi.

Mezi typické nedostatky cloudového ukládání z hlediska dlouhodobé ochrany digitálních informací patří podle autorů například:
- nemožnost kontrolovat periodicky fixity, nemožnost používat více algoritmů a v budoucnu tyto algoritmy měnit
- cloudová úložiště podle autorů trpí "data lock-in", tj. neexistují snadné nástroje jak dostat data kompletně, efektivně a spolehlivě ven ze systému.
- prozatím cloudové platformy nedisponují spolehlivými nástroji pro audit nebo certifikaci a nelze tak posoudit jejich důveryhodnost.
- cloudová úložiště obvykle podporují jen omezené používání metadat, zdaleka ne v rozsahu v jakém je vyžaduje OAIS
- cloudové platformy neposkytují funkce pro sledování a zaznamenávání událostí, které souvisí s provenance uložených objektů (přístup, media refresh apod.)
- cloudové platoformy neposkytují potřebná workflow pro přímý pístup k uloženým objektům, který by umožnil s daty efektivně pracovat
- neposkytují také nástroje nebo prostředí pro migrace dat
- a cloudové platformy nemají dnes funkce potřebné pro zajištění logické ochrany digitálního obsahu, tj. obsahové informace

PDS Cloud tyto nedostatky řeší jednak přidáním podpory více typů cloudů v jednom systému, přidáním tzv. preservation enginu, který umožňuje pracovat s metadaty podle požadavků OAIS a vychází z již dříve publikovaného modelu formátu SIRF (Self-contained Information Retention Format), který propaguje konzorcium SNIA. Preservation engine obsahuje několik služeb (migrační, kontroly fixity, audit, administrace).

PDS Cloud implementuje hierarchický data model, kde je odlišena organizace skladující data (tenant), vrstva obsahující konfigurace a politiky, pravidla (aggregation), a skupina objektů v cloudu nazvaná zde docket. Objekty jsou pak součástí docketů, a jsou vlastním předmětem dlouhodobé ochrany.

Autoři pak popisují mapování AIP na navržený data model.

Klíčovou vlastností PDS Cloud jsou tzv. virtual appliances, které jsou ke cloudovému úložišti připojeny pro emulaci prostředků pro zpřístupnění. IBM již dříve mluvila o Universal Virtual Compuper, a virtual appliances popsané v tomhle článku jsou pokračováním emulačního přístupu k dlouhodobé archivaci.  

Budoucí vývoj by měl směřovat k vytvoření technologií a služeb, které umožní intenzivně pracovat s daty přímo na storage nebo velmi blízko storage (kontroly fixity, transformace AIP, data mining)

Článek je dostupný on-line:
S. Rabinovici-Cohen, J. Marberg, K. Nagin. Preservation DataStores in the Cloud (PDS in the Cloud): Longterm Digital Preservation in the Cloud IBM Research Division. Haifa: 20 January 2013. H 0318 (HAI 301-006) http://domino.research.ibm.com/library/cyberdig.nsf/papers/F1A0F33F7354D53B85257B01004E9AEF/$File/h-0318.pdf