středa 6. února 2013

IBM PDS Cloud: Dlouhodobá ochrana digitálních informací ve výpočetním oblaku

IBM Haifa zveřejnila článek shrnující výsledky výzkumu, který probíhá v rámci projektu ENSURE financovaného ze 7. Rámcového programu. PDS Cloud rozvíjí předcházející koncepty IBM  (Preservation DataStores) v prostředí cloudu.

PDS cloud je prototyp "preservation aware" ukládací služby založené na OAIS, využívající výpočetní oblaky více poskytovatelů. Hlavním cílem PDS Cloud je zajištění použitelnosti digitálního obsahu (obsahové informace) po dlouhou dobu, v prostředí měnící se technologie. IBM hodlá systém dále vyvíjet i po skončení projektu ENSURE.

Článek obsahuje v úvodu analýzu několika cloudových platforem z hlediska vhodnosti pro dlouhodobou ochranu digitálních informací na logické úrovni. Prototyp PDS Cloud se snaží nedostatky běžných platforem naplnit potřebnými funkcemi.

Mezi typické nedostatky cloudového ukládání z hlediska dlouhodobé ochrany digitálních informací patří podle autorů například:
- nemožnost kontrolovat periodicky fixity, nemožnost používat více algoritmů a v budoucnu tyto algoritmy měnit
- cloudová úložiště podle autorů trpí "data lock-in", tj. neexistují snadné nástroje jak dostat data kompletně, efektivně a spolehlivě ven ze systému.
- prozatím cloudové platformy nedisponují spolehlivými nástroji pro audit nebo certifikaci a nelze tak posoudit jejich důveryhodnost.
- cloudová úložiště obvykle podporují jen omezené používání metadat, zdaleka ne v rozsahu v jakém je vyžaduje OAIS
- cloudové platformy neposkytují funkce pro sledování a zaznamenávání událostí, které souvisí s provenance uložených objektů (přístup, media refresh apod.)
- cloudové platoformy neposkytují potřebná workflow pro přímý pístup k uloženým objektům, který by umožnil s daty efektivně pracovat
- neposkytují také nástroje nebo prostředí pro migrace dat
- a cloudové platformy nemají dnes funkce potřebné pro zajištění logické ochrany digitálního obsahu, tj. obsahové informace

PDS Cloud tyto nedostatky řeší jednak přidáním podpory více typů cloudů v jednom systému, přidáním tzv. preservation enginu, který umožňuje pracovat s metadaty podle požadavků OAIS a vychází z již dříve publikovaného modelu formátu SIRF (Self-contained Information Retention Format), který propaguje konzorcium SNIA. Preservation engine obsahuje několik služeb (migrační, kontroly fixity, audit, administrace).

PDS Cloud implementuje hierarchický data model, kde je odlišena organizace skladující data (tenant), vrstva obsahující konfigurace a politiky, pravidla (aggregation), a skupina objektů v cloudu nazvaná zde docket. Objekty jsou pak součástí docketů, a jsou vlastním předmětem dlouhodobé ochrany.

Autoři pak popisují mapování AIP na navržený data model.

Klíčovou vlastností PDS Cloud jsou tzv. virtual appliances, které jsou ke cloudovému úložišti připojeny pro emulaci prostředků pro zpřístupnění. IBM již dříve mluvila o Universal Virtual Compuper, a virtual appliances popsané v tomhle článku jsou pokračováním emulačního přístupu k dlouhodobé archivaci.  

Budoucí vývoj by měl směřovat k vytvoření technologií a služeb, které umožní intenzivně pracovat s daty přímo na storage nebo velmi blízko storage (kontroly fixity, transformace AIP, data mining)

Článek je dostupný on-line:
S. Rabinovici-Cohen, J. Marberg, K. Nagin. Preservation DataStores in the Cloud (PDS in the Cloud): Longterm Digital Preservation in the Cloud IBM Research Division. Haifa: 20 January 2013. H 0318 (HAI 301-006) http://domino.research.ibm.com/library/cyberdig.nsf/papers/F1A0F33F7354D53B85257B01004E9AEF/$File/h-0318.pdf