čtvrtek 13. října 2016

Několik postřehů z iPRES 2016

Jak už jsme upozorňovali, před několika dny proběhla konference iPRES je zaměřená na digitální archivaci. Účastní se jí přední odborníci z oblasti a prezentovány jsou nejnovější výsledky výzkumu i informace o vývoji zásadních projektů a nástrojů.

Program konference: http://www.ipres2016.ch/frontend/index.php?folder_id=353

Sborník: http://www.ipres2016.ch/frontend/organizers/media/iPRES2016/_PDF/IPR16.Proceedings_4_Web_Broschuere_Link.pdf
Konferenci zahájil Robert E. Kahn autor známého Kahn-Wilensky modelu digitální knihovny. Zdůraznil zejména význam identifikátorů, které přirovnal IP adresám. Věnoval se také otázkám interoperability digitálních objektů, které shrnují doporučení ITU-T X.1255 : Framework for discovery of identity management information (https://www.itu.int/rec/T-REC-X.1255-201309-I).
Khan považuje za nutné uchovávat popis struktury digitálního objektu nikoliv samotnou strukturu a za kritickou pokládá potřebu typologie digitálních objektů. Zmínil také systém pro správu identifikátorů Cordra (https://www.cordra.org/) a nastínil řešení financování globálního registru Handle (nadace DONA sídlící v Ženevě).

Projekt E-ARK (http://www.eark-project.com/) navazuje na projekt SCAPE a jeho cílem je vytvoření škálovatelné architektury pro digitální archivaci. Prezentace „An OAIS-oriented System for Fast Package Creation, Search, and Access“ popisovala řešení E-ARK Integrated Platform Reference Implementation Prototype, které je zamýšleno jako škálovatelný repozitářový systém pro archivy. V současnosti je tento systém v pilotním provozu v několika národních archivech (Maďarsko, Slovinsko a další). V rámci projektu jsou vytvářeny nástroje pro pre-ingest (tvorba a validace SIP) a ingest. Jádrem systému je škálovatelný backend postavený na technologiích Lily/Hadoop, který umožňuje zpracování velkého množství objektů. Frontend systému představuje grafický interface pro řízení workflow, a to včetně časování a škálování. K dispozici je i uživatelské vyhledávací rozhraní.
Pilotní verzi E-ARK Integrated platform je možné stáhnout jako soubor ve formátu OVF na adrese http://earkdev.ait.ac.at/eark/pilots/eark-pilot-vm.ova 

Účastníci konference se mohli seznamovat různými způsoby

Další zajímavou prezentací byla „A Decade of Preservation: System Migrations in Chronopolis“, která popisovala historii tří velkých migrací sítě dark archivů Chronopolis. Tato síť existuje již od roku 2007 a v roce 2012 získala certifikaci TRAC. Chronopolis se zaměřuje na ochranu na bitové úrovni. Svůj obsah průběžně kontroluje pomocí auditního na platformě nezávislého nástroje Audit Control Environment (ACE). V rámci Chronopolis proběhly migrace ze systému SRB do iRODS. Zásadním problémem při této migraci bylo oddělené uložení souborů a metadat. Druhá migrace proběhla ze systému iRODS do ChromCore, a to prostřednictvím nástroje ACE.
Na základě zkušeností z výše uvedených migrací byla v prezentaci formulována tři doporučení:
  1. Použití nezávislých mikroslužeb – potvrdilo se na příkladu ACE.
  2. Vždy si uchovat přímý přístup k datům.
  3. Využívat „nudné“ nástroje, které od zaměstnanců nevyžadují speciální znalosti – k jejich ovládání stačí znalost Linuxu.
Zkušenosti z využití formátu jp2000 v repozitáři Medusa (University of Illinois at Urbana-Champaign) přinášela prezentace „Identifying Barriers To File Rendering In Bit-level Preservation Repositories: A Preliminary Approach“ . Testování zobrazitelnosti souborů ukázalo, že nejvíce problémů se vyskytuje v případě obrázků ve formátu jp2000. Navzdory tomu, že soubory byly dle validačních nástrojů v pořádku, nástroj pro zobrazení (Photoshop) je nebyl schopen otevřít. Po skončení prezentace však z publika zazněla námitka, že se jedná spíše o důvod k ukončení využívání Photoshopu případně k využití on-the-fly konverze do jpeg.

Formátům obrazových dat se věnovala i prezentace „Practical Analysis of TIFF File Size Reductions Achievable Through Compression“. British Library testovala efektivitu kompresních algoritmů LZW, ZIP a Group 4 při snižování objemu archivovaných dat ve formátu TIFF. Testovány byly víše uvedené algoritmy a kombinaci s knihovnami ImageMagick a LibTiff. Z testování vyšla nejlépe kombinace ZIP a ImageMagick. LZV komprese v některých případech vytvořila dokonce i soubory větší než byl originál. Autoři studie však upozorňují, že nebyl zkoumán dopad na metadata obsažená v souboru a že studie se zabývala pouze vlivem použité metody na velikost výsledných souborů.

Následovala prezentace posterů. Účastníci konference jako nejlepší vyhodnotili „To Act or Not to Act – Handling File Format Identification Issues in Practice“. Zajímavý však byl i příspěvek „Should We Keep Everything Forever?: Determining Long-Term Value of Research Data“, který se zabýval otázkou hodnocení výzkumných dat uložených datovém archivu z hlediska jejich dalšího uchovávání – snažil se specifikovat parametry, na základě kterých může být rozhodnuto o vyřazení dat z archivu nebo o jejich přesunu do jiného repozitáře.
V rámci představení posterů bylo možné shlédnout i nástroje BitCurrator Web Tools (https://bitcuratorconsortium.org/), které umožňují analýzu a zpřístupnění obsahu disku. Jedním z možných využití nástrojů je například práce s osobní pozůstalostí.

Uvítací recepci oživili hráči na alpský roh
Druhý konferenční den zahajovala Sabine Himmelsbach s přednáškou „Net-based and Networked – Challenges for the Conservation of Digital Art“. Mluvila zejména o problémech spojených s kurátorstvím sbírek digitálního umění zasazeného do síťového prostředí. Uchování síťových děl je založeno na zachování jejich chování. Tato díla nemají majitele a neexistuje zde originál v pravém slova smyslu. Přednáška byla založena demonstraci konkrétních případů. Jedním z nich byl TV-bot (Marc Lee - http://www.1go1.net/index.php/Main/TV-BOT) pracující s internetovým zpravodajstvím v reálném čase. Vzhledem k technologickým změnám (zejména technologií pro streamování videa) existuje v současnosti již druhá verze díla a pracuje se na třetí. Otázkou je už jen to, zda se v tomto případě jedná o jedno dílo s více verzemi nebo o více děl.
Zmíněn byl také jeden z prvních příkladů digitálního umění dílo My boyfriend came back from the war (Olia Lialina, 1996). Dílo je vystavována na historickém HW i SW vybavení, které simuluje vlastnosti (zejména rychlost) tehdejší sítě. Rychlost otevírání jednotlivých stránek totiž může být považována za signifikantní vlastnost díla.
V rámci prezentace bylo zmiňováno také několik dokumentů souvisejících s kurátorstvím a ochranou digitálního umění :
Zmíněny byly i zajímavé etické otázky – například jak postupovat v případě, že si umělec přeje, aby jeho dílo zahynulo společně s použitou technologií?

Problematikou malých výzkumných dat, která se vyskytují na konci „dlouhého ocasu“ množiny typů dat, se zabývala prezentace „Precise Data Identification Services for Long Tail Research Data“. Doporučují migraci do CSV. Data mají tendenci měnit se v čase a je poměrně problematické identifikovat ten správný dataset (nebo stav datasetu), který byl použit ke studii. Doporučení Research Data Alliance (https://www.rd-alliance.org/system/files/documents/RDA-Guidelines_TCDL_draft.pdf) navrhují využití časového razítka, a to prakticky ve formě jednoznačného identifikátoru. Technicky je možné využít GitHub případně převést data do relační databáze. Na základě již implementovaných pilotních řešení je možné říci, že se jedná o správný přístup. Andreas Rauber zdůraznil i nutnost starat se o data od samého počátku ve spolupráci se samotnými vědci.

V prezentaci „CERN Services for Long Term Data Preservation“ byla detailně popsána politika ochrany dat produkovaných CERNem. Zmíněna byla potřeba uchování nejen SW zpracovávajícího data, ale i často nezapsaných znalostí potřebných tvorbě dat. Zazněla i jistě zajímavá informace, že datové repozitáře CERN nejsou připraveny na útok mimozemské civilizace.

Tématem uchovávání georeferencovaných rastrových dat se zabýval příspěvek „Ellipse – Long-term and Permanent Protection and Accessibility of Geodata“ Sweiss Federal Archives se rozhodli opustit formát GeoTiff, který považují za příliš komplikovaný. Upozornili i na nebezpečí poškození souborů v tomto formátu při práci s Photoshopem. Pokud je obrázek otevřen a zavřen v programu Photoshop, může dojít ke ztrátě některých tagů. Používají kombinaci TIFF a Extended World File (TIFF+EWF.XML).

Prezentace „Preserving research data: linking repositories and Archivemantica“ zdůraznila zejména pragmatický přístup a takzvanou parsimonious preservation – postup v rámci malých kroků s tím, že instituce si je vědoma toho, co má uloženo, a soustředí se primárně na ochranu bitů. Ověřování použitelnosti Archivematicy na University of York a University of Hull probíhalo ve třech krocích: nejdříve zkoumali, jestli Archivematicu vůbec mohou použít, pak se zaměřili na vývoj implementačního plánu odpovídajícího konkrétním požadavkům a teprve v závěrečné fázi přistoupili k proof of concept a samotné implementaci.
Za hlavní výhody systému Archivematica považují to, že je zdarma, aktivně vyvíjená, vychází z příkladů dobré praxe a obsahuje plně automatizovatelná workflow. Za nevýhody považují to, že systém je komplexní, a tím pádem je jeho provoz drahý. Nevýhody dokáže zmírnit spolupráce s dalšími institucemi.
Archiváři z University of York provozují také blog - digital-archiving.blogspot.co.uk.

Jeden ze dvou konferenčních sálů
 
Úterní program pokračoval panelem na téma „Software Sustainability and Preservation: Implications for the Long-Term Access to Digital Heritage“. Mezi účastníky byl i David Rosenthal, který své myšlenky shrnul na blogu - http://blog.dshr.org/2016/10/panel-on-software-preservation-at-ipres.html. Dále vystoupila i Natasa Milic-Frayling, která ve spolupráci s UNESCO připravuje jednání s hlavními poskytovateli SW (Microsoft, Adobe apod.), která by měla vyústit v digital continuity – zachování možnosti využití starších verzí SW a případně i vybudování softwarového repozitáře.

V úterý bylo také poměrně dost prostoru věnováno projektu E-ARK. Prezentace „Applied Interoperability in Digital Preservation: solutions from the E-ARK Project“ byla obecným představením projektu. E-ARK se snaží o standardizovaný balíček a o využití již existujících open source nástrojů (např. Roda). Snaží se také o škálovatelnost. V rámci tohoto projektu vznikl nástroj Database preservation toolkit, kterému se věnoval i jeden z workshopů.

V prezentaci „Exploring Friedrich Kittler’s Digital Legacy on Different Levels: Tools to Equip the Future Archivist“ bylo popsáno řešení správy osobní pozůstalosti mediálního teoretika Friedricha Kittlera. Pro analýzu souborů uložených v jeho osobním archivu byl mimo jiné použit již zmíněný nástroj BitCurator. V rámci uchování pozůstalosti bylo například rozhodnuto, že počítače budou uchovány v původním stavu včetně zašpiněných míst, která kurátoři sbírky považují za signifikantní vlastnost.

Posledním panelem a také poslední částí přednáškového programu byla diskuse „Challenges and benefits of a collaboration of the Collaborators: How can we learn and benefit from experiences and set next steps in international collaboration“, které se zúčastnili zástupci největších světových kolaborativních organizací v oblasti digital preservation – NCDD (Netherlands Coalition for Digital Preservation), DPC (Digital Preservation Coalition), Nestor, OPF (Open Preservation Foundation) a americká NDSA (National Digital Stewardship Alliance). Zástupci představili své organizace. Po té se debata stočila zejména k tomu, že drtivá většina těchto mezinárodních organizací působí v Evropě a k otázkám spolupráce v dalších oblastech světa.

Prvním wokshopem, který jsem navštívila, byl „Personal Digital Archiving: How Can the Cultural Heritage Community Help Individuals Curate Their Own Materials?“ Jak už předesílá název, mluvilo se zejména o archivaci osobní digitální pozůstalosti a o způsobech, kterými se v těchto otázkách může komunita digital preservation angažovat. Maurizio Lunghi vyzdvihl skutečnost, že i v rámci osobní archivace je třeba specifikovat určenou komunitu. S jeho tvrzením, že informace, které nejsou podstatné pro ostatní (jen pro svého vlastníka), nejsou určeny k digitální archivaci, však několik účastníků workshopu nesouhlasilo. Představil také italský projekt Acta Memorie (https://www.facebook.com/ArcaMemorie/), který chce poskytovat uživatelům prostor k ukládání osobních digitálních archiválií.
Workshop pokračovat shrnutím aktivit v oblasti osobní archivace probíhajících v rámci USA. Za zmínku stojí zejména MOOC vytvořený University of North Carolina at Chapel Hill a University of Edinburgh „Research Data Management and Sharing“ (https://www.coursera.org/learn/data-management/). Kurz vychází z myšlenky, že i výzkumná data mohou být předmětem osobní archivace, a to zejména již zmiňovaná long-tail data. Kurz je určen přímo vědcům s daty pracujícím.
To, že je osobní archivace žhavým tématem potvrdil i William Kilbride z DPC, který uvedl, že Per Technology Watch Report 15-01: Personal Digital Archiving (http://dx.doi.org/10.7207/twr15-01) je jednou z nejstahovanějších zpráv.

Ve čtvrtek dopoledne jsem se zúčastnila prakticky zaměřeného Workshopu „Relational Database Preservation Standards and Tools“. Pracovali jsme s již zmiňovanými nástroji pro ukládání a ochranu databází. Workshop měl formu praktického cvičení, takže účastníci si nástroje nainstalovali a plnili zadané úkoly. Workshop zahrnoval práci s Database Preservation Toolkit, SIARD Suite – oba nástroje jsou zaměřeny na konverzi do formátu SIARD určeného k dlouhodobému uložení relačních databází a s nástroji Database Visualization Toolkit a SIARD excerpt, které jsou určeny spíše k zpřístupnění nebo zobrazení uložené databáze.

Konferenci uzavíral každoroční „PREMIS Implementation Fair“, kde se tvůrci standardu PREMIS setkávají s lidmi, kteří standard implementují v rámci svých institucí nebo systémů. Zde proběhla zajímavá diskuse o možnostech rozšíření standardu mimo digital preservation komunity – například v rámci implementace v systémech pro správu a sdílení výzkumných dat.

1 komentář: