pátek 11. listopadu 2016

10.11. 2016 Konference CDA - Formátové výzvy LTP

V Bratislavě proběhla 10.11. 2016 konference CDA, nazvaná Formátové výzvy LTP. Vyšel k ní i sborník:

CDA 2016: Formátové výzvy LTP : zborník prispevkov z 1. mezinárodnej konferencie o dlhodobej archivácii: Bratislava, 10.11.2016 / zost. Lucia Klementová, ISBN 978-80-89303-53-3

Spíše než o formátových výzvách to bylo celé o formátových strategiích a spíše než konference to byl seminář, kde byla stejně zajímavá debata jako jednotlivé příspěvky.

V první ranní sekci vystoupil Milan Rakús s příspěvkem o projektu CDA a jeho formátové strategii. Vysvětlil stav projektu CDA po dvou letech ostrého provozu, a popsal přístup CDA k formátům. Odpovědnost za výběr důvěryhodného formátu a jeho případnou migraci je v kontextu CDA na producentech dat, PFI. CDA se snaží je nutit k tomu, aby dodávali data v rozumných formátech (popsaných, s otevřenou specifikací) tak, aby počet formátů v archivy nebyl moc velký, v současnosti mají 26 typů formátů (při ca 3PB dat) nepočítaje v to samozřejmě data z nového projektu Digitálně pramene, kde se sklízí web.

Ve druhé přednášce vystoupila B. Žigová z CDA, a popsala existující formátové strategie některých archivů a knihoven v Evropě. Její srovnání trochu kulhalo na jednu nohu, protože porovnávala archivy archivující data procházející skartací, a jiné typy archivů. Data u ERMS systémů jsou kontrolovaná, a obvykle lze omezit počet dodávaných formátů, ale data přicházející mimo skartační řízení není asi jednoduché regulovat z hlediska variability formátů. Přesto paměťové instituce chtějí uchovávat takový obsah.

Příspěvek Jan Hutaře, (prezentoval M. Melichar), se nezabýval formátovou strategií Národního Archivu na NZ, ale změnami Pronomu a projektem NA NZ na opakovanou identifikaci formátů. NA NZ a NK NZ mají poměrně heterogenní sbírky, každá instituce ca 120TB dat. Uvědomili si, že Pronom a DROID se za posledních deset let dost proměnily, a opakovaná identifikace formátů přináší jiné výsledky než identifikace při vložení dat před 5 nebo 8 lety.
L. Cubr ve svém příspěvku vysvětlil, proč NK ČR používá formát JPG2000, poukázal na to, že NK ČR má především problémy s historickými daty. Jako zásadní problém uvedl zajištění kvality dat, NK ČR teď vytváří komplexní validátor, který bude validovat metadata z obsahového hlediska a validovat formáty vzhledem k profilu JP2, který NK od producentů vyžaduje.

Peter Bubestinger z rakouské Mediatéky měl velmi zajímavý příspěvek o tom, jak vybrat správně formát pro archivaci audiovizuálního obsahu. Upozornil na to, že hledání formátu, který umí všechno, nemá moc smysl. Vysvětlil, co všechno musíme vzít v úvahu, když vybíráme formát pro archivaci videa.

Odpoledne zazněly dva příspěvky týkající se archivace webu, jeden od A. Bizíka, o projektu Digitálně pramene, který představil formát WARC a první sklizně slovenského webu. Projekt má ca 800TB plánované kapacity, v současnosti nasklízeno ca 6TB dat, 40+ strojů s Heritrixem, část obsahu přístupná volně, v podobném režimu jako český Webarchiv. J. Kvasnica popsal novou verzi standardu pro warc 1.1, je ve fázi schvalování aktualizace ISO normy. Změny se týkají především oprav a vylepšení pro podporu deduplikace. Následující dotazy se týkaly možnosti sklízet javascriptem generované objekty, což webarchiv NK ČR prý dělá pro některé zdroje s využitím headless browserů, je to velmi pomalé, v masivnější míře nepoužitelné.

Příspěvek K. Mišutha z Tempestu poodhalil technologie, které jsou používány v CDA, resp. v jeho katalogu. Pro uchování metadata používají no sql sloupcovou databázi HDBase. Ukázal, jak získávají formátové statistiky pomocí YARN. To, co v archivu mají, by asi obsloužila i běžná relační databáze, ovšem architektonické rozhodnutí použít HDBase vzniklo na začátku plánování CDA pravděpodobně z důvodů nejasnosti typů metadatových struktur, se kterými bude katalog archivu CDA pracovat. Dnes to developerům trochu komplikuje život, ovšem do budoucna se možná ukáže, že to je udržitelnější přístup. Ze statistik, které Kamil ukázal, bylo vidět, že skoro dvě třetiny objektů v CDA jsou ve formátech/u TIFF.

Následující příspěvek se týkal produktu PIQL a poslední příspěvek IBM informoval, jaké jsou v oblasti LTP nástroje pro audit a certifikaci a co je to důvěryhodné úložiště. Vzhledem k tomu, že v publiku seděli lidé z institucí, které mají selfaudit podle ISO 16363 za sebou nebo na něm pracují, nebo které mají za sebou DSA certifikaci, byl příspěvek poněkud málo prakticky orientovaný a mnoho nového většině publika asi nepřinesl. Je to škoda, protože by určitě bylo zajímavé se dozvědět, jaké praktické zkušenosti má IBM s certifikací nebo auditem důvěryhodných úložišť u svých zákazníků.Prezentace z konference PASIG nyní dostupné

V říjnu proběhla v New Yorku druhá letošní konference PASIG - http://www.pasignyc.org/. Nyní jsou dostupné prezentace z této konference - https://pasignyc.figshare.com/