úterý 20. února 2018

Hodnocení souborových formátů z pohledu digitální archivace

Na webu jsou dostupné dva zajímavé a průběžně aktualizované zdroje věnující se hodnocení souborových formátů pro dlouhodobé uchovávání:

1. British Library

http://wiki.dpconline.org/index.php?title=File_Formats_Assessments
Britská knihovna provádí postupně hodnocení formátů (File formats assessments) a výsledné zprávy zveřejňuje. Zprávy mívají stejnou strukturu, sleduje se vývojový stav formátu, rozšíření v paměťové komunitě, softwarová podpora (včetně nástrojů pro digitální archivaci), dostupnost dokumentace, existující patenty, rizika pro dlouhodobou archivaci. Na závěr jsou formulována doporučení týkající se použití formátu příp. dalšího vývoje.
Hodnoceny byly například formáty TIFF, JPEG2000, EPUB, PDF, MOBI, WAVE, FLAC apod. Formáty průběžně přibývají.

2. KOST-CECO

Jedná se o švýcarskou skupinu expertů, jejichž cílem je podpora archivů při archivaci digitálních dokumentů, mimo jiné se podílí na specifikaci archivní verze formátu TIFF a vytvořily minimálně dva nástroje zajímavé pro digitální archivaci- KOST-Val a KOST-Simy.

Na webu https://kost-ceco.ch/wiki/whelp/KaD/index.php?ld=https://kost-ceco.ch/wiki/whelp/KaD/pages/KaD.html  skupina zpřístupnila své hodnocení formátů. Hodnotí je dle následujících kritérií: existence a dostupnost dokumentace, existence patentů, rozšíření, funkčnost, softwarová podpora, validovatelnost, existence best practice s tímto formátem, perspektiva formátu. Podle těchto kritérií je formát bodově ohodnocen (čím vyšší tím lepší, maximem jsou zřejmě 4 body), body jsou přepočítány a výsledkem je tabulka srovnávající formáty:
https://kost-ceco.ch/wiki/whelp/KaD/index.php?ld=https://kost-ceco.ch/wiki/whelp/KaD/pages/Bewertungsmatrix.html
Zeleně označené (v dolním řádku) jsou formáty vhodné pro archivaci, červeně označené jsou nevhodné pro archivaci. Například pro obrazová data je nyní zřejmě na prvním místě formát JPEG2000 (v listopadu 2017 byl ještě na druhém místě za formáty TIFF a PDF/A-2)

Hodnocení a tabulka jsou průběžně aktualizovány, naposledy v prosinci 2017.

pátek 1. prosince 2017

Nové verze (a hned dvě)

Od včerejška je dostupný JHOVE ve verzi 1.18. Za zmínku stojí asi hlavně přidání validace ICC profilů do JPEG modulu.
Release notes: https://github.com/openpreserve/jhove/releases/latest.
Download JHOVE 1.18: http://software.openpreservation.org/rel/jhove-latest.jar.

K oslavě mezinárodního dne digital preservation se přidala i VeraPDF, která přišla s verzí 1.10. Bude to chtít trochu testování, ale zdá se mi, že se pustili do řešení několika velice nepříjemných potíží v oblasti validace unicode.

Release notes: https://github.com/veraPDF/veraPDF-library/releases/latest.
Download veraPDF:  http://downloads.verapdf.org/rel/verapdf-installer.zip.

středa 1. listopadu 2017

zajímavý nástroj: isolyzer

https://github.com/KBNLresearch/isolyzer/

Isolyzer verifies if the file size of a CD / DVD image ("ISO image") is consistent with the information in its filesystem-level headers. The following file systems are supported:
ISO 9660
Universal Disk Format (UDF)
Apple Hierarchical File System (HFS)
Apple HFS+
Hybrids of the above file systems, e.g. ISO 9660 + HFS; UDF Bridge (UDF + ISO 9660)

Isolyzer uses the information in the filesystem-level headers to calculate the expected file size (typically based on a block size field and a number of blocks field). This is then compared against the actual file size, which can be useful for detecting incomplete (e.g. truncated) ISO images. Isolyzer also extracts and reports some technical metadata from the filesystem-level headers.

30.11. 2017 International Digital Preservation Day!

čtvrtek 21. září 2017

CDA 2017: Výmena skúseností z prevádzky a budovania LTP archívov

Na programu (http://cda.kultury.sk/sk/program) jsou tři příspěvky z projektu NDK, což je určitě jeden z důvodů proč konferenci navštívit. Zajímavý by mohl být také příspěvěk o projektu Elektronický archív Slovenska, o kterém se toho tak moc neví. 

Konefernce je zaměřená na velké národní projekty, akdemické instituce s výjimkou KNAV tady nepřednášejí. Škoda, že se nedozvíme nic o českém projektu NDA a aktivitách českých archivů...

registrace: http://cda.kultury.sk/sk/node/249
9.11.2017,  Univerzitná knižnica v Bratislave, Centrálny dátový archív
Miesto konania: Prednášková sála UKB, Ventúrska 11, Bratislava

sobota 16. září 2017

Digital Dunhuang: A Standard for Digital Preservation

Tenhle projekt je v digitální podobě skoro stejně impresivní, jako fyzický originál. Nejrozsáhlejší jeskynní komplex na Hedvábné stezce, který proslul pozoruhodnými freskami a také obrovskou knihovnou rukopisů (kde se mimo jiné našly nejstarší verze řady čínských textů, asi 50 tis. rukopisů, 15.tisk knih atd. ) je postupně převáděn do digitální podoby.

Digitalizace 3D objektů v nebývalém rozsahu a kvalitě, včetně HD video snímání jednotlivých jeskyní, jejich modelace v CADu atd. A samozřejmě se také řeší, jak data z takového projektu dlouhodobě uchovat (a zpřístupnit, protože "dunhuangologie" je už samostatný obor, o data mají zájem badatelé po celém světě). Zajímavé je, že projekt také uchovávání informace o měřeních klimatických podmínek v jeskynních.

Komplex, který je pod ochranou UNESCO, je dokumentován do digitální podoby mj. s pomocí Getty Institute a Mellon Foundation.

Škoda, že je článek tak stručný, bylo by pěkné vědět jaké technologie se používají.

Digital Dunhuang: A Standard for Digital Preservation, Peter Zhou University of California, Berkeley 
https://ipres2017.jp/wp-content/uploads/Keynote-peter-edited-by-Nakayama.pdf 

čtvrtek 14. září 2017

Za Pasigem 2017, Oxford 11-13.9.

(slidy z prezentací budou dostupné na https://pasigoxford.figshare.com/)

Tohle jsou nesystematické poznámky a dojmy z Pasigu v Oxfordu. Trochu přitom přemýšlím nahlas a snažím se zaznamenat zajímavé příspěvky.
  • Lokalita – místo konání konference byla doslova koloniální (Oxford University Museum of Natural History, a hned za ním bylo Pitt Rivers Museum). Koloniální nádech pak měly i samotné příspěvky, kde dominovaly velmi výrazně příspěvky z USA a UK. Jako by dřívější tahouni digital preservation v EU usnuli….bohužel. Koloniální byla i forma podání příspěvků – žádné velké technikálie, trochu show…
  • Vendors – rozhodně pozoruhodná byla rozsáhlá účast sponzorů, poskytovatelů komerčních řešení pro digital preservation. Celkem 11 sponzorů velmi silně ovlivnilo program konference…(lightnig talks, vender demos, a uživatelské prezentace). Několik příspěvků, které se tvářily jako odborné, končilo dobrou zprávou, že si po problémech instituce pořídila profesionální SW a teď už je všechno v pořádku (příspěvky Eduardo del Valle, University of the Balearic Islands, Catherine Taylor, Waddesdon Manor a další…). 
  •  Audiance – více než polovina účastníků byla na Pasigu poprvé. Takže jim asi nevadilo poslouchat příspěvky během prvního dne (Introduction to DP, Standard and Models, Certification and validation). Zazněla také řada příspěvků institucí, které se začaly zabývat LTP teprve nedávno, a člověk si trochu připadal jako před deseti lety….(Josefien Schuurman, Netherlands Institute for Sound and Vision, Angeline Takawira, UN MICT, Behrang Mousavi, Dutch Institute for Architecture – HNI). Zvlášť příspěvek Josefien Schuurman z Holandska mě vyděsil, vypadá to, že Královská knihovna v Haagu jiným institucím moc nepomáhá a úroveň spolupráce mezi knihovnou a dalšími institucemi v Holandsku asi nebude nijak valná…a propos spolupráce
  •  Spolupráce – pořád opakované zaklínadlo, že LTP nelze dělat bez komunity a spolupráce. Tohle asi době funguje v USA, kde sítě jako DPN nebo LOCKSS (které se díky financím z Mellon foundation znovu probouzí k novému vývoji – viz příspěvek Art Pasquinelli, Stanford University Libraries) a možná v UK díky JISCu nebo DPC. 
  • Vědecká data – určitě stojí za to sledovat vývoj v projektu JISC RDSS ("Jisc Research Data Shared Services (RDSS) inititive" John Kaye, "Jisc RDSS use case: Arkivum/Archivematica" Matthew Addis, Arkivum & Justin Simpson, Artefactual) kde se děje něco dramatického v oblasti správy a uchovávání vědeckých dat. V pilotním projektu dodavatelé komerčních LTP (Arkivum, Preservica, Archivematica) a repozitářů (velká řada repozitářů) spolupracují s JISCem na vývoj komponent, která mají zajistit sdílené řešení pro LTP s využitím LTP systémů, které instituce již používají. Také další příspěvek byl o vědeckých datech, resp. velkých vědeckých datech, kde zdá se mají velké plány ("Long term data preservation meets the European Open Science Cloud" Jamie Shiers, CERN) a během příštího roku projdou ISO 16363 certifikací. 
  • Open source - Kde je Roda? U Artefactual jsem přestal věřit, že jde o „open source“ – je to jen business model. V oblasti LTP systémů (ne repozitářů už) neexistuje open source, ale spíš jen softwarová řešení, kde je kód veřejný – jak zaznělo, neexistuje žádná komunita, která by aktivně vyvíjela LOCKSS, u Archivematicy a Rody o tom mám také vážně pochybnosti. Něco jiného jsou asi konkrétní nástroje na identifikaci formátů a jejich validaci (jako jhove, droid, apache tikka apod) nebo různých částí infrastruktury (Fedora, duraspace apod) tam je asi zapojení komunity větší… 
  •  „Data together: Communities & institutions using decentralized technologies to make a better web" Matt Zumwalt, Protocol Labs, DataBindery – 100% pro!
  • "The Eclair Archive cinema heritage use case: Rising to the challenges of complex formats at large scale" Mathieu Giannecchini, Ymagis. LTP pro AV obsah (http://www.eclair.digital/)
  • https://github.com/artefactual/binder/blob/qa/0.8.x/README.md - další produkt Artefaktual využívající Archivematica Storage Servicepondělí 11. září 2017

CoreTrustSeal

Certifikace DSA (Data seal of approval) se definitivně přetransformoval v CoreTrustSeal (https://www.coretrustseal.org/about/). Konsolidace snah několika institucí, která me směřovat mj. také zahájení certfikace podle ISO 16363.

pátek 8. září 2017

Náklady na dlouhodobou ochranu digitálních dokumentů

V českém prostředí ojedinělá diplomová práce na téma Digital preservation cost od Zdenka Hrušky. Velmi pěkný je přehled existujících modelů a aplikace modelu Life3 na repozitář MZK.
https://is.muni.cz/th/217895/ff_m/Diplomka_final_IS.pdf


čtvrtek 31. srpna 2017

Reference rot

Dlouhodobá archivace digitálních dokumentů není jen o formátech. Reference nebo link rot je příkladem problému, který zatím nemá žadné rozumné řešení. Především výzkumné publikace a vysokoškolské kvalifikační práce stojí a padají s odkazy a citacemi, ovšem jak ukazuje tenhle empirickými daty podložený poster, po pěti letech může být polovina linků neplatná a desetina linkovaného obsahu může být ztracena zcela.

Doporučení autorů posteru - make and save mementos - znamená, že vyzývají autory textů a provozovatele repozitářů, aby zajistili možnost archivace obsahů v repozitářích a linkovaných obsahů projekty jako je Webvarchive. Tj. aby technicky umožnili crawlerům sklízení obsahu repozitářů. A sami autoři mohou archivaci iniciovat pomocí služeb jako je ArchiveIT.

http://scholarworks.umass.edu/acrl_nec_conf/2017/posters/6/