čtvrtek 30. dubna 2015

Archivematica - co je potřeba upravit pro reálný provoz?

Hybridní soubor jako příklad
Na příkladu ingestu hybridního souboru zde ukážu, čemu je třeba se věnovat, pokud by někdo chtěl používat systém Archivematica v provozu. 

Zkusil jsem do demo Archivematiky ingestovat klasický hybrid - OCR TXT, který obsahuje HTML tagy.
  • Droid/Fido ho chybně identifikují jako html - fmt/96
  • Archivematika ani nemrkne, a uloží to jako html soubor
  • Administrátor se nic nedozví o tom, že vložil soubor s koncovkou txt, který systém identifikuje a validuje jako html
  • Administrátor nemá žádnou možnost jak tohle v systému vyřešit (měl by se dozvědět, že s tím souborem není něco v pořadu a měl by mít nástroje jak to řešit, tak aby soubor skončil v archivu správně validovaný jako txt..)
Podobných hybridů je, především pokud jde o pdf, kolem poměrně dost. Archivematika není schopná s takovými soubory  "spolehlivě" pracovat, protože příliš spoléhá na Droid/Fido, které ale samy o sobě nejsou dokonalé - a pak chybně aplikuje další kroky - extrakci techMD (characterize), normalizaci.

Jaké úpravy mikroslužeb zvážit?  
Pro reálný provoz by to minimálně  chtělo modifikovat mikroslužbu identify, tak aby workflow kváklo, pokud koncovka (nebo i mime type) nesedí s tím, co zjistí Droid nebo Fido....

Ideálně by byly potřeba další výraznější úpravy mikroslužeb, tak aby administrátor mohl podobné situace vyřešit pro tento jeden konkretní soubor případně i pro všechny další přicházející se stejnou chybou v budoucnu....

Služby tvořící transfer a ingest (hlavně characterize a validate) by měly vědět:
  • s jakými vlastnostmi deklarovanými v metadatech třeba v SIP METS objekt přišel (např. v METS SIP může být mime type, originál file name, někdy i PUUID - viz standard NDK)
  • s jakou koncovkou a mime typem objekt přišel (v těle souboru)
  • co zjistil Droid/Fido v identify v předešlém kroku - a měly by si všimnout, pokud to nesedí s tím, co ví ony
  • služba normalize by měla před aplikací normalizace také provádět nějaké kontroly...

Optimalizace AIP METS
V AIP METS Archivematiky jsou rozporné informace.  Archivematice to možná nevadí:-), ale mě, pokud bych měl s takovými daty pracovat, by to asi dost vadilo. Bez rozumné úpravy je informace v METS AIP matoucí, a bylo by dobré předělat služby characterize a create AIP metadata, tak aby dávaly do AIP XML METS jen smysluplné výsledky.

V tomhle jednom triviálním příkladě je v AIP METS:
  • v premis object FormatregistryKey atd - formát fmt/96
  • premis object Charecteristics - výstup z FITS - identify výstup apache tika - unkwnon binary (další blbost - proč apache tiká tady?), vedle toho pak unix file (korektně plain text), NZME (extrakce tecMD - lenght, jinak nic moc), OIS FIle info (size, name, last modified), ffident (nesmysl), tika z znovu text/html, utf-8, jhove (jediný smysluplný výstup).
V tomhle totálním bordelu se o souboru dozvím, že to je "možná fmt/96 možná unkwnon binary nebo plain text, octet stream nebo formát UTF-8" ale v celém AIP METS xml není x-fmt/111 což ten soubor skutečně je....:-) Možná si tvůrčí Archviematiky myslí, že pořádek je pro blbce, otázka je, jestli to je přístup, jakým by mělo být ingestovano (protože o nic jiného než o ingest v Archivematice zatím nejde) větší množství dat. Podle mého názoru nikoli, bez úprav služeb by to do provozu jít někde nemělo...


středa 22. dubna 2015

Za humny je ... BitCurator Digital Forensics Workshop, Vídeň 29. května

AIT Vídeň pořádá na konci května celodenní workshop o nástroji BitCurator. BitCurator je nástroj na tzv. digital forensics. Dokáže pomoci s různými úkoly, vytvořit profily datasetů např. z pohledu formátů, dokáže vytvořit přehledy metadat (last edited, created), provádět migrace formátů, vyhledávat v datech údaje jako emaily, citlivé údaje apod. Pomůže také vytvořit image z pevných disků nebo disket a ty pak dále zpracovat.
BitCurator je open source, je distribuován jako linux distribuce a je velmi nápomocný v každodenních procesech digital preservation.
Pro další informace o workshopu, registraci atd. použijte tento link
http://wiki.opf-labs.org/display/KB/2015-05-29+From+the+Toolbox+-+BitCurator+Digital+Forensics+workshop

úterý 14. dubna 2015

27.5.2015 - Přednáška Jan Hutaře v Praze

ÚVT UK si Vás dovoluje pozvat na přednášku

Dlouhodobá ochrana digitálních informací v Národním archivu na Novém Zélandu

Přednášející
Mgr. Jan Hutař, Ph.D.
Digital Preservation Analyst, Digital Continuity Team, Archives New Zealand

Datum
27. května 2015
14,30 -16,30
(registrace od 14,00)

Místo
Univerzita Karlova, Celetná 20, Praha 1, 1. patro – Zelená posluchárna

Anotace 
Jan Hutař je od února roku 2012 členem týmu Digital Continuity v Národním archivu Nového Zélandu (NA NZ).  V přednášce bude informovat o tom, kam se za poslední dva roky dostal projekt „Government Digital Archive,“ který jako základní součást své infrastruktury používá systém Rosetta od firmy Ex Libris. Dozvíme se, co musel NA NZ řešit při prvních transferech digitálních dokumentů od původců a jak se projektu daří realizovat původní plány.

Paměťové instituce na Novém Zélandu patří v oblasti dlouhodobé archivace k nejaktivnějším na světě a podílí se na několika výzkumných projektech (např. Digital Preservation Technical Registry). Zajímavý bude tedy i pohled Jan Hutaře na současný vývoj v oblasti dlouhodobé archivace.

Registrace:
Kapacita sálu je omezena, registrujte se proto co nejdříve e-mailem na eva.ruzickova@ruk.cuni.cz

URL pozvánky
http://goo.gl/TLALSN



pátek 10. dubna 2015

Publikovány prezentace z konference pracovní skupiny PASIG (Preservation and Archiving Special Interest Group)

V březnu 2015 proběhlo letošní setkání skupiny PASIG a prezentace opravdu stály za to. Nyní jsou dostupné online - zde http://library.stanford.edu/projects/preservation-and-archiving-special-interest-group/international-meetings/march-2015-san

Z těch, z mého pohledu, nejzajímavějších bych vybral:

  • System Architecture for Digital Preservation (Neil Jefferies, Oxford University) - velmi obsáhlá prezentace o základech Digital Preservation, současném vývoji, problémech apod. 
  • Preservation Policy for Humans (Nick Ruest, York University and Stephen Marks, University of Toronto) - potřebujete napsat Strategii dlouhodobé ochrany pro vaši instituci? Pak je tato prezentace pro vás, navede vás potřebným směrem.
  • Cloud storage for preservation (Joseph Lampitt, Oracle) - je uložení v cloudu opravdu tak výhodné i pro velké objemy dat?
  • Trustworthiness of Preservation Systems (David Minor, UC San Diego) - co je důvěryhodný digitální repozitář a proč je toto téma stálicí Digital preservation komunity? Prezentace podává pěkný přehled všech rámců certifikace nebo auditu, které jsou v současné chvíli dostupné.
  • Preservation planning at BnF (Thomas Ledoux, Bibliothèque nationale de France) - jak probíhá plánování dlouhodobé ochrany v NK Francie? Kdo všechno je v procesu zapojen a jaké kroky proces má?
  • Finnish Digital Preservation Service for Cultural Heritage (Mikko Tiainen, CSC - IT Center for Science Ltd.) - prezentace popisuje finskou národní infrastrukturu a systém pro dlouhodobou ochranu. Velmi dobře použitelné jako inspirace např. pro české prostředí. Prezentace také uvádí plány do budoucna, mezi nimi je i certifikace (ISO 27001 v roce 2015 a až za dva roky na to ISO 16363). Finové si vyvinuly vlastní LTP systém s použitím open source nástrojů.
  • Preserving digital records and databases (Luis Faria, KEEP) - je představením projektu na ochranu databází a hlavně LTP nástroje RODA
Prezentace LTP systémů


Na webu PASIG jsou dále dostupné záznamy z webinářů - http://www.preservationandarchivingsig.org/index.html

čtvrtek 9. dubna 2015

PERICLES project extractor PET - co všechno má smysl extrahovat a ukládat?

https://github.com/pericles-project/pet
V podstatě jakýsi generický extraktor informací o kontextu a provenanci objektů a o jejich prostředí.

PET works by analysing the use of the data from within the creator or consumer environment, extracting information useful for the later reuse of the data that is not possible to derive in later phases of the data lifecycle, as for example at ingest time. It works based on sheer curation principles, but has no remote functionality, so the environments user has full control of which information to extract and to keep. The tool works by analysing both files, and their changes, and the system environment.

no, asi to chce příklady?
https://github.com/pericles-project/pet/wiki/Examples
https://github.com/pericles-project/pet/wiki/Scenarios

Inforum: Certifikace Národní digitální knihovny podle ISO normy 16363

Na letošní konferenci Inforum byl oznámem zajímavý příspěvěk:

Certifikace Národní digitální knihovny podle ISO normy 16363
Jan Mottl, AiP Safe s.r.o.

Abstrakt
Shrnutí poznatků a zkušeností z průběhu první fáze Certifikace Národní digitální knihovny podle ISO normy 16363
.

Takže budování důveryhodného dlouhodobého repozitáře v souladu s ČSN ISO 16363 v NDK skutečně začalo, snad alespoň vytvořením dokumentace a selfauditem.

Bude zajímavé sledovat, zda NK došla k podobným poznatkům o samotném procesu jako např. Bernadette Houghton zde (http://www.digitalpreservation.cz/2015/03/duveryhodnost-self-audit.html) nebo kolegové ze Státní a univerzitní knihovny v Aarhusu, Dánsko (zde http://digitalbevaring.dk/wp-content/uploads/2014/12/Elstroem_Junge_Self_Assessment.pdf).

Na Slovensku vloni prošla podobným procesem UKB se svým projektem CDA - nejprve provedli certifkaci podle ISO 27000 a ISO 9000 a pak selfaudit podle ISO 16363. Jejich dokumentace je z části dostupná online na http://cda.kultury.sk/sk/CDA_dokumenty. Podobnými procesy prošly v minulých letech některé další knihovny a projekty mimo ČR. 

V EU se doporučuje jako první krok při budování důvěryhodného dlouhodobého repozitáře selfaudit podle DSA (český překlad je na http://dsa.cuni.cz/). V České republice tímto procesem prošel zatím jen repozitář MFF Lindat/Clarin (https://assessment.datasealofapproval.org/assessment_92/seal/html/)




Network Digital Heritage (NDE) v Nizozemí

Holanďané mají proti ČR dost náskok už dlouho. Jejich MŠMT založilo instituci Network Digital Heritage (NDE), která publikovala Národní strategii ochrany digitálního kulturního dědictví (http://www.rijksoverheid.nl/bestanden/documenten-en-publicaties/publicaties/2015/03/09/nationale-strategie-digitaal-erfgoed/nationale-strategie-digitaal-erfgoed-docx.pdf)

Naneštěstí jsou všechny informace holandsky, takže nám zbývá jen krátký blogový příspěvěk, kde jsou vidět cíle a pracovní skupiny (http://digitalpreservation.nl/seeds/dutch-digital-developments/)

Jdou na to hodně marketingově a tak mají na youtube i takovéhle pěkně chrochtavé video: 

čtvrtek 2. dubna 2015

K zamyšlení o Digital Preservation

Na webu Free Government Information byla zveřejněna reakce na článek, který údajně hrubě zkresloval některé skutečnosti o dlouhodobé ochraně digitálních dat. Autoři FGI si dali tu práce a napsali reakci, která sama o sobě (tedy i bez čtení původního článku) stojí za přečtení. Je to vlastně souhrn fakt, která velmi často lidé pomíjejí, mj.:

  • Preservation of born-digital information is a very real and important topic
  • Digitization of print information is not a preservation solution
  • Access is not preservation
  • Digital preservation is an essential activity of libraries
  • Relying solely on the government to preserve its information is risky. 
V textu jsou ještě další body, ale ty jsou relevantní spíše pro instituce americké státní správy.

Celý text je dostupný zde http://freegovinfo.info/node/9462