pondělí 30. března 2015

Dvě monografie o dlouhodobé archivaci

V oblasti dlouhodobé archivace není mnoho monografií, které by mělo smysl přeložit a které by mohly posloužit širšímu publiku v překladu do češtiny. Existuje řada publikací, spíše starších, které mají charakter vysoce odborného textu pro profesionály (Advanced Digital Preservation, Giaretta, David, z roku 2011, Preserving Digital Information,  Henry Gladney, z roku 2007 a několik starších monografíí) nebo mají povahu podrobného manuálu pro praktiky (DigitalCuration: A How-To-Do-It Manual, Ross Harvey z roku 2010 a pod). Další publikace se věnují jednomu specifickému problému - digitálnímu formátu/formátům, formátu nebo typu metadat nebo datovému modelu a podobně. Kromě monografií existuje v tomto oboru řada sborníků z konferencí, ani ty se ale k překladu nehodí. Protože v této oblasti informace velmi rychle zastarávají, nehodí se k překladu ani výborné, leč starší publikace jako je kniha Ingeborg Verheul Networking for Digital Preservation, Current Practice in 15 National Libraries z roku 2008 a některé starší texty, které obsahují aktuální informace o praxi v jednotlivých institucích ve světě.

V posledním době (2013 a 2014) vyšly dvě monografie, které mají podobný cíl - popularizovat dlouhodobou archivaci jako téma v paměťových institucích. Jsou zaměřeny na řídící pracovníky a odborníky z jiných oblastí (jako jsou IT experti a správci obsahu - kurátoři, správci sbírek, knihovníci), kteří mají potřebu se dlouhodobou archivací začít zabývat.

Publikace Adriana Browna, britského experta na dlouhodobou archivaci, s názvem PracticalDigital Preservation, A how-to guide for organizations of any size z nakladatelství Facet (2013) obsahuje některé velmi pěkně napsané části (kapitola 8 - vysvětlení principů a konceptů dlouhodobé archivace). Řada pasáží má povahu návodu jak postupovat -  úvodní kapitoly vysvětlují, jak dlouhodobou archivaci legitimizovat, jak napsat projekt, jak vypsat výběrové řízení, jak z ní udělat business case, jak napsat LTP policy a strategie, co by měla obsahovat procesní dokumentace, jak postupovat při transferu dat do archivu apod. atd. V některých částech text působí trochu jako encyklopedie vypisující jednotlivé přístupy, standardy nebo nástroje. Velmi pěkné jsou ilustrace z praxe britských institucí, jak z oblasti knihoven tak archivů, ale jsou velmi dlouhé a brzy zastarají a jejich relevance pro českého čtenáře nebude moc velká. Nevýhodu této publikace vidím také v rozsáhlé kapitole věnované možnostem zpřístupnění, kde je obecně pojednána problematika digitálních knihoven a dalších technologií, které přímo s digitální archivací nesouvisí.

Rozsahem srovnatelná monografie amerického experta E. Corrada a Heather Lea Moulaison  Digital Preservation for Libraries, Archives, and Museums (2014) je velmi podobně zaměřená. V porovnání s Brownovou publikací si ve statistikách Amazonu vede mnohem lépe (na 100 000 pozici v porovnání s Brownem, který je za milionem v pořadí podle počtu prodaných kopií všech knih) a je přesně o rok novější. Kniha je přehledně členěná do čtyř částí
1)    úvod do dlouhodobé archivace digitálních informací
2)    aspekty související s řízením
3)    technologické aspekty
4)    aspekty související s obsahem
V první části autoři definují, co je dlouhodobá archivace a jaké jsou důvody se jí zabývat. Popisují, jak zahájit projekt dlouhodobé archivace, a zdůrazňují, že projekt dlouhodobé archivace musí zahrnout jak management instituce, tak odborníky na ukládaný obsah (kurátory, knihovníky, správce sbírek) a IT odborníky. Dlouhodobá archivace se týká celé triády - řízení, technologií a obsahu. V úvodu se popisuje, co všechno dlouhodobá archivace není (zálohování nebo jen bit level preservation ani zpřístupněni - podobná debata je i v Brownově knize v trochu jiném provedení). Dlouhodobou archivaci nelze izolovat od provozu a fungování zbytku instituce. Pro definici klíčových aspektů dlouhodobé archivace vychází text z jednoho dokumentu JISC, použité kategorizace nebo terminologie mají za sebou vždy nějakou obecně uznanou taxonomii/terminologii. Kde to jde, jsou použity tabulky s definicemi, díky tomu může text byt stručnější.
Na rozdíl od Browna Corrado zařadil kapitoly o archivaci vědeckých dat a o digital humanities (tj. kapitoly 10 a 11).  V Corradově textu jsou přehledně popsány nástroje na audit a certifikaci, metadata a související problematika, postupy plánování LTP, problematika budování sbírek a pojednáno je téma digitálních formátů, jejich kvality, validace atd. apod. - kapitoly 5, 6, 7 jsou dobře napsané, kapitola popisující OAIS koncepty je stručnější než u Browna.

Corrado více cituje, má vice odkazů za každou kapitolou. Brown uvádí více příkladů  a use casů   - rozsáhle popsaných případů uvedených v samostatných kapitolách nebo v příloze, což ale text výrazně prodlužuje.

Obecně, Corradův text má spíš povahu monografie, Brownův spíš povahu prakticky orientované příručky. Oba texty popisují podobnou problematiku, ovšem Corradův text má podle mého názoru trvalejší hodnotu a je lépe použitelný jako popularizační úvod a přehledová studie k oboru, speciálně v českém prostředí. Věnuje se i tématům jako vědecká data, audit repozitářů, což jsou oblasti dlouhodobé archivace, které  jsou v současnosti jsou velmi aktuální.  

Jedinou slabinou Corradova textu je u nás nepříliš relevantní kapitola o možnostech vzdělávání (zaměřená na nabídku univerzit v USA – cca 7 stran) 

Pro výběr Corradovi knihy k možnému překladu mluví zejména, to, že:
-       je novější
-       je stručnější v příkladech a popisech technologií, tedy tam kde text rychleji zastará
-       je asi o ⅓ kratší při pokrytí podobných témat
-    je méně “metodická” - spíše je to přehledová publikace z oboru než příručka how to, jako Brown
-       je méně encyklopedická

Obsahy obou knih naleznete pro rozkliknutí na celý článek

pátek 27. března 2015

Falling Though the Cracks: Digital Preservation and Institutional Failures - video [Jerome McDonough]

Jerome McDonough a jeho přednáška dostupná jako video. Mluví o tom, zda knihovny, muzea a archivy jsou opravdu schopné poskytovat dlouhodobou ochranu digitálních dat v oblasti kultury. 

Falling Though the Cracks: Digital Preservation and Institutional Failures from CNI Video Channel on Vimeo.

Důvěryhodnost: Self-audit institucionálního repozitáře podle ISO 16363-2012

V posledním vydání časopisu D-lib vyšel pěkný článek o self-auditu pomocí ISO 16363. Je z univerzitního prostředí a Bernadette Houghton v něm popisuje zážitky z provádění auditu, přípravu na něj i výstupy. Článek může být extrémně užitečný instituci, která se na podobný self-audit vlastními silami chystá.

Bernadette Houghton. Trustworthiness: Self-assessment of an Institutional Repository against ISO 16363-2012. http://www.dlib.org/dlib/march15/houghton/03houghton.html
V článku je 16 doporučení pro správce repozitářů, kteří by se do auditu chtěli pustit. :
 1. Do a self-assessment before considering paying for external certification. Certification — and re-certification — is expensive.
 2. Get senior management on board. Their support is essential. Digital preservation is a long-term issue.
 3. The individual doing the self-assessment should be reasonably familiar with the organisation's and repository's policies and procedures.
 4. If you don't have the time or resources to undertake an ISO 16363 assessment, consider doing an assessment against NDSA Levels of Digital Preservation (Owens, 2012).
 5. Set up a wiki to document the self-assessment. Do this at the start, and document findings as you go along.
 6. Tailor the self-assessment to risk and available time and resources.
 7. Determine in advance how deep the assessment will go. For example, will the assessor just collect and review documentation, or will he also check to ensure that documented procedures have been followed and everything 'under the hood' is working properly?
 8. Use local knowledge when gathering documentation. ISO 16363's 'suggested evidence' are possibilities only.
 9. Become familiar with the criteria before you start the assessment. Some documentation will be relevant to multiple criteria, so it saves time if you can identify those criteria early on.
 10. Remember, not all ISO 16363 criteria will be applicable to your particular situation.
 11. Keep up the momentum. Finishing the self-assessment does not mean the hard work is over. There will be improvements that need making. Aim to build up your repository's digital resilience over time.
 12. Schedule regular self-assessments.
 13. If you're thinking about doing an ISO 16363 self-assessment at some time in the future, start the process now. Set up a wiki page to record relevant documentation you come across in the meantime. Keep a watching brief on digital preservation issues, and update the wiki as needed to save time later on.
 14. Don't assume that because your repository software is OAIS-compliant, your repository itself is also. Workflows and repository setup can make or break OAIS-compliance.
 15. Not all ISO 16363 criteria have the same importance or risk level. Assess each criteria accordingly.
 16. ISO 16363 is based on a conceptual model (OAIS). Don't expect the criteria to necessarily align with your repository's particular setup and workflows.

The long decade of digital preservation in heritage institutions in the Czech Republic

Článek na IJDC.net:

The long decade of digital preservation in heritage institutions in the Czech Republic: 2002–2014
Jan Hutař, Marek Melichar, 2015, Vol. 10, No. 1, pp. 173-183, http://dx.doi.org/10.2218/ijdc.

Nova verze jpylyzeru

Jpylyzer 1.14.1 - nástroj na extrakci technických metadata ze souboru jpeg 2000 - obsahuje především vylepšení výstupu v XML, k dispozici je nově i XSD schema. Více na
http://jpylyzer.openpreservation.org/2015/03/25/Release-of-jpylyzer-1-14-1/

Přehled open source nástrojů pro správu a manipulaci s daty od amerického národního archivu (NARA)

V souvislosti s přechodem na výhradně digitální "spisovou službu" v USA vydal NARA přehled nástrojů, které mohou jednotlivým institucím a úřadům napomoci ve správě a manipulaci s digitálními dokumenty. V seznamu naleznete běžné nástroje, ale i některé se specifickým využitím. Protože se jedná o volně dostupné nástroje, nic nebrání jejich využití i v českém prostředí.
Seznam je ke stažení zde
http://www.archives.gov/records-mgmt/prmd/open-source-tools-for-records-mgmt-report.pdf

neděle 22. března 2015

Nový (český) blog o dlouhodobé ochraně digitálních dat

Na webu se objevil nový blog o LTP v češtině. Jde o výstup studentů brněnského KISKu, kteří se o LTP zajímají a někteří z nich se dlouhodobé ochraně aktivně věnují v rámci projektů nebo zaměstnání. Blog je součástí většího projektu knihovna.cz (http://www.knihovna.cz/), který vzniká díky KISKu.
Blog naleznete zde http://ltp.knihovna.cz/. Je dobré vidět další možný zdroj relevantních informací v českém prostředí!

pátek 20. března 2015

Nové projekty

Možná si někdo všiml, že je mezi přispěvateli na tomhle blogu nové jméno, Zdeněk Hruška z KISKu a MZK, který stojí za projektem http://ltp.knihovna.cz/ a buduje i postupně se rodící portál k projektu LTP Pilot na https://sites.google.com/a/mzk.cz/ltp-portal/home.

Pokud vyjde jen třetina plánů, které v oblasti LTP vznikají kolem NAKI a dalších finančních nástrojů, bude pořád o čem psát:-)úterý 17. března 2015

ArchivesDirect - digital preservation v cloudu

V březnu byla pro veřejnost spuštěna cloudová služba ArchivesDirect. Pilotní projekt běžel od října 2014 a podílely se na něm vybrané univerzity v USA. Jde o spojení open source softwaru Archivematiky a DuraCloudu, které si bere z obou systémů to nejlepší. 
DuraCloud je služba pro správu dat a jejich kopií - po nahrání dat je možné si zvolit počet kopií i jejich zálohování do různých cloudových úložišť. Také provádí kontrolu dat na bit-level úrovni, nenabízí však ochranu na logické úrovni, jedná se tedy spíš o pokročilý zálohovací systém.
Achivematika nabízí propracovaný ingest dat, obohacování o metadata a normalizaci jako strategii dlouhodobé ochrany. Pokulhává ale ve správě dat na úložišti, neřídí počet ani umístění kopií, nekontroluje jejich integritu.
Spojení by tedy mělo odstranit slabiny a využít silné stránky obou řešení a jeví se jako cesta správným směrem.

neděle 15. března 2015

"Networked Information's Risky Future: The Promises and Challenges of Digital Preservation" aneb proč zálohy nestačí

Amy Kirchhoff, Sheila Morrissey, a Kate Wittenberg z organizace PORTICO (http://www.portico.org/digital-preservation/)
publikovali krátký ale zajímavý článek o digital preservation. Článek přináší jejich pohled na to co dlouhodobá ochrana je, že nejde pouze o ochranu dat (originálních souborů), ale primárně o ochranu obsahu a přístupu k němu. Ochrana dat je pouze nutný první krok.
Cílem je podle autorů "managed digital preservation", tedy aktivní procesy, plánování apod. s cílem ochránit obsah souborů, ne soubory samotné. Managed digital preservation je vpodstatě to samé jako termíny "aktivní ochrana" nebo "logická ochrana", s nimiž se lze občas také potkat.
PORTICO na svém webu uvádí pěkný přehled jednotlivých kroků dlouhodobé ochrany - http://www.portico.org/digital-preservation/services/preservation-approach/preservation-step-by-step


Článek je dostupný zde http://www.educause.edu/ero/article/networked-informations-risky-future-promises-and-challenges-digital-preservation


čtvrtek 12. března 2015

Vzorový provozní řád Digitálního archivu?

Vzorový provozní řád Digitálního archivu:  (http://www.mvcr.cz/soubor/65-vmv-pdf.aspx)

- slouží v podstatě především akreditaci digitálního archivu
- stanoví povinné organizační části archivu a  také předepisuje rozsah dokumentace

Klíčové OAIS koncepty chybějící v provozním řádu:

- informační obsah  - předmětem ochrany v OAIS není dokument ve formátu XY, ale informační obsah. Provozní řád OAIS koncept informačního obsahu a významných vlastností informačního obsahu zcela ignoruje. V celém textu se mluví „autenticitě a čitelnosti dat“ nikoli o „nezávislé srozumitelnosti / použitelnosti informačního obsahu“ – tj. zajištění srozumitelnosti bez asistence producenta – a bez jakékoli další dodatečné informace. OAIS očekává, že uživatel má pouze AIP a svojí knowledge base, a musí obsah umět použít a rozumět mu kdykoli v budoucnosti. To archiv fungující podle provozního řádu nezajistí.

Archiv fungující podle OAIS musí definovat, co je předmětem ochrany – nikoli dokumenty ve formátu XY, ale informační obsah, který reprezentuje například text v pdf, který má nějaké vlastnosti (kódování, fonty, stránkování, členění do odstavců, barvy, pozice obrázků, rozlišení obrázků, pořadí čtení, digitální podpisy, hlavičky a patičky a grafické prvky, pozadí, velikost stránky, počet znaků, počet slov, stran odstavců, počet bitů, počet objektů ). Pro jakékoli trvalé uchovávání obsahu v digitální podobě je třeba vědět, co se má zachovat – jak má budoucí uživatel informační obsah „vidět“ nebo použít. Pokud toto není definováno pro každý typ obsahu, nelze mluvit o ochraně ve smyslu OAIS.  

- designated community a její knowledge base – klíčové koncepty OAIS. Definice designated community určuje rozsah PDI (preservation description information) a rozsah PDI určuje funkce/procesy, které v archivu musí probíhat. Není-li definována designated community není ani jasné, jak budou zajištěny OAIS funkce v oblasti plánování uchovávání – například sledování knowledge base designated community …..
Plánování ochrany ve smyslu OAIS není „plánování uchovávání datových formátů“. Plánování ochrany je především sledování potřeb designated community, a pak, na základě znalosti „významných vlastností informačního obsahu“ aplikace takové ochranné akce (formátové migrace, doplnění metadat apod.) která uchování informačního obsahu v nezávisle srozumitelné a použitelné podobě umožní.

Provozní řád neříká, jaká je povinná struktura AIP – ani nemůže, když nedefinuje základní koncepty OAIS. Do provozního řádu asi popis informačniho modelu nepatří, ale pokud provozní řád kopíruje OAIS funkční entity, měl by existovat adekvátní popis "informačního modelu." 

Koncept „čitelnosti“ v textu provozního řádu (předpokládám, že jde v jazyce OAIS renderability) – zajištění čitelnosti neznamená uchování informačního obsahu nezávisle srozumitelného…navíc, čitelnost je definována KB designated community, kterou text provozního řádu nezná.

Můj závěr
Bez současné aplikace konceptů OAIS a aplikace auditu podle ISO 16363 (tj. také standardů informační bezpečnosti a ISO 9000) nelze na základě tohoto popisu vzorového provozního řádu očekávat, že takový archiv bude schopen trvalého uchovávání informačního obsahu v nezávislé srozumitelné podobě. Takový archiv bude možná umět uchovat soubory v definovaných formátech, ale jakmile dojde na převod z formátu do formátu, nebo změny technologie, nebude vědět jak převod udělat, ani kdy a ani proč …..  

Pokud má někdo jiný názor, rád si ho poslechnu. Protože nejsem archivář, neznám samozřejmě všechny předpisy a pravidla pro „digitální archiv“, a dívám se na to jen optikou OAIS a jeho obvyklého chápání….

úterý 10. března 2015

DAM Maturity Model

Náhodou jsem při listování knihou  Digital Asset Management od Elizabeth Ferguson Keathley narazil hned na začátku na upozornění na DAM Maturity Model.

Aktivita je to velmi podobná jako Digital Preservation Capability Maturity Model nebo NDSA Levels of Digital Preservation. Je zajímavé sledovat, jak více komunit směřuje v oblasti zvyšování kvality podobným směrem. 


pátek 6. března 2015

JISC Infokit: Digital File Formats

Docela přehledná, stručná a jasná informace k problematice formátů digitálních dat také z pohledu dlouhodobé archivace
http://bit.ly/1wLzZYX