čtvrtek 27. prosince 2012

Poznámky z konference Culture Heritage online

https://duha.mzk.cz/blog/konference-cultural-heritage-online-data-seal-approval

Na blogu P. Švástové v časopise Duha MZK se objevil příspěvek o konferenci CULTURAL HERITAGE on line a předcházející akci k Data Seal of Approval. 

středa 19. prosince 2012

Hodí se epub k dlouhodobé archivaci?

Jedním ze základních předpokladů formátu vhodného pro dlouhodobou archivaci je dostupnost kvalitních validátorů, (vedle dalších věcí jako jsou standardizace, rozšířenost, podpora SW, metadat atd. k tomu viz nedávný příspěvek na tomto blogu). V praxi nemusí být vždy jednoduché rozhodnout, co je validní  nebo nevalidní. Který soubor bychom měli pustit do dlouhodobého archivu, a který má už vlastnosti, jež ohrozí trvalou dostupnost uloženého obsahu?

Na příkladě born digital dokumentů si ukážeme, jak velkou roli mohou hrát právě validátory. Použili jsme soubor 595 dokumentů ve formátu epub z různých zdrojů, část je v českém jazyce z volných zdrojů a část je v cizích jazycích. Tento soubor jsme identifikovali DROIDem verze 6.01, signature files v 65. Pak jsme zkusili dva nejrozšířenější validátory, Epubcheck a Flightcrew v posledních verzích. S obvyklými nástroji jako je Jhove tady moc nepořídíme, Jhove označuje všechny epuby za bytestreamy a pokud je tedy nerozbalíme, a nevalidujeme jejich obsah samostatně, nemá jeho použití moc smysl.

A co jsme se dozvěděli?

neděle 16. prosince 2012

Co nového přináší PDF/A-3 a jak to ovlivní dlouhodobou ochranu digitálních dat?

Butch Lazorchak před dvěma měsíci publikoval na svém blogu http://blogs.loc.gov/digitalpreservation/2012/11/all-in-embedded-files-in-pdfa/ zajímavý článek shrnující nový formát PDF/A-3. Krátce vysvětluje jeho podstatu a implikace pro dlouhodobou ochranu. Jádrem debaty je schopnost nového formátu vložit jakýkoliv jiný soubor v jakémkoliv formátu, tedy např. MS Excel tabulku, video apod. Tento objekt by měl být zobrazitelný a pokud uživatel má odpovídající softwarovou aplikaci, tak také editovatelný. Zajímavá je i debata pod samotným blogem.

čtvrtek 13. prosince 2012

PDF/A v praxi v Národní lékařské knihovně

Zajímavý článek z českého projektu, kde se testovaly různé nástroje pro konverzi PDF dokumentů do PDF/A od Filipa Kříže a spol. z NLK je zde:

http://sites-final.uclouvain.be/EAHIL2012/conference/?q=node/984

Primárně asi pracovali s e-born daty, takže pro mnohé instituce, které dnes mají v repozitářích vysokoškolské kvalifikační práce v různých verzích PDF, je tohle určitě velmi cenný test.


středa 12. prosince 2012

Jaké vlastnosti má vlastně mít otevřený datový formát, aby se hodil pro dlouhodobou ochranu?


V odborném časopise Information technology and libraries vyšla zajímavá studie Examining Attributes of Open Standard File Formats for Long-term Preservation and Open Access (autoři Eun G Park a Sam Oh).
Velmi čtivou formou zkoumá a popisuje vlastnosti tzv. open standard formátů, které jsou považovány právě pro svoji otevřenost za vhodné pro dlouhodobou ochranu. Autoři rozebírají v úvodu předchozí podobné analýzy kritérií, které různí autoři a instituce aplikovali při výběru vhodných datových formátů pro dlouhodobou ochranu svých dat. Na konci je přehledná tabulka s kompilací jednotlivých kritérií a vlastností tzv. otevřených formátů. Ukázalo se, že nejčastější kritéria mohou být rozdělena do 5 kategorií: funkcionalita, metadata, otevřenost, interoperabilita a nezávislost. Doplňková kritéria jsou zobrazení, autenticita, rozšířenost použití a další.



pondělí 10. prosince 2012

Odhady nákladů na dlouhodobou ochranu digitálních informací

V oblasti měření nebo odhadu nákladů na dlouhodobou archivaci digitálních informací vznikla v posledních letech řada modelů. Na tomto blogu jsme informovali například o projektu California Digital Library,  projektu Life nebo o projektu Královské knihovny v Dánsku.

Pěkný seznam projektů a článků z téhle oblasti teď vzniká na wiki Open Planets Foundation.
http://wiki.opf-labs.org/display/CDP/Home




pátek 30. listopadu 2012

Indikátory kvality pro webové archivy - ISO/DTR 14873

V draftu je k dispozici norma ISO/DTR 14873 Information and documentation — Statistics and Quality Indicators for Web Archiving.

Norma specifikuje, nebo lépe řečeno bude specifikovat, jak se má v oblasti archivace internetu měřit kvalita a velikost sbírky, úspěšnost sklízení, využívání dat, nebo jak se má posuzovat kvalita uložení. Poskytuje tedy v mnoha oblastech metodický návod, jak řídit webarchiv.

Zajímavá je už úvodní část, kde jsou definovány základní termíny z oblasti archivace webu.

Draft je k dispozici online, na serveru IIPC:

http://netpreserve.org/sites/default/files/resources/SO_TR_14873__E__2012-10-02_DRAFT.pdf

čtvrtek 29. listopadu 2012

Rýsuje se zapojení Microsoftu do řešení problémů dlouhodobého uchování?

Chris Rusbridge publikoval koncem října na svém blogu Unsustainable Ideas otevřený dopis Tonymu Heyovi, viceprezidentovi Microsoft Research Connections, s výzvou, aby Microsoft zveřejnil specifikace svých starších digitálních formátů. Výzva vyvolala zajímavou diskuzi v komentářích na blogu, včetně podpory ze strany mnoha paměťových institucí i jednotlivců anagažujících se v oblasti digitálního uchování. Některé body z této diskuze Chris shrnul v dalším samostatném příspěvku.

Z Microsoftu nedlouho poté přišly dvě poměrně pozitivní reakce. Podle Tonyho Heye Microsoft sice nemá požadované specifikace k dispozici a většina zaměstnanců, kteří se podíleli na vývoji původních formátů, už v Microsoftu nepracuje, ale Microsoft je ochotný spolupracovat na dodatečném zpětném vytvoření těchto specifikací, např. formou crowdsourcingu. Navíc by mohl zvážit vytvoření speciálních licencí, které by umožnily využít starší verze operačních systémů a MS Office pro zpřístupnění a konverzi starých digitálních formátů. Přišla také reakce Jima Thatchera z týmu Office and standards interoperability, podle kterého se Microsoft bude snažít přijít s kontrétními návrhy, jak se posunout v řešení těchto problémů dále.

Vstup tak významného hráče, jakým je Microsoft, by mohl představovat zásadní průlom v řešení některých problémů v oblasti digitálního uchování, za něž je Microsoft bezesporu sám spoluodpovědný. Z reakcí není jasné, nakolik jde o závazné stanovisko Microsoftu, ale vypadá to, že snaha by tady mohla být. Že by se blýskalo na lepší časy?

pondělí 26. listopadu 2012

Vyhledávač v registrech formátů je online

Gary McGath zveřejnil svůj nástroj na vyhledávání v (procházení) registrech formátů online [http://regbrowser.appspot.com/]. Nástroj prohledává PRONOM, DBpedii a UDFR registry, a to podle MIME type, názvu, koncovky a registru, nebo jejich kombinace.
Jde o stejný nástroj, který před pár týdny zveřejnil na stránce GitHub ke stažení [https://github.com/gmcgath/format-reg-browser].

Format Corpus

Pánové z Open Planets Foundation a projektu SCAPE tvoří velmi zajímavý korpus /volně dostupný/ digitálních formátů.
Jeho současný obsah vidět na http://www.opf-labs.org/format-corpus/tools/coverage/reports/
Další informace tady: https://github.com/openplanets/format-corpus

Nejde jen o to, že by snad chtěli posbírat co nejvíc zajímavých formátů, ale cílem téhle aktivity je zvýšit počet souborů, které jsou nástroje jako Droid, Tika, File, atd schopny identifikovat. Také chtějí směřovat k vytvoření jednotného workflow pro vytváření file signatures tak, aby nebylo třeba vytvářet signatures pro každý nástroj zvlášť. K tomuto účelu také pracují na nástroji, který má sdílení signatures usnadnit, kterému říkají Fidget.

Více zde:
http://wiki.curatecamp.org/index.php/Collecting_format_ID_test_files
http://wiki.curatecamp.org/index.php/Improving_format_ID_coverage

Vedle zde zmiňovaného "atlasu digitálních poškození" je tohle ještě další pokus vytvořit základní globální infrastrukturu informací o digitálních formátech.

Jak na zálohy a jak se liší od dlouhodobé archivace...

Public Record Office australského státu Victoria vydal ke komentářům popisný dokument "Use of Back Up Technology to Archive" [ke stažení ZDE]. Velmi pěkně a v krátkosti popisuje rozdíl mezi zálohami dat a archivací dat v dlouhodobém horizontu. Archivace je možnost použít data v budoucnu i v novém technologickém prostředí. Záloha je pouze krátkodobá záležitost. Podařený je také popis typů záloh a rizik spojených s jejich využitím, pokud by měl někdo pocit, že záloha je řešením dlouhodobým a dokáže nahradit dlouhodobou archivaci.
A samozřejmě, pokud máte chuť, pošlete kolegům vaše připomínky.

úterý 20. listopadu 2012

Archivace softwaru: co si přečíst na toto téma

Hezký příspěvek na blogu Kongresové knihovny shromáždil literaturu k problematice dlouhodobé archivace softwaru.
http://blogs.loc.gov/digitalpreservation/2012/11/preserving-exe-a-short-list-of-readings-on-software-preservation/

Konference v roce 2013

V oblasti dlouhodobé ochrany digitálních informací patří Archiving (momentálně ve fázi call for paper), spolu s iPresem a v poslední době také s konferencí Culture Heritage Online k tomu nejzajímavejšímu. Tady je předběžný seznam na rok 2013:

9. ročník konference Archiving se bude konat 2.-5. dubna 2013 ve Washingtonu
10. ročník konference iPres se bude konat 2.-5. září v Lisabonu
8. ročník konference DCC především o vědeckých datech se bude konat 14.-16. ledna 2013 v Amsterdamu

časem přidáme ještě další.

pondělí 12. listopadu 2012

Digitalizace audiovizuálního obsahu v NARA

Běžně na tenhle blog věci o digitalizaci nedáváme, ale u tohohle videa jsme udělali výjimku. Je tam vidět několik velmi zajímavých zařízení, a dokonce i to, jak v NARA pečou magnetické pásky (aby je mohli digitalizovat).

pátek 9. listopadu 2012

Šetrný přístup k dlouhodobé ochraně digitálních informací


Podobně jako máme přístup "líného rodiče" při ne/výchově dětí, Tim Collins prosazuje postoj "líného a lakomého archiváře" a v lecčems má samozřejmě pravdu. Rizika spojená s dlouhodobou archivací nejsou vždy jen rizika technická a spojená s formáty digitálních dat, ale také a především spojená s tím, jak data vybíráme a spravujeme. Kvalitní management dat je základem pro dlouhodobou ochranu digitálních dat.

Parsimonious preservation:  preventing pointless processes!
(The small simple steps that take digital preservation a long way forward
Tim Gollins

https://www.nationalarchives.gov.uk/documents/parsimonious-preservation.pdf

čtvrtek 8. listopadu 2012

Další vývoj PREMISu

Na konferenci IPRES 2012 proběhl Premis implementation fair. Podle zveřejněných prezentací (http://www.loc.gov/standards/premis/premis-implementation-fair2012.html) se zdá, že ve verzi Premis 3 můžeme očekávat některé důležité změny:
- upraven bude data model, a IE se stanou další vrstvou "objektu"
- do datamodelu přibude další entita - environment (SW, HW, format, dokumenty, atd. creating application je environment například)
- přibudou "preservation level types" entity
- experimentuje se s ontologiemi (OWL)
- a možná PREMIS směřuje ke standardizaci (ISO)


Podrobněji viz prezentace A. Dappert, Proposed Data Model Changes for PREMIS 3.0
http://www.loc.gov/standards/premis/pif-presentations-2012/PREMIS_Data_Model_Changes_final.pdf

Jinak za pročtení stojí i řada dalších prezentací, třeba k projektu Preservatin health check, SPOT modelu atd.



středa 7. listopadu 2012

ÚOHS - Zrušení tendru na LTP pro Národní digitální archiv

https://web.nacr.cz/zakazky/NDA_projekt_ISNDA/dokumenty/NDA_IS_NA_2011_1208sb195_UOHS_finalni_rozhodnuti.pdf

Dnes bylo zveřejněno rozhodnutí ÚOHS, na základě kterého bylo zrušeno VŘ na systém pro Národní digitální archiv. Pikantní jsou rozdíly v cenách jednotlivých nabídek, vítěz nabídl řešení za 68 milionů CZK, další nabídka byla 155 milionů. (Očekávaná výše zakázky byla přes 200 milionů CZK)

středa 31. října 2012

a další Hackaton - tentokrát online a celosvětový - téma: identifikace formátů [16.11.2012]

Další z reakcí na diskuze probíhající na konferenci iPRES. Navštivte CURATEcamp 24 hour worldwide file id hackathon Nov 16 2012 stránky pro další informace. Cílem je vytvořit nové specifikace formátů (tzv. signatures), které poté v různých nástrojích pomáhají jejich identifikaci (DROID, TIKA etc.).
Zapojit se může každý, práce bude probíhat online v týmech v jednotlivých částech světa (Evropa, Amerika, Austrálie/NZ) za pomocí skype, google hangout apod.

pondělí 29. října 2012

OPF Hackathon - Emulace


OPF Hackathon: Emulation, learn from the experts
13-15 November 2012
University of Freiburg, Germany

SCAPE - Training event k charakterizaci a identifikaci formátů

http://wiki.opf-labs.org/display/SP/Agenda+-+SCAPE+Training+event+-+Guimaraes
Tohle vypadá jako docela zajímavá akce. Ideální pro každého, kdo se chce seznámit s možnostmi a limity nástrojů pro identifikaci a validaci formátů. Součástí tréningu jsou praktická cvičení.

čtvrtek 25. října 2012

Certifikace podle ISO 16363 v ČR

První autorita v ČR nabízí certifikaci dlouhodobého důvěryhodného úložiště podle ISO 16363 založeného na TRACu.

http://www.v4systems.eu/cs/iso-16363

pátek 19. října 2012

PDF/A - 3 (ISO 19005-3:2012)

17. října ISO publikovala ISO 19005-3:2012, tedy třetí část normy pro PDF formát určený k dlouhodobé archivaci. Část tři je zaměřena na dlouhodobou archivaci PDF dokumentů s vloženými objekty. http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=57229

Atlas digitálních poškození

another_glich
Barbora Sierman z KB.nl vyprovokovala příspěvkem na svém blogu velmi zajímavou aktivitu. Na Flickru vzniká první zárodek atlasu poškození digitálních souborů.

http://www.flickr.com/groups/2121762@N23/

Některé vizuální efekty jsou nádherné. Časem bude třeba, aby se atlas stal součást globální infrastruktury informací o digitálních formátech. Ukázky poškození bude třeba klasifikovat, a to nebude jednoduché...ale zatím je místo na Flikru veřejné, takže nahrávejme....

PS: Další zajímavá aktivita v téhle oblasti se děle v OPF - tvoří volně dostupný korpus digitálních formátů, snaží vylepšit nástroje na identifikaci formátů a zjednodušit proces vytváření file signatures. Píšeme o tom tady:
http://digital-preservation-cz.blogspot.cz/2012/11/format-corpus.html




úterý 16. října 2012

pondělí 15. října 2012

Presto Prime - Final Showcase

Poslední party k projektu Presto Prime by měla proběhnout 21-22. listopadu 2012 ve Vídni. Pánové by měli mimo jiné také představit také praktický výsledek svojí práce, PrestoPRIME Preservation Platform, (tzv. P4), open-source systém určený pro dlouhodobou archivaci audiovizuálního obsahu.

Pozvánka na FINAL SHOWCASE: http://www.prestoprime.org/docs/Announcement-PPrimeShowcaseV03.pdf
P4:https://prestoprimews.ina.fr/public/deliverables/PP_WP5_D5.2.2_FirstPrototype_R0_v1.00.pdf
http://prestoprime.eurixgroup.com/p4doc/api/

pondělí 8. října 2012

Proběhla konference CNZ - Co po nás zbyde 2012

V prostorách NA ČR proběhl 4. října již několikátý ročník konference zaměřené na elektronizaci státní správy, využití digitálních dat a v posledních letech také na jejich uložení a ochranu.
Všechny příspěvky jsou dostupné jako PDF zde http://www.cnz.cz/konference-cnz/konference-cnz-2012 (nutno rolovat na spodek stránky). Mj. na konferenci zazněl příspěvek s velmi aktuální tématikou certifikace digitálního repozitáře:

  • David Giaretta - New activities for audit and certification of digital repositories; kde je velmi dobře popsána současná situace v oblasti certifikace digitálních repozitářů. Zmíněny jsou základní normy jako je OAIS, TRAC (ISO16363) a celkový rámec pro certifikaci od self-auditu (Data Seal of Approval) až po externí audit právě na základě ISO 16363. Tento příspěvek může být vodítkem pro mnoho českých repozitářů jakým směrem se vydat. Další informace jsou dostupné z webu http://www.digitalrepositoryauditandcertification.org nebo na www.iso16363.org.
  • Podobnou problematiku zmiňují také další příspěvky M. Širla a R. Kratochvíla.
Další příspěvky také stojí za prohlédnutí, zvláště posun českých archivů v oblasti nakládání s elektronickými dokumenty (procesy jako je příjem elektronických dokumentů, skartace, spisová služba apod.) je potěšující.

úterý 2. října 2012

NLA zveřejnila výsledky tendru na projekt DLIR

Národní knihovna Austrálie (NLA) dnes zveřejnila výsledky tendru na projekt Digital Library Infrastructure Replacement (DLIR), obdoby českého projektu Vytvoření Národní digitální knihovny (NDK). V tendru zvítězily firmy CCS Content Conversion Specialists GmbH s produktem docWorks a Tesella Ltd se Safety Deposit Box (SDB). V současné době probíhají pilotní testy obou systémů. Více o projektu DLIR se můžete dočíst zde http://www.nla.gov.au/about-us/dlir.

úterý 18. září 2012

DOI ISO standardem

Staronová novinka z obasti trvalých identifikátorů, DOI se stal ISO standardem letos v květnu.
ISO 26324:2012, Information and documentation -- Digital object identifier systemDalší informace a informace o systému DOI:
http://www.iso.org/iso/home/news_index/news_archive/news.htm?refid=Ref1561

Kromě toho byly letos publikovány další dva standardy z této oblasti:
ISO 27729:2012 - Information and documentation -- International standard name identifier (ISNI)
ISO 27730:2012- Information and documentation -- International standard collection identifier (ISCI)

Dotazník APARSEN - What is the state of digital preservation in your organisation?


APARSEN (Alliance for Permanent Access to the Records of Science in Europe Network), a project that runs under the ICT directorate of the EUROPEAN COMMISSION aims to produce a study which evaluates digital preservation in terms of importance, value, benefits, currents activities, costs and future involvement among European libraries, archives and research organizations.

This survey is aimed at individuals who are either actively engaged in digital preservation or can comment on the state of the digital preservation activity (or lack of) within their organization from a strategic perspective.

The results of the survey should allow us to build a picture of the state of digital preservation and related challenges in libraries and archives across Europe. This picture will help to create a roadmap to inform future actions to ensure that our organizations can position themselves to address the challenges of digital preservation into the future.

This is a user-friendly survey which you should be able to complete within 20 minutes.

To begin, please click the survey URL below:

https://es.surveymonkey.com/s/APARSEN_SURVEY

We would like to inform you that the survey results will not reflect any particular company perspective as gathered results will be treated in an anonymous way in compliance with the Data Protection Act.

neděle 16. září 2012

SPOT - nová metoda identifikace a hodnocení rizik v digitálním archivu

Sally Vermaaten, Brian Lavoie a Priscilla Caplan v novém čísle časopisu D-lib publikovali velmi zajímavý článek, který stojí za důkladné přečtení. Věnuje se metodám identifikace rizik, které hrozí nebo mohou hrozit datům v digitálním archivu. V úvodních částech podává výborný přehled literatury a publikací k tomuto tématu, včetně jejich popisu. Přílohou je tabulka taxonomií rizik (DRAMBORA, TRAC aj.) ze 4 pohledů, které autoři považují za nutné vlastnosti jakéhokoliv konceptu hodnocení rizik. Některé taxonomie jsou nevyvážené, dávají důraz na konkrétní oblasti a některé opomíjí, jsou různě granulovány, někde jsou smíchány pohledy na typy rizik apod. Z tohoto důvodu se autoři pokusili vytvořit obecný model, lehce použitelný pro různé typy digitálních archivů.
Hlavní náplní článku je tedy představení nového modelu identifikace možných rizik SPOT (Simple Property-Oriented Threat). SPOT se zaměřuje na rizika hrozící digitálním dokumentům (jejich vlastnostem), tedy obsahu archivu. Záměrně se nevěnuje rizikům spojeným např. s organizací, podpůrnými aktivitami (financování, personalistika apod.). SPOT definuje 6 základních vlastností (oblastí), které tvoří "úspěšnou digitální ochranu", jsou to:  

  • availability, 
  • identity, 
  • persistence, 
  • renderability, 
  • understandability a 
  • authenticity.

Tyto vlastnosti, které jsou vztahovány k digitálním objektům jako takovým, jsou v článku definovány, popsány a doplněny příklady možných rizik s nimi spojenými. 6 vlastností vychází z referenčního rámce OAIS, který některé z nich popisuje jako součást tzv. Popisné informace pro ochranu (Preservation Description Information), dále si autoři přibrali Autenticitu, která je součástí schématu pro ochranná metadata PREMIS a také Renderability (zobrazitelnost), která byla k OAIS přidána při jeho revizi v roce 2002.
Díky tomuto přístupu a obecnosti je SPOT aplikovatelný jednoduše a to na všechny typy digitálních archivů a lze jej využívat také k opakovanému monitorování stavu archivu.

Plný text k přečtení zde http://www.dlib.org/dlib/september12/vermaaten/09vermaaten.htmldoi:10.1045/september2012-vermaaten

úterý 11. září 2012

Hrajeme si s DOSem, historické ovladače a SW

Honza narazil na pěknou stránku (http://www.osdos.net/download.htm) s historickým softwarem a ovladači. Některé odkazy nefungují, pak se stačí podívat na první sklizně stránky na archive.org a zkusit to tam. Pomocí různých nástrojů jako je DOSBOX (http://www.dosbox.com) nebo Virtualbox si můžete vyzkoušet emulaci v praxi.

pondělí 3. září 2012

Velmi pěkné "návodné" video - Bill LeFurgy: Steps in a Digital Preservation Workflow

Video z online semináře pořádaného divizí americké asociace knihoven ALCTS. Video má podobu prezentace s výkladem v angličtině. Podává velmi pěkný (i když někdy zdlouhavý) popis procesů, které každá instituce může udělat pro ochranu svých digitálních dokumentů. Prezentace je plná diagramů, odkazů apod.
Prezentace pomůže pochopit problematiku i naprostému začátečníku a organizaci, která se chystá s ochranou digitálních dat začít.
Ke shlédnutí na YouTube - http://youtu.be/0A6MVp8GijQ
Video trvá hodinu, prezentace samotná 30 min, po 30 minutě začínají otázky, které jsou také velmi zajímavé.


pátek 31. srpna 2012

Nástroje na identifikaci, validaci a extrakci metadat ze souborových formátů

Užitečný seznam nástrojů včetně stručného popisku a klasifikace podle tří kritérií:
  • funkce (identifikace, validace, extrakce metadat, oprava chyb)
  • způsobu spuštění/typu aplikace (příkazový řádek nebo desktopová aplikace, online aplikace, softwarová knihovna)
  • dostupnosti (open source, freeware, zdarma pro určené typy uživatelů, komerční SW)
http://www.garymcgath.com/formatsoftware.html?goback=.gde_126125_member_153733875

OAIS "verze 2" potřetí

Barbara Sierman z nizozemské Koninklijke bibliotheek napsala stručné a přehledné srovnání rozdílů nové verze OAIS oproti původní verzi. Čtěte na jejím osobním blogu Digital preservation seeds:

http://digitalpreservation.nl/seeds/standards/oais-2012-update/

ISO 14721:2012 - OAIS

OAIS "verze 2", o které jsme informovali v předchozím příspěvku, je od 21. srpna také ISO standard 14721:2012.

http://www.iso.org/iso/home/store/catalogue_ics/catalogue_detail_ics.htm?csnumber=57284

úterý 28. srpna 2012

Proběhl Mezinárodní archivní kongres - ICA 2012, Brisbane, Austrálie

V týdnu od 20. do 24.8.2012 proběhl v Brisbane v Austrálii mezinárodní archivní kongres, který se koná jednou za 4 roky. Letošní pokrýval celou řadu problémů - "klasickou" archivní teorii, praxi z různých zemí světa. Velký počet příspěvků se věnoval problematice digitálních dokumentů v archivech. Tedy jak dig. data vznikají u původců, jakým způsobem probíhají transfery dig. dokumentů do archivů, jak je archivy zpracovávájí a dlouhodobě ochraňují. Bylo možno vidět a poslechout si převážně australské státní archivy (New South Wales, Queensland, Victoria apod.), což jsou v současné době lídři této v této oblasti. Mají zpracované relevantní politiky, dokumentaci, popsané procesy, mají také zavedené způsoby práce s původci, řeší dlouhodobou ochranu, mají speciální týmy pracovníků apod. Neztratily se ani archivy z EU, prezentace byly z národních archivů Nizozemí, Švédska, Estonska, Velké Británie i Francie aj. Potvrdilo se, že současným problémem je správa digitálních dokumentů a jejich archivace, plus věci navazující.

Web kongresu naleznete na http://www.ica2012.com/.
Plné texty většiny příspěvků pak na této adrese http://www.ica2012.com/program/full-papers.php.

Ze zajímavých a tématicky relevantních tomuto blogu vybírám např.

čtvrtek 23. srpna 2012

OAIS "verze 2" vyšla v červnu 2012

Zdá se, že nám nějakým záhadným způsobem unikla velmi zásadní událost: Consultative Committee for Space Data Systems publikoval (po deseti a půl letech od původního vydání) v červnu tohoto roku revidovanou verzi přelomového dokumentu, který zásadním způsobem ovlivnil vývoj v oblasti digital presevation - Reference model for an Open Archival Information System, v odborných kruzích známého pod důvěrným názvem OAIS.

Revize upřesňuje některé původní koncepty, např. koncept Authenticity je upřesněn pomocí nového konceptu Transformational Information Property, který do modelu zavádí "significant properties". Do Preservation Description Information je nově přidáno Access Rights Information. Došlo také k úpravě některých grafů.

Původní verze OAIS byla v roce 2003 adoptována jako ISO standard 14721:2003 - otázkou je, jak se do ISO standardu promítne tato revize.

Revidovaná verze OAIS je ke stažení na http://public.ccsds.org/publications/archive/650x0m2.pdf.

pondělí 13. srpna 2012

Nástroje na charakterizaci a identifikaci formátů - srovnávací zpráva Australské národní knihovny

Australská národní knihovna zveřejnila závěrečnou zprávu z testování několika nástrojů na extrakci metadat a identifikaci datových formátů. Zpráva je myšlena jako doplněk k podobným projektům a porovnáním, proto obsahuje ne zcela tradiční nástroje, což je z našeho pohledu velký přínos.
Zpráva je dostupná z webu OPF [tady] nebo přímo plný text [.pdf, 1.8MB].

Nástroje na identifikaci datových formátů:

  • File Investigator Engine
  • Outside-In File ID
  • FIDO
  • Unix file / libmagic
Nástroje na extrakci metadat:
  • File Investigator Engine
  • Exiftool
  • MediaInfo
  • pdfinfo from the Xpdf toolkit
  • Apache Tika

pondělí 6. srpna 2012

Disk ze syntetického safíru, který vydrží 2000 let?

Arnano - Safirový disk
Francouzská instituce zabývající se ukládáním jaderného odpadu (L’Andra, Agence nationale pour la gestion des déchets radioactifs) se rozhodla nakoupit archivní média ARNANO (http://www.arnano.fr/), 20cm průhledné disky z umělého safíru potažené vrstvou z nitridu titanu, na které se vejde až 10 000 stran A4 obsahu.
Jsou to analogová média, data je možné přečíst jednoduše přímo mikroskopem. Start-up, který média propaguje, o nich mluví jako o "definitivním archivu".

 Podle výrobců jsou disky nepadělatelné, snadno čitelné a především velmi odolné proti mechanickému, chemickému, magnetickému nebo tepelnému poškození. Jedinou nevýhodou je pořizovací cena jednoho disku: 3000 EUR.

čtvrtek 2. srpna 2012

Nový blog projektu Pandora

Australská národní knihovna spustila nový blog o svém projektu Pandora, jednom z nejstarších projektů archivace webu na světě.
http://blogs.nla.gov.au/australias-web-archives/

čtvrtek 26. července 2012

Zdroje k "digital preservation" v jedné krabici? Aneb Digital Preservation in a Box

Virtuální krabice, která je produktem americké National Digital Stewardship Alliance, nabízí seznamy relevantních materiálů  o dlouhodobé ochraně digitálních dat na jednom místě. Jde vlastně o online kolekci odkazů na zdroje o tomto problému. Lze využít k načerpání nových znalostí, výuku apod. Zdroje jsou uspořádané a volně přístupné na tomto webu http://dpoutreach.net/.

Co tedy naleznete uvnitř?
- Digital Preservation 101 – úvodní materiály vysvětlující koncepty týkající se digital preservation
- Glossary – sbírku relevantních slovníků pojmů
- Preservation by Format – informace kde hledat údaje o konkrétních datových formátech
- Digital Preservation Tools – seznam základních nástrojů
- Digital Storage – zdroje týkající se možností uložení
- Resources for Educators – curricula a materiály pro výuku!
- Marketing and Outreach – odkazy na marketingové materiály
- Event Guidance – návod jak uspořádat akci o digital preservation
- Brief Introduction to Digitization – vše o skenování a rozdílu mezi digitalizací a digital preservation

středa 25. července 2012

CULTURAL HERITAGE on line - Trusted Digital Repositories & Trusted Professionals Florence, 11-12 December 2012

http://www.rinascimento-digitale.it/conference2012.phtml
Program vypadá velmi zajímavě: 

10.12.2012 - Před konferenční akce

  • Conference on certification of trusted digital repositories - DSA (Data Seal of Approval)
  • Meeting of national programmes representatives on DP - Library of Congress
  • Tutorials:
    • Standards DigitPA
    • PREMIS
    • Introduction on Digital Preservation

11-12.2012  CULTURAL HERITAGE on line – "Trusted Digital Repositories & Trusted Professionals"

Vlastní konference. Zastoupeny jsou všechny aktivity v oblasti důvěryhodných dlouhodobých repozitářů jako jsou APARSEN, NETSTOR, DSA, DIGCUR a projekty LOC.GOV jako DPOE apod: 


13.12. 2012 Workshopy
  • Workshop on Persistent Identifiers - Aparsen (Alliance Permanent Access to the records of Science in Europe Network)
  • DigCurV multi-stakeholders workshop - DigCurV (Digital Curator Vocational Education Europe)
  • Ia Conferenza annuale dell’Associazione Informatica Umanistica e Cultura Digitale (13-14 December)
  • Tutorials
    1. Digital Stacks and NBN (National Bibliography Number)
    2. Introduction on Digital Preservation
    3. OAIS, Model and Trusted Digital Repositories

pátek 20. července 2012

Ještě k CINCH

Marek ve svém včerejším příspěvku o CINCH zmínil, že [stahování dokumentů pomocí CINCH] "nemůže nahradit skutečnou archivaci webu". Rád bych to malinko rozvedl.

CINCH v žádném případě není nástroj na archivaci webu – nepodporuje většinu základních webových formatů (html, css, video, javascript,...) a hlavně stahuje pouze jednotlivé předdefinované URL, tzn. schází mu základní vlastnost nástrojů na archivaci webu – schopnost extrahovat odkazy. CINCH slouží k akvizici individuálních souborů "nehypertextového" charakteru, které jsou distribuovány přes web. CINCH tedy pokrývá jiný segment “digital collecting” a v podstatě doplňuje archivaci webu tam, kde se akvizice přes harvestery sice občas využívá (většinou právě z důvodu nedostatku jiných, vhodnějších nástrojů), ale moc nehodí.

Národní knihovna by například mohla využít CINCH pro akvizici volně dostupných e-knih v pdf z webů vydavatelů, kteří mají zájem o jejich dobrovolné uložení.

ČT 24: Prvním CD končí životnost

Když začátkem roku IBM prohlásila Data Curation a Digital Preservation za dva z pěti hlavních data storage trendů pro rok 2012, netušili jsme, že se tyhle trendy promítnout i do vysílání ČT 24:-) A už je to tady:
http://www.ceskatelevize.cz:8080/ct24/ekonomika/186618-prvnim-cd-konci-zivotnost-rada-lidi-muze-prijit-o-sve-vzpominky/
nebo zde: http://www.ceskatelevize.cz/ivysilani/1097181328-udalosti/212411000100719/obsah/211377-zalohovani-dat/
(Videa jsou tam dvě: jedno je reportáž a druhé rozhovor s panem Krčmářem z Root.cz)

A pár zajímavých citátů:
"Když jsme se na to chtěli po třech letech podívat, tak jsme zjistili, že DVD je vadné, a jediné co se s ním dá dělat, je točit si ho na prstě" 
"Průměrná rodina tak ročně nashromáždí 23GB digiátlních vzpomínek" 
"Problém je v tom, že Češi neumí moc zálohovat"
"75% domácností si nezálohuje data"

Otázka ovšem je, jestli na "taková ta domácí data" při těchto objemech stačí ještě prosté zálohování....

čtvrtek 19. července 2012

CINCH, alternativní způsob pro harvestování dokumentů z webu?

Státní knihovna Severní Karolíny zveřejnila nástroj, kterému říkají CINCH (Capture INgest CHecksum). CINCH jako vstup přijme seznam URL dokumentů umístěných na webu (PDF, DOC, DOCX, apod.), dokumenty automaticky stáhne, validuje, generuje checksum, extrahuje základní metadata, všechno to zabalí do jednoho balíku, odešle mail o ukončení práce. Částečně řeší duplicity, na úrovni checksumů v rámci dané dávky, na úrovni názvu souboru a url šířeji. Nástroj předpokládá další zpracování, zhodnocení obsahu a popis, a další zpracování při uložení do dlouhodobého repozitáře. 

Motivace k vytvoření CINCHe byla usnadnit zaměstnancům knihovny stahování dokumentů, které jsou online. Nelíbilo se jim, jak se data stahují a ukládají pomocí klasických nástrojů webarchivace, chtěli dát svým zaměstnancům něco jednoduššího. Rozhodně ale takový přístup nemůže nahradit skutečnou archivaci webu.

Není zcela jasné proč jako další microservice nezapojili do workflow také identifikaci a validaci formátů,  FITS například. Asi proto, že je to myšleno jako nástroj pro sklízení velmi hrubých dat, která se budou ještě manuálně zpracovávat a formátové validace proběhnou až před vložením do dlouhodobého archivu.



Jedna stránka s kompletní informací: http://digitalpreservation.ncdcr.gov/asgii/presentations/jcdl2012.pdf
Dokumentace: http://digitalpreservation.ncdcr.gov/asgii/presentations/ala2012.pdf
GitHub: http://slnc-dimp.github.com/Cinch/

Bigliografie: ekonomická udržitelnost a náklady digitálního uchování

Užitečný soupis literatury týkající se nákladů digitálního uchování, sestavený Butchem Lazorchakem z Kongresové knihovny a zveřejněný na jejich blogu The Signal : digital preservation. Zdroje se netýkají pouze udržitelnosti a nákladů digitálního uchování, ale pokrývají velmi široké spektrum témat včetně ekonomických modelů oceňování nehmotných statků.

http://blogs.loc.gov/digitalpreservation/2012/06/a-digital-asset-sustainability-and-preservation-cost-bibliography/

středa 18. července 2012

Německý překlad normy ISO 14721:2003 (OAIS)

Nestor pořídil překlad normy OAIS do němčiny.
http://files.d-nb.de/nestor/materialien/nestor_mat_16.pdf

Je to asi klíčový krok k zavedení terminologie pro tuto oblast. V češtině jsme stále v provizoriu i u základních termínů, ačkoli tu je spoustu diplomek a dizertací, žádná kompletní terminologii OAIS nenabídla. A ani žádná velká veřejná instituce na překladu nepracuje, pokud vím, ale rád se budu mýlit...

Ovšem Němci to mají, přiznejme si, trochu jednodušší, a taky jim na všechno stačí jedno slovo...skoro na všechno:
Representation Information > Repräsentationsinformation
Content Information > Inhaltsinformation
Descriptive Information > Erschließungsinformationen
Preservation Description Information > Erhaltungsmetadaten 
Preservation Planning > Erhaltungsplanung
Information Object > Informationsobjekt
Submission Information Package > Übergabeinformationspaket
Dissemination Information Package > Auslieferungsinformationspaket
Packaging Information > Verpackungsinformation
Designated Community > Vorgesehene Zielgruppe
Information Property Description > Informationseigenschaftsbeschreibung

Mýty o digitálním uchování


Článek Chrise Rusbridge “Excuse me... Some digital preservation fallacies?” publikovaný v Ariadne v roce 2006, který stojí za zmínku.  Ani poněkud “vyšší věk” neubírá tomuto článku na aktuálnosti. Chris se v něm pokouší modifikovat některé zavedené “pravdy”, či spíše mýty, o dlouhodobém digitálním uchování, jako např. že digitální formáty rychle zastarávají, digitální objekty musí být uchovány v jejich věrné podobě nebo že digitální uchování je příliš nákladné. Tyto argumenty se často snaží ospravedlnit nečinnost v oblasti digitálního uchování.

Hlavním poselstvím článku je, že digitální uchování nemusí nezbytně být finančně neúnosné. Tváří v tvář rozpočtovým omezením, digitální repozitáře musí učinit vědomá, pragmatická rozhodnutí, která udrží náklady pod kontrolou a zvýší šanci dlouhodobého uchování digitálních objektů.

Chris Rusbridge. "Excuse Me... Some Digital Preservation Fallacies?". February 2006, Ariadne Issue 46

úterý 17. července 2012

OMG WTF PDF

Moc pěkné video o PDF. Je PDF skutečně vhodný formát pro dlouhodobou archivaci?

Diskuzní skupina pro ARK

Pokud se zajímáte o vývoj v oblasti trvalých identifikátorů, můžete se přihlásit do nové diskuzní skupiny na Google Groups zaměřené na ARK (Archival Resource Key). Skupinu spravuje University of California Curation Center při California Digital Library.

úterý 10. července 2012

pondělí 9. července 2012

Jak na migraci digitálních dat? Jak na metadata podporující autenticitu dokumentů?

Archiv australského státu Queensland zveřejnil sadu dokumentů, které jsou míněny jako pomoc institucím, které do tohoto archivu posílají své digitální dokumenty vzniklé (nejčastěji) činností státní správy. Mezi 4 dokumenty jsou tři, které mohou pomoci i českým institucím různého druhu (nejen archivům). První popisuje roli metadat pro dlouhodobou ochranu (zachování integrity, autenticity, údajů o událostech apod.). Druhý dokument přibližuje jak postupovat a co vše vzít do úvahy při migraci dat ze starého systému do nového, nebo případně při zastarání formátů souborů. Poslední dokument se věnuje vhodným formátům souborů pro vytváření digitálních záznamů (ve smyslu archivního záznamu), je ovšem použitelný na jakoukoliv sbírku digitálních dokumentů.

Migrating Digital Records (PDF, 535KB)
Metadata for Digital Continuity (PDF, 244KB)
Advice on choosing file formats for digital records (PDF, 84KB)

čtvrtek 5. července 2012

K čemu se (také) mohou hodit registry formátů - výborné zamyšlení Paula Wheatleyho na OPF

Paul Wheatley se ve svém příspěvku na blogu OPF zamýšlí nad tím, co všechno by nám měl registr formátů poskytnout. Zamyšlení je postaveno na praktické ukázce postupu práce při uložení PDF souboru do digitálního repozitáře. Čtěte na http://www.openplanetsfoundation.org/blogs/2012-07-05-dont-panic-what-we-might-need-format-registries

středa 4. července 2012

UDFR spuštěno

University of California Curation Center dnes oznámilo spuštění dlouho očekávaného registru digitálních formátů UDFR (Unified Digital Format Registry), sponzorovaného Kongresovou knihovnou jako část programu NDIIPP (National Digital Information Infrastructure Preservation Program). Cílem UDFR je sjednotit a propojit funkce a data ze dvou předchozích registrů - PRONOM a GDFR. UDFR běží na platformě OntoWiki s otevřeným kódem (open source). Registry digitálních formátů hrají důležitou roli v procesech plánování a provádění akcí dlouhodobého uchování (např. migrace formátů).

UDFR byl naplněn daty z PRONOM a registru MIME typů IANA a v současnosti obsahuje informace o:

  • 846 souborových formátech
  • 28 kódování znaků
  • 17 kompresních algoritmech
  • 1,198 MIME typech
  • 548 externích signaturách (souborových příponách)
  • 494 interních signaturách ("magických číslech")
  • 268 softwarových balících
  • 156 agentech
Doplňování a udržování informací v registru by mělo probíhat na bázi široké komunity. Data v registru jsou volně dostupná pro prohlížení a využití, ale doplňování nebo úprava dat vyžaduje předchozí registraci. Další informace můžete nalézt v uživatelské příručce.

úterý 3. července 2012

Náklady na digital preservation - prezentace z workshopu v Dánsku

11. června proběhl v Kodani workshop "Costs and Benefits of Keeping Knowledge", prezentace jsou nyní k dispozici na webové stránce workshopu [zde]. Zajímavá je prezentace o modelu DP4Lib, jehož výsledky ukazují, že nejvíce nákladný z trojice Ingest, Curation and Access je Ingest. Velmi praktický a návodný je též příspěvek Cost model for DP (Ulla Bøgvad Kejser).

pátek 29. června 2012

Digital Preservation na Stack Exchange - vyjádřete svou podporu

Na Stack Exchange se formuje nová stránka otázek a odpovědí na téma Digital Preservation. Momentálně se nachází ve fázi rekrutování dostatečně velké komunity potenciálních aktivních uživatelů, kteří mají zájem aktivně přispívat k vytváření obsahu formou kladení a zodpovídání dotazů. To je podmínkou pro spuštění stránky. Pokud se takovou komunitu podaří vybudovat, může jít o potenicálně velmi zajímavou znalostní bázi pro oblast dlouhodobého digitálního uchování. Pokud máte zájem podpořit tento projekt, klikněte na obrázek.


Stack Exchange Q&A site proposal: Digital Preservation

pondělí 25. června 2012

EPUB jako formát pro dlouhodobou ochranu

Jedna novinka z Openplanetsfoundation: Studie z KB o formátu EPUB z pohledu dlouhodobé ochrany digitálních dat.
http://www.openplanetsfoundation.org/system/files/epubForArchivalPreservation18062012ExternalDistribution_0.pdf
resp.:
http://www.openplanetsfoundation.org/system/files/epubForArchivalPreservation20072012ExternalDistribution.pdf
Text se zabývá současnými možnostmi identifikace a validace tohoto formátu, rozdíli mezi verzí 2 a 3, a nakonec obsahuje i nějaké základní doporučení pro dlouhodobou ochranu. Autorem studie je opět Johan van der Knijff, text není součástí výstupů projektu SCAPE, ale je skutečně jen paperem vydaným KB. 
Zatím jsou Johanova doporučení jasná: 
1) Nepřijímat EPUB jako archivní formát, dokud se formát více nerozšíří a dokud nebude lepší podpora v prohlížečích.
2) Nepřijímat k archivaci dokumenty v EPUBu, které jsou opatřeny DRM.
3) Nepřijímat k archivaci dokumenty v EPUBu, které obsahují zdroje, jež nejsou na seznamu Core media types (tzv. foreign resources) .
4)  Nepřijímat k archivaci dokumenty v EPUBu, které obsahují remote resources.
5) Dávat pozor na EPUB dokumenty, které obsahují javascript resources.
6) Vyhnout se DTBook obsahu.
7) K verifikaci shody EPUBu se specifikací používat Epubcheck
8) Prozatím nepřijímat k archivaci publikace v EPUBu, které obsahují pokročilejší typografické prvky a layout (např. vědecké a technické dokumenty, které obsahují specialni znaky, matematické rovnice apod.).


Johan slibuje další testování nástrojů pro validaci a extrakci technických metadat, a další analýzy. Vzhledem k probíhajícím projektům v ČR, které se týkají e-knih, je tohle velmi aktuální téma, kterému bude třeba se věnovat i u nás.

pondělí 18. června 2012

Zajímavé články: ontologie pro digital preservation



McHugh, A. (2012) A model for digital preservation repository risk relationships. In: World Library and Information Congress: 78th IFLA General Conference and Assembly, 11-17 Aug 2012, Helsinki, Finland.
http://eprints.gla.ac.uk/65420/

A analýza limitů v oblasti dlouhodobé ochrany: hlavním limitem není podle autora už technologie, ale jsou jím finance. Objem digitálních informací, který bychom mohli chtít dlouhodobě ochraňovat stále dramaticky roste, ovšem finance dostupné na tuto činnosti nerostou podle autora zdaleka dostatečně.
https://escholarship.bc.edu/ojs/index.php/ital/article/view/2167/pdf