čtvrtek 26. července 2012

Zdroje k "digital preservation" v jedné krabici? Aneb Digital Preservation in a Box

Virtuální krabice, která je produktem americké National Digital Stewardship Alliance, nabízí seznamy relevantních materiálů  o dlouhodobé ochraně digitálních dat na jednom místě. Jde vlastně o online kolekci odkazů na zdroje o tomto problému. Lze využít k načerpání nových znalostí, výuku apod. Zdroje jsou uspořádané a volně přístupné na tomto webu http://dpoutreach.net/.

Co tedy naleznete uvnitř?
- Digital Preservation 101 – úvodní materiály vysvětlující koncepty týkající se digital preservation
- Glossary – sbírku relevantních slovníků pojmů
- Preservation by Format – informace kde hledat údaje o konkrétních datových formátech
- Digital Preservation Tools – seznam základních nástrojů
- Digital Storage – zdroje týkající se možností uložení
- Resources for Educators – curricula a materiály pro výuku!
- Marketing and Outreach – odkazy na marketingové materiály
- Event Guidance – návod jak uspořádat akci o digital preservation
- Brief Introduction to Digitization – vše o skenování a rozdílu mezi digitalizací a digital preservation

středa 25. července 2012

CULTURAL HERITAGE on line - Trusted Digital Repositories & Trusted Professionals Florence, 11-12 December 2012

http://www.rinascimento-digitale.it/conference2012.phtml
Program vypadá velmi zajímavě: 

10.12.2012 - Před konferenční akce

  • Conference on certification of trusted digital repositories - DSA (Data Seal of Approval)
  • Meeting of national programmes representatives on DP - Library of Congress
  • Tutorials:
    • Standards DigitPA
    • PREMIS
    • Introduction on Digital Preservation

11-12.2012  CULTURAL HERITAGE on line – "Trusted Digital Repositories & Trusted Professionals"

Vlastní konference. Zastoupeny jsou všechny aktivity v oblasti důvěryhodných dlouhodobých repozitářů jako jsou APARSEN, NETSTOR, DSA, DIGCUR a projekty LOC.GOV jako DPOE apod: 


13.12. 2012 Workshopy
  • Workshop on Persistent Identifiers - Aparsen (Alliance Permanent Access to the records of Science in Europe Network)
  • DigCurV multi-stakeholders workshop - DigCurV (Digital Curator Vocational Education Europe)
  • Ia Conferenza annuale dell’Associazione Informatica Umanistica e Cultura Digitale (13-14 December)
  • Tutorials
    1. Digital Stacks and NBN (National Bibliography Number)
    2. Introduction on Digital Preservation
    3. OAIS, Model and Trusted Digital Repositories

pátek 20. července 2012

Ještě k CINCH

Marek ve svém včerejším příspěvku o CINCH zmínil, že [stahování dokumentů pomocí CINCH] "nemůže nahradit skutečnou archivaci webu". Rád bych to malinko rozvedl.

CINCH v žádném případě není nástroj na archivaci webu – nepodporuje většinu základních webových formatů (html, css, video, javascript,...) a hlavně stahuje pouze jednotlivé předdefinované URL, tzn. schází mu základní vlastnost nástrojů na archivaci webu – schopnost extrahovat odkazy. CINCH slouží k akvizici individuálních souborů "nehypertextového" charakteru, které jsou distribuovány přes web. CINCH tedy pokrývá jiný segment “digital collecting” a v podstatě doplňuje archivaci webu tam, kde se akvizice přes harvestery sice občas využívá (většinou právě z důvodu nedostatku jiných, vhodnějších nástrojů), ale moc nehodí.

Národní knihovna by například mohla využít CINCH pro akvizici volně dostupných e-knih v pdf z webů vydavatelů, kteří mají zájem o jejich dobrovolné uložení.

ČT 24: Prvním CD končí životnost

Když začátkem roku IBM prohlásila Data Curation a Digital Preservation za dva z pěti hlavních data storage trendů pro rok 2012, netušili jsme, že se tyhle trendy promítnout i do vysílání ČT 24:-) A už je to tady:
http://www.ceskatelevize.cz:8080/ct24/ekonomika/186618-prvnim-cd-konci-zivotnost-rada-lidi-muze-prijit-o-sve-vzpominky/
nebo zde: http://www.ceskatelevize.cz/ivysilani/1097181328-udalosti/212411000100719/obsah/211377-zalohovani-dat/
(Videa jsou tam dvě: jedno je reportáž a druhé rozhovor s panem Krčmářem z Root.cz)

A pár zajímavých citátů:
"Když jsme se na to chtěli po třech letech podívat, tak jsme zjistili, že DVD je vadné, a jediné co se s ním dá dělat, je točit si ho na prstě" 
"Průměrná rodina tak ročně nashromáždí 23GB digiátlních vzpomínek" 
"Problém je v tom, že Češi neumí moc zálohovat"
"75% domácností si nezálohuje data"

Otázka ovšem je, jestli na "taková ta domácí data" při těchto objemech stačí ještě prosté zálohování....

čtvrtek 19. července 2012

CINCH, alternativní způsob pro harvestování dokumentů z webu?

Státní knihovna Severní Karolíny zveřejnila nástroj, kterému říkají CINCH (Capture INgest CHecksum). CINCH jako vstup přijme seznam URL dokumentů umístěných na webu (PDF, DOC, DOCX, apod.), dokumenty automaticky stáhne, validuje, generuje checksum, extrahuje základní metadata, všechno to zabalí do jednoho balíku, odešle mail o ukončení práce. Částečně řeší duplicity, na úrovni checksumů v rámci dané dávky, na úrovni názvu souboru a url šířeji. Nástroj předpokládá další zpracování, zhodnocení obsahu a popis, a další zpracování při uložení do dlouhodobého repozitáře. 

Motivace k vytvoření CINCHe byla usnadnit zaměstnancům knihovny stahování dokumentů, které jsou online. Nelíbilo se jim, jak se data stahují a ukládají pomocí klasických nástrojů webarchivace, chtěli dát svým zaměstnancům něco jednoduššího. Rozhodně ale takový přístup nemůže nahradit skutečnou archivaci webu.

Není zcela jasné proč jako další microservice nezapojili do workflow také identifikaci a validaci formátů,  FITS například. Asi proto, že je to myšleno jako nástroj pro sklízení velmi hrubých dat, která se budou ještě manuálně zpracovávat a formátové validace proběhnou až před vložením do dlouhodobého archivu.



Jedna stránka s kompletní informací: http://digitalpreservation.ncdcr.gov/asgii/presentations/jcdl2012.pdf
Dokumentace: http://digitalpreservation.ncdcr.gov/asgii/presentations/ala2012.pdf
GitHub: http://slnc-dimp.github.com/Cinch/

Bigliografie: ekonomická udržitelnost a náklady digitálního uchování

Užitečný soupis literatury týkající se nákladů digitálního uchování, sestavený Butchem Lazorchakem z Kongresové knihovny a zveřejněný na jejich blogu The Signal : digital preservation. Zdroje se netýkají pouze udržitelnosti a nákladů digitálního uchování, ale pokrývají velmi široké spektrum témat včetně ekonomických modelů oceňování nehmotných statků.

http://blogs.loc.gov/digitalpreservation/2012/06/a-digital-asset-sustainability-and-preservation-cost-bibliography/

středa 18. července 2012

Německý překlad normy ISO 14721:2003 (OAIS)

Nestor pořídil překlad normy OAIS do němčiny.
http://files.d-nb.de/nestor/materialien/nestor_mat_16.pdf

Je to asi klíčový krok k zavedení terminologie pro tuto oblast. V češtině jsme stále v provizoriu i u základních termínů, ačkoli tu je spoustu diplomek a dizertací, žádná kompletní terminologii OAIS nenabídla. A ani žádná velká veřejná instituce na překladu nepracuje, pokud vím, ale rád se budu mýlit...

Ovšem Němci to mají, přiznejme si, trochu jednodušší, a taky jim na všechno stačí jedno slovo...skoro na všechno:
Representation Information > Repräsentationsinformation
Content Information > Inhaltsinformation
Descriptive Information > Erschließungsinformationen
Preservation Description Information > Erhaltungsmetadaten 
Preservation Planning > Erhaltungsplanung
Information Object > Informationsobjekt
Submission Information Package > Übergabeinformationspaket
Dissemination Information Package > Auslieferungsinformationspaket
Packaging Information > Verpackungsinformation
Designated Community > Vorgesehene Zielgruppe
Information Property Description > Informationseigenschaftsbeschreibung

Mýty o digitálním uchování


Článek Chrise Rusbridge “Excuse me... Some digital preservation fallacies?” publikovaný v Ariadne v roce 2006, který stojí za zmínku.  Ani poněkud “vyšší věk” neubírá tomuto článku na aktuálnosti. Chris se v něm pokouší modifikovat některé zavedené “pravdy”, či spíše mýty, o dlouhodobém digitálním uchování, jako např. že digitální formáty rychle zastarávají, digitální objekty musí být uchovány v jejich věrné podobě nebo že digitální uchování je příliš nákladné. Tyto argumenty se často snaží ospravedlnit nečinnost v oblasti digitálního uchování.

Hlavním poselstvím článku je, že digitální uchování nemusí nezbytně být finančně neúnosné. Tváří v tvář rozpočtovým omezením, digitální repozitáře musí učinit vědomá, pragmatická rozhodnutí, která udrží náklady pod kontrolou a zvýší šanci dlouhodobého uchování digitálních objektů.

Chris Rusbridge. "Excuse Me... Some Digital Preservation Fallacies?". February 2006, Ariadne Issue 46

úterý 17. července 2012

OMG WTF PDF

Moc pěkné video o PDF. Je PDF skutečně vhodný formát pro dlouhodobou archivaci?

Diskuzní skupina pro ARK

Pokud se zajímáte o vývoj v oblasti trvalých identifikátorů, můžete se přihlásit do nové diskuzní skupiny na Google Groups zaměřené na ARK (Archival Resource Key). Skupinu spravuje University of California Curation Center při California Digital Library.

úterý 10. července 2012

pondělí 9. července 2012

Jak na migraci digitálních dat? Jak na metadata podporující autenticitu dokumentů?

Archiv australského státu Queensland zveřejnil sadu dokumentů, které jsou míněny jako pomoc institucím, které do tohoto archivu posílají své digitální dokumenty vzniklé (nejčastěji) činností státní správy. Mezi 4 dokumenty jsou tři, které mohou pomoci i českým institucím různého druhu (nejen archivům). První popisuje roli metadat pro dlouhodobou ochranu (zachování integrity, autenticity, údajů o událostech apod.). Druhý dokument přibližuje jak postupovat a co vše vzít do úvahy při migraci dat ze starého systému do nového, nebo případně při zastarání formátů souborů. Poslední dokument se věnuje vhodným formátům souborů pro vytváření digitálních záznamů (ve smyslu archivního záznamu), je ovšem použitelný na jakoukoliv sbírku digitálních dokumentů.

Migrating Digital Records (PDF, 535KB)
Metadata for Digital Continuity (PDF, 244KB)
Advice on choosing file formats for digital records (PDF, 84KB)

čtvrtek 5. července 2012

K čemu se (také) mohou hodit registry formátů - výborné zamyšlení Paula Wheatleyho na OPF

Paul Wheatley se ve svém příspěvku na blogu OPF zamýšlí nad tím, co všechno by nám měl registr formátů poskytnout. Zamyšlení je postaveno na praktické ukázce postupu práce při uložení PDF souboru do digitálního repozitáře. Čtěte na http://www.openplanetsfoundation.org/blogs/2012-07-05-dont-panic-what-we-might-need-format-registries

středa 4. července 2012

UDFR spuštěno

University of California Curation Center dnes oznámilo spuštění dlouho očekávaného registru digitálních formátů UDFR (Unified Digital Format Registry), sponzorovaného Kongresovou knihovnou jako část programu NDIIPP (National Digital Information Infrastructure Preservation Program). Cílem UDFR je sjednotit a propojit funkce a data ze dvou předchozích registrů - PRONOM a GDFR. UDFR běží na platformě OntoWiki s otevřeným kódem (open source). Registry digitálních formátů hrají důležitou roli v procesech plánování a provádění akcí dlouhodobého uchování (např. migrace formátů).

UDFR byl naplněn daty z PRONOM a registru MIME typů IANA a v současnosti obsahuje informace o:

  • 846 souborových formátech
  • 28 kódování znaků
  • 17 kompresních algoritmech
  • 1,198 MIME typech
  • 548 externích signaturách (souborových příponách)
  • 494 interních signaturách ("magických číslech")
  • 268 softwarových balících
  • 156 agentech
Doplňování a udržování informací v registru by mělo probíhat na bázi široké komunity. Data v registru jsou volně dostupná pro prohlížení a využití, ale doplňování nebo úprava dat vyžaduje předchozí registraci. Další informace můžete nalézt v uživatelské příručce.

úterý 3. července 2012

Náklady na digital preservation - prezentace z workshopu v Dánsku

11. června proběhl v Kodani workshop "Costs and Benefits of Keeping Knowledge", prezentace jsou nyní k dispozici na webové stránce workshopu [zde]. Zajímavá je prezentace o modelu DP4Lib, jehož výsledky ukazují, že nejvíce nákladný z trojice Ingest, Curation and Access je Ingest. Velmi praktický a návodný je též příspěvek Cost model for DP (Ulla Bøgvad Kejser).