pátek 30. listopadu 2012

Indikátory kvality pro webové archivy - ISO/DTR 14873

V draftu je k dispozici norma ISO/DTR 14873 Information and documentation — Statistics and Quality Indicators for Web Archiving.

Norma specifikuje, nebo lépe řečeno bude specifikovat, jak se má v oblasti archivace internetu měřit kvalita a velikost sbírky, úspěšnost sklízení, využívání dat, nebo jak se má posuzovat kvalita uložení. Poskytuje tedy v mnoha oblastech metodický návod, jak řídit webarchiv.

Zajímavá je už úvodní část, kde jsou definovány základní termíny z oblasti archivace webu.

Draft je k dispozici online, na serveru IIPC:

http://netpreserve.org/sites/default/files/resources/SO_TR_14873__E__2012-10-02_DRAFT.pdf

čtvrtek 29. listopadu 2012

Rýsuje se zapojení Microsoftu do řešení problémů dlouhodobého uchování?

Chris Rusbridge publikoval koncem října na svém blogu Unsustainable Ideas otevřený dopis Tonymu Heyovi, viceprezidentovi Microsoft Research Connections, s výzvou, aby Microsoft zveřejnil specifikace svých starších digitálních formátů. Výzva vyvolala zajímavou diskuzi v komentářích na blogu, včetně podpory ze strany mnoha paměťových institucí i jednotlivců anagažujících se v oblasti digitálního uchování. Některé body z této diskuze Chris shrnul v dalším samostatném příspěvku.

Z Microsoftu nedlouho poté přišly dvě poměrně pozitivní reakce. Podle Tonyho Heye Microsoft sice nemá požadované specifikace k dispozici a většina zaměstnanců, kteří se podíleli na vývoji původních formátů, už v Microsoftu nepracuje, ale Microsoft je ochotný spolupracovat na dodatečném zpětném vytvoření těchto specifikací, např. formou crowdsourcingu. Navíc by mohl zvážit vytvoření speciálních licencí, které by umožnily využít starší verze operačních systémů a MS Office pro zpřístupnění a konverzi starých digitálních formátů. Přišla také reakce Jima Thatchera z týmu Office and standards interoperability, podle kterého se Microsoft bude snažít přijít s kontrétními návrhy, jak se posunout v řešení těchto problémů dále.

Vstup tak významného hráče, jakým je Microsoft, by mohl představovat zásadní průlom v řešení některých problémů v oblasti digitálního uchování, za něž je Microsoft bezesporu sám spoluodpovědný. Z reakcí není jasné, nakolik jde o závazné stanovisko Microsoftu, ale vypadá to, že snaha by tady mohla být. Že by se blýskalo na lepší časy?

pondělí 26. listopadu 2012

Vyhledávač v registrech formátů je online

Gary McGath zveřejnil svůj nástroj na vyhledávání v (procházení) registrech formátů online [http://regbrowser.appspot.com/]. Nástroj prohledává PRONOM, DBpedii a UDFR registry, a to podle MIME type, názvu, koncovky a registru, nebo jejich kombinace.
Jde o stejný nástroj, který před pár týdny zveřejnil na stránce GitHub ke stažení [https://github.com/gmcgath/format-reg-browser].

Format Corpus

Pánové z Open Planets Foundation a projektu SCAPE tvoří velmi zajímavý korpus /volně dostupný/ digitálních formátů.
Jeho současný obsah vidět na http://www.opf-labs.org/format-corpus/tools/coverage/reports/
Další informace tady: https://github.com/openplanets/format-corpus

Nejde jen o to, že by snad chtěli posbírat co nejvíc zajímavých formátů, ale cílem téhle aktivity je zvýšit počet souborů, které jsou nástroje jako Droid, Tika, File, atd schopny identifikovat. Také chtějí směřovat k vytvoření jednotného workflow pro vytváření file signatures tak, aby nebylo třeba vytvářet signatures pro každý nástroj zvlášť. K tomuto účelu také pracují na nástroji, který má sdílení signatures usnadnit, kterému říkají Fidget.

Více zde:
http://wiki.curatecamp.org/index.php/Collecting_format_ID_test_files
http://wiki.curatecamp.org/index.php/Improving_format_ID_coverage

Vedle zde zmiňovaného "atlasu digitálních poškození" je tohle ještě další pokus vytvořit základní globální infrastrukturu informací o digitálních formátech.

Jak na zálohy a jak se liší od dlouhodobé archivace...

Public Record Office australského státu Victoria vydal ke komentářům popisný dokument "Use of Back Up Technology to Archive" [ke stažení ZDE]. Velmi pěkně a v krátkosti popisuje rozdíl mezi zálohami dat a archivací dat v dlouhodobém horizontu. Archivace je možnost použít data v budoucnu i v novém technologickém prostředí. Záloha je pouze krátkodobá záležitost. Podařený je také popis typů záloh a rizik spojených s jejich využitím, pokud by měl někdo pocit, že záloha je řešením dlouhodobým a dokáže nahradit dlouhodobou archivaci.
A samozřejmě, pokud máte chuť, pošlete kolegům vaše připomínky.

úterý 20. listopadu 2012

Archivace softwaru: co si přečíst na toto téma

Hezký příspěvek na blogu Kongresové knihovny shromáždil literaturu k problematice dlouhodobé archivace softwaru.
http://blogs.loc.gov/digitalpreservation/2012/11/preserving-exe-a-short-list-of-readings-on-software-preservation/

Konference v roce 2013

V oblasti dlouhodobé ochrany digitálních informací patří Archiving (momentálně ve fázi call for paper), spolu s iPresem a v poslední době také s konferencí Culture Heritage Online k tomu nejzajímavejšímu. Tady je předběžný seznam na rok 2013:

9. ročník konference Archiving se bude konat 2.-5. dubna 2013 ve Washingtonu
10. ročník konference iPres se bude konat 2.-5. září v Lisabonu
8. ročník konference DCC především o vědeckých datech se bude konat 14.-16. ledna 2013 v Amsterdamu

časem přidáme ještě další.

pondělí 12. listopadu 2012

Digitalizace audiovizuálního obsahu v NARA

Běžně na tenhle blog věci o digitalizaci nedáváme, ale u tohohle videa jsme udělali výjimku. Je tam vidět několik velmi zajímavých zařízení, a dokonce i to, jak v NARA pečou magnetické pásky (aby je mohli digitalizovat).

pátek 9. listopadu 2012

Šetrný přístup k dlouhodobé ochraně digitálních informací


Podobně jako máme přístup "líného rodiče" při ne/výchově dětí, Tim Collins prosazuje postoj "líného a lakomého archiváře" a v lecčems má samozřejmě pravdu. Rizika spojená s dlouhodobou archivací nejsou vždy jen rizika technická a spojená s formáty digitálních dat, ale také a především spojená s tím, jak data vybíráme a spravujeme. Kvalitní management dat je základem pro dlouhodobou ochranu digitálních dat.

Parsimonious preservation:  preventing pointless processes!
(The small simple steps that take digital preservation a long way forward
Tim Gollins

https://www.nationalarchives.gov.uk/documents/parsimonious-preservation.pdf

čtvrtek 8. listopadu 2012

Další vývoj PREMISu

Na konferenci IPRES 2012 proběhl Premis implementation fair. Podle zveřejněných prezentací (http://www.loc.gov/standards/premis/premis-implementation-fair2012.html) se zdá, že ve verzi Premis 3 můžeme očekávat některé důležité změny:
- upraven bude data model, a IE se stanou další vrstvou "objektu"
- do datamodelu přibude další entita - environment (SW, HW, format, dokumenty, atd. creating application je environment například)
- přibudou "preservation level types" entity
- experimentuje se s ontologiemi (OWL)
- a možná PREMIS směřuje ke standardizaci (ISO)


Podrobněji viz prezentace A. Dappert, Proposed Data Model Changes for PREMIS 3.0
http://www.loc.gov/standards/premis/pif-presentations-2012/PREMIS_Data_Model_Changes_final.pdf

Jinak za pročtení stojí i řada dalších prezentací, třeba k projektu Preservatin health check, SPOT modelu atd.



středa 7. listopadu 2012

ÚOHS - Zrušení tendru na LTP pro Národní digitální archiv

https://web.nacr.cz/zakazky/NDA_projekt_ISNDA/dokumenty/NDA_IS_NA_2011_1208sb195_UOHS_finalni_rozhodnuti.pdf

Dnes bylo zveřejněno rozhodnutí ÚOHS, na základě kterého bylo zrušeno VŘ na systém pro Národní digitální archiv. Pikantní jsou rozdíly v cenách jednotlivých nabídek, vítěz nabídl řešení za 68 milionů CZK, další nabídka byla 155 milionů. (Očekávaná výše zakázky byla přes 200 milionů CZK)