pátek 12. prosince 2014

Sborník z konference iPRES 2014 publikován

Na webu konference iPRES 2014, která se konala v říjnu v australském Melbourne, byly publikovány plné texty všech konferenčních příspěvků.
Link na kompletní pdf je zde http://ipres2014.org/sites/default/files/upload/iPres2014-Proceedings-version%201.pdf
Letos se sešlo dost kvalitních příspěvků, za pozornost stojí zejména

  • Linked Data Registry: A New Approach To Technical Registries
  • A next generation technical registry: moving practice forward
  • Sustainability Assessments at the British Library: Formats, Frameworks, & Findings
  • Access and Preservation in the cloud: Lessons from operating Preservica Cloud Edition
  • Converting WordStar to HTML4
  • Occam’s Razor and File Format Endangerment Factors
  • A Model for Format Endangerment Analysis using Fuzzy Logic
  • Identifying Digital Preservation Requirements: Digital Preservation Strategy and Collection Profiling at the British Library
  • DRM and digital preservation: A use case at the German National Library
  • Self-assessment of the Digital Repository at the State and University Library, Denmark – a Case Study

Program konference najdete jak ve sborníku, tak tady http://ipres2014.org/sites/default/files/upload/final.programme.pdf

pondělí 8. prosince 2014

FADGI - nová doporučení pro video dokumenty

FADGI publikovala 2. prosince dvě nové sady doporučení pro reformátování a archivaci audiovizuálních dat.
  • První dokumenty se týkají reformátování video pásek. Obsahují srovnání jednotlivých typů kontejnerů (AVI, MOV, Matroska, MXF, MPEG-2), a kódování (uncompressed (various types), lossless JPEG 2000, ffv1, MPEG-2).

  • Druhá sada dokumentů se týká digital born videa. Obsahují příklady současné praxe z osmi amerických federálních institucí a pak také obecné doporučení pro vytváření a archivaci eborn videa. 

neděle 7. prosince 2014

Barbara Sierman - existuje "zlatý standard" pro digitální repozitáře?

Barbara Sierman z holandské NK zveřejnila svou přednášku z listopadové konference DPC v Londýně. Jmenuje se Golden standard a popisuje vývoj certifikace digitálních repozitářů, od TRAC po ISO 16363.
http://digitalpreservation.nl/seeds/the-gold-standard/

čtvrtek 4. prosince 2014

Brian Lavoie - druhé vydání úvodu do OAIS

Po více než deseti letech byl znovu revidován úvod do OAIS od Briana Lavoie. Vyšel jako DPC Technology Watch Report:

Read Brian Lavoie’s Technology Watch Report ‘OAIS Introductory Guide (2nd Edition)’ now.

Siegfried - experimentální nástroj na identifikaci souborých formátů

Richard Lehane vytvořil nový experimentální nástroj na identifikaci souborových formátů, který využívá PRONOM signatures. Je to nástroj podobný jako DROID, Unix file nebo FIDO,  Richard na svém webu píše, že ale používá jiné algoritmy než DROID a měl by být rychlejší. 


Uvidíme, jestli se ujme. Při identifikaci jde vždycky minimálně o dvě věci, rychlost a spolehlivost. Ještě je ale asi brzo na to, aby někdo udělal pokus a srovnal výkon Siegfriedu s ostatními nástroji, jako to udělal Johan van der Knijff roce 2012 (http://www.slideshare.net/SCAPEproject/evaluation-of-format-identification-tools)


pátek 28. listopadu 2014

Zajímavé příspěvky na akcích v Praze tento týden

Tento týden proběhly v Praze dvě akce, kde zaznělo pár zajímavých příspěvků. Na CESNET Community Forum ke zpracování a ukládání velkých dat asi stojí za to upozornit především na příspěvek D. Antoše o možných způsobech využití digitálních úložišť CESNET. Zajímavý byl také příspěvek o prvním repozitáři v ČR, který získal DSA.

Na druhé akci, AKM 2014 (snad zde časem budou i slidy), jistě stál za poslechnutí příspěvek "Dlhodobá ochrana digitalizovaného kultúrneho dedičstva na Slovensku" o projektu CDA , měl původně název delší "alias "poucenie z krizoveho vyvoja". Protože jsem ho neviděl, nemůžu ho nijak komentovat, nicméně i druhý den se objevily příspěvky zajímavé z hlediska dlouhodobé archivace:
  • Anna Batistová a Eric Rosenzveig z NFA a FAMU přednesli svoje úvahy o založení studijního programu týkajícího se dlouhodobé archivace audiovizuální dat, který již delší dobu plánují na FAMU. Pro klasické archiváře a knihovníky to bylo sice trochu odtažité téma - audiovizuální data, audio data, webové obsahy jsou obecně zatím na okraji jejich zájmu a kromě Webarchivu nebo dalších speciálních projektů (virtuální fonotéka) zatím webová nebo audiovizuální data běžné knihovny a archivy moc neřeší. Moc se mi líbilo, že Eric citoval David Giarettu, zakladatele APARSENU nebo PTAB, který před pár lety dvakrát přednášel i v Praze (video z jedné přednášky v NK ČR z roku 2008 je stále online zde http://www.digitalpreservationeurope.eu/video-training/prague-2008/), jen jsem slyšel poprvé, že by se měl David také podílet na archivaci v BBC - možná došlo k záměně s Richardem Wrightem (dříve výzkumník v BBC, dnes na http://preservationguide.co.uk/). Nicméně, držím palce jak NFA tak FAMU - zatím nejbližší rozumný studijní program v téhle oblasti nabízí Univerzita v Amsterodamu
  • Nešťastně působilo vystoupení CITEM, zvláště když jsem ho viděl den po prezentaci Davida Antoše o službách úložišť CESNETu. CITEM byla do roku 2009 velmi aktivní komunita směřující k zavádění standardů dlouhodobé archivace v muzeích a galeriích, nicméně projekt digitálního úložiště byl odložen k ledu. Dnes, kdy CESNET má hotovou infrastrukturu DÚ CESNET a na poměry  muzejí má k dispozici obrovskou kapacitu, není důvod váhat. 
  • V. Richter řekl, že organizátoři žádali MK ČR, aby na konferenci představilo svoji koncepci pro příští roky právě také co se týče ukládání dat.  Z pléna zaznělo, že na MK ČR začala pracovat pracovní skupina pro digitalizaci, která má navrhnout jak čerpat finance v dalším období z EU a tam by se o dlouhodobou archivací dat v kulturních institucích mělo jednat v první řadě. Bohužel, z MK ČR tradičně nikdo nedorazil. Naposledy někdo z MK ČR vystoupil na AKM v roce 2011,
  • Pokud někoho zajímají offline media pro ukládání dat, tak měl ještě příležitost si poslechnout povídání o zkušenostech s http://www.piql.com/.


pondělí 17. listopadu 2014

Web a strategie Open Planets (Preservation) Foundation kompletně v novém

Možná jste si již všimli, ale v minulých dnech byla zveřejněna nová podoba OPF webu. OPF asi znáte jako místo, kde digital preservation komunita zveřejňovala své problémy a řešení v podobě blogů, různých seznamů nástrojů, oznámení o konferencích apod. OPF byl vlastně způsob, jak nástroje a knowledge base vytvořené v EU projektu PLANETS, mohly zůstat dále přístupné a fungovat jako platforma i po ukončení projektu.
Takto to fungovalo několik let, během nichž se OPF rozrozstla do daleko větší organizace, s mnohem větším záběrem než bylo jen opatrování výstupu projektu Planets. Vazba na projekt se postupně smazávala a organizace byla známější pod zkratkou OPF. Z těchto důvodů bylo minulý rok přikročeno k hlubším změnám z pohledu organizace. OPF bylo přejmenováno na Open Preservation Foundation. Byl zvolen nový výkonný ředitel (Ed Fay) a byla připravena nová strategie rozvoje na následující léta.
Celé to nyní vyústilo v nový web a zveřejnění strategie v minulých dnech.
Web je nově na adrese http://openpreservation.org/. Veškerý obsah z openplanetsfoundation.org byl přenesen.

Strategie na léta 2015-2018 je dostupná tady http://openpreservation.org/documents/public/OPF_VisionandStrategy_2015-18.pdf.

středa 12. listopadu 2014

Guideline for Preservation Planning: Procedural Model and Implementation authored and edited by the nestor working group Preservation Planning

Německý NESTOR publikoval moc pěkný materiál, ze kterého je  vidět, o co v oblasti dlouhodobé ochrany informačního obsahu v digitální podobě jde.

Zvlášť zajímavá je část přílohy, kde autoři z NESTORu ukazují, jak definovat significant properities pro různé typy digitálního materiálu. (Appendix A: Possible properties, designated communities and designated uses of information types).

Bohužel podobný přístup řadě správců digitálních dat u nás chybí, a představu o tom, jaké technické nebo vizuální vlastnosti jsou předmětem dlouhodobé ochrany, mnoho kurátorů digitálních dat nemá. To souvisí  s obecným nezájmem o plánování dlouhodobé ochrany.

Který univerzitní repozitář má takto pěkně popsáno, co je předmětem dlouhodobé ochrany a pro koho data ochraňuje? Tj. ví, co chce uchovat a jak to chce uchovat? Je cílem ochrany vysokoškolských kvalifikačních prací nebo šedé literatury uchování textové podoby děl, nebo jsou důležité i další vlastnosti digitálních objektů, které intelektuální obsah nesou - fonty, odstavce, řazení textu, obrázky, metadata, vizuální podoba layoutu atd.?

http://files.d-nb.de/nestor/materialien/nestor_mat_15-eng.pdf

pondělí 3. listopadu 2014

RODA - popis vyhovění ISO 16363

Tvůrci OS systému pro dlouhodobou archivaci RODA zveřejnili v rámci projektu Scape Report on compliance validation k ISO 16363:

http://www.scape-project.eu/wp-content/uploads/2014/09/SCAPE_MS63_KEEPS-V1.0.pdf

V českém prostředí stojí zvláště za pozornost podpora formátu NSESS, vedle EAD, například....

pátek 31. října 2014

ISO 16919:2014 - Publikovaný standard

Norma ISO 169191 se posunula do stavu "International Standard published" (http://www.iso.org/iso/catalogue_detail.htm?csnumber=57950), teoreticky tedy mohou oficiálně začít certifikace podle normy ISO 16363:2012.

ISO 16919:2014 specifkuje požadavky na organizace, které provádějí audit a certifikaci digitálních repozitářů podle metrik obsažených v ISO 17021 a  ISO 16363. Cílem normy je podpořit akreditaci organizací poskytujících certifikace. 

Cely text normy je k dispozici na stránce CCSDS v pdf:

http://public.ccsds.org/publications/archive/652x1m2.pdf

čtvrtek 30. října 2014

NDSA - jak a kdo archivuje web v USA?

NDSA zveřejnila zprávu ze sruvey o archivaci webu ve Spojených státech.

Na rozdíl od České Republiky, kde se archivací webu kromě Webarchivu Národní knihovny zabývá jen několik málo institucí a jednotlivců, je v USA praxe mnohem pestřejší.

Odpovědi na dotazník poskytlo téměř 90 institucí, a z výsledků je vidět, že archivace webu je v posledních letech stále populárnější. Nejčastěji se dotazované instituce (odpověděly především veřejné instituce, vládní a státní úřady, z poloviny univerzity) zabývají jak archivací svého vlastního webového sídla tak cizích webů, většina institucí používá externí služby archivace webu, a také data externě archivují. Mezi nejčastěji používané nástroje patří Heritrix, HTTrack.

Podrobnější výsledky jsou na: http://www.digitalpreservation.gov/ndsa/working_groups/documents/NDSA_USWebArchivingSurvey_2013.pdf

Sborníky z konferencí iPRES dostupné na jednom místě

Díky kolegům z Technické univerzity ve Vídni jsou sborníky z konferencí iPRES dostupné na jednom místě, totiž v repozitáři vídeňské univerzity. Link je tady
https://phaidra.univie.ac.at/detail_object/o:340041.
Zatím chybějí sborníky z roku 2013 a 2014, ale doufejme, že budou brzy doplněny.

středa 29. října 2014

OAIS systems AIP modeling – do we need Common AIP exchange format?

In my career in long-term preservation I had the chance to look under the skin of several systems developed with the aim to fulfill the OAIS reference model. During couple of years, I became familiar with Rosetta, SDB, RODA, one home grown system in Slovakia, more briefly with some other one customer or home tailored solutions. Joining the LTP-Pilot project at Masaryk University in Brno I started to look more closely at Archivematica as this is the focus of the project (and of other projects in Czech Republic as well – Archivematica is supposedly used in the National Archives of the Czech Republic; National Film Archives and Library of the Academy of Sciences are looking at this system too).

The OAIS - ISO 14721 - describes functional entities and information model. For some reason I tend to feel that to understand an OAIS system is always very useful to start with the information model.  I.e. to understand how are the information types described in OAIS mapped to AIP, how can the SIP be structured and how is it converted to AIP, what is possible to do with the AIP later on inside the repository. The AIP modeling expresses the long-term preservation philosophy of the OAIS system creator, and constraints also possible functionality of the system.

Seeing x-th system with the same ambitions (be the “OAIS system”) I realized that there are quite some differences between them on the level of AIP data model. If we see during 10 years of existence of the OAIS such different approaches as RODA FOXML based model,  Archivematica Bagit based model, or systems using METS or non-METS simple and single metadata containers like Rosetta or SDB and other, not mentioning other appraoches like SPAR in BNF, how can we expect some level of interoperability in 50 years time? How do we expect to migrate the AIPs from system to system? Does that mean that we will throw the old repository metadata in a provenance bag, and take only some information to build new AIPs? Or should we have bigger ambitions and want to map maximum of the audit and provenance information into the new systems?

I was always rather skeptical to practical usability of the abstract models like the Trustworthy digital object. But should we not really strive to model some “Common AIP Exchange Format” or have and AIP exchange method standard that would enable fast system to system exchange of the AIPs preserving maximum of the information? I don’t know if the TIPR (http://wiki.fcla.edu/TIPR/1) project resulted in practical implementations, but Repository Exchange Package could be a way to look at the problem. But this project seems to be territorially focused and ended by 2011 without any further steps to enlarging the user community.

If we look at the LTP repositories environment in 50 years time, we can expect each AIP being migrated twice between different systems. Shouldn’t we have clear and common idea about what is to be preserved in these migrations? Shouldn’t this be also explicitly described in widely accepted standard?


úterý 14. října 2014

ČSN ISO 16363 a 14721 - klíčové normy česky

Tak jsme se dočkali překladu dvou klíčových norem z oblast dlouhodobé archivace.
V srpnu byla vydána ČSN ISO 14721, aka OAIS a teď v říjnu ČSN ISO 16363.

Ke koupi třeba tady:
http://shop.normy.biz/detail/96148
http://shop.normy.biz/detail/95767

Andrea Fojtů vypsala z OAIS překlady klíčových termínů, takže, zapomeňme na migrace a transformace, replikace, a autenticitu. Aspoň že nám zůstala "informace" a "data":

access functional entity ­ funkční celek zpřístupnění
access rights information ­ informace o přístupových právech
access aid ­ pomůcka pro zpřístupnění
access collection ­ sbírka pro zpřístupnění
access software ­ software pro zpřístupnění
adhoc order ­ jednorázová objednávka
administration functional entity ­ funkční celek správy
AIP edition ­ vydání balíčku AIP
AIP version ­ verze balíčku AIP
archival information collection AIC­ archivní informační zbírka
archival information package AIP ­ archivní informační balíček
archival information unit AIU ­ archivní informační jednotka
archival storage functional entity ­ funkční celek archivního uložení
archive ­ archiv
associated description ­ pridružený popis
authenticity ­ hodnověrnost
collection description ­ popis sbírky
common services ­ základní služby
consumer ­ koncový uživatel
content data object ­ datový objekt s obsahem
content information ­ informační obsah
context information ­ informace o souvislostech
co­operating archives ­ spolupracující archivy
data  data
data dictionary ­ datový slovník
data dissemination session ­ spojení pro šíření dat
data management functional entity ­ funkční celek správy dat
data management data ­ data o správě dat
data object ­ datový objekt
data submissions sessions ­ spojení pro dodávání dat
derived AIP ­ odvozený AIP
descriptive information ­ popisná informace
designated community ­ určená komunita
digital migration ­ přesun digitálního obsahu
digital object ­ digitální objekt
dissemination information package ­ výstupní informační balíček
event based order ­ rámcová objednávka
federated archives ­ sdružené archivy
finding aid ­ pomůcka pro vyhledávání
fixity information ­ informace o neporušenosti
global community ­ společná komunita
independently understandable ­ srozumitelný sám o sobě
information ­ informace
information object ­ informační objekt
information package ­ informační balíček
information property ­ vlastnost informace
information property description ­ popis vlastnosti informace
ingest functionality entity ­ funkční celek příjmu
knowledge base ­ znalostní základna
local community ­ lokální komunita
long term ­ dlouhá doba
long term preservation ­ dlouhodobé uchovávání
management ­ vedení
member description ­ popis člena
metadata ­ metadata
non-reversible transformation ­ nevratný převod
open archival information system ­ otevřený archivační informační systém
order agreement ­ dohoda o objednávce
ordering aid ­ pomůcka pro objednávání
other representation information ­ ostatní vysvětlující informace
overview description ­ celkový popis
package description  popis balíčku ­ 
packaging information ­ informace o zabalení
physical object ­ fyzický objekt
preservation description information ­ informace o uchovávání
preservation planning functional entity ­ funkční celek plánování uchovávání
producer ­tvůrce
provenance information ­ informace o původu
reference information ­ informace o identifikátorech
reference model ­ referenční model
refreshment ­ obnova
repackaging ­ přebalení
replication ­ kopírování
representation information ­ vysvětlující informace
representation network ­ síť vysvětlujících informací
representation rendering software ­ software pro zobrazení vysvětlujících informací
retrieval aid ­ pomůcka pro získávání
reveresible transformation ­ vratný převod
search session ­ spojení pro vyhledávání
semantic information ­ informace o významu
structure information ­ informace o uspořádání
submission agreement ­ dohoda o dodávání dat
submission information package ­ vstupní informační balíček
succession plan ­ plán nastupnictví
transformation ­ převod
transformational information property ­ převáděná vlastnost informace
unit description ­ popis jednotky

pondělí 15. září 2014

Norma ISO 14721:2012 česky už v srpnu 2014

http://www.csnormy.cz/norma/58920

Netuším, jak bylo naloženo s většinou připomínek, na které přišla odpověď "přeloženo ještě jinak" apod. Pro pořádek zde dokumenty s vypořádáním připomínek.

Vypořádání připomínek k  překladu ISO 14721
https://drive.google.com/file/d/0B9Ah7Og9gY_OdW8yWmxXWnZFNDA/edit?usp=sharing

Vypořádání připomínek k překladu ISO 16363
https://drive.google.com/file/d/0B9Ah7Og9gY_OSVVWMUJZdkphWHM/edit?usp=sharing

pátek 29. srpna 2014

Curation Cost Exchange

Před několika dny projekt 4C zveřejnil betaverzi Curation Cost Exchange (známo též jako CCEx) - projektu zaměřeného na práci s náklady na dlouhodobou ochranu. CCEx by svým uživatelům měl pomoci při snaze porozumět nákladům na dlouhodobou ochranu, dát jim možnost porovnat si své vlastní náklady s obdobnými institucem a vzájemně sdílet zkušenosti.
Za zmínku stojí i sekce s doporučenou literaturou (a projekty, prezentacemi i událostmi).

úterý 19. srpna 2014

IFLA - o edepositu v Norsku a o migraci dat z eDepotu v KB.nl

Dva docela zajímavé články z konference IFLA:

http://library.ifla.org/992/1/107-solbakk-en.pdf
Implementation of digital deposit at the National Library of Norway
Svein Arne Solbakk


http://library.ifla.org/1037/1/188-deboer-en.pdf
Rehousing digital heritage. Preservation on a very large scale
Tanja de Boer

čtvrtek 17. července 2014

APARSEN Knowledge base

Nikdy jsem si na webu APARSEN nevšiml vznikající knowledge base.

Je tam moc pěkně udělaný slovníček termínů z oblasti dlouhodobé archivace využívající definice z asi 6 zdrojů, založený na principech SKOS, je tam stránka týkající se nástrojů nebo databáze standardů a projektů.

pondělí 7. července 2014

90 000 videí na Youtube z British Pathé

Nejlepší dlouhodobá ochrana je zveřejnění. British Pathé http://www.britishpathe.com/ na Youtube umístila více než 90tis videí s obsahem týdeníků od konce 19století do roku 1976. Najdou se tam nepublikované záběry...samozřejmě, za vyšší kvalitu si musíme připlatit.

V jednom klipu z roku 1967 zpívá zlatý slavík romsky, v jiném je vidět hořící vzducholoď nebo potápějící se titanic. Hned několik klipů je z Československa z roku 1968...

http://www.youtube.com/user/britishpathe/featured

pátek 4. července 2014

Jak zajistit dlouhodobou ochranu a přítup k elektronickým knihám?

Britská organizace DCC vydala další ze svých Technology Watch Report, tentokrát o elektronických knihách. Pokud tento typ digitálních dokumentů ve svých sbírkách máte a zajímá vás, jak jsou elektronické knihy vlastně vytvářeny a sestaveny, a jak zajistit jejich dlouhodobou ochranu, pak je to publikace právě pro vás.
Ke stažení zde http://dx.doi.org/10.7207/twr14-01

čtvrtek 3. července 2014

Reblog - 100. výročí počátku 1. světové války - co se děje v archivech a knihovnách ve světě?

Tento příspěvek jsme vystavili v únoru, ale s výročím atentátu na Františka Ferdinanda jsme se rozhodli vystavit znovu. Do textu jsou doplněny některé české aktivity.

Tento post je o digital preservation pouze zprostředkovaně, věnuje se spíše digitalizaci a také historii.
V souvislosti s blížícím se výročím začátku první světové války se objevuje stále více a více aktivit, které toto výročí mají připomenout. Archivy a knihovny jsou v tomto smyslu asi nejaktivnější, budují specializované weby s online přístupnými dokumenty, digitalizují dokumenty z let 1914-1918 a výročí vidí jako příležitost k propagaci a zpřístupnění těchto dokumentů online. Zvláště patrné je to v anglo-americkém prostředí. Níže uvedu několik příkladů.
  • World War One - výuková stránka Britské knihovny (BL) http://www.bl.uk/world-war-one s několika sty historickými zdroji. Sbírka vznikla pro projekt uvedený níže (Europeana 1914-1918), BL si ale také vytvořila vlastní stránku.
  • Europeana 1914-1918http://europeana1914-1918.eu/en - specializovaná stránka se spoustou dokumentů z uvedeného období - fotografie, osobní deníky, dopisy, filmy, audio dokumenty aj. Zpřístupňuje zhruba 400.000 dokumentů z 8 národních knihoven a 7.000 osobních příběhů, mezi nimi i ze Slovenska, které se do projektu zapojilo - viz níže. Europeana 1914-1918 nabízí také vyhledávání v relevantních zdrojích z USA, Austrálie a Nového Zélandu.
  • 100 - web TNA (Národního archivu Velké Británie) - http://www.nationalarchives.gov.uk/first-world-war/ kde jsou zpřístupňovány zdigitalizované sbírky z 1. světové války spolu s doprovodnými dokumenty (osobní záznamy, deníky, filmy apod.). 
  • Discovering ANZAC - http://discoveringanzacs.naa.gov.au/ - společný projekt Národního archivu Austrálie (http://www.naa.gov.au/) a Národního archivu Nového Zélandu (http://archives.govt.nz/) v jehož rámci se digitalizují dokumenty (deníky, fotografie a hlavně osobní záznamy všech zúčastněných vojáků z obou zemí). V NA Nového Zélandu jde o 160.000 záznamů, což je zhruba 4,5 milionu naskenovaných stran. Vše je postupně publikováno online v katalogu Archway (http://www.archway.archives.govt.nz/AboutArchway.do), všechny dokumenty budou dostupné v srpnu 2014, a to i na společném webu výše. Archway také dostane nové prohlížeče, namísto současné možnosti pouhého stažení dokumentu (např. http://www.archway.archives.govt.nz/ViewFullItem.do?code=22277862&digital=yes
  • další weby k tématu jsou např. http://ww100.govt.nz/ a http://www.1914.org/ 
Střední Evropa tak aktivní není, možná i proto, že státy střední Evropy nestály většinou na vítězné straně. Německý národní archiv ani Rakouský národní archiv se zdá nic podobného nechystají, nebo alespoň nepublikovaly v tomto smyslu žádnou tiskovou zprávu a ani jejich weby nic neuvádějí. Podobně Národní archiv Slovenska. Národní knihovna Rakouska a Německa se aktivně účastní Europeany 1914-1918, kam dodávají zdigitalizované dokumenty, převážně fotografie - ukázka rakouských sbírek tady http://tinyurl.com/mbm86fo. Na Slovensku zachraňuje vše také národní knihovna, která do Europeany 1914-1918 dodá své digitalizované dokumenty - viz http://www.snk.sk/?novinky&sprava=prva-svetova-vojna-v-digitalnej-podobe. Slovensko se do projektu oficiálně zapojilo i skrz své občany, kteří přispěli svými materiály, které uchovávají doma - viz http://tinyurl.com/mf6pavv a http://tinyurl.com/kxz4oaw.

V ČR je ohledně výročí začátku 1. sv. války zatím ticho. Bylo by zajímavé vědět, co chystají české instituce jako Národní archiv a Národní knihovna. Jejich weby bohužel nenabízejí žádnou odpověď.
Pokud něco víte, podělte se o informace v komentářích k tomuto textu, děkuji.

DOPLNĚNÍ
Pan Zahradníček z Národního filmového archivu poslal informace o tom, co se k 1. sv. válce děje v NFA: "NFA k tomuto výročí zdigitalizoval v rámci projektu EFG1914 značné množství dobových fotografií a také sedmnáct filmových děl. Tyto materiály jsou k dispozici na webu projektu: http://project.efg1914.eu/. Přímo jsou flash videa dostupná také na této adrese: http://film.nfa.cz/portal/indexAV/20130206120248".

Městská knihovna v Praze 28. června spustila pod projektem e-knihovna.cz web Velká válka online, kde jsou e-knihy ke stažení a v sekci Zajímavosti odkazujeme i sem. Více na www.mlp.cz/velkavalka

pondělí 30. června 2014

PASIG 2014

V polovině září proběhne tradiční konference PASIG, tentokrát v Karslruhe.

Letošním tématem je především archivace vědeckých dat, a tomu odpovídají i doprovodné akce:
http://www.fiz-karlsruhe.de/events/

Formáty doporučené pro dlouhodobou archivaci Kongresovou knihovnou

Americká Kongresová knihovna zveřejnila seznam formátů, které doporučuje jako vhodné k dlouhodobé archivaci. Seznam, rozdělený do šesti kategorií podle typu materiálu, bude každý rok aktualizován.

U každého typu materiálu jsou uvedeny "preferované" formáty obsahu a metadat, a pak také "přijatelné" formáty. Například pro textová díla jsou preferované formáty založené na xml, jako druhé v pořadí (s nižší mírou preference) jsou uvedeny varianty PDF atp.

Seznam obsahuje nejen výčet preferovaných formátů, ale také základní technické charakteristiky.

http://www.loc.gov/preservation/resources/rfs/index.html

čtvrtek 26. června 2014

High Level Residential Training Course on ISO 16363 for Auditors and Managers of Digital Repositories

Oznámením ze stránek PTAB: Školení k certifikaci ISO 16363:

PRELIMINARY ANNOUNCEMENT

High Level Residential Training Course on ISO 16363 for Auditors and Managers of Digital Repositories

London 29 Sept – 3 Oct 2014

The Primary Trustworthy Digital Repository Authorisation Body (ISO-PTAB) plays a major role in training auditors and repository managers. There are three important ISO standards:
ISO 14721 (OAIS – a reference model for what is required for an archive to provide long-term preservation of digital information)
ISO 16363 (Audit and certification of trustworthy digital repositories – sets out comprehensive metrics for what an archive must do, based on OAIS)
ISO 16919 (soon to be published - Requirements for bodies providing audit and certification of candidate trustworthy digital repositories – specifies the competencies and requirements on auditing bodies)

These three standards form a closely-related family and an understanding of their principles and use will become increasingly important in establishing an internationally recognised set of trustworthy digital repositories.

The authors of these standards will be running a 5-day residential training course in London from 29 September - 3 October 2014.
  • The training course will cover the following topics:
  • OAIS concepts
  • Understanding ISO 16363
  • Audit and Certification criteria overview
  • Understanding organisational infrastructure
  • Understanding managing and preserving digital objects
  • Understanding infrastructure and security risk management
  • What an auditor should look for
  • Auditor competencies

As places are limited to 20, please register your interest via Email to ptab-secretariat@iso16363.org as soon as possible to ensure your place.

The cost of the residential course will be £3000 (with a 10% discount for bookings with payment made before 29th July) to include all tuition from the authors of the standards, training materials, accommodation and all meals or £2000 day rate (excludes accommodation, breakfast and dinner). Once you have registered your interest, we will send you further details of the course programme and logistics.

středa 18. června 2014

Dlouhodobá archivace kulturních dat v ČR: Jak se reportuje do EU?

Docela poučné je se podívat, jak se o digitalizaci a dlouhodobé archivaci v českých paměťových institucích podávají zprávy do EU.

Na webu Digitální agenda pro Evropu jsou zveřejněny monitorovací zprávy o postupu za roky 2011 až 2013 za řadu evropských zemí. Zprávy se týkají nejen národní strategie digitalizace, dlouhodobé archivace, ale třeba také problematiky autorsky chráněných děl.

Česká zpráva se odvolává na českou Strategii digitalizace MKCR (která, jak známo, "nebude mít žádné dopady na státní rozpočet") a dozvíme se z ní spoustu zajímavých věcí:

  • Ke strategii bude vytvořena pracovní skupina, která bude sledovat její naplňování, ba dokonce "As an outcome of its work the group will create an exhaustive overview of the information and methodologies in the area of cultural content digitisation. The group will also be involved in preparing the training of content digitisers. "
  • Také bude monitorovat, jaký digitální materiál v kulturní oblasti už existuje - "Quantification of the volumes of digitised material in the sector is part of the current investigation efforts (data and information collection) focused on the situation in  digitisation; the outcomes of this work, including a forecast of the future situation will be  available in the first half of 2014."
  • Pikantní jsou pasáže o dlouhodobé archivaci, kde se autorka odvolává na text "strategie"...dočteme se také, že "The purpose is to ensure equal access to cultural content in digital form for both the professional and lay public, digitise the cultural content, gather digital documents as part of cultural heritage, safely keep digital documents, create organisational and technical conditions for their permanent preservation and accessibility, provide for intersectoral cooperation, and secure funding. Qualitative and quantitative targets for long-term preservation of digital  material will be defined on the basis of the results of the ‘stocktaking’ of the state of digitisation and after defining the standards and methods"

Exhaustive overview, dokonce training digitalizátorů, kvantifikace digitalizovaného materiálu, stocktaling a definice standardů...máme se na co těšit. 

Digital preservation reading list

Pěkný a komentovaný seznam základních textů k dlouhodobé archivaci vytvořili v NEDCC:
http://www.nedcc.org/assets/media/documents/DigiPres_Biblio_Digital_Directions_2014_update.pdf

pondělí 16. června 2014

Náhrada PRONOMU je na obzoru: Global Technical Registry for Digital Preservation

Už v únoru proběhl v DPC zajímavý webex o projektu, ve kterém by časem mohla vzniknout významně užitečnější náhrada PRONOMU. Projekt několika institucí, který zatím jak se zdá hledá financování, prezentovali Steve Knight a Peter McKinney z Národní knihovny Nového Zélandu.

Registr by měl využívat řadu zdrojů dat, jako jsou registry Kongresové knihovny, NARA, Národní knihovny Austrálie, Mediapedie, TOTEM, a další. Obsahem registru by měly být popisy formátů a rizik, hw, sw, fyzickými nosiči a vazby mezi všemi entitami. Tvůrci už mají logický data model a funkční model pro aplikaci, use cases, architekturu řešení atd.

Techničtější podrobnosti jsou v prezentaci Peter McKinneyho:


DPC NLNZ 20022014 Presentation from Digital Preservation Coalition on Vimeo.

pátek 13. června 2014

Webinář: Tools for uncovering preservation risks in large repositories

Open Planets Foundation pořádá ve čtvrtek 26. června 2014 webinář Tools for uncovering preservation risks in large repositories zaměřený na nástroje Scout a C3PO určené k analýze obsahu (velkých) digitálních repozitářů.

úterý 27. května 2014

Pravěk digitální archivace - článek z roku 1985


Fox, Lisa L. (1985) "Archival Preservation in the Age of Technology," Provenance, Journal of the Society of Georgia Archivists: Vol. 3: Iss. 1, Article 4. 
Available at: http://digitalcommons.kennesaw.edu/provenance/vol3/iss1/4

"Preservation planning should anticipate that 
there will be changes in technology. While printed 
documents can be read without the devices that 
created them, others (such as sound recordings and 
computer tapes) are useless, without accompanying 
hardware. One university accepted an important 
collection of wire recordings that was frequently 
used by researchers; but when the player wore out and 
could not be replaced, the information on the 
recordings was lost. Having learned from such 
experiences, archivists should plan carefully to 
ensure continued access to the computer data 
in the future. 

Computer technology changes rapidly, rendering 
hardware obsolete within a decade, so archivists 
should anticipate the future obsolescence of some 
computer resources. It may now seem quite adequate 
to accept, process, and store safely a floppy disk 
created on, say, an IBM Personal Computer. But 
twenty years from now (or probably much sooner) IBM 
(assuming it still exists) may no longer make a PC 
nor the software to support it. How will the 
information on the well-preserved disks be accessed 
then? Just as the wire recordings could have been 
transferred to another medium before the player wore 
out, so can computer data be preserved in another 
media for security purposes. Of course, much 
computer data is of only short-term value, so its 
long-range preservation is not necessary. However, 
it might be worthwhile to establish one of two 
policies to ensure that machine-readable data remain 
usable in the long range. An archive might implement 
a policy requiring that machine-readable data which 
has archival value must, when transferred to the 
repository, be accompanied by a hard-copy version on 
permanent paper. Alternatively, schedules for the 
review and potential re-copying of machine-readable 
data should be established and consulted regularly
With the increased use of computers and 
microcomputers, archivists should expect to begin 
receiving a great deal of computer printout paper
not only from accounting departments and university 
registrars, but from the growing number of 
individuals who use computer technology to compose 
and communicate for business and personal purposes. 
As it becomes more widely used, this paper will pose 
some problems to preservation because of its size and 
acidity
..........
None of these comments is intended to imply that 
archives and manuscript repositories will suddenly be 
inundated by floppy disks, computer tape, and 
printout paper. However, as computer technology 
comes to play a more important role in education, 
government, research, and personal life, archivists 
should expect to notice the impact in the kinds of 
materials they receive. It is important, therefore, 
to begin now to plan the preservation response to 
these technologies."





čtvrtek 15. května 2014

SCOUT - preservation watch tool - nástroj na sledování rizik - finální report projektu a popis funkcionality

O nástroji SCOUT jsme již psali několikrát, poprvé v roce 2012 a také letos (viz http://digital-preservation-cz.blogspot.co.nz/2014/02/scape-scout-preservation-watch-system.html).

Tentokrát chceme upozornit na finální verzi reportu projektu SCAPE, v jehož rámci nástroj vznikl. Report popisuje funkcionalitu SCOUTu, možnosti jeho připojení a také testování na reálných příkladech (a datech) - jako např. dánský webový archiv apod.
Zpráva je dostupná zde http://www.scape-project.eu/wp-content/uploads/2014/05/SCAPE_D12.2_KEEPS_V1.0.pdf

SCOUT dokáže pracovat s různými zdroji informací, které poté používá k vyhodnocení rizik. Tyto zdroje jsou ke SCOUTu připojeny pomocí adaptérů. Několik základních adaptérů je dostupných, např. na PRONOM, C3PO nástroj. Ostatní je potřeba si dodělat. SCOUT je schopen tedy pracovat s profily repozitáře, tedy údaji o jeho obsahu - jaké formáty jsou uloženy (to zajišťuje nástroj C3PO), s registry formátů (PRONOM), se strategiemi a plány pokud jsou ve strojem čitelné podobě a s dalšími zdroji.

Nás v tomto kontextu mohou zajímat již hotové adaptéry na PRONOM a C3PO. C3PO je tedy teoreticky možné přes API připojit na jakýkoliv repozitář, tedy např. Fedora, DSpace nebo na LTP Archivematica nebo RODA (testováno). Vytvořit profil obsahu a ten pak použít jako input pro SCOUT, který tak vlastně nabízí těmto systémům další rozměr a přidává funkcionalitu dlouhodobé ochrany, kterou např. DSpace nebo Fedora nemají, Archivematicka a RODA pouze do jisté míry.

Co se stane, pokud SCOUT pošle varování, že konkrétní objekt nebo objekty v repozitáři jsou problematické? Je to vlastně první krok v procesu plánování ochranných akcí (preservation planning), který je možno provést dalším nástrojem - PLATO.
Všechny nástroje jsou v reportu linkované, takže je jednoduché je vyzkoušet.
SCOUT, C3PO byly testovány ve spojení s LTP systémem RODA, který je také volně dostupný.

Pokud se rozhodnete SCOUT nebo C3PO vyzkoušet, podělte se s námi o zkušenosti.

neděle 11. května 2014

OCLC Preservation Health Check: Monitorování rizik pro obsah vašeho digitálního repozitáře

OCLC a OPF (Open Planets Foundation) provádějí od roku 2012 tzv. Preservation Health Check, což je pilotní projekt na analýzu kvality ochranných (preservation) metadat vytvářených a využívaných v digitálních repozitářích a systémem na ukládání. Cílem je posoudit potenciál těchto metadat k vytváření odhadů o míře rizik hrozících uloženému digitálnímu obsahu.
OPF poskytuje datové sety, feedback, organizuje celý projekt včetně workshopů a publicity. OCLC má experty na ochranná metadata a tzv. risk assessment. Navrhuje metodologii, provádí samotný výzkum, poskytuje technickou podporu apod.
Všechny dosavadní výsledky naleznete tady http://www.oclc.org/research/activities/phc.html
Poslední zpráva shrnuje přínosy ochranných metadat, náklady na jejich vytváření. Soustředí se na standard PREMIS a jeho mapování do metodologie posuzování rizik SPOT (Simple Property-Oriented Threat - http://www.dlib.org/dlib/september12/vermaaten/09vermaaten.html). SPOT je využíván na posuzování toho, zda PREMIS a jeho využití opravdu přinášejí potřebné údaje v oblastech, na které se soustředí SPOT - to jsou dostupnost, identita, dlouhodobá odolnost, zobrazitelnost, srozumitelnost a autenticita (digitálního obsahu).

středa 30. dubna 2014

Nanite: https://github.com/openplanets/nanite/

Do seznamu nástrojů jsem přidal Nanite: https://github.com/openplanets/nanite/ , který balí DROID a Apache Tika a má sloužit pro identifikaci a charakterizaci větších objemů dat. Kromě standardní command line aplikace je dostupná také aplikace pro Hadoop pro zpracování dat z Webarchivace.




středa 23. dubna 2014

Nové online registry nástrojů na dlouhodobou ochranu dat

Na webu OPF se objevila malá noticka o možném spojení registru COPTR a DCH RP registru (http://www.openplanetsfoundation.org/blogs/2014-04-22-news-coptr-and-dch-rp-digital-preservation-tool-registries).
Oba registry dělají velmi podobnou věc, vytvářejí seznam nástrojů na všechny možné aktivity, jako např. ingest, extrakci metadat, editaci metadat, validaci formátů aj. V registrech se dá vyhledávat podle různých hledisek.
Pokud tedy hledáte nástroj na konkrétní problém s vašimi daty, pak jej můžete najít zde.
COPTR http://coptr.digipres.org/Category:Tools
DCH RP http://www.digitalmeetsculture.net/heritage-showcases/dch-rp/registry-of-services-and-tools/


úterý 22. dubna 2014

Nová publikace o LTP: Digital Preservation for Libraries, Archives, and Museums

Digital Preservation for Libraries, Archives, and Museums [Paperback]
by Edward M. Corrado, Heather Lea Moulaison

https://rowman.com/ISBN/9780810887121


Porovnání obrazových formátů pro digitalizaci - FADGI

Americká organizace FADGI vydala před Velikonoci poměrně zajímavé porovnání formátů TIFF, JPEG 2000, PNG a JPG z pohledu vhodnosti k dlouhodobé ochraně. Porovnávány byly 4 oblasti:

  • náklady (na tvorbu dat a uložení)
  • možnosti nastavení a flexibilita
  • implementace do systémů a dostupné nástroje
  • dlouhodobá udržitelnost
Celá zpráva ve formě přehledné tabulky je ke stažení zde http://www.digitizationguidelines.gov/guidelines/File_format_compare.html. Dostupná je tabulka, její tisková podoba pro lepší tisk a krátký textový popis se závěry srovnání.
Výsledky jsou celkem očekávatelné, otázku zda vybrat TIFF nebo JPEG 2000 za vás nevyřeší, ale zpráva vám může poskytnou dobrá vodítka a hlediska, které vám s výběrem pomohou.

neděle 13. dubna 2014

Archivematica v ČR

V ČR přibývá projektů, které experimentují s Archivematicou - OS systémem pro zajištění logické dlouhodobé ochrany digitálních dat. Přestože je Archivematica funkčně poměrně omezené řešení, začíná se s ní pracovat v řadě institucí, a několik dalších její používání plánuje nebo zvažuje:

  1. Národní archiv v projektu Národní digitální archiv. Aktuální prezentace ukazuje jasně, že NDA bude stavět svoje řešení na jádru Archivematica. Národní archiv je určitě pod velkým tlakem a rozhodnutí implementovat Archivematicu, o kterém se šuškalo od minulého roku, je velkým projevem důvěry v toto řešení a ve schopnost NA ho implementovat. http://www.isss.cz/archiv/2014/download/prezentace/narodniarchiv_bernas.pdf
  2. S Archivematicou experimentuje MZK, také již od minulého roku. (demo na: archivematica.mzk.cz, resp. http://archivematica.mzk.cz/ica-atom/index.php/;actor/browse) a plánuje ji použít v ostrém provozu pro některá svoje data. 
  3. O Archivematicu se zajímá také NFA a FAMU.
  4. O Archivematice uvažuje také projekt Česká digitální knihovna (projekt NAKI Knihovny Akademie věd). 
  5. Masarykova univerzita podala do FR CESNETu žádost o financování projektu LTP Pilot, kde by chtěla systém testovat a implementovat na infrastruktuře DÚ CESNET, a ve spolupráci s MZK. 


sobota 12. dubna 2014

DMPonline - nástroj na vytváření Data management plánů - DPC a JISC

Již v loňském roce vytvořily britské organizace DPC a JISC jednoduchý online nástroj na tvorbu a správu tzv. Data management plánů. Je to výborný nástroj použitelný v jakékoliv instituci, která vytváří a/nebo spravuje digitální data. Je potřeba se pouze zaregistrovat, nástroj si poté pamatuje plány, které jste vytvořili atd.
Co je to Data management plán? Jde o dokument, který si organizace vytváří pro svá digitální data. Může to být pro sbírku, pro data z konkrétního projektu, data od konkrétního původce. Plán pak obsahuje veškeré údaje, které o datech máme - jak vznikají, jak jsou přebírána, jak a kde jsou ukládána, stupeň ochrany atd atd. Dokument tohoto typu zabrání nejasnostem, poskytne přehled i pro nově příchozí kolegy, může pomoci v plánování a to velmi podstatně - kolik bude potřeba místa na úložišti? Kolik to bude stát? Budeme sbírku X a data od organizace Y ukládat na discích nebo na páskách? Právě z tohoto důvodu musí Data management plán vzniknout již na začátku, tedy před vznikem projektu, před vytvářením nebo přebráním dat. Dokument by to měl být závazný a tedy podepsaný manažerem organizace.
https://dmponline.dcc.ac.uk/ 

pátek 11. dubna 2014

Digitální knihovník: Blog Jaroslava Kvasnici z Národní knihovny

Pomalu se rozrůstá blog pana Kvasnici z NK, který se také dotýká témat dlouhodobé archivace. Píše třeba svoje zkušenosti s Apache Tikka, FITS, nástroji pro extrakci metadat.

Sledujte zde:
http://digitalniknihovnik.wordpress.com/

čtvrtek 27. března 2014

Cloud a archivy, jde to dohromady?

Neil Beagrie publikoval na blogu britského národního archivu (TNA) krátký post o cloudu a jak se k němu archivy staví. Shrnuje nejčastější otázky a informuje o analýze, která se připravuje právě na objednávku britského archivu a měla by být vydána v druhé půli tohoto roku. Zmiňuje se také o systému Archivematika, který welšské konsorcium používá v cloudu.
Určitě stojí za to sledovat.
http://blog.nationalarchives.gov.uk/blog/cloud-storage-archives-match-made-heaven/

úterý 25. března 2014

Zajištění kvality při digitalizaci audiovizuálního obsahu

Zajímavé aktivity BAVC v oblasti dlouhodobé ochrany audiovizuálního obsahu.

BAVC ve společném projektu s několika dalšími institucemi pracuje na vývoji nástrojů na kontrolu kvality digitalizovaného audiovizuálního materiálu. V projektu AVAA vytvářejí databázi audiovizuálních artefaktů a také nástroje na jejich odhalování tzv. quality assurance tools.

Tyto nástroje by měly usnadnit práci především správcům archivů, kteří potřebují jednoduchou informaci o kvalitě materiálu, který se jim do archivu dostává.

Pomocí sady filtrů mohou v audiovizuálním souboru identifikovat podezřelá místa, kde obraz nemá konzistentní jasnost nebo ji mění skokově, kde v obraze dochází k neobvyklým změnám barevnosti, nebo kde jsou barevné fleky, špína,  kde dochází ke ztrátám barevnosti apod.

Jak moc je tohle ojedinělý nástroj nebo nakolik je v praxi použitelný bohužel nedokážu posoudit.


čtvrtek 20. března 2014

Kolik stojí důveryhodnost - zpráva projektu 4C

Zajištění kvality v oblasti dlouhodobé archivace a budování důvěryhodnosti dlouhodobého archivu instituce něco stojí. Tým EU projektu 4C se pokusil získat a sumarizovat informace o nákladech souvisejících s certifikací a self-auditem. Zjistil, že jednak nejsou k dispozici srovnatelná veřejně publikovatelná data, a jednak pro každého stakeholdera je "kvalita" trochu něco jiného.

Formou rozhovorů a analýzy dokumentů rozebírají náklady na projekty pilotních auditů ISO 16363 a také náklady na audity provedené podle TRACu. Protože ISO 16919 není stále ve fázi publikovaného standardu, jsou k certifikaci podle ISO 16363 k dispozici stále jen pilotní audity provedené APARSENem v roce 2011.  Jsou analyzována data z auditů v DANS, SafeArchive, CINES, Chronopolis, Scholars Portal, SEDAC, DNB...

http://www.4cproject.eu/community-resources/outputs-and-deliverables/d4-3-quality-and-trustworthiness-as-economic-determinants-in-digital-curation

středa 19. března 2014

Rozhovor s Pavlem Smržem z VUT o tom proč a jak se VUT zapojilo do projektu SCAPE

Na blogu OPF je rozhovor s Pavlem Smržem z VUT v Brně, který se od září 2013 podílí na projektu SCAPE:

http://openplanetsfoundation.org/blogs/2014-03-07-interview-scaper-pavel-smrz

"I lead a work package dealing with the Data Centre Testbed. Together with other new project partners, we aim at extending the current SCAPE development towards preserving large-scale computing experiments that take place in modern data centres. Our team particularly focuses on preservation scenarios and workflows related to large-scale video processing and interlinking."

"My experience shows that “one-size-fits-all” solutions are often too scary to be used. Although funding agencies believe opposite, research and development project seldom deliver solutions that could be used as a whole. It is often the case that what seemed to be a minor contribution becomes the next big thing for business. I believe that at least some components developed within the project have this great potential."

Jak jsou vaše data a instituce připraveny na dlouhodobou ochranu?

Americký Educopia Institute (http://www.educopia.org/) publikoval dokument, který se zabývá připraveností digitalizovaných novin na dlouhodobou ochranu - Guidelines for Digital Newspaper Preservation Readiness. Z názvu je jasné, že je dokument zaměřen na digitalizované noviny, ovšem zásady, které popisuje, jsou aplikovatelné na jakákoliv data v knihovnách nebo archivech.
Dokument je koncipován tak, že jde vlastně o návod jak postupovat, co zařídit, co kontrolovat v institucích, a to s minimálními náklady. Cílem je, aby data byla dobře spravována a tak "připravena" na dlouhodobou ochranu.
Pokryta jsou následující témata: inventarizace (co, kolik, a kde vlastně máme), organizace dat (názvy souborů, uložení apod.), správa formátů, správa metadat, správa kontrolních součtů, ochranné balíčky a další. Ke každé kapitole náleží seznam nástrojů, které jsou volně dostupné.
Dokument také přináší "kontrolní seznam", který je možné použít na rychlou nebo opakovanou kontrolu připravenosti vaší organizace na dlouhodobou ochranu dat (strana xi).
Autoři rozlišují mezi základní a optimální připraveností. Celý koncept připravenosti je navázán na v roce 2013 představené NDSA Stupně dlouhodobé ochrany - http://www.digitalpreservation.gov/ndsa/activities/levels.html.
Publikace se zdá velmi použitelno pro české knihovny, které spravují digitální data a nemají ustálené procesy okolo jejich správy a v dohledné době nepočítají s žádným sofistikovaným digitálním repozitářem na jejich ochranu.
Pokud máte digitální data a máte snahu je spravovat tak, aby byla použitelná v budoucnu, pak toto je dokument, který vám pomůže začít.


Ke stažení 

http://www.educopia.org/publishing/gdnpr
http://metaarchive.org/public/publishing/Guidelines_for_Digital_Newspaper_Preservation_Readiness.pdf

úterý 18. března 2014

Projekt DURAARK - dlouhodobá archivace architektonických 3D objektů - úvod do digital preservation

Na stránce projektu Duraark (http://duraark.eu/) je mezi projektovými výstupy zajímavý dokument, který se primárně věnuje současnému stavu dlouhodobé ochrany 3D objektů. Úvodní část dokumentu ale velmi dobře shrnuje současný stav chápání dlouhodobé ochrany digitálních dat samotné. Rozhodně stojí za přečtení.
Ilustrativní je obrázek 1 na straně 7 s následujícím popisem, kde je popsán rozdíl mezi ochranou bitstreamu, logickou ochranou a sémantickou ochranou digitálních dat. Toto rozlišení je často nepochopené, dokument jej vysvětluje naprosto přesně.
http://duraark.eu/wp-content/uploads/2014/02/duraark_d6.6.1_final.pdf

PREMIS Fair - prezentace z loňského září nyní online

Prezentace z loňského PREMIS workshopu, který se konal při konferenci iPRES, jsou nyní dostupné online. Pokud používáte metadatové schéma PREMIS, nebo se chystáte, prezentace určitě stojí za prostudování. Dají nahlédnout do změn, které se chystají.
Zajímavé jsou konkrétní příklady použití z různých institucí, mezi jinými prezentovali i polští kolegové.
Z pohledu posledního vývoje v ČR je určitě zajímavá prezentace o využití PREMIS v LTP systému Archivematica.
http://www.loc.gov/standards/premis/premis-implementation-fair-agenda-2013.html

pondělí 17. března 2014

ToMaR - využití Hadoop clusteru pro migraci velkého množství souborů

http://www.openplanetsfoundation.org/blogs/2014-03-14-tomar-how-let-your-preservation-tools-scale

Příspěvek na blogu Open Planets Foundation prakticky ukazuje jak se dají využít nástroje vznikající v projektu SCAPE. Na příkladu formátové migrace ukazuje možnosti využití Hadoop a ToMaR pro hromadné migraci velkého množství souborů. Příspěvek popisuje příklad (asi) fiktivní knihovnice, která potřebuje migrovat několik set tisíc TIFF souborů do formátu JPEG 2000. Tento příklad není zcela teoretický, podobným "cvičením" prošly už naostro např. v Britské knihovně a v mnoha dalších. 


neděle 16. března 2014

Časová osa světových webových archivů

Webarchivists.org publikoval časovou osu zobrazující přehlednou historii vzniku webových archivů ve světě. Je příjemné vidět, že WebArchiv Národní knihovny ČR patří mezi průkopníky archivace webu.

středa 12. března 2014

PREFORMA - PREservation FORMAts for culture information/e-archives

Zajímavý projekt zahájený 1. ledna 2014 financovaný z EU.

http://www.preforma-project.eu/project.html

Podle informaci na internetu (http://www.digitalmeetsculture.net/wp-content/uploads/2014/01/PREFORMA_FactSheet_v1.3.pdf) by měl vypsat tender s částkou 2,8 milionu Euro, ve kterém vyzve 6 dodavatelů, aby vyvinuli moduly pro přípravu dat pro dlouhodobou archivaci -  nástroje na validaci formátů a extrakci technických metadat.

Cílem projektu je zajistit, aby paměťové instituce měli plnou kontrolu nad nástroji, které používají k ověření shody se standardy formátů. Výsledkem by měly být volně dostupné nástroje a jejich pilotní zapojení do jiných open source systémů.

Projekt se zaměří na obrazové soubory, dokumenty, a audiovizuální data a bude vyvíjené nástroje testovat na reálných data zúčastněných institucí.

středa 5. března 2014

3. Liber Workshop on Data Curation se zajimavým programem

Ve Vídni se koná  19. a 20. května 2014 zajímavý workshop Liberu: Keeping Data: The Process of Data Curation. Jako doprovodná akce je oznámeno setkání k projektu Scape.

Program je zde:
http://liber2014.univie.ac.at/programme/

Na hlavní akci vystoupí David Giaretta, Andreas Rauber, Paul Ayris, nebo Jeffrey van der Hoeven, zástupci DANS, CINES i představitelé exotičtějších institucí.

Stránka workshopu také obsahuje seznam doporučené četby k tématu archivace vědeckých dat. Z uvedených novějších titulů jistě stojí za prolistování:

Erway, Ricky. Starting the Conversation: University-wide Research Data Management Policy. Dublin (Ohio):  OCLC Online Computer Library Center, December 2013. http://www.oclc.org/content/dam/research/publications/library/2013/2013-08.pdf

Fearon, David Jr., Betsy Gunia, Sherry Lake, Barbara E. Pralle and Andrew L. Sallans. 2013.SPEC Kit 334: Research Data Management Services. July. Washington, DC: Association of Research Libraries. 
http://publications.arl.org/Research-Data-Management-Services-SPEC-Kit-334/

RDMF special event: Funding Research Data Management . A conversation with the funders. 25 April 2013, Lakeside Conference Centre, Birmingham (Blogposts and presentations). 
http://www.dcc.ac.uk/events/research-data-management-forum-rdmf/rdmf-special-event-funding-research-data-management

úterý 4. března 2014

Kniha: Re-collection: Art, New Media, and Social Memory

Tahle publikace bude určitě stát za pozornost: 

Re-collection: Art, New Media, and Social Memory (Leonardo Book Series) Hardcover – May 23, 2014 by Richard Rinehart (Author) , Jon Ippolito (Author), The MIT Press

Pánové z MIT napsali - soudě podle obsahu na propagačním webu (http://re-collection.net/) a pověsti, která knihu už před publikací provází - asi docela zajímavý text. 

Naše filosofie dlouhodobé ochrany se musí vyvíjet přirozeně s médii. Knihovny, muzea, archivy, wunderkamery, tvořily sociální paměť, a tu je třeba s vývojem digitálních a nových medií znovu definovat a posunout za tyto zdánlivě navždy existující instituce. 

Knihovny, muzea a galerie se zaměřily pouze na ukládání, a nevyužívají potenciál variability, sítí, nových médií a crowdu. Využití práce amatérů je cestou jak efektivně zajistit uchování obsahu nových médií. Migrace, emulace a re-interpretace davem amatérů je spolehlivější cestou jak uchovat kulturní data a obsahy nových médií než ukládání v rigidní instituci a správa "experty". Znamená to ale, že musíme přistoupit na jinou definici kultury, sociální paměti...ale pokud chceme, aby současná digitální kultura přežila, nemáme podle autorů jinou možnost.


pondělí 3. března 2014

Konference Digitálná knižnica v Jasné letos se zajímavým programem

Letos je program tradiční konference Digitálna knižnica 2014 v Jasné pod Chopkom docela zajímavý. Zvlášť druhý den jsou přednášky věnované masové digitalizaci a zpřístupňování digitalizovaných dat od zástupců
- knihovny ve Vatikánu,
- Bavorské státní knihovny
- Britské knihovny (Sean Martin, který se zabývá i dlouhodobou archivací)
- Bodleian Libraries
- Poznan supercomputer center + Polská NL

Bez zajímavosti nebudou určitě ani komerční přednášky Tempestu (Robust OAIS Compliant LTP Solution), IBM, Oracle, nebo Image Access, Treventus atd. 

Je trochu škoda, že na programu není představení digitalizačních projektů České ani Slovenské národní knihovny. Obě tyto instituce masově digitalizují v projektech financovaných EU SF....

Digital Curation of Research Data Experiences of a Baseline Study in Germany

Publikace NETSTORu k dlouhodobé archivaci  vědeckých dat byla zveřejněna také anglicky: http://nbn-resolving.de/urn:nbn:de:0008-2013112701

Německé vydání je na http://nbn-resolving.de/urn:nbn:de:0008-2012031401

středa 26. února 2014

ARCOMEN: Prototypy nástrojů pro analýzu webových dat ze sociální sítí

EU Projekt ARCOMEN, který se zabývá využitím informací vytěžených ze sociálních webů pro paměťové instituce, zveřejnil první nástroje na Sourceforge.

Projekt se snaží vytvořit nástroje pro využití obsahů sociální medií při selekci a hodnocení dat především při webarchivaci. Pokud vám, jako mě, není moc jasné, o co by asi mohlo jít, nezoufejte a pobavte se s některými demo nástroji, které jsou dostupné online - seznam je zde http://www.arcomem.eu/technology-demos/

Za pokus stojí určitě nástroj na analýzu názorů v textu:
http://demos.gate.ac.uk/arcomem/opinions/

Vyhledávač FOKAS - Formerly Known AS:
http://www.l3s.de/fokas/

Trendy topics modul:
http://fbmya02.barcelonamedia.org/engv2/

Pěkná je ukázka využití nástrojů Gate pro extrakci "named entities" z dat webarchivu:


Entity, event and opinion detection in GATE from Diana Maynard on Vimeo.

Webinář: Jak formulovat požadavky na LTP systém pro audiovizuální data

PrestoCenter pořádá volně dostupný webinář na téma Jak formulovat požadavky na LTP systém pro audiovizuální data.

Především se bude mluvit o tom,  jak při formulaci požadavků použít standardy ISO 14721:2012 tj. OAIS, Ontology for Media Resources, a standard ISO/IEC 25010 System and Software Quality Requirments and Evaluation SQuaRE – System and Software Quality.

Webinář vede Carlo Meghini z Univerzity v Pise, kterého si možná někteří pamatují - v roce 2008 vystoupil v Praze v rámci školení DPE.
Registrace zde: http://bit.ly/1k8QMNZ

SCAPE SCOUT - Preservation watch system

O tzv. Preservation Watch systému, který vzniká v projektu SCAPE jsme už před časem psali (http://digital-preservation-cz.blogspot.cz/2012/02/automatizovane-sledovani-promen.html)

Systém pro automatické sledování rizik a možností pro dlouhodobou ochranu mezitím dostal název Scout a jasnější obrysy funkcí. Měl by uživatele automaticky upozornit na nové nástroje nebo verze, nově odhalená rizika, mohl by archivu pomoci zjistit, které další instituce mají podobná data ve stejných formátech . Automaticky by měl sklízet řadu informačních zdrojů a měl by je zpřístupňovat formou ontologické znalostní báze(Více na  http://openplanets.github.io/scout/)

Nyní je možnost vyjádřit se k tomu, co by měl tento systém sledovat v dotazníku:
http://survey.scape-project.eu/index.php/862812/lang/en

neděle 23. února 2014

UNESCO srovnání SW na správu digitálního repozitáře

UNESCO vydalo přehledové srovnání systémů na správu digitálních dat/repozitářů. Porovnány jsou systémy Digital Commons, Fedora, Islandora, DSpace, a EPrints. Porovnáno je 12 hledisek:

  • technická infrastruktura (instalace, hosting, podpora atd.)
  • front-end design
  • správa struktury a obsahu 
  • vyhledávání
  • nástroje k publikování obsahu
  • reportování
  • multimédia
  • interoperabilita
  • sociální sítě
  • zpřístupnění
  • autentikace
  • ochrana dat

Jaká rizika přináší PDF/A-3? Report NDSA

Americká organizace vydala před týdnem report, ve kterém se zabývá riziky, která může pro dlouhodobou ochranu dat představovat formát PDF/A-3  (ISO 19005-3:2012). Na blog postu http://blogs.loc.gov/digitalpreservation/2014/02/new-ndsa-report-the-benefits-and-risks-of-the-pdfa-3-file-format-for-archival-institutions/ se dočtete více o krátké historii a problémech, které komunita v PDF/A-3 vidí. Vlastní report, který je volně ke stažení zde http://www.digitalpreservation.gov/ndsa/working_groups/documents/NDSA_PDF_A3_report_final022014.pdf.
V čem je tedy problém? Poslední verze PDF/A, tedy PDF/A-3 má oproti PDF/A-2 (ISO 19005-2:2011) novou vlastnost, která může způsobit z pohledu dlouhodobé ochrany spoustu problémů. Zatímco PDF/A-2 umožňovalo zapouzdření souborů pouze pokud i tyto odpovídaly specifikaci PDF/A, tak nová verze PDF/A-3 umožňuje zapouzdření jakýchkoliv souborů do PDF/A-3 souboru. Mohou to tak být např. XML, CSV, CAD, obrazové, exe a jiné soubory, zapouzdřené do PDF/A.
Autoři vidí možnost využití a archivace PDF/A-3 vytvářených v kontrolovaném prostředí, ale rozhodně ne jako formátu pro příjem PDF/A souborů z různých zdrojů, nad kterými nemáte kontrolu. Více viz zpráva samotná.