pondělí 4. listopadu 2013

Dva články na ProInflow

KVASNICA, Jaroslav; KREIBICH, Rudolf. Formátová analýza sklizených dat v rámci projektu WebArchiv NK ČR. ProInflow [online]. 31.10.2013 [cit. 04.11.2013]. Dostupný z WWW: <http://pro.inflow.cz/formatova-analyza-sklizenych-dat-v-ramci-projektu-webarchiv-nk-cr>. ISSN 1804–2406.

Zajímavý pokus s daty webarchivu. Pánové z Národní knihovny nad daty, která sklízí v projektu Webarchiv, použili Droid pro identifikaci formátů v kontejnerech ARC a WARC. Samozřejmě nejsou první, kdo se podobnou analýzou zabývá, podobné pokusy dělají i další členové IIPC konzorcia a také srovnávají výskyt jednotlivých formátů v různých částech svých sbírek. Pokud "hlavním cílem analýzy bylo zmapování možností retrospektivní identifikace formátů kompletního archivu webových stránek až do roku 2000" pak by stálo za to také nejprve analyzovat desitky publikací, které se stejným tématem zabývají. Také by bylo zajímavé vidět, jak se podíl zastoupených formátů mění v čase...

- KB.nl dělá analýzy formátů od roku 2007, http://www.kb.nl/sites/default/files/docs/IIPC-PWG-Webarchiving-JHove-DROID-test.pdf,

- k testům British Library existuje řada publikací http://arxiv.org/pdf/1210.1714.pdf, http://www.ifs.tuwien.ac.at/dp/ipres2010/papers/enders-70.pdf, http://www.openplanetsfoundation.org/blogs/2012-08-17-analysing-formats-uk-web-archive,

-stejně tak z BNF a další francouzské instituce, http://archivesic.ccsd.cnrs.fr/docs/00/76/90/91/PDF/FormatWebArchives_Oury_ipres2010.pdf, http://www.unesco.org/new/fileadmin/MULTIMEDIA/HQ/CI/CI/pdf/mow/VC_Holden_27_C_1610.pdf,

- další projekty v této oblasti:http://wiki.opf-labs.org/display/SP/File+Format+Identification+and+Characterisation+of+Web+Archives

Zarážející je, že ve svém pokusu nalezli pánové z NK jen 2% neidentifikovaných formátů, nerozlišují mezi formáty identifikovanými různými metodami (identifikace pomoci signature, koncovky, nebo předběžné identifikace), a v seznamu identifikovaných formátů se nevyskytuje oblíbený únik DROIDu "octet stream". Jak ukazuje analýza ze SCAPE (http://www.scape-project.eu/wp-content/uploads/2012/01/SCAPE_PC_WP1_identification21092011.pdf) Droid má problémy s identifikací především "text-based" formátů, XML formátů. Možná nějaká informace o neidentifikovaných souborech by byla zajímavá, stejně tak by bylo dobré vědět zhruba s jakým nastavením byla testovaná data posklízena (limity na velikosti souborů, sklízely se skripty, apod.)

2% neúspěšné identifikace jsou skutečně podezřele málo, v porovnání s daty, která zveřejňuje například na svém posteru C. Oury (http://netpreserve.org/sites/default/files/attachments/Poster_ipres2010_webarchivefileformats_oury(1).pdf) a podle mě článek toto číslo nedokladuje dostatečně.

DROID je skutečně jen nástroj pro identifikaci formátů, nikoli nástroj na jejich valiadaci. Spoléhat na to, že soubory, které označí DROID za formáty fmt/xy, jsou skutečně validní reprezentaci daného formátu, by bylo jistě krátkozraké. Jako strategie dlouhodobé ochrany je pouhá identifikace obsahu pomocí DROIDu jen částečným řešením...dříve či později je asi třeba se rozhodnout, zda budou nevalidní formáty migrovány do validních nebo zda se bude používat pro zpřístupnění dat z archivace webu výhradně a plně emulace.

KVAŠOVÁ, Zuzana; SVOBODA, Tomáš. Dlouhodobá ochrana elektronických publikací. ProInflow[online]. 31.10.2013 [cit. 04.11.2013]. Dostupný z WWW: <http://pro.inflow.cz/dlouhodoba-ochrana-elektronickych-publikaci>. ISSN 1804–2406.
Druhý článek o plánech na dlouhodobou archivaci e-knih v Národní knihovně. Shrnuje přehledně problematiku dlouhodobé archivace tohoto typu dokumentů. Jak bude v praxi vypadat předávání elektronických publikací do Národní knihovny se dozvíme možná na chystaném semináři.

2 komentáře:

  1. u DROIDu je důležitý typ výsledku, zda identifikace proběhla a) pouze koncovky, b) na základě tzv. signature. Pokud a i b souhlasí, je to pozitivní identifikace. Pokud nesouhlasí, je to extension mismatch. Extension mismatch je považován v LTP systémech za riziko a takový soubor by měl být zachycen při ingestu a problém vyřešen. To samé platí pro identifikaci pouze na základě koncovky, je to riziko, všichni víme, jak často se koncovky zaměňují. Opět LTP systém by toto měl zachytit a pak je na digital preservation analytikovi to vyřešit. Někdy se stane, že signature je příliš obecný, nebo nepřesný a identifikuje 2 různé typy formátů. Např. TIFF a TIFF FX měly tento problém, bylo vyřešeno v signature verzi 69 myslim... tj. ano, to že DROID vyplyvne výsledky je teprve začátek, pokud je vše identifikováno podle signature a koncovky, je to ideál. Zbytek je k řešení. Ani DROID není neomylný. Např. 3 verze signature zpátky identifikoval některé TIFFy jako Dreamwave soubory, opět bylo opraveno. Hlavní žrout času je tyhle problémy řešit, rozhodnout co je správně a u souborů, kde DROID neví, pokusit se formát identifikovat dle různých klíčů a indicií, případně vytvořit signature a poslat ho kolegům do TNA, které udržuje databázi PRONOM, z které DROID bere údaje.

    OdpovědětVymazat
  2. pro srovnání, minulý týden jsme dělali analýzu formátů pro digitální transfer z ministerstva průmyslu NZ - z celkového počtu 398.451 souborů DROID neidentifikoval jen 5155, což je 1.3% celku. Neidentifikoval znamená, že výsledek byl "blank" nebo "tentative". Tentative je označení stavu, kdy DROID formát neidentifikoval, zná ale koncovku. 2.16% byl extension mismatch (celkem 8642 souborů, nejčastěji emailů).

    OdpovědětVymazat