CINCH, alternativní způsob pro harvestování dokumentů z webu?

čtvrtek 19. července 2012

CINCH, alternativní způsob pro harvestování dokumentů z webu?

Státní knihovna Severní Karolíny zveřejnila nástroj, kterému říkají CINCH (Capture INgest CHecksum). CINCH jako vstup přijme seznam URL dokumentů umístěných na webu (PDF, DOC, DOCX, apod.), dokumenty automaticky stáhne, validuje, generuje checksum, extrahuje základní metadata, všechno to zabalí do jednoho balíku, odešle mail o ukončení práce. Částečně řeší duplicity, na úrovni checksumů v rámci dané dávky, na úrovni názvu souboru a url šířeji. Nástroj předpokládá další zpracování, zhodnocení obsahu a popis, a další zpracování při uložení do dlouhodobého repozitáře.

Motivace k vytvoření CINCHe byla usnadnit zaměstnancům knihovny stahování dokumentů, které jsou online. Nelíbilo se jim, jak se data stahují a ukládají pomocí klasických nástrojů webarchivace, chtěli dát svým zaměstnancům něco jednoduššího. Rozhodně ale takový přístup nemůže nahradit skutečnou archivaci webu.

Není zcela jasné proč jako další microservice nezapojili do workflow také identifikaci a validaci formátů, FITS například. Asi proto, že je to myšleno jako nástroj pro sklízení velmi hrubých dat, která se budou ještě manuálně zpracovávat a formátové validace proběhnou až před vložením do dlouhodobého archivu.

Jedna stránka s kompletní informací: http://digitalpreservation.ncdcr.gov/asgii/presentations/jcdl2012.pdf
Dokumentace: http://digitalpreservation.ncdcr.gov/asgii/presentations/ala2012.pdf
GitHub: http://slnc-dimp.github.com/Cinch/