Skip to content

Popis aplikace

mariehaskovcova edited this page Nov 30, 2018 · 4 revisions

Účel aplikace

Aplikace byla navržena pro potřeby Českého webového archivu NK ČR (Webarchiv) a jeho uživatelů. Účelem aplikace je získávání, evidence a vizualizace technických a administrativních metadat, která se vztahují k jednotlivým sklizním včetně kontejnerových formátů ARC / WARC. Umožňuje kurátorům a uživatelům pracovat s obsahem archivu na základě různých analýz metadat, například o původu, vzniku a objemu archivních dat. Prezentační vrstva slouží k procházení a vizualizaci metadat uživateli. V aplikaci Grainery jsou evidovány realizované sklizně a seznam balíčků ve formátech ARC / WARC. Rozlišeny jsou dvě specifikace metadat - první náleží k popisu sklizně, druhá ke kontejnerovému formátu.

Autorství definice specifikace a její užití

Formát a specifikaci pro extrakci metadat z úložiště NK ČR vyvinul Mgr. Zdenko Vozár speciálně pro technologii NoSQL. Specifikace vychází ze standardizovaných mezinárodně uznávaných formátů webových archivů (např. typu WARC https://www.iso.org/standard/44717.html), které využívá k účelům extrakce vyšších metadatových jednotek. Zároveň odpovídá potřebám Oddělení archivace webu NK ČR. Její užití je technicky použitelné pro ostatní webové archivy za podmínky dodržení citace.

Zodpovědnost

Za vývoj aplikace odpovídá Národní knihovna, Odbor digitálních fondů, konkrétně Oddělení archivace webu. S doplňujícími dotazy se lze obracet na webarchiv@nkp.cz.

Definice pojmů

Terminologie vztahující se k archivaci webu je popsána zde: https://www.webarchiv.cz/cs/terminologie.

Granularita metadatového záznamu

Základními intelektuálními entitami pro metadatové záznamy jsou sklizeň, která je tvořena z mnoha kontejnerů a indexů, dále archivní kontejner ARC / WARC (soubory sklizené z webové stránky zabalené do kontejnerového formátu, který je limitován velikostí, WARC - 1 GB, ARC - 100 MB) a index, databázová konstrukce, která umožňuje zrychlení vyhledávacích a dotazovacích procesů v databázi. Sklizeň byla stanovena jako intelektuální entita z toho důvodu, že obsah jedné domény může být rozložený do více kontejnerů. Prostřednictvím metadat sklizně lze zjistit vazby mezi kontejnery, potřebné pro zobrazení sklízených serverů.

Metadata

Metadata, nebo-li data o archivovaných datech, popisují technické údaje zaznamenané během sklizní. Vztahují se k sklizním (viz sekce harvest), ke kontejnerovým formátům, v nichž jsou archivovaná data uložena (viz sekce container) a k indexu ve formátu cdx (viz sekce cdx). K základním údajům patří například datum zahájení a ukončení sklizně, její typ, rozsah nebo autor, jednotlivá metadata jsou podrobně popsána v příslušných sekcích.

Clone this wiki locally