Nov - PowerPoint PPT Presentation

About This Presentation
Title:

Nov

Description:

Nov n stroje pro archivaci webu Ing. Petr abi ka, MZK Mgr. Jan HUTA , NK – PowerPoint PPT presentation

Number of Views:97
Avg rating:3.0/5.0
Slides: 23
Provided by: H708
Category:
Tags: crawler | nov

less

Transcript and Presenter's Notes

Title: Nov


1
Nové nástroje pro archivaci webu
  • Ing. Petr Žabicka, MZK
  • Mgr. Jan HUTAR, NK

2
WebArchiv kdo a proc?
  • potreba zachránit netištené informace kulturní a
    historické hodnoty pro další generace
  • až 90 webových dokumentu existuje pouze v
    elektronické podobe
  • NK CR je depozitní knihovnou, odpovídá za trvalé
    uchovávání fondu bohemikálních dokumentu jako
    soucásti národního historického a kulturního
    dedictví
  • WA vznikl v rámci programového projektu MK CR
    VaV - "Registrace, ochrana a zprístupnení
    domácích elektronických zdroju v síti Internet"
  • rešen od roku 2000 v NK CR ve spolupráci s MZK
    Brno a ÚVT Masarykovy univerzity v Brne

3
Cíle WebArchivu
  • zajistit pokud možno trvalý prístup k domácím
    elektronickým zdrojum publikovaným v síti
    Internet ?
  • pripravit podmínky pro získávání, zpracování,
    archivaci a ochranu online prístupných
    elektronických zdroju ?
  • zajistit zprístupnení zdroju z digitálního
    archivu za podmínek respektujících autorské právo
    ?
  • stanovit kritéria výberu zdroju pro národní
    bibliografii ?

4
Kritéria výberu webových zdroju
  • množství online dokumentu je obrovské, kvalita
    ruzná ? nutno aplikovat kritéria výberu ? uchovat
    dokumenty, které mají dokumentární hodnotu
  • Pro akvizici (harvesting) zdroju se aplikují dva
    prístupy
  • výberová archivace - sklízejí a archivují se
    pouze dokumenty vybrané podle urcitých kritérií
  • plošná archivace napr. celé národní domény.
    Nutná pouze kritéria technické povahy a nastavení
    harvesteru.
  • tematické sklizne napr. volby, povodne apod.
  • trend oba prístupy najednou (napr. Austrálie,
    Dánsko)

5
Co máme za sebou
  • prubežné testování
  • SW nástroju s využitím HW porízeného v rámci
    financních možností
  • tj. aplikací pro stahování, archivaci, indexaci a
    zprístupnení webových stránek
  • SW výhradne open source
  • snaha o zmenu zákonu
  • mezinárodní spolupráce (aktivní úcast na výzkumu
    a vývoji v rámci IIPC clenství od roku 2007)
  • zprístupnování verejné cásti archivu online
    pomocí fulltextového prohledávání od podzimu 2005
  • zprístupnení indexu celého archivu
    prostrednictvím aplikace Wayback

6
Registrované domény v .cz
7
Provedené sklizne domény .cz
  • 2001 1. pokus o plošnou sklizen domény .cz, 1
    stroj páskový robot, nedokoncena z tech. duvodu
  • 2002 sklizen po nekolika mesících prerušena pro
    omezený výkon serveru a záplavy (? tematická
    sklizen Povodne)
  • 2004 zastavena po zaplnení dostupného úložného
    prostoru.
  • gtgt všechny sklizne provádeny s NEDLIB
    harvesterem, hloubka zanorení 25-50 odkazu ltlt
  • 2005 1. pokus o sklizení domény .cz pomocí
    Heritrixu, neúspech kvuli nedostatkum použité
    verze programu
  • zárí 2006 2. sklizen domény .cz pomocí Heritrixu.
    Zastavena predcasne pro zaplnení dostupné diskové
    kapacity. Limity max. 5000 dokumentu na server,
    max. velikost souboru 100 MB

8
Sklizne domény .cz v císlech
Rok Pocet stažených souboru Nekomprimovaná velikost GB Doba stahování dny Pocet domén druhé úrovne z reg. domén
2001 3,015,057 104 21 41,322 38
2002 10,249,302 307 93 79,022 69
2004 32,141,575 1,034 204 101,378 75
2005 9,336,123 247 12 4,795 2
2006 72,378,019 3,416 40 196,880 74
9
Soucasný stav projektu
  • 4-6x rocne je sklízen soubor zdroju (asi 300
    serveru), na které má NK smlouvu o zprístupnení.
    (nove se sklízejí se i vybrané zdroje bez smluv,
    ale ty nejsou zprístupnovány).
  • práve skoncená sklizen techto zdroju se stane
    základem prubežného sklízení s využitím
    deduplikátoru.
  • príležitostné tematické sklizne (letos sklizen
    volby)
  • ceká se na zprovoznení datového úložište NK,
    které umožní dokoncit letošní celoplošnou
    sklizen. Zbývá cca 20.000 domén.
  • v soucasné dobe je ve WebArchivu uloženo cca 5,5
    TB dat (pred kompresí) 135 milionu
    archivovaných souboru.

10
Pocet dokumentu sklizených za den
11
Pocet souboru a objem dat
12
Zmeny softwarového vybavení
  • 2004-2005 postupný prechod na SW vyvíjený
    konsorciem IIPC (International Internet
    Preservation Consortium www.netpreserve.org)
  • vývoj softwarového vybavení v rámci IIPC stále
    probíhá
  • archivní souborový formát tar.gz nahrazen ARC
    formátem (podporovaným nástroji IIPC) ? bylo
    nutno prevést již uložená data do nového formátu.
  • pripravuje se nová verze formátu ARC, formát
    WARC, vylepšující stávající formát o nové
    vlastnosti.
  • podpora komprese dat a správy jejich integrity
  • schopnost ukládat jedinecné identifikátory
    záznamu
  • schopnost uložit metadata o datových
    transforamcích a o duplikovaném obsahu
  • podpora pro zpracování velmi rozsáhlých záznamu

13
Budoucnost projektu pokracování
  • maximálne zautomatizovat proces od výberu zdroje,
    oslovení vydavatele k podpisu smlouvy
    s vydavatelem až po zprístupnení
  • legální lokální zprístupnení celého archivu
    (vyhledávání podle URL a casu sklizne dokumentu)
    pocátkem roku 2007
  • vylepšení indexace (inkrementální indexování,
    distribuovaný index?)
  • pokus o automatizované sklízení bohemikálních
    zdroju mimo doménu .cz
  • podpora standardu digitálních knihoven (OAI
    protokol, METS, jednoznacná identifikace
    dokumentu)
  • 2008 integrace do pripravované Digitální
    knihovny CR

14
Webarchiv jak to funguje
A1 nová sklizen A2 konec sklízení -gt
indexovat A3 aktualizovat fulltext A4
aktualizovat seznam souboru
15
Akvizice - Heritrix
  • modulární, rozširitelný, probíhá neustálý vývoj
    (nyní verze 1.10.1)
  • zkvalitnování systému
  • zvýšení bezpecnosti
  • platforme nezávislý (java aplikace)
  • kvalitní a rychlá podpora vývojáru z Internet
    Archive
  • open source kódy a modularita umožnují spolupráci
    tretích stran na jeho vývoji
  • v nejnovejší verzi vylepšena ochrana pred pádem
    do pastí
  • nelze dlouhodobe sklízet web bez odborných zásahu
    v prubehu sklizne

16
Akvizice - DeDuplicator
  • Modul pro Heritrix
  • Snaží se detekovat duplikáty ješte pred jejich
    stažením
  • Využívá toho, že nekteré typy dokumentu (napr.
    HTML) se mení casteji (jsou dynamicky generovány)
    než jiné (napr. obrázky, video).
  • formát ARC neumožnuje plne využít možností
    DeDuplicatoru (napr. možnost odkazovat na
    dokument stažený z jiného URL) gt WARC

17
Akvizice WEB CURATOR TOOL
  • nástroj pro správu sklízení
  • první verze uvolnena v zárí 2006
  • vyvinut v rámci IIPC díky spolupráci Britské
    knihovny a Národní knihovny Nového Zélandu.
  • umožnuje správu sklízení méne kvalifikovaným
    uživatelum prostrednictvím graficky prívetivého a
    propracovaného webového rozhraní
  • výborná podpora uživatelských oprávnení
  • nepodporuje inkrementální sklízení
  • multiplatformní, ale stávající verze
    optimalizována pro platformu Windows (problém s
    malými a velkými písmeny pri komunikaci s
    databází).
  • nekonzistentní konfigurace

18
Indexace Nutch, NutchWAX
  • Nutch
  • volne dostupný modulární vyhledávací engine
  • umí stáhnout a zpracovat miliony stránek mesícne
    spravovat jejich index, vyhledávat v nem 1000x za
    vterinu
  • NutchWAX
  • nástavba vyhledávacího rozhraní Nutch vytvorená
    pro potreby indexování dokumentu archivovaných
    Heritrixem (ARC formát), pridává do indexu
    potrebná metadata, predevším casové razítko
  • Od letošní verze 0.6 pracuje nad MapReduce Nutch
    (podpora zpracování velkých objemu dat,
    distribuovaný filesystem Hadoop)
  • tato verze je zatím nestabilní

19
WERA - WEb aRchive Access
  • spolupráce konsorcia IIPC, Internet Archive a NWA
  • využívá hlavní cásti NWA Toolset
  • velmi snadná navigace a propracované uživatelské
    rozhraní (casová osa zobrazuje casové verze
    dokumentu)
  • výsledky vyhledávání v podobe URL zobrazeny velmi
    prehledne a u každého odkazu jsou linky na
    získání dalších casových verzí téhož URL
  • zobrazovat archivované stránky lze i pomocí
    zadání presné URL adresy
  • archivované dokumenty a WERA propojeny skrz index
    NutchWAXe
  • Problémy s javascriptem v nekterých stránkách
  • Vývoj ukoncen, prechod na Wayback

20
WAYBACK
  • Aplikace, která v budoucnu nahradí stávající
    Wayback Machine Internet Archivu
  • Dokumenty jsou indexovány a zprístupnovány pomocí
    URL a casu, podporuje hvezdickovou konvenci
  • Režimy zprístupnení
  • Archival URL úprava odkazu na stránce (link
    zpet do archivu)
  • Proxy chová se jako proxy server, ale je pak
    složité menit casové verze (WAX Toolbar plugin
    pro Firefox)
  • Timeline casová osa, zatím experimentální
  • Pripravuje se podpora fulltextového vyhledávání a
    lokalizace

21
Zkusíte to také??
  • dejte nám tipy na zdroje
  • prevezmete naše zkušenosti
  • zacnete sklízet sami
  • minimální požadavky slušné PC, primerené
    množství úložného prostoru, dobrý správce
    systému/programátor
  • realizovaná spolupráce
  • Univerzitná knižnica Bratislava
  • v budoucnu madarská NK?
  • po dohode sklizen na požádání

22
Dekujeme za pozornosta tešíme se na budoucí
spolupráci!webarchiv_at_nkp.cz
Write a Comment
User Comments (0)
About PowerShow.com