Indicizzazione di documenti semistrutturati - PowerPoint PPT Presentation

About This Presentation
Title:

Indicizzazione di documenti semistrutturati

Description:

Cini Other titles: Arial Times New Roman Verdana Wingdings Arial Black Arial Unicode MS Garamond Eclissi Indicizzazione di documenti semistrutturati Overview ... – PowerPoint PPT presentation

Number of Views:34
Avg rating:3.0/5.0
Slides: 34
Provided by: PCDoc
Category:

less

Transcript and Presenter's Notes

Title: Indicizzazione di documenti semistrutturati


1
Indicizzazione di documenti semistrutturati
  • Sistemi informativi AA 2006-2007
  • DEste Laura

2
Overview
3
Overview
  • I sistemi di IR nascono per cercare informazioni
    su testi senza una struttura stabilita, locali o
    sul web.
  • I DB nascono per cercare informazioni in tabelle
    di dati ben strutturati insiemi di elementi che
    presentano valori per attributi ben definiti.

4
Overview
  • Oggi ci occuperemo dei problemi che si trovano
    nel creare un motore di ricerca per i dati
    semistrutturati, in particolare nella fase
    dellindicizzazione.

5
Overview dati semistrutturati (1)
  • Un database di dati semistrutturati può essere
    visto come un albero in cui le foglie contengono
    testo e i nodi specificano quale ruolo semantico
    ha quella stringa allinterno del documento.

6
Overview dati semistrutturati (2)
ltarticlegt lttitlegtXML is Everywherelt/titlegt ltabstra
ctgt ltparagraphgtXML is..lt/paragraphgt ltparagraphgtThe
main goallt/paragraphgt ltparagraphgt......
lt/paragraphgt lt/abstractgt ltsectiongt lttitlegtXML
comelt/titlegt ltparagraphgtXML becomelt/paragraphgt ltpa
ragraphgt...... lt/paragraphgt lt/sectiongt lt/articlegt
7
Overview indicizzazione (1)
  • Lindexing è quel processo in cui i dati su cui
    compiere la ricerca vengono analizzati e
    organizzati in un indice che agevolerà le
    operazioni di ricerca.

8
Overview indicizzazione (2)
  • Esempi
  • Indice analitico
  • Inverted index

9
XML lo standard per i dati semistrutturati
  • eXtended Markup Language XML
  • XML viene utilizzato per i contenuti Web, per
    alcuni programmi aziendali, per lo scambio di
    testi e per molte altre applicazioni.

10
Problemi
11
Problema 1
  • Mancanza di ununità naturale per il documento,
    non è facile individuare una indexing unit.
  • Bisogna rispettare lo Structured document
    retrieval principle
  • a system should always retrieve the most
    specific part of a document answering the query.

12
Problema 1
  • La strategia ricercata è quella che ci permette
    di ritornare come risultato la più piccola unità
    che contiene linformazione richiesta.
  • Sono state assunte diverse soluzioni alla
    questione.

13
Problema 1
  • Indicizzare tutti i componenti che possono essere
    restituiti in una ricerca
  • I risultati possono contenere unità ridondanti
    che vengono filtrate in un secondo momento.

14
Problema 1
  • Raggruppare i nodi in pseudodocumenti non
    coincidenti.
  • Risolve il problema della ridondanza ma le unità
    scelte potrebbero essere meno intuitive per
    lutente e difficili da gestire, in quanto
    fissate durante lindexing e non legate alla
    ricerca effettuata.

15
Problema 1
  • Fissare un attributo XML come unità di documento.
  • Come nella tecnica precedente le unità di
    indexing sono fissate costringendoci a
    rielaborare i risultati in un post-processing.

16
Problema 2
  • Necessità di distinguere il diverso contesto di
    un termine a seconda dellattributo a cui è
    legato.
  • Ad esempio distinguere uno scritto di Bruno Vespa
    con un libro sul ciclo di vita di una vespa.

17
Problema 2
  • E necessario dunque collegare ad ogni contenuto
    il suo contesto
  • autore/Vespa
  • titolo/Vita di una vespa

18
Problema 3
  • Gli schemi dei documenti XML spesso sono
    differenti tra loro dunque uno stesso attributo
    può variare nome o addirittura essere smembrato
    in più parti.

19
Problema 3
  • Lunica soluzione disponibile è quella di
    collegare manualmente o semiautomaticamente
    (anche se con un peggiore risultato) le diverse
    etichette che rappresentano lo stesso attributo.

20
Un indexer per XML
  • Index Fabric
  • Cooper, Sample, Franklin, Hjaltason, Shadmon
  • Proceedings of the 27th VLDB Conference, Roma,
    Italy, 2001

21
Index Fabric
  • Our solution encodes paths as strings, and
    inserts those strings into a special index that
    is highly optimized for long and complex keys.

22
Index Fabric
  • Lidea che è al centro di questo progetto è
    quella di rappresentare ogni elemento con il suo
    percorso e di rappresentare questo path come una
    stringa da inserire in un database altamente
    ottimizzato per la ricerca di stringhe.

23
Index Fabric il database
  • Viene utilizzato il Patricia Trie, una tecnica
    che permette di lavorare agilmente con un grande
    numero di stringhe.
  • Lalbero ottenuto è a sua volta elaborato per
    permetterci di avere il risultato con un numero
    piccolo e costante di operazioni di I/O.

24
Fabric Index il database, un esempio
25
Fabric Index il database, un esempio
26
Fabric Index il database, un esempio
27
Fabric Index il database, un esempio
28
Fabric Index il database, un esempio
29
Fabric Index il database, un esempio
Una sola operazione di I/O
Disco
Memoria
30
Dal documento XML alla stringa
31
Row paths Refined paths
  • Oltre alla rappresentazione grezza dellalbero
    del documento, si possono inserire dei percorsi
    raffinati che aumentano la velocità di alcune
    ricerche che sono ritenute frequenti.
  • Es.Trova le fatture in cui la compagnia X ha
    venduto alla compagnia y. Assegnamo Z come
    designatore a questo path e troviamo le
    corrispondenze. Se Acme Inc ha venduto ad ABC
    Corp potremo scrivere Z ABC Corp Acme Inc ed
    inserire questa stringa nellindex.

32
Risultati sperimentali
33
Bibliografia
  • Christopher D. Manning, Prabhakar Raghavan and
    Hinrich Schütze, Introduction to Information
    Retrieval, Cambridge University Press. 2007
  • B. Cooper, N. Sample, M. J. Franklin, G. R.
    Hjaltason, and M. Shadmon. A fast index for
    semistructured data. In Proceedings of VLDB,
    2001. http//citeseer.ist.psu.edu/cooper01fast.htm
    l
  • B. Cooper, N. Sample, and M. Shadmon. A parallel
    index for semistructured data. ACM Symposium on
    Applied Computing 2002, to appear.
    http//citeseer.ist.psu.edu/cooper02parallel.html
Write a Comment
User Comments (0)
About PowerShow.com