LATENT SEMANTIC INDEXING - PowerPoint PPT Presentation

1 / 27
About This Presentation
Title:

LATENT SEMANTIC INDEXING

Description:

LATENT SEMANTIC INDEXING Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano l attinenza di un documento ad una query sulla base della ... – PowerPoint PPT presentation

Number of Views:111
Avg rating:3.0/5.0
Slides: 28
Provided by: Vela6
Category:

less

Transcript and Presenter's Notes

Title: LATENT SEMANTIC INDEXING


1
LATENT SEMANTIC INDEXING
2
Limiti della ricerca per parole chiave
  • I metodi di ranking tradizionali calcolano
    lattinenza di un documento ad una query sulla
    base della presenza o meno di parole contenute
    nella query un termine o è presente o non lo è
  • Nel LSI la ricerca avviene per concetti ma un
    concetto non è lastrazione-generalizazzione di
    un termine (es golf vestiario)
    bensì un insieme di termini correlati (golf,
    maglia, vestito) detti co-occorrenze o dominio
    semantico

3
  • Data una collezione di documenti, LSI è in grado
    di rilevare che alcune n-uple di termini
    co-occorrono frequentemente (es n-dimensional,
    manifold and topology)
  • Se viene fatta una ricerca con n-dimensional,
    manifold vengono automaticamente recuperati
    documenti che contengono anche (e eventualmente
    solo!) topology

Dominio Semantico k
4
con il modello keyword vengono estratti
4 documenti
5
Selezione basata su Golf
vediamo quali sono le parole più rilevanti
associate a Golf di questi 4 documenti. Esse
sono Car, Topgear and Petrol
6
Selezione basata su Golf
poiché le parole sono pesate anche rispettoal
loro idf, risulta che Car e Topgear sono
associate a Golf più di Petrol
7
Ora cerchiamo ancora nella base di documenti,
usando questo insieme di parole che
rappresentano il dominio semantico di Golf . La
lista ora include un nuovo documento, non
catturato sulla base della semplice ricerca per
keywords.
8
Usando un ranking basato sulla co-occorrenza dei
termini possiamo assegnare un miglior ranking
ai documenti. Notate che il documento più
rilevante non contiene la parola Golf, e che uno
dei documenti che la conteneva scompare (era
infatti un senso spuriodi Golf).
Selezione basata su Golf
selezione basata sul dominio semantico
9
Un esempio (fasi di elaborazione di un documento
nel Vector Model)
Documento originale
O'Neill Criticizes Europe on Grants PITTSBURGH
(AP) Treasury Secretary Paul O'Neill expressed
irritation Wednesday that European countries
have refused to go along with a U.S. proposal to
boost the amount of direct grants rich nations
offer poor countries. The Bush administration is
pushing a plan to increase the amount of direct
grants the World Bank provides the poorest
nations to 50 percent of assistance, reducing
use of loans to these nations.
1. Tokenizzazione
o'neill criticizes europe on grants treasury
secretary paul o'neill expressed irritation
wednesday that european countries have refused to
go along with a us proposal to boost the amount
of direct grants rich nations offer poor
countries the bush administration is pushing a
plan to increase the amount of direct grants the
world bank provides the poorest nationsto 50
percent of assistance reducing use of loans to
these nations
10
2. Eliminazione Stop Words
o'neill criticizes europe on grants treasury
secretary paul o'neill expressed irritation
wednesday that european countries have refused to
go along with a US proposal to boost the amount
of direct grants rich nations offer poor
countries the bush administration is pushing a
plan to increase the amount of direct grants the
world bank provides the poorest nations to 50
percent of assistance reducing use of loans to
these nations
information -gt inform presidency -gt
presid presiding -gt presid happiness -gt
happi happily -gt happi discouragement -gt
discourag battles -gt battl
3. Stemming
11
administrat amount assist bank boost
bush countri (2) direct europ express grant
(2) increas irritat loan nation
(3) o'neill paul plan poor (2)
propos push refus rich secretar treasuri U
S world
4. Costruzione del Vettore di termini
12
termini
13
(No Transcript)
14
Osservazione
  • La maggioranza delle celle della matrice sono
    zero
  • La dimensionalità della matrice è elevata (t)
  • Con i metodi classici ogni documento o query è un
    vettore in uno spazio t-dimensionale
  • LSI tenta di proiettare questo spazio in uno
    spazio di dimensione ridotta, in cui, anziché
    termini, le dimensioni rappresentano
    co-occorrenze o dominii semantici
  • Tutte le possibili co-occorrenze sarebbero assai
    di più dei termini singoli ma il metodo della
    singular value decomposition utilizzato da LSI
    consente di eliminare le co-occorrenze non
    significative

15
Latent Semantic Indexing concetti
Singular Value Decomposition Definisci X come la
matrice termini-documenti, con t righe (numero
delle keywords) e N colonne (numero dei
documenti). Data una qualsiasi matrice txN,
esistono 3 matrici T, S e D', tali che X
T0S0D0' T0 e D0 sono le matrici dei vettori
singolari (eigenvectors) sinistro e destro i X T0
e D0 le colonne di T0 e le righe di D0
definiscono uno spazio ortonormale S0 è la
matrice diagonale dei valori singolari diX
16
Autovalori e autovettori
  • http//www.sosmath.com/matrix/eigen0/eigen0.html
  • http//www.cs.ut.ee/toomas_l/linalg/lin2/node14.h
    tml
  • Definizione se A è una matrice nxm un vettore C
    si chiama un autovettore di A se e solo se esiste
    un numero l tale che
  • AC lC ,e l è detto autovalore


17
Vettori singolari
  • Matrice aggiunta o coniugata trasposta
  • aij coniugato complesso di aij
  • Se aij?? ?(i,j) ? AAT
  • Valori singolari di S , radici degli
    autovalori di XTX
  • Vettori singolari destri n autovettori di XT X
  • Vettori singolari sinistri m autovettori di XXT
  • Dettagli http//www.cs.utk.edu/dongarra/etemplate
    s/node18.html

18
Esempio (2) Termini e Documenti
 
Termini
Documenti c1 c2 c3 c4 c5 m1 m2 m3 m4 human 1 0 0
1 0 0 0 0 0 interface 1 0 1 0 0 0 0 0 0 computer 1
1 0 0 0 0 0 0 0 user 0 1 1 0 1 0 0 0 0 system 0 1
1 2 0 0 0 0 0 response 0 1 0 0 1 0 0 0 0 time 0 1
0 0 1 0 0 0 0 EPS 0 0 1 1 0 0 0 0 0 survey 0 1 0
0 0 0 0 0 1 trees 0 0 0 0 0 1 1 1 0 graph 0 0 0 0
0 0 1 1 1 minors 0 0 0 0 0 0 0 1 1
X
 
19
Decomposizione SVD
documenti
termini
20
S0
21
Riduzione del rango
Gli elementi diagonali in S0 sono positivi e
decrescenti in grandezza. Si prendono i primi k e
gli altri vengono posti a zero. Si cancellano le
righe e le colonne zero di S0 e le corrispondenti
righe e colonne di T0 e D0. Si ottiene X X
TSD' Interpretazione Se il valore k è
selezionato opportunamente, laspettativa è che
la nuova matrice mantenga linformazione
semantica di X, ma elimini il rumore derivante
dalla sinonimia (perché sensi diversi avranno
co-occorrenze diverse) e riconosca la dipendenza
fra termini co-occorrenti.

22
Selezione dei valori singolari
t x d
t x k
k x d
k x k
S
D'


X
T
k è il numero di valori singolari scelti per
rappresentare i concetti nellinsieme dei
documenti In genere, k m.
23
Confronto fra termini

Il prodotto scalare di due righe di X riflette il
fatto che due termini abbiano contesti di
occorrenza più o meno simili


XXT TSDT (TSDT) T TSDTDSTTT poichè D è
ortonormale TS(TS) T Per calcolare la
cella i, j, si fa il prodotto scalare fra le
righe i e j di TS
24
Confronto fra documenti

Il prodotto scalare di due colonne di X ci
informa di quanto due colonne abbiano contesti di
occorrenza comuni.


XTX (TSDT) TTSDT DS(DS) T Per
calcolare le celle i, j, si esegue il prodotto
scalare fra le colonne i e j di DS.
25
Confronto fra termini e documenti
Il confronto fra un termine e un documento è
rappresenatto dal valore di una cella X. X
TSD' TS(DS)' dove S è una matrice
diagonale i cui valori sono la radice quadrata
dei corrispondenti elementi di S.

-
-
-
26
Esempio Query
 
Terms Query
xq human 1 interface 0 computer 0 user 0 system 1
response 0 time 0 EPS 0 survey 0 trees 1 graph 0 m
inors 0
Query "human system interactions on
trees" Nello spazio termini-documenti, una query
è rappresentata da xq, un vettore t x 1. Nello
spazio dei concetti, una query è rappresentata da
dq, un vettore 1 x k.
 
27
Query
Per il ranking dei documenti ripetto alla query,
semplicemente si considera la query come uno
pseudo-documento, e lo si modella come la la
prima colonna della matrice (d0q) X Quindi, la
prima riga della matrice fornisce il
ranking dei documenti ripetto alla query.
Write a Comment
User Comments (0)
About PowerShow.com