N - PowerPoint PPT Presentation

1 / 26

About This Presentation

Title:

N

Description:

... precis som f r LSI Likhet ... Maskininl rning Vektorrymdsmodeller f r lagring av semantisk information Samf rekomststatistik Latent Semantic Indexing ... – PowerPoint PPT presentation

Number of Views:73

Avg rating:3.0/5.0

Slides: 27

Provided by: Leif170

Category:

more less

Transcript and Presenter's Notes

Title: N

1
Några exjobbsförslag

Leif Grönqvist (leifg_at_ling.gu.se)
Datalogi Språkteknologi
Växjö universitet, GU GSLT

2
Upplägg

Lite om vad jag gjort och gör
Grundutbildning datalogi i Göteborg
Konsult
Doktorand inom GSLT (språkteknologi)
Mina forskningsintressen
Exjobbsförslag
En datoriserad tesaurus
Automatiskt sökindex för böcker
Något inom information retrieval/extraction?

3
Min bakgrund

1986-1989 4-årig teknisk (electrical
engineering)
1989-1993 M.Sc. (official translation of
Filosofie Magister) in Computing Science,
Göteborg University
1989-1993 62 points in mechanics, electronics,
etc.
1994-2001 Work at the Linguistic department in
Göteborg
Various projects related to corpus linguistics
Some teaching on statistical methods (Göteborg
and Uppsala),
and corpus linguistics in Göteborg, Sofia, and
Beijing
1995 Consultant at Redwood Research, in
Sollentuna, working on information retrieval in
medical databases
1995-1996 Work at the department of Informatics
in Göteborg (the Internet Project)
2001-2006 PhD Student in Computer Science /
Language Technology

4
Mina forskningsintressen

Statistiska metoder i språkteknologi
Dolda Markovmodeller
Korpuslingvistik
Maskininlärning
Vektorrymdsmodeller för lagring av semantisk
information
Samförekomststatistik
Latent Semantic Indexing (LSI)
Användning av lingvistisk information vid träning

5
Vad är LSI?

LSI använder en slags vektormodell
Klassisk IR använder en vektormodell som
grupperar dokument med många gemensamma termer
Men!
Dokument kan ha samma innehåll men använda olika
vokabulär
Termerna i dokumentet är kanske inte de mest
representativa
LSI använder termernas fördelning i samtliga
dokument när man jämför två dokument!

6
En traditionell vektormodell

Börja med en term/dokument-matris, precis som för
LSI
Likhet mellan dokument kan beräknas med kosinus
för vinkeln mellan vektorerna
Relevanta termer för ett dokument de som finns
i dokumentet
Problem i exemplet på nästa sida
Termen trees verkar relevant för m-dokumenten
men finns inte i m4
cos(c1, c5)0 liksom cos(c1, m3)

7
Litet exempel
8
Hur funkar LSI?

Idén är att hitta latent (underliggande)
information som
Ord1 och ord2 förekommer ofta tillsammans så
kanske dokument1 (som innehåller ord1) och
dokument2 (som innehåller ord2) är relaterade?
dokument3 och dokument4 har många gemensamma
termer, så kanske orden de inte har gemensamt är
relaterade?

9
Hur funkar LSI? Forts.

I den klassiska vektormodellen är en
dokumentvektor 12-domensionell och en termvektor
9-dimensionell för exemplet
Vi vill projicera dessa vektorer till ett
vektorrum med färre dimensioner
Ett sätt är att använda Singular Value
Decomposition (SVD)
Originalmatrisen räknas om till en ny
representation bestående av tre matriser

10
Vad man får
XT0S0D0 X, T0, S0, D0 are matrices
11
Att använda resultatet från SVD

Med matriserna kan vi utföra projektioner av
term- eller dokumentvektorer till ett vektorrum
med det antal (m) dimensioner vi vill
Vi kan välja m genom att kapa matriserna T0, S0,
D0 till lagom storlek
Låt oss prova att sätta antalet dimensioner till 2

12
X kan räknas om med m2
13
Vad får vi av SVD?

Susan Dumais 1995 The SVD program takes the ltc
transformed term-document matrix as input, and
calculates the best "reduced-dimension"
approximation to this matrix.
Michael W Berry 1992 This important result
indicates that Ak is the best
k-rank approximation (in at least
squares sense) to the matrix A.
Leif 2003 Vad Berry menar är att SVD ger den
bästa projektionen från n till k dimensioner,
d.v.s. den projektion som bäst bibehåller
avståndet mellan vektorer

14
Några möjliga applikationer

Automatisk generering av en domänspecifik
tesaurus
Nyckelordsextraktion från dokument i en
dokumentsamling
Hitta dokument som liknar varandra
Hitta dokument som är relaterade till ett givet
dokument eller uppsättning termer

15
Ett exempel baserat på 50000 tidningsartiklar

stefan edberg
edberg 0.918
cincinnatis 0.887
edbergs 0.883
världsfemman 0.883
stefans 0.883
tennisspelarna 0.863
stefan 0.861
turneringsseger 0.859
queensturneringen 0.858
växjöspelaren 0.852
grästurnering 0.847

bengt johansson johansson 0.852 johanssons 0.704
bengt 0.678 centerledare 0.674 miljöcentern 0
.667 landsbygdscentern 0.667 implikationer 0.645
ickesocialistisk 0.643 centerledaren 0.627 regerin
gsalternativet 0.620 vagare 0.616
16
Efter lite trixande kan vi hitta
handbollspersoner istället för politik

bengt-johansson 1.000
förbundskapten-bengt-johansson 0.907
förbundskaptenen-bengt-johansson 0.835
jonas-johansson 0.816
förbundskapten-johansson 0.799
johanssons 0.795
svenske-förbundskaptenen-bengt-johansson 0.792
bengan 0.786
carlen 0.777
bengan-johansson 0.767
johansson-andreas-dackell 0.765
förlorat-matcherna 0.750
ck-bure 0.748
daniel-johansson 0.748

målvakten-mats-olsson 0.747 jörgen-jönsson-mikael
-johansson 0.744 kicki-johansson 0.744 mattias-j
ohansson-aik 0.741 thomas-johansson 0.739 handbo
llsnation 0.738 mikael-johansson 0.737 förbunds
kaptenen-bengt-johansson-valde 0.736 johansson-mat
s-olsson 0.736 sveriges-handbollslandslag 0.736 s
tällningen-33-matcher 0.736
17
Dags för ett par konkreta förslag

En datoriserad tesaurus
Att utforma och bygga en datoriserad tesaurus
utifrån en inscannad tesaurus i bokform, samt
utveckla algoritmer för att konstruera nya
begreppskategorier (huvudord) Automatiskt
sökindex för böcker
Automatiskt sökindex för böcker
När man läser ett längre dokument eller en bok är
det trevligt att ha ett index längst bak där man
kan slå upp viktiga begrepp. Både LaTeX och Word
stöder detta, men tyvärr måste författaren
manuellt ange vilka begrepp som skall finnas med.
Tänk om man hade ett program som fixade detta
automatiskt!
Något inom information retrieval/extraction?
Har inget konkret förslag Men om något av det
jag pratat om och ni har en egen idé inom
IR/IE-området så

18
Två tesaurusar

Brings (svenska) tesaurus finns inscannad
1000 huvudort
Totalt över 100 000 ordformer
Substantiv, verb och adjektiv i olika grupper
Rogets thesaurus (engelska) finns, fast i ett
annat format
Samma struktur som Bring

19
Exempel
20
Vinster med en datorisering

Sökning i tesaurusarna i bokform är ibland lite
jobbig
Huvudord går fint
Övriga ord finns i indexet men det blir mycket
bläddrande
Gränssnittet skulle kunna förenkla sökningen
avsevärt genom markering och klickbara ord
Bäst vore om alla ord var huvudord!
Information för att åstadkomma detta finns
troligen i datafilerna
De mest relaterade orden står först
Huvudord med flera betydelser har flera
undergrupper för varje ordklass

21
Förkunskaper

Att ha gått ca. tre år på programmet räcker som
förkunskap men bra att ha är
Goda kunskaper i programmering, förslagsvis
logikprogrammering.
Semantik, lexikologi (från kurserna på
programmet)
Programmeringsspråket Oz (och utvecklingsmiljön
Mozart) är väl lämpat att använda för den här
uppgiften

22
Automatiskt sökindex för böcker

Det kanske inte behöver påpekas, men att sitta
och markera alla ord och fraser man vill ha med i
ett index är extremt tidskrävande, jobbigt och
tråkigt. Risken att man missar viktiga begrepp är
överhängande
Tag alla ord som finns och gör ett index
Inte bra
Det blir för stort och svårläst
Väldigt vanliga ord finns på nästan varje sida
Fraser kommer inte med

23
En uppgift för datalingvisten!

Saker man skulle kunna ha nytta av är exempelvis
Ordklasstaggning
Noun phrase chunking
Named entity recognition
Keyword spotting
Frekvensanalys för specifik/generell domän
...

24
Förkunskaper

Att ha gått ca. tre år på programmet räcker som
förkunskap men bra att ha är
Semantik, taggning
Maskininlärning
Logikprogrammering
Korpuslingvistik (grundläggande)
Ett exjobb för er som gillar att kombinera
tidigare kunskap och tänka själva
The µ-TBL system Ett flexibelt system för att
träna upp olika typer av uppmärkare

25
Gör något spännande inom IR/IE

Tänk ut något och fråga mig vad jag tror
Exempel
Kan man hitta synonymer i icke-annoterad text?
Hur? Hur bra?
Träna upp ett system baserat på LSI för att klara
TOEFL-tester (ordkunskap) så bra som möjligt

26
Och nu då?