N - PowerPoint PPT Presentation

1 / 26
About This Presentation
Title:

N

Description:

... precis som f r LSI Likhet ... Maskininl rning Vektorrymdsmodeller f r lagring av semantisk information Samf rekomststatistik Latent Semantic Indexing ... – PowerPoint PPT presentation

Number of Views:73
Avg rating:3.0/5.0
Slides: 27
Provided by: Leif170
Category:
Tags: indexing | precis

less

Transcript and Presenter's Notes

Title: N


1
Några exjobbsförslag
  • Leif Grönqvist (leifg_at_ling.gu.se)
  • Datalogi Språkteknologi
  • Växjö universitet, GU GSLT

2
Upplägg
  • Lite om vad jag gjort och gör
  • Grundutbildning datalogi i Göteborg
  • Konsult
  • Doktorand inom GSLT (språkteknologi)
  • Mina forskningsintressen
  • Exjobbsförslag
  • En datoriserad tesaurus
  • Automatiskt sökindex för böcker
  • Något inom information retrieval/extraction?

3
Min bakgrund
  • 1986-1989 4-årig teknisk (electrical
    engineering)
  • 1989-1993 M.Sc. (official translation of
    Filosofie Magister) in Computing Science,
    Göteborg University
  • 1989-1993 62 points in mechanics, electronics,
    etc.
  • 1994-2001 Work at the Linguistic department in
    Göteborg
  • Various projects related to corpus linguistics
  • Some teaching on statistical methods (Göteborg
    and Uppsala),
  • and corpus linguistics in Göteborg, Sofia, and
    Beijing
  • 1995 Consultant at Redwood Research, in
    Sollentuna, working on information retrieval in
    medical databases
  • 1995-1996 Work at the department of Informatics
    in Göteborg (the Internet Project)
  • 2001-2006 PhD Student in Computer Science /
    Language Technology

4
Mina forskningsintressen
  • Statistiska metoder i språkteknologi
  • Dolda Markovmodeller
  • Korpuslingvistik
  • Maskininlärning
  • Vektorrymdsmodeller för lagring av semantisk
    information
  • Samförekomststatistik
  • Latent Semantic Indexing (LSI)
  • Användning av lingvistisk information vid träning

5
Vad är LSI?
  • LSI använder en slags vektormodell
  • Klassisk IR använder en vektormodell som
    grupperar dokument med många gemensamma termer
  • Men!
  • Dokument kan ha samma innehåll men använda olika
    vokabulär
  • Termerna i dokumentet är kanske inte de mest
    representativa
  • LSI använder termernas fördelning i samtliga
    dokument när man jämför två dokument!

6
En traditionell vektormodell
  • Börja med en term/dokument-matris, precis som för
    LSI
  • Likhet mellan dokument kan beräknas med kosinus
    för vinkeln mellan vektorerna
  • Relevanta termer för ett dokument de som finns
    i dokumentet
  • Problem i exemplet på nästa sida
  • Termen trees verkar relevant för m-dokumenten
    men finns inte i m4
  • cos(c1, c5)0 liksom cos(c1, m3)

7
Litet exempel
8
Hur funkar LSI?
  • Idén är att hitta latent (underliggande)
    information som
  • Ord1 och ord2 förekommer ofta tillsammans så
    kanske dokument1 (som innehåller ord1) och
    dokument2 (som innehåller ord2) är relaterade?
  • dokument3 och dokument4 har många gemensamma
    termer, så kanske orden de inte har gemensamt är
    relaterade?

9
Hur funkar LSI? Forts.
  • I den klassiska vektormodellen är en
    dokumentvektor 12-domensionell och en termvektor
    9-dimensionell för exemplet
  • Vi vill projicera dessa vektorer till ett
    vektorrum med färre dimensioner
  • Ett sätt är att använda Singular Value
    Decomposition (SVD)
  • Originalmatrisen räknas om till en ny
    representation bestående av tre matriser

10
Vad man får
XT0S0D0 X, T0, S0, D0 are matrices
11
Att använda resultatet från SVD
  • Med matriserna kan vi utföra projektioner av
    term- eller dokumentvektorer till ett vektorrum
    med det antal (m) dimensioner vi vill
  • Vi kan välja m genom att kapa matriserna T0, S0,
    D0 till lagom storlek
  • Låt oss prova att sätta antalet dimensioner till 2

12
X kan räknas om med m2
13
Vad får vi av SVD?
  • Susan Dumais 1995 The SVD program takes the ltc
    transformed term-document matrix as input, and
    calculates the best "reduced-dimension"
    approximation to this matrix.
  • Michael W Berry 1992 This important result
    indicates that Ak is the best
  • k-rank approximation (in at least
  • squares sense) to the matrix A.
  • Leif 2003 Vad Berry menar är att SVD ger den
    bästa projektionen från n till k dimensioner,
    d.v.s. den projektion som bäst bibehåller
    avståndet mellan vektorer

14
Några möjliga applikationer
  • Automatisk generering av en domänspecifik
    tesaurus
  • Nyckelordsextraktion från dokument i en
    dokumentsamling
  • Hitta dokument som liknar varandra
  • Hitta dokument som är relaterade till ett givet
    dokument eller uppsättning termer

15
Ett exempel baserat på 50000 tidningsartiklar
  • stefan edberg
  • edberg 0.918
  • cincinnatis 0.887
  • edbergs 0.883
  • världsfemman 0.883
  • stefans 0.883
  • tennisspelarna 0.863
  • stefan 0.861
  • turneringsseger 0.859
  • queensturneringen 0.858
  • växjöspelaren 0.852
  • grästurnering 0.847

bengt johansson johansson 0.852 johanssons 0.704
bengt 0.678 centerledare 0.674 miljöcentern 0
.667 landsbygdscentern 0.667 implikationer 0.645
ickesocialistisk 0.643 centerledaren 0.627 regerin
gsalternativet 0.620 vagare 0.616
16
Efter lite trixande kan vi hitta
handbollspersoner istället för politik
  • bengt-johansson 1.000
  • förbundskapten-bengt-johansson 0.907
  • förbundskaptenen-bengt-johansson 0.835
  • jonas-johansson 0.816
  • förbundskapten-johansson 0.799
  • johanssons 0.795
  • svenske-förbundskaptenen-bengt-johansson 0.792
  • bengan 0.786
  • carlen 0.777
  • bengan-johansson 0.767
  • johansson-andreas-dackell 0.765
  • förlorat-matcherna 0.750
  • ck-bure 0.748
  • daniel-johansson 0.748

målvakten-mats-olsson 0.747 jörgen-jönsson-mikael
-johansson 0.744 kicki-johansson 0.744 mattias-j
ohansson-aik 0.741 thomas-johansson 0.739 handbo
llsnation 0.738 mikael-johansson 0.737 förbunds
kaptenen-bengt-johansson-valde 0.736 johansson-mat
s-olsson 0.736 sveriges-handbollslandslag 0.736 s
tällningen-33-matcher 0.736
17
Dags för ett par konkreta förslag
  • En datoriserad tesaurus
  • Att utforma och bygga en datoriserad tesaurus
    utifrån en inscannad tesaurus i bokform, samt
    utveckla algoritmer för att konstruera nya
    begreppskategorier (huvudord) Automatiskt
    sökindex för böcker
  • Automatiskt sökindex för böcker
  • När man läser ett längre dokument eller en bok är
    det trevligt att ha ett index längst bak där man
    kan slå upp viktiga begrepp. Både LaTeX och Word
    stöder detta, men tyvärr måste författaren
    manuellt ange vilka begrepp som skall finnas med.
    Tänk om man hade ett program som fixade detta
    automatiskt!
  • Något inom information retrieval/extraction?
  • Har inget konkret förslag Men om något av det
    jag pratat om och ni har en egen idé inom
    IR/IE-området så

18
Två tesaurusar
  • Brings (svenska) tesaurus finns inscannad
  • 1000 huvudort
  • Totalt över 100 000 ordformer
  • Substantiv, verb och adjektiv i olika grupper
  • Rogets thesaurus (engelska) finns, fast i ett
    annat format
  • Samma struktur som Bring

19
Exempel
20
Vinster med en datorisering
  • Sökning i tesaurusarna i bokform är ibland lite
    jobbig
  • Huvudord går fint
  • Övriga ord finns i indexet men det blir mycket
    bläddrande
  • Gränssnittet skulle kunna förenkla sökningen
    avsevärt genom markering och klickbara ord
  • Bäst vore om alla ord var huvudord!
  • Information för att åstadkomma detta finns
    troligen i datafilerna
  • De mest relaterade orden står först
  • Huvudord med flera betydelser har flera
    undergrupper för varje ordklass

21
Förkunskaper
  • Att ha gått ca. tre år på programmet räcker som
    förkunskap men bra att ha är
  • Goda kunskaper i programmering, förslagsvis
    logikprogrammering.
  • Semantik, lexikologi (från kurserna på
    programmet)
  • Programmeringsspråket Oz (och utvecklingsmiljön
    Mozart) är väl lämpat att använda för den här
    uppgiften

22
Automatiskt sökindex för böcker
  • Det kanske inte behöver påpekas, men att sitta
    och markera alla ord och fraser man vill ha med i
    ett index är extremt tidskrävande, jobbigt och
    tråkigt. Risken att man missar viktiga begrepp är
    överhängande
  • Tag alla ord som finns och gör ett index
  • Inte bra
  • Det blir för stort och svårläst
  • Väldigt vanliga ord finns på nästan varje sida
  • Fraser kommer inte med

23
En uppgift för datalingvisten!
  • Saker man skulle kunna ha nytta av är exempelvis
  • Ordklasstaggning
  • Noun phrase chunking
  • Named entity recognition
  • Keyword spotting
  • Frekvensanalys för specifik/generell domän
  • ...

24
Förkunskaper
  • Att ha gått ca. tre år på programmet räcker som
    förkunskap men bra att ha är
  • Semantik, taggning
  • Maskininlärning
  • Logikprogrammering
  • Korpuslingvistik (grundläggande)
  • Ett exjobb för er som gillar att kombinera
    tidigare kunskap och tänka själva
  • The µ-TBL system Ett flexibelt system för att
    träna upp olika typer av uppmärkare

25
Gör något spännande inom IR/IE
  • Tänk ut något och fråga mig vad jag tror
  • Exempel
  • Kan man hitta synonymer i icke-annoterad text?
    Hur? Hur bra?
  • Träna upp ett system baserat på LSI för att klara
    TOEFL-tester (ordkunskap) så bra som möjligt

26
Och nu då?
  • De konkreta förslagen finns på min hemsida
  • Även den här presentationen finns länkad under
    Current teaching
  • Fundera lite och kom till mig och fråga
  • Maila går också fint om jag inte är här
  • Först till kvarn gäller!
Write a Comment
User Comments (0)
About PowerShow.com