Title: Metody reprezentacji wiedzy na tle Parsowania zdan jezyka naturalnego z wykorzystaniem CRB.
1Metody reprezentacji wiedzy na tleParsowania
zdan jezyka naturalnego z wykorzystaniem CRB.
Autor Robert Papis
2Plan prezentacji
- Wprowadzenie
- Parsowanie
- Opis morfosyntaktyczny
- Korpus IPI PAN
- CBR
- Sieci semantyczne
- UNL
- LangCerBeR
- Podsumowanie
3Parsowanie klasycznie
- ltzdaniegt -gt ltpodmiotgtltorzeczeniegt
- ltpodmiotgt -gt ltrzeczownikgt
- ltpodmiotgt -gt ltzaimek osobowygt
- ltorzeczeniegt -gt ltczasownikgt
- ltorzeczeniegt -gt ltczasownikgtltrzeczownikgt
4Slownictwo i fleksja
Slowo odbywajacy
odbywac CAAAA -ywajacy C-imieslów
przymiotnikowy A-imieslów przymiotnikowy
czynny, A-liczba pojedyncza, A-rodzaj meski,
A-mianownik
CAAAA
odbywac CABAA -ywajacy C-imieslów
przymiotnikowy A-imieslów przymiotnikowy czynny,
B-liczba mnoga, A-rodzaj meskoosobowy,
A-mianownik
CABAA
5Parsowanie
6Opis morfosyntaktyczny Korpus IPI PAN
- Kategorie gramatyczne
- 12 kategorii (liczba, przypadek, rodzaj)
(m1) Widze jednego.. z tych, których
lubie. (m2) Widze jednego.. Z tych które
lubie. (m3) Widze jeden.
- Klasy gramatyczne / fleksyjne
- Odslowniki (picie, palenie)
- 32 klasy fleksyjne (ciala obce, interpunkcja)
7Opis morfosyntaktyczny - przyklad
- piekny pieknyadjsgaccm3pos
piekny forma podstawowa adj klasa fleksyjna
przymiotnik (adjective) sg liczba pojedyncza
(singular) acc przypadek biernik
(accusative) m3 rodzaj meski rzeczowy
(masculine) pos stopien równy (positive)
8Korpus IPI PAN -Poliqarp
9Korpus IPI PAN - przeszukiwanie
- Zapytania o segmenty
- Wyrazenie regularne (podnaza)jecha.
- Formy podstawowe basekorpus
- Znaczniki morfosyntaktyczne possubstnumbers
g - Wieloznacznosc i dezambiguacja caseacc
casegen - Metadane (author, title, created)
10Opis Korpusu IPI PAN vs Denise
- Pokrycie calego slownika jezyka polskiego
- Precyzyjne klasy gramatyczne
- Precyzyjne klasy fleksyjne
- Dezambiguator morfosyntaktyczny
- Podzial na segmenty zamiast slów
- Dodatkowe narzedzia (XML)
- Bogata literatura
11Inne korpusy jezykowe
- CQP - Corpus Query Processor
- Czeski, Wegierski, Slowacki, Norweski
- Korpus PWN (wersja www oraz CD)
- British National Corpus (100mln)
12Plan prezentacji
- Wprowadzenie
- Parsowanie
- CBR
- Dlaczego CBR
- Jak dziala
- Sieci semantyczne
- UNL
- LangCerBeR
- Podsumowanie
13Korzenie
Human experts are not systems of rules, they
are libraries of experiences. Riesbeck and
Schank 1989
A case-based reasoner solves new problems by
adapting solutions that were used to solve old
problems. Riesbeck Schank, 1989
Case-based reasoning is ... reasoning by
remembering. Leake, 1996
14Przyklad opis przypadku
Opis problemu...
Cecha1 Cecha2...
Wartosc1Wartosc2....
Proponowane rozwiazanie...
15Przyklad baza przypadków
- Kazdy przypadek opisuje jedna sytuacje
- Przypadki sa od siebie niezalezne
- Przypadki nie sa regulami
16Przyklad wyszukanie podobnych
- Porównaj nowy przypadek z kazdym przypadkiem
przechowywanym w bazie przypadków
- Wybierz najbardziej podobny
- Podobienstwo jest jedna z najwazniejszych idei CBR
17Przyklad porównanie z przypadkiem 1
Miara podobienstwa (uwzgledniajac wagi)
sim(np, p1) 1/2060,810,410,660,961,0
0,86
18Przyklad porównanie z przypadkiem 2
Miara podobienstwa (uwzgledniajac wagi)
sim(np, p2) 1/2060,810,810,460,9560
0,585
19Przyklad wykorzystanie rozwiazania 1
Uszkodzony bezpiecznikWymienic bezpiecznik
Uszkodzony bezpiecznikWymienic bezpiecznik
Jezeli diagnoza jest poprawna, zapamietujemy
nowy przypadek
20Przyklad nowy przypadek
Uszkodzony bezpiecznikWymienic bezpiecznik
Uszkodzony bezpiecznikWymienic bezpiecznik
21Cykl CBR
Retrieve
Retain
Reuse
Revise
22Gdzie jest wiedza?
- Slownik (wykorzystywane cechy)
- Miara podobienstwa
- Transformacje rozwiazan
- Baza przypadków
23CBR - Podsumowanie
Podobne problemy maja podobne rozwiazania.
Rozwiazanie problemu (regula 4R ) Wyszukanie
podobnych przypadków Wykorzystanie rozwiazan z
precedensu (ów) Weryfikacja rozwiazania Wlaczenie
rozwiazania do bazy
Latwosc implementacji i uzywania Akceptacja
uzytkowników koncowych
24Plan prezentacji
- Wprowadzenie
- Parsowanie
- CBR
- Sieci semantyczne
- Podstawy biologiczne
- Przyklady
- UNL
- LangCerBeR
- Podsumowanie
25Siec semantyczna - przyklad
ma skóre
zwierze
porusza sie
ma skrzela
ssak
ptak
ryba
umie plywac
kanarek
wróbel
pstrag
losos
Collins Quillian, 1969
26Zaplecze biologiczne
1500
Kanarek ma skóre
Kanarek umie latac
RT (msec)
Kanarek umie spiewac
Kanarek jest zwierzakiem
Kanarek jest ptakiem
Wlasciwosci
Kategorie
900
Kanarek jest kanarkiem
0
1
2
odleglosc w sieci
27Pomysly na siec
latajace
zwierzaki
ptak
kanarek
sójka
ryba
wróbel
rudzik
rekin
plywaja
zielony
pingwin
niebieski
zólty
czerwony
Collins Loftus, 1975
linux
28Reprezentacja fobii
Lang, 1979
29Rodzaje sieci semantycznych
30Plan prezentacji
- Wprowadzenie
- Parsowanie
- CBR
- Sieci semantyczne
- UNL
- Zdanie jako siec
- UNL jako metajezyk
- LangCerBeR
- Podsumowanie
31Zdanie jako siec semantyczna
Piotr, w tym czasie student, napisal kilka
powiesci.
32Zdanie formalny zapis UNL
Piotr, w tym czasie student, napisal kilka
powiesci.
aoj ( student, Piotr ) tim ( student, czas ) mod
( czas, ten ) agt ( pisac._at_entry._at_past, Taro
) obj (pisac._at_entry._at_past, powiesc._at_pl ) mod (
powiesc._at_pl, kilka )
33Universal Language Networking UNL
It is a computer language that enables computer
to process information and knowlage across the
language bariers. UNL Specification (2003)
- Zapis jako siec semantyczna
- Pojecia wezly, relacje polaczenia
- Jednoznacznosc opisu
34UNL - Relacje
- Relacje wylacznie binarne
- Mozliwosc annotowania
- Grupy podstawowe AGT, AOJ, OBJ
- Operatory AND, OR, _at_not
- Zapis informacji semantcznych TMF, TMT
35UNL Universal Word (UW)
- Proste pojecia (simple UW)
- Restrykcje book(iclgtthing) book(iclgtdo)
- Rozszerzajace (extra UW) tatami(iclgtthing)
- Zlozone (compound UW)
- agt01(wear(iclgtdo(objgtthing)),
woman(iclgtperson)._at_pl)
36UNL jako metajezyk
UNL
37Plan prezentacji
- Wprowadzenie
- Parsowanie
- CBR
- Sieci semantyczne
- UNL
- LangCerBeR
- Podsumowanie
38Zdania jako przypadki CBR
Przypadek 11
Przypadek 12
Ala ma rudego kota
Wojtek puszcza latawca
miec
???
kot
Ala
rudy
- Zdania proste vs zdania zlozone
- Czesciowe podobienstwo
39Relacja jako przypadek
Przypadek 14
Przypadek 15
Ala ma
ma kota
miec
miec
Ala
kot
AOJ
OBJ
Przypadek 16
rudego kota
rudy
kot
AOJ
40Baza przypadków - schemat
Z1 -Ten kwiat jest piekny.
W1 - tenadjsgaccm3pos W2 -
kwiatsubstsgaccm3 W3- bycfinsgterimperf
W4 - pieknyadjsgaccm3pos
W1
W2
W3
P1 mod (kwiat, ten) P2 - aoj(piekny._at_entry,
kwiat)
W4
41Miara podobienstwa
- Reguly o tej samej dlugosci
- Podobienstwo cech rozwazane binarnie
- Podobienstwo slowa
- Zgodnosc formy podstawowej
- Zgodnosc klasy fleksyjnej
- Zgodnosc 12 kategorii gramatycznych
- Podobienstwo kazdego slowa równowazne
- Zgodnosc wystapien w zdaniu (kolejnosc)
42Wyszukiwanie i zapis przypadków
- Poszukiwanie dla kazdego wyrazu
- najdluzszej relacji
- do okreslonego progu
- Wybór najlepszych relacji
- Zapamietanie relacji jako nowego przypadku
- Grupowanie regul, reguly bez kontekstowe
43Podsumowanie
- Korpus IPI PAN
- Pelny system opisu jezyka polskiego
- Baza jezyka polskiego z informacja
morfosyntaktyczna - Poliqarp - narzedzie do przeszukiwania korpusu
- CBR
- Miara podobienstawa
- Baza przypadków
- Universal Networking Language
- Jednolity system zapisu znaczen
- Uniwersalny sposób zapisu rozkladu zdania
44Pytania
???
???
???
???
???
???
45Dziekuje za uwage