Maschinelles Lernen - PowerPoint PPT Presentation

About This Presentation

Title:

Maschinelles Lernen

Description:

Maschinelles Lernen Hidden Markov Modelle (HMM) (Rabiner Tutorial) – PowerPoint PPT presentation

Number of Views:89

Avg rating:3.0/5.0

Slides: 32

Provided by: unim83

Category:

more less

Transcript and Presenter's Notes

Title: Maschinelles Lernen

1
Maschinelles Lernen

Hidden Markov Modelle (HMM)
(Rabiner Tutorial)

2
Grundidee

Finde zu einer Beobachtung (Serie von
Beobachtungen) die zugrundeliegende Struktur
Basis stochastisches Modell basierend auf
Markov-Ketten (jedes Ereignis ist nur von seinem
Vorgänger abhängig)
Typische Anwendungen
Spracherkennung
Tagging
Ziehen von bunten Kugeln aus verschiedenen Urnen
hinter einer Wand

3
Geschichte

benannt nach Andrei A. Markov (1856 - 1922) ihrem
Entwickler
Markov Modelle anfänglich für linguistische
Zwecke
Modellieren von Buchstabensequenzen in der
russischen Literatur (1913)
später Entwicklung als allgemeines statistisches
Werkzeug

4
Markov-Ketten

Sequenz von Zufallsvariablen X (X1, ...,XT)
Xt1 hängt ab vom Wert von Xt
X1,...,Xt-1 braucht man nicht zu kennen
Beispiel Zufallsvariable misst Anzahl der
Bücher einer Bibliothek
Um Anzahl der Bücher morgen vorhersagen zu
können, genügt es Anzahl der Bücher heute zu
kennen.
Die Anzahl der Bücher der letzten Woche oder
sogar der letzten Jahre benötigt man für die
Vorhersage nicht.

5
Definitionen

Stochastischer Prozess
Ein stochstischer Prozess oder Zufallsprozess ist
eine Folge von elementaren Zufallsereignissen
Zustände
Die möglichen Zufallswerte in einem
stochastischen Prozess heißen Zustände des
Prozesses.Man sagt, dass sich der Prozess zum
Zeitpunkt t in Zustand XtSt befindet.

6
Stochastischer Prozess

Für die vollständige Beschreibung eines
Zufallsprozesses mit diskretem Zeitparameter
benötigt man
die Anfangswahrscheinlichkeitdie für jeden
Zustand angibt, mit welcher Wahrscheinlichkeit er
als Zustand X1Si beobachtet werden kann (d.h.
den Startzustand bildet)
die Übergangswahscheinlichkeitdie für jeden
Zustand angibt, mit welcher Wahrscheinlichkeit er
in einer Zustandsfolge auftritt

7
Beispiel

Ein Textgenerator hat ein Lexikon mit Wörtern
von denen an jeder Position jedes auftreten kann
O geschickt, werden, wir
wir beobachten an jeder Position, welches Wort
generiert wurde
Sei
X1 das Wort zum ersten Beobachtungszeitpunkt
X2 das Wort zum zweiten Beobachtungszeitpunkt,
usw.
Dann ist die Folge der Wörter ein stochastischer
Prozess mit diskreter Zufallsvariable und
diskretem Zeitparameter

8
Markov-Kette

Eine Markov-Kette ist ein spezieller
stochastischer Prozess, bei dem zu jedem
Zeitpunkt die Wahrscheinlichkeiten aller
zukünftigen Zustände nur vom momentanen Zustand
abhängt ( Markov-Eigenschaft)
d.h. es gilt
Für eine endliche Markov-Kette gibt es endlich
viele Zustände, und die Kette muss sich zu jedem
Zeitpunkt in einem dieser endlich vielen Zustände
befinden

9
Markov-Kette
kann beschrieben werden durch die Angaben

Stochastische Übergangsmatrix A
Anfangswahrscheinlichkeiten

Manning/Schütze, 2000 318
10
Markov-Kette
kann beschrieben werden durch einen
Zustandsübergangsgraphen
.5
.3
wir
.4
.3
.2
.4
werden
.3
.3
.4
.4
geschickt
.2
.3
11
Markov-Kette
Wahrscheinlichkeit der Sequenz der Zustände X1
XT
für eine Markov-Kette gilt
12
Markov-Kette
Wahrscheinlichkeit der Sequenz der Zustände X1
XT
13
Markov-Modell (MM)

Ein Markov-Modell ordnet jedem Zustand (andere
Variante jedem Zustandsübergang) eine Ausgabe
zu, die ausschließlich vom aktuellen Zustand
(bzw. Zustandsübergang) abhängig ist
Ausgabe Sequenz von Ereignissen, die die
Beobachtungen in der Beobachtungssequenz
repräsentieren
Zur Unterscheidung auch Visible Markov Model
(VMM) genannt

14
Hidden Markov Modell (HMM)

Konzept des Markov Models wird erweitert
Beobachtung ist Wahrscheinlichkeitsfunktion des
Zustandes
Emissionswahrscheinlichkeiten für Beobachtung
werden benötigt
Wahrscheinlichkeit, dass zur Zeit t das Symbol k
beobachtet wird,
unter der Vorraussetzung, dass das Model sich zur
Zeit t im Zustand Si befindet und als nächstes
(zum Zeitpunkt t 1) in den Zustand Sj
übergeht.
Ein Hidden Markov Model ist ein Markov-Modell
bei dem nur die Sequenz der Ausgaben beobachtbar
ist,
die Sequenz der Zustände verborgen bleibt
Es kann mehrere Zustandssequenzen geben, die
dieselbe Ausgabe erzeugen

15
Hidden Markov-Modell Beispiel

in einem Text lassen sich nur die Ausgaben (
produzierte Wörter) beobachten (visible) orange
die Sequenz von Zuständen ( Wortarten), die die
Wörter ausgeben, (Satzmuster) lässt sich nicht
beobachten (hidden) blau
mehrere Sequenzen können dieselbe Ausgabe
erzeugen

.3
.4
.2
.3
.3
.2
nomn
auxv
part
nomn
kopv
adje
.2
.3
.4
.2
.5
.2
wir
werden
geschickt
wir
werden
geschickt
.3 x .2 x .4 x .3 x .2 x .4 0.000576
.3 x .2 x .3 x .5 x .2 x .2 0.000360
16
Hidden Markov-Modell Definition
Formal spezifiziert durch Fünf-Tupel
Menge der Zustände
Ausgabe-Alphabet
Wahrscheinlichkeitender Startzustände
Wahrscheinlichkeitender Zustandsübergänge
Wahrscheinlichkeitender Symbolemissionen
Manning/Schütze, 2000 326
17
HMM

Es gibt 3 Probleme zu lösen
Dekodierung Wahrscheinlichkeit einer Beobachtung
finden
brute force
Forward-Algorithmus / Backward-Algorithmus
Beste Pfad-Sequenz finden
brute force
Viterbi-Algorithmus
Training Aufbau des besten Modells aus
Trainingsdaten
Forward-Backward Algorithmus
Baum-Welch Algorithmus

18
HMM

Brute force-Bestimmung der Wahrscheinlichkeit
einer Beobachtunsgsequenz für ein gegebenes
Modell
Für alle möglichen Zustandsfolgen X X1...Xt1
Berechnung der Wahrscheinlichkeit der
Beobachtungen
Summierung der Wahrscheinlichkeiten

state transition
symbol emission
19
HMM
Lösungsweg 1 brute force Effizienz
T Anzahl der Beobachtungen N Anzahl der Zustände
Lösungsweg ist hoffnungslos ineffizient Benötigt
im allgemeinen Fall, d.h. - Start in jedem
Zustand möglich, - Jeder Zustand kann auf jeden
folgen (2T 1) x NT1 Multiplikationen
Manning/Schütze, 2000 326
20
HMM

Alternative Merken partieller Ergebnisse
Forward Procedure oder Backward Procedure
Forward-Procedure wird beschrieben durch die
Forward-Variable
Wahrscheinlichkeit dass die partielle
Observationssequenz O1 bis Ot-1 ausgegeben wurde
und dass das HMM zur Zeit t sich im Zustand Si
befindet, unter der Bedingung des Modells µ.

21
Forward Procedure

Die Vorwärts-Wahrscheinlichkeit aj(t1)
ergibt sich aus der Summe des Produktes
der Wahrscheinlichkeiten jedes
reinkommenden Bogens mit der Forward-
Variable des ausgehenden Knotens. (N2T)
1. Initialisierung
2. Induktion
3. Total

22
Backward Procedure

Ähnlich wie Forward Procedure
Beschrieben durch Backward Variable
Wahrscheinlichkeit dass der Rest der
Observationssequenz Ot bis OT ausgegeben wird
unter der Bedingung dass sich das HMM zur Zeit t
im Zustand Si befindet und des Modells µ
Die Backward-Variable ßi(t) wird zur Zeit t im
Knoten Si gespeichert
Die Rückwärtswahrscheinlichkeit ßi(t) ergibt sich
aus der Summe des Produktes der
Wahrscheinlichkeiten jedes ausgehenden Bogens mit
der Rückwärtswahrscheinlichkeit des erreichten
Knotens

23
Backward-Procedure

1.Initialisierung 2. Induktion

3. Total
Für die Berechnung von P(Oµ) kann
auch die Kombination von Forward- und
Backward-Procedure verwendet werden.
24
HMM Beste Pfadsequenz

Brute force Berechnung aller möglichen Pfade
Viterbi-Algorithmus
Speichere zu jedem Zeitpunkt nur den bis dahin
optimalen Pfad zu jedem Zustand

wirAdje
werdenAdje
geschicktAdje
wirAuxV
werdenAuxV
geschicktAuxV
wirKopV
werdenKopV
geschicktKopV
wirNomn
werdenNomn
geschicktNomn
wirPart
werdenPart
geschicktPart
25
HMM Training
gegeben
eine Sequenz von BeobachtungenIn einem
Trainingscorpus
ein Modell
gesucht
das für die beobachteten Sequenzen im
Trainingscorpus die maximalen Wahrscheinlichkeite
n erzeugt

Mögliche Verfahren
Baum-Welch Algorithmus
Forward-Backward Algorithmus

26
Baum-Welch Algorithmus

Spezialfall des EM (Expectation Maximization)
Algorithmus
Iterativer Algorithmus versucht ein beliebig
gewähltes Start-Modell ?0 hinsichtlich OTraining
zu optimieren
Mittels Berechnungen herausfinden, welche
Transitionen und Symbolemissionen bei
Ausgabesequenz O wahrscheinlich am häufigsten
genutzt werden.
Erhalten eines überarbeiteten Models µ durch
Erhöhen dieser Wahrscheinlichkeiten

27
Baum-Welch-Algorithmus

1. Berechnungen
pt(i,j) ist die Wahrscheinlichkeit, dass
der Bogen von Zustand Si nach Zustand
Sj zur Zeit t passiert wird, gegeben das
Modell µ und die Observationssequenz O.
ist Wahrscheinlichkeit, dass das
HMM sich zur Zeit t im Zustand Si
befindet.

28
Baum-Welch-Algorithmus

Ist die erwartete Anzahl
der Transitionen vom Zustand Si bei der
Ausgabesequenz O. Ist die erwartete Anzahl
der Transitionen vom Zustand Si zum Zustand Sj
bei der Ausgabesequenz O. 2. Neuberechnung der
Wahrscheinlichkeiten 1. Startwahrscheinlichkeite
n erwartete Häufigkeit im Zustand Si zur
Zeit t 1 zu sein 2. Transitionswahrscheinlichk
eiten
29
Baum-Welch-Algorithmus

3. Emissionswahrscheinlichkeiten Mit den
Neuberechnungen der Wahrscheinlichkeiten erhalten
wir aus dem Model ein neues
Model , so dass
gilt
30
Baum-Welch-Algorithmus

Die Iteration erfolgt solange, bis keine
signifikante Verbesserung der Ergebnisse mehr
sichtbar ist.
Der Baum-Welch-Algorithmus garantiert nicht,
dass das beste Modell gefunden wird, da der
Prozess in einem lokalen Maximum stecken bleiben
kann (z.B. Sattelpunkt).
Baum-Welch-Algorithmus ist dennoch effektiv für
HMMs.
Für das Finden des globalen Maximums sollten die
Parameter des Ausgangs HMMs in der Region nahe
des globalen Maximums liegen.
Anfängliches Abschätzen der Werte ist besser
als zufälliges Wählen.Schätzen von B ist dabei
wichtig. Zufälliges Wählen von A und ? ist
ausreichend.

31
Beziehung zu Bayes

Vermeidung der Unabhängigkeitsannahme
Interpretiere Abhängigkeiten der Features als
Übergangswahrscheinlichkeiten der Zustände
Features entsprechen Zuständen
Bayesian (Belief) Network!

Write a Comment

User Comments (0)