Maschinelles%20Lernen

About This Presentation

Title:

Maschinelles%20Lernen

Description:

Title: PowerPoint Presentation Author: Georg Dorffner Last modified by: GD Created Date: 10/10/2002 6:06:26 PM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:129

Avg rating:3.0/5.0

Slides: 32

Provided by: Georg394

Category:

more less

Transcript and Presenter's Notes

Title: Maschinelles%20Lernen

1
Kapitel 2 Klassifikation
2
Ein einfacher Fall

Ein Feature, Histogramme für beide Klassen(z.B.
Glukosewert, Diabetes ja/nein)
Keine perfekte Trennung möglich
Entscheidung Schwellwert
Frage Wo setze ich ihn am besten hin?

3
Der allgemeine Fall Bayessches Theorem

Ann Daten fallen in k Klassen,
wähle für eine Beobachtung xj die
Wahrscheinlichste aus

4
Der optimale Klassifikator

Klassifikation wähle die Klasse i mit der
höchsten a-posteriori Wahrscheinlichkeit
Erzielt das bestmögliche Resultat
Bayessche Formel erleichtert das Problem, da
Wahrscheinlichkeiten auf der rechten Seite meist
leichter zu bestimmen sind
Da p(x) für alle Klassen gleich ist, kann es oft
weggelassen werden

5
Einschub Wahrscheinlichkeitsdichten

Für diskrete Variablen (endliche Werte)
Wahrscheinlichkeit,z.B. P(ci)
Für kontinuierliche Variablen nicht möglich
P(xj)0
Stattdessen Wahrscheinlichkeitsdichtefunktion
p(x)p(xj) ... Dichte an diesem Punkt (kann
größer als 1 sein)
Wahrscheinlichkeit, dass x in einem kleinen
Intervall liegt
Dichte kann wie Wahrscheinlichkeit behandelt
werden

6
Beispiel 1 Variable, 2 Klassen

Annahme in beiden Klassen sind Beobachtungen
normalverteilt

Entscheidungsgrenze Schnittpunkt der beiden
Kurven

Multiplikation mit a-priori Wahrscheinlichkeiten
Entscheidungsgrenze verschiebt sich

Durchdividieren durch Summe ergibt
Wahrscheinlichkeit für Klasse

7
Beispiel 2 Variablen, 2 Klassen

2-dim. Gaussverteilungen
Lineare Entscheidungsgrenze

8
Klassifikatoren

Problem Dichteverteilungen meist unbekannt
Lösung
Schätzen der Verteilungen
Schätzen der Entscheidungsgrenze
Schätzen von DiskriminanzfunktionenWähle für
jede Klasse Fkt. gi(x)Klasse ci, wenn
gi(x)gtgj(x) für alle j?iz.B.

Keine Wahrscheinlichkeiten mehr
9
Diskriminanzfunktionen für Normalverteilungen

Streuung in alle Richtungen gleich (sphärisch)
Log-Fkt. Und multiplikative Faktoren ändern
nichts an Größenverhältnis
Quadratische Funktion
Entscheidungsgrenze g1(x)g2(x), auch
quadratisch
wenn ?1 ?2 linear

10
Visualisierung Normalverteilungen
11
Allgemeiner Ansatz Diskriminanzanalyse

Lineare Diskriminanzfunktionentspricht dem
Perceptron mit 1 Output Unit pro Klasse
Quadratisch linearentspricht einer
Vorverarbeitung der Daten,Parameter (w,v) noch
immer linear

12
Der Schritt zum neuronalen Netz

Allgemein linearbeliebige Vorverarbeitungsfunk
tionen, lineare Verknüpfung
Neuronales NetzNN implementiert adaptive
Vorverarbeitungnichtlinear in Parametern (w)

MLP
RBFN
13
Beispiel XOR

(0 0) ? 0(1 0) ? 1(0 1) ? 1(1 1) ? 0
? Exklusives Oder
4. Muster ist Summe des 2. und 3. (lineare
Abhängigkeit)
Punkte lassen sich durch keine Gerade trennen

14
Hidden Units

Zwei Perceptrons nichtlineare Transferfunktion

Schwellwertfunktion bricht lineare Abhängigkeit

15
Beliebige Klassifikationen

Jede Hidden Unit teilt Raum in 2 Hälften

Output Units wirken wie AND

Sigmoide verlaufende Bereiche

16
Beispiel MLP

MLP mit 5 Hidden und 2 Output Units
Lineare Transferfunktion am Output
Quadratischer Fehler

17
MLP zur Diskriminanzanalyse

MLP (und RBFN) ist direkte Erweiterung
klassischer Modelle
Stärke beliebige nichtlineare Diskriminanzfunktio
nen
Hidden Units Adaptive Vorverarbeitung des Inputs
Form der Diskriminanzfunktion außerhalb der
Entscheidungsgrenze belanglos
Perceptron ist identisch mit linearer
Diskriminanzanalyse

18
Alternativer Ansatz Schätzung der Verteilungen

Beim Ansatz mittels Diskriminanzfunktionen geht
ein wesentlicher Aspekt verloren
Wahrscheinlichkeiten der Klassenzugehörigkeit
? mehr an Bayes halten, Dichtefunktion
schätzen(vor allem p(xci))
Parametrisch Form ist bekannt, weniger Parameter
zu schätzen
Nichtparametrisch Form ist unbekannt,
theoretisch beliebig

19
Parametrisch Maximum Likelihood (ML)

Ann. Verteilung hat eine bestimmte, analytisch
beschreibbare Form (z.B. Normalverteilung) mit
Parametern ? (z.B. Zentrum und Weite)
Likelihood
Entspricht der Wahrscheinlichkeit, dass Daten
beobachtet werden, wenn die Verteilung richtig
ist
ML Finde jenes ?, das die Beobachtungen am
wahrscheinlichsten macht Maximiere L(?)
Vor Beobachtungen (Daten) sind unabhängig
voneinander

Menge aller Datenpunkte
20
Beispiel eindimensionale Normalverteilung

Vereinfachung (ähnlich wie zuvor)logarithmieren,
Vorzeichen ändern, Konstante weglassen,
minimieren?minimiere die negative log-Likelihood

Minimierung 1. Ableitung auf 0 setzen

Erwartetes Ergebnis Mittelwert und Varianz
21
Likelihood-Funktionen für die Normalverteilung

L(?) für Punkte 1, 2 und 3, ?1

L(?) für Punkte 1, 2 und 3, ? 1

(wieder Gauss-Fkt.)

L(?) für einen Punkt 1,? 1

? ML nicht immer sinnvoll!
22
Nichtparametrisch Parzen-Windows

Wenn Form beliebig, keine Likelihood angebbar
Wähle einen kleinen (Hyper-)Würfel, zähle wieviel
Punkte drin liegen (ki)Geschätzte Dichte

Volumen

Wenn n??, Vi?0, dann immer genauer
Entspricht einem normalisiertenHistogramm

23
Der Fluch der Dimensionalität

(Bellman 1961)bei nichtparametrischen Fällen
steigt die Anzahl der benötigten Beispiele
exponentiell mit der Dimensionalität des Input!
Parzen
wenn Fenster klein, muss es noch genügend
Beispiele enthalten
je mehr Dimensionen, desto dünner gesät
? möglichst wenige Inputs, viele Daten

24
Semiparametrisch Gaussian Mixtures (GMM)

Nähere beliebige Verteilung durch eine Mischung
von Normalverteilungen an
Gleiches Prinzip wie bei neuronalen Netzen
Maximum Likelihood

? -logL, Gradientenverfahren
25
Beispiel

Class-conditionals

Posterior

Entscheidungsgrenze

26
MLP zur Klassifikation

Beweis existiertMLP nähert die a-posteriori
Wahrscheinlichkeit an
Aktivierungsfunktion Softmax(eigene
Fehlerfunktion notwendig siehe später)
A-priori WahrscheinlichkeitenVerteilungen im
Trainingsset

27
Die Softmax-Funktion

Erzwingt, dass Outputs als Wahrscheinlichkeiten
interpretierbar sind
Bezug zum Bayesschen Theorem
Spezialfall Sigmoide Funktionnur 2 Klassen, 1
Output Unit durchdividieren

Wenn Expontentialverteilung ? SoftmaxNettoinput
ist log. von Dichte
28
Warum Wahrscheinlichkeiten?

Mehr Information
Ablehnung von unsicheren Fällen Performanz
steigt, aber einige Fälle unentscheidbar
Einfache Berücksichtigung von anderen a-priori
Wahrscheinlichkeiten
Berücksichtigung von Kosten für Fehler
Verknüpfung mit anderen Quellen

29
NN als semiparametrische Methoden

SemiparametrischForm relative beliebig, aber
dennoch durch Anzahl der Hidden Units
(Modellkomplexität) beschränkt
Fluch der Dimension abgeschwächt, aber immer noch
gegeben Bedarf steigt ungefähr quadratisch
? NN haben gute Eigenschaften, wenn Dichten
unbekannt, aber immer noch giltwenige Inputs,
viele Daten!

30
Nachtrag k-nearest neighbor

Speichere alle Trainingssätze mit zugehöriger
Klasse
Neuer Fall wähle die k nähesten Trainingsfälle,
nimm Klasse, die am häufigsten vorkommt
Duda Hart 1974Nearest Neighbor (k1) hat
maximal den doppelten Fehler des bayesoptimalen
Klassifizierers (für große Fallzahl)
? kann als Benchmark verwendet werden
Approximiert auch die a-priori Wahrscheinlichkeit
direkt
nichtparametrisch

Maschinelles%20Lernen - PowerPoint PPT Presentation

Maschinelles%20Lernen

Title: PowerPoint Presentation Author: Georg Dorffner Last modified by: GD Created Date: 10/10/2002 6:06:26 PM Document presentation format: On-screen Show – PowerPoint PPT presentation