Maschinelles Lernen - PowerPoint PPT Presentation

About This Presentation

Title:

Maschinelles Lernen

Description:

Title: PowerPoint Presentation Author: Georg Dorffner Last modified by: GD Created Date: 10/10/2002 6:06:26 PM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:69

Avg rating:3.0/5.0

Slides: 24

Provided by: Geor121

Category:

more less

Transcript and Presenter's Notes

Title: Maschinelles Lernen

1
Kapitel 8 Kernel-Methoden
2
Ausgangsbasis Perceptron Learning Rule

Rosenblatt (1962)
Input wird dazugezählt (abgezogen), wenn Output
falsch(mismatch-based)
Verwendung Klassifikation

3
Mathematische Formulierung

Perceptron (1 Output)
yi 1/-1
Daten kommen als inneres Produkt vor (duale
Darstellung)

Inneres Produkt(dot product)
4
Vor- und Nachteile des Perceptrons

Vorteile
Globale Lösung garantiert (keine lokalen Minima)
Leicht lösbar bzw. otpimierbar
Nachteil
Auf lineare Separierbarkeit beschränkt
Idee
Transformation der Daten auf einen Raum, in dem
das Problem linear trennbar ist

5
Vergleiche Diskriminanzanalyse

Allgemein linearbeliebige Vorverarbeitungsfunk
tionen, lineare Verknüpfung
Neuronales NetzNN implementiert adaptive
Vorverarbeitungnichtlinear in Parametern
(w)durch Approximationstheorem beliebig
nichtlineare Diskriminanzfunktion

MLP
RBFN
6
Kernels

Ziel ist eine fix bestimmte Transformation
xi?F(xi), sodass das Problem linear trennbar ist
(ev. hochdimensional)
Kernel Funktion, die als inneres Produkt von Fs
darstellbar ist
F muss nicht einmal bekannt sein

7
Beispiel Polynomischer Kernel

2 Dimensionen
Kernel entspricht tatsächlich einem inneren
Produkt aus Vektoren mit Vorverarbeitung

8
Beispiel

Durch Transformation wird Problem linear trennbar

?
x22
x2
x1
x12
?-1
9
Die Wirkung des Kernel-Tricks

Einsatz des Kernels, z.B
16x16-dimensionale Vektoren (z.B. Pixel-Bilder),
Polynom 5. Grades Dimension 1010
Inneres Produkt zweier 10000000000-dim. Vektoren
Berechnung erfolgt im niedrigdimensionalen Raum
Inneres Produkt zweier 256-dim. Vektoren
5-te Potenz

10
Gaussscher Kernel

? nicht darstellbar, hat aber unendliche
Dimension!(wenn Trainingsset unbegrenzt groß
sein kann)
Folgt aus Mercers Theorem
Betrachte die Kernel-Matrixüber alle
Trainingsbeispiele
Berechne Eigenwerte und -funktionen, dann gilt
Für Gaussschen Kernel gilt Kernel-Matrix hat
vollen Rang!Dimension so groß wie das
Trainingsset

11
Large Margin Classifier

Hochdimensionaler Raum Overfitting leicht
möglich
Lösung Suche Entscheidungslinie (Hyperebene) mit
größtem Abstand von den Punkten

OptimierungMinimiere(Maximiere
)Randbedingung

Abstand maximal
w
12
Optimierung 1

Quadratisches Optimierungsproblem
Lösungsansatz Lagrange-Multiplikanten
Randbedingung
1. Ableitung nach w und b muss 0 sein. Das ergibt

13
Optimierung 2

Einsetzen der zuletzt ergebenen Terme
Duale Formulierung
Wichtig Daten stehen wieder als inneres Produkt
(dot product) im Term!
Kernel-Trick kann wieder angewandt werden

14
Optimierung 3

Minimierung ist quadratisches Programmierungsprobl
em
Globales Minimum garantiert
Methoden
Chunking nutzt die Tatsache dass viele ai0
Decomposition Methods
Sequential Minimal Optimization (SMO)löst eine
Sequenz von Problemen der Größe 2(Paare von
Variablen)

15
Support Vectors

Support-Vectors Punkte am Rand des Margins
Bestimmen alleine die Lösung,für alle anderen
Punkte gilt ai0, können weggelassen werden

Kernelfunktion
Rückprojektion
Support Vectors
16
Daten mit Rauschen

Bisherige Annahme Problem ist exakt trennbar
Bei Rauschen Einführung von Slack
variablesweicht den strengen Margin etwas auf

Lernparameter

Duales Problem (Lagrange) bleibtgleich (bis auf
Randbedingung)

17
Beispiel
Schätzung nur mit Support-Vectors ergibt die
selbe Lösung
Kernel Polynom 3. Ordnung
18
Bedingungen für Kernels

Jede Funktion K(x,z), für die gilt
bzw.
ist eine Kernelfunktion (positive definite
Kernels)
Ist K1 und K2 ein Kernel, so sind auchaK1 (für
agt0)K1K2K1K2Kernel
Wahl des richtigen Kernels (Vorverarbeitung) ist
entscheidend!? Modellselektion notwendig

für beliebige Trainingspunkte xi
19
SVM-Theorie VC-Dimension

Shatter Wenn unter n Punkten alle 2n
Klassifikationen möglich sind
VC-Dimension h kleinstes m von Punkten, für die
der Lerner weniger als 2m Klassifikationen
schafft
Z.B. VC-Dim(Perceptron)k1 (k Inputdimension)
Für komplexe Lerner kann oft nur Schranke
angegeben werden

20
SVM-Theorie Structural risk minimization

Schranke für das Risiko (Fehler)
Maximieren des Margins beschränkt VC-Dimension
w kann als Regularisierungsterm betrachtet
werden
Gauss-Kernel VC-Dim h8

Mit Wahrscheinlichkeit 1-d
Anzahl Trainingspunkte
Empirischer FehleramTrainingsset
Minimal möglicher Fehler
21
SVM und Neuronale Netze

Gauss-Kernel RBF
Sigmoid-Kernel MLP
So viele Hidden Units wie Trainingsmuster
Allerdings andere Berechnung
Raum ist 8-dimensional
SVM und Boosting formaler Zusammenhangvgl.
Boosting Punkte an der Entscheidungsgrenze
bekommen größte Bedeutung (wie SV)

22
Andere Kernelverfahren

Kernel-Trick funktioniert bei allen Methoden, in
denen Daten als inneres Produkt vorkommen
Kernel-PCA
Kernel-Fisher Diksriminante
Kernel Regression
Gausssche Prozesse

23
Zusammenfassung

SVMs sind interessante Alternative zu klassischen
neuronalen Netzen
Kernel-Trick Inneres Produkt von
hochdimensionalen Features (Vorverabeitung)
kann niedrigdimensional berechnet werden
Beschränken der VC-Dim. (Vermeidung von
Overfitting) Large Margin Classifier
Lineares Modell, Quadratische Programmierung,
Minimum garantiert
Support Vectors Punkte am Margin, sind alleine
für Lösung verantwortlich
Aber Overfitting dennoch möglich
Modellselektion notwendig
Wahl des geeigneten Kernels ist sehr wichtig!