Maschinelles Lernen - PowerPoint PPT Presentation

About This Presentation
Title:

Maschinelles Lernen

Description:

Title: PowerPoint Presentation Author: Georg Dorffner Last modified by: GD Created Date: 10/10/2002 6:06:26 PM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:63
Avg rating:3.0/5.0
Slides: 24
Provided by: Georg401
Category:

less

Transcript and Presenter's Notes

Title: Maschinelles Lernen


1
Kapitel 5 Der praktische Umgang mit komplexen
Lernern
2
Neuronale Netze als semiparametrische Verfahren
  • Neuronale Netze sind sehr flexibel, aber haben
    eine große Anzahl an Freiheitsgraden (Gewichten)
  • ?? sie benötigen sehr viele Daten für eine
    vernünftige Modellschätzung
  • Modelle sollten möglichst klein gehalten werden
  • Occams Razor wenn zwei Modelle das gleiche
    vorhersagen, bevorzuge das kleinere
  • Neuronale Netze unterliegen dem Fluch der
    Dimension (nicht beliebig viele Inputs)

3
Overfitting
  • Bei zu wenigen Trainingsdaten Das NN versucht,
    das Rauschen mitzumodellieren
  • Überanpassung (Overfitting) schlechtere
    Performanz auf neuen Daten (quadratischer Abstand
    wird größer)

4
Vermeidung von Overfitting
  • So viel Daten wie möglich (gute Abdeckung der
    Verteilung!)
  • Modell (Netz) so klein wie möglich halten
  • Allgemein Regularisierung ( Einschränken der
    effektiven Anzahl der Freiheitsgrade)
  • Mehrere Durchläufe, Durchschnitt bilden
  • Strafterm für große Netze, z.B.
  • Pruning (Entfernen von Verbindungen)
  • Early stopping

5
Überbestimmung des Modells
  • Wenn weniger Daten (Beispiele) als
    GewichteModell ist unterbestimmt(Gewichte
    könnten frei gewählt werden)
  • ? mindestens so viele Beispiele wie Gewichte
  • Da Probleme stochastisch jedes Beispiel trägt
    nur einen kleinen Teil zum Modell bei
    (Rauschverteilung)
  • ? ein Vielfaches an Beispielen notwendigHeuristik
    nBeispiele gt 10nGewichte
  • Beispiel 9 Inputs, 500 Beispiele, 1 Output
    nGewichte nHU(91), max. 50 Gewichte ? max. 5
    Hidden Units
  • Auch wenn benötigtes Modell komplexer ist es
    lässt sich mit diesem Datenmaterial nicht
    ausnutzen

6
Der Fluch der Dimension
  • Auch bei neuronalen Netzen steigt der Bedarf an
    Beispielen überlinear mit der Dimension
    (Inputs)( quadratisch)
  • Zahl der Inputmerkmale sollte so klein wie
    möglich sein
  • Obige Heuristik gilt eigentlich nur für kleine
    Inputanzahl (darüber noch größeres Vielfaches
    nehmen)
  • ? Merkmalselektion

7
Die wesentlichen Schritte
  • Aufgrund ihrer Eigenschaften erfordern neuronale
    Netze eine saubere Vorgangsweise
  • Datensichtung
  • Datenvorverarbeitung
  • Merkmalsselektion
  • Modellschätzung und Modellselektion
  • Vergleich mit einfachen Verfahren
  • Testen auf unabhängigen Daten
  • Interpretation der Ergebnisse

8
Schritt 1 Datensichtung
  • Wichtig sich ein Bild von den Daten machen
  • Z.B. Plotten jedes einzelnen Inputmerkmals
  • Ausreißer identifizieren? Fälle eliminieren oder
    auf Werte auf Maximalwert setzen
  • Attribute mit wenig Informationsgehalt
    eliminieren (z.B. wenn es fast immer den gleichen
    Wert hat)
  • Fehlende Werte identifizieren ? Fälle
    eliminieren oder auf Werte auf Durchschnitt setzen

9
Hauptkomponentenanalyse
  • Principal Component Analysis (PCA)finde die
    Achsen (Hauptkomponenten), die die größte Varianz
    abdecken ( Koordinatentransformation)
  • Mathematisch Eigenvektoren der Kovarianzmatrix
  • Ermöglicht (tw.) Visualisierung der Daten

10
Schritt 2 Vorverarbeitung
  • Frage enthalten Inputmerkmale die richtige
    Information?? Transformation (Differenzenbildung,
    Quotient, komplexere Merkmalsberechnung, etc.)
  • Sichtung der neuen Merkmale
  • Normalisierung (pro Merkmal)Mittelwert 0,
    Standardabweichung 1
  • (sonst ist Modellschätzung schwierig)

11
Schritt 3 Merkmalsselektion
  • So wenig Inputdimensionen wie möglich!
  • 1. Heuristik Korrelationsanalyse
  • Nur diejenigen, die hoch korrelieren
  • Merkmale weglassen, die mit anderen hoch
    korrelieren
  • Aber nur First order Statistik, suboptimal

Merkmale
Klasse
  • 2. Heuristik PCA
  • Eigenwerte geben an, wieviel Varianz abgedeckt
  • z.B. Pima Indian 2.1, 1.73, 1.03, 0.88, 0.76,
    0.68, 0.42, 0.4
  • Nimm Hauptkomponenten als Inputaber keine
    Outputinformation kann suboptimal sein

12
Verfahren zur feature selection
  • Filtersbetrachten einfache Auswahlmodelle
    (z.B. linear)
  • WrappersBetrachten das Zielmodell (siehe
    Modellselektion)
  • Suchverfahren
  • inkrementelles Hinzunehmen
  • inkrementelles Wegnehmen
  • branch and bound
  • Bayessche Evidenz
  • Optimale Selektion nur, wenn alle Kombinationen
    betrachtet!

13
Schritt 4 Modellselektion
  • Ziel optimale Modellkomplexität(Anzahl der
    Hidden Units)
  • Da optimales Modell unbekanntausprobieren und
    vergleichen
  • Immer auf unabhängigen Daten validieren
  • Ein einzelner Trainingsdurchlauf hat Bias(zu
    sehr vom Trainingsset abhängig ? zu
    optimistisch/pessimistisch)
  • Mehrere Durchläufe (mit verschiedenen
    Trainingssets) notwendig!

14
Die n-fache Kreuzvalidierung
  • Bei beschränkten Datensätzen n-fache
    Kreuzvalidierung
  • Das ganze n mal (Validierungsset jeweils
    disjunkt, Trainingssets nicht)
  • n Durchläufe, n Netze, n Performanzen auf
    Validierungssets? Durchschnitt (Schätzung ohne
    Bias), NICHT das beste Netz!
    Standardabweichung (Konfidenzintervall)

15
Statistisches Testen
  • Vergleich zweier Modelle anhand des Durchschnitts
  • Frage Ist der Unterschied signifikant (oder
    zufällig)?? statistischer Signifikanztest
    notwendig
  • Z.B. t-test (Test auf Gleichheit der
    Mittelwerte, setzt Normalverteilung voraus)
  • Nullhypothese Mittelwerte sind gleich
  • T-Wert in Tabelle ? p-Wert(1-Wahrscheinlichkeit,
    dass Nullhypothese abgelehnt werden kann)

16
Signifikanztests Allgemeines
  • P-Wert sollte maximal 5 sein plt0.05
  • Je niedriger, desto signifikanter
  • Wenn keine Signifikanz erreichtmehr
    Beobachtungen Erhöhung von n
  • Abstand wird geringer werden
  • Multiples Testenbei plt0.05 Unter 20 Tests ist
    im Durchschnitt einer dabei, der
    fälschlicherweise Signifikanz vorhersagt
  • ? korrigieren (z.B. plt0.05/k, k Anzahl der
    Tests)

17
Modellselektion
  • Strategie zur optimalen Wahl der
    Modellkomplexität
  • Klein beginnen (z.B. 1 oder 2 Hidden Units)
  • n-fache Kreuzvalidierung
  • Jeweils eine Hidden Unit hinzufügen
  • Akzeptieren, solange (signifikante) Verbesserung
  • Keine Regularisierung notwendigOverfitting wird
    durch Kreuzvalidierung abgefangen(Durchschnittsbi
    ldung)
  • zu viele Hidden Units ? zu große Varianz ? keine
    Signifikanz
  • Idealerweise ganze Strategie kreuzvalidieren
    (inklusive Feature Selection)
  • Danach beste Strategie auf alle Daten anwenden

18
Schritt 5 Vergleich mit einfachen Verfahren
  • Neuronales Netz sollte immer auch mit einfacher
    Alternative verglichen werden
  • z.B. lineares Verfahren, k-nearest neighbor
  • Wie bei Modelleslektion
  • n-fache Kreuzvalidierung
  • Vergleich der Mittelwerte
  • Signifikanztest
  • Bei kleinen Datensätzen ist lineares Verfahren
    oft nicht unterlegen!

19
Schritt 6 Testen auf unabhängigen Daten
  • Ein Teil der Daten (zufällig gewählt) sollte bis
    jetzt aufgehoben worden sein
  • Testen des besten Modells auf diese Daten
  • Nach Kreuzvalidierung Neu geschätztes Modell auf
    allen Trainingsdaten
  • Alternative alle n Netze mit Durchschnittsbildung
    ( Komitee)
  • Jetzt nochmalige n-fache Kreuzvalidierung mit
    besten Modell? Schätzung der Routineperformanz
    Konfidenzintervall

20
Schritt 7 Interpretation der Ergebnisse
  • Quadratischer Fehler alleine sagt oft wenig aus
  • Rückrechnen auf Originalwerte
  • Berechnen der Auswirkungen (z.B. Ersparnis)
  • Regressionsgerade,Scatter Plot
  • Güte
  • Ausreißer

21
Auswertung von Klassifikationsergebnissen
  • Wenn Klassen ungleich verteilt (unterschiedliche
    a priori Wahrscheinlichkeiten)Gesamtperformanz
    ist nicht aussagekräftig
  • z.B. p(c1)0.2, p(c2)0.8Immer Klasse 2 sagen
    (naïve rater) bringt 80 korrekt
  • ? Unterscheiden zwischen
  • Sensitivität (korrekt klassifizierte Positive
    z.B. Klasse 1)
  • Spezifität (korrekt klassifizierte Negative
    z.B. Klasse 2)
  • Wenn 1 Gesamtperformanz notwendig (z.B. zum
    Vergleich)Durchschnitt der beiden Werte
  • naïve rater Sens0, Spez100, Durchschnitt
    50
  • Guter Klassifizierer Sens80, Spez80,
    Durchschnitt 80

22
Die ROC-Kurve
  • Ob höhere Sensitivität oder höhere Spezifität
    besser ist, entscheidet Anwendung
  • ? Sens. vs. Spez. plotten
  • zeigt den gesamten Bereich des Klassifizierers an
  • naive rater 45º Gerade
  • Je weiter davon entfernt, desto besser
  • Gesamtgüte Fläche unter der ROC-Kurve

receiver operated characteristics
23
Zusammenfassung
  • Komplexe Lerner erfordern Sorgfalt und saubere
    Validierung
  • Viele Trainingsdurchgänge nötig
  • Komplexe Lerner sollten nie blind auf Daten
    angewandt werden
  • Bei kleinen Datensätzen sind komplexe Lerner oft
    nicht überlegen (auch wenn das Problem
    theoretisch nichtlinear ist)
Write a Comment
User Comments (0)
About PowerShow.com