Reinforcement Learning - PowerPoint PPT Presentation

Loading...

PPT – Reinforcement Learning PowerPoint presentation | free to download - id: 74c583-YWE4Y



Loading


The Adobe Flash plugin is needed to view this content

Get the plugin now

View by Category
About This Presentation
Title:

Reinforcement Learning

Description:

Reinforcement Learning Das Reinforcement Learning -Problem Alexander Schmid Vortragsgliederung 1. Einleitung 2. Das Labyrinthbeispiel 3. – PowerPoint PPT presentation

Number of Views:23
Avg rating:3.0/5.0
Slides: 28
Provided by: kjhj
Learn more at: http://www-staff.informatik.uni-frankfurt.de
Category:

less

Write a Comment
User Comments (0)
Transcript and Presenter's Notes

Title: Reinforcement Learning


1
Reinforcement Learning
  • Das Reinforcement Learning-Problem
  • Alexander Schmid

2
Vortragsgliederung
  • 1. Einleitung
  • 2. Das Labyrinthbeispiel
  • 3. Der Agent und die Umgebung
  • 4. Die Policy
  • 5. Rewards und Returns
  • 6. Markov-Eigenschaft und MDP
  • 7. Value Functions
  • 8. Fazit und Ausblick
  • 9. Literaturreferenzen

3
1. Einleitung Was ist Reinforcement Learning
  • Reinforcement Learning ist eine spezielle Art
    von Lernverfahren
  • maschinelle Lernverfahren
  • Ein Künstliches System lernt (z.b. ein Roboter
    oder eine Maschine)
  • überwachtes Lernen
  • Ein Lehrer (übergibt die Lehrvorgaben)
  • Künstliches System orientiert sich an
    Lehrvorgaben
  • Reinforcement Learning
  • Es gibt keinen Lehrer
  • Der Ursprung liegt in der Natur

4
1. Einleitung Was ist Reinforcement Learning
  • Beispiel Kleinkind
  • Offensichtlich ist kein Lehrer notwendig
  • Das Kind kann seine Umgebung verändern
  • Das Kind kann die Veränderungen wahrnehmen
    (Ursache und Wirkung)
  • Erfahrungen helfen dem Kind Ziele zu erreichen
  • Merkmale des Reinforcement Learnings
  • Interaktion mit der Umgebung
  • Sammeln und Anwenden von Erfahrungen
  • trial-and-error-Prinzip
  • Belohnungen beim Erreichen von Zielen

5
1. Einleitung Das Reinforcement
Learning-Problem
  • Ziel Formales Modell für Reinforcement Learning
    definieren
  • 1. Ansatz
  • Idee Verallgemeinerung von konkreten Anwendungen
  • Ansatz nicht brauchbar, da zu viele
    unterschiedliche Anwendungen
  • Beispiel Fertigungsroboter und Sortiermaschine
  • 2. Ansatz
  • Idee Beschreibung des Problems anstelle der
    Lösung
  • Genauer Beschreibung der einzelnen Elemente
  • Beispiele unter diesem Ansatz mit einander
    vereinbar

6
2. Das Labyrinthbeispiel
  • Ein Labyrinth und ein Roboter
  • Lernziel Roboter soll so schnell wie möglich
    zum Ausgang finden

Eingang
Roboter
Ausgang
Ausgang
7
3. Der Agent und die Umgebung
  • Das künstliche System wir formal als der
    Agent bezeichnet
  • Der Agent
  • ...ist immer der Teil der lernt
  • muss zwingend dynamisch bzw. veränderbar sein
  • ...muss mit seiner Umgebung interagieren können
  • Die Umgebung
  • ist das Gegenstück zum Agenten
  • ist statisch (nicht veränderbar)
  • beinhaltet alles, was nicht explizit zum Agenten
    gehört

8
3. Der Agent und die Umgebung
  • Aktionen
  • können vom Agenten ausgeführt werden
  • low-level- oder high-level-Entscheidungen
    (Beispiel Roboterarm)
  • Zustände
  • beschreiben den Momentanzustand der Umgebung
  • können komplizierte Formen annehmen (Beispiel
    Objekterkennung)
  • Zustände und Aktionen liegen kodiert vor

9
3. Der Agent und die Umgebung (Interaktion)
Agent
Zustand
Reward
Aktion
Umgebung
  • Agent führt Aktion aus (Zeitpunkt t)
  • Die Umgebung ändert ihren Zustand (Konsequenz
    aus Aktion)
  • Neuer Zeitschritt beginnt
  • Agent bekommt (neuen) Zustand
  • Agent bekommt Reward (Belohnung)

10
3. Der Agent und die Umgebung
  • Agent und Umgebung am Labyrinthbeispiel
  • Die Umgebung ist das Labyrinth (inklusive Ein-
    und Ausgängen)
  • Der Agent ist der Roboter (bzw. sein Rechenwerk)

Agent (Roboter)
11
3. Der Agent und die Umgebung
  • Aktionen und Zustände am Labyrinthbeispiel

12
4. Die Policy
  • Die Policy
  • ist das Herzstück des Agenten (trifft die
    Entscheidungen)
  • ist eine Abbildung von einem Zustand auf eine
    Aktion
  • muss veränderbar sein (Lernvorgang)
  • wird mit pt notiert (Definition)
  • Das Exploitation-Exploration-Problem
  • Erinnerung trial-and-error-Prinzip
  • greedy Policy (gierige Policy)

13
4. Die Policy
  • Exploitation-Exploration-Problem am
    Labyrinthbeispiel

14
4. Die Policy
  • Lösung des Exploitation-Exploration-Problems
  • Einbauen von Exploration-Entscheidungen
  • Verfeinerung des Policy-Begriffs
    (Wahrscheinlichkeitsverteilung)
  • Formal pt(s,a)
  • Beispiel Zustandsgraph

s
a
b
c
x
y
z
15
5. Rewards und Returns
  • Formulierung eines Ziels für den Agenten
  • Definition rt
  • Rewards liegen in der Umgebung
  • Modellierung eines komplexen Ziels mit Hilfe von
    Rewards
  • Beispiel Roboter lernt laufen
  • Rewards können auch falsch gesetzt werden
  • Beispiel Schach

16
5. Rewards und Returns
  • Rewards im Labyrinthbeispiel

-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
80
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
80
-1
-1
17
5. Rewards und Returns
  • Returns sind Summen von Rewards
  • Definition

  • Problem bei kontinuierlichen Prozessen
  • Lösung Abschwächen der Summenglieder durch
    Faktor
  • Definition

  • mit
    0 lt ? lt 1

18
5. Rewards und Returns
  • Returns am Labyrinthbeispiel

-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1-1-1-1-1-1-1-1-180 71
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1-1-1-180 76
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
80
80
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
19
6. Markov-Eigenschaft und MDP
  • Informationsgehalt der Zustände
  • Beispiel Schach
  • Keine Informationen voriger Zustände nötig
    (Markov-Eigenschaft)
  • mathematische Formulierung der Markov
    Eigenschaft
  • Zustände ohne Markov-Eigenschaft
  • Zustände mit Markov-Eigenschaft
  • Annäherungen an die Markov-Eigenschaft

20
6. Markov-Eigenschaft und MDP
  • Markov-Decision-Process (MDP)
  • Alle Zustände besitzen die Markov-Eigenschaft
  • Aussagen über Reinforcement Learning gelten
    nur für MDPs
  • Mathematischen Eigenschaften des MDP
  • Übergangswahrscheinlichkeit
  • Folgezustand für Aktion nicht zwingend eindeutig

21
6. Markov-Eigenschaft und MDP
  • Beispiel für Übergangswahrscheinlichkeit
  • Erweiterter Zustandsgraph
  • Erwarteter Reward

s
a
b
w
x
y
z
22
7. Value Functions
  • Value Functions bewerten Zustände
  • Definition
  • Die Value Function repräsentiert den erwarteten
    Return
  • Die Value Functions sind von der Policy abhängig

23
7. Value Functions
  • Auflösen der Formel

s
a1
a2
s1
s2
s3
24
7. Value Functions
  • Action-Value Functions
  • Bewerten ein Zustand-Aktions-Paar
  • Definition
  • Optimale Value Functions
  • Value Functions konvergieren gegen optimale
    Value Functions (ausgelernt)
  • Policies mit optimalen Value Functions sind
    optimale Policies
  • Strategie Bei optimalen Value Functions eine
    greedy Policy verwenden

25
7. Value Functions
  • Optimale Value Function am Labyrinthbeispiel

-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
22 Schritte Return von 59
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
80
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
80
-1
-1
26
8. Fazit und Ausblick
  • Zusammenfassung
  • Ursprung und Allgemeine Beschreibung von
    Reinforcement Learning
  • Formales Modell für Reinforcement Learning (allen
    wichtigen Elemente)
  • Anwendungsbeispiele
  • Zusammenfassung
  • Modell dient als Rahmen für die Entwicklung von
    Anwendungen
  • Beispiele Monte Carlo Methoden, Dynamisches
    Programmieren, Temporal Difference Learning

27
9. Literaturreferenzen
  • 1 Richard S. Sutton and Andrew G. Barto,
    Reinforcement Learning An Introduction, Chapter
    1 - Introduction, MIT Press, Cambridge, MA, 1998
  • 2 Richard S. Sutton and Andrew G. Barto,
    Reinforcement Learning An Introduction, Chapter
    3 - The Reinforcement Learning Problem, MIT
    Press, Cambridge, MA, 1998
About PowerShow.com