Apprentissage par renforcement Antoine Cornu

About This Presentation
Title:

Apprentissage par renforcement Antoine Cornu

Description:

Les politiques optimales partagent la m me fonction d'utilit ... Les politiques optimales partagent aussi la m me fonction d'utilit optimale sur ... – PowerPoint PPT presentation

Number of Views:304
Avg rating:3.0/5.0
Slides: 55
Provided by: Anto179

less

Transcript and Presenter's Notes

Title: Apprentissage par renforcement Antoine Cornu


1
Apprentissage par renforcementAntoine
Cornuéjols(antoine_at_lri.fr)I.I.E.L.R.I.,
Université dOrsay
2
Plan du cours
  • 1- Introduction motivation, problèmes,
    notions et principes
  • 2- La notion d'utilité
  • 3- Apprentissage des fonctions d'utilité en
    environnement connu
  • 4- Univers inconnu méthodes de différences
    temporelles
  • Principes
  • Méthode du Q-Learning
  • Extension à plusieurs pas le TD-Learning
  • 5- La généralisation dans l'apprentissage par
    renforcement
  • 7- Exemples dapplications
  • 8- Bilan et perspectives

3
1.1 Introduction schéma général
Environnement
Action
Perception
Récompense
4
1.2 Introduction Les notations de base
  • Temps discret t
  • États st ?? S
  • Actions at ?? A(st)
  • Récompenses rt ?? R(st)
  • Lagent st ? at
  • Lenvironnement (st,at) ? st1, rt1
  • Politique ?t S ? A
  • Avec ?t(s,a ) Prob que at a si st s
  • Les transitions et récompenses ne dépendent que
    de létat et de laction précédents processus
    Markovien

?, R
5
1.2 Introduction Eléments de base
  • Politique
  • ensemble dassociations situation ? action (une
    application)
  • Une simple table ... un algorithme de
    recherche intensive
  • Eventuellement stochastique
  • Fonction de renforcement
  • Définit implicitement le but poursuivi
  • Une fonction (état, action) ?? récompense
    ????
  • Fonction dévaluation V(s) ou Q(s,a)
  • Récompense accumulée sur le long-terme
  • Modèle de lenvironnement
  • Fonctions T et R (état(t), action)
    ??(état(t1), récompense)

6
2- La notion d'utilité
  • Principe
  • Choisir une action sans avoir besoin de faire une
    exploration (simulée) en avant
  • Il faut donc disposer dune fonction dévaluation
    locale résumant une espérance de gain si lon
    choisit cette action fonction dutilité
  • Il faut apprendre cette fonction dutilité
    apprentissage par renforcement

7
2- Notion dutilité. Exemple Tic-Tac-Toe
X
X
X
X
X
X
X
X
O
O
X
X
X
X
X
O
O
O
O
X
X
O
O
O
O
O
X
O
xs coup
...
V(s1)
V(s3)
x
x
V(s2)
x
os coup
...
...
...
x
o
o
x
o
x
xs coup
x
...
...
...
...
...
os coup
La fonction dutilité une fois apprise permet de
jouer sans exploration de larbre de jeu
xs coup
x
o
x
x
o
8
2- Fonctions d'utilité V(s) et Q(s,a)
  • La valeur dun état est lespérance de gain en
    partant de cet état. Elle dépend de la politique
    de lagent
  • La valeur dune action dans un état sous la
    politique p est lespérance de gain en partant
    de cet état, en choisissant cette action et en
    suivant ensuite la politique p

9
2- Fonctions d'utilité Vp(s) et Qp (s,a)
10
2- Ordre sur les politiques et politique optimale
  • Pour les MDPs finis, ! relation dordre partiel
    sur les politiques
  • Il existe toujours au moins une politique (et
    peut-être plusieurs) meilleure ou égale à toute
    autre politique. Une telle politique est optimale
    et notée p .
  • Les politiques optimales partagent la même
    fonction dutilité optimale sur les états
  • Les politiques optimales partagent aussi la même
    fonction dutilité optimale sur les (état-action)

11
2. Utilisation avec la fonction dutilité V(s)
  • Une politique est une application ? S ?
    A
  • Valeur optimale dun état
  • La fonction de valeur optimale V est unique
  • Une politique stationnaire optimale existe

12
2. Utilisation avec la fonction dutilité
Q(s,a)
  • Fonction dévaluation daction Q?(s,a)
  • Valeur optimale dune action (dans un état)

Théorème
est une politique optimale
13
3-1. Programmation dynamique Évaluation de
politique
Évaluation de politique Pour une politique
donnée p, calculer la fonction dutilité détat
Vp(s)
Rappel
14
3-1. PD Évaluation itérative dune politique
Principe léquation de point fixe de Bellman
peut fournir en une procédure itérative
dapproximation successive de la fonction
dutilité V p.
une propagation
15
3-1. PD Algorithme dévaluation itérative dune
politique
16
4. Environnement inconnu Différences
temporelles
Soit la méthode destimation par moyennage
La moyenne des premiers k renforcements est (en
ignorant la dépendance sur )
Peut-on faire le même calcul incrémentalement ?
Oui
Règle classique damélioration
NouvelleEstimation AncienneEstimation
PasCible AncienneEstimation
17
4-1. TD learning évaluation par méthode des
différences temporelles
Évaluation de politique pour une
politique donnée p, calculer la fonction
dutilité
cible le vrai gain sur une durée t
cible une estimation du gain
18
4-1. TD learning Simple Monte Carlo
19
4-1. TD learning Simplest TD Method
On met à jour incrémentalement par
ré-estimations successives et locales
20
4-1. TD learning cf. Dynamic Programming
On calcule lespérance. Mais il faut connaître
lenvironnement a priori.
T
T
T
21
4-1. TD learning algo dévaluation par
différences temporelles
Initialisation ??? politique à évaluer V??
une fonction arbitraire dévaluation Répéter
(pour chaque pas de lépisode) a?? action
préconisée par p pour s Faire a recevoir r
voir état suivant s V(s)?? V(s) ? r ?V(s)
- V(s) s ?? s jusquà s terminal
22
3-2. PD Comment améliorer une politique
  • Relation dordre sur les politiques
  • Soient p et p deux politiques déterministes,
    tq s ? E
  • Alors la politique p est au moins aussi bonne
    que p

(1)
  • Si lon trouve une modification p de la
    politique p vérifiant linégalité (1), alors on
    obtient une meilleure politique

23
3-3. PD Amélioration de politique
Supposons fait le calcul de pour une
politique déterministe p.
Lutilité de laction a dans létat s est
Il est préférable de choisir laction a dans
létat s si
24
3-3. PD Amélioration de politique Cont.
Il suffit de faire cela pour tous les états pour
obtenir une nouvelle politique p qui est
gloutonne par rapport à Vp
  • Alors Vp?? Vp

25
3-3. PD Amélioration de politique (Cont.)
26
3-3. PD Itération de politique
E
E
A
E
A
A
Évaluation de politique
Amélioration de politique gloutonne
27
3-3. Algorithme ditération de politique
  • Garantie de convergence vers une politique
    optimale

Initialisation arbitraire de ? Faire calcul de
la fonction de valeur avec ? Amélioration de
la politique à chaque état ? ? jusquà
ce quaucune amélioration ne soit possible
28
3-3. PD Policy Iteration
29
3-3. PD Itération généralisée de politique
Generalized Policy Iteration (GPI) Toute
interaction détape dévaluation de politique et
détape damélioration de politique
indépendamment de leur granularité
Métaphore géométrique pour La convergence de GPI

30
4-1. TD learning Learning An Action-Value
Function Q(s,a)
31
4-2. TD learning Q-Learning
32
4-2. Rappel Le dilemme exploitation vs.
exploration
Quelle politique pour maximiser le gain avec 1000
tirages ?
33
4-2- Sélection daction e-gloutonne
  • Sélection daction gloutonne
  • e-gloutonne


. . . La manière la plus simple de pondérer
lexploration et lexploitation
34
4-2- Sélection daction Softmax
  • Softmax action selection methods grade action
    probs. by estimated values.
  • The most common softmax uses a Gibbs, or
    Boltzmann, distribution

computational temperature
35
4-3. Lapprentissage Q (Q-learning)
  • Idée Watkins,89 Estimer les valeurs Q
    en-ligne, en trouvant à la fois la politique et
    la fonction dévaluation daction
  • MAJ à chaque fois que laction a est prise dans
    s.
  • Théorème Si chaque action est exécutée un
    nombre infini de fois dans chaque état, les
    valeurs Q calculées convergent vers Q,
    conduisant à une politique optimale.

36
4-3. Exemple (1/4)
r(s,a) récompense immédiate
0
100
But
0
0
0
0
0
0
100
  • Rq La dernière étape assure la récompense (jeux,
    monde des blocs, etc.)
  • Tâche apprendre la meilleure stratégie

37
4-3. Exemple (2/4)
  • On définit la récompense cumulée V?(st)
  • Le problème trouver

90
100
But
0
100
90
81
V(s)V?(s) récompense cumulée optimale
38
4-3. Exemple (3/4)
  • La fonction Q est définit comme étant LA fonction
    qui résume en UN nombre toute linfo nécessaire
    sur le gain cumulé dune action a, prise dans
    létat s.

Q(s,a)
90
100
But
0
81
72
81
81
90
100
39
4-3. Exemple (4/4)
On Prend ? 1.
72
100
63
81
adroite

90
100
63
81
40
5. Apprentissage avec généralisation
  • Si lespace S (ou S x A) est trop important pour
    lutilisation dune table mémorisant les
    prédictions
  • Deux options
  • Utilisation dune technique de généralisation
    dans lespace S ou lespace S x A (e.g.
    réseau de neurones, ...)
  • Utilisation dune technique de regroupement
    détats en classes déquivalence (même prédiction
    et même action générée).

41
5. Généralisation Approximation de la fonction
V(s)
Comme avant Évaluation de politique
pour une politique donnée p, calculer la fonction
dutilité
Mais avant, les fonctions dutilité étaient
stockées dans des tables.
42
5. Généralisation Backups as Training Examples
As a training example
input
target output
43
5. Généralisation nimporte quelle méthode
inductive ?
  • En principe, oui
  • Réseaux de neurones artificiels
  • Arbres de décision
  • Méthodes de régression multivariées
  • etc.
  • Mais lApp. par R. a des exigences particulières
  • Apprendre tout en agissant
  • Sadapter à des mondes non stationnaires
  • Autre ?

44
6. Some Notable RL Applications
  • TD-Gammon Tesauro
  • worlds best backgammon program
  • Elevator Control Crites Barto
  • high performance down-peak elevator controller
  • Inventory Management Van Roy, Bertsekas,
    LeeTsitsiklis
  • 1015 improvement over industry standard methods
  • Dynamic Channel Assignment Singh Bertsekas,
    Nie Haykin
  • high performance assignment of radio channels to
    mobile telephone calls

45
6. TD-Gammon
Tesauro, 19921995
Action selection by 23 ply search
Value
TD error
Start with a random network Play very many games
against self Learn a value function from this
simulated experience
This produces arguably the best player in the
world
46
6. Réalisations TD Gammon
Tesauro 1992, 1994, 1995, ...
  • White has just rolled a 5 and a 2 so can move one
    of his pieces 5 and one (possibly the same) 2
    steps
  • Objective is to advance all pieces to points
    19-24
  • Hitting
  • Doubling
  • 30 pieces, 24 locations implies enormous number
    of configurations
  • Effective branching factor of 400

47
6. Réalisations A Few Details
  • Reward 0 at all times except those in which the
    game is won, when it is 1
  • Episodic (game episode), undiscounted
  • Gradient descent TD(l) with a multi-layer neural
    network
  • weights initialized to small random numbers
  • backpropagation of TD error
  • four input units for each point unary encoding
    of number of white pieces, plus other features
  • Use of afterstates
  • Learning during self-play

48
6. Réalisations Multi-layer Neural Network
49
6. Réalisations Summary of TD-Gammon Results
50
7. Bilan trois idées principales
  1. La passage par des fonctions dutilité
  2. La rétro-propagation de ces valeurs le long de
    trajectoires réelles ou simulées
  3. Itération généralisée de politique (i) calculer
    continuellement une estimation de la fonction
    dutilité optimale et (ii) chercher une politique
    optimale grâce à cette estimation, qui, en
    retour, sadapte en conséquence

51
7. Bilan Frontier Dimensions
  • Prove convergence for bootstrapping control
    methods.
  • Trajectory sampling
  • Non-Markov case
  • Partially Observable MDPs (POMDPs)
  • Bayesian approach belief states
  • construct state from sequence of observations
  • Try to do the best you can with non-Markov states
  • Modularity and hierarchies
  • Learning and planning at several different levels
  • Theory of options

52
7. Bilan More Frontier Dimensions
  • Using more structure
  • factored state spaces dynamic Bayes nets
  • factored action spaces

53
7. Bilan Still More Frontier Dimensions
  • Incorporating prior knowledge
  • advice and hints
  • trainers and teachers
  • shaping
  • Lyapunov functions
  • etc.

54
Sources documentaires
  • Ouvrages / articles
  • Sutton Barto (98) Reinforcement Learning an
    introduction. MIT Press, 1998.
  • Kaelbling L.P. (93) Learning in embedded
    systems. MIT Press, 1993.
  • Kaelbling, Littman Moore (96) Reinforcement
    learning A survey. Journal of Artificial
    Intelligence Research, 4237-285.
  • Sites web
  • http//http//www-anw.cs.umass.edu/rich/RL-FAQ.ht
    ml (FAQ maintenue par Rich Sutton et point
    dentrée pour de nombreux sites)
Write a Comment
User Comments (0)