Agents adaptatifs dans les jeux de stratgie modernes : une approche fonde sur lapprentissage par ren - PowerPoint PPT Presentation

1 / 41

About This Presentation

Title:

Agents adaptatifs dans les jeux de stratgie modernes : une approche fonde sur lapprentissage par ren

Description:

Jouer initialement contre un adversaire autre que soi-m me. 1/4/10. 11. STRADA appliqu e ... Jouer initialement contre un adversaire autre que soi-m me ... – PowerPoint PPT presentation

Number of Views:90

Avg rating:3.0/5.0

Slides: 42

Provided by: vincentc

Category:

more less

Transcript and Presenter's Notes

Title: Agents adaptatifs dans les jeux de stratgie modernes : une approche fonde sur lapprentissage par ren

1
Agents adaptatifs dans les jeux de stratégie
modernes une approche fondée sur
lapprentissage par renforcement
Thèse de Doctorat de lUniversité Paris 6

Charles A. G. MADEIRA
Encadrant Vincent CORRUBLE,
Sous la direction de Jean-Gabriel GANASCIA

2
Les jeux de stratégie modernes
Act of War (Eugen Systems / Atari)
Age of Empires (Ensemble Studios / Microsoft)
Imperial Glory (Pyro Studios / Eidos Interactive)
Battleground (John Tiller Games / Talonsoft)
3
Contexte et problématique

Intelligence Artificielle permet aux joueurs de
jouer lorsque
il ny a pas dautres joueurs disponibles ?
Adversaires artificiels
Ils ne veulent contrôler que partiellement leurs
unités ? Assistants
Cette IA doit offrir un comportement crédible
afin de rendre les parties amusantes et
intéressantes Nareyek 2002, 2004
Adaptation aux nouvelles situations
Proposition dexpériences nouvelles aux joueurs
Cependant, les systèmes à base de règles dominent
le développement industriel Rabin 2002, 2003,
2006
Raisonnement figé et programmation difficile
Des joueurs expérimentés peuvent facilement
repérer la stratégie adoptée

4
Solutions alternatives pour les jeux de stratégie
modernes

Apprentissage automatique
Concevoir automatiquement des stratégies
efficaces
Utile dans le cadre des problèmes où
des stratégies efficaces sont
inconnues a priori
difficilement automatisables
lenvironnement évolue de manière incertaine
Lapprentissage en ligne est bien adapté aux jeux
Il ne requiert pas de superviseur
Il repose sur le principe dessai/erreur
Il sappuie sur une estimation anticipée dun
renforcement

5
Apprentissage par renforcement (AR) Samuel
1959Sutton et Barto 1998

Lagent apprend à se rapprocher dune stratégie
optimale par linteraction avec lenvironnement
Les décisions sont prises séquentiellement
Lenvironnement peut être stochastique et inconnu
Très bons résultats pratiques ont été obtenus sur
des problèmes complexes
TD-Gammon est devenu le meilleur joueur de
Backgammon au monde Tesauro 2002
Mais nous nous intéressons à des problèmes
beaucoup plus complexes
Nous avons le jeu commercial Battleground comme
cas détude

6
Cas détude le jeu commercial Battleground
Chariots dapprovisionnement
Cavaleries françaises
Infanteries françaises
Remblai
Compagnies russes
Infanteries russes
Artilleries françaises
Forêt
Objectifs à conquérir ou à défendre
Scène saisie
7
Difficultés pour appliquer lAR aux jeux modernes
Backgammon
Battleground (John Tiller Games / Talonsoft)

Comment représenter létat de lenvironnement si
lon ne peut pas le faire dans son intégralité ?
Comment choisir des actions cohérentes pour un
ensemble dunités ?

8
Voie de recherche envisagée

Approche distribuée multi-agents Weiss 2000
Les capacités de perception et de prise de
décisions sont distribuées
Cependant, les méthodes classiques dAR se
transposent mal
Lenvironnement de chaque unité devient
non-Markovien
La convergence des algorithmes dAR nest plus
assurée
Un effort collectif est nécessaire pour
construire des solutions globalement cohérentes
et optimales
Problème de la coordination multi-agents Malone
et Crowston 1994 Boutilier 1996

9
Apprentissage de la coordination par renforcement

Approches classées selon trois groupes principaux

Processus de décision Émergence de
Emploi de
Markoviens multi-agents la coordination
connaissances Littman
1994, 2001 Crites et Barto
1998 Dietterich 2000
Uther et Veloso 1997 Sen
et Weiss 2000 Barto et Mahadevan
2003 Hu et Wellman 1998, 2003
Wolpert et Tumer 1999 Boutilier
et al. 2000 Claus et Boutilier 1998
Riedmiller et Merke 2002
Guestrin et al. 2003
10
Lapproche STRADA Madeira et al. 2004, 2005,
2006

Décomposition du processus de prise de décisions
Les jeux de stratégie modernes offrent une
organisation en groupes
Structure hiérarchique de prise de décisions
Représentation adéquate des espaces détats et
dactions
Les jeux de stratégie modernes utilisent une
carte géographique
Adapter la granularité à laide dun algorithme
danalyse automatique du terrain
Analyse de terrain Rabin 2003Grindle et al.
2004
Raisonnement spatial qualitatif Cohn et Hazarika
2001
Généralisation de la stratégie
Approcher la stratégie à laide dapproximateurs
de fonction
Définition de bons scénarios dapprentissage
Apprendre par niveau de la hiérarchie
Jouer initialement contre un adversaire autre que
soi-même

11
STRADA appliquée à Battleground

Décomposition du processus de prise de décisions
Les jeux de stratégie modernes offrent une
organisation en groupes
Structure hiérarchique de prise de décisions
Représentation adéquate des espaces détats et
dactions
Les jeux de stratégie modernes utilisent une
carte géographique
Adapter la granularité à laide dun algorithme
danalyse automatique du terrain
Généralisation de la stratégie
Approcher la stratégie à laide dapproximateurs
de fonction
Définition de bons scénarios dapprentissage
Apprendre par niveau de la hiérarchie
Jouer initialement contre un adversaire autre que
soi-même

12
La hiérarchie de contrôle et de commandements
Général dArmée
Objectif à long terme (Stratégie)
Ordre
Situation

Général de Corps
GC
Situation
Ordre

Général de Division
GD
Ordre
Ordre
Situation

Général de Brigade
Général de Brigade
Situation
Ordre
Ordre
Situation
Groupe de combattants
Groupe de combattants
Action Spécifique (Tactique)

Batterie dartillerie
Régiment de cavalerie
Bataillon dinfanterie
Batterie dartillerie
Régiment de cavalerie
Bataillon dinfanterie
Actions
Perceptions
Actions
Perceptions
13
STRADA appliquée à Battleground

Décomposition du processus de prise de décisions
Les jeux de stratégie modernes offrent une
organisation en groupes
Structure hiérarchique de prise de décisions
Représentation adéquate des espaces détats et
dactions
Les jeux de stratégie modernes utilisent une
carte géographique
Adapter la granularité à laide dun algorithme
danalyse automatique du terrain
Généralisation de la stratégie
Approcher la stratégie à laide dapproximateurs
de fonction
Définition de bons scénarios dapprentissage
Apprendre par niveau de la hiérarchie
Jouer initialement contre un adversaire autre que
soi-même

14
Abstraction de lespace dactions

Définition des ordres de haut niveau
Attaque extrême, attaque, arrêt, défense, défense
extrême
Identification des points tactiques sur la carte
Lespace dactions stratégiques A de lagent
A ordres de haut niveau X points tactiques

10180
33
15
Abstraction de lespace détats

Situation du groupe dunités du 1er niveau de la
hiérarchie
Centre de masses, force, fatigue, qualité,
mobilité
Situation des unités sur les zones du 1er niveau
de la hiérarchie
Force et fatigue par camp
Identification des zones stratégiques sur la
carte
Lespace détats S de lenvironnement
S centre de masses X force X fatigue X qualité
X mobilité X force par zone et camp X fatigue par
zone et camp

1
3
102000
1082
5
4
6
2
16
Abstraction de lespace détats

Situation du groupe dunités du 2ème niveau de la
hiérarchie
Ordre reçu, centre de masses, force, fatigue,
qualité, mobilité
Situation des unités sur les zones du 2ème niveau
de la hiérarchie
Force et fatigue par camp
Identification des zones stratégiques sur la
carte
Lespace détats S de lenvironnement
S ordre reçu X centre de masses X force X
fatigue X qualité X mobilité X force par zone et
camp X fatigue par zone et camp

C
1
A
3
F
5
D
E
B
J
I
4
M
K
6
G
2
L
H
17
STRADA appliquée à Battleground

Décomposition du processus de prise de décisions
Les jeux de stratégie modernes offrent une
organisation en groupes
Structure hiérarchique de prise de décisions
Représentation adéquate des espaces détats et
dactions
Les jeux de stratégie modernes utilisent une
carte géographique
Adapter la granularité à laide dun algorithme
danalyse automatique du terrain
Généralisation de la stratégie
Approcher la stratégie à laide dapproximateurs
de fonction
Définition de bons scénarios dapprentissage
Apprendre par niveau de la hiérarchie
Jouer initialement contre un adversaire autre que
soi-même

18
Approximateurs de fonction

Réseau de neurones Réseaux de
neurones CMAC Albus 1975
(1)
(2)
(3)

s
s
Q(s,a1)
Q(s,a1)
Q(s,a1)
s
s
Q(s,a2)
Q(s,a2)

s
Q(s,a2)
Q(s,an)

s
Q(s,an)
s
Q(s,an)
19
STRADA appliquée à Battleground

Décomposition du processus de prise de décisions
Les jeux de stratégie modernes offrent une
organisation en groupes
Structure hiérarchique de prise de décisions
Représentation adéquate des espaces détats et
dactions
Les jeux de stratégie modernes utilisent une
carte géographique
Adapter la granularité à laide dun algorithme
danalyse automatique du terrain
Généralisation de la stratégie
Approcher la stratégie à laide dapproximateurs
de fonction
Définition de bons scénarios dapprentissage
Apprendre par niveau de la hiérarchie
Jouer initialement contre un adversaire autre que
soi-même

20
Mécanisme damorçage
vs.
Armée contrôlée par lIA apprenante et par lIA
commerciale
Armée contrôlée par lIA commerciale
GA
Général dArmée
GA

Général de Corps dArmée
GCA
GCA
GCA
GCA

GD
GD
Général de Division
GD
GD
GD
GD

GB
GB
Général de Brigade
GB
GB
GB
GB

GC
GC
Groupes de Combattants
GC
GC
21
Démarche expérimentale

Évaluer lapproche STRADA sur le jeu commercial
Battleground
Comparer les performances des agents STRADA avec
celles dautres modèles dagents

22
Expérimentations avec Battleground
52 x 42

1ère phase
1er niveau de la hiérarchie
Renforcement global
Sans communication entre les agents
2ème phase
2ème niveau de la hiérarchie
Renforcement global, local et combiné
Sans communication entre les agents
3ème phase
1er niveau de la hiérarchie
Renforcement global et local
Communication simple entre les agents

35 x 20
GA

GCA
GCA

GD
GD
GD
GD

GB
GB
GB
GB

GC
GC
23
Expérimentations avec Battleground
52 x 42

1ère phase
1er niveau de la hiérarchie
Renforcement global
Sans communication entre les agents
2ème phase
2ème niveau de la hiérarchie
Renforcement global, local et combiné
Sans communication entre les agents
3ème phase
1er niveau de la hiérarchie
Renforcement global et local
Communication simple entre les agents

35 x 20
GA

GCA
GCA
X

GD
GD
GD
GD

GB
GB
GB
GB

GC
GC
24
1ère phase dexpérimentations

Schéma de la prise de décisions
Renforcement immédiat global
Renforcement cumulatif

STRADA
Empereur Napoléon
Empereur Napoléon
Empereur Napoléon
Empereur Napoléon
Aléatoire
Commercial
Ordre
Ordre
Situation
Ordre
Situation
Situation
Humain
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde
Impériale)
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde
Impériale)
Maréchal Mortier (Garde
Impériale)
Maréchal Mortier (Garde
Impériale)
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Les unités subordonnées (lIA damorçage)
25
Scénario 1 (carte 35 x 20)
3
1
5
300
300
600
4
6
2

La représentation de létat s (32 variables)
Lespace dactions A pour chaque agent subordonné
(33 actions)

Q(s,a1)
s
Q(s,a2)

Q(s,a33)
26
Résultats expérimentaux (scénario 1)
27
Scénario 2 (carte 52 x 42)
6
1
3
7
100
4
9
1000
200
200
8
10
5
11
2

La représentation de létat s (64 variables)
Lespace dactions A pour chaque agent subordonné
(49 actions)

Q(s,a1)
s
Q(s,a2)

Q(s,a49)
28
Résultats expérimentaux (scénario 2)
1300
800
29
Expérimentations avec Battleground

1ère phase
1er niveau de la hiérarchie
Renforcement global
Sans communication entre les agents
2ème phase
2ème niveau de la hiérarchie
Renforcement global, local et combiné
Sans communication entre les agents
3ème phase
1er niveau de la hiérarchie
Renforcement global et local
Communication simple entre les agents

35 x 20
GA
GCA
GCA
X
GD
GD
GD
GD
X

GB
GB

GC
GC
30
2ème phase dexpérimentations
STRADA
Aléatoire
Commercial

Schéma de la prise de décisions
Renforcement immédiat
Score global (1)
Score local
objectifs conquis (2)
Ordres accomplis (3)
Score combiné (1 2 3)

Humain
Empereur Napoléon (stratégie apprise
dans la 1ère phase)
Ordre
Ordre
Situation
Ordre
Situation
Situation
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde Impériale)
Maréchal Mortier (Garde Impériale)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde Impériale)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde Impériale)
Ordre
Ordre
Ordre
Situation
Ordre
Situation
Ordre
Ordre
Situation
Situation
Situation
Situation
Général de la 1ère Division (1er Corps)
Général de la Nème Division (1er Corps)
Général de la 1ère Division (3ème Corps)
Général de la Nème Division (3ème Corps)
Général de la 1ère Division (Garde Imp.)
Général de la Nème Division (Garde Imp.)
Général de la 1ère Division (1er Corps)
Général de la Nème Division (1er Corps)
Général de la 1ère Division (3ème Corps)
Général de la Nème Division (3ème Corps)
Général de la 1ère Division (Garde Imp.)
Général de la Nème Division (Garde Imp.)
Général de la 1ère Division (1er Corps)
Général de la Nème Division (1er Corps)
Général de la 1ère Division (3ème Corps)
Général de la Nème Division (3ème Corps)
Général de la 1ère Division (Garde Imp.)
Général de la Nème Division (Garde Imp.)
Général de la 1ère Division (1er Corps)
Général de la Nème Division (1er Corps)
Général de la 1ère Division (3ème Corps)
Général de la Nème Division (3ème Corps)
Général de la 1ère Division (Garde Imp.)
Général de la Nème Division (Garde Imp.)

Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Les unités subordonnées (lIA damorçage)
31
Scénario 1 (carte 35 x 20)
C
A
D
E
B
F
J
300
300
I
M
K
600
G
L
H

La représentation de létat s (35 variables)
Lespace dactions A pour chaque agent subordonné
(37 actions)

Q(s,a1)
s
Q(s,a2)

Q(s,a37)
32
Résultats expérimentaux (Scénario 1 - attaque)
33
Expérimentations avec Battleground

1ère phase
1er niveau de la hiérarchie
Renforcement global
Sans communication entre les agents
2ème phase
2ème niveau de la hiérarchie
Renforcement global, local et combiné
Sans communication entre les agents
3ème phase
1er niveau de la hiérarchie
Renforcement global et local
Communication simple entre les agents

35 x 20
GA
GCA
GCA

GD
GD

GB
GB

GC
GC
34
3ème phase dexpérimentations

Schéma de la prise de décisions
Renforcement immédiat
Score global
Score local (objectifs conquis)
Communication de laction exécuté par les
partenaires dans le tour précédent

STRADA
Aléatoire
Empereur Napoléon
Empereur Napoléon
Empereur Napoléon
Empereur Napoléon
Commercial
Humain
Ordre
Ordre
Situation
Ordre
Situation
Situation
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde
Impériale)
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde
Impériale)
Maréchal Mortier (Garde
Impériale)
Maréchal Mortier (Garde
Impériale)
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Les unités subordonnées (lIA damorçage)
35
Scénario 1 (carte 35 x 20)
3
1
5
300
300
600
4
6
2

La représentation de létat s (38 variables)
Lespace dactions A pour chaque agent subordonné
(33 actions)

Q(s,a1)
s
Q(s,a2)

Q(s,a33)
36
Résultats expérimentaux (Scénario 1 - attaque)
37
Résultats expérimentaux (Scénario 1 - défense)
38
Conclusions expérimentales

De très bons résultats ont été obtenus
STRADA a largement dépassée les performances du
système commercial en réapprenant juste une
partie de la stratégie
Quelques milliers dépisodes dapprentissage ont
été suffisants
Le renforcement global est la clé pour le 1er
niveau de la hiérarchie
Un renforcement combiné est nécessaire à partir
du 2ème niveau de la hiérarchie
La communication permet un apprentissage plus
stable
On peut approfondir évaluation de STRADA afin
dobtenir des résultats plus performants
Il faut une combinaison adéquate des différents
types de renforcement
Il faut une stratégie efficace pour la
coordination entre les agents

39
Conclusions

Nous avons conçu STRADA pour la génération
automatique de stratégies dans le cadre des jeux
de stratégie modernes
Décomposition hiérarchique de la prise de
décisions
Représentation adéquate des espaces détats et
dactions
Généralisation de la stratégie
Amorçage du processus dapprentissage
Lefficacité de STRADA et la cohérence des
représentations générées ont été évaluées sur le
jeu Battleground
Plusieurs versions des agents apprenants ont été
expérimentées
La généralité de lapproche a été testée sur deux
scénarios de jeu
Trois modèles dagents ont été utilisés pour
comparer les performances
Les résultats obtenus sont tout à fait
encourageants

40
Perspectives futures (appliquées aux jeux)

Trouver un bon compromis pour la combinaison des
différents types de renforcement
Amélioration des stratégies apprises en jouant
contre
Les agents adversaires STRADA
Des joueurs humains experts
Adaptation de STRADA aux jeux de stratégie en
temps réel
Les joueurs sont-ils amusés davantage par des
agents STRADA ? Demasi et Cruz 2002Andrade et
al. 2005, 2006

41
Perspectives futures (théoriques)

Automatisation complète de la procédure
dabstraction
Représentation de lespace dactions
Ordres de haut niveau Corruble, Madeira et
Ramalho 2002
Représentation de lespace détats
Variables décrivant le résumé de létat des
groupes dagents Blum et Langley
1997Saitta et Zucker 2001Li, Walsh et Littman
2006
Amélioration de la coordination entre les agents
Guestrin, Lagoudakis et
Parr 2002Chalkiadakis et Boutilier 2003Sigaud
2004
Généralisation de stratégies entre différents
scénarios de jeu Guestrin et al. 2003