Agents adaptatifs dans les jeux de stratgie modernes : une approche fonde sur lapprentissage par ren - PowerPoint PPT Presentation

1 / 41
About This Presentation
Title:

Agents adaptatifs dans les jeux de stratgie modernes : une approche fonde sur lapprentissage par ren

Description:

Jouer initialement contre un adversaire autre que soi-m me. 1/4/10. 11. STRADA appliqu e ... Jouer initialement contre un adversaire autre que soi-m me ... – PowerPoint PPT presentation

Number of Views:90
Avg rating:3.0/5.0
Slides: 42
Provided by: vincentc
Category:

less

Transcript and Presenter's Notes

Title: Agents adaptatifs dans les jeux de stratgie modernes : une approche fonde sur lapprentissage par ren


1
Agents adaptatifs dans les jeux de stratégie
modernes une approche fondée sur
lapprentissage par renforcement
Thèse de Doctorat de lUniversité Paris 6
  • Charles A. G. MADEIRA
  • Encadrant Vincent CORRUBLE,
  • Sous la direction de Jean-Gabriel GANASCIA

2
Les jeux de stratégie modernes
Act of War (Eugen Systems / Atari)
Age of Empires (Ensemble Studios / Microsoft)
Imperial Glory (Pyro Studios / Eidos Interactive)
Battleground (John Tiller Games / Talonsoft)
3
Contexte et problématique
  • Intelligence Artificielle permet aux joueurs de
    jouer lorsque 
  • il ny a pas dautres joueurs disponibles ?
    Adversaires artificiels
  • Ils ne veulent contrôler que partiellement leurs
    unités ? Assistants
  • Cette IA doit offrir un comportement crédible
    afin de rendre les parties amusantes et
    intéressantes Nareyek 2002, 2004
  • Adaptation aux nouvelles situations
  • Proposition dexpériences nouvelles aux joueurs
  • Cependant, les systèmes à base de règles dominent
    le développement industriel Rabin 2002, 2003,
    2006
  • Raisonnement figé et programmation difficile
  • Des joueurs expérimentés peuvent facilement
    repérer la stratégie adoptée

4
Solutions alternatives pour les jeux de stratégie
modernes
  • Apprentissage automatique
  • Concevoir automatiquement des stratégies
    efficaces
  • Utile dans le cadre des problèmes où
  • des stratégies efficaces sont
  • inconnues a priori
  • difficilement automatisables
  • lenvironnement évolue de manière incertaine
  • Lapprentissage en ligne est bien adapté aux jeux
  • Il ne requiert pas de superviseur
  • Il repose sur le principe dessai/erreur
  • Il sappuie sur une estimation anticipée dun
    renforcement

5
Apprentissage par renforcement (AR) Samuel
1959Sutton et Barto 1998
  • Lagent apprend à se rapprocher dune stratégie
    optimale par linteraction avec lenvironnement
  • Les décisions sont prises séquentiellement
  • Lenvironnement peut être stochastique et inconnu
  • Très bons résultats pratiques ont été obtenus sur
    des problèmes complexes
  • TD-Gammon est devenu le meilleur joueur de
    Backgammon au monde Tesauro 2002
  • Mais nous nous intéressons à des problèmes
    beaucoup plus complexes
  • Nous avons le jeu commercial Battleground comme
    cas détude

6
Cas détude le jeu commercial Battleground
Chariots dapprovisionnement
Cavaleries françaises
Infanteries françaises
Remblai
Compagnies russes
Infanteries russes
Artilleries françaises
Forêt
Objectifs à conquérir ou à défendre
Scène saisie
7
Difficultés pour appliquer lAR aux jeux modernes
Backgammon
Battleground (John Tiller Games / Talonsoft)
  • Comment représenter létat de lenvironnement si
    lon ne peut pas le faire dans son intégralité ?
  • Comment choisir des actions cohérentes pour un
    ensemble dunités ?

8
Voie de recherche envisagée
  • Approche distribuée multi-agents Weiss 2000
  • Les capacités de perception et de prise de
    décisions sont distribuées
  • Cependant, les méthodes classiques dAR se
    transposent mal
  • Lenvironnement de chaque unité devient
    non-Markovien
  • La convergence des algorithmes dAR nest plus
    assurée
  • Un effort collectif est nécessaire pour
    construire des solutions globalement cohérentes
    et optimales
  • Problème de la coordination multi-agents Malone
    et Crowston 1994 Boutilier 1996

9
Apprentissage de la coordination par renforcement
  • Approches classées selon trois groupes principaux

Processus de décision Émergence de
Emploi de
Markoviens multi-agents la coordination
connaissances Littman
1994, 2001 Crites et Barto
1998 Dietterich 2000
Uther et Veloso 1997 Sen
et Weiss 2000 Barto et Mahadevan
2003 Hu et Wellman 1998, 2003
Wolpert et Tumer 1999 Boutilier
et al. 2000 Claus et Boutilier 1998
Riedmiller et Merke 2002
Guestrin et al. 2003
10
Lapproche STRADA Madeira et al. 2004, 2005,
2006
  • Décomposition du processus de prise de décisions
  • Les jeux de stratégie modernes offrent une
    organisation en groupes
  • Structure hiérarchique de prise de décisions
  • Représentation adéquate des espaces détats et
    dactions
  • Les jeux de stratégie modernes utilisent une
    carte géographique
  • Adapter la granularité à laide dun algorithme
    danalyse automatique du terrain
  • Analyse de terrain Rabin 2003Grindle et al.
    2004
  • Raisonnement spatial qualitatif Cohn et Hazarika
    2001
  • Généralisation de la stratégie
  • Approcher la stratégie à laide dapproximateurs
    de fonction
  • Définition de bons scénarios dapprentissage
  • Apprendre par niveau de la hiérarchie
  • Jouer initialement contre un adversaire autre que
    soi-même

11
STRADA appliquée à Battleground
  • Décomposition du processus de prise de décisions
  • Les jeux de stratégie modernes offrent une
    organisation en groupes
  • Structure hiérarchique de prise de décisions
  • Représentation adéquate des espaces détats et
    dactions
  • Les jeux de stratégie modernes utilisent une
    carte géographique
  • Adapter la granularité à laide dun algorithme
    danalyse automatique du terrain
  • Généralisation de la stratégie
  • Approcher la stratégie à laide dapproximateurs
    de fonction
  • Définition de bons scénarios dapprentissage
  • Apprendre par niveau de la hiérarchie
  • Jouer initialement contre un adversaire autre que
    soi-même

12
La hiérarchie de contrôle et de commandements
Général dArmée
Objectif à long terme (Stratégie)
Ordre
Situation

Général de Corps
GC
Situation
Ordre

Général de Division
GD
Ordre
Ordre
Situation

Général de Brigade
Général de Brigade
Situation
Ordre
Ordre
Situation
Groupe de combattants
Groupe de combattants
Action Spécifique (Tactique)

Batterie dartillerie
Régiment de cavalerie
Bataillon dinfanterie
Batterie dartillerie
Régiment de cavalerie
Bataillon dinfanterie
Actions
Perceptions
Actions
Perceptions
13
STRADA appliquée à Battleground
  • Décomposition du processus de prise de décisions
  • Les jeux de stratégie modernes offrent une
    organisation en groupes
  • Structure hiérarchique de prise de décisions
  • Représentation adéquate des espaces détats et
    dactions
  • Les jeux de stratégie modernes utilisent une
    carte géographique
  • Adapter la granularité à laide dun algorithme
    danalyse automatique du terrain
  • Généralisation de la stratégie
  • Approcher la stratégie à laide dapproximateurs
    de fonction
  • Définition de bons scénarios dapprentissage
  • Apprendre par niveau de la hiérarchie
  • Jouer initialement contre un adversaire autre que
    soi-même

14
Abstraction de lespace dactions
  • Définition des ordres de haut niveau
  • Attaque extrême, attaque, arrêt, défense, défense
    extrême
  • Identification des points tactiques sur la carte
  • Lespace dactions stratégiques A de lagent
  • A ordres de haut niveau X points tactiques

10180
33
15
Abstraction de lespace détats
  • Situation du groupe dunités du 1er niveau de la
    hiérarchie
  • Centre de masses, force, fatigue, qualité,
    mobilité
  • Situation des unités sur les zones du 1er niveau
    de la hiérarchie
  • Force et fatigue par camp
  • Identification des zones stratégiques sur la
    carte
  • Lespace détats S de lenvironnement
  • S centre de masses X force X fatigue X qualité
    X mobilité X force par zone et camp X fatigue par
    zone et camp

1
3
102000
1082
5
4
6
2
16
Abstraction de lespace détats
  • Situation du groupe dunités du 2ème niveau de la
    hiérarchie
  • Ordre reçu, centre de masses, force, fatigue,
    qualité, mobilité
  • Situation des unités sur les zones du 2ème niveau
    de la hiérarchie
  • Force et fatigue par camp
  • Identification des zones stratégiques sur la
    carte
  • Lespace détats S de lenvironnement
  • S ordre reçu X centre de masses X force X
    fatigue X qualité X mobilité X force par zone et
    camp X fatigue par zone et camp

C
1
A
3
F
5
D
E
B
J
I
4
M
K
6
G
2
L
H
17
STRADA appliquée à Battleground
  • Décomposition du processus de prise de décisions
  • Les jeux de stratégie modernes offrent une
    organisation en groupes
  • Structure hiérarchique de prise de décisions
  • Représentation adéquate des espaces détats et
    dactions
  • Les jeux de stratégie modernes utilisent une
    carte géographique
  • Adapter la granularité à laide dun algorithme
    danalyse automatique du terrain
  • Généralisation de la stratégie
  • Approcher la stratégie à laide dapproximateurs
    de fonction
  • Définition de bons scénarios dapprentissage
  • Apprendre par niveau de la hiérarchie
  • Jouer initialement contre un adversaire autre que
    soi-même

18
Approximateurs de fonction
  • Réseau de neurones Réseaux de
    neurones CMAC Albus 1975
  • (1)
    (2)
    (3)

s
s
Q(s,a1)
Q(s,a1)
Q(s,a1)
s
s
Q(s,a2)
Q(s,a2)

s
Q(s,a2)
Q(s,an)


s
Q(s,an)
s
Q(s,an)
19
STRADA appliquée à Battleground
  • Décomposition du processus de prise de décisions
  • Les jeux de stratégie modernes offrent une
    organisation en groupes
  • Structure hiérarchique de prise de décisions
  • Représentation adéquate des espaces détats et
    dactions
  • Les jeux de stratégie modernes utilisent une
    carte géographique
  • Adapter la granularité à laide dun algorithme
    danalyse automatique du terrain
  • Généralisation de la stratégie
  • Approcher la stratégie à laide dapproximateurs
    de fonction
  • Définition de bons scénarios dapprentissage
  • Apprendre par niveau de la hiérarchie
  • Jouer initialement contre un adversaire autre que
    soi-même

20
Mécanisme damorçage
vs.
Armée contrôlée par lIA apprenante et par lIA
commerciale
Armée contrôlée par lIA commerciale
GA
Général dArmée
GA


Général de Corps dArmée
GCA
GCA
GCA
GCA


GD
GD
Général de Division
GD
GD
GD
GD


GB
GB
Général de Brigade
GB
GB
GB
GB


GC
GC
Groupes de Combattants
GC
GC
21
Démarche expérimentale
  • Évaluer lapproche STRADA sur le jeu commercial
    Battleground
  • Comparer les performances des agents STRADA avec
    celles dautres modèles dagents

22
Expérimentations avec Battleground
52 x 42
  • 1ère phase
  • 1er niveau de la hiérarchie
  • Renforcement global
  • Sans communication entre les agents
  • 2ème phase
  • 2ème niveau de la hiérarchie
  • Renforcement global, local et combiné
  • Sans communication entre les agents
  • 3ème phase
  • 1er niveau de la hiérarchie
  • Renforcement global et local
  • Communication simple entre les agents

35 x 20
GA

GCA
GCA

GD
GD
GD
GD

GB
GB
GB
GB

GC
GC
23
Expérimentations avec Battleground
52 x 42
  • 1ère phase
  • 1er niveau de la hiérarchie
  • Renforcement global
  • Sans communication entre les agents
  • 2ème phase
  • 2ème niveau de la hiérarchie
  • Renforcement global, local et combiné
  • Sans communication entre les agents
  • 3ème phase
  • 1er niveau de la hiérarchie
  • Renforcement global et local
  • Communication simple entre les agents

35 x 20
GA

GCA
GCA
X

GD
GD
GD
GD

GB
GB
GB
GB

GC
GC
24
1ère phase dexpérimentations
  • Schéma de la prise de décisions
  • Renforcement immédiat global
  • Renforcement cumulatif

STRADA
Empereur Napoléon
Empereur Napoléon
Empereur Napoléon
Empereur Napoléon
Aléatoire
Commercial
Ordre
Ordre
Situation
Ordre
Situation
Situation
Humain
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde
Impériale)
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde
Impériale)
Maréchal Mortier (Garde
Impériale)
Maréchal Mortier (Garde
Impériale)
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Les unités subordonnées (lIA damorçage)
25
Scénario 1 (carte 35 x 20)
3
1
5
300
300
600
4
6
2
  • La représentation de létat s (32 variables)
  • Lespace dactions A pour chaque agent subordonné
    (33 actions)

Q(s,a1)
s
Q(s,a2)

Q(s,a33)
26
Résultats expérimentaux (scénario 1)
27
Scénario 2 (carte 52 x 42)
6
1
3
7
100
4
9
1000
200
200
8
10
5
11
2
  • La représentation de létat s (64 variables)
  • Lespace dactions A pour chaque agent subordonné
    (49 actions)

Q(s,a1)
s
Q(s,a2)

Q(s,a49)
28
Résultats expérimentaux (scénario 2)
1300
800
29
Expérimentations avec Battleground
  • 1ère phase
  • 1er niveau de la hiérarchie
  • Renforcement global
  • Sans communication entre les agents
  • 2ème phase
  • 2ème niveau de la hiérarchie
  • Renforcement global, local et combiné
  • Sans communication entre les agents
  • 3ème phase
  • 1er niveau de la hiérarchie
  • Renforcement global et local
  • Communication simple entre les agents

35 x 20
GA
GCA
GCA
X
GD
GD
GD
GD
X

GB
GB

GC
GC
30
2ème phase dexpérimentations
STRADA
Aléatoire
Commercial
  • Schéma de la prise de décisions
  • Renforcement immédiat
  • Score global (1)
  • Score local
  • objectifs conquis (2)
  • Ordres accomplis (3)
  • Score combiné (1 2 3)

Humain
Empereur Napoléon (stratégie apprise
dans la 1ère phase)
Ordre
Ordre
Situation
Ordre
Situation
Situation
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde Impériale)
Maréchal Mortier (Garde Impériale)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde Impériale)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde Impériale)
Ordre
Ordre
Ordre
Situation
Ordre
Situation
Ordre
Ordre
Situation
Situation
Situation
Situation
Général de la 1ère Division (1er Corps)
Général de la Nème Division (1er Corps)
Général de la 1ère Division (3ème Corps)
Général de la Nème Division (3ème Corps)
Général de la 1ère Division (Garde Imp.)
Général de la Nème Division (Garde Imp.)
Général de la 1ère Division (1er Corps)
Général de la Nème Division (1er Corps)
Général de la 1ère Division (3ème Corps)
Général de la Nème Division (3ème Corps)
Général de la 1ère Division (Garde Imp.)
Général de la Nème Division (Garde Imp.)
Général de la 1ère Division (1er Corps)
Général de la Nème Division (1er Corps)
Général de la 1ère Division (3ème Corps)
Général de la Nème Division (3ème Corps)
Général de la 1ère Division (Garde Imp.)
Général de la Nème Division (Garde Imp.)
Général de la 1ère Division (1er Corps)
Général de la Nème Division (1er Corps)
Général de la 1ère Division (3ème Corps)
Général de la Nème Division (3ème Corps)
Général de la 1ère Division (Garde Imp.)
Général de la Nème Division (Garde Imp.)



Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Les unités subordonnées (lIA damorçage)
31
Scénario 1 (carte 35 x 20)
C
A
D
E
B
F
J
300
300
I
M
K
600
G
L
H
  • La représentation de létat s (35 variables)
  • Lespace dactions A pour chaque agent subordonné
    (37 actions)

Q(s,a1)
s
Q(s,a2)

Q(s,a37)
32
Résultats expérimentaux (Scénario 1 - attaque)
33
Expérimentations avec Battleground
  • 1ère phase
  • 1er niveau de la hiérarchie
  • Renforcement global
  • Sans communication entre les agents
  • 2ème phase
  • 2ème niveau de la hiérarchie
  • Renforcement global, local et combiné
  • Sans communication entre les agents
  • 3ème phase
  • 1er niveau de la hiérarchie
  • Renforcement global et local
  • Communication simple entre les agents

35 x 20
GA
GCA
GCA

GD
GD

GB
GB

GC
GC
34
3ème phase dexpérimentations
  • Schéma de la prise de décisions
  • Renforcement immédiat
  • Score global
  • Score local (objectifs conquis)
  • Communication de laction exécuté par les
    partenaires dans le tour précédent

STRADA
Aléatoire
Empereur Napoléon
Empereur Napoléon
Empereur Napoléon
Empereur Napoléon
Commercial
Humain
Ordre
Ordre
Situation
Ordre
Situation
Situation
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde
Impériale)
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Davout (1er Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Ney (3ème Corps)
Maréchal Mortier (Garde
Impériale)
Maréchal Mortier (Garde
Impériale)
Maréchal Mortier (Garde
Impériale)
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Contrôlé par lIA damorçage
Les unités subordonnées (lIA damorçage)
35
Scénario 1 (carte 35 x 20)
3
1
5
300
300
600
4
6
2
  • La représentation de létat s (38 variables)
  • Lespace dactions A pour chaque agent subordonné
    (33 actions)

Q(s,a1)
s
Q(s,a2)

Q(s,a33)
36
Résultats expérimentaux (Scénario 1 - attaque)
37
Résultats expérimentaux (Scénario 1 - défense)
38
Conclusions expérimentales
  • De très bons résultats ont été obtenus
  • STRADA a largement dépassée les performances du
    système commercial en réapprenant juste une
    partie de la stratégie
  • Quelques milliers dépisodes dapprentissage ont
    été suffisants
  • Le renforcement global est la clé pour le 1er
    niveau de la hiérarchie
  • Un renforcement combiné est nécessaire à partir
    du 2ème niveau de la hiérarchie
  • La communication permet un apprentissage plus
    stable
  • On peut approfondir évaluation de STRADA afin
    dobtenir des résultats plus performants
  • Il faut une combinaison adéquate des différents
    types de renforcement
  • Il faut une stratégie efficace pour la
    coordination entre les agents

39
Conclusions
  • Nous avons conçu STRADA pour la génération
    automatique de stratégies dans le cadre des jeux
    de stratégie modernes
  • Décomposition hiérarchique de la prise de
    décisions
  • Représentation adéquate des espaces détats et
    dactions
  • Généralisation de la stratégie
  • Amorçage du processus dapprentissage
  • Lefficacité de STRADA et la cohérence des
    représentations générées ont été évaluées sur le
    jeu Battleground
  • Plusieurs versions des agents apprenants ont été
    expérimentées
  • La généralité de lapproche a été testée sur deux
    scénarios de jeu
  • Trois modèles dagents ont été utilisés pour
    comparer les performances
  • Les résultats obtenus sont tout à fait
    encourageants

40
Perspectives futures (appliquées aux jeux)
  • Trouver un bon compromis pour la combinaison des
    différents types de renforcement
  • Amélioration des stratégies apprises en jouant
    contre
  • Les agents adversaires STRADA
  • Des joueurs humains experts
  • Adaptation de STRADA aux jeux de stratégie en
    temps réel
  • Les joueurs sont-ils amusés davantage par des
    agents STRADA ? Demasi et Cruz 2002Andrade et
    al. 2005, 2006

41
Perspectives futures (théoriques)
  • Automatisation complète de la procédure
    dabstraction
  • Représentation de lespace dactions
  • Ordres de haut niveau Corruble, Madeira et
    Ramalho 2002
  • Représentation de lespace détats
  • Variables décrivant le résumé de létat des
    groupes dagents Blum et Langley
    1997Saitta et Zucker 2001Li, Walsh et Littman
    2006
  • Amélioration de la coordination entre les agents
    Guestrin, Lagoudakis et
    Parr 2002Chalkiadakis et Boutilier 2003Sigaud
    2004
  • Généralisation de stratégies entre différents
    scénarios de jeu Guestrin et al. 2003
Write a Comment
User Comments (0)
About PowerShow.com