Title: THEORIE DES JEUX Bas sur les travaux de la Session 3A Confrence AAMAS03
1THEORIE DES JEUXBasé sur les travaux de la
Session 3A Conférence AAMAS-03
- Samir Asmar
- D.I.R.O.
- Université de Montreal
2Sujets abordés
- Ventes aux enchères
- Concepts et stratégies déquilibre
- Bien être social et ratio de Miscomputing
- Modèles dapplication
- Théories de décisions
- Langage de présentation NID /MAID
- Formes de Modélisation
- Exemples dapplication
3Ventes aux enchères
- Mécanisme très utile pour trouver les produits
dans un système Multi agents - Agent doit évaluer le produit
- Par lallocation des ressources importantes pour
faire le calcul. - Opération dévaluation est coûteuse
- Soumettre sa mise avant deadline.
4Concepts des théories des jeux
- Jeu avec un des agents I et avec O des
résultats. - Agent i choisit sa stratégie s(si,si) parmi l
des stratégies disponibles pour lui a un point
donné du jeu. - Le résultat correspondant de la stratégie s o(s)
e O - Chaque agent doit choisir la stratégie qui
maximise sa fonction dutilité ui o(s) ? R
5Stratégies déquilibre
- Stratégie dominante absolument la meilleure
- ?s-i ?si !si ui(o(si,s-i)) gt ui(o(si,s-i)).
- Nash Equilibrium s est un équilibre de Nash, si
aucun agent na pas lincentive de dévier de sa
stratégie en considérant que les autres agents ne
le font pas. - ?i ?si ui(o(si,s-i)) gt ui(o(si,s-i)).
- Ce concept considère que chaque agent connaît
tous a propos des autres agents, mais pas leur
préférence qui peut représente par une variable
aléatoire ?i - Donc la stratégie de lagent i en fonction de ?i
- Ui (o(s)) E(?1, ?2, ?i) ui(o( s1(?1),
s2(?2), , sI(?I), ?i)) .
6Enchère Vickrey et Social Welfare
- Une mise unique par agent
- Agent avec la mise la plus élevé gagne lenchère
et paye le 2ieme plus élevé montant misé - Utilité de lagent ai ui vi - pi avec
- vi valorisation calculée par lagent
- pi prix payé pour le produit
- Le bien être social
- SW(o) ?ieI ui(o)
7Modèle de délibération
- Arbre de profile de performance PPT
- Agent ne sait pas la valeur dun produit, doit la
calculer avec un algorithme - Qui peut être arrêter a nimporte quel moment ?
valeur - Qualité de la solution augmente avec le temps
alloué. - Agent doit faire des compromis pour déterminer la
valeur dun produit et utiliser une arbre de
contrôle PPT, pour déterminer - Combien utiliser lalgorithme et quand larrêter
- Arbre peut être construite a partir des
statistiques collectés
8Selfish computing Miscomputing Ratio
- Le coût social de selfish computing peut être
détermine par la comparaison du plus haut
possible SW avec le plus bas worse case - R SW(o)/SW(o(NE))
- Pour SW, on considère quil y un contrôleur
globale qui impose la stratégie pour chaque agent
avec o résultat obtenu. - Worse case agents libres dans leurs stratégies
- Equilibre de nash pour WC
- NEargminsenash equilibrium SW(o(s)
9Stratégie non dominante
- Soit un des agents I, dans un enchère vickrey
géré par un agent auc - Agent emploie certains ressources pour calculer
- Avec algorithme deterministique vi
- Avec fonction de coût ci
- Agent a deux stratégies non dominantes possibles
- Agent ne compute pas ? utilité 0
- Agent compute sur tous les problèmes pour ttotal
- Agent perd utilité -C(Ttotal)
- Agent gagne utilité ui v(town ) - C(ttotal)
b - Sous quelles conditions, agent décide de computer
ou non?
10Quand un agent doit computer?
- Vu que lagent na pas les informations sur les
évaluations des autres, il a linformation sous
forme probabilité des fonctions des coûts
possibles cj - Posons Fj(cj(.) la probabilité que lagent j a
fonction de coût cj - ? distribution dévaluation de lagent j ? ?j(x)
?cj fi(cj)Xcj(x)dcj - Avec
- Pour simplifier, considérant 2 agents i et j
- si sj(x) est stratégie de j,
- Si j ne mise pas, i gagne et paye rien ? ui
vi(ti) - ci(ti) - Si j participe Si vj(tj)lt vi(ti) ? ui
vi(ti) - ci(ti) - vj(tj) - Si vj(tj)gt vi(ti) ? ui - ci(ti)
- Donc utilité de i
11Quand un agent doit computer?
- Agent i doit participer seulement si uigt0
- Donc condition
- Donc i participe, si seulement ses coûts sont
sous certain point
12Miscomputing Ratio
- Soit I L des agents, chaque agent a une
computation illimitée et deadline. Si
auctioneer est inclus dans le calcul de SW donc - ? Misomputing ratio RIUauc 1
- Pour maximiser SW, un contrôleur globale
sélectionne un agent dont - et lui autorise seul a computer pour Di étape
- Ai mise pour vi(Di) ? son utilité ui vi(Di)
donc SW(o) vi(Di) - Dans un équilibre de worse case, chaque agent
peut computer jusquà temps Di et soumettre son
vj(Dj), agent i avec vi(Di) maxjeIvj(Dj), gagne
le produit et paye vk(Dk) maxjeI-I vj(Dj).? ui
vi(Di) - vk(Dk) - Utilité de lenchérisseur uauc vk(Dk)
- Donc SW(NE(o)) ui uauc vi(Di) - vk(Dk)
vk(Dk) - RIUauc SW(o) / SW(NE(o)) vi(Di) / vi(Di)
- vk(Dk) vk(Dk) 1
13Théories des décisions
- Théoriquement lapproche de décision est utilisée
dans le conception dagent intelligent - lintelligence artificielle structures du jeu et
règles biens connus. - la maximisation de lutilité suivant les actions
disponibles. - Dans le monde réel, un agent peut
- Se tromper au sujet du jeu et incertain de
raisonnement des autres. - Utilise différentes structures et méthodes de
raisonnement - Doù la nécessite de faire une distinction claire
entre - La structure du jeu qui détermine dans quelle
façon les actions des agents produisent des
effets dans le monde réel. - Le modèle mental utilisé par lagent pour prendre
leur décision.
14Network of Influence Diagrams
- NID est un langage de présentation
- Du modèle explicite du jeux
- Modèle mental des agents / Multiple models
(recursif) - NID est descriptif et normatif
- Descriptif comme un outil pour décrire de
manière claire et explicite le raisonnement dun
agent (prédire) - Normatif NID est utilisé pour modéliser un jeu
et les croyances des joueurs.
15NID syntaxe
- NID est fondé sur les diagrammes dinfluence ID,
base sur les modèles graphiques pour les
problèmes de décisions dun agent. MAID est une
extension pour multi agents. - ID consiste de 3 types de nuds
Nud de chance variable aléatoire Nud de
décision points de décisions Nud de valeur
utilité agent ? a maximiser Représente une
dépendance probabilistique Représente info
disponible pour agent durant prise de décision
16Exemple de lumbrella
- Waldo est entrain de sortir de la maison et veut
décider de prendre ou non sa parapluie. - Objectif lobjectif de waldo est de ne pas
mouillée - Contraint porter parapluie est ennuyeux.
- Alors il va observer les prévisions et décide,
qui dépendamment du temps, influence sa utilité
finale. - Pour résoudre un ID, il faut calculer la
stratégie optimale de lagent suivant les
informations disponibles. - Un réseau bayesian peut être produit en
remplaçant les nuds de décision par des nuds de
chances. - Ce réseau peut être utilisé pour prédire ou
calculer la probabilité que waldo sera mouillé
17Umbrella avec incertitude
- Supposons quon est incertain quel modèle, waldo
utilise pour décider de prendre lumbrella IF, IJ
dow jones - Ces deux modèles de prévision IF, IJ déterminent
le NID umbrella
- On introduit un nud Modumb dans le diagramme
dinfluence. - Modumb prend la valeur de f, dans le cas ou la
décision est modélisée par f, ou j similairement. - Modumb a une probabilité conditionnelle de
distribution comme les autres chances
18Application- deviser pour conquérir
- Exemple oilRon a deux devisions testeur et
foreur. oilRon peut tester le sol avant de
décider de forer. - Chacune de ces 2 décisions est faite par la
division correspondante. - Parce que le testeur croit que les drillers
vont tjs forer, donc il ne fait jamais tester.
19Opponent modeling
- Les agents utilisent souvent des règles, modèles
ou tendances dans la prise de décision, en plus
ils raisonnent a propos de travail des autres, et
ils essayent de trouver les modèles quils ont
adoptés. - Exemple rock-paper-scissors
- Le jeu a un seul équilibre de Nash, dans lequel
les 2 jouent une stratégie mixte (r,p,s) avec
P(1/3,1/3,1/3) - Si pas de déviation de stratégie d? ? résultat
0 - Si ils jouent plusieurs reprises, un agent est
capable de trouver les tendance optimale de
ladversaire et le battre.
20Modélisation de rock-paper-scissors 1/2
- Supposons quun agent veut modéliser la façon de
jouer de son adversaire en utilisant NID. Les
agents ont accès au historique représente par
statistique qui détermine un signal P disponible
pour lagent pour lutiliser dans son processus
de prise de décision.
- Suivant block M1, John pense que
- Mary est un automaton, suivre P
- Si historique P ? Mary va jouer rocher
- Donc John doit jouer papier ?BR(P)
21Modélisation de rock-paper-scissors 2/2
- Block M2, modélise la croyance de Mary que John
va jouer BR(P) si elle joue P ?BR(BR(P)) Mary ne
joue pas Roche, mais ciseaux.
- Pour niveau M4, Mary sait ce que John va jouer
donc joue BR(BR(BR(BR(P) ))). - Le NID de ce jeu
- John modelise que Mary joue dans dans niveau
M1,M3 et M4 - Incertitude est capture dans variable ModM
probabilite que mary joue suivant block M. - Donc john doit calculer son meilleur coup contre
S(Mary)
22Collusion alliances
- Dans le cas de multi-agents, il est important de
savoir si les agents collaborent ensemble. - Exemple cas élection d1président parmi 3 agents
A,B et C - Chacun veut être le président avec utilité 2
- A vote pour B ou C ? uA1
- A gagne ? uB uC -1
- Dans linteret de B et C de collaborer et voter
pour la même personne - Si pas de collaboration ? A vote pour lui-même et
reste Président
23Election dun président en NID
- A nest pas certain si B et C ont discuter et
veulent colluder contre lui - Cette incertitude peut être présenté par un NID
avec collude comme nud racine avec 3
possibilités
- No collusion
- ColludeB ? ModB est automaton qui vote pour B
- ColludeC ? ModC sera avec forte probabilité
pour voter pour C mais avec possibilité de
renoncer.
24Battle of Sex
- BoS est un jeu ou le mari et lépouse vont
coordonner leurs activités pour une soirée - Mari préfère Ballet
- Epouse préfère Football
- Les deux préfèrent passer la soirée ensemble
- Ce jeu a deux équilibres de Nash sortir au
Ballet ou FB - Le mécanisme proposé dans BoS est quun de ces
joueurs annonce son intension avant le jeu.
25Modèle de BoS
- Posons que lépouse annonce ou elle veut aller,
son modèle de prise de décision IW - Selon IW, la femme croit que son homme va faire
tous ce quelle demande. Donc la décision du Mari
Dh sera transformer en une variable chance. - Pour maximiser sa utilité ? femme demande FB
- Dans BoS, Ih est similaire a Ir, le mari connaît
le modèle de prise de décision de sa femme Dw. - Dans un modèle rationnel du mari, et vu quil va
coordonner avec elle ? donc il fait ce quelle
demande.
Lw
Statement w
Uw
Dw
Dh
Uh
26Conclusion
- Théorie des jeux permet de résoudre tel ou tel
problème, elle cherche à expliquer la
rationalité des choses et peuvent parfois aller
très loin et sans donner des réponses évidentes. - Les théories des jeux sont dune très grande
complexité, et peuvent mener à nimporte quoi, en
théorie . - On dispose actuellement des abondances en théorie
des jeux, et on attend des preuves, des exemples
précis...
27Références
- Session 3A Game Theory (II)
- (330pm Weds July 16th)
- Chair Wiebe van der Hoek
- Trade of a Problem-solving Task Shigeo Matsubara
- A Language for Modelling Agents Decision Making
Processes in Games Yaakov Gal, Avi Pfeffer - Miscomputing Ratio Social Cost of Selfish
Computing Kate Larson, Tuomas Sandholm.