THEORIE DES JEUX Bas sur les travaux de la Session 3A Confrence AAMAS03 - PowerPoint PPT Presentation

1 / 27

About This Presentation

Title:

THEORIE DES JEUX Bas sur les travaux de la Session 3A Confrence AAMAS03

Description:

Bien tre social et ratio de Miscomputing ... et lui autorise seul a computer pour Di tape. Ai mise pour vi(Di) son utilit ui = vi(Di) donc SW(o*) = vi(Di) ... – PowerPoint PPT presentation

Number of Views:78

Avg rating:3.0/5.0

Slides: 28

Provided by: Sam3171

Category:

more less

Transcript and Presenter's Notes

Title: THEORIE DES JEUX Bas sur les travaux de la Session 3A Confrence AAMAS03

1
THEORIE DES JEUXBasé sur les travaux de la
Session 3A Conférence AAMAS-03

Samir Asmar
D.I.R.O.
Université de Montreal

2
Sujets abordés

Ventes aux enchères
Concepts et stratégies déquilibre
Bien être social et ratio de Miscomputing
Modèles dapplication
Théories de décisions
Langage de présentation NID /MAID
Formes de Modélisation
Exemples dapplication

3
Ventes aux enchères

Mécanisme très utile pour trouver les produits
dans un système Multi agents
Agent doit évaluer le produit
Par lallocation des ressources importantes pour
faire le calcul.
Opération dévaluation est coûteuse
Soumettre sa mise avant deadline.

4
Concepts des théories des jeux

Jeu avec un des agents I et avec O des
résultats.
Agent i choisit sa stratégie s(si,si) parmi l
des stratégies disponibles pour lui a un point
donné du jeu.
Le résultat correspondant de la stratégie s o(s)
e O
Chaque agent doit choisir la stratégie qui
maximise sa fonction dutilité ui o(s) ? R

5
Stratégies déquilibre

Stratégie dominante absolument la meilleure
?s-i ?si !si ui(o(si,s-i)) gt ui(o(si,s-i)).
Nash Equilibrium s est un équilibre de Nash, si
aucun agent na pas lincentive de dévier de sa
stratégie en considérant que les autres agents ne
le font pas.
?i ?si ui(o(si,s-i)) gt ui(o(si,s-i)).
Ce concept considère que chaque agent connaît
tous a propos des autres agents, mais pas leur
préférence qui peut représente par une variable
aléatoire ?i
Donc la stratégie de lagent i en fonction de ?i
Ui (o(s)) E(?1, ?2, ?i) ui(o( s1(?1),
s2(?2), , sI(?I), ?i)) .

6
Enchère Vickrey et Social Welfare

Une mise unique par agent
Agent avec la mise la plus élevé gagne lenchère
et paye le 2ieme plus élevé montant misé
Utilité de lagent ai ui vi - pi avec
vi valorisation calculée par lagent
pi prix payé pour le produit
Le bien être social
SW(o) ?ieI ui(o)

7
Modèle de délibération

Arbre de profile de performance PPT
Agent ne sait pas la valeur dun produit, doit la
calculer avec un algorithme
Qui peut être arrêter a nimporte quel moment ?
valeur
Qualité de la solution augmente avec le temps
alloué.
Agent doit faire des compromis pour déterminer la
valeur dun produit et utiliser une arbre de
contrôle PPT, pour déterminer
Combien utiliser lalgorithme et quand larrêter
Arbre peut être construite a partir des
statistiques collectés

8
Selfish computing Miscomputing Ratio

Le coût social de selfish computing peut être
détermine par la comparaison du plus haut
possible SW avec le plus bas worse case
R SW(o)/SW(o(NE))
Pour SW, on considère quil y un contrôleur
globale qui impose la stratégie pour chaque agent
avec o résultat obtenu.
Worse case agents libres dans leurs stratégies
Equilibre de nash pour WC
NEargminsenash equilibrium SW(o(s)

9
Stratégie non dominante

Soit un des agents I, dans un enchère vickrey
géré par un agent auc
Agent emploie certains ressources pour calculer
Avec algorithme deterministique vi
Avec fonction de coût ci
Agent a deux stratégies non dominantes possibles
Agent ne compute pas ? utilité 0
Agent compute sur tous les problèmes pour ttotal
Agent perd utilité -C(Ttotal)
Agent gagne utilité ui v(town ) - C(ttotal)
b
Sous quelles conditions, agent décide de computer
ou non?

10
Quand un agent doit computer?

Vu que lagent na pas les informations sur les
évaluations des autres, il a linformation sous
forme probabilité des fonctions des coûts
possibles cj
Posons Fj(cj(.) la probabilité que lagent j a
fonction de coût cj
? distribution dévaluation de lagent j ? ?j(x)
?cj fi(cj)Xcj(x)dcj
Avec
Pour simplifier, considérant 2 agents i et j
si sj(x) est stratégie de j,
Si j ne mise pas, i gagne et paye rien ? ui
vi(ti) - ci(ti)
Si j participe Si vj(tj)lt vi(ti) ? ui
vi(ti) - ci(ti) - vj(tj)
Si vj(tj)gt vi(ti) ? ui - ci(ti)
Donc utilité de i

11
Quand un agent doit computer?

Agent i doit participer seulement si uigt0
Donc condition
Donc i participe, si seulement ses coûts sont
sous certain point

12
Miscomputing Ratio

Soit I L des agents, chaque agent a une
computation illimitée et deadline. Si
auctioneer est inclus dans le calcul de SW donc
? Misomputing ratio RIUauc 1
Pour maximiser SW, un contrôleur globale
sélectionne un agent dont
et lui autorise seul a computer pour Di étape
Ai mise pour vi(Di) ? son utilité ui vi(Di)
donc SW(o) vi(Di)
Dans un équilibre de worse case, chaque agent
peut computer jusquà temps Di et soumettre son
vj(Dj), agent i avec vi(Di) maxjeIvj(Dj), gagne
le produit et paye vk(Dk) maxjeI-I vj(Dj).? ui
vi(Di) - vk(Dk)
Utilité de lenchérisseur uauc vk(Dk)
Donc SW(NE(o)) ui uauc vi(Di) - vk(Dk)
vk(Dk)
RIUauc SW(o) / SW(NE(o)) vi(Di) / vi(Di)
- vk(Dk) vk(Dk) 1

13
Théories des décisions

Théoriquement lapproche de décision est utilisée
dans le conception dagent intelligent
lintelligence artificielle structures du jeu et
règles biens connus.
la maximisation de lutilité suivant les actions
disponibles.
Dans le monde réel, un agent peut
Se tromper au sujet du jeu et incertain de
raisonnement des autres.
Utilise différentes structures et méthodes de
raisonnement
Doù la nécessite de faire une distinction claire
entre
La structure du jeu qui détermine dans quelle
façon les actions des agents produisent des
effets dans le monde réel.
Le modèle mental utilisé par lagent pour prendre
leur décision.

14
Network of Influence Diagrams

NID est un langage de présentation
Du modèle explicite du jeux
Modèle mental des agents / Multiple models
(recursif)
NID est descriptif et normatif
Descriptif comme un outil pour décrire de
manière claire et explicite le raisonnement dun
agent (prédire)
Normatif NID est utilisé pour modéliser un jeu
et les croyances des joueurs.

15
NID syntaxe

NID est fondé sur les diagrammes dinfluence ID,
base sur les modèles graphiques pour les
problèmes de décisions dun agent. MAID est une
extension pour multi agents.
ID consiste de 3 types de nuds

Nud de chance variable aléatoire Nud de
décision points de décisions Nud de valeur
utilité agent ? a maximiser Représente une
dépendance probabilistique Représente info
disponible pour agent durant prise de décision
16
Exemple de lumbrella

Waldo est entrain de sortir de la maison et veut
décider de prendre ou non sa parapluie.
Objectif lobjectif de waldo est de ne pas
mouillée
Contraint porter parapluie est ennuyeux.
Alors il va observer les prévisions et décide,
qui dépendamment du temps, influence sa utilité
finale.
Pour résoudre un ID, il faut calculer la
stratégie optimale de lagent suivant les
informations disponibles.
Un réseau bayesian peut être produit en
remplaçant les nuds de décision par des nuds de
chances.
Ce réseau peut être utilisé pour prédire ou
calculer la probabilité que waldo sera mouillé

17
Umbrella avec incertitude

Supposons quon est incertain quel modèle, waldo
utilise pour décider de prendre lumbrella IF, IJ
dow jones
Ces deux modèles de prévision IF, IJ déterminent
le NID umbrella

On introduit un nud Modumb dans le diagramme
dinfluence.
Modumb prend la valeur de f, dans le cas ou la
décision est modélisée par f, ou j similairement.
Modumb a une probabilité conditionnelle de
distribution comme les autres chances

18
Application- deviser pour conquérir

Exemple oilRon a deux devisions testeur et
foreur. oilRon peut tester le sol avant de
décider de forer.
Chacune de ces 2 décisions est faite par la
division correspondante.
Parce que le testeur croit que les drillers
vont tjs forer, donc il ne fait jamais tester.

19
Opponent modeling

Les agents utilisent souvent des règles, modèles
ou tendances dans la prise de décision, en plus
ils raisonnent a propos de travail des autres, et
ils essayent de trouver les modèles quils ont
adoptés.
Exemple rock-paper-scissors
Le jeu a un seul équilibre de Nash, dans lequel
les 2 jouent une stratégie mixte (r,p,s) avec
P(1/3,1/3,1/3)
Si pas de déviation de stratégie d? ? résultat
0
Si ils jouent plusieurs reprises, un agent est
capable de trouver les tendance optimale de
ladversaire et le battre.

20
Modélisation de rock-paper-scissors 1/2

Supposons quun agent veut modéliser la façon de
jouer de son adversaire en utilisant NID. Les
agents ont accès au historique représente par
statistique qui détermine un signal P disponible
pour lagent pour lutiliser dans son processus
de prise de décision.

Suivant block M1, John pense que
Mary est un automaton, suivre P
Si historique P ? Mary va jouer rocher
Donc John doit jouer papier ?BR(P)

21
Modélisation de rock-paper-scissors 2/2

Block M2, modélise la croyance de Mary que John
va jouer BR(P) si elle joue P ?BR(BR(P)) Mary ne
joue pas Roche, mais ciseaux.

Pour niveau M4, Mary sait ce que John va jouer
donc joue BR(BR(BR(BR(P) ))).
Le NID de ce jeu
John modelise que Mary joue dans dans niveau
M1,M3 et M4
Incertitude est capture dans variable ModM
probabilite que mary joue suivant block M.
Donc john doit calculer son meilleur coup contre
S(Mary)

22
Collusion alliances

Dans le cas de multi-agents, il est important de
savoir si les agents collaborent ensemble.
Exemple cas élection d1président parmi 3 agents
A,B et C
Chacun veut être le président avec utilité 2
A vote pour B ou C ? uA1
A gagne ? uB uC -1
Dans linteret de B et C de collaborer et voter
pour la même personne
Si pas de collaboration ? A vote pour lui-même et
reste Président

23
Election dun président en NID

A nest pas certain si B et C ont discuter et
veulent colluder contre lui
Cette incertitude peut être présenté par un NID
avec collude comme nud racine avec 3
possibilités

No collusion
ColludeB ? ModB est automaton qui vote pour B
ColludeC ? ModC sera avec forte probabilité
pour voter pour C mais avec possibilité de
renoncer.

24
Battle of Sex

BoS est un jeu ou le mari et lépouse vont
coordonner leurs activités pour une soirée
Mari préfère Ballet
Epouse préfère Football
Les deux préfèrent passer la soirée ensemble
Ce jeu a deux équilibres de Nash sortir au
Ballet ou FB
Le mécanisme proposé dans BoS est quun de ces
joueurs annonce son intension avant le jeu.

25
Modèle de BoS

Posons que lépouse annonce ou elle veut aller,
son modèle de prise de décision IW
Selon IW, la femme croit que son homme va faire
tous ce quelle demande. Donc la décision du Mari
Dh sera transformer en une variable chance.
Pour maximiser sa utilité ? femme demande FB

Dans BoS, Ih est similaire a Ir, le mari connaît
le modèle de prise de décision de sa femme Dw.
Dans un modèle rationnel du mari, et vu quil va
coordonner avec elle ? donc il fait ce quelle
demande.

Lw
Statement w
Uw
Dw
Dh
Uh
26
Conclusion

Théorie des jeux permet de résoudre tel ou tel
problème, elle cherche à expliquer la
rationalité des choses et peuvent parfois aller
très loin et sans donner des réponses évidentes.
Les théories des jeux sont dune très grande
complexité, et peuvent mener à nimporte quoi, en
théorie .
On dispose actuellement des abondances en théorie
des jeux, et on attend des preuves, des exemples
précis...

27
Références

Session 3A Game Theory (II)
(330pm Weds July 16th)
Chair Wiebe van der Hoek
Trade of a Problem-solving Task Shigeo Matsubara
A Language for Modelling Agents Decision Making
Processes in Games Yaakov Gal, Avi Pfeffer
Miscomputing Ratio Social Cost of Selfish
Computing Kate Larson, Tuomas Sandholm.

Write a Comment

User Comments (0)