Des agents intelligents dans un environnement de communication multim

About This Presentation

Title:

Des agents intelligents dans un environnement de communication multim

Description:

Des agents intelligents dans un environnement de communication multim dia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de th se : Anne ... – PowerPoint PPT presentation

Number of Views:49

Avg rating:3.0/5.0

Slides: 98

Provided by: chartonrsP

Category:

more less

Transcript and Presenter's Notes

Title: Des agents intelligents dans un environnement de communication multim

1
Des agents intelligents dans un environnement de
communication multimédia vers la conception de
services adaptatifs

Romaric CHARTON
Directeurs de thèse Anne BOYER et Jean-Paul
HATON
Directeur entreprise Michel LEDERMAN
Mardi 2 décembre 2003

2
Les services de communication multimédia

Service "Ce que l'on fait pour être utile, à
titre onéreux ou non" (Larousse 1998).
Mon étude services réalisés sur des supports et
réseaux informatiques
qui utilisent des médias de communication divers
le téléphone,
la messagerie électronique,
le web, etc.
pour permettre de
passer une commande en ligne,
rechercher une information,
gérer un portefeuille de titres boursiers, etc.

3
Positionnement des travaux
Fournir des services adaptatifs
Nature des services
Acteurs
Adaptation
Évaluation
4
Plan de l'exposé

Contexte et problématique

1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
5
Partie 1 - Contexte et problématique
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
6
Collaboration avec la société DIALOCA
1

Création
octobre 1996 à Paris
Domaine
Gestion de la relation client et langage naturel
Clients
Danone, Ministère de l'Intérieur, PSA, CNP,
TopTrades, etc.
Large palette d'applications
Multimédia, interactives et grand public
accès au web par téléphone,
support de bornes interactives et de centres
d'appels,
gestion de télé-réunions ...
Plate-forme UniMédia

7
Déroulement d'un service sur la plate-forme
UniMédia
1
Applications
PMMU
Administration
8
Objectifs de la collaboration
1

Objectifs (utiliser des méthodes IA)
Faciliter la conception et le déroulement des
applications
Adapter leur exécution au comportement de
l'utilisateur et à ses préférences

Comportement d'un agent
Applications existantes (scripts statiques)
Plate-forme UniMédia
9
Pourquoi une approche agent ?
1

Besoin de propriétés
autonomie
prise de décisions
communiquer
gérer des connaissances
gérer des ressources

Comportement
10
Utilité et évaluation des services
1
Nombreux indices possibles ? difficile à définir

Problème Comment mesurer la satisfaction de
l'utilisateur ?

Approximation une valeur numérique associée
actions de l'utilisateur
? Idée que l'agent estime son utilité à partir de
ses perceptions des autres ...

11
Systèmes Multi-Agents (Ferber 1995)
1
Réaliser un service de façon collective
12
Communication et hétérogénéité
1

Difficultés de l'interaction Homme-SMA
(Grislin-LeSturgeon et Peninou 1998)
comment déterminer ce que A veut ?
comment prévoir son comportement ?
que préfère-t-il ? ...

13
Problématique générale
1
Applicative Comment faciliter la conception et le
contrôle de services adaptatifs ?
Scientifique Comment coordonner un ensemble
d'agents hétérogènes pour réaliser
coopérativement une tâche ?

Difficultés à prendre en compte
Interaction avec des agents humains
Applications réelles ? environnements incertains
Réponse à des besoins industriels

14
Partie 2 - Approche Théorique
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
15
Les Systèmes Multi-Agents hétérogènes (h-SMA)
2

Ensemble A d'agents de nature très différente
humains, logiciels, etc.
Partition selon la nature des agents et de leur
environnement
Partition selon l'influence et le degré de
connaissance que l'on a sur les agents

16
Une solution au problème de l'hétérogénéité
2
Introduire un agent coordinateur pour amener A et
B à coopérer en modifiant leurs interactions.
Langage L B
Langage L A
Agent A Besoins
Agent B Capacités
Agent C Coordinateur
Coordination colle qui lie des activités
(Gelernter et Carriero 1992)
17
Comment obtenir le comportement du coordinateur ?
2
18
D'un coordinateur à base de scripts ...
2
19
... à des schémas d'interaction
2
20
Comment structurer les relations ?
2
Organisation agencement de relations entre
composants ou individus qui produit une unité, ou
système, dotée de qualités inconnues au niveau
des composants ou individus. (Ferber 1995)
21
Structures organisationnelles et classes de
service
2
22
Partie 3 - Les services de recherche
d'informations
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
23
Assistance à la recherche d'information
3
Source
Coordinateur
Utilisateur
Source
Source

Contraintes
Utilisateurs occasionnel, novice
Sources d'informations non propriété, coût
Objectif
Améliorer la qualité du service fourni par
rapport à la recherche classique

24
Exemple de problème le choix d'un vol
3
Client
25
Rôle de l'agent coordinateur
3

Ses buts
Construire une requête correspondant le plus au
besoin de l'utilisateur
Fournir des résultats appropriés à l'utilisateur
Maximiser son utilité
Maximiser la satisfaction de l'utilisateur
Minimiser les coûts liés à la source d'information

A tout moment, il peut
Poser une question à l'utilisateur au sujet de la
requête
Envoyer la requête à la source d'information
Proposer des résultats à l'utilisateur en nombre
limité

En retour, il perçoit les réponses des autres
agents valeurs, résultats, sélections, rejets
26
Coordination et stratégies de coordination
3
Coordination Contrôle d'une séquence
d'interactions (questions-réponses) Réussie
Sélection d'un résultat Absence de résultat
constatée au niveau de la source
Stratégie de coordination Façon de choisir les
actions pour coordonner la suite des interactions.

Problème Comment obtenir le comportement de
coordination adéquat ?

Solution proposée Trouver une stratégie de
coordination optimale
27
Caractéristiques du coordinateur
3

Gérer l'incertitude et les connaissances
incomplètes
Utilisateurs
Mauvaise compréhension des questions
Connaissance partielle de leurs besoins
Environnement
Bruits pendant la communication
Capteurs imparfaits

Proposition
Modéliser la coordination avec un Processus de
Décision Markovien
Calculer un comportement stochastique de
coordination

28
Processus de Décision Markovien (MDP)
3

Récompense R S ? A ? S ? IR

Décider selon une politique
? S ? A ? 01

Calculer une stratégie de coordination revient
à Calculer une politique stochastique
29
Un MDP pour contrôler les interactions
3
Environnement du coordinateur

Définir
S L'espace d'états
A Les actions du coordinateur
T Les transitions
R Les récompenses

Utilisateur
Source
Suite d'interactions (MDP à contrôler)
T
S, R
A
Coordinateur
30
Etats Comment décrire les requêtes et les
objets ?
3

Approche de remplissage de formulaire (Goddeau et
al. 1996)
? Référentiel construit sur un ensemble
d'attributs
Ref At 1, , At m

Exemple de référentiel
Départ Londres, Genève, Paris, Berlin,
Arrivée Pékin, Moscou, New-York,
Classe Première, Affaire, Économique, ...

31
Espace d'états S
3
Utilisateur
Source
Coordinateur
32
Abstraction des états (S ? S)
3

Taille de l'espace d'états S (2 n 1) (2i) m
n nombre total d'objets de la source
d'information
m nombre d'attributs
i nombre moyen de valeurs par attribut

? Taille de l'espace d'états abstrait S 4 ? 3m
33
Actions du coordinateur
3
Utilisateur
Source
Coordinateur
34
Récompenses
3
Utilisateur
Source

Elles sont obtenues

Coordinateur
35
Exemple de coordination pour la réservation de
vol
3
État s Abstraction s Action du coordinateur Réponses Récompense
lt?, ?, ? ?gt lt?, ?, ? ?gt Demander ville départ Paris 0
ltParis, ?, ? ?gt ltA, ?, ? ?gt Envoyer la requête 1700 vols - R Overnum
ltParis, ?, ? nr Max premiers vols gt ltA, ?, ? gt Demander destination Moscou 0
ltParis, Moscou, ? ?gt ltA, A, ? ?gt Demander classe de vol Ne sait pas 0
ltParis, Moscou, F ?gt ltA, A, F ?gt Envoyer la requête 4 vols 0
ltParis, Moscou, F 4 volsgt ltA, A, F gt Demander une sélection Sélection 2 R Sélection
Coordinateur
Utilisateur
Source
Légende
36
Calculer la stratégie de coordination
3

Problème Deux parties du modèle restent
inconnues !
T f (utilisateur, source d'information)
R f (utilisateur, source d'information)

? Apprendre la stratégie de coordination par
renforcement
37
Apprentissage par Renforcement (Sutton et Barto
1998)
3
Transition
Observation
Système Dynamique
Action
38
Architecture du coordinateur
3
Agent Coordinateur
Module de Décision (Q-Learning)
Module de Représentation (état réel)
Gestionnaire d'Interactions
Agent Utilisateur
Agent Source d'Information
39
Gestion des préférences des utilisateurs
3

Ensemble de profils Prof prof 0 , prof 1 ,
... , profn
avec un profil par défaut prof 0 pour les
nouveaux utilisateurs.

Un profil prof i
mémorise, pour chaque attribut At i , la
probabilité p ( v k prof i , At j ) que cet
utilisateur préfère la valeur v k
est initialisé avec des distributions uniformes
est mis à jour à la sélection d'une proposition

40
Partie 4 -Mise en œuvre
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
41
Modélisation d'UniMédia
4

Objectif Se doter d'un modèle conceptuel pour
fournir les services dans les h-SMA
Proposition Une modélisation agent à 4 niveaux

Utilisation sur les services Dialoca pour
des applications de l'équipe MAIA (Diatélic,
Cycab, ...)
42
Implantation de la maquette SmallMu
4
Objectifs Pouvoir travailler sur un agent
logiciel contrôlé reproduisant ou émulant les
fonctionnalités nécessaires

Réalisation
Une bibliothèque fournissant un corps d'agent
capable d'accueillir
un cerveau pour le comportement,
des membres pour percevoir et agir.
Un ensemble de membres dédiés à l'environnement
multimédia
Reconnaissance et synthèse de parole,
E-Mail,
SMS (émulé)

Utilisation Prototype de coordinateur pour la
réservation de vol
43
Expérimentations sur l'application de
réservation de vol
4

Entraînement du coordinateur avec
3 attributs (villes de départ/arrivée et classe)
4 attributs ( période de la journée de départ)
5 attributs ( la compagnie aérienne)

Croissance de la complexité en fonction du nombre
des attributs
Nb. d'attributs (m) Nb. états abstraits (4.3 m) Nb. d'actions (3.m2) Nb. de Q-Valeurs ((12.m8).3 m)
3 108 11 1 188
4 324 14 4 536
5 972 17 16 524
44
Résultats d'apprentissagetaux de coordinations
réussies
4

3 et 4 attributs 99 de coordinations réussies
(proche de l'optimum)
5 attributs 90 de réussite (plus de temps
nécessaire pour converger)

45
Résultats d'apprentissagelongueur moyenne de
coordination
4

3 et 4 attributs longueur minimale de la
coordination atteinte
5 attributs coordination plus longue

46
Critique des comportements obtenus
4

Grand nombre d'interactions nécessaires
besoin d'une phase d'apprentissage préalable

Problème difficulté d'obtenir un corpus de
traces d'interaction réelles
utilisation d'un utilisateur simulé avec un
comportement naïf

Constats stratégie optimale obtenue /
adaptation au comportement simulé - manque de
richesse dans les stratégies de coordination
Futur Simulateur d'utilisateurs réels ?
comportements plus intéressants
47
Partie 5 Conclusion et perspectives
Contexte et problématique
1
Approche théorique
2
Les services de recherche d'informations
3
Mise en œuvre des propositions
4
Conclusion et perspectives
5
48
Conclusion
5
Rattachement à un mouvement récent utilisant
l'apprentissage par renforcement pour des
applications réelles avec des humains.

Aspect stratégie de coordination
Apports
Possibilité d'apprendre ces stratégies par
renforcement en utilisant des MDP
Réponse aux besoins du plus grand nombre comme du
particulier avec les profils
Limites
Observabilité partielle de l'utilisateur au
travers des perceptions de l'agent
Baisse des performances pour des tâches plus
complexes

Aspect modélisation logicielle
Apports
Passage à une approche "orientée utilisateur"
pour les services
Solution incrémentale

49
Perspectives
5

Utiliser d'autres modèles/méthodes probabilistes
Apprendre à partir de politiques pré-établies
Apprendre en généralisant le modèle (DynaQ,
Classifieurs)
Approche POMDP (Q-learning modifié, Gradient de
Baxter)

Pour résoudre des tâches plus complexes
Reformuler l'espace d'états abstrait pour mieux
guider le processus dans l'espace réel.
Décomposition hiérarchique (H-MPD et H-POMDP)
avec une gestion des dépendances entre les
attributs
Passage à plusieurs sources et aux autres classes
de services
Composition de services (plusieurs coordinateurs)

50
Références
5

(Ferber 1995) Ferber J., Les Systèmes
Multi-Agents. Vers une intelligence collective.
Interéditions, 1995.
(Gelernter et Carriero 1992) Gelernter D. et
Carriero N., Coordination Languages and Their
Significance. Communications of the ACM, n35(2),
pp. 96-107, 1992.
(Grislin-LeSturgeon et Peninou 1998) Grislin-Le
Sturgeon E. et Péninou A., Les interactions
Homme-SMA réflexions et problématiques de
conception. Systèmes Multi-Agents de
l'interaction à la Socialité. Dans JFIADSMA'98,
Hermès, pp. 133-145, 1998.
(Goddeau et al. 1996) Goddeau D., Meng H.,
Polifroni J., Seneff S., Busayapongchaiy S., A
Form-Based Dialogue Manager For Spoken Language
Applications, In Proceedings of ICSLP'96,
Philadelphia, 1996.
(Larousse 1998) Le petit Larousse 1998,
Larousse-Bordas, 1998.
(Russell et Norvig 1995) Russell S. et Norvig P.,
Artificial Intelligence A Modern Approach, The
Intelligent Agent Book. Prentice Hall Series in
Artificial Intelligence, 1995.
(Sutton et Barto 1998) R. S. and Barto A. G.
Reinforcement Learning An Introduction. MIT
Press Cambridge MA, 1998.
(Watkins 1989) Watkins C., Learning from Delayed
Rewards. PhD Thesis of the King's College,
University of Cambridge, England, 1989.

51
Merci de votre attention

Avez-vous des questions ?

52
Suppléments
53
Utilité et évaluation des services
1
Nombreux indices possibles ? difficile à définir

Un choix classique U R - C
R Réussite de la tâche accomplie du point de
vue du concepteur
C Coûts d'utilisation des ressources (propres
ou détenues par des tiers)

Notre choix, moins courant, mais plus "orienté"
vers les services adaptatifs
R Réussite de la tâche accomplie du point de
vue des utilisateurs

Problème Comment quantifier la satisfaction de
l'utilisateur ?

Approximation une valeur numérique associée
actions de l'utilisateur
? Idée que l'agent estime son utilité à partir de
ses perceptions des autres ...

54
Typologie des Interactions (Ferber 1995)
1
buts incompatibles
Encombrement
Antagonisme
ressources insuffisantes
Interaction
Indifférence
Collaboration simple
Coopération
buts compatibles
Collaboration Coordonnée
capacités individuelles insuffisantes
55
Formalisation et interactions
1

Méthodologies et formalismes pour la conception
de SMA
AOP (Kendall et al. 1999)
AUML (Odell et al. 1999)
GAIA (Wooldridge et al. 2000)
MASE (Wood et DeLoach 2000)
TROPOS (Giunchiglia, et al. 2002)
RIO (Mathieu et al. 2003)
...
Langages et protocoles d'interaction
Graphes de transition (Winograd et Florès 1986)
Langage d'interaction COOL (Barbuceanu et Fox
1995)
Réseaux de Pétri (El Fallah-Seghrouchini et al.
1995)
...

56
h-SMA Partitions sur l'ensemble des agents
2
Agents contrôlés A C Agents partiellement contrôlés A PC Agents non contrôlés A NC
Agents Logiciels A L Programmes connus Programmes avec lesquels il est possible de communiquer de façon privilégiée Autres agents logiciels
Agents Physiques A P Robots et autres équipements asservis Equipements partiellement asservis et éventuellement des collaborateurs humains spécialistes Autres intervenants humains des utilisateurs le concepteur, etc.
57
Fournir un service
2
Objets ressources
Coordinateur de service
Utilisateurs
Interactions
Agents Fournisseurs
Interactions
construire et réaliser un service utile
satisfaction à maximiser
coûts à minimiser
58
Rôle et comportement typique
2

Comportement typique associé à un rôle r dans un
service sous la forme d'un graphe G (S, G), où
S l'ensemble des états s 0 , ... , s n
possibles du comportement (abstractions des états
réels des agents qui jouent ces rôles).
G transitions du comportement entre deux états
(perception, action, ...)

Schéma d'interaction Ensemble de graphes de
comportements G i (S i , G i) reliés entre eux
au niveau des états par des liens d'interaction
où une transition a Î G i peut provoquer une
transition b Î G j . Exemple de lien (a, b)
demander de l'aide ? réception d'une demande
59
Planification
2

A partir d'un modèle du monde connu
structure, lois d'évolution, etc.
actions disponibles et leurs effets
En fonction
d'un état initial (avec connaissance complète,
certaine ou non)
d'un état but (conditions de succès)
des contraintes (temps, autres ressources ...)
Déterminer un plan a priori (ou en situation)
Quelle est la séquence dactions à réaliser pour
atteindre le but ?
Types de planification
classique, conditionnelle/probabiliste, réactive,
sous contraintes, multi-agent, etc.

60
Un environnement complexe
2

Critères de Wooldridge
Virtuel capteurs / actionneurs logiciels
Incomplet vue partielle, locale mais à accès
global
Indéterministe effet des actions non garanti
Non épisodique prise en compte de l'historique
Très dynamique marchés, bases de données,
Internet
Continu grande latitude d'action

61
Surveillance et correction de service
2

Observation du modèle de normalité trajectoires
de fonctionnements normaux

Modèle de normalité
Trajectoire observée

Observation d'un cas particulier

Système de diagnostic

Comparaison au modèle

Risques de problème

Diagnostic détection danomalies

Réparation

Réparation par planification

62
Correction de trajectoire d'un agent
2
Espace de projection des états possibles de
lagent
63
Diagnostic et réparation indirecte
2
Influence
Influence
A1
A2
A3
Observé mais non contrôlé
Observé et contrôlé
Anomalie sur A1 ? Correction sur le comportement
de A2 ou A3 pour ramener A1 dans une bonne
trajectoire
64
Influences et traces de comportements
2

Dans un déroulement normal, les différents
comportements suivis par chaque agent se
synchronisent.
Une action produite par le comportement d'un
agent peut produire un effet sur le comportement
d'un autre agent.
Lobservation des comportements donne des traces
de processus, des trajectoires visibles ...
Utilisables !

65
Utilisation de l'influence pour réparer
2

Quand on observe une anomalie sur les agents
(t-1), on influe par une correction g sur les
agents contrôlés. L'effet de g se produit sur les
agent contrôlés (t) qui influent à leur tour sur
les agents non contrôlés (t1)
Pour un utilisateur, les corrections g doivent
lamener dans un état de satisfaction.

66
Construction progressive de la requête
3
Précision de la requête
Totalement spécifiée
Suffisamment spécifiée
Partiellement spécifiée
Nombre d'Interactions
Totalement inconnue
67
Attributs
3

Un attribut At est un triplet ltN, D, Qgt où
N est le nom de l'attribut
D v 1 ... v k est le domaine des
valeurs possibles
Q est un ensemble de questions qui peuvent être
posées
demander la valeur de l'attribut
proposer une valeur pour l'attribut,
demander confirmation de la valeur d'attribut.

Exemple d'attribut Nom Départ Domaine Paris,
Londres, Rome, Luxembourg, Berlin, Madrid,
Genève, Bruxelles Questions - Valuation Quelle
est votre ville de départ ? - Proposition
Souhaitez vous partir de ville ? -
Confirmation Êtes vous sûr de vouloir partir de
ville ?
68
Ensemble des Actions
3
Code Conditions Description de l'action Origine des paramètres
askvalue ea s '?' Demander à l'utilisateur la valeur de l'attribut At s. -
propose ea s ¹ 'A' Proposer à l'utilisateur une valeur pour At s. Préférences de l'utilisateur
confirm ea s 'A' Demander à l'utilisateur de confirmer la valeur de At s dans la requête s U. Etat de la requête s U
rqte qr '?' Envoyer la requête s U vers la source d'informations. Etat de la requête s U
select qr '' ou '' si la requête est pleinement contrainte Demander à l'utilisateur la sélection d'une entrée dans la liste des résultats Rep Etat des réponses s I
69
Mise à jour de la représentation
3

Comment mettre à jour la représentation des
interactions selon les réponses des autres agents
?
Quelles sont les observations possibles ?
Mise à jour confiée à la fonction Update (S ? O ?
Ac ? S)
Mise à jour de la requête partielle (au niveau
d'un attribut At i)
Mise à jour des résultats d'une requête

70
Mise à jour de l'état d'affectation d'un attribut
At i
3
(ea i , val i ) t-1 ac t-1 o t (ea i , val i ) t
(A, v) confirm oui (A, v)
(A, v) confirm nsp F
(A, v) confirm non ?
? askvalue v (A, v)
? askvalue nsp F
? propose v oui (A, v)
? propose v nsp F
? propose v non ?
F propose v oui (A, v)
F propose v nsp F
F propose v non F
71
Observations possibles pour le coordinateur
3
Observation Origine Action contexte Interprétation de l'observation
une valeur utilisateur askvalue Valeur d'attribut valide donnée par l'utilisateur
oui utilisateur propose, confirm Réponse positive de l'utilisateur à une demande simple
non utilisateur propose, confirm Réponse négative de l'utilisateur à une demande simple
une table source d'informations rqte Résultats donnés par la source d'informations
un numéro utilisateur select L'utilisateur a sélectionné une proposition
refus utilisateur select L'utilisateur a refusé une proposition
stop utilisateur askvalue, propose, confirm, select Arrêt par l'utilisateur (déconnexion)
nsp utilisateur askvalue, propose, confirm, select L'utilisateur indique qu'il ne sait pas répondre
aberrant utilisateur askvalue, propose, confirm, select Observation aberrante ou inattendue (ignorée)
72
Treillis d'états abstraits S avec deux attributs
3
73
Une trace dans l'espace d'états abstraits
3
ltA, ? ?gt ltA, ?, 0gt ltA, ? gt ltA, ? gt
ltA, A ?gt ltA, A, 0gt ltA, A gt ltA, A gt
ltF, ? ?gt ltF, ?, 0gt ltF, ? gt ltF, ? gt
ltF, A ?gt ltF, A, 0gt ltF, A gt ltF, A gt
lt?, ? ?gt lt?, ? 0gt lt?, ? gt lt?, ? gt
lt?, A ?gt lt?, A, 0gt lt?, A gt lt?, A gt
ltA, F ?gt ltA, F, 0gt ltA, F gt ltA, F gt
lt?, F ?gt lt?, F, 0gt lt?, F gt lt?, F gt
ltF, F ?gt ltF, F, 0gt ltF, F gt ltF, F gt
74
Q-Learning (Watkins 1989)
3

Méthode d'Apprentissage par Renforcement
Peut être utilisé "en ligne"

75
Q-Learning Algorithme général
3
4. On recommence au premier point.
76
Sélection des actions
3

L'algorithme du Q-Learning n'impose pas de façon
pour choisir les actions à effectuer.
Besoin d'un compromis Exploitation / Exploration
? Fonction de sélection de type Boltzmann

Exemple pour un état s donné
Q(a 0) Q(a 1) Q(a 2) Q(a 3)
5 -1 -4 3
77
Profils des utilisateurs
3

Utilisateurs
occasionnels ? satisfaire le plus grand nombre
(profil moyen)
fréquents ? gestion de profils individuels
spécialisés
Profil
Comportement adapté pour le service
Modélisation des préférences

78
Fonctions
3

Génération des récompenses Reward S ? O ? Ac ?
IR
Mise à jour de la représentation Update S ? O
? Ac ? S
Abstraction de la représentation Abstract S ?
S
Apprentissage et décision Q-Learning S ? IR ?
A
Spécialisation de l'action Specif A ? S ?
Prof ? Ac
Gestion des préférences Prefere Prof ? S ?
Prof

79
Architecture Fonctionnelle du Coordinateur
3
Q-Learning
a t
r t
s t
MDP
Abstract
tt1
tt1
profil t
Prefere
Reward
Specif
s t
ac t
tt1
Update
Environnement
o t
80
Architecture Agent d'UniMédia
4
Service
Source d'informations
Modélisation des services
Client
Coordinateur
Modélisation des agents
Agent
Modélisation des ressources
Ressource
Synthèse vocale
Reco vocale
Media
81
Le niveau média
4

Les canaux médias
Vus comme des vecteurs de linformation
Caractéristiques variées
mode de transmission,
topologie,
adressage,
délais de transmission ...

? Besoin de saffranchir de leur spécificité

Hypothèse Ils offrent des "prises" sur
lesquelles les ressources peuvent se positionner
82
Le niveau ressource
4
Définition Dispositif matériel, une partie
logicielle ou corporelle utilisé par lagent pour
réaliser sa tâche de façon interne ou externe
dans lenvironnement multimédia (au travers des
prises et des canaux)

Exemple
Les capteurs et effecteurs de l'agent,
Des outils de traitement dinformation.

Proposition d'utiliser des Modèles de Ressource
Abstraction des fonctionnalités (opérateurs
conditions ? actions)
Description des caractéristiques
Moyens d'accès à la ressource (identification,
authentification ...)
Moyens de contrôle de la ressource (protocoles /
langages utilisés)
Capacité, Coût dutilisation, Disponibilité,
Sécurité, confiance, Fiabilité, robustesse, etc.

83
Descripteurs de ressources XML
4

RESSOURCE
MEDIA
TYPE
PROTOCOL
OPLIST
OPERATOR
OPNAME
PRECOND
EFFECT

84
Treillis d'opérateurs
4
Opérateur universel
Descripteur de ressource
Opérateur abstrait
Opérateur abstrait
Opérateur réel
Opérateur réel
Opérateur réel
classification
Opérateur absurde
85
Le niveau agent
4

Agents intelligents réactifs
De nature hétérogène
Humains (clients, télé-opérateurs ...)
Logiciels (Agent SGBD, Web ...)
Contrôlés
Partiellement contrôlés (comme des applications
tiers)
Qui jouent un rôle donné dans le service dont le
comportement peut être défini à partir
De buts et de contraintes assignés
Dun modèle à priori, enrichi dobservations

86
Le niveau service
4
Rôle R1
Rôle R2
Rôle R3

Représentation par les graphes de service
Schémas dinteraction mettant en œuvre les rôles
des agents
Vision globale du service

87
Implantation du coordinateur
4
Corps d'agent SmallMu
Base de données
Utilisateur
88
Quantité de code Maquette SmallMu et Prototype
de Coordinateur
4

Représente environs 12 000 lignes de code en
langage Java

SmallMu (Noyau) 2100
SmallMu (Ressources) 3000
Bibliothèques Cartographie et Représentation 3270
Bibliothèques Probabilités et Apprentissage par Renforcement 1730
Modules du Coordinateur 2260
89
Résultats d'apprentissage 3-5 attributs(Somme
des récompenses / 1000 itérations)
4

3 attributs Forme exponentielle classique
4 attributs Croissance et maximum moins marqués
5 attributs Dégradation des performances

90
Démonstration 3 attributs
4
91
Démonstration 5 attributs
4
92
Apprentissage par Renforcement
3

Jusqu'à présent Apprentissage par renforcement
Optimisation
Robotique mobile
Application à des cas abstraits
Mouvement récent
utilisation dans le cas d'applications réelles
avec l'intervention d'humains (Singh al. 2002)

93
Intégration à Unimédia - 1
5

Agents A C ? Applications (scripts)
Agents A PC ? Applications Tiers
Agents A NC ? Utilisateurs
Ressources ? Pilotes et Moteurs
Opérateurs ? Modèles

94
Intégration à Unimédia - 2
5

Agent ? Unimédia "Light"
Communication inter-agent / médias
Besoins langage, connaissances communes

95
Société d'agents média
5
Agent A
SmallMu A
Agent C
Pilote 3A
SmallMu C
Pilote 1C
Pilote 1A
Pilote 2A
Pilote 2C
Agent D
Agent B
Pilote 2D
Pilote B1
SmallMu B
Pilote B2
SmallMu D
Pilote 1D
96
Références additionnelles
5

(Barbuceanu et Fox 1995) Barbuceanu M. et Fox M.
S., COOL A language for describing coordination
in multiagent systems. In Proceedings of
ICMAS'95, 1995.
(Chalupsky et al. 1992) Chalupsky H., Finin T.,
Fritzson R., McKay D., Shapiro S. et Wiederhold
G., An overview of KQML A knowledge query and
manipulation language. TR, KQML Advisory Group,
April 1992.
(El Fallah-Seghrouchini et al. 1999) El
Fallah-Seghrouchini A., Haddad S. et Mazouzi H.,
A Formal study of interaction in Multi-Agent
Systems, In Proceedings of CATA'99, Cancun,
Mexique, 1999.
(Levin et al. 1998) Levin E, Pieraccini R. and
Eckert W. Using Markov Decision Process for
Learning Dialogue Strategies. In Proceedings of
ICASSP'98, Seattle, USA, 1998.
(Mathieu et al. 2003) Mathieu P., Routier J.-C.
et Secq Y., RIO Rôles, Interactions et
Organisations. Dans MFI'03. Lille, mai, 2003.
(Odell et al. 1999) Odell J., Parunak H. V. D.,
et Bauer B., Extending UML for Agents, In
Proceedings of the AOIS Workshop of AAAI 2000,
pp. 3-17, Austin, Texas, 2000.
(Levin et al. 1998) Levin E, Pieraccini R. and
Eckert W. Using Markov Decision Process for
Learning Dialogue Strategies. In Proceedings of
ICASSP'98, Seattle, USA, 1998.
(Mathieu et al. 2003) Mathieu P., Routier J.-C.
et Secq Y., RIO Rôles, Interactions et
Organisations. Dans MFI'03. Lille, mai, 2003.
(Odell et al. 1999) Odell J., Parunak H. V. D.,
et Bauer B., Extending UML for Agents, In
Proceedings of the AOIS Workshop of AAAI 2000,
pp. 3-17, Austin, Texas, 2000.
(Singh et al. 2002) Singh S., Litman D., Kearns
M. et Walker M., Optimizing dialogue management
with Reinforcement Learning Experiments with the
NJFun System. In JAIR, Vol. 16, pp. 105-133,
2002.
(Winograd et Florès 1986) Winograd T. et Florès
F., Understanding computers and cognition A new
foundation for design. Ablex Publishing Corp,
Norwood, New Jersey, 1986
(Young 1999) Young S., Probabilistic Methods in
Spoken Dialog Systems. In Royal Society, London,
September 1999.