Les Heuristiques pour La Planification de Moindre Engagement - PowerPoint PPT Presentation

1 / 27

About This Presentation

Title:

Les Heuristiques pour La Planification de Moindre Engagement

Description:

Choisis une r solution pour la menace et ajoute les contraintes ... buts non expliqu s, et qui pr f re toujours les sous-buts le plus r cemment ajout , peut- tre d crit comme: ... – PowerPoint PPT presentation

Number of Views:70

Avg rating:3.0/5.0

Slides: 28

Provided by: sec199

Category:

more less

Transcript and Presenter's Notes

Title: Les Heuristiques pour La Planification de Moindre Engagement

1
Les Heuristiques pour La Planification de Moindre
Engagement
2
Les Heuristiques

Cest difficile à mesurer la distance entre un
état but et un état dans lespace de plans.

Un état dans lespace de plans partiels
Un état dans le domaine
3
Lestimation de la distance

La planification utilise un recherche meilleur
dabord.

f(s) g(s) h(s)
Par exemple
g(s) S (le nombre dactions)
g(s)
h(s) un estimation du montant de travail
qui reste pour atteindre un état but
s
h(s)
Question comment peut-on estimer h(s)?
4
Une Estimation Très Simple

La distance entre un plan partiel et un état but
peut-être approximée comme le nombre de buts non
expliqués dans le plan
Le nombre de liens causaux peut-être utilisé
comme une estimation du travail déjà fait
Si les menaces sont gardées aussi dans le plan,
lestimation peut prendre en compte le nombre de
menaces non résolues

(minimiser on veut les plans le plus court, donc
on minimise le nombre dactions. Aussi on
veut le moindre travail à faire, donc on
minimise le nombre de buts non expliqué.)
F(s) A P
On maximise le nombre de liens causaux parce
quils representent le travail déjà fait.
F(s) A P - C
F(s) A P M - C
On minimise le nombre de menaces.
5
Le But
Trouver une fonction qui limite la taille de
lespace de recherche qui est construit, mais qui
garde des solutions.
Après avoir choisi un noeud dêtre developpé, le
prochain étape est de choisir un défaut de
résoudre.
Sil y a un choix, il pourrait être très
important pour lefficacité du recherche.
6
Deux Types de Défauts

Nous avons consideré une forme de planification
de moindre engagement, où toutes les menaces qui
sont créees par laddition dune action sont
résolues quand cette action est choisie.
Autre possibilité les menaces ne sont pas
résolues mais elles sont gardées comme les
menaces non résolues.
Maintenant il y a deux formes de défaut possible
dans un plan partiel les buts non expliqués et
les menaces non résolues.
Chaque fois sur la boucle le planificateur doit
choisir quel défaut de considérer dabord.

7
Ajoute les nouveaux plans à lespace de recherche
Ordonne les plans dans lespace selon une
fonction heuristique.
(il y en a beaucoup, parce que il y a les
differentes actions dans le plan, et les choix
de contraintes etc.
Pour chaque possibilité
Ajoute laction au plan
Choisis un plan partiel de lespace de recherche
Choisis une action déjà dans le plan
Choisis un effet positif qui peut unifier avec p.
Pour chaque possibilité
Choisis une nouvelle action
but
oui
Cest une solution?
finis
Ajoute les contraintes temporelles et
augmente lenvironment pour utiliser Laction.
non
Choisis un défaut
Pour chaque possibilité
Choisis une résolution pour la menace et ajoute
les contraintes quil faut.
menace
Ajoute les nouveaux plans à lespace de recherche
8
Les Couts de Réparation

Dun but non expliqué
Étant donné un plan (A,T,E,C,P,M)
le coût dun but (p,t) dans P est I S N, où
I le nombre de propositions dans létat initial
qui doivent unifier avec p, utilisant seulement
les contraintes dans lenvironment E.
S le nombre de propositions dans les effets
positifs dactions dans A, qui doivent unifier
avec p utilisant seulement les contraintes dans
lenvironment E. On considère juste les actions
qui sont contraintées par T dêtre avant t,
N I le nombre de propositions dans les effets
positifs des nouvelles actions qui peuvent
unifier avec p.
Dune menace dans M.
Dabord nous pouvons distinguer entre deux
types de menaces.

9
Les Menaces Non-Séparables

Une action, S1, avec un effet, E.
Un lien causal (S2,F,S3), où E et F sont déjà
forcés dunifier par les contraintes
dunification dans le plan.
Seulement 2 résolutions possible
S1 lt S2
S3 lt S1
Donc, le coût est 2.
Le coût reduit comme le plan grandit (parce quil
y a toujours plus de contraintes qui peuvent
empêcher le résolution).

10
Les Menaces Séparables

Une action, S1, avec un effet, E.
Un lien causal (S2,F,S3), ou E et F peuvent
unifier mais leur unification nest pas forcé.
Il y a au moins trois possibilités pour résoudre
la menace
S1 lt S2
S3 lt S1
E F (Il y a un choix de paires de variables de
séparer)
Le coût reduit comme le plan grandit.

11
Les Stratégies de Préférence
Martha Pollack, David Joslin and Massimo Paolucci
1997 Flaw Selection Strategies for Partial Order
Planning, Journal of AI Research vol 6.

Une stratégie pour décider comment de développer
un plan peut-être décrit par lordre dans lequel
elle résout les menaces.
On utilise la notation
o les buts non expliqués (open conditions)
n les menaces non séparables
s les menaces séparables
On peut aussi distinguer les différentes méthodes
pour choisir entre deux possibilités du meme
type
LIFO (dernier entré, premier sorti)
FIFO (premier entré, dernier sorti)
LC (coût plus bas)
R (aléatoire)

12
Les Stratégies en Notation

Une stratégie qui traite dabord les buts non
expliqués, et qui préfère toujours les sous-buts
le plus récemment ajouté, peut-être décrit comme
Une autre possibilité on peut préférer les buts
non expliqués en ordre LIFO, suivi par les
menaces non séparables en ordre du moins chères,
suivi par les menaces séparables en ordre choisi
aléatoirement

o LIFO
o LIFO / n LC / s R
13
Des Stratégies Utilisées

Pemberthy and Weld (UCPOP)
n,s LIFO / o LIFO
McAllester and Rosenblitt SNLP
n,s R / o R
Peot and Smith
DSep n LIFO / o LIFO / s LIFO
DSep-LC n LIFO / o LC / s LIFO
DUnf n,s0 LIFO /n,s1 LIFO /o LIFO
/

n,s2
LIFO
Gerevini and Schubert
ZLIFO n LIFO / o0 LIFO / o1 EA /
o2 LIFO /
s LIFO
Pollack et al.
LCFR n LC / o0 LC / o LC / o1 EA /
o2 LC
/ s LC

14
Les Propriétés des Stratégies

ZLIFO elle préfère les menaces et les buts pour
qui les résolutions sont déjà forcées par le
plan.
Ça correspond à une stratégie de préférer les
défauts les moins chers.
DUnf aussi préfère les menaces comme ça, mais
elle ne distingue pas entre les buts par leurs
coûts.
ZLIFO est une stratégie de zero engagement. Elle
najoute aucunes contraintes pas déjà forcées.
LCFR et ZLIFO sont très semblable, sauf que ZLIFO
retarde les menaces séparables.

15
Analyses Empirique

Les analyses de Pollack et al. montrent que cest
utile en général de prioritiser les défauts les
moins chers.
Cest aussi utile de retarder les menaces
séparables.
Les stratégies comme ça construisent, en général,
les espaces de recherche moins grands que les
autres stratégies considerées.
Mais il y a toujours les exceptions (cest pour
ça que les stratégies sont heuristiques).

16
Développements

La planification de moindre engagement est très
bien adaptée pour utilisation avec un langage
plus expressif.
Par exemple, les modèles temporels dactions,
lutilisation des ressources, les buts
persistants, les buts avec les deadlines, etc.
Malgré les problèmes de recherche, cette forme de
planification est très puissante est parmi les
plus prometteurses pour lavenir.

17
Le Langage dUCPOP
E.P.D.Pednault 1989 ADL Exploring the middle
ground between STRIPS and the Situation Calculus
In Proceedings of KR 1989

Le langage est fondé sur ADL.
Il contient les actions de la forme de STRIPS
avec
Les préconditions quantifiés
Les effets quantifiés
Les effets conditionnels
Les schemas contiennent des variables, qui sont
quantifiés universellement.

18
Les Propriétés des Langages

Nous discuterons les langages, leur
expressivité et leur semantique apres Noël, mais
nous commencons par considérer maintenant
plusieurs aspects dans les transparents suivantes.

19
Un Exemple du Langage de UCPOP

Quand on bouge un cartable dun endroit à
lautre, tous les choses dans le cartable bougent
aussi.
Quand on bouge un bloc nimporte quel surface
dessous le bloc devient clair.

(Bouger(xcartable, yendroit, z
endroit) Précondition (à x y) Effet (à x z)
(à o z) zobjet (dans o x) (à x y)
(à o y) zobjet (dans o x) )
A
A
(Bouger (xbloc, ysurface) Precondition (clair
x) (clair y) Effet (sur x y) (clair z)
zsurface (sur x z) (sur x z) zsurface
(sur x z) (clair y)
A
A
20
La Sémantique

Les quantificateurs universel et existentiel
changent la sémantique de STRIPS.
Quest ce quon veut dire par une précondition
existentiellement quantifiée? Laction fait une
transition entre un ensemble détats et un état.
Un effet positif existentiellement quantifié?
Laction produit un ensemble détats. Aussi une
action peut créer les objets.
Un effet negatif universellement quantifié?
Laction produit en ensemble détats.
Les effets positif, et les préconditions,
universellement quantifiés preservent la
semantique de STRIPS.

21
Après UCPOP

UCPOP, TWEAK et SNLP ont élevé le niveau de
discussion sur les aspects formels de la
planification.
Il a devenu important de construire une fondation
scientifique pour le cadre de planification.
Un problème pour la communauté était que cétait
très dur à faire des comparaisons entre les
different planificateurs, qui ont tous utilisés
leurs propres langages, leurs propres
heuristiques, etc.
En 1998 nous avons eu la première compétition de
la planification.
Le language PDDL était publié. Il a devenu le
langage standard pour modélisations des domaines.

D.McDermott, AI Magazine 2000
22
Les Actions Temporelles

Dans les domaines réalistes les actions prennent
du temps.
Par exemple
déplacer un camion entre deux villes sur une
carte
saisir et bouger un objet
ouvrir une porte, etc.
Les modèles propositionnels comprennent seulement
les actions instantanées.
Les planificateurs propositionnels ne considèrent
pas le passage du temps.
Ils ne peuvent pas exploiter le vrai concourance
qui existe dans les domaines.

23
Les Actions Duratives

Il y a plusieurs suggestions pour modeler les
actions qui prennent du temps.

Smith and Weld (TGP)
Action A Précondition P Effets E Duré 10
A
E
P
Ghallab and Laruelle (IxTeT) Khambampati and Do
(Sapa)
Action A Precondition (p1,(start,t1)
(p2,(t2,t3) Effets (e1,t1)
(e2,t2) (e3,t3)
(E,end) Duré 10
p
e1
e3
E
e2
1
p2
24
La Compétition de Planification 2002
Action A Conditions Pstart Pend
Inv Effets Estart Eend Duré
10
Inv
Pstart
Pend
Estart
Eend
Ce langage est suffisamment expressif de capturer
tous les features des langages d IxTeT et Sapa.
Cétait développé pour la compétition et cest
(pour linstant) le standard pour modèlisation
des domaines temporels.
Le langage sappelle PDDL2.1.
Vous pouvez trouver le langage et beaucoup
dexemples des domaines écrits en PDDL2.1 sur le
web page des cours.
25
Modelisation des Ressources

Les langages dIxTeT, Sapa et PDDL2.1 peuvent
modéler la consommation et production des
ressources.
Par exemple laction de déplacer un camion
utilise du fioul, comme une fonction du vitesse,
la distance et le rythme de la consommation.
Laction de refiouler un camion remplit la
citerne comme une fonction du rythme du livraison
du fioul.
La consommation et production de tels ressources
peuvent être approximés par les fonctions
lineares par morceau.

26
Les Consequences

Quand on modele lutuilisation du temps et des
ressources, le problème de planification est
beaucoup plus complexe.
Il y a des menaces qui ne sont pas logique, mais
numerique.
Il y a des problèmes de comment dexploiter le
concourance possible parmi des activités.
On peut poser les buts temporels, qui impose les
contraintes temporels sur le plan.
On doit mésurer la qualité dun plan par une
fonction beaucoup plus sophistiqué quavant.

27
Apres Noël