Syntaxe et analyse syntaxique - PowerPoint PPT Presentation

About This Presentation
Title:

Syntaxe et analyse syntaxique

Description:

Syntaxe et analyse syntaxique Eric Laporte Institut Gaspard-Monge Universit Paris-Est Marne-la-Vall e France http://igm.univ-mlv.fr/~laporte/ – PowerPoint PPT presentation

Number of Views:105
Avg rating:3.0/5.0
Slides: 66
Provided by: lapo156
Category:

less

Transcript and Presenter's Notes

Title: Syntaxe et analyse syntaxique


1
Syntaxe et analyse syntaxique
Eric LaporteInstitut Gaspard-MongeUniversité
Paris-Est Marne-la-ValléeFrancehttp//igm.univ-
mlv.fr/laporte/
2
Syntaxe et analyse syntaxique
ObjectifsConstituants syntaxiquesAmbiguïtéChunk
sGrammaires algébriquesRéseaux de transitions
récursifsApplication glissanteTransducteursLiné
arisation
3
Objectifs
4
Objectifs de la syntaxe
  • Traduction
  • The guy of room 5 misses the girl of room 3

La fille de la chambre 3 manque au type de la
chambre 5 Délimiter pour déplacer Mots
ambigus 1939 l'Allemagne annexe la
Pologne Veuillez me faire parvenir l'annexe
technique du contrat Délimiter pour lever
l'ambiguïté
5
Syntaxe
  • Je vais fermer l'autre porte
  • autre fermer je l'porte vais
  • Comment les mots se combinent-ils en phrases qui
    ont un sens ?
  • Dans quel ordre ?
  • Quelles combinaisons sont possibles ?

6
Constituants syntaxiques
7
Constituants syntaxiques (1/3)
  • Certaines suites de mots dans une phrase forment
    des constituants
  • Exemple 1 groupes nominaux
  • vingt autres journaux
  • l'Inde
  • l'offre
  • une seconde section d'équilibristes
  • l'un des meilleurs bâtiments à voile de la
    compagnie
  • Exemple de propriété commune à ces groupes
  • Peuvent être suivis d'un verbe dans une phrase

8
Constituants syntaxiques (2/3)
  • vingt autres journaux titrent...
  • l'Inde est...
  • l'offre parvient à...
  • une seconde section d'équilibristes arriva
  • l'un des meilleurs bâtiments à voile de la
    compagnie peut...
  • ce n'est pas vrai de n'importe quelle séquence de
    mots
  • journaux titrent...
  • l'parvient à...
  • seconde d'équilibristes arriva
  • On doit donc pouvoir spécifier "un groupe nominal
    peut être suivi d'un verbe"

9
Constituants syntaxiques (3/3)
  • Exemple 2 groupes nominaux prépositionnels
  • depuis quelques mois
  • Déplacement de ce groupe
  • Depuis quelques mois la situation évolue
  • La situation depuis quelques mois évolue
  • La situation évolue depuis quelques mois
  • ce n'est pas vrai de n'importe quelle séquence de
    mots
  • Depuis mois la situation quelques évolue
  • Depuis situation quelques mois la évolue
  • Mois la situation évolue depuis quelques

10
Arbres de constituants (1/2)
GN
GAdj
Det
Adj
N
GAdv
Adv
un
bâtiment à voile
assez
réputé
11
Arbres de constituants (2/2)
P
GN
GN
Det
N
préfère
cette
Luc
compagnie
Notation parenthésée (P (GN Luc) préfère (GN (Det
cette) (N compagnie))) (P (GN (Det Quels) (N
vols)) proposent (GN (Det un) (N dîner)) ?)
12
Ambiguïtés
13
Arbres et interprétations (1/3)
  • le livre de (la fille sur la photo) dans le sac
  • le livre de la fille sur (la photo dans le sac)
  • le livre de (la fille) sur (la photo) dans (le
    sac)

GN
Det
N
Prép
Prép
GN
GN
le
livre
de
sur
Det
N
Prép
GN
Det
N
la
photo
dans
la
fille
Det
N
Ambiguïté syntaxiqueÀ chaque arbre correspond
une interprétation
le
sac
14
Arbres et interprétations (2/3)

Les arbres permettent de représenter certaines
ambiguïtésltconfituregtde la confiture
ltingredientgtà la rhubarbe congeléelt/ingredientgtlt/c
onfituregtltconfituregtde la confiture
ltingredientgtà la rhubarbelt/ingredientgt
congeléelt/confituregtAmbiguïté syntaxique
15
Arbres et interprétations (3/3)

La tempête n'a pas eu l'ampleur redoutée en
raison de la concomitance d'une forte marée(Le
Monde 12 novembre 2007)A paper in this week's
Science purports to identify an impact crater as
big as the famous "dinosaur killer" at Chicxulub,
in Mexico(The Economist 15 mai 2004)Ambiguïté
syntaxique
16
Ambiguïtés syntaxiques

Luc recouvre la table de boisLe MEDEF demande
depuis longtemps la suppression de cet impôt, qui
pousserait les entrepreneurs à quitter la France
Moules et frites à volonté  15 Les
indépendantistes ne désespèrent pas de récupérer
le terrain perdu sur les autonomistes lors du
scrutin régional de 2010 (lu en 2009)
17
Ambiguïtés (1/2)

Un lecteur anonyme a trouvé cette solution
astucieuselexicales trouvésyntaxiques
rattachement de astucieuseAmbiguïté lexicale et
ambiguïté syntaxiqueDifférence dans les
étiquettes lexicalesDifférence dans
l'arbreBeaucoup d'ambiguïtés sont à la fois
lexicales et syntaxiques
18
Ambiguïtés (2/2)

Le marketing utilise des procédés littéraires
élaborés à des fins utilitaires et
mercantiles(Le Monde juin 2008)On a placé la
table ronde sur les revêtements naturels à 10 h
19
Ambiguïtés syntaxiques et reformulation

Luc recouvre la table de bois Luc recouvre la
table avec du bois Luc recouvre la table qui est
en boisLe MEDEF demande depuis longtemps la
suppression de cet impôt, qui pousserait les
entrepreneurs à quitter la France Le MEDEF...
cet impôt. Cet impôt pousserait
les entrepreneurs à quitter la France Le
MEDEF... cet impôt. La suppression de cet
impôt pousserait les entrepreneurs à quitter la
FranceMoules et frites à volonté  15 Un
lecteur anonyme a trouvé cette solution
astucieuseOn a placé la table ronde sur les
revêtements naturels à 10 h
20
Ambiguïté artificielle (1/2)
  • les vols de (la soirée de lundi) pour Toulouse
  • les réponses de Luc à (plusieurs questions de
    Marie)

GN
Det
N
Prép
Prép
GN
GN
les
vols
de
Npr
pour
Det
N
Prép
GN
lundi
Toulouse
la
soirée
de
21
Ambiguïté artificielle (2/2)
  • les vols de (la soirée de lundi) pour Toulouse
  • les réponses de Luc à (plusieurs questions de
    Marie)

GN
Det
N
Prép
Prép
GN
GN
Npr
les
réponses
de
à
Det
N
Prép
GN
Luc
plusieurs
questions
Npr
de
Marie
22
Chunks
23
Constituants non récursifs ou chunks (1/2)
  • (GN (GN l'un des meilleurs bâtiments à voile)
    de (GN la compagnie))
  • Une suite de deux chunks
  • Constituants qui ne contiennent pas un
    constituant de la même catégorie
  • (GN l'un des meilleurs bâtiments à voile de (GN
    la compagnie))
  • Un GN inclus dans un autre le petit est un
    chunk, le grand non
  • Si le GN est précédé d'une préposition, on
    l'inclut dans le chunk

24
Constituants non récursifs ou chunks (2/2)
  • Parmi ces passagers du Mongolia, on
    comptait divers fonctionnaires civils et des
    officiers de tout grade
  • Une phrase est presque une séquence de chunks,
    surtout nominaux
  • on comptait chunk verbal
  • M. Fogg quitta l'hôtel, seul, après
    avoir recommandé à son domestique de
    l'attendre
  • seul chunk adjectival
  • Oui ! oui ! répétait machinalement le
    pauvre garçon
  • machinalement chunk adverbial

25
Mots composésou expressions multi-mots
  • L'un des meilleurs bâtiments à vendre
    actuellement
  • bâtiments à vendre n'est pas un mot composé
  • L'un des meilleurs bâtiments à voile de la
    compagnie
  • bâtiments à voile est un mot composé
  • Compositionnalité ou non
  • bâtiments à vendre
  • sens calculable à partir des sens de bâtiments
    et à vendre
  • bâtiments à voile
  • à voile n'a pas vraiment un sens indépendamment
    de bâtiment et quelques autres noms
  • Distribution libre ou figée
  • (bâtiments stylos ...) (à vendre en bon
    état ...)
  • (bâtiments bateaux stylos) (à voile à
    vapeur à mâts)

26
Grammaires algébriques
27
Grammaires algébriques (1/2)
  • Context-free grammars
  • Outil de manipulation des constituants
    syntaxiques
  • Règles indiquent la combinaison et l'ordre des
    éléments
  • GN --gt Det N GAdj
  • GN --gt Npr
  • GAdj --gt GAdv Adj
  • GAdv --gt GAdv Adv
  • GAdv --gt Adv
  • Lexique Liste des mots (symboles terminaux)
  • Liste des symboles non terminaux GN GAdj GAdv
    Det...

28
Grammaires algébriques (2/2)
  • Les règles peuvent comporter des mots dans le
    membre droit
  • Npr --gt Luc
  • Det --gt un
  • N --gt bâtiment à voile
  • Adj --gt réputé
  • Adv --gt assez
  • GN --gt Det offre de GN
  • Membre gauche obligatoirement un non-terminal
  • Membre droit séquence de symboles terminaux ou
    non terminaux

29
Dérivation
  • Réécriture utilisant les règles
  • GN --gt Det N GAdj (règle)
  • --gt Det N GAdv Adj (règle GAdj --gt GAdv Adj )
  • --gt Det N Adv Adj (règle GAdv --gt Adv )
  • --gt un N Adv Adj (règle Det --gt un )
  • --gt un bâtiment à voile Adv Adj (règle N --gt
    bâtiment à voile )
  • --gt un bâtiment à voile assez Adj (règle
    Adv --gt assez )
  • --gt un bâtiment à voile assez réputé (règle
    Adj --gt réputé )
  • On peut dériver un bâtiment à voile assez réputé
    de GN

30
Axiome
  • Le langage formel engendré par la grammaire est
    l'ensemble des séquences de terminaux dérivables
    à partir de l'axiome
  • Axiome
  • un des non-terminaux
  • Si la grammaire engendre des phrases, l'axiome
    correspond au symbole "phrase"
  • Phrase grammaticale
  • phrase engendrée par la grammaire
  • Analyse syntaxique
  • associer à une phrase son (ou ses) arbres de
    dérivation

31
Règles pour les phrases (1/2)
  • P --gt GN préfère GN Luc préfère cette compagnie
  • P --gt GN quitte GN Prép GN
  • Luc quitte Paris vers 10 h
  • P --gt GN part Prép GN
  • Luc part après la réunion

P
GN
GN
Det
N
préfère
cette
Luc
compagnie
32
Règles pour les phrases (2/2)
  • P --gt montrez-PRO GN Montrez-moi tous les vols
  • P --gt est-ce que il y a GN Prép GN ?
  • Est-ce qu'il y a un dîner sur le vol 312 ?
  • P --gt GN proposent GN ?
  • Quels vols proposent un dîner ?
  • Notation parenthésée
  • (P (GN (Det Quels) (N vols)) proposent (GN (Det
    un) (N dîner)) ?)

33
Règles pour les groupes nominaux
  • GN --gt Det N un arrêt
  • GN --gt Det Adj N une petite attente
  • GN --gt Det GAdj N la plus longue attente
  • GN --gt Det N GAdj un coût trop élevé
  • GN --gt Det de N beaucoup d'attente
  • GN --gt Det N Prép GN les vols pour Toulouse
  • GN --gt Det N Rel
  • les vols qui arrivent à Toulouse avant midi
  • GN --gt Det N Prép GN Prép GN
  • les vols de la soirée pour Toulouse

34
Règles pour la coordination
  • GN --gt GN Conj GN un arrêt et une attente
  • P --gt P Conj P On s'arrête et on attend
  • GAdj --gt GAdj Conj GAdj tentant mais dangereux
  • etc.
  • GN --gt Det N Prép GN les vols pour Toulouse
  • GN --gt Det N Prép GN Conj Prép GN
  • les vols pour Toulouse ou depuis Toulouse

35
Formalisation
Définition(X, V, A0, P) X alphabet terminal,V
alphabet des variables (V n X ø),A0 ? V
axiome,P ensemble fini des règles ? V (V
X).
36
Dérivations
Définition f ? g pour f, g ? (V X) ssi on a
les factorisations f uAv et g uhv avec une
règle A ? h ? P. Exemple des taille0
entreprises ? des grandes entreprises Langage
engendré par la grammaire cest lensemble des f
? X tels que A0 ? ? f. Exemple entrepr0 ?
salariés des taille0 entreprises ? salariés des
petites entreprises ? X donc salariés des
petites entreprises est engendré par la grammaire
37
Réseaux de transitions récursifs
38
Réseaux de transitions récursifs (RTN) (1/2)
Recursive transition network (RTN)Comme les
graphes, mais un noeud peut appeler un autre
graphe (sous-graphe)Pour appeler un
sous-grapheécrire "" et le nom du
sous-graphePar rapport à un graphe simple on
peut représenter plus de formesLes appels à des
sous-graphes peuvent faire des cycles
39
Réseaux de transitions récursifs (2/2)

entre.grftaille.grf
40
Formalisation (1/2)

entre.grftaille.grfNoms des états
entre0, entre1... taille0, taille1...Un seul
état initial entre0Transition étiquetée par un
état de entre3 vers entre4 étiquetée par taille0
41
Formalisation (2/2)
L'alphabet est constitué de deux parties
disjointes, l'alphabet terminal et l'ensemble des
étatsDéfinitionUn automate fini (X Q, Q, q-,
F, d) X alphabet terminal, (les étiquettes qui
ne sont pas des appels à des sous-graphes)Q
ensemble des états (Q n X ø), (les états des
graphes)q- état initial ? Q, (l'état initial du
graphe principal)F ? Q ensemble des états
finaux,d ensemble fini des transitions ? Q (X
Q e) Q (une transition étiquetée par un
état est un appel à un sous-graphe l'état est
l'état initial du graphe appelé)
42
Les RTN avec Unitex

Un RTN est représenté dans Unitex par un ensemble
de graphesUn graphe principal et tous les
sous-graphes appelésLes états du RTN sont les
états des graphes (les états de chaque graphe
sont numérotés à partir de 0, mais aucun état
n'est commun à plusieurs graphes)Les appels à
des sous-graphes sont représentés dans Unitex par
le nom du fichier contenant le sous-graphe
43
Dérivations
Définition f ? g pour f, g ? (Q X) ssi on a
les factorisations f uqv et g uhv avec un
chemin étiqueté h allant de q à un état
final. Exemple il existe un chemin étiqueté
petites et moyennes allant de taille0 à taille1,
donc taille0 ? petites et moyennes et des taille0
entreprises ? des petites et moyennes
entreprises Langage engendré par le réseau cest
lensemble des f ? X tels que q- ? ? f.
Exemple entrepr0 ? salariés des taille0
entreprises ? salariés des petites et moyennes
entreprises ? X donc salariés des petites et
moyennes entreprises est engendré par le réseau
44
Équivalence entre RTN et grammaires algébriques
(1/5)
Une grammaire algébrique équivalente entrepr0
? salariés des taille0 entreprises entrepr0 ?
patrons des taille0 entreprisesentrepr0 ?
salariés des entreprises entrepr0 ? patrons des
entreprisestaille0 ? petites taille0 ? moyennes
taille0 ? grandes
45
Équivalence entre RTN et grammaires (2/5)
Ces deux formalismes engendrent les mêmes
langages formelsPour une grammaire (X, V, A0,
P)À chaque règle A ? h on fait correspondre un
automate avec un unique état initial A qui na
aucune transition entrante. (Deux quelconques de
ces automates ne peuvent avoir en commun que leur
état initial. Si une transition va dun état dun
de ces automates à un état dun autre alors elle
sort de létat initial commun aux deux
automates.)On obtient un réseau (X Q, Q, A0,
F, d) en regroupant dans F les états finaux de
ces automates et dans d leurs transitions.Une
dérivation A ? h est valable dans la grammaire
ssi elle est valable dans le réseau.
46
Pour un réseau (X Q, Q, q-, F, d) A
chaque état q on fait correspondre lautomate
obtenu en prenant q comme unique état initial,
puis une grammaire (X Q, Vq, Aq, Pq) engendrant
le même langage sur X Q que cet automate. Les
ensembles de variables Vq sont disjoints de Q et
deux à deux disjoints. On crée une grammaire
(X, V Q, q-, P1 P2) où V est lunion des Vq,
P1 lunion des Pq, et P2 lensemble des règles q
? Aq.
47
Le langage engendré par la grammaire est égal à
celui engendré par le réseauSi une dérivation
(élémentaire) q ? f pour un état q ? Q est
valable dans le réseau, alors elle est valable
(en plusieurs étapes) dans la grammaire
Inversement, à toute dérivation q- ? f de la
grammaire avec f ? X on peut faire correspondre
une dérivation équivalente (même arbre
syntaxique) constituée détapes de la forme
q ? Aq ? g avec g ? (Q X), qui utilisent
uniquement des règles de Pq, or chacune de ces
étapes correspond à une étape q ? g dans le
réseau.
48
Équivalence entre RTN et grammaires (5/5)
Ces deux formalismes engendrent les mêmes
langages formelsAvantages des grammairesplus
simple pour les démonstrations mathématiquesAvan
tages des RTNplus de réutilisationplus lisible
pour l'auteur des ressourcesconstruction et
maintenance manuelle plus faciles
49
Application glissante
50
Application glissante (1/3)
ObjectifExpressions, automates, grammaires ou
RTN pour des séquences dont on ne connaît pas les
limites (groupes nominaux)Applicables de
n'importe où jusqu'à n'importe oùCf. grep
extrait les lignes qui comportent un facteur
reconnu par une expressionExpressions,
automates, grammaires ou RTN pour des séquences
dont on connaît les limites (phrases)
application non glissanteIl faut représenter
tout ce qui peut figurer dedans, ou au moins
connaître tout l'alphabet
51
Application glissante (2/3)
Application glissante dans UnitexC'est le seul
mode d'application des graphesOn lance l'analyse
syntaxique à chaque point du texte, ou à chaque
état de l'automate acycliqueL'analyse peut se
terminer n'importe où aussiRésultatsLes
séquences reconnues peuvent se suivre Les
participants sont sortis de la sallese
chevaucher Les fichiers annexes au contrat
sont attachés au messageou être incluses les
unes dans les autres Les fichiers annexes
au contrat sont attachés au message Ambiguïtés
52
Application glissante (3/3)
Réduction des ambiguïtés d'inclusion avec
UnitexLes fichiers annexes au contrat sont
attachés au messageOption "Longest matches"
(par défaut) toute séquence reconnue incluse
dans une autre est éliminée des résultatsLes
fichiers annexes au contrat sont attachés au
messageOption "Shortest matches" toute
séquence reconnue en contenant une autre est
éliminée des résultatsLes fichiers annexes
au contrat sont attachés au messageOption "All
matches" toutes les séquences reconnues sont
conservées dans les résultatsLes fichiers
annexes au contrat sont attachés au message
53
Empêcher l'application glissante
Ancrer la grammaire en y incorporant la marque de
début et la marque de finExemple grep "oui"
texte.txt trouve fouine grep "oui"
texte.txt ne trouve pas fouine
54
Transducteurs
55
Marquage des séquences reconnues
Les expressions qui marquent les dialogues
(dit-il...)Insérer des balises ltdialoguegt et
lt/dialoguegt avant et après une forme
reconnueMême si le contexte est nécessaire pour
reconnaître les formes, on peut ne pas l'inclure
dans la zone marquée
56
Marquage des séquences reconnues
Chunks nominaux
57
Transducteurs (1/2)
Un automate fini contient des séquences qui
peuvent être reconnues dans un texte existant
Un transducteur fini est utilisé pour engendrer
une nouvelle version du texte il contient des
séquences qui seront reconnues (séquences
dentrée) et dautres qui seront insérées
(séquences de sortie)
58
Transducteurs (2/2)
Avec UnitexLes séquences de sortie sont
affichées au-dessous des noeuds Pour créer un
transducteur, insérer une barre (/) entre la
séquence dentrée et la séquence de sortie
correspondantePour appliquer le transducteur
- dans Locate, indiquer si les séquences de
sortie doivent être insérées à gauche des
séquences dentrée correspondantes (mode Merge),
ou si elles doivent les remplacer (mode Replace)
- dans Display, indiquer le nom du fichier de
sortie, sans extension
59
Effacer avec un transducteur
Dans un transducteur Unitex, un noeud sans barre
(/) est interprété comme un noeud avec une sortie
vide (/ltEgt)Si le transducteur est appliqué en
mode Replace, les parties reconnues par des
noeuds sans sortie ne sont pas copiées dans le
fichier de sortieExemple pour supprimer le
balisage, faire un transducteur qui reconnaît les
balises et l'appliquer en mode Replace
60
RTN à sorties
Comme un RTN mais les noeuds peuvent avoir des
sortiessauf ceux qui appellent un sous-graphe
(les sorties sont spécifiées dans le sous-graphe)
61
Cascade de transducteurs
  • Mode d'application d'un ensemble de transducteurs
    à un ensemble de séquences S0
  • Entrée S0
  • i 0
  • tant que (condition)
  • appliquer un transducteurTi aux séquences de Si,
    obtenir Si1
  • i i1
  • Sortie Si
  • Cas particuliers
  • - on a n transducteurs T1, T2... Tn et on les
    applique dans l'ordre
  • - on a un seul transducteur et on l'applique
    itérativement jusqu'à ce que Si1 Si

62
Ambiguïté
Application glissante d'un transducteur ou d'un
RTN à sortiesDeux sources d'ambiguïtéL'applica
tion glissanteComme l'application d'un graphe ou
d'un RTN les séquences reconnues peuvent se
suivre, se chevaucher ou être incluses les unes
dans les autresL'ambiguïté des
transducteursUne séquence donnée peut être
reconnue par plusieurs chemins du même
transducteur, mais avec des sorties
différentesLe résultat est une structure
complexe
63
Linéarisation
ObjectifObtenir un résultat simpleChoisir entre
les sorties incompatibles produites par le
transducteur ou le RTN à sorties
64
Linéarisation d'Unitex
1. On peut supprimer certaines séquences
reconnues en choisissant une option "Longest
matches" ou "Shortest matches"2. En cas de
chevauchement entre séquences restantes, la
séquence qui se termine en premier a la
priorité Les fichiers annexes au contrat de
travail Les fichiers annexes au contrat de
travail3. Il peut rester des incompatibilités
entre séquences qui se terminent au même point.
Unitex en choisit une, mais le choix n'est pas
spécifié. Exemple une même séquence reconnue
par deux chemins différents XN La N table
ronde sur les revêtements naturels XN La N
table XA ronde sur les revêtements naturels
65
Mode morphologique d'Unitex
Non disponible dans la version 2.0Zone
délimitée par lt et gtRécupération des
informations issues des lexiquesnom pour
associer un nom de variable à une entrée de
lexiquenom.INFLECTEDnom.LEMMAnom.CODEpo
ur écrire dans la sortie une partie d'une entrée
de lexique
Write a Comment
User Comments (0)
About PowerShow.com