Analyse syntaxique profonde sur corpus - PowerPoint PPT Presentation

About This Presentation

Title:

Analyse syntaxique profonde sur corpus

Description:

Utilisation de l'informatique pour apporter un clairage nouveau sur l' tude de ... Admettons que l'ambiguit puisse tre r solue par des heuristiques de ... – PowerPoint PPT presentation

Number of Views:465

Avg rating:3.0/5.0

Slides: 56

Provided by: alpage

Category:

more less

Transcript and Presenter's Notes

Title: Analyse syntaxique profonde sur corpus

1
Analyse syntaxique profonde sur corpus

Alpage à Barcelone 2007
Benoit Crabbé

2
Plan de lexposé

Motivations et objectifs de recherche
Motivations générales
Inadéquation des grammaires symboliques pour
lanalyse de corpus et préférence aux modèles
statistiques
Analyse syntaxique statistique du Français
Algorithmes danalyse
Développement de grammaire sur le FTB
Premiers résultats
Perspectives
Collaborations et Intégration dans ALPAGE

3
Motivations générales

Spécificité dans ALPAGE ?
Linguiste
Idéologie Computational linguistics
Utilisation de linformatique pour apporter un
éclairage nouveau sur létude de la langue
française
En retour volonté dexprimer une théorie
formalisée computer friendly du Français
Question générale
Que tirer comme généralités de la linguistique de
corpus ?
Volonté de (contribuer à) formuler une grammaire
du français informée explicitement par les
données empiriques (stats)
Inspiration type Claire Blanche-Benveniste
(GARS)
(Variationnisme) Contrastes de différents
registres de langage
oral vs écrit
Confronter théorie introspective vs approche
empirique

4
Besoin premier Données structurées

Produire un observatoire sur la langue
Française en particulier
Produire des ressources
Corpus annotés en syntaxe
Différents genres (oral/écrit)
Produire les moyens de les exploiter
Méthode qualitative (concordances)
Méthodes quantitatives (stats)
Nexiste à peu près pas pour le français
Et pas en syntaxe

5
Quels types de données ?

Corpus annotés et corrigés suivant une grammaire
explicite
Au moins constituants et fonctions
Bonnes propriétés informatiques
Bonne expressivité linguistique
La partie essentielle dans lannotation dun
corpus cest la conception des guides
dannotation ( de la grammaire)
Explicitation de la théorie
Revient à décrire explicitement une grammaire
de performance (!)
Conséquence favorise la cohérence de
lannotation
Pour le Français on pourrait sinspirer de la
GGF et du FTB

6
Plan de lexposé

Motivations et objectifs de recherche
Motivations générales
Inadéquation des grammaires symboliques pour
lanalyse de corpus et préférence aux modèles
statistiques
Analyse syntaxique statistique du Français
Algorithmes danalyse
Développement de grammaire sur le FTB
Premiers résultats
Perspectives
Collaborations et Intégration dans ALPAGE

7
Problèmes du parsing symbolique pour lanalyse de
corpus

Trois problèmes de lanalyse symbolique
Ambiguité
Non Robustesse
Ouverture des données
Admettons que lambiguité puisse être résolue par
des heuristiques de préférences (ex. Frazier
Fodor 78)
La non robustesse est fondamentale
Distinction grammatical non-grammatical
ex. Accord (Point fort de TAG)
En théorie La fille que le gars qui est venu
hier a estimé que Pierre imagine que le frère de
Julie pense que le garçon a aperçue
En corpus Le professeur de français que le
frère de Paul a vue hier sen est allée. Mais
cétait bien une femme !

8
Propriété formelle dun corpus loi de Zipf

Les objets dun corpus sont en distribution de
Zipf
Les mots
Les règles de grammaire
La distribution pour le LN est une distribution
de rang/fréquence, pour chaque mot
Rang (r) fonction du Nbre doccurrences du mot
(ordre décroissant)
Fréquence f(r) Nbre de doccurrences du mot de
rang
Loi de Zipf (version intuitive)
Conséquences
Très peu de mots très fréquents
Très grand nombre de mots de basse fréquence

9
Loi de Zipf
Distribution Rang/Fréquence dune PCFG extraite
du FTB (treebank3)
10
Conséquences

Lanalyse automatique de la langue naturelle à
large couverture demande de gérer le mieux
possible les objets inconnus
Méthodes de lissage en Stats
Méthodes de prétraitement en analyse symbolique
Problème grammaire symbolique pour anal. corpus
Env. 2/3 des règles napparaissent que 1 ou 2
fois
Ecrire une grammaire exhaustive est
inenvisageable
Demande décrire indéfiniment des règles
aussi générales que les autres pour un nombre
infini de cas rarissimes
--gt Crée ambiguité
Nécessité de distinguer le vraiment général du
rarissime
Idem pour les lexiques

11
La grammaire sur corpus

Annoter écrire une grammaire
Avantage sur la méthode symbolique
Les cas rares sont associés à lexemple annoté
Induction dune grammaire de treebank
Probabilités associées aux règles
Surgénéralisation -gt robustesse
Robustesse intéressante
Produit généralement des arbres complets
Facilite le calcul sémantique (ex. RMRS)

12
Plan de lexposé

Motivations et objectifs de recherche
Motivations générales
Inadéquation des grammaires symboliques pour
lanalyse de corpus et préférence aux modèles
statistiques
Analyse syntaxique statistique du Français
Algorithmes danalyse
Développement de grammaire sur le FTB
Premiers résultats
Perspectives
Collaborations et Intégration dans ALPAGE

13
Paradigmes danalyse syntaxique

Paradigme génératif
Modèles bayésiens de type PCFG
La grammaire engendre une chaine de surface
Paradigme discriminatif
Modèles de type Maximum dentropie et CRF
Etant donnée une chaine de surface et
lensemble des analyses possibles, lapplication
dun ensemble de contraintes ordonne les modèles
pour garder le meilleur
Modèles mixtes
Génératif rapide mais expressivité réduite
Discriminatif expressif mais lent
gt Mixte reranking (Charniak 05, Collins 06)
(1) Générer un sous-ensemble des solutions
(2) Appliquer des contraintes pour les ordonner
entre elles
Machine learning
Arbres de décision (Magerman 94) SSN (Henderson
Titov 03)

14
Paradigme génératif

Modèles non lexicalisés
Vanilla PCFG
BitPar (CKY all paths)
Algos de Johnson (CKY Best First, 90s)
Problème formel de PCFG
Hypothèse dindépendance conditionnelle est trop
forte
gt Réintroduire des dépendances conditionnelles
Parent Transformation (Johnson 99)
Accurate Unlexicalised Parsing (Klein and
Manning 2003)
Berkeley Parser Algorithme de Petrov
(2006-2007)
Modèles lexicalisés (Collins 96-99, Bikel 2004-5,
Charniak 2000-5)
Problème de PCFG pour la langue nat
Interaction avec le lexique
Idée combiner un modèle de langage en
dépendances lexicales avec un modèle de langage
en constituants
Problème à addresser dispersion des données

15
PCFG

Modèle de langage
CFG dont chaque règle A --gt ? est associée à
une probabilité telle que
Une PCFG définit une distribution de probabilité
sur lensemble des arbres finis générés par la
grammaire. Telle que la probabilité dun arbre
(t)
Autrement dit, on calcule la probabilité
conjointe dengendrer cet arbre en posant une
hypothèse dindépendance conditionnelle entre les
instances de règles qui interviennent pour
dériver cet arbre

16
Modèles non lexicalisés 1 le split

SPLIT
Problème PCFG conditions dindépendance trop
fortes
Coup de codage (lt HMM Trigrammes)
Ex. Parent annotation (Johnson 1998)
gt Transformation (réversible) du Treebank
Idée
Un NPS est un sujet, un NPVP est un objet
Un NP sujet est structurellement différent dun
NP Objet
NP suj. plus court (pronom ou NP défini) quun
NP objet

gt
17
Modèles non lexicalisés 2 le merge

MERGE
Problème du split
Spécialise trop les règles -gt éparpillement des
données
Idée du MERGE lissage
Ex. Markovisation des règles (Klein,Manning
2003)
Mise en CNF dégénérée (// hyp. simplif. HMM)

Base
CNF Markov(2)
Markov(1)
Markov(0)
18
Modèles non lexicalisés 3 split/merge

Algorithme de Berkeley (Petrov/Klein 06-07)
Split/merge sur les catégories de la grammaire
Markovisation dordre k
Utilise EM (lt Dedans-Dehors lt Baum Welch HMM)
Convergence non garantie !
Remarque 1
Lalgorithme apprend tout seul à reconnaître des
types de constituants potentiellement
intéressants
Grammaires des unités monétaires
Remarque 2
Algorithme qui repose uniquement s/ propriétés
formelles et de lapprentissage
gt multilingue

19
Architecture du processus
Entrainement
Transfo
Estimation
Treebank
Treebank
Grammaire
Analyse
Parsing
Transfo-1
Raw Text
Treebank
Treebank
20
Modèles lexicalisés

Collins 96-99 (Bikel 2004)/ Charniak 97
Intuition
Combiner à la fois modèle PCFG et dépendances
lexicales
Trois Modèles de langage
Modèle 1 Head Driven
Modèle 2 Sous-cat (non illustré dans le talk)
Modèle 3 Dépendances à longue distance (non
illustré)
Un algorithme de Lissage
Modèle de Repli (Backoff,non illustré)
Modèle de lissage lexical basique (suffixes
prédéfinis, non illustré)

21
Lexicalisation motivations

Besoin dinformations lexicales !
Sous-catégorisation
Coordination (scope)
Exemple, PCFG décide arbitrairement

?
22
Lexicalisation Annotation

Annote les têtes (Unité Lexicale catégorie)
Annotation semi-automatique par transduction sur
la grammaire (Magerman 95)
Problème données beaucoup trop dispersées,
demande destimer des probabilités pour des
règles du type
VPltlance,Vgt --gt Vltlance,Vgt NPltbille,Ngt
càd
P(Vltlance,Vgt, NPltbille,Ngt VPltlance,V)

gt
23
Modèle 1 (Lecture algorithmique)

Pseudo-Markovisation
Hypothèse dindépendance
Un élément de la règle dépend uniquement de la
tête et de LHS
Exemple
VPltlance,Vgt --gt STOP Vltlance,Vgt NPltbille,Ngt
STOP
Vue dune règle de grammaire
Génération de la tête P(HLHS) P (Vltlance,Vgt
VPltlance,Vgt)
Génération de la partie gauche P(Li H, LHS)
Génération de la partie droite P(Ri H, LHS)

24
Modèle 1 (Lecture probabiliste)

Soit
On a le modèle suivant (modèle 1)
Complications supplémentaires
Ajout dun paramètre de distance par rapport à la
tête
(Modèle 2) Ajout dun paramètre cadre de
sous-cat pour les verbes

gauche
droite
tête
25
Vision harissienne

Empruntée à (Pereira 00)
Z. Harris 91 propose informellement une
grammaire de dépendances basée sur la théorie de
linformation (Collins limplante largement)
Sélection lexico-sémantique (ex. traduits)
Lenfant dort Les oiseaux dorment peu la
ville dort les arbres dorment en hiver le
soleil dort
COURANT ltltgtgt INATTENDU
Digression (Corrélation probabilité /
grammaticalité peu claire)
Chomsky 56 argument prosodique (Pereira 00
prob)
les idées vertes incolores dorment furieusement
(Proba haute)
furieusement vertes dorment idées les incolores
(Proba basse)

26
Plan de lexposé

Motivations et objectifs de recherche
Motivations générales
Inadéquation des grammaires symboliques pour
lanalyse de corpus et préférence aux modèles
statistiques
Analyse syntaxique statistique du Français
Algorithmes danalyse
Développement de grammaire sur le FTB
Premiers résultats
Perspectives
Collaborations et Intégration dans ALPAGE

27
Grammaire du français

But privilégié à long terme
Syntaxe sur corpus
Données quantitatives sur la syntaxe du français
Contraste entre grammaire de loral et grammaire
de lécrit à partir de corpus annotés en syntaxe
But à court/moyen terme
Produire les annotations
Outil privilégié
Parser statistique
Moyen envisagé
Augmentation du French Treebank
Ecrit et Oral (ESTER2)

28
Analyse du français

Utilisation du French Treebank
Version très récente
Ré-annotation des composants internes de mots
composés
Fonctions syntaxiques (dépendants verbaux)
Spécificités (vs PTB)
Annote les mots composés
Morphologie
Lemmes
Cat et sous-cat

29
FTB Exemple

ltSENT nb"453"gt
ltw cat"ADV" ee"ADV" ei"ADV"
lemma"pourtant"gt Pourtant lt/wgt
ltw cat"PONCT" ee"PONCT-W" ei"PONCTW"
lemma"," subcat"W"gt , lt/wgt
ltw cat"ADV" ee"ADV" ei"ADV"
lemma"globalement"gt globalement lt/wgt
ltw cat"PONCT" ee"PONCT-W" ei"PONCTW"
lemma"," subcat"W"gt , lt/wgt
ltNP fct"SUJ"gt
ltw cat"D" ee"D-def-fs" ei"Dfs"
lemma"le" mph"fs" subcat"def"gt l lt/wgt
ltw cat"N" ee"N-C-fs" ei"NCfs"
lemma"économie" mph"fs" subcat"C"gt économie
lt/wgt
lt/NPgt
ltVNgt
ltw cat"ADV" ee"ADV-neg" ei"ADV"
lemma"ne" subcat"neg"gt n lt/wgt
ltw cat"V" ee"V--P3s" ei"VP3s"
lemma"être" mph"P3s" subcat""gt est lt/wgt
lt/VNgt
ltw cat"ADV" ee"ADV-neg" ei"ADV"
lemma"pas" subcat"neg"gt pas lt/wgt
ltAP fct"ATS"gt
ltw cat"A" ee"A-qual-fs" ei"Afs"
lemma"apathique" mph"fs" subcat"qual"gt
apathique lt/wgt
lt/APgt
ltw cat"PONCT" ee"PONCT-S" ei"PONCTS"
lemma"." subcat"S"gt . lt/wgt
lt/SENTgt

30
Fiche signalétique du FTB

Token counts 385458
Type counts 24098
Tag token counts 385458
Non Tag Symbol token counts 242551
Function token counts 65055
Sentence counts 12351
Compound tokens 55950 (14.52)

31
Stats brutes diverses
Symboles
Tags
Fonctions
PCFG
88702 NP 48883 PP 28298 VN 13687 AP 12351
SENT 9286 N 8813 COORD 7024 VPinf 4929
VPpart 3636 Srel 3576 ADV 3298 P 3287
Ssub 2395 D 1682 Sint 778 C 732
AdP 500 V 352 A 307 PRO 28 ET 5
CL 2 I
96372 N 66102 D 62965 P 50481 PONCT 39841
V 26385 A 15662 ADV 11320 C 8433
CL 6116 PRO 1502 ET 235 PREF 44 I

20756 MOD
19056 SUJ
15162 OBJ
3320 ATS
2253 A-OBJ
2192 DE-OBJ
1469 P-OBJ
272 obj
245 ATO
124 SUJ/OBJ
64 SUJ/A-OBJ
45 Aobj
32 SUJ/DE-OBJ
27 DEobj
9 OBJ/A-OBJ
8 SUJ/MOD
6 SUJ/ATS
5 SUJ/P-OBJ
2 DE-OBJ/OBJ

45420 PP --gt P NP
22828 NP --gt D N
14788 VN --gt V
13825 NP --gt N
11674 NP --gt D N PP
10673 AP --gt A
4535 NP --gt D N AP
4528 VN --gt CL V
4204 NP --gt PRO
3340 VN --gt V V
2972 N --gt N A
COORD --gt C NP

32
Construction de loutil dannotation

Analyseur syntaxique dérivé du French Treebank
comme outil dannotation
Buts de loutil dannotation
Doit être aussi correct ? (angl. accurate) que
possible
gt peu dintérêt pour les questions defficacité
Sorties aussi riches que les données
dentraînement
gt But non standard en stat parsing
Categories (sous-cats)
Morphologie lemmes
Mots composés (originalité du FTB 14 des
tokens !)
Fonctions syntaxiques
En cours deux étapes
Analyse en constituants
Analyse en fonctions syntaxiques (prospectif)
Corollaire proposer des améliorations à la
grammaire existante

33
Cinq expériences

Génération de treebanks opérationnels à partir du
FTB
Treebank 1
Baseline
Treebank 2
But interface avec analyseur morphologique
Variante Treebank2 (mots composés)
Treebank 3 (en cours)
But maximiser la correction de la grammaire
induite
Variante Treebank3 (mots composés)
Treebank 4 (prospectif)
But maximiser la correction de la grammaire
induite
Variante prévue Treebank4 (mots composés)
Treebank 5 (prospectif, non illustré dans le
talk)
But extraction de fonctions syntaxiques
Variante prévue Treebank5 (mots composés)

34
TreeBank 1

But
Fournit une baseline indicative
Contenu
Utilise uniquement les catégories majeures
Mots composés sont ignorés (Catégories des
composés ont même statut que les autres)
Fusion des traces
Ex du/P -None-/D --gt du/PD
Fusion des nombres en chiffres arabes 19 000 ,
8 --gt 19000,8
Exemple

35
Treebank 2

But
Produire un jeu de tags interfacé avec un
analyseur morpho (ex. FLEMM)
Contenu Treebank 1
Ajout des infos du trait subcat morphologie sur
les Terminaux
Enrichissement artificiel des annotations de mots
composés (traits de souscat non annotés) pour
éviter les biais
Variante (Treebank2)
Fusion des mots composés 1 seul Token

36
Treebank 2

Jeu de tags compatible avec FLEMM-TT
gtgt Inférence de morphologie
gtgt Many to one mapping sur FLEMM-TT

67354 NC 49341 DET 46337 PONCT 40623 P 20950 ADJ 10941 NPRP 10372 VP3SG 10337 VPP 9738 PD 8839 ADV 7612 CC 7059 VINF 4153 CLS 4081 VP3PL 3918 ADVNEG 3544 PROREL 2630 CS 2424 CLR 2018 VIPF 2011 PRO 1506 CLO 1407 VPR 1354 VF 1027 VC 360 VSP 311 VP 234 PREF 225 VPAST 196 ET 82 PROWH 58 PPRO 44 VIMP 43 I 28 DETWH 9 VSIPF
37
Treebank 3

But
Améliorer la correction de lanalyse
Contenu
Modifications des catégories non terminales
(heuristiques)
Se rappeler de la parent transfo de Johnson !
1) Enrichissement du jeu de tags de traits
MODE,WH, REL
2) Propagation des traits dans les arbres
//grammaires symboliques

38
Treebank 4 (Prospectif)

But
Améliorer la correction de lanalyse
Contenu Modifications structurelles des arbres
Identifier un/des constituants S clairs (vs
SENT)
Introduction dun niveau SBAR vs S
Introduction dun trait INV (inversion)
Mise en évidence des structures à extraction (WH,
REL)
Mise en évidence des complémenteurs
Gérer la coordination
à voir
Normalisation de la ponctuation
Cause déparpillement des données
Idée générale remonter la ponctuation
Ponctuation parenthétique descendue au
niveau du constituant parenthésé si possible
Traiter le comme une CS
Problème
Difficile de garantir la correction automatisée
des modifications
Suggère des extensions/modifs du schéma
dannotation

39
Plan de lexposé

Motivations et objectifs de recherche
Motivations générales
Inadéquation des grammaires symboliques pour
lanalyse de corpus et préférence aux modèles
statistiques
Analyse syntaxique statistique du Français
Algorithmes danalyse
Développement de grammaire sur le FTB
Premiers résultats
Perspectives
Collaborations et Intégration dans ALPAGE

40
Evaluations I

But
Décider quel algorithme danalyse est le mieux
adapté pour parser le français (Charniak ignoré,
trop spécifique au PTB)
Protocole
Concertation avec S. Petrov
Vieux Treebank dEdinburgh (composés fusionnés)
80 entrainment 10 dev 10 test
Unlexicalised Parsing
Berkeley parser sans modifications
Tagging accurracy bug lt schéma dannotation
Parsing Labelled F1-Score bug lt schéma
dannotation
Parsing coverage bug lt schéma dannotation
Lexicalised Parsing
Bikel (Collins emulation, Abishek Arun Edinburgh)
Tagging accurracy 95.20 (Tagger TNT)
Parsing Labelled F1-Score 79.13
Parsing coverage 99.97

41
Evaluations II

But
Comparer différents schémas dannotation
Protocole
French Treebank récent
80 entrainement 10 dev 10 test
Berkeley parser évaluation par evalb avec
paramètres Collins
Expériences
Treebank 1
Tagging accurracy 97.84
Parsing Labelled F1-Score 82.16
Parsing coverage 100
Treebank 2
Tagging accurracy 91.49
Parsing Labelled F1-Score 82.43
Parsing coverage 99.9
Treebank2
Tagging accurracy 96.40
Parsing Labelled F1-Score 83.57
Parsing coverage 99.9

42
Commentaires

On choisit lanalyseur de Berkeley
Hypothèse Bikel biaisé par des heuristiques
X-BAR type PTB. FTB ne suit pas X-BAR.--gt suggère
modif. sérieuses de lalgo Bikel pour le
Français
Mise en place dun Vanilla PCFG TNT LNCKY
de Johnson
Avec Treebank3, on obtient F 84.23 meilleur
résultat en constituants obtenu à ce jour pour le
français
Edinburgh-fr F 79.13 Dublin-mft F 83.5
Avec Treebank 1 on obtient les meilleurs
résultats en tagging ?
Comparaison avec autres langues
Anglais F 90.6 (Charniak 05 92.0)
Allemand F 80.75 (Berkeley)
Chinois F 86.3 (Berkeley)
Espagnol F 85.1 (Collins 05)
Italien F 68.49 (Corazza 04 , mini treebank
de 1500 phrases)

43
Améliorations envisagées

Il y a encore pas mal de marge pour améliorer
gtgt Thématique de recherche (Mots composés) On
voit que les mots composés sont mal gérés
(Treebank2 vs 2)
Suggère une stratégie en pipeline avec dico
apprentissage endogène à la Bourigault
Suggère une stratégie originale en pipeline
inversé augmentation de lannotation du FTB
(subcat) pour les mots composés. Parsing dabord
avec détection des mots composés à postériori.
Expériences à venir avec Treebank 4 et 5
Error mining
Meilleur modèle de langage pour estimer les mots
inconnus
Réutilisation de lalgo de Brants /Samuelsson
(TNT)

44
Remarque choix des transformations

Comment trouver les bonnes transformations ?
Deux aspects
Théorie linguistique sert de guide
Théorie de linformation aussi
Faire baisser lentropie croisée de la grammaire
Mais pas le F-Score
Dépendant dun algorithme
Synthèse
En modifiant le Treebank, on fait tourner un EM
à la main en cherchant à converger vers le
modèle dentropie minimale (en fait lentropie
croisée pour des raisons techniques)

45
Remarque implémentation

Travail dimplantation sous-jacent
Architecture ciblée pipeline UNIX
Python lib NLTK
Format de travail PTB/Brown
Permet la réutilisation doutils de la
communauté
Parsers (Berkeley, Johnson), evalb, tgrep2, etc.
Taggers Brill/MXPOST
Segmenteur MXTERMINATOR
Format IMS
IMS CWB, TNT, TreeTagger
Commandes ciblées
convert ( recode)
tsed ( sed)
tdiff ( diff)
tgrep ( grep)
twc ( wc)
treeviewer
Analyse de données R

46
Screenshot
47
Plan de lexposé

Motivations et objectifs de recherche
Motivations générales
Inadéquation des grammaires symboliques pour
lanalyse de corpus et préférence aux modèles
statistiques
Analyse syntaxique statistique du Français
Algorithmes danalyse
Développement de grammaire sur le FTB
Premiers résultats
Perspectives
Collaborations et Intégration dans ALPAGE

48
Perspective Analyse fonctionnelle

Tâche connue
Functional Role Labelling
Intérêt
Comparaison avec létat de lart français
(Syntex/PASSAGE)
Annotation en fonctions de surface
Pas très utile pour le TAL (--gt dépendances
sémantiques)
Jeu de fonctions envisagé
Jeu de RASP ( GDE de Caroll et. Al.)
Plus fin que Passage et FTB, possible de le
dégrader pour comparaisons
Annotation
Relationnelle ou sur constituants ?
gt les deux mais préférence pour annotation sur
constituants

49
Techniquement

Deux options
Approche intégrée
Le parser annote directement en fonctions
Usage de catégories complexes
Problème attendu éparpillement des données
Approche en pipeline
Le parser annote uniquement en constituants
Tagger fonctionnel en seconde passe

50
Pipeline

Pipeline
Tagger Fonctionnel
Stat
(voir Blaheta et Charniak, Merlo et Henderson)
(Proposition) symbolique
Adapter lalgo dannotation de Collins à des fins
dannotation fonctionnelle
Identifier têtes (Magerman 95)
Identifier arguments
Extraire relations (n-tuples avec n 3 or 4),
exemple
Jean demande à Marie de partir à quatre heures
(sujet, Jean, demander)
(objet, à, Marie, demander)
(xcomp,de,partir,demander)
(sujet,Marie,partir)
//optionnel dans un premier temps
(mod,à,heures,partir) //
dépend de la désambig.

51
Exemple
S gt NPSUJ VNH NPOBJ NP gt D ADJ NH NP
gt D NH
Annotation constituants (Tête/arg)
Source
(sujet, garçon,lance) (objet,balle,lance)
Extraction de tuples
Propagation
52
Plan de lexposé

Motivations et objectifs de recherche
Motivations générales
Inadéquation des grammaires symboliques pour
lanalyse de corpus et préférence aux modèles
statistiques
Analyse syntaxique statistique du Français
Algorithmes danalyse
Développement de grammaire sur le FTB
Premiers résultats
Perspectives
Collaborations et Intégration dans ALPAGE

53
Sujets de recherche