Title: Lanalyse de textes : entre donnes linguistiques et robustesse 7 Mars 2002
1Lanalyse de textes entre données linguistiques
et robustesse7 Mars 2002
- Emilie Guimier De Neef, FTRD DMI/GRI
2Plan
- L analyseur TiLT
- Architecture
- Les 3 niveaux de représentation linguistique
possibles et ressources associées - Robustesse de TiLT
- Les différents aspects du métier de linguiste
informaticien dans l équipe - Aspects recherche
- Aspects développement
3Architecture de lanalyseur
4Analyse en chunking
- Objectifs
- Désambiguïsation morpho-syntaxique
- Délimitation de chunks
- Ressources pour chaque langue traitée
- Lexique morpho-syntaxique (flexion qqes
propriétés syntaxiques) - Grammaire
- grammaire régulière décrivant les chunks
- contraintes daccord internes aux chunks
- contraintes sur l'ordre des chunks dans la
phrase
Exemple de sortie (nous/nous/Pp1pn
avions/avoir/Viip1s attendu/attendre/Vpssm)
(que/que/Cs tu/tu/Pp2sn nous/me/Pp1
livres/livrer/Vsp2s) ( la/le/D3s porte/porte/Ncfs)
5Analyse en dépendance
- Objectifs
- Construction dun arbre de dépendance décrivant
les relations syntaxiques dans une phrase
- Ressources pour chaque langue traitée
- Lexique morphologique et syntaxique
(sous-catégorisation) - Grammaire de dépendance
6Analyse sémantique
- Objectifs
- Construction dun graphe de représentation des
relations prédicat argument
- Ressources pour chaque langue traitée
- Description des prédicats/arguments
- Transfert de l'arbre syntaxique en un graphe
sémantique
PRED porte
7Robustesse de TiLT
- Traitement des principaux cas de mots inconnus
- Correction par ré-accentuation évènement,
helicoptere... - Correction typographique éductation,
conniassais, incitaton... - Correction morpho-prédictive jospinisme,
chiraquien... - Correction phonétique nivo, allé...
- Analyse morphologique
- Néologismes dérivationnels indéscotchable,
tropicalisation - Mots agglutinés en allemand SchneeBrettGefahr
/ allersretours - Clitiques arabes LiNaKTuBuHuMaA gt Li Na
Ktub u HuMaA - Traitement de certains problèmes
morpho-syntaxiques - Mécanisme de relâchement des contraintes en
chunking des passages incessant - Paramétrage en fonction du corpus et de la langue
traitée
8Les métiers des linguistes dans léquipe (1)
- Les métiers du développement
- linguistes/lexicographes pour fabrication des
lexiques - développement des grammaires
- organisation par langue
- travail dune personne sur toute la chaîne
- développements spécifiques pour les applications
(grammaire pour le QA) ou projets en cours
9Les métiers des linguistes dans léquipe
- Les métiers de la recherche
- modélisation de nouvelles données (ex modèle
pour la représentation du lexique sémantique) - développement/prototypage doutils liés aux
données (ex boite à outils pour lacquisition
semi-automatique de lexique) - spécifications pour le traitement dune nouvelle
langue
10Où en est-on ?
Lexique Lexique Lexique Chunking
Dépendance flexionnel syntaxique sémantique
Français X X En cours X X Anglais X X En
cours X X Espagnol X O X O Allemand X O
X O Polonais X En cours X X Arabe X O O
O Portugais O O