Lanalyse de textes : entre donnes linguistiques et robustesse 7 Mars 2002 - PowerPoint PPT Presentation

1 / 10
About This Presentation
Title:

Lanalyse de textes : entre donnes linguistiques et robustesse 7 Mars 2002

Description:

Le pr sent document contient des informations qui sont la propri t de France T l com. ... li s aux donn es (ex : boite outils pour l'acquisition semi ... – PowerPoint PPT presentation

Number of Views:64
Avg rating:3.0/5.0
Slides: 11
Provided by: emilieg4
Category:

less

Transcript and Presenter's Notes

Title: Lanalyse de textes : entre donnes linguistiques et robustesse 7 Mars 2002


1
Lanalyse de textes entre données linguistiques
et robustesse7 Mars 2002
  • Emilie Guimier De Neef, FTRD DMI/GRI

2
Plan
  • L analyseur TiLT
  • Architecture
  • Les 3 niveaux de représentation linguistique
    possibles et ressources associées
  • Robustesse de TiLT
  • Les différents aspects du métier de linguiste
    informaticien dans l équipe
  • Aspects recherche
  • Aspects développement

3
Architecture de lanalyseur
4
Analyse en chunking
  • Objectifs
  • Désambiguïsation morpho-syntaxique
  • Délimitation de chunks
  • Ressources pour chaque langue traitée
  • Lexique morpho-syntaxique (flexion qqes
    propriétés syntaxiques)
  • Grammaire
  • grammaire régulière décrivant les chunks
  • contraintes daccord internes aux chunks
  • contraintes sur l'ordre des chunks dans la
    phrase

Exemple de sortie (nous/nous/Pp1pn
avions/avoir/Viip1s attendu/attendre/Vpssm)
(que/que/Cs tu/tu/Pp2sn nous/me/Pp1
livres/livrer/Vsp2s) ( la/le/D3s porte/porte/Ncfs)
5
Analyse en dépendance
  • Objectifs
  • Construction dun arbre de dépendance décrivant
    les relations syntaxiques dans une phrase
  • Ressources pour chaque langue traitée
  • Lexique morphologique et syntaxique
    (sous-catégorisation)
  • Grammaire de dépendance

6
Analyse sémantique
  • Objectifs
  • Construction dun graphe de représentation des
    relations prédicat argument
  • Ressources pour chaque langue traitée
  • Description des prédicats/arguments
  • Transfert de l'arbre syntaxique en un graphe
    sémantique

PRED porte
7
Robustesse de TiLT
  • Traitement des principaux cas de mots inconnus
  • Correction par ré-accentuation évènement,
    helicoptere...
  • Correction typographique éductation,
    conniassais, incitaton...
  • Correction morpho-prédictive jospinisme,
    chiraquien...
  • Correction phonétique nivo, allé...
  • Analyse morphologique
  • Néologismes dérivationnels indéscotchable,
    tropicalisation
  • Mots agglutinés en allemand SchneeBrettGefahr
    / allersretours
  • Clitiques arabes LiNaKTuBuHuMaA gt Li Na
    Ktub u HuMaA
  • Traitement de certains problèmes
    morpho-syntaxiques
  • Mécanisme de relâchement des contraintes en
    chunking des passages incessant
  • Paramétrage en fonction du corpus et de la langue
    traitée

8
Les métiers des linguistes dans léquipe (1)
  • Les métiers du développement
  • linguistes/lexicographes pour fabrication des
    lexiques
  • développement des grammaires
  • organisation par langue
  • travail dune personne sur toute la chaîne
  • développements spécifiques pour les applications
    (grammaire pour le QA) ou projets en cours

9
Les métiers des linguistes dans léquipe
  • Les métiers de la recherche
  • modélisation de nouvelles données (ex modèle
    pour la représentation du lexique sémantique)
  • développement/prototypage doutils liés aux
    données (ex boite à outils pour lacquisition
    semi-automatique de lexique)
  • spécifications pour le traitement dune nouvelle
    langue

10
Où en est-on ?
Lexique Lexique Lexique Chunking
Dépendance flexionnel syntaxique sémantique
Français X X En cours X X Anglais X X En
cours X X Espagnol X O X O Allemand X O
X O Polonais X En cours X X Arabe X O O
O Portugais O O
Write a Comment
User Comments (0)
About PowerShow.com