Extraction d

About This Presentation

Title:

Extraction d

Description:

Extraction d Informations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet lauli_at_tsi.enst.fr ENST/TSI et CNRS-LTCI – PowerPoint PPT presentation

Number of Views:68

Avg rating:3.0/5.0

Slides: 27

Provided by: chol160

Category:

more less

Transcript and Presenter's Notes

Title: Extraction d

1
Extraction dInformations Spatiales et
Linguistiques dans les Documents

Laurence Likforman, Pascal Vaillant, G. Chollet
lauli_at_tsi.enst.frENST/TSI et CNRS-LTCI46 rue
Barrault75634 PARIS cedex 13

2
Plan

Majordome / Assistant Multimodal Intelligent
Traitement des Télécopies
Extraction dinformations spatiales
Traitements Linguistiques bas niveaux
Perspectives

3
Accès, Communication

Désir daccéder à linformation
à travers le téléphone
sur INTERNET
Besoin de communiquer
messagerie

4
EDF
Holistique
MAJORDOME messagerie unifiée
intelligente Projet Eureka no 2340
G. Chollet, K. Hallouli , J. Kharroubi, D.
Kofman, L. Likforman, D. Petrovska, M. Sigelle,
P. Vaillant, F. Yvon
5
Quest-ce quun Majordome ?
vocal
mèl
télécopies
messages entrants
serveur
traitement des messages
authentification, dialogue, routage,
résumés, mises a jour, agenda
accès aux messages
pager
téléphone
terminal
PDA
6
Le Majordome individuel
7
Adaptation à lutilisateur

Serveur multi-utilisateurs diriger les messages
vers le bon utilisateur
Capacité didentifier le destinataire des
messages, quand différents messages arrivent à un
numéro unique (tel. ou fax.)
Capacité dauthentifier lutilisateur lors de
laccès à sa messagerie
Fournir à lutilisateur des paramètres personnels
(carnet dadresses, agenda )

8
Adaptation au canal daccès

Accès par le web
le contenu de la boîte aux lettres unifiée
peut être affiché de manière synthétique
possibilités étendues de navigation
les documents visuels sont présentés dans leur
mode naturel
Accès par téléphone
nécessité de condenser linformation, même lors
de la lecture de la liste des messages
nécessité de résumer les messages importants

9
Adaptation à la modalité des messages

Mode de présentation natif au téléphone pour
les messages vocaux, sur écran pour les méls ou
les fax
Transformations nécessaires dans les autres cas
Messages vocaux transmis sous forme de fichiers
Méls ou fax lus (synthèse TTS) au téléphone
Pour la détection des infos essentielles
(expéditeur, date, sujet, mots-clés)
En-têtes normalisés (ex. RFC-822) pour les méls
Fax, voix aiguille dans une botte de foin

10
Traitements
11
Traitement des Télécopies
P. Vaillant, L. Likforman

Recherche dinformations ciblées consultation
du message adaptée au medium de communication
Objectif routage, transmission
dinformations-clés
Recherche du nom de lexpéditeur
Analyse spatiale
Analyse linguistique
Combinaison des 2 critères

12
Télécopies
Expéditeur
Destinataire
Mots clés
13
Analyse spatiale

Repérage de la zone NOM EXPEDITEUR
Extraction tolérante de mots clés par classe
Nom NOM/NAME/
Expéditeur FROM/EXPEDITEUR/DE
Destinataire TO/A/

14
Analyse spatiale critères perceptifs
15
Traitement Linguistique

Objet traiter des données de nature
linguistique
Limites la partie purement OCR (resp.
phonétique) relève de la reconnaissance de
lécrit (resp. de la parole)
Applications
extraction automatique dinformations-clés
(expéditeur, destinataire, date, objet,
mots-clés)
résumé automatique
catégorisation filtrage et routage des messages

16
Techniques danalyse linguistique

Objectif de Majordome traiter les messages en
temps réel
Pas dutilisation extensive des techniques
coûteuses du domaine T.A.L. (parsing )
Techniques bas niveau , rapides et efficaces
repérage de formes
grammaires locales
outils statistiques

17
Repérage de composants-clés

Repérage des noms propres (1)
Indices internes
majuscule au début, ou tout en capitales
présence dans un dictionnaire de noms propres
absence dans un dictionnaire de mots communs
caractéristiques mophologiques internes plus
fréquentes parmi les noms propres (noms de
famille) que parmi les noms communs ex.
composés avec préfixes Le- ou Du- ,
suffixes -eur ou -ault

18
Repérage de composants-clés

Repérage des noms propres (2)
Indices externes
présence, dans le contexte local du mot, de
marqueurs didentité ( M. , Mme , Dr. )
présence, dans le contexte de la phrase,
dindices grammaticaux, comme lapposition du GN
( le député RPR Thierry Mariani )
présence, dans le meilleur des cas, de marqueurs
de fonction par rapport au message
( Expéditeur , Destinataire , )

19
Repérage de composants-clés

Repérage de mots-clés
mots apparaissant dans le contexte dune ligne
Objet ou Titre
mots de fréquence relative élevée
(fréquence relative fréquence dans le document
analysé / fréquence dans un corpus général de la
langue)

20
Résumé automatique

Mesure pour chaque phrase dun score de
représentativité ( de mots-clés)
Extraction des phrases ayant leur score au-dessus
dun seuil donné
Concaténation des phrases choisies
Résultat texte parfois peu esthétique, mais
généralement lisible et compréhensible
(étude réalisée par Aude Acoulon)

21
Catégorisation de textes

Les genres se manifestent souvent par des
caractéristiques globales (présence excessive de
ponctuations ! ou ? dans les messages
publicitaires, nombre moyen de lettres par mot
plus élevée dans les textes scientifiques, etc.)
Méthode
mesure dun certain nombre de ces
caractéristiques dans des corpus dapprentissage
max. variance régression linéaire
discriminateurs

22
Techniques utilisées (1)

Techniques de représentation de lexiques à accès
rapide
Arbres binaires de recherche équilibrés, un mot
par nœud, ordre alphabétique
stockage dun lexique avec infos sur les entrées
temps daccès réduit (log 2, taille du lexique)
Tries (graphes acycliques directs), une lettre
par arc
temps daccès minimal (linéaire, taille des mots)
recherche floue (calcul de distance pendant le
parcours)

23
Techniques utilisées (2)

Techniques statistiques calcul de fréquences
doccurrences
de caractères
de digrammes (séquences de 2 caractères)
de trigrammes (séquences de 3 caractères)
de mots
de séquences de 2 mots
Calcul de fréquences de co-occurrences
Ex. fréquence doccurrence de 2 mots dans une
fenêtre contextuelle de n mots

24
Techniques utilisées (3)

Application de règles de grammaires locales
Contexte très réduit
Ex. séquence Mme Chaîne1 Chaîne2
Chaîne1 appartient à un dictionnaire de prénoms
Chaîne2 est en capitales
Chaîne2 est un nom de famille

25
Fusion données spatiales et textuelles

Création dun tableau de paires (mot, zone)
N.B. Certaines zones (smears) nont pas de mot
(ex. logos, signatures, zones manuscrites )
Pour chaque entrée, stockage dinformations
obtenues par des traitements sur limage (ex.
zone expéditeur) et dinformations obtenues par
des traitements sur le texte (ex. mot en
capitales, prénom, mot de grande fréquence
relative)
pondération
indice de confiance pour la détection

26
Résultats

Write a Comment

User Comments (0)