Projet OUTILEX Rapport d - PowerPoint PPT Presentation

About This Presentation
Title:

Projet OUTILEX Rapport d

Description:

Les informations contenues dans ce document sont la propri t exclusive du ... de renseignement portant sur la th matique des campagnes de fauchage OGM. ... – PowerPoint PPT presentation

Number of Views:35
Avg rating:3.0/5.0
Slides: 24
Provided by: igmUn
Category:

less

Transcript and Presenter's Notes

Title: Projet OUTILEX Rapport d


1
Projet OUTILEXRapport détude finalOctobre 2006
2
Contexte et Objectifs du document
  • Ce document a été élaboré dans le cadre du projet
    Outilex, il présente le rapport détude final de
    Thales Communications

3
Contributions attendues de Thales Communications
  • Pour rappel, les annexes technique et financière
    de Thales Communications ont été revues en mars
    2005, suite au transfert du contrat Outilex par
    la société Kalima vers la société Thales
    Communications.
  • Dans le cadre de ces révisions, les contributions
    de Thales Communications au projet Outilex ont
    été définies comme suit, à compter de la date du
    transfert  
  • Développement de composants dextraction
    dinformation (grammaires locales et ressources
    associées)
  • Dévelopement dun démonstrateur métier dans le
    domaine de lanalyse des incidents 
  • Les composants dextraction dinformation
    (grammaires locales et ressources associées) ont
    été développés pour le traitement des données du
    démonstrateur.
  •  
  • Pour des questions de fourniture des données par
    le client, le démonstrateur métier intialement
    prévu portant sur lanalyse des incidents dans le
    domaine de l automobile na pas pu être
    développé dans le cadre du projet.

4
Contributions attendues de Thales Communications
  • On sest donc orienté, en cours de projet et avec
    laccord du consortium, vers le développement
    dun démonstrateur métier portant sur
    lextraction dinformations dans des textes de
    type dépêches et rapports à des fins
    dalimentation dune base de connaissances,
    laquelle est exploitée par des outils danalyse
    de type réseaux sémantiques et data mining.
  • Le domaine métier retenu est le domaine de la
    Sécurité Nationale.
  • Les travaux réalisés ont principalement visé à
    tester et valider  lutilisabilité  de la
    plate-forme Outilex dans un contexte industriel,
    en vue de répondre à des besoins métier non
    triviaux

5
Les besoins
6
Besoins en matière dextraction dinformation
  • Les besoins en matière dextraction dinformation
    ont été spécifiés par les utilisateurs finaux
  • Quatre grands types de besoins ont été définis 
  • Extraction dentités nommées (personnes,
    organisations, lieux, dates et heures)
  • Extraction de faits
  • Extraction de marqueurs dambiance
  • Détection de relations élémentaires entre les
    entités extraites
  • En vue dêtre stockées dans la base de
    connaissances puis exploitées par les outils
    danalyse et de visualisation, les données
    extraites ont été normalisées graphiquement,
    syntaxiquement et sémantiquement, via
    lutilisation de grammaires de normalisation, de
    ressources lexicales et de processus de
    transformation des informations

7
Corpus dexpérimentation
  • Le corpus utilisé dans le cadre du démonstrateur
    est composé denviron un millier de rapports de
    divers organismes de renseignement portant sur la
    thématique des campagnes de fauchage OGM.
  • Chaque rapport est composé de données structurées
    objet , date , auteur, source - et dun texte.
  • Pour des questions de confidentialité, les
    données structurées hors lobjet des rapports,
    ont été supprimées dans la version finale du
    démonstrateur.

8
Aperçu du démonstrateur implémenté
9
Schéma du démonstrateur
Les données dentrée du démonstrateur sont
constituées de données non structurées et de
données structurées - données signalétiques
associées aux textes (date, source, auteur, )
Ces données sont couplées aux données structurées
issues des processus dextraction dinformation
et exploitées par les outils danalyse.
10
Etape 1 Extraction dinformation
11
Exemple Entités Nommées/Personnes
12
Exemple Détection de Relations
Certaines relations élémentaires ont été
identifiées via les grammaires locales. Il sagit
principalement de relations telles que
personne/fonction, personne/date de naissance,
personne /lieu de naissance, personne/adresse,
etc .
13
Etape 2 Gestion des Connaissances
14
Gestion des connaissances
Le processus dextraction permet dalimenter des
formulaires dans lesquels sont renseignées les
entités et les relations entres entités
15
Gestion des connaissances
Les informations extraites permettent dalimenter
automatiquement une base de connaissances, sur
laquelle les utilisateurs effectuent des
requêtes. Dans lexemple ci-dessous, on visualise
les informations biographiques associées à une
Personne en exploitant notamment les relations
entre entités
16
Etape 3 Mining
17
Des processus danalyse statistiques sont
utilisées en vue de faire létude quantitative et
qualitative des données analysées
18
Aperçu des composants Outileximplémentés
19
Grammaires locales
Les ressources grammaticales ont été implémentées
au format Outilex. La grammaire ci-dessous est
la grammaire dextraction des entités nommées et
des faits. En sortie danalyse, les informations
extraites sont étiquetées par des balises
indiquant leur type.
20
Identification des relations
lt?xml version"1.0" ?gt - ltinfosgt
- ltfonctiongt  ltwhogtJose Bovélt/whogt  
ltpositiongtResponsablelt/positiongt  
ltorganizationgtFaucheurs Volontaireslt/organizatio
ngt   ltsegmentgtJosé Bové, responsable des
Faucheurs Volontaireslt/segmentgt  
lt/fonctiongt  lt/infosgt
21
Ressources lexicales
Les ressources lexicales Métier ont été
implémentées au format Unitex, puis converties au
format Outilex. Les regroupements appliquées aux
informations extraites sont effectués à partir de
processus de normalisation élémentaires (2
janvier 2005/02/01/2005), de dictionnaires et de
règles de grammaires
Niveau morpho-syntaxique
conféderation paysanne,.NPActeurOrg
Regroupement sémantique
ltActeursOrggt conféderation paysanne (PREP DPT)
(PREP REGION) lt/ActeursOrggt GROUPE DE MILITANTS
ANTI-OGM
22
Conclusions
23
  • Lexpérimentation réalisée a permis de valider
    lintérêt de la plate-forme sur les points
    suivants
  • Reprise de lexistant en termes de ressources
    grammaticales et lexicales (Format Unitex
    notamment)
  • Développement rapide de nouveaux composants
  • Intérêt de la normalisation des formats des
    ressources linguistiques
  • Logiciel libre et communauté dutilisateurs
  • La pondération sur les grammaires na pas été
    testée, il est clair néanmoins quil sagit dun
    point fort.
  • La taille du corpus dexpérimentation ne permet
    pas de se prononcer sur les performances en
    termes de temps de traitement de la plate-forme.
Write a Comment
User Comments (0)
About PowerShow.com