Modle flexible pour la recherche dinformation dans des corpus de documents semistructurs - PowerPoint PPT Presentation

1 / 35
About This Presentation
Title:

Modle flexible pour la recherche dinformation dans des corpus de documents semistructurs

Description:

Travaux actuels. XML et Syst mes D cisionnels. Stockage. Restitution. S minaire UT1. Karen ... Travaux actuels. XML et syst mes d cisionnels. S minaire UT1. Karen ... – PowerPoint PPT presentation

Number of Views:97
Avg rating:3.0/5.0
Slides: 36
Provided by: sau87
Category:

less

Transcript and Presenter's Notes

Title: Modle flexible pour la recherche dinformation dans des corpus de documents semistructurs


1
Modèle flexible pour la recherche dinformation
dans des corpus de documents semi-structurés
  • Karen Sauvagnat,
  • sauvagnat_at_irit.fr

2
Documents semi-structuréset XML
  • Volume croissant des données
  • Données multimédia issues dInternet
  • Données biologiques
  • Evolution du type de documents
  • Document plat -gt document semi-structuré
  • Séparation du contenu de la structure et de la
    présentation
  • SGML, XML, ..
  • But faciliter léchange et la standardisation
    des données

3
Plan
  • Accès aux documents XML RI et BD
  • Travaux de thèse modèle flexible pour la RI
    structurée Soutenance en Juin 2005
  • Modèle de représentation
  • Langage de requête
  • Evaluation des requêtes contenu / contenu et
    structure
  • Expérimentations
  • Travaux actuels
  • XML et Systèmes Décisionnels
  • Stockage
  • Restitution

4
Accès aux documents XML
  • Accès aux documents XML
  • Travaux de thèse
  • Travaux actuels
  • XML et systèmes décisionnels
  • Approches orientées BD
  • Documents XML suite de données homogènes
  • ? traitement efficace de la structure
  • Langages de requêtes puissants (XQuery, )
  • ? lutilisateur doit déclarer ce que le système
    doit sélectionner
  • Que faire quand on ne connait pas la structure
    des documents?
  • ? traitement du contenu textuel
  • Traitent des expressions attribut valeur
  • ? correspondance exacte
  • Approches orientées RI
  • Les balises servent uniquement à décrire la
    structure logique des documents
  • ? évaluation de la pertinence des unités
    dinformation
  • Adaptation des modèles traditionnels de RI
  • vectoriel
  • probabiliste
  • ...
  • ? correspondance partielle
  • ? traitement de la structure

5
Accès aux documents XML
  • Accès aux documents XML
  • Travaux de thèse
  • Travaux actuels
  • XML et systèmes décisionnels

Sur-couche permettant lintégration de la
pertinence
6
Contexte des travaux de thèse
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • Systèmes de Recherche dInformation (SRI)
    classiques
  • Requêtes mots clés
  • Granule documentaire document entier
  • Quelles adaptation avec des documents XML ?

7
Contexte
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • Focalisation sur le besoin de lutilisateur
  • Granule documentaire Partie de document
  • Deux grands types de requêtes
  • Sur le contenu
  • Ex Hypertexte
  • Sur le contenu et la structure
  • Ex Section (hypertexte)

lt?xml version1.0 ?gt lt!--Exemple de fichier XML
decrivant un article scientifique --gt ltarticle
annee2003gt lten-têtegt lttitregtRecherche
dinformation sur le web la grande
révolutionlt/titregt ltauteurgtAndré
Dupontlt/auteurgt lt/en-têtegt ltcorpsgt
ltsectiongt ltsous-titregt Histoire de
lhypertexte des pères fondateurs au World Wide
Weblt/sous-titregt ltpargt Afin de
maîtriser les enjeux des systèmes hypertexte, il
convient, même si cest une tâche ardue,
dessayer de les définir lt/pargt
lt/sectiongt ltsectiongt ltsectiongt
ltsous-titregtLanalyse des liens
lt/sous-titregt ltpargt lt/pargt
lt/sectiongt lt/corpsgt lt/articlegt
  • Comment définir la pertinence?
  • Exhaustivité
  • Spécificité

8
Motivations
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels

Collection de documents
XML
Requête (mots-clés)
Indexation
Indexation
Représentation
Représentation
Appariement
Documents sélectionnés
9
Le modèle de recherche XFIRM
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • Proposition dun modèle
  • Orienté pertinence
  • Utilisant des fondements théoriques basés sur la
    statistique
  • XFIRM
  • Modèle de représentation des documents
  • Générique
  • Gère les structures hétérogènes
  • Langage de requêtes
  • Divers degrés de précision
  • Type de lunité dinformation voulue non
    nécessaire
  • Evaluation des requêtes
  • Méthode de propagation de la pertinence
  • Détermination de la granularité appropriée de
    linformation
  • Correspondance vague entre la structure de la
    requête et la structure des documents

10
Représentation des documents
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • Document structuré DS (arbre) N, NF, A, L
  • N ni ensemble des nuds internes
  • NFnfi ensemble des nuds feuilles
  • A aiensemble des attributs
  • L ensemble des arcs orientés

Linformation textuelle est localisée au niveau
des nuds feuilles
11
Représentation des documents
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • Représentation interne de la structure des
    documents
  • basée sur lapproche Xpath Accelerator Grust,
    2000
  • traitement des expressions Xpath
  • navigation efficace dans la structure des
    documents

12
Langage de requêtes
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • 4 types de requêtes
  • Précision P1
  • Simples mots-clés
  • internet OU (toile ET réseau)
  • internet moteurs de recherche
  • Précision P2
  • Simples conditions de structure
  • sectioninternet recherche
  • titre moteurs de recherche ET section_at_num1
  • Précision P3
  • Introduction de la notion de hiérarchie
  • //article_at_annee 2003 //corps internet
    //section_at_num1
  • Précision P4
  • Introduction de la notion délément cible
  • Article_at_annee2003 // ecsection //
    parannuaire ET titremoteur de recherche

13
Evaluation de la pertinence
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • Pour chaque nud feuille,
  • un poids de pertinence à la requête est calculé
  • Importance de la pondération des termes
    dindexation
  • Poids dun terme tj

14
Evaluation des requêtes sur le contenu seul
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • La pertinence pn dun nud n est ensuite calculée
    grâce à la propagation et à lagrégation des
    scores des nuds feuilles

15
Evaluation des requêtes sur le contenu seul
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • Problème informativité des nuds de petite
    taille
  • Cause pertinence définie comme ressemblance
    dun noeud à la requête
  • Solution introduction de la notion
    dinformativité
  • Deux intuitions
  • Taille du noeud
  • Pertinence liée à la taille des noeuds ?
  • Contexte
  • Pertinence liée au contexte des noeuds ?

16
Evaluation des requêtes sur le contenu et la
structure
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels

Article_at_annee2003 // ecsection //
parannuaire ET titremoteur de recherche
17
Correspondance partielle de la structure
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • //acontenu1//icontenu2//ec ccontenu3
  • //ec a//d//bcontenu2

18
La campagne dévaluation INEX
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • Collection
  • 12 135 documents provenant de 21 revues IEEE
    Computer Society
  • articles de longueurs variées
  • Tâches de recherche
  • Tâche CO (Content Only)
  • 2003 36 requêtes
  • 2004 40 requêtes
  • Tâche SCAS (Strict Content And Structure)
  • 2003 30 requêtes
  • Tâche VCAS (Vague Content And Structure)
  • 2004 35 requêtes

19
Évaluation comparative
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels

20
Synthèse
  • Accès aux documents XML
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • XML et systèmes décisionnels
  • Implantation dun prototype
  • Modèle basé sur une approche statistique
  • Évaluation INEX
  • Permet de fixer les paramètres du modèle
  • pondération des termes
  • distance séparant les nuds
  • contexte
  • taille des nuds
  • Évaluation comparative
  • Au niveau de létat de lart dans le domaine
  • Mais
  • Tâche utilisateur mal définie
  • Jugements de pertinences non homogènes
  • A partir de quelle granularité de linformation
    lutilisateur peut-il être satisfait ?

21
Travaux actuels (I)
  • Accès aux documents XML
  • Travaux de thèse
  • Travaux actuels
  • XML et systèmes décisionnels
  • Continuation des travaux sur laccès aux
    documents XML selon un axe RI
  • Participation pour la 4ème année consécutive à la
    campagne dévaluation INEX
  • Validation de la robustesse du modèle avec
  • De nouvelles mesures pour lévaluation de la
    pertinence
  • De nouvelles collections (5 Go)
  • Réinjection de la pertinence
  • Ajout de la structure dans des requêtes portant
    sur le contenu seul

22
Travaux actuels (II)
  • Accès aux documents XML
  • Travaux de thèse
  • Travaux actuels
  • XML et systèmes décisionnels
  • Recherche multimedia
  • Recherche dimages
  • Utilisation du contexte textuel
  • Propagation du score de pertinence des éléments
    autour des images pour calculer leur score
  • Collections hétérogènes
  • Structures hétérogènes
  • Contenus hétérogènes
  • Documents avec contenu orienté données
  • Documents avec contenu textuel

23
Vers les entrepôts de données
  • Accès aux documents XML
  • Travaux de thèse
  • Travaux actuels
  • XML et systèmes décisionnels

Système décisionnel
Couche utilisateur Analyse
Applications métiers
Entrepôt de données
Magasins de données
Bases commerciales
Requêteurs graphiques
Veille stratégique
Outils commerciaux
Requêteurs textuels
24
XML et entrepôts de données
  • Accès aux documents XML
  • Travaux de thèse
  • Travaux actuels
  • XML et systèmes décisionnels

Couche utilisateur Analyse
Magasins de données
Requêteurs graphiques
Documents XML au format hétérogène
Entrepôt de données
Outils commerciaux
Requêteurs textuels
25
Phase dETL
  • Accès aux documents XML
  • Travaux de thèse
  • Travaux actuels
  • XML et systèmes décisionnels
  • Problématique
  • Stocker et intégrer des informations de
    granularité et de formats différents
  • Extraction de structures
  • Enrichissement de linformation intégration,
    classement
  • Sémantique ?
  • Etat de lart
  • Approches de transformation basée sur un modèle
  • Indépendantes des DTD
  • Approches de transformation basée sur la
    structure
  • La schéma de la base reflète le schéma des
    documents XML
  • Exemple Xylème Server
  • Comment unifier toutes les structures ?
  • Quelques pistes
  • Utilisation de méthodes de classification
  • Utilisation de thésaurus
  • Comment conserver les relations hiérarchiques
    entre les parties de document ?
  • Quelques pistes
  • Jointures structurelles sur tables des arcs
    (nud, étiquette, nud)
  • Numérotation intelligente des éléments

26
Du côté utilisateur
  • Accès aux documents XML
  • Travaux de thèse
  • Travaux actuels
  • XML et systèmes décisionnels
  • Besoins utilisateurs
  • Insertion/suppression de documents concernant un
    domaine
  • Insertion/suppression déléments dun certain
    type de document
  • Affichage dun fait en fonction de plusieurs
    dimensions
  • Résumé dinformations textuelles en fonction de
    plusieurs dimensions
  • Problème
  • Contenus orientés données
  • Comment récupérer et utiliser les informations
    structurelles dans lindex
  • Contenus orientés documents
  • Contenus non numériques donc inagrégeables via
    les opérateurs standards
  • Roll-up / Drill-down
  • Quelques pistes
  • Utilisation de certaines techniques de RI ?
  • Pour le résumé automatique ?
  • Pour la correspondance floue de structures ?

27
Autres pistes de recherche
  • Accès aux documents XML
  • Travaux de thèse
  • Travaux actuels
  • XML et systèmes décisionnels
  • pour lintégration de documents aux entrepôts
  • Utilisation des méta-données des documents
  • Comment les intégrer ?
  • Et les utiliser pour lanalyse ?
  • Gestion des versions de documents
  • Interrogation
  • Que doit-on ajouter à lalgèbre
    multi-dimensionnelle pour la gestion des contenus
    textuels ?
  • Et le multimédia ?

28
Publications (I)
  • Articles dans des revues internationales avec
    comité de redaction
  • 1 Karen Sauvagnat, Mohand Boughanem, Claude
    Chrisment. Answering content-and-structure-based
    queries on XML documents using relevance
    propagation. Dans Information Systems - Special
    Issue SPIRE 2004, Elsevier, à paraître, 2006.
  • Conférences et workshops internationaux
  • 2 Karen Sauvagnat, Mohand Boughanem, Claude
    Chrisment. Why using structural hints in XML
    retrieval? In Proceedings of FQAS 2006, Advances
    in Artificial Intelligence. Milan, Italie, 7-10
    juin 2006, à paraître.
  • 3 Karen Sauvagnat, Lobna Hlaoua, Mohand
    Boughanem. XFIRM at INEX 2005 adhoc and
    relevance feedback tracks. In Proceedings of
    Fourth Workshop of the INitiative for the
    Evaluation of XML Retrieval (INEX 2005), Dagstuhl
    28-30 November 2005, Lecture Notes in Computer
    Science (LNCS 3977), Springer-Verlag, 2006.
  • 4 Karen Sauvagnat, Mohand Boughanem. Using a
    relevance propagation method for Adhoc and
    Heterogeneous tracks in INEX 2004. In
    Proceedings of the 3rd Initiative on the
    Evaluation of XML Retrieval (INEX), Dagstuhl,
    December 2004. Lecture Notes in Computer Science
    (LNCS 3493), Springer, ISSN 0302-9743, 2005.
  • 5 Karen Sauvagnat, Mohand Boughanem, Claude
    Chrisment. Searching XML documents using
    relevance propagation. Dans Proceedings of
    SPIRE 04, Padoue, Italie, octobre 2004. LNCS,
    Springer, p. 242-254.
  • 6 Karen Sauvagnat, Mohand Boughanem. The impact
    of leaf nodes relevance values evaluation in a
    propagation method for XML retrieval. Dans 3rd
    XML and Information Retrieval Workshop, SIGIR
    2004, Sheffield, Angleterre, Juillet 2004. p.
    19-22.
  • 7 Karen Sauvagnat, Gilles Hubert, Mohand
    Boughanem, Josiane Mothe. IRIT at INEX 2003.
    Proceedings of the 2nd INitiative for the
    Evaluation of XML Retrieval (INEX 2003),
    Dagstuhl, Germany, 15- 17 décembre 2003. p.
    142-148.
  • 8 Mohand Boughanem, Karen Sauvagnat, Cécile
    Laffaire. Mercure at TREC'2003, Web track - Topic
    Distillation Task. Dans Proceedings of Text
    REtrieval Conference (TREC 2003), Gaithersburg,
    Maryland, USA, 18 -21 novembre 2003.

29
Publications (II)
  • Conférences nationales avec actes édités et
    comité de selection
  • 9 Karen Sauvagnat, Mohand Boughanem.
    Propositions pour la pondération des termes et
    lévaluation de la pertinence des éléments en
    recherche dinformation structurée. Dans  Actes
    de CORIA 2006, Lyon, 15-17 mars 2006.
  • 10 Karen Sauvagnat, Mohand Boughanem. A la
    recherche de noeuds informatifs dans des corpus
    de documents XML où pourquoi on a toujours
    besoin de plus petit que soi.... Dans Actes de
    CORIA 2005, Grenoble, 9- 11 mars 2005. IMAG 2005,
    p. 119-134.
  • 11 Karen Sauvagnat, Mohand Boughanem. Le
    langage de requête XFIRM pour la recherche
    d'information dans des documents XML de la
    recherche par simples mots-clés à l'utilisation
    de la structure des documents. Dans Actes
    dInforsid 2004 , Biarritz, 26- 28 mai 2004. , p.
    107-124.
  • 12 Karen Sauvagnat. XFIRM Un Modèle Flexible
    orienté Recherche d'Information pour le stockage
    et l'interrogation de documents XML. Dans CORIA
    2004 - Conférence en Recherche d'Information et
    Applications, Toulouse, 10-12 mars 2004. IRIT
    2004, p. 121-142.
  • Articles courts et posters dans conférences
    internationales
  • 13 Karen Sauvagnat, Lobna Hlaoua, Mohand
    Boughanem. XML retrieval what about using
    contextual relevance?. Dans ACM Symposium on
    Applied Ccomputing (SAC) - IAR (Information
    Access and Retrieval), Dijon, 23 avril 27 avril
    2006. /, article court, à paraître.
  • 14 Karen Sauvagnat, Mohand Boughanem. XFIRM A
    Flexible Information Retrieval Model for Indexing
    and Searching XML documents. Dans ECIR
    (European Conference on Information Retrieval)-
    Proceedings volume 2 (Poster Abstracts),
    Sunderland, UK, 5- 7 avril 2004. - p. 17-18.

30
Cursus
  • DEUG MIAS
  • 1997-1999
  • Université Blaise Pascal Clermont-Ferrand
  • Major de promotion, Mention Très Bien
  • Ingénieur en Informatique de lINSA de Lyon
  • 1999-2002
  • Rang 2/120, Félicitations du jury
  • DEA DISIC (Documents, Images et Systèmes
    dInformation Communicants)
  • 2001-2002
  • Rang 2/20, Mention Bien
  • Doctorat en Informatique
  • 2002-2005
  • Mention Très honorable
  • ATER à lUniversité des Sciences Sociales
    Toulouse

31
Enseignement
  • Types denseignements
  • Bases de données (Cours/ TD/ TP)
  • Conception
  • Mise en place
  • Interrogation (Access / SQL)
  • Bases de données semi-structurées
  • Algorithmique et programmation (TP)
  • Bureautique (TD/ TP)
  • Word
  • Excel
  • Initiation aux réseaux et à Internet
  • Encadrement de projets
  • Lieux des enseignements
  • Université Toulouse le Mirail
  • Université Paul Sabatier
  • INSA de Toulouse
  • CNAM
  • Université Toulouse 1

32
Expérimentations sur
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • Perspectives
  • la pondération des termes dindexation
  • Importance de la notion de document
  • limpact de la distance séparant les nuds dans
    la propagation
  • Plus un nud est loin de son ancêtre dans larbre
    du document, moins il doit participer à
    lévaluation de son score de pertinence
  • limpact de la taille des nuds
  • Pas utile pour la pondération des termes
    dindexation
  • Pas utile utilisée comme seuil
  • Importance des nuds de petite taille dans la
    propagation propagation pondérée
  • la pertinence contextuelle
  • Tri sur la pertinence des documents puis sur la
    pertinence des éléments améliore les performances
  • Rétro-propagation améliore aussi les performances

33
Modèle optimalContenu seul
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • Perspectives
  • Propagation pondérée par la taille des nuds
    feuilles
  • Pertinence contextuelle

Précisions moyennes
34
Évaluation comparative SCAS
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • Perspectives

Fonction dagrégation stricte
35
Évaluation comparative VCAS
  • Travaux de thèse
  • Modèle de représentation
  • Langage de requêtes
  • Evaluation des requêtes
  • Expérimentations
  • Travaux actuels
  • Perspectives
Write a Comment
User Comments (0)
About PowerShow.com