Title: Modle flexible pour la recherche dinformation dans des corpus de documents semistructurs
1Modèle flexible pour la recherche dinformation
dans des corpus de documents semi-structurés
- Karen Sauvagnat,
- sauvagnat_at_irit.fr
2Documents semi-structuréset XML
- Volume croissant des données
- Données multimédia issues dInternet
- Données biologiques
-
- Evolution du type de documents
- Document plat -gt document semi-structuré
- Séparation du contenu de la structure et de la
présentation - SGML, XML, ..
- But faciliter léchange et la standardisation
des données
3Plan
- Accès aux documents XML RI et BD
- Travaux de thèse modèle flexible pour la RI
structurée Soutenance en Juin 2005 - Modèle de représentation
- Langage de requête
- Evaluation des requêtes contenu / contenu et
structure - Expérimentations
- Travaux actuels
- XML et Systèmes Décisionnels
- Stockage
- Restitution
4Accès aux documents XML
- Accès aux documents XML
- Travaux de thèse
- Travaux actuels
- XML et systèmes décisionnels
- Approches orientées BD
- Documents XML suite de données homogènes
- ? traitement efficace de la structure
- Langages de requêtes puissants (XQuery, )
- ? lutilisateur doit déclarer ce que le système
doit sélectionner - Que faire quand on ne connait pas la structure
des documents? - ? traitement du contenu textuel
- Traitent des expressions attribut valeur
- ? correspondance exacte
- Approches orientées RI
- Les balises servent uniquement à décrire la
structure logique des documents - ? évaluation de la pertinence des unités
dinformation - Adaptation des modèles traditionnels de RI
- vectoriel
- probabiliste
- ...
- ? correspondance partielle
- ? traitement de la structure
5Accès aux documents XML
- Accès aux documents XML
- Travaux de thèse
- Travaux actuels
- XML et systèmes décisionnels
Sur-couche permettant lintégration de la
pertinence
6Contexte des travaux de thèse
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- Systèmes de Recherche dInformation (SRI)
classiques - Requêtes mots clés
- Granule documentaire document entier
- Quelles adaptation avec des documents XML ?
7Contexte
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- Focalisation sur le besoin de lutilisateur
- Granule documentaire Partie de document
- Deux grands types de requêtes
- Sur le contenu
- Ex Hypertexte
- Sur le contenu et la structure
- Ex Section (hypertexte)
lt?xml version1.0 ?gt lt!--Exemple de fichier XML
decrivant un article scientifique --gt ltarticle
annee2003gt lten-têtegt lttitregtRecherche
dinformation sur le web la grande
révolutionlt/titregt ltauteurgtAndré
Dupontlt/auteurgt lt/en-têtegt ltcorpsgt
ltsectiongt ltsous-titregt Histoire de
lhypertexte des pères fondateurs au World Wide
Weblt/sous-titregt ltpargt Afin de
maîtriser les enjeux des systèmes hypertexte, il
convient, même si cest une tâche ardue,
dessayer de les définir lt/pargt
lt/sectiongt ltsectiongt ltsectiongt
ltsous-titregtLanalyse des liens
lt/sous-titregt ltpargt lt/pargt
lt/sectiongt lt/corpsgt lt/articlegt
- Comment définir la pertinence?
- Exhaustivité
- Spécificité
8Motivations
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
Collection de documents
XML
Requête (mots-clés)
Indexation
Indexation
Représentation
Représentation
Appariement
Documents sélectionnés
9Le modèle de recherche XFIRM
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- Proposition dun modèle
- Orienté pertinence
- Utilisant des fondements théoriques basés sur la
statistique - XFIRM
- Modèle de représentation des documents
- Générique
- Gère les structures hétérogènes
- Langage de requêtes
- Divers degrés de précision
- Type de lunité dinformation voulue non
nécessaire - Evaluation des requêtes
- Méthode de propagation de la pertinence
- Détermination de la granularité appropriée de
linformation - Correspondance vague entre la structure de la
requête et la structure des documents
10Représentation des documents
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- Document structuré DS (arbre) N, NF, A, L
- N ni ensemble des nuds internes
- NFnfi ensemble des nuds feuilles
- A aiensemble des attributs
- L ensemble des arcs orientés
Linformation textuelle est localisée au niveau
des nuds feuilles
11Représentation des documents
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- Représentation interne de la structure des
documents - basée sur lapproche Xpath Accelerator Grust,
2000 - traitement des expressions Xpath
- navigation efficace dans la structure des
documents
12Langage de requêtes
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- 4 types de requêtes
- Précision P1
- Simples mots-clés
- internet OU (toile ET réseau)
- internet moteurs de recherche
- Précision P2
- Simples conditions de structure
- sectioninternet recherche
- titre moteurs de recherche ET section_at_num1
- Précision P3
- Introduction de la notion de hiérarchie
- //article_at_annee 2003 //corps internet
//section_at_num1 - Précision P4
- Introduction de la notion délément cible
- Article_at_annee2003 // ecsection //
parannuaire ET titremoteur de recherche
13Evaluation de la pertinence
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- Pour chaque nud feuille,
- un poids de pertinence à la requête est calculé
- Importance de la pondération des termes
dindexation - Poids dun terme tj
14Evaluation des requêtes sur le contenu seul
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- La pertinence pn dun nud n est ensuite calculée
grâce à la propagation et à lagrégation des
scores des nuds feuilles
15Evaluation des requêtes sur le contenu seul
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- Problème informativité des nuds de petite
taille - Cause pertinence définie comme ressemblance
dun noeud à la requête - Solution introduction de la notion
dinformativité - Deux intuitions
- Taille du noeud
- Pertinence liée à la taille des noeuds ?
- Contexte
- Pertinence liée au contexte des noeuds ?
16Evaluation des requêtes sur le contenu et la
structure
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
Article_at_annee2003 // ecsection //
parannuaire ET titremoteur de recherche
17Correspondance partielle de la structure
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- //acontenu1//icontenu2//ec ccontenu3
18La campagne dévaluation INEX
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- Collection
- 12 135 documents provenant de 21 revues IEEE
Computer Society - articles de longueurs variées
- Tâches de recherche
- Tâche CO (Content Only)
- 2003 36 requêtes
- 2004 40 requêtes
- Tâche SCAS (Strict Content And Structure)
- 2003 30 requêtes
- Tâche VCAS (Vague Content And Structure)
- 2004 35 requêtes
19Évaluation comparative
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
20Synthèse
- Accès aux documents XML
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- XML et systèmes décisionnels
- Implantation dun prototype
- Modèle basé sur une approche statistique
- Évaluation INEX
- Permet de fixer les paramètres du modèle
- pondération des termes
- distance séparant les nuds
- contexte
- taille des nuds
- Évaluation comparative
- Au niveau de létat de lart dans le domaine
- Mais
- Tâche utilisateur mal définie
- Jugements de pertinences non homogènes
- A partir de quelle granularité de linformation
lutilisateur peut-il être satisfait ?
21Travaux actuels (I)
- Accès aux documents XML
- Travaux de thèse
- Travaux actuels
- XML et systèmes décisionnels
- Continuation des travaux sur laccès aux
documents XML selon un axe RI - Participation pour la 4ème année consécutive à la
campagne dévaluation INEX - Validation de la robustesse du modèle avec
- De nouvelles mesures pour lévaluation de la
pertinence - De nouvelles collections (5 Go)
- Réinjection de la pertinence
- Ajout de la structure dans des requêtes portant
sur le contenu seul
22Travaux actuels (II)
- Accès aux documents XML
- Travaux de thèse
- Travaux actuels
- XML et systèmes décisionnels
- Recherche multimedia
- Recherche dimages
- Utilisation du contexte textuel
- Propagation du score de pertinence des éléments
autour des images pour calculer leur score - Collections hétérogènes
- Structures hétérogènes
- Contenus hétérogènes
- Documents avec contenu orienté données
- Documents avec contenu textuel
23Vers les entrepôts de données
- Accès aux documents XML
- Travaux de thèse
- Travaux actuels
- XML et systèmes décisionnels
Système décisionnel
Couche utilisateur Analyse
Applications métiers
Entrepôt de données
Magasins de données
Bases commerciales
Requêteurs graphiques
Veille stratégique
Outils commerciaux
Requêteurs textuels
24XML et entrepôts de données
- Accès aux documents XML
- Travaux de thèse
- Travaux actuels
- XML et systèmes décisionnels
Couche utilisateur Analyse
Magasins de données
Requêteurs graphiques
Documents XML au format hétérogène
Entrepôt de données
Outils commerciaux
Requêteurs textuels
25Phase dETL
- Accès aux documents XML
- Travaux de thèse
- Travaux actuels
- XML et systèmes décisionnels
- Problématique
- Stocker et intégrer des informations de
granularité et de formats différents - Extraction de structures
- Enrichissement de linformation intégration,
classement - Sémantique ?
- Etat de lart
- Approches de transformation basée sur un modèle
- Indépendantes des DTD
- Approches de transformation basée sur la
structure - La schéma de la base reflète le schéma des
documents XML - Exemple Xylème Server
- Comment unifier toutes les structures ?
- Quelques pistes
- Utilisation de méthodes de classification
- Utilisation de thésaurus
- Comment conserver les relations hiérarchiques
entre les parties de document ? - Quelques pistes
- Jointures structurelles sur tables des arcs
(nud, étiquette, nud) - Numérotation intelligente des éléments
26Du côté utilisateur
- Accès aux documents XML
- Travaux de thèse
- Travaux actuels
- XML et systèmes décisionnels
- Besoins utilisateurs
- Insertion/suppression de documents concernant un
domaine - Insertion/suppression déléments dun certain
type de document - Affichage dun fait en fonction de plusieurs
dimensions - Résumé dinformations textuelles en fonction de
plusieurs dimensions -
- Problème
- Contenus orientés données
- Comment récupérer et utiliser les informations
structurelles dans lindex - Contenus orientés documents
- Contenus non numériques donc inagrégeables via
les opérateurs standards - Roll-up / Drill-down
- Quelques pistes
- Utilisation de certaines techniques de RI ?
- Pour le résumé automatique ?
- Pour la correspondance floue de structures ?
27Autres pistes de recherche
- Accès aux documents XML
- Travaux de thèse
- Travaux actuels
- XML et systèmes décisionnels
- pour lintégration de documents aux entrepôts
- Utilisation des méta-données des documents
- Comment les intégrer ?
- Et les utiliser pour lanalyse ?
- Gestion des versions de documents
- Interrogation
- Que doit-on ajouter à lalgèbre
multi-dimensionnelle pour la gestion des contenus
textuels ? - Et le multimédia ?
-
-
28 Publications (I)
- Articles dans des revues internationales avec
comité de redaction - 1 Karen Sauvagnat, Mohand Boughanem, Claude
Chrisment. Answering content-and-structure-based
queries on XML documents using relevance
propagation. Dans Information Systems - Special
Issue SPIRE 2004, Elsevier, à paraître, 2006. - Conférences et workshops internationaux
- 2 Karen Sauvagnat, Mohand Boughanem, Claude
Chrisment. Why using structural hints in XML
retrieval? In Proceedings of FQAS 2006, Advances
in Artificial Intelligence. Milan, Italie, 7-10
juin 2006, à paraître. - 3 Karen Sauvagnat, Lobna Hlaoua, Mohand
Boughanem. XFIRM at INEX 2005 adhoc and
relevance feedback tracks. In Proceedings of
Fourth Workshop of the INitiative for the
Evaluation of XML Retrieval (INEX 2005), Dagstuhl
28-30 November 2005, Lecture Notes in Computer
Science (LNCS 3977), Springer-Verlag, 2006. - 4 Karen Sauvagnat, Mohand Boughanem. Using a
relevance propagation method for Adhoc and
Heterogeneous tracks in INEX 2004. In
Proceedings of the 3rd Initiative on the
Evaluation of XML Retrieval (INEX), Dagstuhl,
December 2004. Lecture Notes in Computer Science
(LNCS 3493), Springer, ISSN 0302-9743, 2005. - 5 Karen Sauvagnat, Mohand Boughanem, Claude
Chrisment. Searching XML documents using
relevance propagation. Dans Proceedings of
SPIRE 04, Padoue, Italie, octobre 2004. LNCS,
Springer, p. 242-254. - 6 Karen Sauvagnat, Mohand Boughanem. The impact
of leaf nodes relevance values evaluation in a
propagation method for XML retrieval. Dans 3rd
XML and Information Retrieval Workshop, SIGIR
2004, Sheffield, Angleterre, Juillet 2004. p.
19-22. - 7 Karen Sauvagnat, Gilles Hubert, Mohand
Boughanem, Josiane Mothe. IRIT at INEX 2003.
Proceedings of the 2nd INitiative for the
Evaluation of XML Retrieval (INEX 2003),
Dagstuhl, Germany, 15- 17 décembre 2003. p.
142-148. - 8 Mohand Boughanem, Karen Sauvagnat, Cécile
Laffaire. Mercure at TREC'2003, Web track - Topic
Distillation Task. Dans Proceedings of Text
REtrieval Conference (TREC 2003), Gaithersburg,
Maryland, USA, 18 -21 novembre 2003.
29 Publications (II)
- Conférences nationales avec actes édités et
comité de selection - 9 Karen Sauvagnat, Mohand Boughanem.
Propositions pour la pondération des termes et
lévaluation de la pertinence des éléments en
recherche dinformation structurée. Dans Actes
de CORIA 2006, Lyon, 15-17 mars 2006. - 10 Karen Sauvagnat, Mohand Boughanem. A la
recherche de noeuds informatifs dans des corpus
de documents XML où pourquoi on a toujours
besoin de plus petit que soi.... Dans Actes de
CORIA 2005, Grenoble, 9- 11 mars 2005. IMAG 2005,
p. 119-134. - 11 Karen Sauvagnat, Mohand Boughanem. Le
langage de requête XFIRM pour la recherche
d'information dans des documents XML de la
recherche par simples mots-clés à l'utilisation
de la structure des documents. Dans Actes
dInforsid 2004 , Biarritz, 26- 28 mai 2004. , p.
107-124. - 12 Karen Sauvagnat. XFIRM Un Modèle Flexible
orienté Recherche d'Information pour le stockage
et l'interrogation de documents XML. Dans CORIA
2004 - Conférence en Recherche d'Information et
Applications, Toulouse, 10-12 mars 2004. IRIT
2004, p. 121-142. - Articles courts et posters dans conférences
internationales - 13 Karen Sauvagnat, Lobna Hlaoua, Mohand
Boughanem. XML retrieval what about using
contextual relevance?. Dans ACM Symposium on
Applied Ccomputing (SAC) - IAR (Information
Access and Retrieval), Dijon, 23 avril 27 avril
2006. /, article court, à paraître. - 14 Karen Sauvagnat, Mohand Boughanem. XFIRM A
Flexible Information Retrieval Model for Indexing
and Searching XML documents. Dans ECIR
(European Conference on Information Retrieval)-
Proceedings volume 2 (Poster Abstracts),
Sunderland, UK, 5- 7 avril 2004. - p. 17-18.
30 Cursus
- DEUG MIAS
- 1997-1999
- Université Blaise Pascal Clermont-Ferrand
- Major de promotion, Mention Très Bien
- Ingénieur en Informatique de lINSA de Lyon
- 1999-2002
- Rang 2/120, Félicitations du jury
- DEA DISIC (Documents, Images et Systèmes
dInformation Communicants) - 2001-2002
- Rang 2/20, Mention Bien
- Doctorat en Informatique
- 2002-2005
- Mention Très honorable
- ATER à lUniversité des Sciences Sociales
Toulouse
31 Enseignement
- Types denseignements
- Bases de données (Cours/ TD/ TP)
- Conception
- Mise en place
- Interrogation (Access / SQL)
- Bases de données semi-structurées
- Algorithmique et programmation (TP)
- Bureautique (TD/ TP)
- Word
- Excel
- Initiation aux réseaux et à Internet
- Encadrement de projets
- Lieux des enseignements
- Université Toulouse le Mirail
- Université Paul Sabatier
- INSA de Toulouse
- CNAM
- Université Toulouse 1
32Expérimentations sur
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- Perspectives
- la pondération des termes dindexation
- Importance de la notion de document
- limpact de la distance séparant les nuds dans
la propagation - Plus un nud est loin de son ancêtre dans larbre
du document, moins il doit participer à
lévaluation de son score de pertinence - limpact de la taille des nuds
- Pas utile pour la pondération des termes
dindexation - Pas utile utilisée comme seuil
- Importance des nuds de petite taille dans la
propagation propagation pondérée - la pertinence contextuelle
- Tri sur la pertinence des documents puis sur la
pertinence des éléments améliore les performances - Rétro-propagation améliore aussi les performances
33Modèle optimalContenu seul
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- Perspectives
- Propagation pondérée par la taille des nuds
feuilles - Pertinence contextuelle
Précisions moyennes
34 Évaluation comparative SCAS
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- Perspectives
Fonction dagrégation stricte
35 Évaluation comparative VCAS
- Travaux de thèse
- Modèle de représentation
- Langage de requêtes
- Evaluation des requêtes
- Expérimentations
- Travaux actuels
- Perspectives