Thibault ROY Universit de Caen BasseNormandie Laboratoire GREYC quipe ISLanD - PowerPoint PPT Presentation

1 / 34
About This Presentation
Title:

Thibault ROY Universit de Caen BasseNormandie Laboratoire GREYC quipe ISLanD

Description:

Le corpus comme environnement d'analyse et d'interactions pour l'utilisateur ... Guerre : combattre, bombe, capituler, soldat, etc. Mod le LUCIA (Perlerin, 2004) ... – PowerPoint PPT presentation

Number of Views:26
Avg rating:3.0/5.0
Slides: 35
Provided by: roythiba
Category:

less

Transcript and Presenter's Notes

Title: Thibault ROY Universit de Caen BasseNormandie Laboratoire GREYC quipe ISLanD


1
Thibault ROYUniversité de Caen /
Basse-NormandieLaboratoire GREYC / Équipe ISLanD
  • Le corpus comme environnement danalyse et
    dinteractions pour lutilisateur
  • Expérimentations en recherche dinformation et en
    linguistique informatique

Projet PUN "Approche énactive pour
l'interprétation de documents numériques"
2
Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
  • Cadre de travail et propositions
  • Fondements et hypothèses
  • Moyens logiciels mis en uvre
  • Expérimentations réalisées
  • Recherche et veille documentaire
  • Analyse dexpressions métaphoriques
  • Perspectives de recherche

3
Constat
Cadre de travail et propositions
  • De plus en plus
  • De documents électroniques textuels
  • De moyens logiciels, de ressources et de
    puissance de calcul utilisées
  • Pourtant
  • Grande difficulté daccès au contenu de textes
  • Peu (pas ?) de réelle prise en compte du point de
    vue de lutilisateur sur la tâche visée
  • Peu (pas ?) dinteractions lui sont proposées
  • Peu (pas ?) de réelle prise en considération de
    la dimension temporelle

4
Piste choisie
Cadre de travail et propositions
  • Proposer des modèles danalyse au niveau global
  • Production de représentations graphiques globales
    du corpus et de rapports danalyse
  • Représentations globales du corpus
  • ? supports dinteractions entre lutilisateur et
  • lensemble documentaire analysé
  • Basées sur des représentations des domaines
    dintérêt de lutilisateur
  • Représentation de ces domaines par des ressources
    lexicales personnalisées

5
Visées applicatives
Cadre de travail et propositions
  • Accès au contenu de corpus et de collections de
    documents textuels
  • Recherche et veille documentaire
  • ? Accès amélioré au contenu de collections (e.g.
    consultations thématiques)
  • Analyses linguistiques de corpus
  • Étude dexpressions métaphoriques
  • ? Analyse de linfluence de la dimension
     corpus  dans la présence de certains
    phénomènes langagiers
  • Finalités dépendantes de la tâche visée !

6
Objets détude
Cadre de travail et propositions
  • Corpus de textes (Pincemin, 1999)
  • Articles journalistiques et scientifiques
  • Collections de pages Web
  • Obtenues à laide de moteur de recherche
  • Flux documentaires
  • Forums de discussion et courriers électroniques

7
Quels résultats ?
Cadre de travail et propositions
8
Quelles données ?
Cadre de travail et propositions
  • Représentation des domaines pertinents pour
    lutilisateur dans le cadre de sa tâche
  • Deux représentations
  •  Bags of Words 
  • Santé médecin, soigner, aspirine, hôpital, etc.
  • Guerre combattre, bombe, capituler, soldat,
    etc.
  • Modèle LUCIA (Perlerin, 2004)
  • Catégorisation lexicale plus fine
  • Description sémique différentielle (Beust, 1998)
  • Dans tout les cas cest lutilisateur (ou le
    groupe dutilisateurs) qui construit les
    ressources
  • Avec son propre vocabulaire
  • Selon les domaines de son intérêt

9
Quelles analyses ?
Cadre de travail et propositions
  • Travail au niveau du co-texte
  • Comptage des mots de ressources lexicales
  • Mise en évidence des isotopies intra-textuelles
  • Représentation vectorielle de chaque texte
  • Projection et catégorisation des vecteurs
  • Travail au niveau de lintertexte
  • Détermination des isotopies inter-textuelles
  • Rapports danalyse des groupes et des textes
  • Utilisation des isotopies inter-textuelles pour
    positionner le groupe ou le texte par rapport à
    son intertexte
  • Prise en considération de la dimension temporelle
    en  localisant  les analyses sur une période
    donnée
  • Analyses mises en uvre avec la plate-forme
    logicielle ProxiDocs

10
Plate-forme ProxiDocs
Cadre de travail et propositions
  • Cartographie et catégorisation de corpus de
    textes
  • Interactive et centrée utilisateur
  • Traitements statistiques
  • ACP, CHA, KMeans, etc.
  • Java, SVG, Open-source, http//www.info.unicaen.fr
    /troy/proxidocs

11
Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
  • Cadre de travail et propositions
  • Fondements et hypothèses
  • Moyens logiciels mis en uvre
  • Expérimentations réalisées
  • Recherche et veille documentaire
  • Analyse dexpressions métaphoriques
  • Perspectives de recherche

12
Différentes expérimentations
Expérimentations réalisées
  • Besoin dexperts et de tâches précises
  • Mise en place dun méta-moteur de recherche
    cartographique basé sur la plate-forme ProxiDocs
  • Projet CISMeF recherche dinformation dans des
    documents médicaux
  • Projet IsoMeta étude en corpus dexpressions
    métaphoriques
  • Groupe de travail sur les forums de discussion
  • Expérimentations toutes en cours !!!

13
Méta-moteur de recherche cartographique (1 / 4)
Expérimentations réalisées
  • Objectifs
  • Avoir un regard global sur le contenu des
     principales  pages Web traitant de la
    Constitution Européenne
  • Contexte
  • 12 domaines généraux choisis (approche  bags of
    words )
  • justice, violence, éducation, sécurité routière,
    agriculture, économie, informatique, etc.
  • Taille moyenne des domaines 40 lexies
  • Expérience
  • Requête  constitution européenne  sur Yahoo
  • 100 pages provenant de sites francophones
  • Cartographie avec ACP et catégorisation CHA en 8
    groupes

14
Méta-moteur de recherche cartographique (2 / 4)
Expérimentations réalisées
15
Expérimentations réalisées
Méta-moteur de recherche cartographique (3 / 4)
16
Expérimentations réalisées
Méta-moteur de recherche cartographique (4 / 4)
  • Cartographie utile pour
  • Visualiser la répartition des domaines sur
    lensemble documentaire
  • Accéder plus facilement au contenu
  • Première mise en évidence des isotopies
    inter-textuelles
  • Ressources utilisées
  • Informatique logiciel, web, etc. ? logiciel
    /informatique/, web /informatique/, etc.
  • Principales isotopies intertextuelles obtenues
    dans lexpérience
  • Informatique, Économie, etc.

17
Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (1 / 6)
  • Objet détude
  • 70 ressources ( documents) extraites du
    catalogue CISMeF
  • Indexées à laide de descripteurs du thésaurus
    MeSH (pondération majeure / mineure)
  • Intérêt pour les  spécialités médicales 
  • Objectif
  • Obtenir une vue sur la répartition des
    spécialités médicales dans les ressources
  • Mettre en évidence demplois très localisés de
    certaines spécialités dans quelques ressources
  • Mettre en évidence des spécialités très partagées
    entre la plupart des ressources

18
Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (2 / 6)
  • Utilisation de loutil MeSH Categorization pour
    obtenir un score pour chaque spécialité médicale
  • sur lensemble des ressources,
  • puis sur chaque ressource
  • Chaque ressource est représentée par un vecteur
    Vecteur_Res ( Score_Virology(Res),
    Score_Infectiology(Res), Score_Bactériol
    ogy(Res), etc.)

19
Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (3 / 6)
  • Projection de lensemble des vecteurs de
    l espace des spécialités  vers un espace en 2
    dimensions
  • Regroupement automatique de ressources sur la
    carte en 12 groupes (clusters)

20
Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (4 / 6)
Groupe 1
Groupe 2
21
Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (5 / 6)
  • Groupe 1 36 ressources
  • Spécialités les plus présentes
  • infectiology, bacteriology et preventive medecine
  • Thématiques assez variées, liées aux spécialités
    principales, mais sans réelle lien entre les
    ressources
  • Groupe 2 11 ressources
  • Spécialités majoritaires
  • virology, infectiology et preventive medecine
  • Thématiques étroitement liées au domaine de la
    virologie (ressources traitant de virus, des
    vaccins, etc.)
  • Autres groupes 
  • Thématiques abordées étroitement liées aux
    spécialités majoritaires

22
Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (6 / 6)
  • Bilan
  • Intérêt de la carte pour accéder aux contenu
    rapidement aux contenus des ressources
  • Mise en évidence de spécialités  trame de fond 
    et de spécialités très localisées dans les
    ressources
  • Perspectives
  • Vers une  nouvelle  indexation ?
  • Ajout de nouvelles pondérations ?

23
Projet IsoMeta (1 / 6)
Expérimentations réalisées
  • Étude simultanée de trois métaphores
    conceptuelles dans un corpus de 600 articles
    boursiers du Monde entre 1987 et 1989
  • La  météorologie boursière 
  • La  santé financière 
  • La  guerre économique 

Bourse, Économie, Finances, Politique, Etc.
24
Projet IsoMeta (2 / 6)
Expérimentations réalisées
  • Cartographie de corpus à partir des trois
    domaines sources météo, santé, guerre
  • Représentation des domaines par des dispositifs
    Lucia
  • Construction des dispositifs par une étude
    lexicale du corpus (dispositif guerre 60
    lexies, dispositifs météo et santé 110 lexies)
  • Filtrage des documents contenant au moins 2
    occurrences de lexies des domaines
  • 303 documents restants

25
Projet IsoMeta (3 / 6)
Expérimentations réalisées
26
Projet IsoMeta (4 / 6)
Expérimentations réalisées
27
Projet IsoMeta (5 / 6)
Expérimentations réalisées
  • Analyses précédentes réalisées à laide des
    différents rapports de groupes et de textes
  • Intra et inter-isotopies mises en évidence dans
    les rapports de groupe
  • Réflexions en cours sur le classement de ces
    isotopies
  • Singulariser le local (texte ou groupe) à laide
    de son global (resp. groupe ou corpus)

28
Projet IsoMeta (6 / 6)
Expérimentations réalisées
  • Bilan
  • Intérêt de vues globales
  • Mise en évidence de proximités entre articles
  • Regroupement de textes en sous-ensembles
  • Influence du temps
  • Perspectives
  • Aller plus finement vers une caractérisation des
    isotopies dans le cadre de létude des trois
    métaphores

29
Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
  • Cadre de travail et propositions
  • Fondements et hypothèses
  • Moyens logiciels mis en uvre
  • Analyses réalisées
  • Gestion Électronique de Documents
  • Analyse dexpressions métaphoriques
  • Perspectives de recherche

30
Premier bilan
Perspectives de recherche
  • Intérêt de prendre en considération la globalité
    dun ensemble documentaire pour
  • des tâches daccès au contenu de collections
  • une étude en corpus dexpressions métaphoriques
  • Intérêt de prendre en considération les domaines
    pertinents du point de vue de lutilisateur

31
Réflexions théoriques
Perspectives de recherche
  • Projection pertinente du global sur le local
  • Mise en uvre de différentes pondérations des
    isotopies intra et inter-textuelles selon le
    contexte
  • Mise en uvre dune évaluation de la plate-forme
    ProxiDocs
  • Protocole
  • Échantillon représentatif dutilisateurs

32
Évaluation
Perspectives de recherche
  • Évaluation des ressources
  • Le modèle structurel des ressources est-il clair
    ?
  • L'aide à la construction des ressources est-elle
    suffisante ?
  • Le temps nécessaire à la construction des
    ressources est-il raisonnable ?
  • Les ressources sont-elles susceptibles d'évoluer
    facilement ?
  • Les ressources personnelles sont-elles a priori
    facilement partageables ?
  • Aucune compétence particulière est-elle
    nécessaire pour la construction des ressources ?
  • Évaluation de la plate-forme
  • Le but applicatif vous semble-t-il clair ?
  • La prise en main est-elle facile ?
  • Est-ce que l'outil donne un retour intéressant
    sur les ressources ?
  • Les résultats du logiciel sont-ils facilement
    exploitables ?
  • Est-ce que l'outil est agréable à utiliser ?
  • Les traitements sont-ils adaptés à la tâche ?
  • Est-ce que l'outils permet d'envisager d'autres
    applications ?
  • L'outil permet-il plus facilement un travail à
    plusieurs sur la tâche ?
  • Est-ce que l'outil peut changer la façon
    d'accomplir la tâche ?

33
Développement
Perspectives de recherche
  • Besoin de nouvelles possibilités dinteractions
    et de visualisation
  • Ajout, suppression, déplacement dynamique dun
    document ou dun groupe de documents
  • Aller plus loin dans la prise en considération de
    la dimension temporelle des documents
    (déplacements de documents selon laxe du temps)
  • Développer des supports dinteractions entre
    lutilisateur et lensemble documentaire analysé

34
Merci de votre attention
Analyses cartographiques personnalisées de
collections de documents électroniques
  • Pour plus dinformation
  • http//www.info.unicaen.fr/troy
Write a Comment
User Comments (0)
About PowerShow.com