Title: Thibault ROY Universit de Caen BasseNormandie Laboratoire GREYC quipe ISLanD
1Thibault ROYUniversité de Caen /
Basse-NormandieLaboratoire GREYC / Équipe ISLanD
- Le corpus comme environnement danalyse et
dinteractions pour lutilisateur - Expérimentations en recherche dinformation et en
linguistique informatique
Projet PUN "Approche énactive pour
l'interprétation de documents numériques"
2Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
- Cadre de travail et propositions
- Fondements et hypothèses
- Moyens logiciels mis en uvre
- Expérimentations réalisées
- Recherche et veille documentaire
- Analyse dexpressions métaphoriques
- Perspectives de recherche
3Constat
Cadre de travail et propositions
- De plus en plus
- De documents électroniques textuels
- De moyens logiciels, de ressources et de
puissance de calcul utilisées - Pourtant
- Grande difficulté daccès au contenu de textes
- Peu (pas ?) de réelle prise en compte du point de
vue de lutilisateur sur la tâche visée - Peu (pas ?) dinteractions lui sont proposées
- Peu (pas ?) de réelle prise en considération de
la dimension temporelle
4Piste choisie
Cadre de travail et propositions
- Proposer des modèles danalyse au niveau global
- Production de représentations graphiques globales
du corpus et de rapports danalyse - Représentations globales du corpus
- ? supports dinteractions entre lutilisateur et
- lensemble documentaire analysé
- Basées sur des représentations des domaines
dintérêt de lutilisateur - Représentation de ces domaines par des ressources
lexicales personnalisées -
5Visées applicatives
Cadre de travail et propositions
- Accès au contenu de corpus et de collections de
documents textuels - Recherche et veille documentaire
- ? Accès amélioré au contenu de collections (e.g.
consultations thématiques) - Analyses linguistiques de corpus
- Étude dexpressions métaphoriques
- ? Analyse de linfluence de la dimension
corpus dans la présence de certains
phénomènes langagiers - Finalités dépendantes de la tâche visée !
6Objets détude
Cadre de travail et propositions
- Corpus de textes (Pincemin, 1999)
- Articles journalistiques et scientifiques
- Collections de pages Web
- Obtenues à laide de moteur de recherche
- Flux documentaires
- Forums de discussion et courriers électroniques
7Quels résultats ?
Cadre de travail et propositions
8Quelles données ?
Cadre de travail et propositions
- Représentation des domaines pertinents pour
lutilisateur dans le cadre de sa tâche - Deux représentations
- Bags of Words
- Santé médecin, soigner, aspirine, hôpital, etc.
- Guerre combattre, bombe, capituler, soldat,
etc. - Modèle LUCIA (Perlerin, 2004)
- Catégorisation lexicale plus fine
- Description sémique différentielle (Beust, 1998)
- Dans tout les cas cest lutilisateur (ou le
groupe dutilisateurs) qui construit les
ressources - Avec son propre vocabulaire
- Selon les domaines de son intérêt
9Quelles analyses ?
Cadre de travail et propositions
- Travail au niveau du co-texte
- Comptage des mots de ressources lexicales
- Mise en évidence des isotopies intra-textuelles
- Représentation vectorielle de chaque texte
- Projection et catégorisation des vecteurs
- Travail au niveau de lintertexte
- Détermination des isotopies inter-textuelles
- Rapports danalyse des groupes et des textes
- Utilisation des isotopies inter-textuelles pour
positionner le groupe ou le texte par rapport à
son intertexte - Prise en considération de la dimension temporelle
en localisant les analyses sur une période
donnée - Analyses mises en uvre avec la plate-forme
logicielle ProxiDocs
10Plate-forme ProxiDocs
Cadre de travail et propositions
- Cartographie et catégorisation de corpus de
textes - Interactive et centrée utilisateur
- Traitements statistiques
- ACP, CHA, KMeans, etc.
- Java, SVG, Open-source, http//www.info.unicaen.fr
/troy/proxidocs
11Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
- Cadre de travail et propositions
- Fondements et hypothèses
- Moyens logiciels mis en uvre
- Expérimentations réalisées
- Recherche et veille documentaire
- Analyse dexpressions métaphoriques
- Perspectives de recherche
12Différentes expérimentations
Expérimentations réalisées
- Besoin dexperts et de tâches précises
- Mise en place dun méta-moteur de recherche
cartographique basé sur la plate-forme ProxiDocs - Projet CISMeF recherche dinformation dans des
documents médicaux - Projet IsoMeta étude en corpus dexpressions
métaphoriques - Groupe de travail sur les forums de discussion
- Expérimentations toutes en cours !!!
13Méta-moteur de recherche cartographique (1 / 4)
Expérimentations réalisées
- Objectifs
- Avoir un regard global sur le contenu des
principales pages Web traitant de la
Constitution Européenne - Contexte
- 12 domaines généraux choisis (approche bags of
words ) - justice, violence, éducation, sécurité routière,
agriculture, économie, informatique, etc. - Taille moyenne des domaines 40 lexies
- Expérience
- Requête constitution européenne sur Yahoo
- 100 pages provenant de sites francophones
- Cartographie avec ACP et catégorisation CHA en 8
groupes
14Méta-moteur de recherche cartographique (2 / 4)
Expérimentations réalisées
15Expérimentations réalisées
Méta-moteur de recherche cartographique (3 / 4)
16Expérimentations réalisées
Méta-moteur de recherche cartographique (4 / 4)
- Cartographie utile pour
- Visualiser la répartition des domaines sur
lensemble documentaire - Accéder plus facilement au contenu
- Première mise en évidence des isotopies
inter-textuelles - Ressources utilisées
- Informatique logiciel, web, etc. ? logiciel
/informatique/, web /informatique/, etc. - Principales isotopies intertextuelles obtenues
dans lexpérience - Informatique, Économie, etc.
17Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (1 / 6)
- Objet détude
- 70 ressources ( documents) extraites du
catalogue CISMeF - Indexées à laide de descripteurs du thésaurus
MeSH (pondération majeure / mineure) - Intérêt pour les spécialités médicales
- Objectif
- Obtenir une vue sur la répartition des
spécialités médicales dans les ressources - Mettre en évidence demplois très localisés de
certaines spécialités dans quelques ressources - Mettre en évidence des spécialités très partagées
entre la plupart des ressources
18Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (2 / 6)
- Utilisation de loutil MeSH Categorization pour
obtenir un score pour chaque spécialité médicale - sur lensemble des ressources,
- puis sur chaque ressource
- Chaque ressource est représentée par un vecteur
Vecteur_Res ( Score_Virology(Res),
Score_Infectiology(Res), Score_Bactériol
ogy(Res), etc.)
19Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (3 / 6)
- Projection de lensemble des vecteurs de
l espace des spécialités vers un espace en 2
dimensions - Regroupement automatique de ressources sur la
carte en 12 groupes (clusters)
20Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (4 / 6)
Groupe 1
Groupe 2
21Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (5 / 6)
- Groupe 1 36 ressources
- Spécialités les plus présentes
- infectiology, bacteriology et preventive medecine
- Thématiques assez variées, liées aux spécialités
principales, mais sans réelle lien entre les
ressources - Groupe 2 11 ressources
- Spécialités majoritaires
- virology, infectiology et preventive medecine
- Thématiques étroitement liées au domaine de la
virologie (ressources traitant de virus, des
vaccins, etc.) - Autres groupes
- Thématiques abordées étroitement liées aux
spécialités majoritaires
22Expérimentations réalisées
Projet CISMeF RI dans des doc. médicaux (6 / 6)
- Bilan
- Intérêt de la carte pour accéder aux contenu
rapidement aux contenus des ressources - Mise en évidence de spécialités trame de fond
et de spécialités très localisées dans les
ressources - Perspectives
- Vers une nouvelle indexation ?
- Ajout de nouvelles pondérations ?
23Projet IsoMeta (1 / 6)
Expérimentations réalisées
- Étude simultanée de trois métaphores
conceptuelles dans un corpus de 600 articles
boursiers du Monde entre 1987 et 1989 - La météorologie boursière
- La santé financière
- La guerre économique
Bourse, Économie, Finances, Politique, Etc.
24Projet IsoMeta (2 / 6)
Expérimentations réalisées
- Cartographie de corpus à partir des trois
domaines sources météo, santé, guerre - Représentation des domaines par des dispositifs
Lucia - Construction des dispositifs par une étude
lexicale du corpus (dispositif guerre 60
lexies, dispositifs météo et santé 110 lexies) - Filtrage des documents contenant au moins 2
occurrences de lexies des domaines - 303 documents restants
25Projet IsoMeta (3 / 6)
Expérimentations réalisées
26Projet IsoMeta (4 / 6)
Expérimentations réalisées
27Projet IsoMeta (5 / 6)
Expérimentations réalisées
- Analyses précédentes réalisées à laide des
différents rapports de groupes et de textes - Intra et inter-isotopies mises en évidence dans
les rapports de groupe - Réflexions en cours sur le classement de ces
isotopies - Singulariser le local (texte ou groupe) à laide
de son global (resp. groupe ou corpus)
28Projet IsoMeta (6 / 6)
Expérimentations réalisées
- Bilan
- Intérêt de vues globales
- Mise en évidence de proximités entre articles
- Regroupement de textes en sous-ensembles
- Influence du temps
- Perspectives
- Aller plus finement vers une caractérisation des
isotopies dans le cadre de létude des trois
métaphores
29Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
- Cadre de travail et propositions
- Fondements et hypothèses
- Moyens logiciels mis en uvre
- Analyses réalisées
- Gestion Électronique de Documents
- Analyse dexpressions métaphoriques
- Perspectives de recherche
30Premier bilan
Perspectives de recherche
- Intérêt de prendre en considération la globalité
dun ensemble documentaire pour - des tâches daccès au contenu de collections
- une étude en corpus dexpressions métaphoriques
- Intérêt de prendre en considération les domaines
pertinents du point de vue de lutilisateur
31Réflexions théoriques
Perspectives de recherche
- Projection pertinente du global sur le local
- Mise en uvre de différentes pondérations des
isotopies intra et inter-textuelles selon le
contexte - Mise en uvre dune évaluation de la plate-forme
ProxiDocs - Protocole
- Échantillon représentatif dutilisateurs
32Évaluation
Perspectives de recherche
- Évaluation des ressources
- Le modèle structurel des ressources est-il clair
? - L'aide à la construction des ressources est-elle
suffisante ? - Le temps nécessaire à la construction des
ressources est-il raisonnable ? - Les ressources sont-elles susceptibles d'évoluer
facilement ? - Les ressources personnelles sont-elles a priori
facilement partageables ? - Aucune compétence particulière est-elle
nécessaire pour la construction des ressources ? - Évaluation de la plate-forme
- Le but applicatif vous semble-t-il clair ?
- La prise en main est-elle facile ?
- Est-ce que l'outil donne un retour intéressant
sur les ressources ? - Les résultats du logiciel sont-ils facilement
exploitables ? - Est-ce que l'outil est agréable à utiliser ?
- Les traitements sont-ils adaptés à la tâche ?
- Est-ce que l'outils permet d'envisager d'autres
applications ? - L'outil permet-il plus facilement un travail à
plusieurs sur la tâche ? - Est-ce que l'outil peut changer la façon
d'accomplir la tâche ?
33Développement
Perspectives de recherche
- Besoin de nouvelles possibilités dinteractions
et de visualisation - Ajout, suppression, déplacement dynamique dun
document ou dun groupe de documents - Aller plus loin dans la prise en considération de
la dimension temporelle des documents
(déplacements de documents selon laxe du temps) - Développer des supports dinteractions entre
lutilisateur et lensemble documentaire analysé
34Merci de votre attention
Analyses cartographiques personnalisées de
collections de documents électroniques
- Pour plus dinformation
- http//www.info.unicaen.fr/troy