Title: Thibault ROY Universit de Caen BasseNormandie Laboratoire GREYC quipe ISLanD
1Thibault ROYUniversité de Caen /
Basse-NormandieLaboratoire GREYC / Équipe ISLanD
- Analyses cartographiques personnalisées de
collections de documents électroniques
2Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
- Cadre de travail et propositions
- Fondements et hypothèses
- Moyens logiciels mis en uvre
- Analyses réalisées
- Gestion Électronique de Documents
- Analyse dexpressions métaphoriques
- Perspectives de recherche
3Constat
Cadre de travail et propositions
- De plus en plus
- De documents électroniques textuels
- De moyens logiciels, de ressources et de
puissance de calcul utilisées - Pourtant
- Grande difficulté daccès au contenu de textes
- Peu (pas ?) de réelle prise en compte du point de
vue de lutilisateur sur la tâche visée - Peu (pas ?) dinteractions lui sont proposées
- Peu (pas ?) de réelle prise en considération de
la dimension temporelle
4Travail de thèse
Cadre de travail et propositions
- Prendre en compte la globalité densembles
documentaires - Dans le cadre danalyses automatiques de contenu
- Centrées sur lutilisateur ou le groupe
dutilisateurs - Interactives et légères
- Synchroniques et diachroniques
- La globalité dun ensemble documentaire
- Le regroupement de documents par des utilisateurs
au sein de collections ou de corpus implique le
partage de certaines propriétés - Nécessité dune véritable analyse au niveau de la
collection - Et non dune somme danalyses indépendantes au
niveau du document
5Piste choisie
Cadre de travail et propositions
- Proposer des modèles danalyse au niveau global
- Production de représentations graphiques globales
du corpus et de rapports danalyse - Représentations globales du corpus
- ? supports dinteractions entre lutilisateur et
- lensemble documentaire analysé
- Basées sur des représentations des domaines
dintérêt de lutilisateur - Représentation de ces domaines par des ressources
lexicales personnalisées -
6Visées applicatives
Cadre de travail et propositions
- Accès au contenu de corpus et de collections de
documents textuels - Gestion Électronique de Documents
- ? Accès amélioré au contenu de collections (e.g.
consultations thématiques) - Analyses linguistiques de corpus
- Étude dexpressions métaphoriques
- ? Analyse de linfluence de la dimension
corpus dans la présence de certains
phénomènes langagiers - Finalités dépendantes de la tâche visée !
7Hypothèses et principes adoptés
Cadre de travail et propositions
- Hypothèse 1 Linterprétation dun texte dépend
de lindividu - Hypothèse 2 Double détermination du sens
- local ? global
- global ? local
- Principe darchitextualité (Rastier, 2001)
- Tout texte placé dans un corpus en reçoit des
déterminations sémantiques, et modifie
potentiellement le sens de chacun des textes qui
le composent. - Principe de contextualisation (Rastier, 1994)
- Nécessité de faire intervenir les trois notions
suivantes afin de donner du sens à un énoncé - Co-texte / Contexte extralinguistique /
Intertexte
8Notions disotopies intra- et inter-textuelles
Cadre de travail et propositions
- Sémantique Componentielle
- Décrire des significations en contexte à l'aide
de sèmes - Exemple Le facteur m'a donné une lettre
"facteur" ? /poste/, /courrier/,
"lettre" ? /alphabet/, /courrier/, - Isotopie intra-textuelle (Rastier, 1987)
- Récurrence d'un même sème dans un texte
- Exemple Isotopie (intra-textuelle) /courrier/
- Isotopie inter-textuelle (Thlivitis, 1998)
- Récurrence d'un même sème dans un corpus
9Propositions
Cadre de travail et propositions
- Quelles données ?
- Modélisation du contexte ressources lexicales
sémiques - Modélisation de lintertexte ensembles de
textes - Quelles analyses ?
- Analyser les collections / corpus et les
documents à laide des isotopies intra et
inter-textuelles - Quels résultats ?
- Différentes vues cartographiques globales et
temporelles sur la collection, interactives,
permettant de changer de niveau granularité,
10Quels résultats ?
Cadre de travail et propositions
- Cartes de collections de documents
- Construites à partir des domaines de
lutilisateur - Permettant dobserver des proximités entre
- documents
- groupes de documents
- Interactions
- Navigation sur les cartes
- Visualisation interactive dinformations sur les
cartes - Passage interactif dun niveau de granularité à
un autre - collection complète ? groupe ? ? document
- document ? groupe ? ? collection complète
11Quels résultats ?
Cadre de travail et propositions
12Quelles données ? Modélisation du contexte
Cadre de travail et propositions
- Représentation des domaines pertinents pour
lutilisateur dans le cadre de sa tâche - Deux représentations
- Bags of Words
- Santé médecin, soigner, aspirine, hôpital, etc.
- Guerre combattre, bombe, capituler, soldat,
etc. - Modèle LUCIA (Perlerin, 2004)
- Catégorisation lexicale plus fine
- Description sémique différentielle (Beust, 1998)
- Dans tout les cas cest lutilisateur (ou le
groupe dutilisateurs) qui construit les
ressources - Avec son propre vocabulaire
- Selon les domaines de son intérêt
13Modèle Lucia
Cadre de travail et propositions
- Exemple de table dans le domaine de la santé
- Modèle différentiel du sème (Beust, 98)
- Attribut Type de pathologie
- Valeurs dattribut opposées
- Maladie, infection vs. Conséquence dinfection
vs. Trouble psychologique vs. Trouble physique
14Quelles données ? Modélisation de lintertexte
Cadre de travail et propositions
- Corpus de textes (Pincemin, 1999)
- Articles journalistiques et scientifiques
- Collections de pages Web
- Obtenues à laide de moteur de recherche
- Flux documentaires
- Forums de discussion et courriers électroniques
15Quelles analyses ?
Cadre de travail et propositions
- Travail au niveau du co-texte
- Comptage des mots de ressources lexicales
- Mise en évidence des isotopies intra-textuelles
- Représentation vectorielle de chaque texte
- Projection et catégorisation des vecteurs
- Travail au niveau de lintertexte
- Détermination des isotopies inter-textuelles
- Rapports danalyse des groupes et des textes
- Utilisation des isotopies inter-textuelles pour
positionner le groupe ou le texte par rapport à
son intertexte - Prise en considération de la dimension temporelle
en localisant les analyses sur une période
donnée - Analyses mises en uvre avec la plate-forme
logicielle ProxiDocs
16Plate-forme ProxiDocs (1 / 2)
Cadre de travail et propositions
17Plate-forme ProxiDocs (2 / 2)
Cadre de travail et propositions
- Cartographie et catégorisation de corpus de
textes - Interactive et centrée utilisateur
- Traitements statistiques
- ACP, CHA, KMeans, etc.
- Java, SVG, Open-source, http//www.info.unicaen.fr
/troy/proxidocs
18Entrées de la plate-forme ProxiDocs
Cadre de travail et propositions
- Ensembles de documents électroniques textuels
(format texte, HTML) - Ressources lexicales (format XML) de 2 types
- Simple 1 ensemble de mots ? 1 domaine
- Avancé 1 dispositif Lucia ? 1 domaine
- Aides logicielles à la constitution des
ressources - MemLabor (Perlerin, 2002)
- ThemeEditor (Beust, 2002)
- LuciaBuilder (Perlerin, 2004)
- Etc.
19Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
- Cadre de travail et propositions
- Fondements et hypothèses
- Moyens logiciels mis en uvre
- Analyses réalisées
- Gestion Électronique de Documents
- Analyse dexpressions métaphoriques
- Perspectives de recherche
20Différentes expérimentations
Analyses réalisées
- Besoin dexperts et de tâches précises
- Mise en place dun méta-moteur de recherche
cartographique basé sur la plate-forme ProxiDocs - Projet IsoMeta étude en corpus dexpressions
métaphoriques - Projet CISMeF recherche dinformations dans des
documents médicaux - Groupe de travail sur les forums de discussion
- Expérimentations toutes en cours !!!
21Méta-moteur de recherche cartographique (1 / 4)
Analyses réalisées
- Objectifs
- Avoir un regard global sur le contenu des
principales pages Web traitant de la
Constitution Européenne - Contexte
- 12 domaines généraux choisis (approche bags of
words ) - justice, violence, éducation, sécurité routière,
agriculture, économie, informatique, etc. - Taille moyenne des domaines 40 lexies
- Expérience
- Requête constitution européenne sur Yahoo
- 100 pages provenant de sites francophones
- Cartographie avec ACP et catégorisation CHA en 8
groupes
22Méta-moteur de recherche cartographique (2 / 4)
Analyses réalisées
23Analyses réalisées
Méta-moteur de recherche cartographique (3 / 4)
24Analyses réalisées
Méta-moteur de recherche cartographique (4 / 4)
- Cartographie utile pour
- Visualiser la répartition des domaines sur
lensemble documentaire - Accéder plus facilement au contenu
- Première mise en évidence des isotopies
inter-textuelles - Ressources utilisées
- Informatique logiciel, web, etc. ? logiciel
/informatique/, web /informatique/, etc. - Principales isotopies intertextuelles obtenues
dans lexpérience - Informatique, Économie, etc.
- Utilisation du lien local ? global, mais pas
vraiment du lien global ? local
25Projet IsoMeta (1 / 6)
Analyses réalisées
- Étude simultanée de trois métaphores
conceptuelles dans un corpus de 600 articles
boursiers du Monde entre 1987 et 1989 - La météorologie boursière
- La santé financière
- La guerre économique
Bourse, Économie, Finances, Politique, Etc.
26Projet IsoMeta (2 / 6)
Analyses réalisées
- Cartographie de corpus à partir des trois
domaines sources météo, santé, guerre - Représentation des domaines par des dispositifs
Lucia - Construction des dispositifs par une étude
lexicale du corpus (dispositif guerre 60
lexies, dispositifs météo et santé 110 lexies) - Filtrage des documents contenant au moins 2
occurrences de lexies des domaines - 303 documents restants
27Projet IsoMeta (3 / 6)
Analyses réalisées
28Projet IsoMeta (4 / 6)
Analyses réalisées
29Projet IsoMeta (5 / 6)
Analyses réalisées
- Analyses précédentes réalisées à laide des
différents rapports de groupes et de textes - Intra et inter-isotopies mises en évidence dans
les rapports de groupe - Réflexions en cours sur le classement de ces
isotopies - Singulariser le local (texte ou groupe) à laide
de son global (resp. groupe ou corpus)
30Projet IsoMeta (6 / 6)
Analyses réalisées
- Bilan
- Intérêt de vues globales
- Mise en évidence de proximités entre articles
- Regroupement de textes en sous-ensembles
- Influence du temps
- Perspectives
- Aller plus finement vers une caractérisation des
isotopies dans le cadre de létude des trois
métaphores
31Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
- Cadre de travail et propositions
- Fondements et hypothèses
- Moyens logiciels mis en uvre
- Analyses réalisées
- Gestion Électronique de Documents
- Analyse dexpressions métaphoriques
- Perspectives de recherche
32Premier bilan
Perspectives de recherche
- Intérêt de prendre en considération la globalité
dun ensemble documentaire pour - des tâches daccès au contenu de collections
- une étude en corpus dexpressions métaphoriques
- Intérêt de prendre en considération les domaines
pertinents du point de vue de lutilisateur
33Réflexions théoriques
Perspectives de recherche
- Projection pertinente du global sur le local
- Mise en uvre de différentes pondérations des
isotopies intra et inter-textuelles selon le
contexte - Mise en uvre dune évaluation de la plate-forme
ProxiDocs - Protocole
- Échantillon représentatif dutilisateurs
34Évaluation
Perspectives de recherche
- Évaluation des ressources
- Le modèle structurel des ressources est-il clair
? - L'aide à la construction des ressources est-elle
suffisante ? - Le temps nécessaire à la construction des
ressources est-il raisonnable ? - Les ressources sont-elles susceptibles d'évoluer
facilement ? - Les ressources personnelles sont-elles a priori
facilement partageables ? - Aucune compétence particulière est-elle
nécessaire pour la construction des ressources ? - Évaluation de la plate-forme
- Le but applicatif vous semble-t-il clair ?
- La prise en main est-elle facile ?
- Est-ce que l'outil donne un retour intéressant
sur les ressources ? - Les résultats du logiciel sont-ils facilement
exploitables ? - Est-ce que l'outil est agréable à utiliser ?
- Les traitements sont-ils adaptés à la tâche ?
- Est-ce que l'outils permet d'envisager d'autres
applications ? - L'outil permet-il plus facilement un travail à
plusieurs sur la tâche ? - Est-ce que l'outil peut changer la façon
d'accomplir la tâche ?
35Développement
Perspectives de recherche
- Besoin de nouvelles possibilités dinteractions
et de visualisation - Ajout, suppression, déplacement dynamique dun
document ou dun groupe de documents - Aller plus loin dans la prise en considération de
la dimension temporelle des documents
(déplacements de documents selon laxe du temps) - Développer des supports dinteractions entre
lutilisateur et lensemble documentaire analysé
36Merci de votre attention
Analyses cartographiques personnalisées de
collections de documents électroniques
- Pour plus dinformation
- http//www.info.unicaen.fr/troy
37(No Transcript)
38(No Transcript)
39Métaphores conceptuelles Météo Boursière
- Une véritable tempête de hausses, alimentée par
une marée de capitaux, étrangers pour partie, en
quête de placement. Le Monde 03/08/87 - L'excédent de mars n'aura été qu'une embellie,
et le sombre tableau brossé par le premier
ministre, () Le Monde 06/06/88 - Rafraîchie durant les quinze derniers jours, la
température est très largement remontée cette
semaine rue Vivienne, avant de redescendre un peu
à la veille du week-end. Le Monde 28/11/88
40Métaphores conceptuelles Guerre Économique
- () après avoir opposé une assez vive
résistance à la baisse avec des replis limités à
1,47 lundi, (), elle s'est progressivement mise
en devoir de regagner le terrain perdu Le
Monde 06/04/87 - Le dénouement dans la bataille autour de la
première banque commerciale privée du pays a eu
peu d'effet sur les cours. Le Monde 27/02/89 - La firme du groupe de la Caisse des dépôts
développements pourrait dans les jours prochains
lancer une contre-offensive. Le Monde 11/07/88
41Métaphores conceptuelles Santé Financière
- Le syndrome du 15 août ? Comme tous les ans la
Bourse de Paris n'a pas échappé à cet
indéfinissable malaise () Le Monde 17/08/87 - Une bonne partie du malaise ressenti sous la
verrière était due à l'état de santé déplorable
du marché obligataire, () Le Monde 17/08/87 - La pente fut longue à remonter, et il fallut
bien douze mois pour panser les plaies du
sinistre et à commencer à croire à de nouveaux
records d'altitude pour le CAC. Le Monde
01/08/89
42(No Transcript)
43La GED
- Domaine dynamique, ancré dans une certaine
tradition logico grammaticale - Accent mis aujourdhui sur les techniques de
visualisation et les interactions - Les principales limites
- Indexation et consultation des collections très
souvent à laide de termes termes-clés - Visualisations complexes et traitements peu
transparents - Et surtout, peu de prise en compte des
utilisateurs et du contexte global
44Quelques outils de GED
- Lecture rapide densembles documentaires
- Recherche dinformation sur le Web
- Veille documentaire
45Cone Tree (Robertson et al., 1991)
463D XV (Jacquemin et Jardino, 2002)
47Lexica (Société Le Sphinx)
48Quelques outils de GED
- Lecture rapide densembles documentaires
- Recherche dinformation sur le Web
- Veille documentaire
49Google (http//www.google.com)
50KartOO (Chung et al., 2001)
51Le Nébuloscope (Veronis, http//aixtal.blogspot.co
m/)
52Quelques outils de GED
- GED en général
- Recherche dinformation sur le Web
- Veille documentaire
53Yahoo! News (http//fr.news.yahoo.com/)
54NewsMap (http//marumushi.com/)
55Big Picture (http//news.com.com/)
56Méta-moteur de recherche interface
57Méta-moteur de recherche fonctionnement
58Première étape Comptage des mots
- Pour chaque document du corpus, déterminer le
nombre de mots de chaque domaine quil contient. - Document 1
- Le ministère des finances a désigné la liste
des banques conseils du gouvernement pour le
retour au secteur privé de la BIMP et de la
banque du BTP.
Matrice absolue
59Deuxième étape Projection
60Deuxième étape Projection
- ProxiDocs nous permet de comparer plusieurs
méthodes - Lanalyse en composantes principales (ACP)
- La méthode de Sammon
- Lanalyse factorielle des correspondances (AFC)
- Et dautres méthodes que nous avons conçues en se
basant sur des principes simples.
61Troisième étape Catégorisation
Le nombre de groupes de documents à construire
choisi par lutilisateur ou déterminer
automatiquement
62Quatrième étape Construction de la carte
63Modèle Lucia
Cadre de travail et propositions
- 1 dispositif ? 1 ensemble de tables liées entre
elles