Thibault ROY Universit de Caen BasseNormandie Laboratoire GREYC quipe ISLanD - PowerPoint PPT Presentation

1 / 63
About This Presentation
Title:

Thibault ROY Universit de Caen BasseNormandie Laboratoire GREYC quipe ISLanD

Description:

De moyens logiciels, de ressources et de puissance de calcul utilis es ... Guerre : combattre, bombe, capituler, soldat, etc. Mod le LUCIA (Perlerin, 2004) ... – PowerPoint PPT presentation

Number of Views:52
Avg rating:3.0/5.0
Slides: 64
Provided by: roythiba
Category:

less

Transcript and Presenter's Notes

Title: Thibault ROY Universit de Caen BasseNormandie Laboratoire GREYC quipe ISLanD


1
Thibault ROYUniversité de Caen /
Basse-NormandieLaboratoire GREYC / Équipe ISLanD
  • Analyses cartographiques personnalisées de
    collections de documents électroniques

2
Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
  • Cadre de travail et propositions
  • Fondements et hypothèses
  • Moyens logiciels mis en uvre
  • Analyses réalisées
  • Gestion Électronique de Documents
  • Analyse dexpressions métaphoriques
  • Perspectives de recherche

3
Constat
Cadre de travail et propositions
  • De plus en plus
  • De documents électroniques textuels
  • De moyens logiciels, de ressources et de
    puissance de calcul utilisées
  • Pourtant
  • Grande difficulté daccès au contenu de textes
  • Peu (pas ?) de réelle prise en compte du point de
    vue de lutilisateur sur la tâche visée
  • Peu (pas ?) dinteractions lui sont proposées
  • Peu (pas ?) de réelle prise en considération de
    la dimension temporelle

4
Travail de thèse
Cadre de travail et propositions
  • Prendre en compte la globalité densembles
    documentaires
  • Dans le cadre danalyses automatiques de contenu
  • Centrées sur lutilisateur ou le groupe
    dutilisateurs
  • Interactives et légères
  • Synchroniques et diachroniques
  • La globalité dun ensemble documentaire
  • Le regroupement de documents par des utilisateurs
    au sein de collections ou de corpus implique le
    partage de certaines propriétés
  • Nécessité dune véritable analyse au niveau de la
    collection
  • Et non dune somme danalyses indépendantes au
    niveau du document

5
Piste choisie
Cadre de travail et propositions
  • Proposer des modèles danalyse au niveau global
  • Production de représentations graphiques globales
    du corpus et de rapports danalyse
  • Représentations globales du corpus
  • ? supports dinteractions entre lutilisateur et
  • lensemble documentaire analysé
  • Basées sur des représentations des domaines
    dintérêt de lutilisateur
  • Représentation de ces domaines par des ressources
    lexicales personnalisées

6
Visées applicatives
Cadre de travail et propositions
  • Accès au contenu de corpus et de collections de
    documents textuels
  • Gestion Électronique de Documents
  • ? Accès amélioré au contenu de collections (e.g.
    consultations thématiques)
  • Analyses linguistiques de corpus
  • Étude dexpressions métaphoriques
  • ? Analyse de linfluence de la dimension
     corpus  dans la présence de certains
    phénomènes langagiers
  • Finalités dépendantes de la tâche visée !

7
Hypothèses et principes adoptés
Cadre de travail et propositions
  • Hypothèse 1 Linterprétation dun texte dépend
    de lindividu
  • Hypothèse 2 Double détermination du sens
  • local ? global
  • global ? local
  • Principe darchitextualité (Rastier, 2001)
  •  Tout texte placé dans un corpus en reçoit des
    déterminations sémantiques, et modifie
    potentiellement le sens de chacun des textes qui
    le composent. 
  • Principe de contextualisation (Rastier, 1994)
  • Nécessité de faire intervenir les trois notions
    suivantes afin de donner du sens à un énoncé
  • Co-texte / Contexte extralinguistique /
    Intertexte

8
Notions disotopies intra- et inter-textuelles
Cadre de travail et propositions
  • Sémantique Componentielle
  • Décrire des significations en contexte à l'aide
    de sèmes
  • Exemple  Le facteur m'a donné une lettre 
    "facteur" ? /poste/, /courrier/,
    "lettre" ? /alphabet/, /courrier/,
  • Isotopie intra-textuelle (Rastier, 1987)
  • Récurrence d'un même sème dans un texte
  • Exemple Isotopie (intra-textuelle) /courrier/
  • Isotopie inter-textuelle (Thlivitis, 1998)
  • Récurrence d'un même sème dans un corpus

9
Propositions
Cadre de travail et propositions
  • Quelles données ?
  • Modélisation du contexte ressources lexicales
    sémiques
  • Modélisation de lintertexte ensembles de
    textes
  • Quelles analyses ?
  • Analyser les collections / corpus et les
    documents à laide des isotopies intra et
    inter-textuelles
  • Quels résultats ?
  • Différentes vues cartographiques globales et
    temporelles sur la collection, interactives,
    permettant de changer de niveau granularité,

10
Quels résultats ?
Cadre de travail et propositions
  • Cartes de collections de documents
  • Construites à partir des domaines de
    lutilisateur
  • Permettant dobserver des proximités entre
  • documents
  • groupes de documents
  • Interactions
  • Navigation sur les cartes
  • Visualisation interactive dinformations sur les
    cartes
  • Passage interactif dun niveau de granularité à
    un autre
  • collection complète ? groupe ? ? document
  • document ? groupe ? ? collection complète

11
Quels résultats ?
Cadre de travail et propositions
12
Quelles données ? Modélisation du contexte
Cadre de travail et propositions
  • Représentation des domaines pertinents pour
    lutilisateur dans le cadre de sa tâche
  • Deux représentations
  •  Bags of Words 
  • Santé médecin, soigner, aspirine, hôpital, etc.
  • Guerre combattre, bombe, capituler, soldat,
    etc.
  • Modèle LUCIA (Perlerin, 2004)
  • Catégorisation lexicale plus fine
  • Description sémique différentielle (Beust, 1998)
  • Dans tout les cas cest lutilisateur (ou le
    groupe dutilisateurs) qui construit les
    ressources
  • Avec son propre vocabulaire
  • Selon les domaines de son intérêt

13
Modèle Lucia
Cadre de travail et propositions
  • Exemple de table dans le domaine de la santé
  • Modèle différentiel du sème (Beust, 98)
  • Attribut  Type de pathologie 
  • Valeurs dattribut opposées
  • Maladie, infection vs. Conséquence dinfection
    vs. Trouble psychologique vs. Trouble physique

14
Quelles données ? Modélisation de lintertexte
Cadre de travail et propositions
  • Corpus de textes (Pincemin, 1999)
  • Articles journalistiques et scientifiques
  • Collections de pages Web
  • Obtenues à laide de moteur de recherche
  • Flux documentaires
  • Forums de discussion et courriers électroniques

15
Quelles analyses ?
Cadre de travail et propositions
  • Travail au niveau du co-texte
  • Comptage des mots de ressources lexicales
  • Mise en évidence des isotopies intra-textuelles
  • Représentation vectorielle de chaque texte
  • Projection et catégorisation des vecteurs
  • Travail au niveau de lintertexte
  • Détermination des isotopies inter-textuelles
  • Rapports danalyse des groupes et des textes
  • Utilisation des isotopies inter-textuelles pour
    positionner le groupe ou le texte par rapport à
    son intertexte
  • Prise en considération de la dimension temporelle
    en  localisant  les analyses sur une période
    donnée
  • Analyses mises en uvre avec la plate-forme
    logicielle ProxiDocs

16
Plate-forme ProxiDocs (1 / 2)
Cadre de travail et propositions
17
Plate-forme ProxiDocs (2 / 2)
Cadre de travail et propositions
  • Cartographie et catégorisation de corpus de
    textes
  • Interactive et centrée utilisateur
  • Traitements statistiques
  • ACP, CHA, KMeans, etc.
  • Java, SVG, Open-source, http//www.info.unicaen.fr
    /troy/proxidocs

18
Entrées de la plate-forme ProxiDocs
Cadre de travail et propositions
  • Ensembles de documents électroniques textuels
    (format texte, HTML)
  • Ressources lexicales (format XML) de 2 types
  • Simple 1 ensemble de mots ? 1 domaine
  • Avancé 1 dispositif Lucia ? 1 domaine
  • Aides logicielles à la constitution des
    ressources
  • MemLabor (Perlerin, 2002)
  • ThemeEditor (Beust, 2002)
  • LuciaBuilder (Perlerin, 2004)
  • Etc.

19
Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
  • Cadre de travail et propositions
  • Fondements et hypothèses
  • Moyens logiciels mis en uvre
  • Analyses réalisées
  • Gestion Électronique de Documents
  • Analyse dexpressions métaphoriques
  • Perspectives de recherche

20
Différentes expérimentations
Analyses réalisées
  • Besoin dexperts et de tâches précises
  • Mise en place dun méta-moteur de recherche
    cartographique basé sur la plate-forme ProxiDocs
  • Projet IsoMeta étude en corpus dexpressions
    métaphoriques
  • Projet CISMeF recherche dinformations dans des
    documents médicaux
  • Groupe de travail sur les forums de discussion
  • Expérimentations toutes en cours !!!

21
Méta-moteur de recherche cartographique (1 / 4)
Analyses réalisées
  • Objectifs
  • Avoir un regard global sur le contenu des
     principales  pages Web traitant de la
    Constitution Européenne
  • Contexte
  • 12 domaines généraux choisis (approche  bags of
    words )
  • justice, violence, éducation, sécurité routière,
    agriculture, économie, informatique, etc.
  • Taille moyenne des domaines 40 lexies
  • Expérience
  • Requête  constitution européenne  sur Yahoo
  • 100 pages provenant de sites francophones
  • Cartographie avec ACP et catégorisation CHA en 8
    groupes

22
Méta-moteur de recherche cartographique (2 / 4)
Analyses réalisées
23
Analyses réalisées
Méta-moteur de recherche cartographique (3 / 4)
24
Analyses réalisées
Méta-moteur de recherche cartographique (4 / 4)
  • Cartographie utile pour
  • Visualiser la répartition des domaines sur
    lensemble documentaire
  • Accéder plus facilement au contenu
  • Première mise en évidence des isotopies
    inter-textuelles
  • Ressources utilisées
  • Informatique logiciel, web, etc. ? logiciel
    /informatique/, web /informatique/, etc.
  • Principales isotopies intertextuelles obtenues
    dans lexpérience
  • Informatique, Économie, etc.
  • Utilisation du lien local ? global, mais pas
    vraiment du lien global ? local

25
Projet IsoMeta (1 / 6)
Analyses réalisées
  • Étude simultanée de trois métaphores
    conceptuelles dans un corpus de 600 articles
    boursiers du Monde entre 1987 et 1989
  • La  météorologie boursière 
  • La  santé financière 
  • La  guerre économique 

Bourse, Économie, Finances, Politique, Etc.
26
Projet IsoMeta (2 / 6)
Analyses réalisées
  • Cartographie de corpus à partir des trois
    domaines sources météo, santé, guerre
  • Représentation des domaines par des dispositifs
    Lucia
  • Construction des dispositifs par une étude
    lexicale du corpus (dispositif guerre 60
    lexies, dispositifs météo et santé 110 lexies)
  • Filtrage des documents contenant au moins 2
    occurrences de lexies des domaines
  • 303 documents restants

27
Projet IsoMeta (3 / 6)
Analyses réalisées
28
Projet IsoMeta (4 / 6)
Analyses réalisées
29
Projet IsoMeta (5 / 6)
Analyses réalisées
  • Analyses précédentes réalisées à laide des
    différents rapports de groupes et de textes
  • Intra et inter-isotopies mises en évidence dans
    les rapports de groupe
  • Réflexions en cours sur le classement de ces
    isotopies
  • Singulariser le local (texte ou groupe) à laide
    de son global (resp. groupe ou corpus)

30
Projet IsoMeta (6 / 6)
Analyses réalisées
  • Bilan
  • Intérêt de vues globales
  • Mise en évidence de proximités entre articles
  • Regroupement de textes en sous-ensembles
  • Influence du temps
  • Perspectives
  • Aller plus finement vers une caractérisation des
    isotopies dans le cadre de létude des trois
    métaphores

31
Plan de la présentation
Analyses cartographiques personnalisées de
collections de documents électroniques
  • Cadre de travail et propositions
  • Fondements et hypothèses
  • Moyens logiciels mis en uvre
  • Analyses réalisées
  • Gestion Électronique de Documents
  • Analyse dexpressions métaphoriques
  • Perspectives de recherche

32
Premier bilan
Perspectives de recherche
  • Intérêt de prendre en considération la globalité
    dun ensemble documentaire pour
  • des tâches daccès au contenu de collections
  • une étude en corpus dexpressions métaphoriques
  • Intérêt de prendre en considération les domaines
    pertinents du point de vue de lutilisateur

33
Réflexions théoriques
Perspectives de recherche
  • Projection pertinente du global sur le local
  • Mise en uvre de différentes pondérations des
    isotopies intra et inter-textuelles selon le
    contexte
  • Mise en uvre dune évaluation de la plate-forme
    ProxiDocs
  • Protocole
  • Échantillon représentatif dutilisateurs

34
Évaluation
Perspectives de recherche
  • Évaluation des ressources
  • Le modèle structurel des ressources est-il clair
    ?
  • L'aide à la construction des ressources est-elle
    suffisante ?
  • Le temps nécessaire à la construction des
    ressources est-il raisonnable ?
  • Les ressources sont-elles susceptibles d'évoluer
    facilement ?
  • Les ressources personnelles sont-elles a priori
    facilement partageables ?
  • Aucune compétence particulière est-elle
    nécessaire pour la construction des ressources ?
  • Évaluation de la plate-forme
  • Le but applicatif vous semble-t-il clair ?
  • La prise en main est-elle facile ?
  • Est-ce que l'outil donne un retour intéressant
    sur les ressources ?
  • Les résultats du logiciel sont-ils facilement
    exploitables ?
  • Est-ce que l'outil est agréable à utiliser ?
  • Les traitements sont-ils adaptés à la tâche ?
  • Est-ce que l'outils permet d'envisager d'autres
    applications ?
  • L'outil permet-il plus facilement un travail à
    plusieurs sur la tâche ?
  • Est-ce que l'outil peut changer la façon
    d'accomplir la tâche ?

35
Développement
Perspectives de recherche
  • Besoin de nouvelles possibilités dinteractions
    et de visualisation
  • Ajout, suppression, déplacement dynamique dun
    document ou dun groupe de documents
  • Aller plus loin dans la prise en considération de
    la dimension temporelle des documents
    (déplacements de documents selon laxe du temps)
  • Développer des supports dinteractions entre
    lutilisateur et lensemble documentaire analysé

36
Merci de votre attention
Analyses cartographiques personnalisées de
collections de documents électroniques
  • Pour plus dinformation
  • http//www.info.unicaen.fr/troy

37
(No Transcript)
38
(No Transcript)
39
Métaphores conceptuelles Météo Boursière
  •  Une véritable tempête de hausses, alimentée par
    une marée de capitaux, étrangers pour partie, en
    quête de placement.  Le Monde 03/08/87
  •  L'excédent de mars n'aura été qu'une embellie,
    et le sombre tableau brossé par le premier
    ministre, ()  Le Monde 06/06/88
  •  Rafraîchie durant les quinze derniers jours, la
    température est très largement remontée cette
    semaine rue Vivienne, avant de redescendre un peu
    à la veille du week-end.  Le Monde 28/11/88

40
Métaphores conceptuelles Guerre Économique
  •  () après avoir opposé une assez vive
    résistance à la baisse avec des replis limités à
    1,47 lundi, (), elle s'est progressivement mise
    en devoir de regagner le terrain perdu  Le
    Monde 06/04/87
  •  Le dénouement dans la bataille autour de la
    première banque commerciale privée du pays a eu
    peu d'effet sur les cours.  Le Monde 27/02/89
  •  La firme du groupe de la Caisse des dépôts
    développements pourrait dans les jours prochains
    lancer une contre-offensive.  Le Monde 11/07/88

41
Métaphores conceptuelles  Santé Financière
  •  Le syndrome du 15 août ? Comme tous les ans la
    Bourse de Paris n'a pas échappé à cet
    indéfinissable malaise ()  Le Monde 17/08/87
  •  Une bonne partie du malaise ressenti sous la
    verrière était due à l'état de santé déplorable
    du marché obligataire, ()  Le Monde 17/08/87
  •  La pente fut longue à remonter, et il fallut
    bien douze mois pour panser les plaies du
    sinistre et à commencer à croire à de nouveaux
    records d'altitude pour le CAC.  Le Monde
    01/08/89

42
(No Transcript)
43
La GED
  • Domaine dynamique, ancré dans une certaine
    tradition logico grammaticale
  • Accent mis aujourdhui sur les techniques de
    visualisation et les interactions
  • Les principales limites
  • Indexation et consultation des collections très
    souvent à laide de termes termes-clés
  • Visualisations complexes et traitements peu
     transparents 
  • Et surtout, peu de prise en compte des
    utilisateurs et du contexte global

44
Quelques outils de GED
  • Lecture rapide densembles documentaires
  • Recherche dinformation sur le Web
  • Veille documentaire

45
Cone Tree (Robertson et al., 1991)
46
3D XV (Jacquemin et Jardino, 2002)
47
Lexica (Société Le Sphinx)
48
Quelques outils de GED
  • Lecture rapide densembles documentaires
  • Recherche dinformation sur le Web
  • Veille documentaire

49
Google (http//www.google.com)
50
KartOO (Chung et al., 2001)
51
Le Nébuloscope (Veronis, http//aixtal.blogspot.co
m/)
52
Quelques outils de GED
  • GED en général
  • Recherche dinformation sur le Web
  • Veille documentaire

53
Yahoo! News (http//fr.news.yahoo.com/)
54
NewsMap (http//marumushi.com/)
55
Big Picture (http//news.com.com/)
56
Méta-moteur de recherche interface
57
Méta-moteur de recherche fonctionnement
58
Première étape Comptage des mots
  • Pour chaque document du corpus, déterminer le
    nombre de mots de chaque domaine quil contient.
  • Document 1
  •  Le ministère des finances a désigné la liste
    des banques conseils du gouvernement pour le
    retour au secteur privé de la BIMP et de la
    banque du BTP. 

Matrice absolue
59
Deuxième étape Projection
60
Deuxième étape Projection
  • ProxiDocs nous permet de comparer plusieurs
    méthodes
  • Lanalyse en composantes principales (ACP)
  • La méthode de Sammon
  • Lanalyse factorielle des correspondances (AFC)
  • Et dautres méthodes que nous avons conçues en se
    basant sur des principes simples.

61
Troisième étape Catégorisation
Le nombre de groupes de documents à construire
choisi par lutilisateur ou déterminer
automatiquement
62
Quatrième étape Construction de la carte
63
Modèle Lucia
Cadre de travail et propositions
  • 1 dispositif ? 1 ensemble de tables liées entre
    elles
Write a Comment
User Comments (0)
About PowerShow.com