16122003 Sminaire I3 - PowerPoint PPT Presentation

1 / 39
About This Presentation
Title:

16122003 Sminaire I3

Description:

il affirme/infirme la potentialit des significations en fonction des repr sentations pr sent es et peut modifier ses propositions initiales. ... – PowerPoint PPT presentation

Number of Views:32
Avg rating:3.0/5.0
Slides: 40
Provided by: perlerin
Category:
Tags: affirme | sminaire

less

Transcript and Presenter's Notes

Title: 16122003 Sminaire I3


1
Interprétation et tâches documentaires
assistées par l'ordinateurInstrumentation
informatique du sens
  • Vincent PerlerinUniversité de Caen GREYC
    CNRS-UMR 6072perlerin_at_info.unicaen.fr
  • www.info.unicaen.fr/perlerin

2
Plan
  • Cadre détude
  • constat
  • propositions
  • méthode de travail
  • Nos propositions
  • modèle de catégorisation lexicale
  • analyses interprétatives

3
Cadre d'étude
  • Constat
  • À propos des textes
  • de plus en plus nombreux,
  • de natures, de tailles () différentes.
  • À propos des tâches documentaires
  • on s'intéresse de plus en plus au contenu,
  • il reste difficile à atteindre.
  • À propos des solutions informatiques
    documentaires
  • souvent beaucoup de ressources et de traitements,
  • des ressources souvent dépendantes dune prise de
    position culturelle spécifique,
  • peu de prise en considération des variations
    entre utilisateurs et entre tâches.

4
Cadre d'étude
  • Propositions
  • Système documentaire
  • prise en considération des variations entre
    utilisateurs,
  • prise en considération l'interprétation de
    textes,
  • qui est utile pour l'assistance à différentes
    tâches
  • filtrer des documents en fonction de l'étude de
    leur contenu,
  • détecter des parties intéressantes dans les
    documents,
  • ordonner des ensembles de documents,
  • analyser un fait linguistique particulier.
  • Améliorer la machine en tant que
    média à valeur ajoutée adapté à l'utilisateur
    (ou à une communauté d'utilisateurs).

5
Cadre d'étude
  • Applications
  • Informatique linguistique
  • recherche documentaire, veille documentaire
  • Linguistique informatisée
  • analyse d'un fait de langue

6
Cadre d'étude
  • Méthode de travail
  • approche centrée sur l'utilisateur,
  • analyses sémantique légères,
  • solutions multilingues,
  • logiciels (publics) d'étude.

7
Cadre d'étude
  • Propositions

Mise à jour
Corpus
8
Cadre d'étude
  • Propositions
  • Quelles données ?
  • Comment les structurer ?
  • Quelles analyses effectuer ?
  • Comment présenter les résultats ?
  • Comment assister l'utilisateur dans toutes
    les phases où il est sollicité ?

Comment les définir ? Comment et
depuis quoi les acquérir ?
Comment les décrire ? Comment les classer ?
Comment procéder aux analyses ? Pour quels
résultats ?
Comment les rendre interprétables pour
l'utilisateur ?
Quelles tâches peut-on assister ? Dans
quelle mesure ?
9
Propositions
  • Cadre théorique
  • La Sémantique Componentielle permet de décrire
    des significations en contexte à l'aide de traits
    sémantiques (sèmes).
  • "Du plus loin, que me revienne, l'ombre de mes
    amours anciennes,du plus loin, du premier
    rendez-vous, "ex "amours"
    /sentiment/, /chair/ "ombre"
    /flou/, /souvenir/ "rendez-vous"
    /rencontre/, /chair/, /sentiment/
  • L'isotopie (récurrence d'un même sème dans un
    texte) permet la mise en place d'analyses
    interprétatives.
  • "Que reste-t-il de nos amours ? Que restent-ils
    de ces beaux jours ? ()Des mois d'avril, des
    rendez-vous ?

2 Isotopies /sentiment/ - /chair/
10
Principe général du système
Produire des résultats interprétables et utiles
LUCIAnalyser
RéviserLUCIABuilder
StructurerLUCIABuilder
AcquérirMEMLABOR
Acquérir?
Corpus
AnalyserLUCIAnalyser
11
Propositions
  • Acquisition supervisée
  • Acquérir quoi ?
  • des lexies pertinentes pour la tâche,
  • des lexies significatives
  • soit d'un domaine d'intérêt particulier (RD, VD)
  • soit un phénomène linguistique donné (LI)
  • des lexies "récurrentes".
  • Comment ?
  • utiliser des systèmes existants (Jacquemin,
    Bourrigault, Chalendar, Ahonen-Myka).
  • envisager (tester) une solution "légère" pour
    amorcer le processus.

12
Aide à l'acquisition MEMLABORv1.2
  • Extraction de graphies
  • loi de Zipf liste d'exclusion

On peut également utiliser les statistiques de
cooccurrences de graphies pour - former des
lexies, - former des groupes de lexies qui
partagent potentiellement des
sèmes. (Hypothèses cohérence textuelle).
13
LUCIA
  • LUCIA (Located User-Centred Interpretative
    Analyser)
  • Méthodologie de catégorisation
  • Modèle pour une description componentielle et
    différentielle
  • Modèle pour l'analyse interprétative de textes

14
LUCIA
15
LUCIA
Regroupement de plusieurs sèmes pour former une
table où l'on précise les points communs et les
différences entre lexies
16
LUCIA
Un ligne d'une première table reliée à une
seconde par un lien d'héritage sémique.
17
LUCIA
  • A travers le choix des lexies et des sèmes, le
    regroupement des sèmes et le choix des tables à
    relier l'utilisateur
  • donne des indications sur la façon dont il parle
    du domaine décrit,
  • donne des traces de ses pratiques langagières en
    rapport avec la tâche qui l'intéresse,
  • crée des ressources personnalisées.

18
LUCIA
  • Sèmes partagés, sèmes propres
  • Pour aider à la structuration et favoriser la
    découverte d'isotopies, on préconise
    l'utilisation de
  • sèmes partagés (possiblement entre plusieurs
    domaines, ex sèmes dénotatifs, sèmes
    "ontologiques")
  • sèmes propres (propres à un domaine)
  • ex Axepression vs. température vs. couv.
    nuageuse vs. agitation
  • sème propre à la météorologie
  • Directionmonte vs. descend
  • sème partageable entre plusieurs domaines

19
LUCIABuilderv4.2
Logiciel Libre Licence GPL perlerin_at_info.unica
en.fr
20
Analyses
  • La base des analyses l'isotopie
  • Isotopie
  • effet de la récurrence d'un même sème dans une
    entité syntagmatique.
  • Les analyses
  • consistent à rechercher les isotopies dans les
    documents en fonction des lexies qui s'y trouvent
    et de leur catégorisation au sein des
    dispositifs.

21
Analyses
  • Les dispositifs recèlent des significations
    potentielles en contexte attendu.
  • Lors des analyses
  • on lève l'ambiguïté sur le contexte en fonction
    du nombre d'isotopies trouvées et de leur nature,
  • on relève statistiquement la présence des
    isotopies pour assister la tâche en cours
    (filtrage, (ré)ordonnancement, détection des
    parties intéressantes, importance d'un phénomène
    étudié).
  • Lorsque l'utilisateur observe les résultats
  • il affirme/infirme la potentialité des
    significations en fonction des représentations
    présentées et peut modifier ses propositions
    initiales.

22
Exemple d'application RD
(5)
4
Représentations schématiques des documents
rapport d'exploration
2
1
3
23
Projet LUCIA-RD
  • Exemple

L'Europe en question. Avec plus de pragmatisme,
on fait l'Europe pour bénéficier d'avantages
compétitifs et d'économies d'échelles qui sont le
monopole des États-Unis, qui ensuite font ensuite
que leur richesse et leur puissance sont le
résultat de leur merveilleux système. C'est
l'union qui nous permettra de sauver notre modèle
continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
V'Europe en question. Avec plus de pragmatisme,
on fait l'Europe pour bénéficier d'avantages
compétitifs et d'économies d'échelles qui sont le
monopole des États-Unis, qui ensuite font ensuite
que leur richesse et leur puissance sont le
résultat de leur merveilleux système. C'est
l'union qui nous permettra de sauver notre modèle
continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
L'Europe en question. Avec plus de pragmatisme,
on fait l'Europe pour bénéficier d'avantages
compétitifs et d'économies d'échelles qui sont le
monopole des États-Unis, qui ensuite font ensuite
que leur richesse et leur puissance sont le
résultat de leur merveilleux système. C'est
l'union qui nous permettra de sauver notre modèle
continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
Bush et le reste du monde Avec plus de
pragmatisme, on fait l'Europe pour bénéficier
d'avantages compétitifs et d'économies d'échelles
qui sont le monopole des États-Unis, qui ensuite
font ensuite que leur richesse et leur puissance
sont le résultat de leur merveilleux système.
C'est l'union qui nous permettra de sauver notre
modèle continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
Pourquoi s'unir ? Avec plus de pragmatisme, on
fait l'Europe pour bénéficier d'avantages
compétitifs et d'économies d'échelles qui sont le
monopole des États-Unis, qui ensuite font ensuite
que leur richesse et leur puissance sont le
résultat de leur merveilleux système. C'est
l'union qui nous permettra de sauver notre modèle
continental et d'en prouver la valeur tant
sociale qu'économique, j'en ai la profonde
conviction. L'unilatéralisme ne prospère que
lorsqu'un pays surpuissant est opposé à une
myriade de faibles.
En fonction du corpus de départ, du point de vue
de l'utilisateur, de ses connaissances sur le
domaine et de la tâche on obtient des dispositifs
différents.
24
Projet LUCIA-RD
Requête? (lexies des) tables "Politique
étasunienne" et "États dictatoriaux"
  • Exemple

1e critères de filtrage et d'ordonnancement
- favoriser la présence des lexies de ces tables
et autres critères
États démocratiques
Institution politique
? sème Obédience pol. communisme valeur
"amérique" du sème Situation Géograph.
États dictatoriaux
Europe et USA
Politique étasunienne
2e critères de filtrage et d'ordonnancement
- favoriser la présence de certains sèmes
(indépendamment des tables) et/ou certaines
valeurs de sèmes.
Gouvernants
Politique française
  • LUCIAnalyser
  • détection des lexies des dispositifs
  • détection des isotopies
  • filtrage et ordonnancement en fonction des
    critères de l'utilisateur (et des ressources
    fournies)

25
Projet LUCIA-RD
  • Exemple

Moteur de recherche
LUCIAnalyser
ou
Ensemble des textes
liste de filtrées et (ré)ordonnancées
Représentations schématiques des documents
Rapport d'exploration
Informations obtenues du moteur - date
- taille Informations obtenues de l'analyse
- principales tables présentes -
principales isotopies trouvées
  • Repérage
  • des zones de texte,
  • des zones de publicité,
  • des zones de navigation
  • Coloriage
  • des zones de texte en fonction du nombre et de
    la nature des isotopies trouvées

26
Conclusion
  • Atouts du modèle
  • pas de distinction de "nature" ni de langue entre
    les entrées des tables,
  • pas de représentation du monde mais une
    représentation de la façon dont on en parle
    (représentation adaptée aux variations),
  • modèle de représentation dynamique peut être
    modifié en fonction de la tâche ou de
    l'utilisateur,
  • peu de ressources (et peu de traitements ?),
  • les processus mis en jeu, les ressources et les
    résultats sont facilement interprétables,
  • pas d'utilisation d'un formalisme pour
    "représenter le contenu" pas de perte par
    rapport aux textes initiaux,
  • Inconvénients du modèle
  • difficile à évaluer pour certaines tâches,
  • la mise en place des dispositifs n'est pas un
    exercice trivial,

27

28
(No Transcript)
29
Cadre d'étude
  • Constat
  • De quelles variations parle-t-on ?
  • de langue (géographiquement située),
  • de statut socio-culturel,
  • du contexte de la tâche,
  • des régularités langagières personnelles ou
    communautaires,
  • des points de vue sur les domaines
    (subjectivité).
  • L'utilisateur doit s'adapter
    aux systèmes et aux ressources

30
Propositions
  • Acquérir
  • Décrire et structurer
  • Utiliser
  • acquérir des lexies depuis un corpus MEMLABO
    R
  • décrire leur signification en contexte LUC
    IABuilder
  • analyser des documents, produire des
    résultats LUCIAnalyser

LUCIA Located User-Centred Interpretative
Analyser
31
Projet IsoMeta
32
Projet IsoMeta
  • Interface de navigation dans le corpus

33
Projet IsoMeta
34
Projet IsoMeta
The Dow Jones, for instance, the thermometer of
Wall Street, which had fallen...
thermometer est utilisé au même titre que
graphics ou ratio, i.e. pour suggérer un objet
pour l'analyse et l'étude dans le domaine de la
bourse.
35
Projet IsoMeta
This crash was due (...) to the vertiginous and
uncontrolled fall of the dollar, sign that the
storm will henceforth affect the financial
markets.
Isotopies
sèmes partagés
36
Calculer sur la différence et la répétition
  • Lors de la constitution des dispositifs
  • les places vides
  • les mise à jours (processus cyclique itératif)
  • il est possible de mettre à jour les dispositifs
    en fonction de l'expérience de l'utilisateur par
    rapport au domaine ou par rapport à l'utilisation
    des dispositifs.
  • Lors de l'analyse
  • l'isotopie
  • le sème différentiel
  • statut des "lexies" dans les dispositifs
  • il est possible de ne pas être exhaustif sur les
    domaines traités et de ne pas tenir compte de
    certains problèmes pouvant être levés par des
    analyses syntaxiques par exemple.
  • Limiter les ressources et les traitements

37
Projet LUCIA-RD
  • Exemple

Acteurs économiques
Rapports internationaux
Acteurs culturels
Europe
Politique européenne
États-Unis
États-Unis, superpuissance, suprématie,
hégémonie, mépris, clan Bush,
Rapport de force
Rapport Inamical
Rapports Int.
fort
économique
USA, États-Unis superpuissance, ...
fort
militaire
Corée du Nord,
38
Structuration, description et
  • .. catégorisation
  • Problème
  • Jusqu'où aller dans les descriptions en terme de
    sèmes ?
  • Comment être certain de trouver des isotopies
    lors des analyses ?
  • Comment faciliter la tâche à l'utilisateur ?
  • Utiliser un modèle de description qui permet
  • d'exprimer les points communs entre les lexies,
  • d'exprimer les différences entre les lexies,
  • ?de catégoriser les lexies en fonction des
    significations envisagées.
  • C'est le modèle LUCIA (inspiré du modèle ANADIA
    Courcil, Beust)

39
Applications
  • Deux exemples d'applications
  • Projet LUCIA-RD
  • Objectif retrouver des documents traitant dun
    sujet donné (veille et gestion documentaire)
  • Ressources 1 dispositif par domaine concerné
  • Utilisation analyse, (ré)ordonnancement et
    filtrage dune collection de documents
  • Projet IsoMeta
  • voir Perlerin, Ferrari et Beust 2003
    www.info.unicaen.fr/perlerin/recherche/publis.htm
Write a Comment
User Comments (0)
About PowerShow.com