Annotations s - PowerPoint PPT Presentation

About This Presentation
Title:

Annotations s

Description:

Annotations s mantiques pour la localisation de ressources par des graphes tiquet s Michel Chein LIRMM (Universit Montpellier 2 et CNRS ) – PowerPoint PPT presentation

Number of Views:66
Avg rating:3.0/5.0
Slides: 72
Provided by: Chei4
Category:
Tags: abes | annotations

less

Transcript and Presenter's Notes

Title: Annotations s


1
Annotations sémantiques pour la localisation de
ressources par des graphes étiquetés
  • Michel Chein
  • LIRMM (Université Montpellier 2 et CNRS )

2
Une annotation  quest-ce que cest ? (1)
  • Annotation de quelque chose  annotation et
    ressource ( document enrichment )
  • Annotation et metadonnées objectives et
    subjectives
  • Annotation sémantique pas seulement contenu,
    mais aussi commentaire, remarque, usage, (ex.
    dans Annotea rdftype Annotation a 7 sous-classes
    prédéfinies Advice, Change, Comment, Example,
    Explanation, Question, et SeeAlso)

3
Une annotation  quest-ce que cest ? (2)
  • Annotation connaissance sur une ressource
    annotation sur des annotations ( lauteur de
    lannotation 33 est un imbécile, lauteur de la
    ressource R11 a été financé par lauteur de
    lannotation 12, )
  • Base dannotations sur un ensemble de ressources
    annotations formelles, ressources informelles
    (textes, images, videos,) ou formelles (BdD,
    base dannotations, base de composants, ), entre
    base de connaissances et index sophistiqué

4
Comment représenter des annotations ? (1)
  • Il ny a pas de  sens  dans une annotation
    sémantique seulement des connaissances au sens
    IA, i.e. des structures de données auxquelles un
    être humain peut donner un sens, les mettre en
    relation avec le  monde réel 
  • Knowledge-based (souvent restreint à
    ontology-based) semantic mark-up

5
Comment représenter des annotations ? (2)
  • Annotations représentées dans un langage formel
    de représentation de connaissances (sinon les
    annotations ne sont que des documents en langue
    naturelle ex. résumés),
  • ontologies (  domain ontologies  et pas
     visual descriptor ontology  ou  multimedia
    structure ontology )
  • connaissances non explicites dans les ressources
    (pour compléter des annotations)
  • contextes (ce qui est supposé connu du lecteur)
  • contraintes (pour assurer une certaine cohérence
    des annotations)
  • Pour pouvoir faire des raisonnements (déduction
    et autres) réponses à une requête, complétion
    dune annotation, vérification de contraintes,

6
Quelques autres questions importantes
  • liens ressources/annotations deux bases une de
    ressources et une dannotations, ou annotation
    dans les ressources
  • construction manuelle, automatique, assistée,
    outil pour parcourir et fractionner les
    ressources
  • construction/usage collectif/individuel de la
    base dannotations
  • qui construit les connaissances du système
    (ontologies)?
  • qui construit les annotations (spécialistes dun
    domaine, spécialiste de documentation, tout le
    monde, ) ?

7
Pourquoi des annotations  à quoi ça sert ?
  • Catégorisation, Certification
  • Recherche dinformation  Semantic annotation is
    a specific metadata generation and usage schema,
    aiming to enable new information access methods
    and to extend the existing ones.  (Kiryakov)
  • Publication assistée sélectionner des parties de
    documents, les réutiliser pour construire un
    nouveau document mulimédia (recontextualisation) 
  • Valeur ajoutée aux ressources

8
Et le web  sémantique  ?
  • Ajouter des connaissances (RDF) aux documents du
    web
  • Etendre HTML pour décorer un document HTML par
    des connaissances (semantic XHTML, langage XTiger
    au dessus dAmaya)
  • Notre approche est  meilleure  que RDF mais

9
  • tout aussi insatisfaisante que RDF pour le web
     sémantique  !

10
Ce dont je vais parler
  • un langage permettant de définir des annotations
    sémantiques, des contraintes, des règles (e.g.
    connaissances implicites), et des requêtes
  • une méthodologie pour aider à construire des
    annotations
  • un mot sur les algorithmes de recherche
  • tout doit être simple à construire et à
    comprendre (y compris les raisonnements, i.e. le
    pourquoi des réponses fournies) car Nimporteki
    doit pouvoir construire des annotations et
    utiliser le système

11
Equipe RCR
  • Le modèle est basé sur un modèle de
    représentation de connaissances développé au
    LIRMM depuis 1992 M.-L. Mugnier, M. Leclère, O.
    Haemmerlé, B.Carbonneill, O. Guinaldo, E. Salvat,
    D. Genest, J.-F. Baget,
  • et des outils COGITO, COGITANT, COGUI, A.
    Gutierrez, N. Moreau
  • Utilisés dans des applications en annotation et
    RI dans le cadre de divers projets 
  • MOGADOR (recherche documentaire, ABES et BNF)
  • OPALES (annotations de vidéos, INA et MSH)
  • SAPHIR (annotations de vidéos pour publication
    assistée, INA et MSH)
  • LOGOS (annotations de tout type de documents pour
    e-learning)
  • EIFFEL (RI tourisme)

12
(No Transcript)
13
(No Transcript)
14
(No Transcript)
15
Lanalyse du discours assistée par ordinateur
concepts, méthodes, outils
16
(No Transcript)
17
Une requête simple
1
2
Chat Garfield
Canapé
sur
Chat
1
1
1
1
proche
3
2
2
2
Bouteille
Coussin
2
Couleur Rouge
Objet
1
2
1
Lait
attr.
G
2
Q
Couleur Rouge
donc Q se déduit de G (et du vocabulaire)
18
Sémantique logique
ainsi que les formules du vocabulaire traduisant
les ordres partiels
19
Exemple dontologie simple
estAuteurDe(Personne,Document)
Universel
estRéalisateurDe(Personne,Vidéo)
EtreVivant
Document
X
Vidéo
Image
Personne
X
Journaliste
Homme
PPDA ? Journaliste
Femme
http//www.icones.bg/ic37.jpg ? Image
X
20
(No Transcript)
21
Ontologie
  • Une ontologie (simple) GC
  • Tc un ensemble de types de concepts ordonnés
  • B ensemble densembles de types de concepts
    interdits
  • Tr un ensemble de types de relations ordonnés
  • Sr Tr?Tc définissant la signature des
    relations
  • I un ensemble dindividus ontologiques

22
Exemple (Règles)
R1
Chercheur
Equipe
membre
Tout chercheur est membre d'une équipe
? x (Chercheur (x) ? ? y Equipe(y) ? membre(x,y))
R2
Person
Person
coll
coll
 La relation 'collabore' est symétrique
? x ? y ( coll(x,y) ? coll(y,x))
23
Exemple (Contraintes)
Equipe
Equipe
membre
membre
Person
Person
Person
Person
aff
aff
aff
aff
Bureau
Bureau
Contrainte négative "Synergie inter-équipes"
Contrainte positive"Cloisonnement"
24
Langage de données et de requêtes
  • Fondamentalement des graphes bipartis étiquetés
  • Une classe de sommets représentant des entités
    (analogie  mots-clés)
  • lautre classe des relations entre ces entités
    (analogie  relations sémantiques entre les
    mots-clés, agent , instrument, )
  • les étiquettes sont ordonnées (spéc./géné.)
  • Pourquoi des graphes étiquetés ?
  • un langage utilisable par des non informaticiens,
    facilement visualisable
  • suffisamment riche et extensible
  • bons algorithmes

25
ProjectP
Query Q
Fact G
member
member
Person
Person
worksWith
Researcher
ResearcherK
ResearcherJ
member
member
worksWith
Office
Project
Project
Office124
near
Q Are there people working together, who are
each member of a project?
26
ProjectP
member
member
Person
Person
worksWith
Researcher
ResearcherK
ResearcherJ
member
member
worksWith
Office
Project
Project
Office124
Query Q
Fact G
27
Homomorphisme de graphes
  • Un homomorphisme h de G(VG, EG) dans H(VH,EH)
    est une application de VG dans VH qui
    préserve les arcs
  • si (x,y) est dans EG, alors (h(x),h(y)) est dans
    EH

d
1
2
c
G
3
b
H
a
  • Homomorphisme de graphes bipartis étiquetés
    ajoutent
  • des conditions sur la structure et sur les
    étiquettes labels

28
Spécialisation/Généralisation
relation de préordre sur les SGs G ? H (H ?
G) ssi il existe un homomorphisme de G dans H
G est plus général que H H est plus spécifique
que G
T
T
T
T
T
T
T
29
Base logique
F
  • Vocabulaire S
  • t lt tr lt r
  • SGs

predicats, constantes?x t(x) ? t(x)?x1... xk
r(x1,..., xk) ? r(x1,..., xk)
F
(? , ?) fbfs
  • Homomorphisme équivalent à la déduction

Consistance si G ? H alors F(G) est déductible
de F(H), F(S) Complétude si F(G) est déductible
de F(H), F(S) alors G ? H
  • le SG modèle est équivalent au fragment FOL(? ,
    ?)
  • (on peut se débarasser des quantificateurs
    universels)

30
Problèmes équivalents
  • Hom de graphes étiquetésEtant donnés deux SGs G
    et H, H ? G?
  • Hom dhypergraphes étiquetés
  • Hom de structure relationnelle
  • CSPUn réseau de contraintes est-il satisfiable?
  • Inclusion de requêtes conjonctives Etant données
    deux requêtes conjonctives Q et Q, Q
    contient-elle Q ?
  • Déduction dans le fragment positif, conjonctif et
    existentiel de FOL

31
Une extension la négation atomique
  • Deux problèmes de décision fondamentaux
  • Déduction (Q se déduit-il de la base B?)
  • Existence d'une réponse (B contient-elle une
    réponse définie à Q?)

Sur les SGs ces problèmes sont les mêmes Avec
négation ce nest plus le cas
32
Négation atomique dans les SGs
hypothèse du monde ouvert
G
Q
Cube A
Cube
Cube B
Objet
Déduction oui
Existence d'une réponse non
?
A
(correspond à la déduction en logique
intuitionniste)
Cube C
B
C
33
Une autre extension les graphes typés emboîtés
  • les graphes sont typés par un type dannotation
    (e.g. contenu, thème, rhétorique, commentaire, )
  • le vocabulaire est décomposé en modules, un
    module définit le vocabulaire utilisable pour un
    type dannotation
  • structure hiérarchique on peut mettre une boîte
    (un graphe) dans une boîte (un sommet concept)

34
Différents contenus sémantiques
  • Le contenu sémantique dune annotation peut être
    décrit selon plusieurs domaines
  • Rhétorique
  • Pragmatique
  • Thématique
  • Médias
  • MatièresAV
  • Tournage
  • Physique
  • A tout  domaine  est associé une ontologie (de
    domaine)
  • Contrainte Les graphes dans un type demboîtement
    sont construits en utilisant uniquement le
    vocabulaire de lontologie de domaine associée à
    ce type de graphes

35
Une seule ontologie (modulaire)
  • Deux domaines peuvent partager une partie de leur
    vocabulaire
  • Ex. des JT le thème dune séquence est une
    personne (thématique), et cette personne est à
    lécran (Médias)
  • Tous les graphes dune base dannotation sont
    construits relativement à une unique ontologie
    mais chaque emboîtement est relatif à une
    sous-ontologie de cette ontologie

36
Ontologie modulaire
Universel
EtreVivant
Document
X
Vidéo
Image
Personne
X
Journaliste
Medias
Homme
Femme
X
Personnes
37
Annotation idD01
Physique
Icon http...ic37.jpg
belongsTo
createdBy
Anonym
Oil
medium
School Y
Entity Chania
location
support
Wood
timeLoc
Century XVIe
Description
holding
Baby TheChild
Entity Virgin
38
Graphe final (base dannotations)
auteur
Person PatrickC
Annotation idD01
Physique
Icon http...ic37.jpg
Anonym
createdBy
belongsTo
auteur
Oil
medium
School Y
Entity Chania
location
Wood
support
Century XVIe
timeLoc
Description
détail
Entity Virgin
Baby TheChild
holding
Annotation idD02
Description
Entity Virgin
Eye
isPartOf
39
Méthodologie pour construire des annotations
  • Une ontologie (vocabulaire, contraintes, règles)
    partagée
  • Des (graphes) patrons dannotation pour un type
  • Des (graphes) prototypiques pour un type de
    concept ou de relation
  • Des graphes individuels

40
Graphe patron
41
Graphe prototypique
42
Prototype dune relation
43
Réponses approchées, plausibles, partielles
  • se limiter aux réponses exactes ? silence
  • réponses inexactes basées sur le principe
    dincertitude de van Rijsbergen
  • Given any two sentences d and q the measure of
    the uncertainty of d ? q relative to a knowledge
    set, is determined by the minimal transformation
    of d in d, to establish the truth of d ? q
  • rend vivante la base dannotations

44
Les transformations
  • Substitutions dune étiquette compatible à une
    autre ? réponses approchées
  • Identifications de deux sommets (joints) (
    substitutions) ? réponses plausibles (? nbre de
    joints)
  • Ajouts de concepts ? réponses partielles (? nbre
    de concepts ajoutés, ? nbre de relations
    ajoutées)

45
Mise en oeuvre (1)
  • MOGADOR
  • thesaurus RAMEAU
  • 400.000 termes
  • UF (Used For), SA (See Also), BT (Broader Topic),
    NT (Narrower Topic), RT (Related Topic)
  • 12 relations (obj, time, loc, geo, agt, comp, )

46
Mise en oeuvre (2)
  • compatible-term(x,y) il existe un chemin de y à
    x tel que sa lg ? 4, le nbre de RT est ? 1, le
    nbre de NT et le nbre de BT sont ? 2, le nbre de
    SA et le nbre de UF sont ? 3
  • compatible-relation(x,y) 2 relations qcq sont
    compatibles.
  • acceptable-sequence(s)
  • quasi-ordre total s s (fonction de ranking)

47
Mise en oeuvre (3)
  • C0 séquence vide.
  • C1 séquences de substitutions de termes utilisant
    SA.
  • C2 séquences de subst. de termes utilisant SA and
    UF.
  • C3 séquences de subst. de termes utilisant SA, UF
    et BT.
  • C4 séquences de subst. de termes utilisant SA,
    UF, BT et NT.
  • C5 séquences de subst. de termes utilisant les 5
    relations.
  • C6 séquences de subst. de termes ou de relations
    .
  • C0 ? C1 ? C2 ? C3 ? C4 ? C5 ? C6
  • ?s ? Ci -Ci-1, i 1, ..., 6, et ? s ? Cj et j
    lti s lt s
  • ? s, s ? Ci -Ci-1, s s ssi lg(s) lg(s)

48
Mise en oeuvre (4)
  • C7 séquences de substitutions détiquettes et de
    joints.
  • C6 ? C7.
  • C8 séquences de substitutions détiquettes et de
    joints et dajouts de relations.
  • C7 ? C8.
  • C9 séquences de substitutions détiquettes et de
    joints et dajouts de termes ou de relations.
  • C8 ? C9
  • ? s ? Ci -Ci-1, i 1, ..., 9, et d ? s ? Cj et j
    lt i , s lt s
  • ? s, s ? Ci -Ci-1, s s ssi lg(s) lg(s)

49
Expression didées politiques dans la presse
écrite
1
political ideas
newspapers
2
circ
50
  • pol. ideas BT pol. sciences NT pol.
    communication NT pol. language UF pol. discourses

ling. analysis
politic. ideas
1
1
obj
1
1
1
agt
agt
instr
politicians
journalists
circ
1
computer sc.
1
1
circ
circ
medias
51
newspapers SA news BT media
ling. analysis
politic. ideas
1
1
obj
1
1
1
agt
agt
instr
politicians
journalists
circ
1
computer sc.
1
1
circ
circ
newspapers
52

1
circ
polit. ideas
newspaper
ling. analysis
politic. ideas
1
1
obj
1
1
1
agt
agt
instr
politicians
journalists
circ
1
computer sc.
1
1
circ
circ
newspapers
53
Conclusion
  • les limites  construction à la main (guidée)
    contrôlée et enrichie automatiquement par des
    contraintes et des règles. Normal pour des
    commentaires, très coûteux pour des indexations.
    La valeur ajoutée doit être importante.
  • utilisation  importance des commentaires non
    constructibles automatiquement (ex. rhétorique,
    car non présente explicitement dans le document)
    ou indexation automatique non réalisable
    (aujourdhui ex. images)
  • demain utilisation plus large dès que lon
    saura automatiquement associer des formules
    logiques à des documents.

54
Améliorations
  • Modèles hybrides SGBD et GCs, DLs et GCs
  • Apprentissage automatique de connaissanes
    prototypiques
  • Méthodes de recherches approchées utilisant des
    connaissances prototypiques
  • Dynamicité du vocabulaire
  • Intégration de lutilisateur dans la boucle
  • etc.

55
Références récentes et adresses
  • http//www.lirmm.fr/mugnier
  • http//www.lirmm.fr/cogui/doc/getting_started_with
    _cogui_onto5.htm
  • http//cogitant.sourceforge.net
  • Genest, D., Chein, M. (2005), A Content-search
    Information Retrieval Process Based on Knowledge
    Graphs and the Uncertainty Principle. Knowledge
    and Information Systems, (KAIS), vol. 8, n 3,
    2005
  • Moreau, N., Leclère M., Chein M., Gutierrez A.
    (2007), Formal and Graphical Annotations For
    Digital Objects, SADPI07, Intern. Work.
    Semantically Aware Document Processing and
    Indexing, Montpellier, May 2007 (le même en
    français à IC07)

56
(No Transcript)
57
(No Transcript)
58
(No Transcript)
59
(No Transcript)
60
Graphe prototypique
61
Une règle
62
Résultats théoriques Famille SG
SREC
SEC
SRC
règles d'inférence
règles d'évolution
SGC
SR
contraintes
règles
SG
faits
Décidabilité/complexité des problèmes de
baseAlgorithmes efficaces à base de
graphesSémantique logique, expressivité
63
Famille SG décidabilité/complexité (1)
SREC
problème de déduction
semi-décidable
SEC
indécidable
SRC
règles d'évolution
règles d'inférence
P2P-Complet
SGC
semi-décidable
SR
contraintes
règles
SG
faits
NP-Complet
Des cas particuliers décidables?
64
Famille SG décidabilité/complexité (2)
SREC
S3P-Complet
S3P-Complet
SEC
SRC
P2P-Complet
SGC
SR
P2P-Complet
contraintes
NP-Complet
SG
faits
NP-Complet
Si ensemble de règles à expansion finie tous
problèmes décidables En particulier, règles
range-restricted ( règles Datalog usuelles)
65
Graphe orienté étiqueté aux arcs
animal
entité
chat
Chat Garfield
G
1
1
1
entre
tenir
1
rel2
3
3
2
rel3
2
2
2
Bouteille
Coussin
entité
coussin
bouteille
entité
66
Un théorème fondamental de Hell
  • Système relationnel binaire multigraphe orienté
    avec arcs étiquetés t.q. le multigraphe partiel
    des arcs avec même étiquette est un graphe.
  • Une étiquette correspond à un symbole de relation
    binaire
  • Les arcs dune même étiquette correspondent aux
    couples de la relation associée à la couleur

67
Lopération de remplacement dune étiquette
  • GJ
  • On remplace tous les arcs du graphe G ayant la
    même étiquette par le graphe J qui est sans
    étiquette et a deux sommets distingués
  • G
  • Jxy
  • GJ

b
c
a
x
y
c
a
b
68
Plusieurs étiquettes
  • Chaque étiquette est remplacée par un Jk qui
    constituent une famille de graphes de
    remplacement rigides, forts et incomparables
  • Rigide pas dautre endomorphisme que lidentité
  • Fort pour tout G et tout homomorphisme f de J
    dans GJ, f(J) est inclus dans une copie Jxy de J

69
Exemple
J1
G
x
y
x
y
J2
GJ1,J2
70
Le théorème de Hell
  • Il existe un  mapping  linéaire qui transforme
    le pb de lhomomorphisme de graphes étiquetés
    dans celui de lhomomorphisme de graphes non
    étiquetés qui réalise une bijection entre les
    ensembles dhomomorphismes.
  • G et H deux multi-graphe étiquetés
  • h multi-graphes étiquetés?graphes
  • Taille (h(g)) ?O(étiq?taille(g))
  • Bijection entre Hom(G,H) et Hom(h(G),h(H))
  • h G?GJ1,,Jk

71
Catégories
  • Le théorème de Pultr et Trnkova (1980)
  • Toute catégorie concrête peut être représentée
    dans la catégorie Graphe (des graphes non
    orientés dont lensemble des sommets est une
    partie finie des naturels)
  • (Catégorie concrête sous-catégorie de la
    catégorie Ensemble celle des ensembles finis
    munis des applications comme morphismes)
Write a Comment
User Comments (0)
About PowerShow.com