Web smantique Cours 3 Donner du sens aux documents du web - PowerPoint PPT Presentation

1 / 44
About This Presentation
Title:

Web smantique Cours 3 Donner du sens aux documents du web

Description:

Donner du sens aux documents du web. Des textes aux ontologies : ... Une annotation est une note particuli re attach e une cible par une ancre. ... – PowerPoint PPT presentation

Number of Views:103
Avg rating:3.0/5.0
Slides: 45
Provided by: nathal150
Category:

less

Transcript and Presenter's Notes

Title: Web smantique Cours 3 Donner du sens aux documents du web


1
Web sémantique Cours 3 Donner du sens aux
documents du web
  • Des textes aux ontologies
  • Principes et outils
  • Méthode
  • TAL et apprentissage
  • Des ontologies et des méta-données aux pages web
  • Annotation
  • Indexation
  • Recherche dinformation à laide dontologies

2
1 - Des textes aux ontologies principes et
outils
  • Intérêt et difficultés de la modélisation à
    partir de textes
  • Un processus supervisé danalyse de textes
  • Outils danalyse de textes pour la construction
    dontologies

3
1 - Partir des textes
  • Les textes, sources dinformation
  • Le vocabulaire partagé par les membres dune
    communauté de praticiens se trouve dans les
    textes quelle produit et utilise.
  • Dans certains domaines (médecine, droit, ), les
    connaissances ne sont accessibles que par leur
    expression linguistique.
  • Partir des textes pour mieux y retourner
  • Quand lapplication qui exploite la RTO est un
    système de traitement de linformation textuelle.
  • Autres sources
  • Les experts, les spécialistes
  • Les ressources terminologiques existantes

4
Traitement de linformation textuelle
hémopéritoine
texte
L'échographie abdominale retrouve une contusion
splénique et un hémopéritoine. Traumatisme
abdominal avec une fracture de rate et un
hémopéritoine abondant, ayant nécessité une
splénectomie en urgence. Un nouvel état de choc
apparaît associé à syndrome compartimentaire
abdominal (hémopéritoine hématome
rétropéritonéal)) justifiant la laparotomie
exploratrice. L'évacuation de l'hémopéritoine ne
permet pas de mettre en évidence une cause nette
au saignement Instabilité hémodynamique
initiale, avec TA 80 / 60 et fréquence cardiaque
à 120 / min en relation avec des pertes sanguines
sur les foyers de fractures (échographie
abdominale normale, absence d hémopéritoine ou
de lésion viscérale intrapéritonéale
évidente)).deux échographies abdominales
successives un hémopéritoine évolutif, sans
pneumopéritoine, ainsi qu'un décollement
péricardique postérieur.un traumatisme
thoraco-abdominal avec fracture des arcs
postérieurs des 7e, 8e et 9e côtes droites,
contusion hépatique au niveau des segments
VI-VII, hémopéritoine de moyenne abondance,
contusion splénique,Instabilité hémodynamique
nécessitant remplissage, transfusion de culots
globulaires, PFC et plaquettes dans le cadre d'un
hémopéritoine sur fracture du bassin.
5
Traitement de linformation textuelle
RTO
sevrage
(OBJET)
Noradrénaline
sevrage_Noradrénaline
sevrage en noradrénaline
sevrage de la noradrénaline
sevrage Adj? deen la? noradrénaline
sevré de noradrénaline
noradrénaline être Adv? sevré
texte
sevrage en noradrénaline le 23 / 10. Stabilité
cardiorespiratoire, le sevrage de la
Noradrénaline est fait à J5 de la réintervention
et l'extubation est réalisée à J6. Evolution
favorable avec sevrage rapide en Noradrénaline le
20 / 06 / 99. Stabilité hémodynamique initiale
correcte avec sevrage progressif en Noradrénaline
obtenu à J3. Les suites du choc hypovolémique
hémorragique sont simples, avec sevrage de
noradrénaline à J3 et extubation à J2.
L'évolution est alors favorable avec Instauration
d'une corticothérapie ayant permis un sevrage
rapide de la Noradrénaline, La patiente est
sevrée de noradrénaline le 16 / 06 / 00. Le
patient est sevré de Noradrénaline le 13 / 05 /
00. La Noradrénaline est sevrée dans la nuit du
20 au 21 / 01. Après remplissage vasculaire par
1000 cc de Plasmion et 1000 cc d'Elohes, la
Noradrénaline est rapidement sevrée
6
Des textes aux modèles pour un meilleur retour
aux textes
Meta-données, index
7
Identifier des éléments dontologie à partir de
textes traitements automatiques possibles
  • Extracteurs de relations
  • AD
  • relations syntaxiques
  • patrons
  • hiérarchies existantes

Axiomes, règles
Autres relations
  • Abstraire / nommer
  • fréquence
  • représentativité

Hiérarchie de concepts
  • Clustering
  • coocurrences
  • statistiques
  • analyse distributionnelle
  • relations syntaxiques

Extracteurs - Patrons - Segments répétés -
Analyse syntaxique de surface
Concepts
Classes de Termes
Termes
Étiquetage grammatical, découpage
Séquence de mots (texte)
8
Outils de TAL pour la construction de ressources
terminologiques à partir de textes
  • Deux tâches essentielles
  • 1) Extraction de candidats termes SYNTEX,
    LEXTER, NOMINO, Ana
  • extraction de concordances YAKWA, SATO
  • regroupement de termes ASIUM, SVETLAN, SYNTEX
    (critères syntaxiques), SEMIO (critères
    statistiques)
  • 2) Extraction de relations candidates Caméléon,
    Likes, Prométhée
  • Ces tâches sont réalisées le plus souvent
    conjointement
  • Les outils proposent, la personne (terminologue,
    ingénieur, spécialiste) qui construit la
    ressource terminologique dispose, et modélise
  • Il ne sagit pas de construction automatique

9
Le cur du problème de la modélisation
Structuration normalisation
10
TERMINAE méthode (Biébow, Szulman,
Aussenac-Gilles, 2000)
Ontologie du domaine
11
Terminae, plate-forme de modélisation
  • Fonctionnalités
  • Etude linguistique
  • travail sur les résultats des outils Lexter ou
    Syntex
  • étude des relations Linguae
  • Création de fiches terminologiques et
    conceptuelles
  • Création dontologies (logique de description)
  • Originalité
  • Traçabilité des textes vers les modèles
  • Intégration de résultats et outils danalyse de
    textes
  • Construction de terminologies ou dontologies

12
Etude terminologique
  • coeur de la modélisation
  • Ex Repérage de synonymies
  • Ellipses, Sigles
  • Recherche par patrons
  • Termes partageant des contextes communs
  • Principe détude des termes
  • Pas de validation systématique de toute la liste
    par un expert
  • Priorité trouver ce qui est pertinent et non
    éliminer ce qui ne lest pas
  • Partir de termes fréquents, productifs ou
    ressortant de létude des besoins
  • Un terme est retenu lorsquun concept est défini

13
A - Principes danalyse des textes
  • Axe texte/modèle
  • Data-driven du texte au modèle (dépouillement)
  • Model-driven (fouille, recherche ciblée)
  • Axe  parcours au sein du modèle 
  • Ascendant regroupement, abstraction
  • Descendant spécialisation, raffinement de
    concepts
  • Centrifuge rayonnement autour de concepts
    centraux
  • Des principes empiriques

14
B - Une démarche générale pour définir et
organiser des concepts
  • Repérage de concepts centraux
  • Organisation hiérarchique du concept
  • Étude des autres types de relations associés à ce
    concept
  • Organisation des résultats dans TERMINAE
  • Validation partielle par lexpertise

15
Repérage de concepts centraux critères
  • À partir des termes extraits (Noms ou syntagmes
    nominaux)
  • Fréquence
  • Productivité
  • Synonymes de termes très fréquents
  • Terme apparaissant dans les titres des chapitres
    du livre
  • A partir de la prise en compte des besoins
  • Connaissance superficielle du corpus et du
    domaine
  • Avis des experts

16
Etude des relations à partir dun concept
  • Des relations lexicales aux relations sémantiques
  • Déterminer les concepts reliés et le type des
    relations
  • Les représenter à laide de rôles ou de relations
    EST-UN
  • Décider des propriétés des relations héritage,
  • Des relations à une hiérarchie de concepts
  • Différencier des concepts selon des critères
    homogènes corps solide/corps liquide,
    différents processus de fabrication
  • Relations révèlent des critères de
    différentiation
  • Ajout de concepts non terminologiques

17
Recherche de relations à laide de patrons
lexico-sémantiques
  • Adaptation de marqueurs génériques
  • ex SN EST art indef SN
  • peu précis en français en général, pertinent en
    anglais sur le corpus
  • Identification de nouveaux marqueurs
  • Régularités syntaxiques dans les corpus
  • Dans le corpus  brevets , un marqueur pour
    repérer un nom de process NOM_Process according
    to the invention
  • Dans le corpus veille, des propriétés de
    (chemical) company
  • SN chemical company ( ex Saint Louis based
    chemical company)
  • Résultats de SYNTEX

18
Fiche concept de Terminae
19
Extraction dinformation et apprentissage
  • Extraction dinformation principes
  • Patrons de fouille
  • Caractérisation syntaxique, lexicale et
    sémantique de la présence de certaines
    informations
  • Automates appliquant les patrons sur des textes
  • Extraction dinformation intérêt
  • Repérage de concepts, de relations entre concepts
  • Repérage dinstances
  • Extraction dinformation limites
  • Identification des patrons
  • Coût de la mise au point des automates

20
Extraction dinformation exemple de patron
Automate du patron  mettre la main sûr 
21
Extraction dinformation extraction
Création des règles
Coréférence
ltSgtDassault Systèmeslt/Sgt vient de réaliser une
nouvelle acquisition ltCR Dassault
Systèmesgtl'un des fleurons de la famille
Dassaultlt/CRgt va mettre la main sur la société
américaine SRACdans une transaction de 22
millions de dollars en actions.
Spécification
Extraction
ltSgtDassault Systèmeslt/Sgt ltGVgtvient de
réaliserlt/GVgt ltCODgtune nouvelle acquisitionlt/CODgt
ltSgtl'un des fleurons de la famille Dassaultlt/Sgt
ltGVgtva mettrelt/GVgt ltCODgtla mainlt/CODgt ltCO1gtsur la
société américaine SRAClt/CO1gt ltCO2gtdans une
transaction de 22 millions de dollars en
actionslt/CO2gt.
Nom scénario  Transaction Boursière Type
transaction  Acquisition Entreprise Acheteuse 
Dassault Systèmes Entreprise Cédée 
SRAC Montant Transaction  22 millions de dollars
Scenario structuré
22
Intérêt de combiner TAL et apprentissage
  • Apprentissage à partir dexemples
  • Textes étiquetés grammaticalement
  • Puis annotés manuellement (tag) pour
  • Indiquer la présence de concepts
  • Le système  apprend  la caractérisation
    syntaxique des contextes dans lesquels les
    concepts sont présents
  • nouveaux patrons de fouille
  • Extraction dinformation
  • Utilisation des patrons appris
  • Pour le repérage dinstances de concepts

23
2 - Des ontologies et des méta-données aux pages
web
  • Association de méta-données annotation (KA)²
  • Construction d'index / indexation
  • Recherche d'information s'appuyant sur une
    ontologie

24
2.1 Méta-données (KA)² consultation
sémantique du WEB
Concepts de lontologie inférés à partir de la
requête
ONTOBROKER Requêtes utilisant les concepts de
lontologie
Pages Web annotées
... lta onto pageresearcher gtlt/agt lt...gt John
Benjamins lta onto pagefirstNamebody gt
John lt/agt
Pages Web contenant ces concepts
Concepts de la requête
Ontologie (KA)²
Concepts inférés
25
(KA)2 la hiérarchie de thèmes de recherche
KA through Machine Learning Abduction.
Case Base Reasoning Cooperative Knowledge
Acquisition Knowledge Based Refinement
Knowledge Discovery in Datasets Data
Mining Learning Apprentice Systems
Reinforcement Learning Reuse Ontologies
Theoretical Foundations
Software Applications Methodologies
PSMs PSM evaluation
PSM libraries PSM notations
Automated PSM generation Sysiphus
III experiment Web Mediated PSM
selection Software Reuse
Specification Languages Specification
methodology Specification of control
Knowledge Support tools for formal methods
Automated code-generation from
specification Executable Specification
Languages Validation Verification Anomaly
detection Anomaly repair and Knowledge
revision Formalisms Methodology
VV of MAS Knowledge Management KA
methodologies Evaluation of KA Knowledge
Elicitation
26
Méta-données et annotations
  • Variété des conditions de leur production
  • quels acteurs professionnels / usagers de
    "base"
  • statique / dynamique
  • Données objectives (p. ex. Dublin Core) versus
    subjectives (annotations personnelles points de
    vues différents sur une ressource)
  • Variété de Marquage externe (Topic Maps) versus
    marquage interne (RDF même si...)

27
Méta-données objectives versus subjectives
  • But des annotations objectives sur un document
  • Indexer (administratives e.g. dublin core ou
    métier)
  • Construire des documents de navigation (ex au
    sein dun dossier médical e.g. à travers les
    diagnostics repérés)
  • But des annotations subjectives sur des documents
  • transmettre des informations e.g. niveau de
    preuve dun document médical
  • construire un nouveau document e.g.
    lélaboration dun compte rendu dhospitalisation
    à partir des autres documents présents dans le
    dossier médical
  • Les annotations objectives, souvent des
    méta-données formelles, indexent les annotations
    subjectives, souvent informelles

28
Des annotations subjectives (1/2)
  • Une annotation est une note particulière attachée
    à une cible par une ancre. La cible peut être une
    collection de documents, un document, un segment
    de document (un paragraphe, un groupe de mots,
    une image, une partie d'image, etc.) ou bien une
    autre annotation. Chaque annotation possède un
    contenu matérialisé par une inscription. Cette
    dernière est une trace de la représentation
    mentale élaborée par l'annotateur à propos de la
    cible. Le contenu de l'annotation peut être
    interprété par un autre lecteur. L'ancre lie
    l'annotation à la cible (une ligne, une phrase
    surlignée, etc.)
  • À qui est-elle adressée, quels sont les lecteurs
    ? Quel est son statut ?
  • Une annotation est-elle un document ? Un document
    pour l'action ?
  • Des réponses dans des études d'usage, le
    développement de prototypes instrumentant des
    pratiques

29
Des annotations subjectives (2/2)
30
2.2 - Construction dindex
  • Annotea
  • Magpie
  • Retrouver des concepts de lontologie à partir
    des instances (mots) dans les textes

31
Exemple le système Annotea (W3C)
  • Ressources annotées sémantiquement
  • Système dannotation collaboratif
  • Serveurs dannotations sous forme de métadonnées
  • Client HTTP
  • capable dinteragir avec ces serveurs
  • d'interpréter ces méta-données
  • de les utiliser pour la présentation
    d'informations et de services au client
  • Base de futures applications
  • revue d'articles
  • bookmarks collaboratifs
  • recommandations de produits ou de services

32
2.3 - Ressource ontologique et processus de
recherche dinformation
Concept hierarchy, thesaurus, ontology, ...
Document gatheringCollection of documents
Information need
match
Query representation
Documents representation
Retrieved documents
33
Ontologie pour lexpansion automatique de requêtes
  • Objectif
  • Faire tomber les barrières créées par des
    vocabulaires disparates issus des requêtes
    utilisateurs variations de sens,
    morphologiques, lexicales.
  • Approche
  • Placer une ontologie linguistique générale en
    amont dun moteur de recherche WordNet.

34
Etendre une requête via une ontologie
T1
Requête initiale
  • R1 T1, T2, ..Tn

T2,T3, T4
T1, T2, Tm
T2
T5
Requête étendue
  • R2 T1, T2, Tn, T 1, T 2, T 3,... T m

35
Entendre via une ontologie
1) Pb. de désambiguïsation Comment exploiter
les éventuels concepts présents dans les requêtes
des utilisateurs ? Comment désambiguïser les
termes des requêtes ? 2) Pb. dexpansion Quel
est lapport de chaque relation sémantique
? Comment pondérer les termes rajoutés ? À quel
point étendre ?
36
Liens sémantiques
Liens de Généralisation/Spécialisation
Hyperonymie / Hyponymie X Is-a-kind-of Y
Exemple voiture Is-a-kind-of véhicule à
moteur.
Liens de Composition
Exemple voiture a pour meronymes porte,
moteur.
Meronymie / Holonymie X Is-part-of Y X
Is-member-of Y X Is-substance-of Y
Pour les verbes
Exemple de relation Entailment A verb X
entails Y si X ne peut être réalisé que si Y
lest, ou la déjà été.
37
Expérimentations réalisées
Recommandations pour le processus
d expansion
  • Un concept/relation pour toute la requête
  • Poids des termes rajoutés lt poids des termes de
    la requête initiale
  • Limiter la taille des concepts retenus (en
    nombre de mots)
  • Lutilisation des termes de base (lemmes),
    améliore la précision.
  • L'exploitation de plusieurs niveaux de
    l'ontologie dans le processus d'expansion
    n'apporte pas un plus à la précision.
  • La relation hyperonymie (généralisation) permet
    daméliorer la précision moyenne, alors que la
    synonymie améliore la précision pour les premiers
    documents restitués.

38
Représenter des documents à laide dune
ressource ontologique
  • Ontologie pour représenter un document

Représentation du document
a document
t1, t4 t7 t9 tk,
39
Ontologie pour la représentation de documents
problèmes soulevés
  • Des termes aux concepts
  • Exploiter les liens si présents dans la ressource
    (ex WordNet)
  • Utiliser un extracteur
  • Désambiguïsation des termes
  • Pondérer les concepts
  • Représentativité
  • Poids du terme dans les documents / dans la
    collection
  • Adaptation de mesurer classiques
  • Calculer des distances entre concepts
  • Distances sémantiques connues pour termes simples
    (tf.idf)
  • adaptées aux termes composés (cf.idf)

40
Conclusion
  • Bilan
  • Domaine de recherche en pleine effervescence
  • Application phare web sémantique
  • Standard Owl
  • Grand nombre  dontologies  disponibles en DAML
    et OWL
  • Limites
  • Construction encore coûteuse
  • Indexation et annotation à laide dontologies
  • Exploitation encore réduite
  • Quand a-t-on vraiment besoin de modèles de
    connaissance aussi élaborées ?

41
Conditions pour une généralisation de
lindexation sémantique
  • Mieux gérer les ontologies
  • Maintenance de la pertinence ontologie / domaine
  • Construction incrémentale à partir de textes
  • Alignement, comparaison dontologies
  • Utilisation au sein dapplications phares
  • Automatiser lindexation ou lannotation
  • Croiser extraction dinformation et apprentissage
    automatique
  • Compromis entre ressources ad hoc, construites
    par analyse de texte, et ressources partagées
  • Meilleure prise en compte des usages dans la
    construction des ontologies ou thésaurus

42
Perspective les technologies sémantiques
  • De même que HTML et beaucoup de technologies du
    Web sont utilisées en entreprise
  • On parle aujourdhui de technologies sémantiques
  • Analogie entre les ressources du Web et les
    ressources de lentreprise
  • Gestion de connaissances

43
Conclusion
  • Comment sont produites ces ressources
    terminologiques et ontologiques (RTO) ?
  • Qui produit les descriptions pour des ressources
    données ?
  • Quelles sont les possibilités de (semi)
    automatisation ?
  • Utilisation de techniques de filtrage sur les
    textes (entités nommées, citation, thème )
  • La production de ces descriptions doivent être
    un sous-produit automatique des activités
    usuelles, personnelles ou professionnelles

44
Quelques questions pour le Web sémantique
  • Toute la sémantique du Web peut-elle être donnée
    statiquement ?
  • Les agents logiciels devront-ils construire une
    partie de cette sémantique à partir
  • des données structurées
  • des textes
  • ...
  • Les agents devront-ils construire cette
    sémantique à partir de relations entre le Web et
    ses acteurs (interactions collaboratives,
    popularité)
  • Comment intégrer la sémantique déclarée
    statiquement avec celle calculée dynamiquement ?
Write a Comment
User Comments (0)
About PowerShow.com