Automatisation des t - PowerPoint PPT Presentation

About This Presentation
Title:

Automatisation des t

Description:

Equipe GCSIS, Laboratoire PSI FRE CNRS 2645 INSA & Universit de Rouen ... par l' quipe apr s des tests infructueux de logiciels d'indexation existants : ... – PowerPoint PPT presentation

Number of Views:73
Avg rating:3.0/5.0
Slides: 54
Provided by: f09p2
Category:

less

Transcript and Presenter's Notes

Title: Automatisation des t


1
Automatisation des tâches documentaires dans un
catalogue de santé en ligne
  • Aurélie Névéol encadrée par SJ. Darmoni et A.
    Rogozan.
  • Equipe GCSIS, Laboratoire PSI FRE CNRS 2645
    INSA Université de Rouen
  • Equipe CISMeF, CHU de Rouen.

2
Plan
  • Introduction
  • Tâches documentaires
  • Présentation
  • Veille et description documentaires
  • Indexation automatique MeSH
  • Description du système MAIF
  • Approche TAL
  • Approche k-PPV
  • Fusion des approches
  • Indexation dun texte avec MAIF
  • Evaluation du système MAIF (vs. systèmes
    francophones, MTI)
  • Conclusion et perspectives

3
Introduction
  • Objectifs
  • Vers la  compréhension  des documents de Santé
    par la machine
  • Automatisation des tâches documentaires
  • Contexte le Catalogue et Index des Sites
    Médicaux Francophones
  • Projet initié in 1995 (http//www. cismef.org)
  • 14,000 ressources ? professionnels de santé,
    étudiants, patients
  • Mise à jour manuelle 55 nouvelles ressources par
    semaine
  • 1.500 ressources en attente
  • Automatisation des tâches documentaires
    nécessaire, en particulier pour l indexation.
  • Démarche expérimentale  Bottom-up 
    modélisation des problèmes, expérimentation,
    analyse des résultats, itération

4
Tâches documentaires présentation
5
Tâches documentaires présentation
  • Veille documentaire
  • Identifier les ressources susceptibles dêtre
    intégrées au catalogue
  • Sélectionner les ressources à intégrer
  • Description des ressources à intégrer notice
    CISMeF
  • Classification en spécialités médicales
  • Indexation de textes à laide de descripteurs
    MeSH
  • Indexation bimodale texte/image (FF 2ème année
    de thèse)
  • Recherche dinformation
  • Outil de recherche (LS thèse soutenue en 2004)
  • Dialogue avec lutilisateur (AL 2ème année de
    thèse)

6
Tâches documentaires veille
  • Conception du Veilleur Automatique CISMeF (CVA)
    formalisation de la veille manuelle.
  • Fréquence de la veille
  • Profondeur dexploration
  • Création de listes de liens  connus  ou  à
    éviter 
  • Validation manuelle mise à jour de la liste des
    URLs  à indexer .

7
Tâches documentaires description des
ressources dans une notice
8
Tâches documentaires création dune notice
semi-automatique
  • Extraction automatique (à partir dune URL) des
    éléments suivants
  • Indexation MeSH ( titre et format de la
    ressource)
  • Catégorisation en spécialités médicales ou
     métatermes  (notices longues)
  • Les autres éléments restent extraits manuellement
    (Résumé, nom dauteur, date de publication, etc.
    )

9
Tâches documentaires catégorisation en
spécialités médicales
  • Avant lindexation optique de désambigüisation.
  • En cardiologie lacronyme  IVG  dénote une
    ltinsuffisance ventriculaire gauche gt tandis quen
    chirurgie il dénote une ltinterruption volontaire
    de grossessegt.
  • Modèles de Compression AIME 2003
  • Après lindexation utilisation de lindexation
    MeSH
  • On peut déduire quune ressource indexée par le
    mot clé ltdiarrhée du nourrissongt relève de
    pédiatrie.
  • Liens Sémantiques IJMI 2004
  • La seconde méthode est utilisée en pratique

10
Indexation Automatique MeSH
  • Objectifs définis par léquipe après des tests
    infructueux de logiciels dindexation existants
  • Augmenter la couverture du catalogue
  • Permettre un gain de temps
  • Maintenir une indexation respectant les principes
    de lindexation manuelle
  • Descripteurs obligatoires (check tags)
  • Associations mot clé / qualificatif
  • Taille variable de lindex

11
Indexation Automatique MeSH le système MAIF
  • Lindexation comme traduction conceptuelle
    approche Traitement Automatique du Langage
    Naturel IPM 2005
  • Dictionnaires électroniques MeSH
  • Bibliothèque de transducteurs
  • Formalisation de règles dindexation
  • Lindexation comme une catégorisation fine
    approche k Plus Proches Voisins
  • Extraction automatique de Titres
  • Fusion des approches et sélection de lindex
    final TALN 2005

12
Le système MAIF approche TAL
  • Lalgorithme suit la méthode manuelle Lancaster,
    1991
  • 1. Analyse de la ressource pour en extraire des
    concepts
  • Repérage des éléments textuels (analyse de
    surface)
  • 2. Traduction dans le vocabulaire contrôlé
  • Mapping vers les termes MeSH
  • 3. Correction en fonction des règles dindexation
  • Utilisation des propriétés de la terminologie
  • Sélection (quasi) systématique des check tags
  • Application de règles dindexation

13
MAIF TAL dictionnaires électroniques MeSH
  • Format DELA (Dictionnaire Electronique du LADL,
    le Laboratoire d'Automatique Documentaire et
    Linguistique créé par M. Gross)
  • Versions contenant les formes fléchies DELAF
    pour les mots simples et DELACF pour les mots
    composés.
  • FormeFléchie,FormeCanonique.InfoFlexionnelle

14
MAIF TAL dictionnaires électroniques MeSH -
Principe
  • Format DELA FormeMeSH,TermeMeSH.InfoFlexionnell
    e
  • ex grippe,grippe.Nfs (DELA)
  • acariose,acarioses.Nfs (DELA)
  • Définition de classes de termes
  • ex MALADIE (C et F03)
  • ACTION ( D27.505)
  • SUBSTANCE (D sauf D05, D12, D13, D25, D27.505)
  • Introduction des étiquettes MeSH pour les
    mots-clés, QMeSH pour les qualificatifs, MALADIE,
    etc.
  • ex grippe,grippe.NMeSHMALADIEfs diagnostic,di
    agnostic.NQMeSHms

15
MAIF TAL dictionnaires électroniques MeSH -
Source
  • Dictionnaires DELA existants
  • ex grippe,grippe.NMeSHMALADIEz1ms
  • Ressources UMLF
  • Flexions et dérivations pour les mots simples
  • Validation manuelle
  • spironolactoner,spironolactone.VMeSH ? entrée
    rejetée
  • diagnostiquer,diagnostic.VMeSH ? entrée
    conservée
  • Synonymes MeSH et CISMeF
  • ex sorroche,mal des montagnes.NMeSHMALADIEms
  • Génération puis validation des pluriels

16
MAIF TAL dictionnaires électroniques MeSH
Traduction automatique de synonymes
  • Collaboration avec S. Ozdowska (ERSS, Toulouse)
    méthode dappariement par propagation syntaxique
  • Le couple amorce (protective/protecteur) permet
    dapparier les termes (clothing/vêtements) par
    propagation de la relation ADJ-N
  • Traduction directe et compositionelle EGC 2005,
    TIA 2005
  • Corpus CISMeF, RCP, Hansard

17
MAIF TAL dictionnaires électroniques
MeSHBilan INTEX04
  • Couverture de 83 du MeSH (soit 2,23
    entrées/terme)
  • Extrait du dictionnaire
  • Entrée  triviale 
  • diabete de type i,diabete de type i.NMeSHms
  • Variante orthographique
  • diabete de type 1, diabete de type i.NMeSHms
  • Synonymes
  • diabete juvenile, diabete de type i.NMeSHms
  • diabete insulinodependant, diabete de type
    i.NMeSHms
  • Flexions
  • diabetes de type i, diabete de type i.NMeSHmp
  • diabetes juveniles, diabete de type i.NMeSHmp
    (synonyme)
  • Dérivations
  • diabetique de type 1, diabete de type i.NMeSHms
    (variante)
  • diabetiques de type i, diabete de type
    i.NMeSHmp

18
MAIF TAL transducteurs MeSH
  • Description des termes complexes à laide de
    grammaires locales

19
MAIF TAL Formalisation des règles dusage
des qualificatifs
  • Règles implémentées pour lextraction de paires
    mot clé / qualificatif ex
  • Identification de déclencheurs tels que  lutter
    contre la MALADIE  ou  vaccin anti-MALADIE  ?
    La paire lt MALADIE/PCgt doit être utilisée pour
    lindexation.

20
MAIF TAL Formalisation des règles dusage
des qualificatifs
  • Règles non implémentées
  • Identification de déclencheurs tels que
     traitement de la MALADIE  ou  traiter la
    MALADIE  ?
  • Si ACTION ET SUBSTANCE
  • ltMALADIE/DTgt
  • ET ltACTION/TUgt
  • ET lt SUBSTANCE /TUgt
  • Si ACTION ET NON SUBSTANCE
  • ltMALADIE/DTgt
  • ET ltACTION/TUgt
  • Si NON ACTION ET NON MALADIE
  • ltMALADIE/THgt (défaut)
  • OU ltMALADIE/SUgt (intervention E04)
  • OUlt MALADIE/RTgt (traitement par rayons)

21
MAIF TAL (1) Analyse de la ressource(2)
traduction MeSH des concepts
  • INTEX/NooJ Silberztein, 93 Outils
    linguistiques danalyse de corpus utilisables en
    ligne de commande
  • Implémentent des fonctions pour automates et
    transducteurs
  • temps de traitement indépendant de la taille des
    dictionnaires (23.000 mots clés MeSH)
  • Application des dictionnaires et transducteurs
  • Mots clés MeSH
  • Qualificatifs MeSH
  • Paires mot clé / qualificatif MeSH

22
MAIF TAL (3) Correction de lindexation
  • Hiérarchie  indexation au plus précis
  • diabète
  • diabète de type II
  • diabète gestationnel
  • diabète de type I
  • report des occurrences de ltdiabètegt vers ses
    fils
  • Associations MC / Q validation et appariement
  • à lintérieur dune même phrase
  • avec les MC les fréquents sinon
  • Calcul de score tfidf
  • Check Tags promus au rang 1 si fréquence gt 2

23
MAIF TAL Bilan
  • Extraction précise des termes apparaissant
    explicitement en corpus
  • Mais silence sur les termes à portée globale
  • ex ltétude comparativegt
  • Nécessité dune autre approche
  • Méthode de classification
  • La norme  indexation  NF Z 47-102, 1978
    souligne limportance des titres

24
Le système MAIF k-PPV, approche des k Plus
Proches Voisins
  • Une ressource est représentée par son titre les
    mots grammaticaux et non significatifs étant
    filtrés, un  sac de mots  est constitué.
  • eg Le diabète de type 1 -gtdiabète, type, 1
  • Similarité avec une autre ressource nombre de
    mots du titre en commun (vs. distance dédition)
  • Candidats à lindexation les mots clés (ou
    paires) utilisés pour indexer les k-PPV, avec un
    score compris entre 1 (le MC appartient à lindex
    dun voisin) et k (le MC appartient à lindex des
    k voisins)

25
MAIF k-PPV bilan
  • Extraction des termes à portée globale
  • Mais fiabilité aléatoire
  • Significativité du titre
  • Disponibilité de voisins réellement proches
  • Nécessité de fusionner les approches TAL et k-PPV

26
Le système MAIF fusion des approches TAL et
k-PPV
  • Score fusionné
  • Importance égale pour les deux approches
  • Rang vs. score relatif résultats équivalents
  • Application de Règles dindexation après fusion
  • Substitution (MeSH)  MC1/Q1 ? MC2 
  • ex ltcœur/TRgt ?lttransplantation cardiaquegt
  • Adjonction (CISMeF)   MC1/Q1 ? MC1/Q1 MC2
    /Q2 
  • ex ltappendicectomiegt ? ltappendicectomiegt
    ltappendicite/SUgt

27
Le système MAIF fusion des approches TAL et
k-PPV fonction de rupture
  • Soit une liste de N candidats à lindexation
    ordonnée en fonction des scores Si décroissants.
  • Le seuil T est
  • Ainsi, seuls les T candidats de rang i1, , T
    sont retenus pour lindex final.

28
Indexation dun texte avec MAIF pré-traitement
29
Indexation dun texte avec MAIFanalyse de
surface, traduction MeSH
30
Indexation dun texte avec MAIF analyse de
surface, traduction MeSH
31
Indexation dun texte avec MAIFappariement des
qualificatifs isolés
  • A lintérieur des phrases
  • Avec les mots clés les plus fréquents

32
Indexation dun texte avec MAIFscores et
post-traitement
  • Hiérarchie
  • Check tags

33
Indexation dun texte avec MAIFrecherche des
Plus Proches Voisins
  • Réduction du risque de diabète de type 2 chez les
    enfants autochtones du Canada
  • Diabète de type 2 ou diabète non
    insulino-dépendant
  • Allergies et hypersensibilités de type 1 chez
    l'enfant et chez l'adulte

34
Indexation dun texte avec MAIFFusion,
sélection de lindex
Indexation Manuelle ltdiabète de type
2gt ltenfantgt ltEtats-Unis d'Amériquegt ltFrancegt ltGran
de Bretagnegt
35
Évaluation de MAIF
  • Corpus de 83 ressources couverture MeSH de
    MAIF-TAL 35
  • Indexation à laide de paires mot clé /
    qualificatif
  • Evaluation de la correction (précision) et de
    lexhaustivité (rappel) du système
  • Une autre évaluation a mis en évidence un
    silence de lindexation manuelle auquel le
    système automatique peut pallier

36
Evaluation des sytèmes dindexation MeSH
Francophones AIME 2005
  • Corpus de 83 ressources couverture MeSH de
    MAIF-TAL 35
  • Indexation à laide de mots clés isolés
  • Pour MeSHMap, les performances sont inférieures
    à celles observées sur des abstracts en anglais
    (vs. Textes intégraux en Français ici)

37
Résultats F-measure / rang(couverture MeSH de
MAIF 35)
38
Résultats F-measure / rang(Couverture MeSH de
MAIF 35)
39
Résultats F-measure / rang (Couverture MeSH de
MAIF 60)
40
Evaluation de MTI et MAIFsur un corpus parallèle
(50 ressources) AMIA 2005
  • MTI offre de meilleures performances
  • Lévaluation a permis une comparaison des
    méthodes dindexation
  • Pour MAIF, lapproche k-PPV est limitée par la
    taille de la base dapprentissage (N14 000 vs.
    10,6 millions pour MTI)

41
Le système MAIF Bilan
  • Le développement de MAIF a permis denrichir les
    ressources terminologiques et de formaliser les
    règles dindexation
  • Le système MAIF
  • Respecte les critères de lindexation manuelle
    (indexation par paires MC/Q, index de taille
    variable, )
  • Peut contribuer à combler le silence de
    lindexation manuelle
  • Evaluation
  • MAIF offre des performances équivalentes ou
    supérieures aux systèmes Francophones existants
  • MTI offre de meilleures performances sur
    langlais, mais MAIF peut apporter des
    améliorations (indexation par paires, fonction de
    rupture)

42
Conclusion Automatisation des tâches
documentaires
43
Conclusion
  • Terminologie Médicale
  • Mise à disposition de la communauté dun
    dictionnaire et dune bibliothèque de
    transducteurs MeSH
  • Indexation MeSH
  • Le système MAIF prouve la faisabilité dune
    indexation automatique MC/Q
  • Evaluation
  • Mise en place dune campagne dévaluation des
    systèmes dindexation MeSH francophones gt
    réflexion sur les outils dévaluation

44
Perspectives
  • Finalisation de lintégration de MAIF dans le
    processus CISMeF
  • Evaluation opérationnelle de lutilisation
    semi-automatique de MAIF par les indexeurs CISMeF
  • évaluation qualitative (précision, impact sur le
    silence de lindexation manuelle)
  • évaluation quantitative (réduction des délais
    dindexation)
  • Amélioration des approches TAL et k-PPV, de la
    fusion
  • Post-Doc NLM
  • Adaptation de lextraction de paires MC/Q MeSH
    dans MTI
  • Application de la fonction de rupture

45
Généralisation des travaux
  • Indexation avec dautres terminologies médicales
    (SP 1ére année de thèse)
  • Intégration de MAIF
  • Application des approches TAL et k-PPV sur
    CIM-10, CCAM et SNOMED (UMLS)
  • Formalisation de règles à laide de transducteurs
  • Application à lanalyse des RCP avec un thésaurus
    du VIDAL
  • Application à lindexation par triplets MC/Q\TR
  • Classification
  • Création dun outil bibliométrique BMC Medical
    Informatics 2006
  • Application  documents proches , et
    illustration cartographique

46
Quelques publications détaillant ces travaux
  • Revues
  • Névéol A., Rogozan A., Darmoni SJ. Automatic
    indexing of health resources in French with a
    controlled vocabulary for the CISMeF catalogue
    IPM 2006
  • Névéol A., Soualmia LF., Douyère M., Rogozan A.,
    Thirion B., Darmoni SJ. Using CISMeF MeSH
    Encapsulated Terminology and a Rule-based
    Algorithm for Health Resources Categorization
    IJMI 2004
  • Darmoni SJ, Névéol A., Renard, JM., Gehano JF.,
    Soualmia LF., Dahamna B., et al. A MEDLINE
    categorization algorithm BMC 2006
  • Conférences internationales
  • Névéol A., Mork JG., Aronson AR., Darmoni SJ.
    Evaluation of French and English MeSH Indexing
    systems with a parallel corpus AMIA 2005
  • Névéol A., Mary, V., Gaudinat, A., Boyer, C.,
    Rogozan, A., Darmoni, SJ. A Benchmark Evaluation
    of the French MeSH Indexing Systems. AIME 2005
  • Conférences Nationales
  • Névéol A., Ozdowska S. Extraction bilingue de
    termes médicaux dans un corpus parallèle
    anglais/français. EGC 2005
  • Névéol A., Douyère M., Rogozan A., Darmoni SJ.
    Construction de ressources terminologiques en
    santé pour un système dindexation automatique
    Journées INTEX/NOOJ 2004

47
Discussion MAIF
  • Les deux méthodes
  • Respectent les critères de lindexation manuelle
    (indexation par paires MC/Q, index de taille
    variable, )
  • Tiennent compte dans une certaine mesure des
    méthodes dindexation manuelle
  • Méthode k-NN
  • Fondée sur les titres (?superficiel?)
  • Non productif (perpétue le silence)
  • Méthode TALN
  • Traite la ressource complète (?trop de détail?)
  • Peut combler les silences de lindexation
    manuelle
  • Fusion lefficacité dépend des résultats k-NN

48
Catégorisation après lindexation
MéthodeNévéol et al. 04, IJMI Grâce aux liens
sémantiques de la terminologie CISMeF les
spécialités Médicales ( métatermes ) sont
inférées de la description dune ressource (MeSH
types de ressource).
Structure de la terminologie CISMeF
49
Résultats sur 125 ressources
  • Précision de 80 , rappel 93
  • Cette méthode est actuellement utilisée pour la
    catégorisation des ressources CISMeF.
  • Pas d'apprentissage préalable
  • Lanalyse des résultats a permis denrichir la
    terminologie (création de nouveaux liens et de
    nouveaux métatermes)
  • Développement dun outil bibliométrique fondé sur
    une méthode similaire Darmoni et al. 05, à
    paraître dans BMC

50
Analyse des résultats dune évaluation
préliminaire (TALN)
  • Check tags
  • Silence de lindexation manuelle -gt valeur
    ajoutée du système
  • Sélection de mots clefs non représentatifs
  • Utilisation de  probabilités de sélection  pour
    pondérer les scores des candidats.
  • Pour chaque terme t, on a

avec R une ressource du catalogue, et IR
lindexation de cette ressource.
51
Extraction Automatique du titre et du format
52
Résultats sur 339 URLs
  • 68 d extractions pertinentes

53
Traduction compositionelle
  • They may care for immunocompromised patients
    (including premature infants)
  • Ils peuvent s'occuper de patients immunodéprimés
    (y compris de bébés prématurés)
  • premature ? prématuré
  • The infant can be vaccinated at birth
  • L'enfant pourra être vacciné après sa naissance
  • birth ? naissance
  • premature birth ? naissance prématurée
Write a Comment
User Comments (0)
About PowerShow.com