Fouille de textes : Extraction It - PowerPoint PPT Presentation

1 / 28
About This Presentation
Title:

Fouille de textes : Extraction It

Description:

Journ es de l'Ecole Doctorale 2003. Journ e de l'Ecole Doctorale 2003. 2. Axe ' fouille de ... Journ e de l'Ecole Doctorale 2003. 4. Approche globale. Corpus brut ... – PowerPoint PPT presentation

Number of Views:51
Avg rating:3.0/5.0
Slides: 29
Provided by: dsa0
Category:

less

Transcript and Presenter's Notes

Title: Fouille de textes : Extraction It


1
Fouille de textes Extraction Itérative de la
Terminologie
  • Mathieu ROCHE
  • (Équipe IA-TAO du LRI)
  • 12 novembre 2003
  • Journées de lEcole Doctorale 2003

2
Axe fouille de textes de léquipe IA-TAO
  • Yves Kodratoff
  • Ahmed Amrani
  • Jérôme Azé
  • Thomas Heitz
  • Oriane Matte-Tailliez
  • Mathieu Roche

3
Plan de lexposé
  • Approche globale
  • EXIT EXtraction Itérative de la Terminologie
  • La méthode utilisée
  • Lévaluation des résultats
  • Conclusion et perspectives

4
Approche globale
5
Étape 1 Nettoyage
  • Description du corpus

La question biologique Comprendre
lorganisation, la dynamique des protéines qui
interagissent directement avec lADN, chez la
levure Saccharomyces cerevisiae.
MEDLINE - NCBI
DNA-binding proteins Yeast ? 6000 textes (10 Mo)
6000 résumés darticles CORPUS
6
Étape 1 Nettoyage
  • Nettoyage lié au format du corpus

7
Étape 1 Nettoyage
  • Uniformisation du corpus
  • Règles
  • Grâce à une liste de près de 2000 alias de gènes
    associés à leur nom générique, nous avons
    remplacé ces alias par leur nom générique.
  • Ex ISE1, LIS1, SED6 ? ERG6

alias
8
Étape 2 Étiquetage
Étiqueteur grammatical
Corpus étiqueté
Corpus nettoyé
The modulation of the biological activities of
mitochondrial histone Abf2-protein ...
9
Étape 2 Étiquetage
Étiqueteur grammatical
Corpus étiqueté
Corpus nettoyé
ETIQ Application pour adapter létiquetage de
Brill à des textes spécialisés (Ahmed AMRANI).
10
Étape 3 EXIT (Extraction Itérative de la
Terminologie)
  • Termes extraits
  • Nom-Nom
  • Adjectif-Nom
  • Nom-Préposition-Nom
  • Nom-verbe_gérondif
  • Formule-Nom

11
Étape 4 Détection de traces de concepts
  • Exemple de traces de concepts en biologie

TRANSCRIPTION
TRANSCRIPTION REGULATION
TRANSCRIPTION INITIATION
TRANSCRIPTION- ACTIVATOR-GENE
TRANSCRIPTION INITIATION MACHINERY
TFIID-complex SAGA-complex
MSN4 MSN2
12
Étape 4 Détection de traces de concepts
  • Exemples dinstances de concepts
  • (bendingSujet,influenceVerbe) Bendng
  • transcription-factor Regulfactor
  • Caractérisation des traces de concepts dans les
    textes
  • utilisation du logiciel de visualisation ROWAN
  • induction en extension sur les concepts

13
Étape 5 Extraction dinformations
  • Extraction d'informations par patrons
    d'extraction
  • Exemple
  • MSN2 encodes a zinc-finger transcriptional
    activator , ...
  • MSN4 encodes a DNA-binding component of the
    stress responsive system , ...

2 patrons d'extraction sont nécessaires pour
rechercher la spécificité des protéines codées
par les gènes de régulation de transcription
? MSN2 encodes SpécificitéFacteur ? MSN4
encodes SpécificitéFacteur
14
Étape 5 Extraction dinformations
  • Extraction d'informations par patrons
    d'extraction
  • Exemple
  • MSN2 encodes a zinc-finger transcriptional
    activator , ...
  • MSN4 encodes a DNA-binding component of the
    stress responsive system , ...

1 seul patron d'extraction suffit pour rechercher
la spécificité des protéines codées par les
gènes de régulation de transcription avec la
connaissance sémantique. ? TranscriptionActivit
or encodes SpécificitéFacteur
15
Étape 5 Extraction dinformations
  • Extraction de règles dassociations Kodratoff et
    al., 2003

(bendingSujet,influenceVerbe) Bendng DNA-duplex
DNAconformatn transcription-factor
Regulfactor gal4-binding
Regulfactor interaction-with-TFIIB
Transcriptn
Bendng, DNAconformatn, Regulfactor ? Transcriptn
16
Approche globale
17
EXIT la méthode utilisée (1/5)
Étiqueteur grammatical
Corpus étiqueté
Corpus nettoyé
Extraction des collocations
Sélection des meilleurs collocations
DNA binding TATA binding binding
motif transcription factor
insertion mutation hydrogen peroxide DNA
binding SH2 domain
18
EXIT la méthode utilisée (2/5)
  • Une méthode statistique
  • Information Mutuelle Church et Hanks, 1990

19
EXIT la méthode utilisée (3/5)
  • Une méthode statistique
  • Rapport de vraisemblance Dunning, 1993
  • RV a log(a) b log(b) c log(c)
  • d log(d) - (ab) log(ab) - (ac) log(ac)
  • - (bd) log(bd) - (cd) log(cd)
  • (abcd) log(abcd)

y y' avec y' ? y
x a b
x' avec x' ? x c d
20
EXIT la méthode utilisée (4/5)
  • Paramètres ajoutés Roche, 2003
  • Privilégier les termes qui apparaissent dans des
    textes différents.

21
EXIT la méthode utilisée (5/5)
  • Interface développée en Java par Thomas Heitz

22
EXIT évaluation des résultats (1/5)
  • La précision

23
EXIT évaluation des résultats (2/5)
  • Les courbes délévation ( lift chart )
    variation de la précision en fonction du nombre
    de termes proposés à lexpert

24
EXIT évaluation des résultats(3/5)
  • Le rappel

Impossible à calculer !!
25
EXIT évaluation des résultats(4/5)
  • Comparaison de mesures Roche et al., 2003

26
EXIT évaluation des résultats(5/5)
  • Courbes délévation avec linformation mutuelle
    et le rapport de vraisemblance

27
Conclusion et perspectives
  • Expérimenter les mesures dinduction mises en
    place
  • Étudier les textes entiers.

28
Approche globale
Write a Comment
User Comments (0)
About PowerShow.com