Identification automatique des adjectifs relationnels: une tude sur corpus' - PowerPoint PPT Presentation

1 / 31
About This Presentation
Title:

Identification automatique des adjectifs relationnels: une tude sur corpus'

Description:

Nombre et nature des noms entrant en co-occurrence avec les adjectifs. ... Tableau 3: Adjectifs utilis s de fa on attributive ou pr c d s d'un adverbe ... – PowerPoint PPT presentation

Number of Views:254
Avg rating:3.0/5.0
Slides: 32
Provided by: MANI154
Category:

less

Transcript and Presenter's Notes

Title: Identification automatique des adjectifs relationnels: une tude sur corpus'


1
Identification automatique des adjectifs
relationnels une étude sur corpus.
  • François Maniez
  • Centre de Recherche en Terminologie et en
    Traduction
  • Université Lumière Lyon 2.maniezf_at_univ-lyon2.fr

2
  • 1. Introduction
  • 2. Méthodes didentification des adjectifs
    relationnels
  • 2.1. Nombre et nature des noms entrant en
    co-occurrence avec les adjectifs.
  • 2.2. Nombre de substantifs morphologiquement liés
    à ladjectif dans un corpus de taille supérieure.
  • 2.3. Critères syntaxiques
  • 2.4. Critères sémantiques
  • 3. Conclusion

3
  • Identification des candidats-termes grâce à
    lutilisation de patrons syntaxiques récurrents
  • En anglais, la plupart des termes de longueur 2
    sont soit de forme Nom Nom soit de forme
    Adjectif Nom.

4
  • Le patron Adjectif Nom génère beaucoup de bruit
    en extraction terminologique
  • Exemple myocardial infarction est un terme
    médical, mais pas numerous patients.
  • Les adjectifs relationnels (essentiellement
    dénominaux) constituent la majorité des adjectifs
    de la terminologie médicale.

5
  • Lidentification automatique des adjectifs
    relationnels sert deux buts
  • lidentification automatique de candidats-termes
  • la détermination de lensemble complémentaire
    (adjectifs qualificatifs), qui peut permettre
    didentifier les collocations de la langue
    générale et du vocabulaire de la recherche
    scientifique

6
Corpus utilisé
  • Partie anglaise dun corpus bilingue aligné
    composé de 58 articles de recherche médicale
    traduits de langlais vers le français (articles
    publiés dans le Journal of the American Medical
    Association)
  • 270 000 mots

7
2. Méthodes didentification des adjectifs
relationnels
  • 2.1. Nombre et nature des noms entrant en
    co-occurrence avec les adjectifs.
  • Sur un corpus de faible taille, ce critère peut
    être utilisé en combinaison avec dautres
    critères, mais sa spécificité semble insuffisante
    pour quil soit utilisé seul, en raison du grand
    nombre de valeurs médianes observées.

8
Tableau 1 Adjectifs les plus fréquents du
corpus Cardio.
9
  • Statut dadjectif relationnel
  • pas dutilisation attributive
  • dérivation à partir dun nom
  • Ces critères éliminent certains adjectifs du
    domaine spécialisé
  • The tumor is malignant.
  • malignant ? malignancy

10
Problèmes liés au critère de dénominalisation
  • Affaiblissement du lien sémantique entre nom et
    adjectif (clinic ? clinical)
  • Absence de relation morphologique
  • dental ? tooth, cardiac ? heart.
  • Certains adjectifs ont un double statut
  • Physical examination
  • Their relationship is purely physical.
  • Substantivisation
  • antibiotic treatment.

11
2.2. Nombre de noms dun corpus de contrôle ayant
un lien morphologique avec ladjectif
  • Utilisation dun  monitor corpus  d1,2 million
    de mots.
  • Le critère est de bonne précision pour les
    adjectifs de haute fréquence demploi, mais
  • Certains adjectifs sont exclus du rappel
    (coronary, antihypertensive)
  • La méthode est difficilement automatisable en
    raison de la suffixation et des variations à la
    dérivation (vein? venous)

12
Tableau 2 Nombre et fréquence des noms ayant un
lien morphologique dans le corpus de contrôle.
13
2.3. Critères syntaxiques
  • 2.3.1. Présence des adjectifs à la suite
    dadverbes
  • Lanalyse automatique ne peut pas toujours
    déterminer avec certitude la portée dune
    modification adverbiale
  • (1) Several measures have been used to assess the
    relative distribution of body fat, including
    skinfold measurements, which assess primarily
    subcutaneous fat distribution, .

14
  • Certains adjectifs du domaine spécialisé ont des
    emplois qualificatifs
  • (2) Erythromycin is less bactericidal and less
    well absorbed than amoxicillin.
  • (3) Offspring with dense LDL displayed a more
    atherogenic type of lipoprotein profile.
  • (4) Two of the current NTL ICD systems described
    above are still investigational.

15
  • Les erreurs détiquetage morpho-syntaxique
    diminuent le rappel
  • (5) The usual diet was associated with more
    erectile dysfunction in men.

16
2.3.2. Présence dadjectifs à la suite de formes
du verbe to be
  • Certains adjectifs formés à partir de noms de
    pathologies sont fréquemment utilisés pour
    qualifier les patients qui en sont atteints
  • (6) Guntheroth then showed that 40 of
    patients are bacteremic just after dental
    extractions.
  • (7) This entity was noted in siblings who were
    hypertensive and who also had a marked
    concordance for dyslipidemia.

17
  • Cas des structures inversives
  • (12) Of particular interest is endothelium-derived
    relaxing factor (EDRF).
  • (13) Among the risks associated with antibiotics
    are gastrointestinal tract upset, colonization of
    resistant and/or fungal strains, cross-reactions
    with other drugs (e.g. with birth control pills
    ), allergy, anaphylaxis, and even death.

18
2.3.3. Combinaison des deux méthodes
  • Bonne précision, mais faible rappel
  • La proportion dusages qualificatifs par rapport
    aux usages relationnels doit être prise en compte
    (predictive 16/84)

19
Tableau 3 Adjectifs utilisés de façon
attributive ou précédés dun adverbe
20
2.3.4. Identification des structuresADJ1-ADJ2-N
  • Les adjectifs relationnels ne sont pas séparés du
    nom quils modifient par un adjectif
    qualificatif
  • (14) This is not to say that one should not
    perform a complete neurological examination,
    rather that one should make sure that the basics
    are covered first.
  • (15) This is not to say that one should not
    perform a neurological complete examination

21
Tableau 4  Adjectifs utilisés en position dADJ2
dans les séquences ADJ1-ADJ2-N
22
Sélection des ADJ2
  • 63 adjectifs de fréquencegt1
  • 6 adjectifs appartiennent également à la langue
    générale ou à dautres domaines spécialisés
    (adverse, collateral, combined, human, initial,
    prospective)
  • 12 (19) ne sont pas dénominaux

23
  • La méthode permet disoler 30 des 31 adjectifs
    relationnels les plus fréquemment utilisés
    (rappel de 96,8)
  • Sa précision peut être améliorée par un deuxième
    filtre faisant entrer en ligne de compte le
    pourcentage demplois prénominaux par rapport aux
    emplois comme attribut.

24
Quelques problèmes en suspens
  • Nécessité dun étiqueteur morphologique fiable
  • N ? ADJ (anesthetic, antibiotic, patient,
    relative)
  • V ? ADJ (alternate)
  • Élimination des adjectifs composés
    (disease-free, double-blind, drug-related,
    flow-limiting, placebo-controlled)

25
  • Les adjectifs en position ADJ1 ne sont pas
    systématiquement des adjectifs qualificatifs
  • aortic valvular heart disease
  • focal neurological deficit
  • tuberous planar and tendinous xanthomas

26
  • ADV-ADJ1-ADJ2-N est un schéma qui semble
    infirmer la règle de lADJ2 relationnel
  • a relatively common inborn error in lipoprotein
    metabolism
  • the most important single predictors of
    independence
  • the most common serious neurological disorder

27
  • Limbrication des termes provoque des erreurs de
    découpage
  • the relatively benign natural history of DVT
  • isolated right heart failure
  • dental procedure-induced infective endocarditis

28
  • Ajout dun suffixe adjectival à lensemble dun
    GN
  • coronary arterial vasospasm ( vasospasm of the
    coronary arteries
  • jugular venous pressure ( pressure of the
    jugular veins)
  • inferior vena caval obstruction ( obstruction
    of the inferior vena cava).

29
2.4. Critères sémantiques
  • expression de la notion de temps (fréquence,
    vitesse, ordre chronologique) current, daily,
    frequent, original, previous, progressive,
    prompt, recent, rare, subsequent.
  • expression du degré  absolute, complete,
    considerable, extensive, important, significant.
  • expression de la quantité  additional,
    cumulative, numerous, various.
  • expression dun jugement qualitatif adequate,
    appropriate, defective, effective, negative,
    positive.
  • expression dune modalité épistémique eventual,
    potential.

30
  • Cette liste peut être complétée par lajout de
    critères morphologiques
  • participes passés diminished, improved,
    increased, shortened
  • adjectifs monosyllabiques deep, high, low,
    new, rare
  • comparatifs et superlatifs

31
Conclusion
  • Le bon taux de rappel du schéma ADJ1-ADJ2-N
    doit être confirmé à plus grande échelle.
  • Le taux de précision sera probablement amélioré
    par la prise en compte du ratio attributive /
    predicative
  • Possibilité dutiliser lensemble des noms en
    co-occurrence des ADJ2 comme filtre pour
    lextraction dautres candidats-termes (patron
    syntaxique N-N)
Write a Comment
User Comments (0)
About PowerShow.com