Title: Identification automatique des adjectifs relationnels: une tude sur corpus'
1Identification automatique des adjectifs
relationnels une étude sur corpus.
- François Maniez
- Centre de Recherche en Terminologie et en
Traduction - Université Lumière Lyon 2.maniezf_at_univ-lyon2.fr
2- 1. Introduction
- 2. Méthodes didentification des adjectifs
relationnels - 2.1. Nombre et nature des noms entrant en
co-occurrence avec les adjectifs. - 2.2. Nombre de substantifs morphologiquement liés
à ladjectif dans un corpus de taille supérieure. - 2.3. Critères syntaxiques
- 2.4. Critères sémantiques
- 3. Conclusion
3- Identification des candidats-termes grâce à
lutilisation de patrons syntaxiques récurrents - En anglais, la plupart des termes de longueur 2
sont soit de forme Nom Nom soit de forme
Adjectif Nom.
4- Le patron Adjectif Nom génère beaucoup de bruit
en extraction terminologique - Exemple myocardial infarction est un terme
médical, mais pas numerous patients. - Les adjectifs relationnels (essentiellement
dénominaux) constituent la majorité des adjectifs
de la terminologie médicale.
5- Lidentification automatique des adjectifs
relationnels sert deux buts - lidentification automatique de candidats-termes
- la détermination de lensemble complémentaire
(adjectifs qualificatifs), qui peut permettre
didentifier les collocations de la langue
générale et du vocabulaire de la recherche
scientifique
6Corpus utilisé
- Partie anglaise dun corpus bilingue aligné
composé de 58 articles de recherche médicale
traduits de langlais vers le français (articles
publiés dans le Journal of the American Medical
Association) - 270 000 mots
72. Méthodes didentification des adjectifs
relationnels
- 2.1. Nombre et nature des noms entrant en
co-occurrence avec les adjectifs. - Sur un corpus de faible taille, ce critère peut
être utilisé en combinaison avec dautres
critères, mais sa spécificité semble insuffisante
pour quil soit utilisé seul, en raison du grand
nombre de valeurs médianes observées.
8Tableau 1 Adjectifs les plus fréquents du
corpus Cardio.
9- Statut dadjectif relationnel
- pas dutilisation attributive
- dérivation à partir dun nom
- Ces critères éliminent certains adjectifs du
domaine spécialisé - The tumor is malignant.
- malignant ? malignancy
10Problèmes liés au critère de dénominalisation
- Affaiblissement du lien sémantique entre nom et
adjectif (clinic ? clinical) - Absence de relation morphologique
- dental ? tooth, cardiac ? heart.
- Certains adjectifs ont un double statut
- Physical examination
- Their relationship is purely physical.
- Substantivisation
- antibiotic treatment.
112.2. Nombre de noms dun corpus de contrôle ayant
un lien morphologique avec ladjectif
- Utilisation dun monitor corpus d1,2 million
de mots. - Le critère est de bonne précision pour les
adjectifs de haute fréquence demploi, mais - Certains adjectifs sont exclus du rappel
(coronary, antihypertensive) - La méthode est difficilement automatisable en
raison de la suffixation et des variations à la
dérivation (vein? venous)
12Tableau 2 Nombre et fréquence des noms ayant un
lien morphologique dans le corpus de contrôle.
132.3. Critères syntaxiques
- 2.3.1. Présence des adjectifs à la suite
dadverbes - Lanalyse automatique ne peut pas toujours
déterminer avec certitude la portée dune
modification adverbiale - (1) Several measures have been used to assess the
relative distribution of body fat, including
skinfold measurements, which assess primarily
subcutaneous fat distribution, .
14- Certains adjectifs du domaine spécialisé ont des
emplois qualificatifs - (2) Erythromycin is less bactericidal and less
well absorbed than amoxicillin. - (3) Offspring with dense LDL displayed a more
atherogenic type of lipoprotein profile. - (4) Two of the current NTL ICD systems described
above are still investigational.
15- Les erreurs détiquetage morpho-syntaxique
diminuent le rappel - (5) The usual diet was associated with more
erectile dysfunction in men.
162.3.2. Présence dadjectifs à la suite de formes
du verbe to be
- Certains adjectifs formés à partir de noms de
pathologies sont fréquemment utilisés pour
qualifier les patients qui en sont atteints - (6) Guntheroth then showed that 40 of
patients are bacteremic just after dental
extractions. - (7) This entity was noted in siblings who were
hypertensive and who also had a marked
concordance for dyslipidemia.
17- Cas des structures inversives
- (12) Of particular interest is endothelium-derived
relaxing factor (EDRF). - (13) Among the risks associated with antibiotics
are gastrointestinal tract upset, colonization of
resistant and/or fungal strains, cross-reactions
with other drugs (e.g. with birth control pills
), allergy, anaphylaxis, and even death.
182.3.3. Combinaison des deux méthodes
- Bonne précision, mais faible rappel
- La proportion dusages qualificatifs par rapport
aux usages relationnels doit être prise en compte
(predictive 16/84)
19Tableau 3 Adjectifs utilisés de façon
attributive ou précédés dun adverbe
202.3.4. Identification des structuresADJ1-ADJ2-N
- Les adjectifs relationnels ne sont pas séparés du
nom quils modifient par un adjectif
qualificatif - (14) This is not to say that one should not
perform a complete neurological examination,
rather that one should make sure that the basics
are covered first. - (15) This is not to say that one should not
perform a neurological complete examination
21Tableau 4 Adjectifs utilisés en position dADJ2
dans les séquences ADJ1-ADJ2-N
22Sélection des ADJ2
- 63 adjectifs de fréquencegt1
- 6 adjectifs appartiennent également à la langue
générale ou à dautres domaines spécialisés
(adverse, collateral, combined, human, initial,
prospective) - 12 (19) ne sont pas dénominaux
23- La méthode permet disoler 30 des 31 adjectifs
relationnels les plus fréquemment utilisés
(rappel de 96,8) - Sa précision peut être améliorée par un deuxième
filtre faisant entrer en ligne de compte le
pourcentage demplois prénominaux par rapport aux
emplois comme attribut.
24Quelques problèmes en suspens
- Nécessité dun étiqueteur morphologique fiable
- N ? ADJ (anesthetic, antibiotic, patient,
relative) - V ? ADJ (alternate)
- Élimination des adjectifs composés
(disease-free, double-blind, drug-related,
flow-limiting, placebo-controlled)
25- Les adjectifs en position ADJ1 ne sont pas
systématiquement des adjectifs qualificatifs - aortic valvular heart disease
- focal neurological deficit
- tuberous planar and tendinous xanthomas
26- ADV-ADJ1-ADJ2-N est un schéma qui semble
infirmer la règle de lADJ2 relationnel - a relatively common inborn error in lipoprotein
metabolism - the most important single predictors of
independence - the most common serious neurological disorder
27- Limbrication des termes provoque des erreurs de
découpage - the relatively benign natural history of DVT
- isolated right heart failure
- dental procedure-induced infective endocarditis
28- Ajout dun suffixe adjectival à lensemble dun
GN - coronary arterial vasospasm ( vasospasm of the
coronary arteries - jugular venous pressure ( pressure of the
jugular veins) - inferior vena caval obstruction ( obstruction
of the inferior vena cava).
292.4. Critères sémantiques
- expression de la notion de temps (fréquence,
vitesse, ordre chronologique) current, daily,
frequent, original, previous, progressive,
prompt, recent, rare, subsequent. - expression du degré absolute, complete,
considerable, extensive, important, significant. - expression de la quantité additional,
cumulative, numerous, various. - expression dun jugement qualitatif adequate,
appropriate, defective, effective, negative,
positive. - expression dune modalité épistémique eventual,
potential.
30- Cette liste peut être complétée par lajout de
critères morphologiques - participes passés diminished, improved,
increased, shortened - adjectifs monosyllabiques deep, high, low,
new, rare - comparatifs et superlatifs
31Conclusion
- Le bon taux de rappel du schéma ADJ1-ADJ2-N
doit être confirmé à plus grande échelle. - Le taux de précision sera probablement amélioré
par la prise en compte du ratio attributive /
predicative - Possibilité dutiliser lensemble des noms en
co-occurrence des ADJ2 comme filtre pour
lextraction dautres candidats-termes (patron
syntaxique N-N)