Title: Mmoire de Matrise en Sciences du Langage, mention Industries de la Langue
1Mémoire de Maîtrise en Sciences du Langage,
mention Industries de la Langue
- Les suffixes de dérivation verbale en finnois
une approche en Traitement Automatique du Langage - Présenté le 20 septembre 2002 par Marie CALBERG
- Sous la direction de
- M.M.Jocelyne FERNANDEZ-VEST et Serge FLEURY
2Sommaire
- Hypothèse de départ
- Linguistica
- Le finnois
- La dérivation
- Les suffixes de dérivation
- Productivité et créativité
- Constitution du corpus
- Normalisation des corpus avec XML
- illustration du texte de la bande dessinée
Astérix au format initial - illustration du texte de la bande dessinée
Astérix au format XML
3Sommaire
- Etiquetage
- illustration dun étiqueteur morpho-syntaxique
- Repérage des formes avec Xpath
- illustration des commandes XPath
- Extraction et marquage des suffixes avec Perl
- Résultats de lexécution du programme
- Conclusion
- Perspectives
4Hypothèse de départ
- La dérivation est un phénomène très important en
finnois - Notre hypothèse de départ est de voir sil existe
une corrélation entre lemploi des suffixes de
dérivation verbale et la nature dun texte que le
Traitement Automatique des langues pourrait nous
aider à dégager. - L emploi des suffixes de dérivation est-il plus
important dans les textes littéraires? - Sont-ils peu présents à loral ou en oral simulé?
- Y-a-t-il un plus faible emploi des suffixes de
dérivation dans les textes de lUnion Européenne? - Certains suffixes de dérivation sont-ils plus
fréquents dans certains types de texte?
5LINGUISTICAhttp//humanities.uchicago.edu/faculty
/goldsmith.Linguistica2000
6Le finnois
- Langue avec 15 cas de déclinaison
- (nominatif, génitif, accusatif, essif,
translatif, partitif, inessif, élatif, illatif,
adessif, ablatif, allatif, abessif, instructif et
comitatif) - Lopposition de longueur
- ex Tule tänne (Viens ici) Pekka
tullee (Pekka viendra) - Lalternance consonantique /p,t,k/
- ex kk k kukka kukan (la/une fleur)
- Lharmonie vocalique
- voyelles postérieures a-o-u et voyelles
antérieures ä-ö-y - Lagglutination
- ex kahvi/la/ssa/han (dans le/un café à
lévidence) - Le synthétisme
7La dérivation
- La dérivation consiste en lagglutination
déléments lexicaux, dont un au moins nest pas
susceptible demploi indépendant. - ex re/faire et malheur/eux
- Distinction entre préfixes et suffixes
- Les suffixes sont des morphèmes à laide desquels
on forme, à partir dun thème déjà existant, un
autre mot. - Le suffixe de dérivation verbale sajoute
directement au thème et il précède ainsi les
désinences et les particules énonciatives. - ex onni (le bonheur) -gt onne/ton
(malheureux) racine
thème/dérivé
8Les suffixes de dérivation (1)
- Les dérivés nominaux dénominatifs
- dérivés donnant des noms de lieux
- dérivés donnant un sens collectif
- dérivés donnant un sens abstrait de qualité
- dérivés diminutifs ou hypocoristiques
- dérivés dadjectivation
- dérivés indiquant la présence importante dune
qualité - dérivés privatifs
- dérivés de caractérisation
- dérivés atténuatifs
9Les suffixes de dérivation (2)
- Les dérivés nominaux déverbatifs
- dérivés factitifs
- dérivés transformatifs
- dérivés duratifs ou continuatifs
- Les dérivés verbaux dénominatifs
10Les suffixes de dérivation (3)
- Les dérivés causatifs ils indiquent que lon
fait faire à quelquun une action exprimée par la
base - ex lukea (lire) gt lue/tta/a (faire lire)
- Les dérivés sémelfactifs ou daspect momentané
ils expriment une action ou un événement soudain - ex kysyä (demander) gt kys/äistä (poser
une question) - Les dérivés réfléchis, passifs ils indiquent
que le sujet accomplis sur lui-même une action - ex kaunistaa (rendre beau) gt
kaunis/tu/a (s embellir) - Les dérivés fréquentatifs et continuatifs ils
indiquent une action qui se répète - ex oppia (apprendre) gt opi/skell/a
(faire des études)
11Productivité et créativité
- La productivité est laptitude à produire de
nouvelles formes à partir de modèles familiers
aux locuteurs. - La créativité est laptitude dun sujet parlant
à produire spontanément et à comprendre un nombre
infini de mots quil na jamais entendu
auparavant . Dubois et al, 1994
12Constitution du corpus
- La notion de corpus Un corpus est une
collection de données langagières qui sont
sélectionnées et organisées selon des critères
linguistiques explicites pour servir
déchantillon du langage. Sinclair, 1996 - Les différents types de corpus
- le corpus de référence
- le corpus spécialisé
- les corpus comparables
- les corpus ou collections comparables
- Quel type de corpus avons-nous constitué?
13Normalisation des corpus avec XML
- Le format initial
- Les articles de Vesá Siren
- Le traité de lUnion Européenne
- La bande dessinée Astérix
- Le lièvre de Vatanen
- Le format de travail avec XML
14Texte de la bande dessinée Astérix au format texte
15Texte de la bande dessinée Astérix au format XML
16Etiquetage
- Quest-ce quun étiquetage morpho-syntaxique?
- Etiqueter un texte, cest associer à des segments
de texte, les plus souvent les mots , une ou
plusieurs étiquettes, comme leur catégorie
grammaticale voire leur lemme. Létiqueteur
associe des informations ou des étiquettes aux
mots et le choix des étiquettes varie en fonction
de la recherche à effectuer. - Les différents types détiquetage?
- Pourquoi un étiquetage manuel?
17Illustration dun étiqueteur morpho-syntaxique
18Repérage des formes avec XPath
- Xpath est un langage non-XML utilisé pour étudier
des parties particulières dun document XML. - Xpath permet de sélectionner des noeuds ou des
ensembles de noeuds dans l arborescence dun
document XML. - Lexpression Xpath la plus utile est le chemin de
localisation
19Illustration des commandes XPath
20Extraction et marquage des suffixes avec Perl
21Résultats de lexécution du programme
22Conclusion
- Constitution du corpus
- Normalisation
- Etiquetage
- Emploi plus important des suffixes causatifs dans
le Traité de lUnion Européenne - Emploi plus important des suffixes réfléchis dans
la bande dessinée Astérix - Emploi très important des suffixes de dérivation
verbale dans les articles de Vesá Siren et dans
le lièvre de Vatanen
23Perspectives (1)
- Elargir la recherche sur un corpus plus
volumineux - Faire une analyse pour les autres types de
suffixes de dérivation - Faire une analyse pragmatique et contextuelle des
suffixes de dérivation verbale - Enrichir le corpus avec d autres types de texte
- Créer des programmes d analyse des suffixes de
dérivation - Sintéresser à la traduction français-finnois
dans une perspective de traduction automatique
24Perspectives (2)
- Ce travail sera présenté lors du VIe colloque
contrastif Français-Finnois Entre les deux
rives à l Université de Helsinki les 27 et 28
septembre 2002 sous le titre suivant Les
suffixes de dérivation verbale en finnois et
leurs équivalents français - Approche en
Traitement Automatiques des Langues (TAL)