Typologies linguistiques et identification automatique des langues : vers des typologies automatiques ?

About This Presentation

Title:

Typologies linguistiques et identification automatique des langues : vers des typologies automatiques ?

Description:

Alignement phon tique des lexiques (distance d' dition : nb insertions/d letions, ... Alignement automatique HTK (transcription orthographique connue) ... – PowerPoint PPT presentation

Number of Views:685

Avg rating:3.0/5.0

Slides: 52

Provided by: FP72

Category:

more less

Transcript and Presenter's Notes

Title: Typologies linguistiques et identification automatique des langues : vers des typologies automatiques ?

1
Typologies linguistiquesetidentification
automatique des langues vers des typologies
automatiques ?

François Pellegrino
Francois.Pellegrino_at_univ-lyon2.frLaboratoire
Dynamique Du Langage
UMR 5596 CNRS Université Lumière Lyon 2
Ecole thématique VPL - Cargèse juin 2006

2
Typologies automatiques ??

Typology(ies) 8 millions de hits sous
Google
Automatic 470 M.
Automatic typology(ies) 21 hits
Moitié télédétection spatiale
Moitié DDL ou assimilés

Merci de votre attention...
gt une utopie !
3
Plan

Introduction
la rencontre espérée entre la typologie et la
modélisation automatique
Partie I létat des lieux
Des données typologiques à la reconnaissance des
langues
Des modèles automatiques à leur interprétation
linguistique
Partie II la prosodie, terrain dinvestigation
Introduction
La dimension rythmique
Typologie modélisation automatique
La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions

4
Indice 1 Indice 1
A B
Indice 2 a
Indice 2 b
Analyselinguistique
Données audio Données textuelles
Descriptionslinguistiques
Typologies linguistiques
Analyseautomatique
Perspective historique
Audio
Textes
Interface Typologie automatique
Alignementou codage en cognats
Données lexicales
Analyse statistique
Corpus textuels
Identification automatiquedes langues
Modèles phonétiques, phonotactiques, prosodiques
5
Plan

Introduction
la rencontre espérée entre la typologie et la
modélisation automatique
Partie I létat des lieux
Des données typologiques à la reconnaissance des
langues
Des modèles automatiques à leur interprétation
linguistique
Partie II la prosodie, terrain dinvestigation
Introduction
La dimension rythmique
Typologie modélisation automatique
La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions

6
Les bases de donnees typologiques

Caveat
Représentativité des langues
Qualité des données primaires
Consistance/cohérence inter-langues des données
Biais danalyse lié au cadre théorique choisi
De formidables outils
Plusieurs centaines de langues
UPSID (UCLA Phonological Segment Inventory
Database)
ULSID (UCLA Lexical and Syllabic Inventory
Database)
WALS (World Atlas of Language Structures)
AUTOTYP
à exploiter automatiquement

7
Bases de donnees typologiquesUPSID/CaSSoPI
UCLA Phonological Segment Inventory Database
Maddieson, (1984) Maddieson and Precoda (1990)

V 102/451 - 23
V? 51/451 - 11
Both 11/451 - 2.4
Identification des langues
Corrélations phonologiques

8
Bases de donnees typologiquesUPSID/CaSSoPI

Utilisation pour rechercher des indices
pertinents
Hombert Maddieson, (1998)
Indices discriminants et détectables
automatiquement
Contraste dental vs. labio-dental /?/ vs. /?/
/?/ vs. /?/ discriminant détectable
Clicks discriminant détectable
Limites
Comment modéliser ces indices ?
Évaluer leur incidence dans la parole réelle
(probabilité d'apparition)
Des inventaires phonologiques à la parole
Prises en compte de processus phonologiques ou
phonétiques
Anglais pas de voyelles nasales phonologiques
pourtant sable /s?nd/ (phonologique) est
prononcé s??d (phonétique)
Incidence statistique moins grande ?
Conclusion
Détection des traits rares potentiellement
intéressante
Non encore exploitée automatiquement
Prise en compte de l'incidence des traits
fondamentale
Ohala, Marsico, 2001, "Differentiating phonetic
from phonological events in speech"

9
Bases de donnees typologiquesWALS
Haspelmath et al. (2005)

2,600 langues
140 caractéristiques (670 types)
phono-morpho-syntaxiques
60,000 données (sur 364 000 potentielles)

10
Bases de donnees typologiquesWALS distances
typologiques
Extrait de Michael Cysouw, (2006), transparent 21.
11
Bases de donnees typologiquesConclusions

BD fondamentales pour des recherches
linguistiques
Tendances universelles
Caractéristiques aréales, historiques,
universelles
Mais encore peu utiles pour lidentification
automatique
Niveaux morpho-syntaxiques hors datteinte des
analyses automatiques translinguistiques
Difficulté à prendre en compte des phénomènes
phonétiques fins
Problème de la distinction entre phénomène
phonétique et phonologique
MAIS analyse typologique peut proposer des pistes
Incidence de traits (aspiration, friction,
contrastes de durée)

12
Plan

Introduction
la rencontre espérée entre la typologie et la
modélisation automatique
Partie I létat des lieux
Des données typologiques à la reconnaissance des
langues
Des modèles automatiques à leur interprétation
linguistique
Partie II la prosodie, terrain dinvestigation
Introduction
La dimension rythmique
Typologie modélisation automatique
La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions

13
Classification des languesa partir de donnEes
textuelles

Visée historique le calcul darborescences de
langues
À partir de données lexicales (listes de Swadesh,
etc.)
Lexique de base supposé peu sujet aux emprunts
(chiffres, parentèle, etc.)
2 approches pour estimer les distances
inter-langues
Taux de partage de cognats (codage manuel,
attention aux emprunts !)
Alignement phonétique des lexiques (distance
dédition nb insertions/déletions,
remplacements)
Méthodologies empruntées à la bioinformatique
(génomique)
Construction darbres ou de réseaux

Bryant et al. (2005)
Gray, Atkinson (2003)
14
identification automatique des languesa partir
de donnees textuelles

Identification automatique des langues
À partir de corpus textuels (journaux, mails,
etc.)
Approches par comptage statistique
(cooccurrences)
Un problème... peu problématique
Grands corpus disponibles (pour langues à
tradition écrite)
Caractère discret des inputs
Une validité linguistique indéniable

Damashek, (1995)
15
Classification/identification des languesa
partir de donnees textuellesConclusion

Des méthodes diverses
Cooccurrences (identification à partir de corpus)
Distances (reconstruction d'arbres de proximité)
Cognats
Alignements
Une interprétation linguistique possible
Prise en compte du lexique et de la morphosyntaxe

16
Lidentification automatique des langues a partir
de donnees parlees

Caveat
Relativement peu de langues prises en compte
(quelques dizaines au mieux)
Langues non représentatives en termes
typologiques (choix dicté par lapplication ou
par la disponibilité des données)
Prise en compte de la variabilité intra-langue
(parlers, accents, dialectes) balbutiante
Une affaire déchelle
Comment définir une langue, un dialecte, etc. ?
Intercompréhension complète ?
Intercompréhension immédiate ?
Taux de lexique partagé ?

17
Id. auto. langues parleesLes approches

Approche acoustico-phonétique
Paramètres spectraux/cepstraux (MFCC, LPC, SDC)
Modèle de Mélange de lois Gaussiennes (GMM)
Modélisation acoustique globale de lespace
phonétique
Approche phonético-phonotactique
Paramètres spectraux/cepstraux (MFCC, LPC, SDC)
Modèles de Markov Cachés (MMC) n-grammes
Modélisation des contraintes phonologiques
denchaînements
Utilisation des MMC comme opérateurs de
projection
Espace acoustique (continu, multidimensionnel) -gt
Espace pseudo-phonémique (discret,
unidimensionnel)
Prise en compte des vraisemblances MMC
Utilisation de plusieurs MMC ou d'un MMC unique
multilingue
Utilisation d'unités de nature syllabique
Approches prosodiques

18
Id. auto. langues parleesUtilisation
linguistique ?

Interprétation des matrices de confusion
Format des évaluations
NIST tâche de vérification de la langue
Equal Error Rate et Detection Error Trade-off (et
non matrice de confusion)
Hétérogénéité des ressources
Choix des langues
Dialectes et diglossie
Vietnamien Nord/Sud
Hindi
Arabe
Accents
env. 1/3 des locuteurs français de OGI MLTS sont
québécois
Locuteurs hispanophones dAmérique centrale ou du
nord

19
Id. auto. langues parleesUtilisation
linguistique essayons !

Matrice de confusion (Id. correcte 57)
Hegde Murthy, 2005 (OGI MLTS)
Modélisation acoustique MFCC phase (group
delay)
Représentation multidimensionnelle
(MultiDimensional Scaling)

20
Id. auto. langues parleesUtilisation
linguistique II

Matrice de confusion (Id. correcte 84)
Système MIT (NIST LRE 2003 12 langues
CallFriend)
Modélisation acoustique phonétique
phonotactique

Distance
Daprès A. Martin M. Przybocki, (2003)
21
Id. auto. langues parleesUtilisation
linguistique le point

Conclusions
Matrices de confusion potentiellement
intéressantes
Émergence de facteurs historiques, aréaux ou
typologiques
Mais interprétation très spéculative
Distances très multidimensionnelles (gt réduction
pour représentation)
Modèles principalement acoustiques
Interprétations plutôt lexicales ou
morphosyntaxiques
Lexique partagé gt éléments phonético-phonologique
s potentiellement proches
Perspectives
Choix de langues linguistiquement pertinentes
Conception de modèles modulaires
Modèles acoustiques gt systèmes phonologiques
Modèles phonotactiques gt structures syllabiques,
mais aussi lexique
Modèles rythmiques
Modèles intonatifs
Nécessité dun travail en concertation entre
linguistes et modélisateurs

22
Intermede Changement dechelle les dialectes
anglais britanniques

Problématique
Dialectes anglais des îles britanniques
Description sociolinguistique plus ou moins
disponible
Exploitation automatique de traits linguistiques
?
Travail en cours (thèse de Emmanuel Ferragne)
Rythme et intonation
Diphtongaison
Systèmes vocaliques
Alignement automatique HTK (transcription
orthographique connue)
Corrélations entre matrices de distances des
voyelles
Résultats
91 id. correcte (13 dialectes)
Etude des mergers
cf. Poster (trop tard...)
Autres études "linguistico-modélisatrices"
Dialectes arabes (M. Barkat-Defradas et collègues)

23
Plan

Introduction
la rencontre espérée entre la typologie et la
modélisation automatique
Partie I létat des lieux
Des données typologiques à la reconnaissance des
langues
Des modèles automatiques à leur interprétation
linguistique
Partie II la prosodie, terrain dinvestigation
Introduction
La dimension rythmique
Typologie modélisation automatique
La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions

24
La prosodie - introduction

La prosodie
Mélodie du langage
Vision structuraliste puis générativiste
Phénomènes suprasegmentaux traits ayant une
portée de plusieurs segments
prosodic features cannot simply be seen as
features which are superimposed on segments.
(Fox, 2000, p. 2)
Portées ou domaines des traits prosodiques
(daprès Fox, 2000)
Length / Rhythm
Accent
Tone
Intonation
cf. exposé Jacqueline Vaissière
Portée de lexposé
Rythme (régularité perceptive liée à loccurrence
dunités ou dévénements)
Utilisation lexicale ou morphémique du Fo (des
tons à Ø)

25
Les parametres acoustiques

Fo pitch, fréquence fondamentale (Hz)
Intensité (dB)
Durée (s)
Durée des syllabes
Durée des intervalles interaccentuels, des pieds
accentuels
Durée des phonèmes
Contrastes de durée (gémination, voyelles
longues)
Réduction de quantité vocalique (jusquà
lélision)
Des paramètres
liés au locuteur
Modulables au cours de la phonation
Porteurs dinformations linguistiques ou
paralinguistiques (attitude et émotion, état
physiologique)
Difficilement comparables dun enregistrement à
lautre
gt Paramètres surtout étudiés de manière relative
(variations)

26
Typologie rythmique

Rythme interface segmental/suprasegmental
Importance du rythme
Implications cognitives
Acquisition rythme et segmentation du flux
continu de parole
Phonological bootstrapping Morgan Demuth,
(1996)
Production/Compréhension unités rythmiques
comme unités d'accès lexical ?
Implications phonologiques
Théorie de la syllabe et théorie de l'optimalité,
etc.
la syllabe...
Une structure intuitivement universelle
MAIS certaines langues séloignent de ce schéma
idyllique
Noyaux syllabiques consonantiques
Consonnes syllabiques (e.g. anglais bottle
?????)
Mais aussi occlusives non voisées
berbère chleuh (AA, Maroc) donne-le Skt (cf.
Ridouane (2003))
bella coola (Salishan, Canada) North-East wind
sps Bagemihl (1991)
Analyse syllabique peu pertinente
Gokana (Niger-Congo, Nigéria)

ke e - e - e - e -
e wake CAUS LOG him - FOC
Hyman (1983)
27
Typologie rythmique de la di/TRI-chotomie...

La vision traditionnelle dichotomique
Deux classes rythmiques (Pike, 1945)
Rythme syllabique (syllable-timed) français,
espagnol, ...
Rythme accentuel (stress-timed) anglais,
néerlandais, russe
Puis une troisième (par ex. Ladefoged, 1975)
Rythme moraïque (moraic-timed) unité
infra-syllabique (japonais, tamoul)
A la recherche de l'isochronie (Abercrombie,
1967)
Hypothèse les langues cherchent toutes à
régulariser les durées syllabiques ou
interaccentuelles
Mise à l'épreuve (Roach, 1982, ...) pas
concluante
Un continuum ?
Argumentation de Dauer (1983)
Rythme "effet de bord" de phénomènes
phonologiques
Contraintes de complexité de la structure
syllabique
Existence du phénomène de réduction vocalique
Les langues se situent sur un continuum -
accentuel à - syllabique

28
Typologie rythmique ...au continuum

Existence de langues non prototypiques (Nespor,
1990)
Catalan langue syllabique à réduction vocalique
Polonais langue à structure syllabique riche
sans réduction vocalique
Continuum ou espace multidimensionnel ?
Auer (1993) propose une typologie en 5 "classes"
(1 dimension)
Syllabique prototypique (yoruba, navaho, ...)
Syllabique non prototypique (japonais, hausa,
...)
Intermédiaire (français, turc, ...)
Accentuel non prototypique (ouzbèque, tamang,
...)
Accentuel prototypique (russe, anglais, ...)
Basée sur une analyse multicritère
Complexité syllabique (cf. aussi Levelt et Van de
Vijver, 1998)
Processus phonologiques (réduction, épenthèse,
harmonie vocalique, ...)
Utilisation du Fo (présence de tons -
contrainte, accentuation, etc.)

29
Premier Bilan surles typologies rythmiques
linguistiques

Une typologie difficile à établir
Multidimensionnelle
Continue
Basée sur relativement peu de langues (max. Auer
34 langues)
MAIS
Corrélations entre rythme et composantes
morphosyntaxiques
Langues agglutinantes plutôt syllabiques
Autres rapprochements (ordre Tête-Complément,
affixation, etc.) mais contestés (cf. Auer, 1993
pour une discussion)
un réalité perceptuelle
Discrimination par des nouveaux-nés humains et
non humains (tamarins) de stimuli
identiques/différents en fonction de
l'appartenance à des classes rythmiques
(stress-timed vs. syllable-timed) (Nazzi et
Ramus, 2003).
gt Existence de corrélats acoustiques du rythme

30
Correlats acoustiques un travail fondateur
typologies rythmiques

Travaux de thèse de Franck Ramus (e.g. Ramus et
al., 1999)
8 langues 5 énoncés (15 à 19 syllabes) /
locutrice 4 locutrices / langues
Segmentation manuelle en intervalles
consonantiques et vocaliques
Calcul de paramètres à l'échelle de l'énoncé
V quantité vocalique (rapport de la durée
vocalique totale/durée énoncé)
DC écart-type de la durée des intervalles
consonantiques

Limites de l'approche
Corpus très contraint
Non prise en compte de caractéristiques
dynamiques du rythme
Variations
Enchaînements trochaïques/iambiques??

31
Correlats acoustiques Extensions,
generalisations ??
typologies rythmiques

Autres travaux de même type
Galves (2002) paramètres issus d'une échelle de
sonorité
Grabe et Lowe, (2002)
Calcul d'indices locaux (Pairwise Variability
Indices)

32
Correlats acoustiques Variations
typologies rythmiques

Variations dialectales
Arabe dialectal
Anglais britannique

Influence du débit de parole

DC

FR
CA
EN
V
d'après Hamdi et al., (2004)
d'après Dellwo et Wagner, (2003)
33
Typologie rythmique Modelisation
automatiqueDominey et Ramus, 2000

Modélisation neuromimétique du rythme
Réseau récurrent dédié au traitement des
séquences temporelles
Les entrées du réseau sont des étiquettes C ou V
échantillonnées toutes les 5 ms et alignées
manuellement.
Données
Corpus spécifique (dit RNM)
Résultats
78 de discrimination correcte pour (EN JA)
52 de discrimination correcte (Hasard) pour (EN
DU)
Commentaires
Résultats cohérents avec une prise en compte du
rythme
Résultats cohérents avec sujets humains

34
Typologie rythmique Modelisation
automatiqueFarinas et al., 2005 Rouas et al.,
2005

Modélisation statistique de "pseudo-syllabes"
Segmentation automatique du signal
(infra-phonémique)
Détection automatique de noyaux vocaliques
Segmentation en intervalles vocaliques et
consonantiques
Codage en pseudo-syllabes CCV.CCV.CV.CCCV.CV.CCC
Paramétrage
Dc durée de l'intervalle consonantique
Dv durée de l'intervalle vocalique
Nc nombre de segments (complexité) de
l'intervalle consonantique
Modélisation MMG dans cet espace tridimensionnel
Ajout de paramètres dérivés de Fo et E
accentuation

André-Obrecht, (1988)
35
Typologie rythmique Modelisation
automatiqueFarinas et AL., 2005 Rouas et al.,
2005

Evaluation
Corpus de parole lue MULTEXT (7 langues)
Validation croisée (5 LANGUES)
Modèle de rythme seul 79 didentification
correcte
Modèle daccentuation 78 didentification
correcte
Fusion 92 didentification correcte
Evaluation classique app/tst (très peu de
données)
Fusion 86 didentification correcte (5
langues)
Modèle de rythme seul 67 didentification
correcte (7 langues)
Comparaison modèle GMM acoustique 99
Corpus de parole spontanée OGI MLTS (11 langues)
Identification
très mauvais résultats

36
Plan

Introduction
la rencontre espérée entre la typologie et la
modélisation automatique
Partie I létat des lieux
Des données typologiques à la reconnaissance des
langues
Des modèles automatiques à leur interprétation
linguistique
Partie II la prosodie, terrain dinvestigation
Introduction
La dimension rythmique
Typologie modélisation automatique
La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions

37
Typologie intonative lexicale

La vision traditionnelle
Langues à tons (tone languages) vietnamien,
mandarin, yoruba
Exemple cantonais
Exemple somali "ínan" garçon vs. "inán"
fille
Langues à accent tonal (pitch-accent languages)
japonais
CVCVCV vs. CVCVCV (dialecte de Tokyo)
Langues à accent tonique (stress-accent
languages) espagnol, anglais
/'pervert/ (nom) vs. /per'vert/ (verb)
Le Fo n'est pas forcément utilisé (réduction
qualitative et/ou quantitative)
Perspectives récentes (Remijsen, 2003 Hyman,
2005)
Continuum dutilisation lexicale de Fo
Tons à placement libre
Tons à placement à contraints (tons sandhi,
neutralisation de tons)
Tons limités à 1 syllabe par mot (pitch-accent ?)
Interactions stress/tons
Co-existence de système de tons et de stress
Ma'ya (Austronésien)
3 tons possibles sur dernière syllabe accent

38
Modelisation de Fo et E (niveau global)
Itahashi, 1995

Modélisation statistique de lintonation
Extraction automatique du Fo
Approximation polygonale de la courbe de Fo
Calculs de paramètres sur Fo et E
Pentes moyennes sur les segments
Moments dordre supérieurs sur les segments
(écart-type, coefficients d'asymétrie et
d'aplatissement)
Analyse discriminante dans lespace des
paramètres
Expériences
Données
Extraits dOGI MLTS (6 langues, 20 secondes)
Résultats
63.3 didentification correcte
Commentaires
Approche basée sur des statistiques globales
dérivées de la mélodie
Travaux non continués

39
Modelisation de Fo et E (niveau global)
ThymEGobbel Hutchins, 1999

Modélisation statistique de la prosodie
Basée sur des syllabes (i.e. des segments
entre 2 minima d'énergie)
Paramètres intra- et inter- syllabiques dérivés
de Fo, des durées, de lénergie
Comparaison statistique dhistogrammes
Données
OGI MLTS (11 langues, 45 s., discrimination par
paires)
Résultats
75 didentification correcte
Commentaires
Beaucoup de paramètres analysés
Évaluation de la corrélation avec des typologies
prosodiques

40
Modelisation de Fo et E (dynamique) Cummings et
al., 1999

Modélisation neuromimétique de lintonation
Réseau récurrent
Les entrées sont des paramètres dérivés de E et
Fo
Données
OGI MLTS (5 langues, 45 s., discrimination par
paires)
Résultats
Entre hasard et 69 discrimination correcte
Commentaires
Meilleurs résultats avec DFo quavec DE

41
Modelisation de Fo et E (dynamique) ADAMI, 2003

Modélisation n-gramme de Fo et E
Segmentation en segments monotones par rapport à
E et Fo
montée de F0 et montée de lénergie
montée de F0 et descente de lénergie,
descente de F0 et montée de lénergie,
descente de F0 et descente de lénergie,
segment non voisé.
Données
CALLFRIEND (3 langues, tâche de vérification de
la langue)
Résultats
EER
Commentaires
Approche totalement automatique prenant en compte
les enchaînements (et non des statistiques
globales)

42
Modelisation de Fo et E (dynamique) Rouas, 2005

Modélisation n-gramme de Fo et E
inspiré de Adami et Fujisaki
Séparation en macro et micro-mélodie (ligne de
base et résidu)
Étiquettes composites tenant compte des 2 niveaux
de variations (exemple montée(M)-montée(m),
etc.)
2 niveaux temporels infra-syllabique (segments)
ou pseudo-syllabiques
Données
MULTEXT (7 langues, parole lue, env. 20s., peu de
données)
Résultats

43
Modelisation de Fo et E (dynamique) Rouas, 2005

Fusion des approches rythmiques (67 did.
correcte) et intonative (71 did. correcte)
Extension à la parole spontanée (OGI MLTS)

44
Conclusion sur prosodie et identification
automatique

Typologie prosodique
Domaine multidimensionnel (espace continu, Fo, E,
durées...)
Domaine en évolution
(r)évolution épistémologique (passage du
catégoriel au continu)
(r)évolution en termes de données (nombre de
langues, réanalyse...)
Modélisation translinguistique de la prosodie
Domaine récent et stimulant
Approches diverses pas d'état de l'art
Performances significatives sur la parole lue (à
mettre en perspectives avec la typologie)
GROS problèmes pour la parole spontanée
Prise en compte du débit... (conséquences
cognitives et typologiques)
gt modèles pas assez performants pour être
compétitifs (quoique...)
Performances / approches phonético-phonotactiques
sur mauvais SNR ?

45
Plan

Introduction
la rencontre espérée entre la typologie et la
modélisation automatique
Partie I létat des lieux
Des données typologiques à la reconnaissance des
langues
Des modèles automatiques à leur interprétation
linguistique
Partie II la prosodie, terrain dinvestigation
Introduction
La dimension rythmique
Typologie modélisation automatique
La dimension tonale lexicale
Typologie et modélisation automatique
Conclusions

46
Intermede IIretour sur la seance de lundi PM

Test perceptif facteurs de difficulté
Test mixte
Identification (langue 1 puis langue 2)
ET
Discrimination (évaluation de la distance)
gt 2 tâches cognitives différentes et
potentiellement interférentes
Absence de connaissance du nombre de langues
Absence d'apprentissage
Protocole très difficile
Application humaine de l'identification des
langues ?
Comparaison humain/machine
Performance NIST 2003 lt3 EER pour 10 langues
(extraits 30s)
Notre expérience d'humain (cf. ci-dessus) tâche
difficile
MAIS
Plusieurs dizaines d'heures d'apprentissage pour
les machines !!
gt amha performances quasi-parfaites pour humains
dans les conditions de la machine

47
Conclusions GENERALES

Typologie automatique l'âge de pierre
Modèles automatiques "fusionnels" plus que
modulaires
Effet "Boîte noire"
Dédiés à la vérification de la langue plus qu'à
l'étude des distances linguistiques
Approches linguistiques doivent être confrontées
à des corpus représentatifs
Étude de l'incidence des traits potentiellement
saillants (aspiration...)
Convergence possible
Données audio disponibles pour un nombre
important de langues
Possibilité de "modulariser" pour interpréter les
performances en termes linguistiques (phonétique,
phonotactique, prosodique)
Travail interdisciplinaire important à faire à
l'interface phonético-morphophonologique
Variabilité phonétique en fonction de la position
morphologique...
Prosodie
Une interface linguistique segmental/suprasegmenta
l
Des modèles innovants, rudimentaires, mais
pertinents

48
(No Transcript)
49
Abercrombie, D., (1967), Elements of General
Phonetics, Edinburgh University Press,
Edinburgh Adami, A., R. Mihaescu, D. A. Reynolds
et J. Godfrey Modeling Prosodic Dynamics for
Speaker Recognition, in proc. ICASSP, p.
788791, Hong Kong, China, 2003 André-Obrecht,
R., (1988), A New Statistical Approach for
Automatic Speech Segmentation, IEEE Trans. on
ASSP, vol. 36, n 1 Auer, P. (1993). Is a
rhythm-based typology possible? A study of the
role of prosody in phonological typology. KontRI
Working Paper 21, Hamburg UniversitaÈt
Hamburg. Bagemihl B. (1991). "Syllable structure
in Bella Coola". Linguistic Inquiry 22
589-646. Bryant, D., Filimon, F. and Gray, R.
(2005) Untangling our past Languages, Trees,
Splits and Networks. In The Evolution of
Cultural Diversity Phylogenetic Approaches.
Editors R. Mace, C. Holden, S. Shennan.
Publisher UCL Press, pp. 69-85 Cummins, F.,
Gers, F., and Schmidhuber, J., (1999), Language
identification from prosody without explicit
features, in Proc. of EUROSPEECH 99 Cysouw, M.
(2006). Identifying areas from typological
surveys. Bielefeld, Germany (28th Jahrestagung
DGfS) (pdf slides). Damashek M.1995, Gauging
Similarity with n-Grams Language Independent
Categorization of Text, Science, 10 February
1995, Vol. 267, pp. 843-8 Dauer, R. M., (1983),
Stress-timing and syllable-timing reanalyzed,
Journal of Phonetics, 11 Dellwo, V. and Wagner,
P., 2003. Relations between Language Rhythm and
Speech Rate. Proceedings of ICPhS 2003,
Barcelona, Spain, 471-474. Dominey, P. F.,
Ramus, F., (2000), Neural Network Processing of
Natural Language I. Sensitivity to Serial,
Temporal and Abstract Structure in the Infant,
Language and Cognitive Processes, 15(1) Farinas,
J., Rouas, J.L., Pellegrino, F. André-Obrecht,
R., 2005, "Extraction automatique de paramètres
prosodiques pour lidentification automatique des
langues", Traitement du Signal, 222 Fox A. 2000.
Prosodic features and Prosodic Structure, Oxford
University Press Galves, A., Garcia J., Duarte D.
Galves C., (2002), Sonority as a Basis for
Rhythmic Class Discrimination , in proc. of the
Speech Prosody 2002 conference, 11-13 April 2002
Grabe, E. Low, E.L., (2002), Durational
Variability in Speech and the Rhythm Class
Hypothesis, Papers in Laboratory Phonology 7,
Mouton. Gray, R.D. Atkinson, Q.D. (2003).
Language-tree divergence times support the
Anatolian theory of Indo-European origin. Nature,
426, 435-439 Hamdi R., Barkat-Defradas M.,
Ferragne E. Pellegrino F., (2004), Speech
Timing and Rhythmic structure in Arabic dialects
a comparison of two approaches, in proc. of
INTERSPEECH/ICSLP 2004, October 2004 Jeju,
Korea Haspelmath, M., Matthew S. Dryer, David Gil
and Bernard Comrie (Eds). 2005. The World Atlas
of Language Structures, Oxford University
Press Hegde R. M. H. A.Murthy, 2005.
Automatic Language Identification and
Discrimination using The Modified Group Delay
Feature'', in Proc. of International Conference
on Intelligent Sensing and Information
Processing,Chennai Hombert, J.M. Maddieson, I.,
1998, "A linguistic approach to automatic
language recognition", UCLA Working Papers in
Phonetics, 96, pp. 106-118 Hyman L. 1983. "Are
there syllables in Gokana?" In J. Kaye et al
(eds), Current approaches to African linguistics,
vol. 2. Dordrecht Foris. 171179. Hyman L. 2005.
Word-Prosodic Typology, in UC Berkeley
Phonology Lab Annual Report 2005 Itahashi S., K.
Kiuchi et M. Yamamoto Spoken Language
Discrimination Using Speech Fundamental Frequency
And Cepstra, in proc. Eurospeech, Budapest,
Hungary, 1999 Ladefoged, P. (1975). A course in
phonetics. New York Harcourt Brace Jovanovich
pp.296 Levelt, C., van de Vijver, R. (1998).
Syllable types in cross-linguistic and
developmental grammars. Third Biannual Utrecht
Phonology Workshop (11-12/06/1998), Maddieson, I.
1984. Patterns of sounds. Cambridge, MA
Cambridge University Press. Maddieson, I. and K.
Precoda. 1990. Updating UPSID. UCLA Working
Papers in Phonetics 74 104-111. Martin, A. F.
M. A. Przybocki. (2003). NIST 2003 Language
Recognition Evaluation, in proc. of Eurospeech,
p.1341-1344, Geneva Morgan J. L., K. Demuth,
1996. Signal to Syntax Bootstrapping from Speech
to Grammar in Early Acquisition. Mahwah, NJ
Lawrence Erlbaum Associates. Nazzi, T. Ramus,
F. (2003). Perception and acquisition of
linguistic rhythm by infants. Speech
Communication 41(1-2), 233-243. Nespor, M.
(1990). On the rhythm parameter in phonology. In
I. M. Roca, Logical issues in language
acquisition, (pp. 157175). Dordrecht
Foris. Ohala, J. Marsico, E., 2001,
"Differentiating phonetic from phonological
events in speech", in De la caractérisation à
l'identification des langues. Actes sélectionnés
de la 1ère journée d'étude sur l'identification
automatique des langues (19/01/1999, Lyon),
Pellegrino, F. (ed), Lyon, Edition en ligne
Pike, K. L. (1945). The intonation of American
English, Ann Arbor, MI University of Michigan
Press. Ramus, F., Nespor, M., Mehler, J.,
(1999), Correlates of linguistic rhythm in the
speech signal, Cognition, 73(3) Remijsen B. 2003.
New Perspectives In Word-prosodic Typology,
IIAS Newsletter, 32, p. 29 Ridouane R. 2003.
Suites de Consonnes en Berbère Chleuh
Phonétique et Phonologie. Thèse de doctorat,
Université Paris 3 / Sorbonne Nouvelle. Roach,
P. (1982). On the distinction between
stress-timed' and syllable-timed' languages. In
D. Crystal, Linguistic controversies, London
Edward Arnold. Rouas J.-L.. 2005. Caractérisation
et identification automatique des langues. Thèse
de doctorat, Université Paul Sabatier, Toulouse,
mars 2005. Rouas, J.L., Farinas, J., Pellegrino,
F. André-Obrecht, R., 2005, "Rhythmic Unit
Extraction and Modelling for Automatic Language
Identification", Speech Communication, 474, pp.
436-456 Thymé-Gobbel, A., Hutchins, S. E.,
(1999), Prosodic features in automatic language
identification reflect language typology, in
Proc. of ICPhS99, San Francisco, CA, USA
MERCI DE VOTRE ATTENTION
50
DET NIST LRE 2003
Hindi
English
Miss Probability ()
Vietnamese
False Alarm Probability ()
Daprès A. Martin M. Przybocki, NIST 2003 LRE
Workshop, April 28-29th, 2003
51
Exemple Dialecte East Yorkshire
Locutrice sit
Locutrice edc
70
70
65
65
60
60
55
55
50
50
45
45
40
40
35
35
Hood
Hudd
Whod
Heard
Hared
Hood
Hudd
Whod
Heard
Hared

Write a Comment

User Comments (0)