Typologies linguistiques et identification automatique des langues : vers des typologies automatiques ? - PowerPoint PPT Presentation

About This Presentation
Title:

Typologies linguistiques et identification automatique des langues : vers des typologies automatiques ?

Description:

Alignement phon tique des lexiques (distance d' dition : nb insertions/d letions, ... Alignement automatique HTK (transcription orthographique connue) ... – PowerPoint PPT presentation

Number of Views:685
Avg rating:3.0/5.0
Slides: 52
Provided by: FP72
Category:

less

Transcript and Presenter's Notes

Title: Typologies linguistiques et identification automatique des langues : vers des typologies automatiques ?


1
Typologies linguistiquesetidentification
automatique des langues vers des typologies
automatiques ?
  • François Pellegrino
  • Francois.Pellegrino_at_univ-lyon2.frLaboratoire
    Dynamique Du Langage
  • UMR 5596 CNRS Université Lumière Lyon 2
  • Ecole thématique VPL - Cargèse juin 2006

2
Typologies automatiques ??
  • Typology(ies) 8 millions de hits sous
    Google
  • Automatic 470 M.
  • Automatic typology(ies) 21 hits
  • Moitié télédétection spatiale
  • Moitié DDL ou assimilés

Merci de votre attention...
gt une utopie !
3
Plan
  • Introduction
  • la rencontre espérée entre la typologie et la
    modélisation automatique
  • Partie I létat des lieux
  • Des données typologiques à la reconnaissance des
    langues
  • Des modèles automatiques à leur interprétation
    linguistique
  • Partie II la prosodie, terrain dinvestigation
  • Introduction
  • La dimension rythmique
  • Typologie modélisation automatique
  • La dimension tonale lexicale
  • Typologie et modélisation automatique
  • Conclusions

4
Indice 1 Indice 1
A B
Indice 2 a
Indice 2 b
Analyselinguistique
Données audio Données textuelles
Descriptionslinguistiques
Typologies linguistiques
Analyseautomatique
Perspective historique
Audio
Textes
Interface Typologie automatique
Alignementou codage en cognats
Données lexicales
Analyse statistique
Corpus textuels
Identification automatiquedes langues
Modèles phonétiques, phonotactiques, prosodiques
5
Plan
  • Introduction
  • la rencontre espérée entre la typologie et la
    modélisation automatique
  • Partie I létat des lieux
  • Des données typologiques à la reconnaissance des
    langues
  • Des modèles automatiques à leur interprétation
    linguistique
  • Partie II la prosodie, terrain dinvestigation
  • Introduction
  • La dimension rythmique
  • Typologie modélisation automatique
  • La dimension tonale lexicale
  • Typologie et modélisation automatique
  • Conclusions

6
Les bases de donnees typologiques
  • Caveat
  • Représentativité des langues
  • Qualité des données primaires
  • Consistance/cohérence inter-langues des données
  • Biais danalyse lié au cadre théorique choisi
  • De formidables outils
  • Plusieurs centaines de langues
  • UPSID (UCLA Phonological Segment Inventory
    Database)
  • ULSID (UCLA Lexical and Syllabic Inventory
    Database)
  • WALS (World Atlas of Language Structures)
  • AUTOTYP
  • à exploiter automatiquement

7
Bases de donnees typologiquesUPSID/CaSSoPI
UCLA Phonological Segment Inventory Database
Maddieson, (1984) Maddieson and Precoda (1990)
  • V 102/451 - 23
  • V? 51/451 - 11
  • Both 11/451 - 2.4
  • Identification des langues
  • Corrélations phonologiques

8
Bases de donnees typologiquesUPSID/CaSSoPI
  • Utilisation pour rechercher des indices
    pertinents
  • Hombert Maddieson, (1998)
  • Indices discriminants et détectables
    automatiquement
  • Contraste dental vs. labio-dental /?/ vs. /?/
    /?/ vs. /?/ discriminant détectable
  • Clicks discriminant détectable
  • Limites
  • Comment modéliser ces indices ?
  • Évaluer leur incidence dans la parole réelle
    (probabilité d'apparition)
  • Des inventaires phonologiques à la parole
  • Prises en compte de processus phonologiques ou
    phonétiques
  • Anglais pas de voyelles nasales phonologiques
  • pourtant sable /s?nd/ (phonologique) est
    prononcé s??d (phonétique)
  • Incidence statistique moins grande ?
  • Conclusion
  • Détection des traits rares potentiellement
    intéressante
  • Non encore exploitée automatiquement
  • Prise en compte de l'incidence des traits
    fondamentale
  • Ohala, Marsico, 2001, "Differentiating phonetic
    from phonological events in speech"

9
Bases de donnees typologiquesWALS
Haspelmath et al. (2005)
  • 2,600 langues
  • 140 caractéristiques (670 types)
    phono-morpho-syntaxiques
  • 60,000 données (sur 364 000 potentielles)

10
Bases de donnees typologiquesWALS distances
typologiques
Extrait de Michael Cysouw, (2006), transparent 21.
11
Bases de donnees typologiquesConclusions
  • BD fondamentales pour des recherches
    linguistiques
  • Tendances universelles
  • Caractéristiques aréales, historiques,
    universelles
  • Mais encore peu utiles pour lidentification
    automatique
  • Niveaux morpho-syntaxiques hors datteinte des
    analyses automatiques translinguistiques
  • Difficulté à prendre en compte des phénomènes
    phonétiques fins
  • Problème de la distinction entre phénomène
    phonétique et phonologique
  • MAIS analyse typologique peut proposer des pistes
  • Incidence de traits (aspiration, friction,
    contrastes de durée)

12
Plan
  • Introduction
  • la rencontre espérée entre la typologie et la
    modélisation automatique
  • Partie I létat des lieux
  • Des données typologiques à la reconnaissance des
    langues
  • Des modèles automatiques à leur interprétation
    linguistique
  • Partie II la prosodie, terrain dinvestigation
  • Introduction
  • La dimension rythmique
  • Typologie modélisation automatique
  • La dimension tonale lexicale
  • Typologie et modélisation automatique
  • Conclusions

13
Classification des languesa partir de donnEes
textuelles
  • Visée historique le calcul darborescences de
    langues
  • À partir de données lexicales (listes de Swadesh,
    etc.)
  • Lexique de base supposé peu sujet aux emprunts
    (chiffres, parentèle, etc.)
  • 2 approches pour estimer les distances
    inter-langues
  • Taux de partage de cognats (codage manuel,
    attention aux emprunts !)
  • Alignement phonétique des lexiques (distance
    dédition nb insertions/déletions,
    remplacements)
  • Méthodologies empruntées à la bioinformatique
    (génomique)
  • Construction darbres ou de réseaux

Bryant et al. (2005)
Gray, Atkinson (2003)
14
identification automatique des languesa partir
de donnees textuelles
  • Identification automatique des langues
  • À partir de corpus textuels (journaux, mails,
    etc.)
  • Approches par comptage statistique
    (cooccurrences)
  • Un problème... peu problématique
  • Grands corpus disponibles (pour langues à
    tradition écrite)
  • Caractère discret des inputs
  • Une validité linguistique indéniable

Damashek, (1995)
15
Classification/identification des languesa
partir de donnees textuellesConclusion
  • Des méthodes diverses
  • Cooccurrences (identification à partir de corpus)
  • Distances (reconstruction d'arbres de proximité)
  • Cognats
  • Alignements
  • Une interprétation linguistique possible
  • Prise en compte du lexique et de la morphosyntaxe

16
Lidentification automatique des langues a partir
de donnees parlees
  • Caveat
  • Relativement peu de langues prises en compte
    (quelques dizaines au mieux)
  • Langues non représentatives en termes
    typologiques (choix dicté par lapplication ou
    par la disponibilité des données)
  • Prise en compte de la variabilité intra-langue
    (parlers, accents, dialectes) balbutiante
  • Une affaire déchelle
  • Comment définir une langue, un dialecte, etc. ?
  • Intercompréhension complète ?
  • Intercompréhension immédiate ?
  • Taux de lexique partagé ?

17
Id. auto. langues parleesLes approches
  • Approche acoustico-phonétique
  • Paramètres spectraux/cepstraux (MFCC, LPC, SDC)
  • Modèle de Mélange de lois Gaussiennes (GMM)
  • Modélisation acoustique globale de lespace
    phonétique
  • Approche phonético-phonotactique
  • Paramètres spectraux/cepstraux (MFCC, LPC, SDC)
  • Modèles de Markov Cachés (MMC) n-grammes
  • Modélisation des contraintes phonologiques
    denchaînements
  • Utilisation des MMC comme opérateurs de
    projection
  • Espace acoustique (continu, multidimensionnel) -gt
    Espace pseudo-phonémique (discret,
    unidimensionnel)
  • Prise en compte des vraisemblances MMC
  • Utilisation de plusieurs MMC ou d'un MMC unique
    multilingue
  • Utilisation d'unités de nature syllabique
  • Approches prosodiques

18
Id. auto. langues parleesUtilisation
linguistique ?
  • Interprétation des matrices de confusion
  • Format des évaluations
  • NIST tâche de vérification de la langue
  • Equal Error Rate et Detection Error Trade-off (et
    non matrice de confusion)
  • Hétérogénéité des ressources
  • Choix des langues
  • Dialectes et diglossie
  • Vietnamien Nord/Sud
  • Hindi
  • Arabe
  • Accents
  • env. 1/3 des locuteurs français de OGI MLTS sont
    québécois
  • Locuteurs hispanophones dAmérique centrale ou du
    nord

19
Id. auto. langues parleesUtilisation
linguistique essayons !
  • Matrice de confusion (Id. correcte 57)
  • Hegde Murthy, 2005 (OGI MLTS)
  • Modélisation acoustique MFCC phase (group
    delay)
  • Représentation multidimensionnelle
    (MultiDimensional Scaling)

20
Id. auto. langues parleesUtilisation
linguistique II
  • Matrice de confusion (Id. correcte 84)
  • Système MIT (NIST LRE 2003 12 langues
    CallFriend)
  • Modélisation acoustique phonétique
    phonotactique

Distance
Daprès A. Martin M. Przybocki, (2003)
21
Id. auto. langues parleesUtilisation
linguistique le point
  • Conclusions
  • Matrices de confusion potentiellement
    intéressantes
  • Émergence de facteurs historiques, aréaux ou
    typologiques
  • Mais interprétation très spéculative
  • Distances très multidimensionnelles (gt réduction
    pour représentation)
  • Modèles principalement acoustiques
  • Interprétations plutôt lexicales ou
    morphosyntaxiques
  • Lexique partagé gt éléments phonético-phonologique
    s potentiellement proches
  • Perspectives
  • Choix de langues linguistiquement pertinentes
  • Conception de modèles modulaires
  • Modèles acoustiques gt systèmes phonologiques
  • Modèles phonotactiques gt structures syllabiques,
    mais aussi lexique
  • Modèles rythmiques
  • Modèles intonatifs
  • Nécessité dun travail en concertation entre
    linguistes et modélisateurs

22
Intermede Changement dechelle les dialectes
anglais britanniques
  • Problématique
  • Dialectes anglais des îles britanniques
  • Description sociolinguistique plus ou moins
    disponible
  • Exploitation automatique de traits linguistiques
    ?
  • Travail en cours (thèse de Emmanuel Ferragne)
  • Rythme et intonation
  • Diphtongaison
  • Systèmes vocaliques
  • Alignement automatique HTK (transcription
    orthographique connue)
  • Corrélations entre matrices de distances des
    voyelles
  • Résultats
  • 91 id. correcte (13 dialectes)
  • Etude des mergers
  • cf. Poster (trop tard...)
  • Autres études "linguistico-modélisatrices"
  • Dialectes arabes (M. Barkat-Defradas et collègues)

23
Plan
  • Introduction
  • la rencontre espérée entre la typologie et la
    modélisation automatique
  • Partie I létat des lieux
  • Des données typologiques à la reconnaissance des
    langues
  • Des modèles automatiques à leur interprétation
    linguistique
  • Partie II la prosodie, terrain dinvestigation
  • Introduction
  • La dimension rythmique
  • Typologie modélisation automatique
  • La dimension tonale lexicale
  • Typologie et modélisation automatique
  • Conclusions

24
La prosodie - introduction
  • La prosodie
  • Mélodie du langage
  • Vision structuraliste puis générativiste
  • Phénomènes suprasegmentaux traits ayant une
    portée de plusieurs segments
  • prosodic features cannot simply be seen as
    features which are superimposed on segments.
    (Fox, 2000, p. 2)
  • Portées ou domaines des traits prosodiques
    (daprès Fox, 2000)
  • Length / Rhythm
  • Accent
  • Tone
  • Intonation
  • cf. exposé Jacqueline Vaissière
  • Portée de lexposé
  • Rythme (régularité perceptive liée à loccurrence
    dunités ou dévénements)
  • Utilisation lexicale ou morphémique du Fo (des
    tons à Ø)

25
Les parametres acoustiques
  • Fo pitch, fréquence fondamentale (Hz)
  • Intensité (dB)
  • Durée (s)
  • Durée des syllabes
  • Durée des intervalles interaccentuels, des pieds
    accentuels
  • Durée des phonèmes
  • Contrastes de durée (gémination, voyelles
    longues)
  • Réduction de quantité vocalique (jusquà
    lélision)
  • Des paramètres
  • liés au locuteur
  • Modulables au cours de la phonation
  • Porteurs dinformations linguistiques ou
    paralinguistiques (attitude et émotion, état
    physiologique)
  • Difficilement comparables dun enregistrement à
    lautre
  • gt Paramètres surtout étudiés de manière relative
    (variations)

26
Typologie rythmique
  • Rythme interface segmental/suprasegmental
  • Importance du rythme
  • Implications cognitives
  • Acquisition rythme et segmentation du flux
    continu de parole
  • Phonological bootstrapping Morgan Demuth,
    (1996)
  • Production/Compréhension unités rythmiques
    comme unités d'accès lexical ?
  • Implications phonologiques
  • Théorie de la syllabe et théorie de l'optimalité,
    etc.
  • la syllabe...
  • Une structure intuitivement universelle
  • MAIS certaines langues séloignent de ce schéma
    idyllique
  • Noyaux syllabiques consonantiques
  • Consonnes syllabiques (e.g. anglais bottle
    ?????)
  • Mais aussi occlusives non voisées
  • berbère chleuh (AA, Maroc) donne-le Skt (cf.
    Ridouane (2003))
  • bella coola (Salishan, Canada) North-East wind
    sps Bagemihl (1991)
  • Analyse syllabique peu pertinente
  • Gokana (Niger-Congo, Nigéria)

ke e - e - e - e -
e wake CAUS LOG him - FOC
Hyman (1983)
27
Typologie rythmique de la di/TRI-chotomie...
  • La vision traditionnelle dichotomique
  • Deux classes rythmiques (Pike, 1945)
  • Rythme syllabique (syllable-timed) français,
    espagnol, ...
  • Rythme accentuel (stress-timed) anglais,
    néerlandais, russe
  • Puis une troisième (par ex. Ladefoged, 1975)
  • Rythme moraïque (moraic-timed) unité
    infra-syllabique (japonais, tamoul)
  • A la recherche de l'isochronie (Abercrombie,
    1967)
  • Hypothèse les langues cherchent toutes à
    régulariser les durées syllabiques ou
    interaccentuelles
  • Mise à l'épreuve (Roach, 1982, ...) pas
    concluante
  • Un continuum ?
  • Argumentation de Dauer (1983)
  • Rythme "effet de bord" de phénomènes
    phonologiques
  • Contraintes de complexité de la structure
    syllabique
  • Existence du phénomène de réduction vocalique
  • Les langues se situent sur un continuum -
    accentuel à - syllabique

28
Typologie rythmique ...au continuum
  • Existence de langues non prototypiques (Nespor,
    1990)
  • Catalan langue syllabique à réduction vocalique
  • Polonais langue à structure syllabique riche
    sans réduction vocalique
  • Continuum ou espace multidimensionnel ?
  • Auer (1993) propose une typologie en 5 "classes"
    (1 dimension)
  • Syllabique prototypique (yoruba, navaho, ...)
  • Syllabique non prototypique (japonais, hausa,
    ...)
  • Intermédiaire (français, turc, ...)
  • Accentuel non prototypique (ouzbèque, tamang,
    ...)
  • Accentuel prototypique (russe, anglais, ...)
  • Basée sur une analyse multicritère
  • Complexité syllabique (cf. aussi Levelt et Van de
    Vijver, 1998)
  • Processus phonologiques (réduction, épenthèse,
    harmonie vocalique, ...)
  • Utilisation du Fo (présence de tons -
    contrainte, accentuation, etc.)

29
Premier Bilan surles typologies rythmiques
linguistiques
  • Une typologie difficile à établir
  • Multidimensionnelle
  • Continue
  • Basée sur relativement peu de langues (max. Auer
    34 langues)
  • MAIS
  • Corrélations entre rythme et composantes
    morphosyntaxiques
  • Langues agglutinantes plutôt syllabiques
  • Autres rapprochements (ordre Tête-Complément,
    affixation, etc.) mais contestés (cf. Auer, 1993
    pour une discussion)
  • un réalité perceptuelle
  • Discrimination par des nouveaux-nés humains et
    non humains (tamarins) de stimuli
    identiques/différents en fonction de
    l'appartenance à des classes rythmiques
    (stress-timed vs. syllable-timed) (Nazzi et
    Ramus, 2003).
  • gt Existence de corrélats acoustiques du rythme

30
Correlats acoustiques un travail fondateur
typologies rythmiques
  • Travaux de thèse de Franck Ramus (e.g. Ramus et
    al., 1999)
  • 8 langues 5 énoncés (15 à 19 syllabes) /
    locutrice 4 locutrices / langues
  • Segmentation manuelle en intervalles
    consonantiques et vocaliques
  • Calcul de paramètres à l'échelle de l'énoncé
  • V quantité vocalique (rapport de la durée
    vocalique totale/durée énoncé)
  • DC écart-type de la durée des intervalles
    consonantiques
  • Limites de l'approche
  • Corpus très contraint
  • Non prise en compte de caractéristiques
    dynamiques du rythme
  • Variations
  • Enchaînements trochaïques/iambiques??

31
Correlats acoustiques Extensions,
generalisations ??
typologies rythmiques
  • Autres travaux de même type
  • Galves (2002) paramètres issus d'une échelle de
    sonorité
  • Grabe et Lowe, (2002)
  • Calcul d'indices locaux (Pairwise Variability
    Indices)

32
Correlats acoustiques Variations
typologies rythmiques
  • Variations dialectales
  • Arabe dialectal
  • Anglais britannique
  • Influence du débit de parole

DC

FR
CA
EN
V
d'après Hamdi et al., (2004)
d'après Dellwo et Wagner, (2003)
33
Typologie rythmique Modelisation
automatiqueDominey et Ramus, 2000
  • Modélisation neuromimétique du rythme
  • Réseau récurrent dédié au traitement des
    séquences temporelles
  • Les entrées du réseau sont des étiquettes C ou V
    échantillonnées toutes les 5 ms et alignées
    manuellement.
  • Données
  • Corpus spécifique (dit RNM)
  • Résultats
  • 78 de discrimination correcte pour (EN JA)
  • 52 de discrimination correcte (Hasard) pour (EN
    DU)
  • Commentaires
  • Résultats cohérents avec une prise en compte du
    rythme
  • Résultats cohérents avec sujets humains

34
Typologie rythmique Modelisation
automatiqueFarinas et al., 2005 Rouas et al.,
2005
  • Modélisation statistique de "pseudo-syllabes"
  • Segmentation automatique du signal
    (infra-phonémique)
  • Détection automatique de noyaux vocaliques
  • Segmentation en intervalles vocaliques et
    consonantiques
  • Codage en pseudo-syllabes CCV.CCV.CV.CCCV.CV.CCC
  • Paramétrage
  • Dc durée de l'intervalle consonantique
  • Dv durée de l'intervalle vocalique
  • Nc nombre de segments (complexité) de
    l'intervalle consonantique
  • Modélisation MMG dans cet espace tridimensionnel
  • Ajout de paramètres dérivés de Fo et E
    accentuation

André-Obrecht, (1988)
35
Typologie rythmique Modelisation
automatiqueFarinas et AL., 2005 Rouas et al.,
2005
  • Evaluation
  • Corpus de parole lue MULTEXT (7 langues)
  • Validation croisée (5 LANGUES)
  • Modèle de rythme seul 79 didentification
    correcte
  • Modèle  daccentuation  78 didentification
    correcte
  • Fusion 92 didentification correcte
  • Evaluation classique app/tst (très peu de
    données)
  • Fusion 86 didentification correcte (5
    langues)
  • Modèle de rythme seul 67 didentification
    correcte (7 langues)
  • Comparaison modèle GMM acoustique 99
  • Corpus de parole spontanée OGI MLTS (11 langues)
  • Identification
  • très mauvais résultats

36
Plan
  • Introduction
  • la rencontre espérée entre la typologie et la
    modélisation automatique
  • Partie I létat des lieux
  • Des données typologiques à la reconnaissance des
    langues
  • Des modèles automatiques à leur interprétation
    linguistique
  • Partie II la prosodie, terrain dinvestigation
  • Introduction
  • La dimension rythmique
  • Typologie modélisation automatique
  • La dimension tonale lexicale
  • Typologie et modélisation automatique
  • Conclusions

37
Typologie intonative lexicale
  • La vision traditionnelle
  • Langues à tons (tone languages) vietnamien,
    mandarin, yoruba
  • Exemple cantonais
  • Exemple somali "ínan" garçon vs. "inán"
    fille
  • Langues à accent tonal (pitch-accent languages)
    japonais
  • CVCVCV vs. CVCVCV (dialecte de Tokyo)
  • Langues à accent tonique (stress-accent
    languages) espagnol, anglais
  • /'pervert/ (nom) vs. /per'vert/ (verb)
  • Le Fo n'est pas forcément utilisé (réduction
    qualitative et/ou quantitative)
  • Perspectives récentes (Remijsen, 2003 Hyman,
    2005)
  • Continuum dutilisation lexicale de Fo
  • Tons à placement libre
  • Tons à placement à contraints (tons sandhi,
    neutralisation de tons)
  • Tons limités à 1 syllabe par mot (pitch-accent ?)
  • Interactions stress/tons
  • Co-existence de système de tons et de stress
    Ma'ya (Austronésien)
  • 3 tons possibles sur dernière syllabe accent

38
Modelisation de Fo et E (niveau global)
Itahashi, 1995
  • Modélisation statistique de lintonation
  • Extraction automatique du Fo
  • Approximation polygonale de la courbe de Fo
  • Calculs de paramètres sur Fo et E
  • Pentes moyennes sur les segments
  • Moments dordre supérieurs sur les segments
    (écart-type, coefficients d'asymétrie et
    d'aplatissement)
  • Analyse discriminante dans lespace des
    paramètres
  • Expériences
  • Données
  • Extraits dOGI MLTS (6 langues, 20 secondes)
  • Résultats
  • 63.3 didentification correcte
  • Commentaires
  • Approche basée sur des statistiques globales
    dérivées de la mélodie
  • Travaux non continués

39
Modelisation de Fo et E (niveau global)
ThymEGobbel Hutchins, 1999
  • Modélisation statistique de la prosodie
  • Basée sur des  syllabes  (i.e. des segments
    entre 2 minima d'énergie)
  • Paramètres intra- et inter- syllabiques dérivés
    de Fo, des durées, de lénergie
  • Comparaison statistique dhistogrammes
  • Données
  • OGI MLTS (11 langues, 45 s., discrimination par
    paires)
  • Résultats
  • 75 didentification correcte
  • Commentaires
  • Beaucoup de paramètres analysés
  • Évaluation de la corrélation avec des typologies
    prosodiques

40
Modelisation de Fo et E (dynamique) Cummings et
al., 1999
  • Modélisation neuromimétique de lintonation
  • Réseau récurrent
  • Les entrées sont des paramètres dérivés de E et
    Fo
  • Données
  • OGI MLTS (5 langues, 45 s., discrimination par
    paires)
  • Résultats
  • Entre hasard et 69 discrimination correcte
  • Commentaires
  • Meilleurs résultats avec DFo quavec DE

41
Modelisation de Fo et E (dynamique) ADAMI, 2003
  • Modélisation n-gramme de Fo et E
  • Segmentation en segments monotones par rapport à
    E et Fo
  • montée de F0 et montée de lénergie
  • montée de F0 et descente de lénergie,
  • descente de F0 et montée de lénergie,
  • descente de F0 et descente de lénergie,
  • segment non voisé.
  • Données
  • CALLFRIEND (3 langues, tâche de vérification de
    la langue)
  • Résultats
  • EER
  • Commentaires
  • Approche totalement automatique prenant en compte
    les enchaînements (et non des statistiques
    globales)

42
Modelisation de Fo et E (dynamique) Rouas, 2005
  • Modélisation n-gramme de Fo et E
  • inspiré de Adami et Fujisaki
  • Séparation en macro et micro-mélodie (ligne de
    base et résidu)
  • Étiquettes composites tenant compte des 2 niveaux
    de variations (exemple montée(M)-montée(m),
    etc.)
  • 2 niveaux temporels infra-syllabique (segments)
    ou pseudo-syllabiques
  • Données
  • MULTEXT (7 langues, parole lue, env. 20s., peu de
    données)
  • Résultats

43
Modelisation de Fo et E (dynamique) Rouas, 2005
  • Fusion des approches rythmiques (67 did.
    correcte) et intonative (71 did. correcte)
  • Extension à la parole spontanée (OGI MLTS)

44
Conclusion sur prosodie et identification
automatique
  • Typologie prosodique
  • Domaine multidimensionnel (espace continu, Fo, E,
    durées...)
  • Domaine en évolution
  • (r)évolution épistémologique (passage du
    catégoriel au continu)
  • (r)évolution en termes de données (nombre de
    langues, réanalyse...)
  • Modélisation translinguistique de la prosodie
  • Domaine récent et stimulant
  • Approches diverses pas d'état de l'art
  • Performances significatives sur la parole lue (à
    mettre en perspectives avec la typologie)
  • GROS problèmes pour la parole spontanée
  • Prise en compte du débit... (conséquences
    cognitives et typologiques)
  • gt modèles pas assez performants pour être
    compétitifs (quoique...)
  • Performances / approches phonético-phonotactiques
    sur mauvais SNR ?

45
Plan
  • Introduction
  • la rencontre espérée entre la typologie et la
    modélisation automatique
  • Partie I létat des lieux
  • Des données typologiques à la reconnaissance des
    langues
  • Des modèles automatiques à leur interprétation
    linguistique
  • Partie II la prosodie, terrain dinvestigation
  • Introduction
  • La dimension rythmique
  • Typologie modélisation automatique
  • La dimension tonale lexicale
  • Typologie et modélisation automatique
  • Conclusions

46
Intermede IIretour sur la seance de lundi PM
  • Test perceptif facteurs de difficulté
  • Test mixte
  • Identification (langue 1 puis langue 2)
  • ET
  • Discrimination (évaluation de la distance)
  • gt 2 tâches cognitives différentes et
    potentiellement interférentes
  • Absence de connaissance du nombre de langues
  • Absence d'apprentissage
  • Protocole très difficile
  • Application humaine de l'identification des
    langues ?
  • Comparaison humain/machine
  • Performance NIST 2003 lt3 EER pour 10 langues
    (extraits 30s)
  • Notre expérience d'humain (cf. ci-dessus) tâche
    difficile
  • MAIS
  • Plusieurs dizaines d'heures d'apprentissage pour
    les machines !!
  • gt amha performances quasi-parfaites pour humains
    dans les conditions de la machine

47
Conclusions GENERALES
  • Typologie automatique l'âge de pierre
  • Modèles automatiques "fusionnels" plus que
    modulaires
  • Effet "Boîte noire"
  • Dédiés à la vérification de la langue plus qu'à
    l'étude des distances linguistiques
  • Approches linguistiques doivent être confrontées
    à des corpus représentatifs
  • Étude de l'incidence des traits potentiellement
    saillants (aspiration...)
  • Convergence possible
  • Données audio disponibles pour un nombre
    important de langues
  • Possibilité de "modulariser" pour interpréter les
    performances en termes linguistiques (phonétique,
    phonotactique, prosodique)
  • Travail interdisciplinaire important à faire à
    l'interface phonético-morphophonologique
  • Variabilité phonétique en fonction de la position
    morphologique...
  • Prosodie
  • Une interface linguistique segmental/suprasegmenta
    l
  • Des modèles innovants, rudimentaires, mais
    pertinents

48
(No Transcript)
49
Abercrombie, D., (1967), Elements of General
Phonetics, Edinburgh University Press,
Edinburgh Adami, A., R. Mihaescu, D. A. Reynolds
et J. Godfrey Modeling Prosodic Dynamics for
Speaker Recognition, in proc. ICASSP, p.
788791, Hong Kong, China, 2003 André-Obrecht,
R., (1988), A New Statistical Approach for
Automatic Speech Segmentation, IEEE Trans. on
ASSP, vol. 36, n 1 Auer, P. (1993). Is a
rhythm-based typology possible? A study of the
role of prosody in phonological typology. KontRI
Working Paper 21, Hamburg UniversitaÈt
Hamburg. Bagemihl B. (1991). "Syllable structure
in Bella Coola". Linguistic Inquiry 22
589-646. Bryant, D., Filimon, F. and Gray, R.
(2005) Untangling our past Languages, Trees,
Splits and Networks. In The Evolution of
Cultural Diversity Phylogenetic Approaches.
Editors R. Mace, C. Holden, S. Shennan.
Publisher UCL Press, pp. 69-85 Cummins, F.,
Gers, F., and Schmidhuber, J., (1999), Language
identification from prosody without explicit
features, in Proc. of EUROSPEECH 99 Cysouw, M.
(2006). Identifying areas from typological
surveys. Bielefeld, Germany (28th Jahrestagung
DGfS) (pdf slides). Damashek M.1995, Gauging
Similarity with n-Grams Language Independent
Categorization of Text, Science, 10 February
1995, Vol. 267, pp. 843-8 Dauer, R. M., (1983),
Stress-timing and syllable-timing reanalyzed,
Journal of Phonetics, 11 Dellwo, V. and Wagner,
P., 2003. Relations between Language Rhythm and
Speech Rate. Proceedings of ICPhS 2003,
Barcelona, Spain, 471-474. Dominey, P. F.,
Ramus, F., (2000), Neural Network Processing of
Natural Language I. Sensitivity to Serial,
Temporal and Abstract Structure in the Infant,
Language and Cognitive Processes, 15(1) Farinas,
J., Rouas, J.L., Pellegrino, F. André-Obrecht,
R., 2005, "Extraction automatique de paramètres
prosodiques pour lidentification automatique des
langues", Traitement du Signal, 222 Fox A. 2000.
Prosodic features and Prosodic Structure, Oxford
University Press Galves, A., Garcia J., Duarte D.
Galves C., (2002),  Sonority as a Basis for
Rhythmic Class Discrimination , in proc. of the
Speech Prosody 2002 conference, 11-13 April 2002
Grabe, E. Low, E.L., (2002), Durational
Variability in Speech and the Rhythm Class
Hypothesis, Papers in Laboratory Phonology 7,
Mouton. Gray, R.D. Atkinson, Q.D. (2003).
Language-tree divergence times support the
Anatolian theory of Indo-European origin. Nature,
426, 435-439 Hamdi R., Barkat-Defradas M.,
Ferragne E. Pellegrino F., (2004), Speech
Timing and Rhythmic structure in Arabic dialects
a comparison of two approaches, in proc. of
INTERSPEECH/ICSLP 2004, October 2004 Jeju,
Korea Haspelmath, M., Matthew S. Dryer, David Gil
and Bernard Comrie (Eds). 2005. The World Atlas
of Language Structures, Oxford University
Press Hegde R. M. H. A.Murthy, 2005.
Automatic Language Identification and
Discrimination using The Modified Group Delay
Feature'', in Proc. of International Conference
on Intelligent Sensing and Information
Processing,Chennai Hombert, J.M. Maddieson, I.,
1998, "A linguistic approach to automatic
language recognition", UCLA Working Papers in
Phonetics, 96, pp. 106-118 Hyman L. 1983. "Are
there syllables in Gokana?" In J. Kaye et al
(eds), Current approaches to African linguistics,
vol. 2. Dordrecht Foris. 171179. Hyman L. 2005.
Word-Prosodic Typology, in UC Berkeley
Phonology Lab Annual Report 2005 Itahashi S., K.
Kiuchi et M. Yamamoto Spoken Language
Discrimination Using Speech Fundamental Frequency
And Cepstra, in proc. Eurospeech, Budapest,
Hungary, 1999 Ladefoged, P. (1975). A course in
phonetics. New York Harcourt Brace Jovanovich
pp.296 Levelt, C., van de Vijver, R. (1998).
Syllable types in cross-linguistic and
developmental grammars. Third Biannual Utrecht
Phonology Workshop (11-12/06/1998), Maddieson, I.
1984. Patterns of sounds. Cambridge, MA
Cambridge University Press. Maddieson, I. and K.
Precoda. 1990. Updating UPSID. UCLA Working
Papers in Phonetics 74 104-111. Martin, A. F.
M. A. Przybocki. (2003). NIST 2003 Language
Recognition Evaluation, in proc. of Eurospeech,
p.1341-1344, Geneva Morgan J. L., K. Demuth,
1996. Signal to Syntax Bootstrapping from Speech
to Grammar in Early Acquisition. Mahwah, NJ
Lawrence Erlbaum Associates. Nazzi, T. Ramus,
F. (2003). Perception and acquisition of
linguistic rhythm by infants. Speech
Communication 41(1-2), 233-243. Nespor, M.
(1990). On the rhythm parameter in phonology. In
I. M. Roca, Logical issues in language
acquisition, (pp. 157175). Dordrecht
Foris. Ohala, J. Marsico, E., 2001,
"Differentiating phonetic from phonological
events in speech", in De la caractérisation à
l'identification des langues. Actes sélectionnés
de la 1ère journée d'étude sur l'identification
automatique des langues (19/01/1999, Lyon),
Pellegrino, F. (ed), Lyon, Edition en ligne
Pike, K. L. (1945). The intonation of American
English, Ann Arbor, MI University of Michigan
Press. Ramus, F., Nespor, M., Mehler, J.,
(1999), Correlates of linguistic rhythm in the
speech signal, Cognition, 73(3) Remijsen B. 2003.
New Perspectives In Word-prosodic Typology,
IIAS Newsletter, 32, p. 29 Ridouane R. 2003.
Suites de Consonnes en Berbère Chleuh 
Phonétique et Phonologie. Thèse de doctorat,
Université Paris 3 / Sorbonne Nouvelle. Roach,
P. (1982). On the distinction between
stress-timed' and syllable-timed' languages. In
D. Crystal, Linguistic controversies, London
Edward Arnold. Rouas J.-L.. 2005. Caractérisation
et identification automatique des langues. Thèse
de doctorat, Université Paul Sabatier, Toulouse,
mars 2005. Rouas, J.L., Farinas, J., Pellegrino,
F. André-Obrecht, R., 2005, "Rhythmic Unit
Extraction and Modelling for Automatic Language
Identification", Speech Communication, 474, pp.
436-456 Thymé-Gobbel, A., Hutchins, S. E.,
(1999), Prosodic features in automatic language
identification reflect language typology, in
Proc. of ICPhS99, San Francisco, CA, USA
MERCI DE VOTRE ATTENTION
50
DET NIST LRE 2003
Hindi
English
Miss Probability ()
Vietnamese
False Alarm Probability ()
Daprès A. Martin M. Przybocki, NIST 2003 LRE
Workshop, April 28-29th, 2003
51
Exemple Dialecte East Yorkshire
Locutrice sit
Locutrice edc
70
70
65
65
60
60
55
55
50
50
45
45
40
40
35
35
Hood
Hudd
Whod
Heard
Hared
Hood
Hudd
Whod
Heard
Hared
Write a Comment
User Comments (0)
About PowerShow.com