Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? - PowerPoint PPT Presentation

1 / 119
About This Presentation
Title:

Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains?

Description:

Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du ... – PowerPoint PPT presentation

Number of Views:311
Avg rating:3.0/5.0
Slides: 120
Provided by: IvanMagri2
Category:

less

Transcript and Presenter's Notes

Title: Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains?


1
Le traitement automatiquede la parole Comment
reproduire les processus physiologiques et
cognitifs humains?
  • Ivan Magrin-Chagnolleau, CNRS
  • Laboratoire Dynamique Du Langage, Lyon
  • http//www.ddl.ish-lyon.cnrs.fr/
  • ivan_at_ieee.org

2
Plan
  1. Introduction aux processus de la communication
    parlée
  2. Analyse de la parole
  3. Synthèse de la parole
  4. Reconnaissance de la parole
  5. Reconnaissance du locuteur

3
1. Introduction aux processus de la communication
parlée
4
Quelques segments dun signal
5
Quelques propriétés du signal de parole
  • La parole est quasi-stationnaire
  • La parole est 70 du temps(pseudo-)périodique(br
    uit ou silence le reste du temps)
  • La parole est un signal large bande(il remplit
    toute la largeur de bande)
  • La parole est un signal à bande limitée(0-8000
    Hz essentiellement)

6
Anatomie de lappareil vocal (1)
7
Anatomie de lappareil vocal (2)
8
Anatomie de lappareil vocal (3)
9
Fonctionnement acoustique de lappareil vocal
  • Système acoustique excitateur résonateur
  • Trois modes de fonctionnement
  • Excitation glottique du conduit vocal
  • Excitation du conduit vocal en un point de
    constriction par un bruit découlement
  • Excitation du conduit vocal par une impulsion
    acoustique

10
Transcription phonétique du français
11
Transcription phonétique du français
12
Description acoustique de la parole
13
Voyelles orales françaises
14
Triangle vocalique
15
Représentation acoustique (ex. 1)
16
Représentation acoustique (ex. 2)
17
Grille polaire de Maeda
18
Coupes saggitales des voyelles
19
Fonctions daires des voyelles
20
Anatomie de loreille
21
Les limites de loreille
  • Loreille est à bande limitée
  • Loreille est fausse sur des sons purs
  • Loreille nest pas également sensible
  • Loreille a une résolution en temps limitée
  • Loreille a une résolution en fréquence limitée

22
2. Analyse de la parole
23
Objectifs de lanalyse de parole
  • Extraire des paramètres du signal de parole
  • afin de
  • Retirer linformation non pertinente
  • Réduire la redondance
  • Obtenir une représentation plus compacte
  • Atteindre un niveau dabstraction plus élevé
  • Définir des mesures de ressemblance simples

24
Principes
  • Prétraitement
  • Découpage en trames
  • Taille des trames
  • Décalage entre trames
  • Fenêtrage
  • Extraction de paramètres acoustiques

25
Principe dune analyse acoustique
26
Paramètres acoustiques non spectraux
  • Energie
  • Fréquence fondamentale
  • Taux de passage par zéro du signal
  • Taux de passage par zéro de la dérivée du signal

27
Lenveloppe spectrale
  • Les approches conventionnelles
  • visent à extraire des caractéristiques
  • de lenveloppe spectrale.
  • Analyse par banc de filtres
  • Analyse par prédiction linéaire
  • Coefficients cepstraux

28
Analyse par banc de filtres (1)
29
Analyse par banc de filtres (2)
30
Analyse par banc de filtres (3)
31
Analyse par prédiction linéaire (1)
  • Modélisation de la parole sous forme
  • dun filtre de prédiction linéaire

32
Analyse par prédiction linéaire (2)
33
Coefficients cepstraux
  • On applique une transformée de Fourier inverse
    sur le module du spectre logarithmique.
  • Les premiers coefficients caractérisent
    lenveloppe spectrale.

34
Linformation dynamique
  • On représente linformation dynamique par la
    dérivée première (vitesse) et la dérivée seconde
    (accélération) des paramètres cepstraux?
    paramètres deltas et deltas-deltas

35
3. Synthèse de la parole
36
La synthèse, pour quoi faire ?
  • Services de télécommunications
  • Rendre toute information écrite disponible via le
    téléphone (horaires de cinéma, horaires de train,
    informations routières, état dun compte en
    banque, dernière facture téléphonique, etc.)
  • Applications en bureautique
  • Terminaux parlants, lecture des emails par la
    voix, etc.
  • Applications dans les transports
  • Information dans les automobiles, aide à
    lexploitation des trains, lecture de cadrans
    dans les avions, etc.
  • Aide aux personnes handicapées
  • Un handicapé peut sexprimer par le biais dun
    synthétiseur (cours du célèbre astrophysicien
    Stephen Hawking)
  • Apprentissage des langues étrangères
  • Dictionnaires électronique avec prononciation
    intégrée, logiciels dapprentissage des langues
    étrangères, traduction automatique, etc.
  • Livres et jouets parlants
  • À lusage des enfants en bas âge
  • Communication naturelle avec la machine

37
Structure dun système de synthèse
SYNTHESE DE LA PAROLE A PARTIR DU TEXTE
TRAITEMENT DU LANGAGE NATUREL Formalismes
linguistiques Moteurs dinférence Inférences
logiques
TRAITEMENT DU SIGNAL NUMERIQUE Modèles
mathématiques Algorithmes Calculs numériques
Parole
Texte
Phonèmes
Prosodie
38
Traitement du langage naturel
Texte
Pré-processeur
Analyseur morphologique
Analyseur contextuel
Structure de données
Analyseur syntaxique- prosodique
Phonétiseur
Générateur de prosodie
Phonèmes
Prosodie
39
Analyse morpho-syntaxique
40
Phonétisation (1)
41
Phonétisation (2)
42
Synthétiseur par prédiction linéaire
43
Synthétiseur à formants
44
Synthèse par règles (1)
45
Synthèse par règles (2)
46
Synthèse par concaténation dunités
47
Quest-ce quun diphone ?
48
Concaténation de diphones
49
Prosodie la musique de la parole
50
Exemples
  • ICP-Grenoble (F), 1993
  • CNET-Lannion (F), 1993 (TD-PSOLA)
  • KTH-Stockholm (S), 1993
  • LAIP-Lausanne (CH), 1996 (MBR PSO)
  • University-Mons (B), 1993 (LPC)
  • University-Mons (B), 1993 (MBE)
  • University-Mons (B), 1993 (MBR PSO)
  • University-Mons (B), 1993 (TD PSO)

51
Liens Internet sur la synthèse
  • http//tcts.fpms.ac.be/synthesis/mbrola.html
  • http//www.bell-labs.com/project/tts/examples
  • http//www.cstr.ed.ac.uk/projects/festival/
  • http//www.research.att.com/projects/tts/

52
4. Reconnaissance de la parole
53
Objectifs
  • Transformer un signal de parole en
  • Texte (dictée vocale, transcription)
  • Action (commande vocale, systèmes de dialogue)
  • Information indexée (annotation, indexation)

54
Les sources de variabilité
  • Les facteurs intra-locuteurs co-articulation,
    variation dans la prononciation, etc.
  • Les facteurs inter-locuteurs physiologie, age,
    sexe, psychologie, familiarité avec
    lapplication, etc.
  • Lenvironnement bruit, micro, canal de
    transmission, présence dautres locuteurs, etc.

55
Variabilité intra- et inter-locuteur
56
Variabilité intra-locuteur
57
Typologie des systèmes
  • Type de parole
  • Taille du vocabulaire
  • Niveau de dépendance par rapport aux locuteurs
  • Environnement dutilisation
  • Profil des utilisateurs potentiels

58
Type de parole
  • Mots isolés
  • Mots connectés
  • Détection de mots clés
  • Parole contrainte
  • Parole continue
  • Parole spontanée

59
Taille du vocabulaire
  • Quelques mots (5 50)
  • Petit vocabulaire (50 500)
  • Vocabulaire moyen (500 5000)
  • Grand vocabulaire (5000 50000)
  • Très grand vocabulaire (gt 50000)

60
Dépendance au locuteur
  • Dépendant du locuteur le système fonctionne
    correctement avec un utilisateur particulier
  • Adaptation au locuteur utilise quelques données
    spécifiquesdun locuteur pour adapter le
    systèmeà une nouvelle voix
  • Indépendant du locuteur le système fonctionne
    avec nimporte quel utilisateur

61
Environnement dutilisation
  • Parole large-bande(ordinateur, etc.)
  • Parole bande-étroite avec distorsion (téléphone,
    etc.)
  • Environnement calme (bureau micro-casque)
  • Bruit de fond

62
Profil des utilisateurs potentiels
  • Utilisation professionnelle par des spécialistes
  • Grand public
  • Entraîné / naïf
  • Fréquent / occasionnel
  • Utilité
  • Coopération

63
Deux exemples
  • Dictée vocale
  • Parole continue
  • Grand vocabulaire
  • Adaptation au locuteur
  • Bureaumicro-casque
  • Utilisateurs dordinateurs
  • Service téléphonique
  • Détection de mots clés
  • Quelques mots
  • Indépendant du locuteur
  • Parole téléphonique
  • Grand public

64
Système de reconnaissance de mots
65
Programmation dynamique (DTW)
66
Contraintes locales
67
Contraintes locales exemple
68
Modèle de Markov caché principe
69
Modèles de Markov cachés (HMM)
70
Viterbi exemple
71
Algorithme de Viterbi exercice
72
Les trois composantes dun système
  • Les modèles acoustiques
  • Pour transformer des paramètres acoustiques en
    phonèmes (ou parfois directement des mots)
  • Le lexique
  • Pour transformer une suite de phonèmes en mots
  • Le modèle de langage
  • Pour transformer une suite de mots en phrases

73
Modèles acoustiques (1)
74
Modèles acoustiques (2)
Le mot américain
75
Modèles de langage
  • A un instant donné, tous les mots nont pas la
    même probabilité de présence
  • Le petit chat boit du
  • Grammaires probabilistes toutes les phrases
    sont possibles mais avec des probabilités
    différentes
  • Grammaires à états finis partition binaire des
    séquences de mots en séquences possibles et
    séquences impossibles

76
Modèle acoustique Modèle de langage
77
Performances
78
Recherche actuelle
79
5. Reconnaissance du locuteur
80
Définition de la RAL
  • Reconnaissance automatique du locuteur
    (RAL)reconnaître lidentité dune personne à
    partir dun enregistrement de sa voix à laide
    dune technique entièrement automatique, et donc
    reproductible.

81
Un domaine pluri-disciplinaire
ergonomie
traitement du signal
phonétique
théorie de la décision
S T I C
RAL
S H S
théorie de linformation
linguistique
reconnaissance des formes
statistiques
probabilités
82
Typologie des tâches
  • Identification du locuteur en ensemble fermé
  • Vérification du locuteur
  • Identification du locuteur en ensemble ouvert
  • Suivi de locuteurs
  • Détection de changement de locuteur
  • Segmentation par locuteurs
  • Classes de locuteurs
  • Adaptation au locuteur

83
Niveau de dépendance au texte
  • Systèmes à mot de passe individuel, fixe
  • Systèmes à mot de passe commun, fixe
  • Systèmes à vocabulaire fixe (ordre des mots
    variables)
  • Systèmes à texte imprédictible (imposé par le
    système)
  • Systèmes dépendant dun évènement phonétique
  • Systèmes à texte totalement libre

84
Typologie des erreurs
  • Identification du locuteur en ensemble fermé
  • Mauvaise classification
  • NOMBRE DE LOCUTEURS
  • Vérification du locuteur
  • Fausse acceptation (non détection)
  • Faux rejet (fausse alarme)
  • EER (taux dégale erreur)
  • SEUIL DE DECISION

85
Empreinte ou signature ?
  • Motivations
  • Caractéristiques physiologiques
  • Origine géographique
  • Contexte socioculturel
  • Difficultés
  • Non reproductibilité (état de santé, facteurs
    psychologiques, état émotionnel, âge, etc.) ?
    dérive temporelle de la voix
  • Bruits ambiants, canal de transmission
  • Modifications intentionnelles (masquage,
    imitation)
  • ? pas dempreinte vocalemais plutôt une
    signature vocale

86
Et lhomme ?
  • Lhomme nest pas particulièrement bon pour ce
    type de tâche.
  • Il faut beaucoup dentraînement pour y arriver.
  • Même sur des voix familières, on a parfois des
    difficultés.
  • Cest encore plus dur à travers le téléphone.
  • Quand cest possible, on utilise plutôt le visage.

87
Les enjeux scientifiques de la RAL
  • Quelles sont les informations utilisées par
    lhomme pour reconnaître une voix ?
  • Faut-il utiliser les mêmes dans un système
    automatique ?
  • Quelles sont les informations extractibles dun
    enregistrement dune voix ?
  • Comment faire un modèle de locuteur ?

88
Comment reconnaître une personne ?
  • Quelles informations ?
  • Spectrales (analyse acoustique)
  • Phonétiques (façon de prononcer les sons)
  • Idiolectales (façon dutiliser les mots)
  • Prosodiques (intensité, hauteur, longueur)
  • Comment les exploiter ?
  • Modèles statistiques
  • Réseaux de neurones
  • Réseaux bayésiens

89
Les enjeux applicatifs de la RAL
  • Surtout vérification
  • 3 grandes familles
  • Applications sur site
  • Applications télécoms
  • Applications policières / judiciaires
  • Mais aussi
  • Organisation de linformation
  • Jeux
  • Etc.

90
Applications sur site
  • La personne doit être physiquement présente en un
    lieu précis
  • Serrure vocale (pour des locaux, un compte
    informatique, etc.)
  • Interactivité matérielle (retrait dargent à un
    guichet automatique, etc.)
  • Environnement contrôlable
  • Système dissuasif
  • Lutilisateur peut porter sur lui ses
    caractéristiques vocales
  • Possibilité de techniques additionnelles de
    vérification de lidentité
  • Possibilité dintervention humaine

91
Applications télécoms
  • La vérification sopère à distance
  • Accès à des services pour des abonnés (serveurs,
    données, etc.)
  • Transactions à distance (opérations bancaires,
    paiements par carte bancaire, etc.)
  • Signal de mauvaise qualité et fluctuant
  • Dissuasion médiocre (anonymat)
  • Les caractéristiques vocales doivent être
    centralisées
  • Difficulté à implanter dautres techniques de
    vérification de lidentité
  • Pas dintervention humaine possible

92
Applications policières/judiciares
  • Recherche de suspects, déléments de preuve, de
    preuves, etc.
  • Tests auditifs par des experts
  • Lecture de spectrogrammes par des experts
  • Méthodes (semi-)automatiques
  • Identification ou vérification
  • Pas de contraintes de temps réel
  • Très importante hétérogénéité des enregistrements
  • Possibilité de modifications intentionnelles
  • Indépendance au texte souhaitable
  • ? Nécessité dune précaution extrêmepas toujours
    garantie

93
Mais aussi
  • Organisation de linformation
  • Structuration, archivage de documents sonores
  • Navigation dans ces documents
  • Jeux
  • Augmenter linteractivité
  • Utilisation de profils de joueurs
  • Personnalisation des services
  • Stocker un profil dutilisateur pour accéder plus
    rapidement à des services

94
Les enjeux applicatifs conclusion
  • La technologie est prête pour des applications ne
    nécessitant pas un niveau de sécurité très élevé.
  • Lergonomie peut pallier certaines faiblesses des
    algorithmes.
  • La parole nest pas le moyen le plus robuste en
    vérification de lidentité, mais cest lun des
    plus naturels (avec la reconnaissance de visage).
  • Il est nécessaire dinformer largement les
    milieux policiers et judiciaires des limites de
    la reconnaissance du locuteur.

95
Les enjeux stratégiques
  • Ecoutes téléphoniques
  • Protection de la démocratie ?
  • Intrusion dans la vie privée ?
  • Recherche de suspects / Authentification
  • Le corbeau de laffaire Grégory
  • La cassette Ben Laden

96
Historique
  • Trois étapes
  • Reconnaissance par lécoute faite par des
    experts (à partir de 1940)
  • Reconnaissance par la lecture de spectrogrammes
    réalisée par des experts (de 1960 à 1970)
  • Reconnaissance par des systèmes automatiques (ou
    pseudo-automatiques)(à partir de 1970)

97
Reconnaissance par lécoute
  • Tests par paires

98
Reconnaissance par spectrogrammes
99
Reconnaissance automatique
  • Systèmes reposant sur des modélisations
    statistiques
  • Ordres de grandeur pour la vérification (EER)
  • En laboratoire
  • Pour des applications commerciales
  • Performances connues mais non publiques
  • Jugées suffisantes pour quelques produits
    pionniers
  • Pour des applications policières / judiciaires
  • Performances évaluées ?

conditions idéales parole téléphonique(lignes fixes)
dépendant du texte lt0.1 0.5 à 2
indépendant du texte 0.5 à 1 5 à 10
100
Composantes dun système
  • Une phase dapprentissage
  • Construction dun modèle de locuteur
  • Une phase de test
  • Comparaison entre un énoncé et un modèle de
    locuteur

101
Phase dapprentissage
analyse
signal
paramètres
modélisation
Dictionnaire de modèles de référence
identité
ENTREES
SORTIE
102
Phase de test en identification
analyse
signal
paramètres
modélisation
ENTREE
comparaison
Scores
décision
SORTIE
103
Phase de test en vérification
analyse
paramètres
modélisation
signal
comparaison
identité
ENTREES
Score
décision
SORTIE
104
La phase de paramétrisation
105
Paramètres danalyse
  • Paramètres spectraux
  • Analyse par banc de filtres ou analyse LPC
  • Transformation cepstrale
  • Paramètres delta (et delta-delta)
  • Paramètres prosodiques
  • (Log-énergie et) delta-Log-énergie
  • Fréquence fondamentale
  • Paramètres de durée
  • ? Existe-t-il des paramètres spécifiquesà la
    reconnaissance du locuteur?

106
Modélisation
  • Les précurseurs
  • Programmation dynamique (DTW)
  • Quantification vectorielle (VQ)
  • Modèles de Markov cachés (HMM)
  • Réseaux de neurones (NN)
  • Modèles auto-régressifs vectoriels (ARVM)
  • Modèles par mélange de Gaussiennes (GMM)

107
Les précurseurs
  • PRUZANSKY 1963
  • Mesure de corrélation entre spectres à long terme
  • ATAL 1968
  • Utilisation de contours prosodiques normalisés
  • BRICKER 1971
  • Mesure de Mahalanobis sur spectres à long terme

108
Programmation dynamique (DTW)
DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.
109
Quantification vectorielle (VQ)
SOONG, ROSENBERG 1987
110
Modèles de Markov cachés (HMM)
ROSENBERG 1990, TSENG 1992
111
Modèles de Markov cachés (HMM)
PORITZ 1982, SAVIC 1990
112
Modèles par mélange de Gaussiennes(GMM)
REYNOLDS 1995
113
La phase de décision
  • Calcul dun score
  • Avec le modèle de locuteur considéré
  • Avec un modèle du monde
  • Rapport entre les deux scores
  • Comparaison à un seuil
  • Si supérieur au seuil, on accepte
  • Si inférieur au seuil, on rejette

114
Lévaluation
  • EER fausse acceptation faux rejet
  • Courbe DET
  • Les évaluations NIST

115
La caractérisation du locuteur à DDL
  • Recherche dune technique danalyse du signal
    plus adaptée
  • Amélioration des modèles statistiques et
    recherche dalgorithmes plus efficaces pour les
    apprendre
  • Intégration des informations prosodiques dans les
    systèmes
  • Modélisation de la dérive temporelle de la voix
  • Utilisation de la reconnaissance du locuteur dans
    des tâches dindexation sonore

116
Conclusion sur la RAL
  • Domaine pluridisciplinaire nécessitant des
    connaissances multiples
  • Bonnes performances sur des données propres et en
    laboratoire, mais très insuffisantes pour des
    domaines nécessitant un haut degré de sécurité ou
    le domaine judiciaire
  • On peut parler de signature vocale mais pas
    dempreinte vocale

117
Perspectives de la RAL
  • Améliorer les systèmes
  • Nouvelles sources dinformation (prosodie)
  • Analyse du signal plus adaptée
  • Meilleurs modèles statistiques
  • Robustesse (meilleure prise en compte de la
    variabilité)
  • Etude de la dérive temporelle de la voix
  • Autres tâches
  • Segmentation par locuteurs
  • Indexation par locuteurs

118
Discussion sur une actualité récente
  • La vérification didentité dans les milieux
    judiciaires
  • Laffaire Grégory la cassette Ben Laden
  • Des articles de journaux la semaine dernière
  • La prise de position des scientifiques français

119
Bibliographie
  • R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and
    H. Leich. Traitement de la parole. Presses
    Polytechniques Romandes.
  • Calliope. La parole et son traitement
    automatique. Masson, 1989.
Write a Comment
User Comments (0)
About PowerShow.com