Aucun titre de diapositive - PowerPoint PPT Presentation

1 / 58
About This Presentation
Title:

Aucun titre de diapositive

Description:

Le Signal Vocal 1. Production du signal ; Mod les de production 2. Notions sur l audition 3. Allure temporelle Analyse en fr quence Typologie des signaux (phon mes) – PowerPoint PPT presentation

Number of Views:85
Avg rating:3.0/5.0
Slides: 59
Provided by: UNS60
Category:

less

Transcript and Presenter's Notes

Title: Aucun titre de diapositive


1
Le Signal Vocal
  • 1. Production du signal Modèles de production
  • 2. Notions sur laudition
  • 3. Allure temporelle Analyse en fréquence
  • Typologie des signaux (phonèmes)
  • Représentation Temps-Fréquence,
    spectrogramme
  • Détection de la mélodie, de lintonation
  • Analyse  cepstrale  et par prédiction
    linéaire
  • 4. Transmission (compression)
  • 5. Principe de la synthèse de parole
  • 6. Données utilisées en reconnaissance de parole

http//tcts.fpms.ac.be/cours/1005-08/speech/parole
.pdf http//svr-www.eng.cam.ac.uk/ajr/SA95/node87
.html
2
1. Production du signal Modèles de production
http//perso.club-internet.fr/mantonio/condvoc.htm
3
1. Production du signal
http//mucybermu.over-blog.com/pages/Anatomie_de_l
a_voix-2436886.html
4
1. Production du signal
http//perso.club-internet.fr/mantonio/condvoc.htm
5
  • Production du signal
  • les cordes vocales

temps
http//perso.club-internet.fr/mantonio/condvoc.htm
http//mucybermu.over-blog.com/pages/Anatomie_de_l
a_voix-2436886.html
6
1. Production du signal
Wolfgang von Kempelen (1770)
http//www.ling.su.se/staff/hartmut/kemplne.htm
http//alexandria.tue.nl/extra2/200512836.pdf
7
1. Production du signal
The speech organ of Professor Faber from
1846 (from the Journal of the Acoustical Society
of America 3).
http//alexandria.tue.nl/extra2/200512836.pdf
8
1. Production du signal
Analyse et Synthèse du Signal Vocal
vers les années 1950/1960 développement de
lélectronique
vocoders à canaux reproduire lévolution de
lamplitude du signal dans quelques dizaines de
bandes spectrales
vocoders à formants trouver les 3 à 5 maxima du
spectre à court terme et reproduire ces
fréquences avec les amplitudes associées
vers les années 1960/1970 développement de
linformatique
traitement numérique et beaucoup plus de
souplesse, par exemple prédiction linéaire
9
guimbarde, chants diphoniques, arc à bouche,
didgeridoo
1. Production du signal
clics en langue xhosa en Afrique du sud
10
1. Production du signal
Synthèse numérique (ou équivalent analogique)
Signal synthétisé
Filtre récursif
Impulsions des cordes vocales (intonation) ou
bruit (fricatives)
Filtre linéaire variant lentement dans le
temps représentant les évolutions temporelles des
résonances du conduit vocal
(Sa réponse en fréquence correspond au spectre du
signal vocal)
11
1. Production du signal
temps
Cordes vocales intonation
Conduit vocal résonances
Signal sonore synthétique
fréquence
12
2. Audition
http//www.iurc.montp.inserm.fr/cric/audition/
http//www.cochlea.org
13
2. Audition
http//www.iurc.montp.inserm.fr/cric/audition/
14
2. Audition
bruit excessif
dommages irrémédiables
15
2. Audition
Phénomène de masquage (mp3)
x(n) sinusoïde masquante
q(n) sinusoïde masquée
fréquence
fréquence
Sx(f) DSP du signal
Sm(f) Seuil de masquage
http//tsi.enst.fr/moreau/activites_enseignement.
html
16
3. Analyse, description et typologie des signaux
Analyse spectrale à court terme
temps
fréquence
spectre
2500 Hz
50 ms
Spectre (log)
Spectre échelle mel
3000 Hz
2500 Hz
fréquence
fréquence Hz
17
3. Analyse
Signal vocal
temps
Zoom
quasi périodicité de lordre de 5 à 10 ms suivant
lintonation
temps
Spectre de la portion analysée formants
fréquence
harmoniques de la fréquence fondamentale
18
3. Analyse
Deux secondes de signal temporel
temps
Analyse d une portion de 100 ms
Module de la transformée de Fourier
fondamental
Formants (résonnances)
fréquence
harmoniques
spectre
19
3. Analyse
Allure temporelle des signaux
  • Voyelles et consonnes voisées

a, e, oe, i, o, u, ou, é, è, l, r
  • Voyelle et consonnes nasalisées

m, n, on, an, in, un
  • Fricatives

f, s, ch
  • Fricatives voisées

v, z, j
  • Plosives

p, t, k
  • Plosives voisées

b, d, g
sons  doubles , diphtongues, ...
w, ll
mais il y a une grande variabilité même pour un
locuteur en fonction du contexte du son prononcé,
de lintonation, de létat de santé, etc...
20
3. Analyse
 eu 
 a 
temps
temps
fréquence
fréquence
 o 
 ai 
temps
temps
fréquence
fréquence
21
3. Analyse
 u 
 i 
temps
temps
fréquence
fréquence
22
3. Analyse
 (ll)an 
 on 
temps
temps
fréquence
fréquence
 in 
temps
fréquence
23
3. Analyse
(a)ll
 m 
temps
temps
fréquence
fréquence
 n 
temps
fréquence
24
 ta 
 po 
 co 
3. Analyse
temps
temps
temps
fréquence
fréquence
fréquence
 b 
 d 
 g 
temps
temps
temps
fréquence
fréquence
fréquence
25
 s 
 f 
 ch 
3. Analyse
temps
temps
temps
fréquence
fréquence
fréquence
 z 
 v 
 j 
temps
temps
temps
fréquence
fréquence
fréquence
26
3. Analyse
fréquence
perspective
temps
spectrogramme
amplitude
fréquence
temps
chronogramme
27
3. Analyse
Spectrogramme, sonogramme, sonagramme
Evolution au cours du temps de l analyse
spectrale à court terme
fréquence
amplitude
fréquence
temps
temps
28
3. Analyse
ph
o
n
e
t
i
c
i
an
fréquence
temps
29
3. Analyse
Le  cepstre 
- Analyse de la fréquence fondamentale
chant, intonation -
Paramètres de base pour la reconnaissance
variations lentes du spectre
périodicité des harmoniques
temps
fréquence
déconvolution source (harmoniques) / conduit
(enveloppe)
30
3. Analyse
Analyse de la fréquence fondamentale chant,
intonation
4
.
temps
fréquence
fondamental
harmoniques
31
3. Analyse
Analyse de la mélodie (pitch)
fréquence
fondamental
Passe bas
temps
fréquence
harmoniques
Passe bande démodulation
temps
fondamental retrouvé par démodulation
fréquence
Passe bas sur le résultat
temps
32
4. Codage de la parole différents débits
en fonction des applications et de la qualité
acceptée
Codage à bas débit (moins de 15kbits/s)
prédiction linéaire Codage à débit moyen 16 à
32 kbits/s modulation delta
Téléphonie 8bits x 8000 éch./s 64
kbits/s Haute fidélité 16bits x 44100 éch./s
700 kbits/ MP3 144
kbits/s
33
4. Codage
Téléphonie numérique
Échantillonnage à 8kHz quantification sur 8 bits
Réduire la dynamique
Loi  mu 
34
4. Codage
Codage par modulation delta (parole) pour les
débits de 16 à 32 kBits/s
Quantification de la différence entre le signal
et sa prédiction
35
4. Codage
Principe du codage MP3
Filtrage des signaux dans différentes bandes de
fréquences
T. Cos et codage
T. Cos et codage
T. Cos et codage
Emission des données
T. Cos et codage
T. Cos et codage
Sélection des canaux utiles (effet de
masquage) 1er codage
T. Fourier
36
4. Codage
Analyse par prédiction linéaire
Canal vocal
Impusions (cordes vocales)
Signal Synthétique
Bruit (pour les fricatives)
Filtre récursif évoluant  lentement  au cours
du temps et dont la réponse en fréquence
est celle du spectre à court terme
37
4. Codage
- Calcul de 11 coefficients de corrélation sur
une portion de 25 ms (200 échantillons) -
Application de l algorithme de Levinson pour
obtenir les coefficients du filtre
récursif (sous la forme d un filtre en
treillis) - Transmission des coefficients et du
signal résiduel (erreur de prédiction) au
récepteur qui en déduit la synthèse du signal
38
Codage par prédiction linéaire
4. Codage
analyse
transmission
synthèse
calcul de corrélation algorithme de Levinson
signal analysé
signal synthétisé
filtre non récursif A(z)
coefficients du filtre A(z)
filtre récursif 1/A(z)
recherche de périodicité L (max de corrélation)
e(t)e(tL)
signal résiduel e(t)
signal résiduel e(t)
v(t)e(t)-r.e(t-L)
e(t)v(t)r.e(t-L)
L
v(t)
v(t)
quantification recherche dun élément ressemblant
à un tronçon de v(t) dans un dictionnaire
reconstruction de v(t) à partir des d(n)
étape de compression
d(n)
d(n)
39
4. Codage
Analyse par prédiction linéaire
Spectre de la portion de signal analysé
fréquence
Réponse en fréquence du filtre récursif modélisant
le signal vocal
40
4. Codage
Code Excited Linear Prediction (CELP)
Dictionnaire de signaux élémentaires
Prédiction à long terme (intonation)
Modèle du conduit vocal
génération du signal dentrée du filtre (cordes
vocales, bruit)
41
4. Codage
Illustration de l application de la prédiction
linéaire au codage de la parole en téléphonie
fréquence
temps
(Ech 11025 Hz)
temps
42
4. Codage
Coefficients de A(z)
Corrélation r(n)
Algo de Levinson ou Schur
temps
temps
Réponse impulsionnelle du filtre non récursif A(z)
Signal modélisé
Réponse impulsionnelle du filtre récursif 1/A(z)
temps
43
amplitude
4. Codage
Signal analysé
Réponse impulsionnelle du filtre récursif 1/A(z)
modélisant la production de ce signal
temps
Zéros de A(z) (pôles de 1/A(z))
Réponse en fréquence du filtre récursif 1/A(z))
fréquence
44
4. Codage
Spectre du signal résiduel
temps
L
Signal résiduel à coder - Recherche de la
périodicité (pitch prédiction à long terme on
code x(t)-x(t-L) estimer L - Quantification
vectorielle
fréquence
( bruit blanc)
On découpe le signal résiduel en
tronçons comparaison à des formes de
signal mémorisées dont on transmet le numéro
transmission des coefs du filtre
temps
45
5. Synthèse de son diphones
  • Difficultés
  • Enchainement de sons élémentaires
  • Intonation naturelle

46
5. Synthèse
Synthèse de parole
mbrola
http//tcts.fpms.ac.be/synthesis/
Découpe dun son élémentaire (p. ex. diphone) en
période de longueur double de la période du pitch
Chacun des 1000 diphones (33x33) est découpé
en 10 ou 20 sons élémentaires de 100 à 200
échantillons
47
5. Synthèse
On peut rajouter ces tronçons après les avoir
décalés et amplifiés en fonction de la mélodie,
de l intonation, ...
Plus aigu diminuer
Plus grave augmenter
Modification de l amplitude en changeant
48
6. Reconnaissance de la Parole fondée sur les
Modèles de Markov Cachés Hidden Markov Models
1. Introduction 2. Formulation en reconnaissance
de parole 2.1 Reconnaissance (Viterbi)
2.2 Probabilité dune séquence 2.3
Apprentissage 3. Mise en œuvre 3.1
Analyse spectrale à court terme 3.2
Quantification vectorielle 3.3 Forme
usuelle de lautomate
http//htk.eng.cam.ac.uk/
49
6. Reconnaissance
2. Automates utilisés dans les modèles de Markov
cachés
mesures
n
n
états
m
m
(Probabilités)
transition
Séquence détats
Séquence de mesures
probabilité de transition de létat m à létat m
probabilité de mesurer n quand lautomate
est dans létat m
probabilité que létat initial soit m
50
6. Reconnaissance
Les trois problèmes
Séquence détats
Séquence de mesures
1. Reconnaissance Y donné quelle est la S la
plus probable ?
2. Quelle est la probabilité dobserver Y avec
l automate (a,b,d) ?
3. Apprentissage comment calculer a(m,m),
b(m,n) et d(m)
51
6. Reconnaissance
Obtention de la séquence la plus probable
Algorithme de Viterbi
Calcul par récurrence de
Initialisation
Récurrence
Fin de lalgorithme
Etat m
 Treillis  pour représenter l évolution de
l automate au cours du temps
temps
52
6. Reconnaissance
Probabilité dobservation dune séquence Y avec
(a,b,d)
Calcul à t croissant
Utilisé pour comparer la pertinence de différents
automates (un automate est associé à un mot)
(aussi utilisé dans les  turbocodes en détection
d erreurs 
53
6. Reconnaissance
Apprentissage de mots (cf. notes de cours)
Calculer à partir de mesures Y de
a(m,m), b(m,n), d(m)
(lourd nécessite de nombreuses réalisations deY)
Automate usuel (Bakis)
Défauts de rythmes (doublement ou suppression
dune étape) voir aussi le  dynamic time
warping 
t
t
54
6. Reconnaissance
3. Mise en forme des données mesurées sur la
parole
F o n e t i ch
i an
Associer à une portion de signal vocal
(20ms) une mesure y(t) - Analyse spectrale à
court terme un vecteur (dim 20) -
Quantification vectorielle
55
6. Reconnaissance
Analyse spectrale à court terme
Fréquence centrale du filtre
linéaire
exponentielle
Echelle Mel
Banc de filtres
56
6. Reconnaissance
Coefficients cepstraux
Energie en sortie des différents filtres C(n)
Peuvent être liés aux coefficients de la
prédiction linéaire
57
6. Reconnaissance
les HMM nécessitent une quantification (assez
grossière) des données traitées
Passer des c(k) aux y (mesures)
Quantification vectorielle
Trouver des représentants pour des nuages de
points
Choisir des centres de classes Assigner à cette
classe les points voisins Prendre comme centre de
classe le barycentre des points
dune classe réitérer jusqu à convergence
 expectation maximization 
58
6. Reconnaissance
Toutefois, beaucoup de réglages et de
variantes Recherche  comprendre  le signal
vocal et l information qu il contient (et non
se contenter d une  simple  comparaison) Compr
endre le fonctionnement de la cochlée et du
système nerveux auditif
http//www.cochlea.org/spe/cerveau-auditif-2.html
Write a Comment
User Comments (0)
About PowerShow.com