Conversion de voix pour la synthse vocale - PowerPoint PPT Presentation

1 / 38
About This Presentation
Title:

Conversion de voix pour la synthse vocale

Description:

Ajustement de l'enveloppe spectrale apr s une modification de pitch [Tanaka, Stylianou] Exploiter la corr lation entre les informations li es au timbre et au pitch ... – PowerPoint PPT presentation

Number of Views:304
Avg rating:3.0/5.0
Slides: 39
Provided by: taoufike
Category:

less

Transcript and Presenter's Notes

Title: Conversion de voix pour la synthse vocale


1
Conversion de voix pour la synthèse vocale
Taoufik En-Najjary
Ce travail a été effectué dans le laboratoire
SSTP de la division RD de France Télécom-Lannion
2
Plan
  • Cadre de létude
  • Conversion du timbre
  • " du pitch
  • " conjointe du timbre et du pitch
  • " avec des bases non parallèles
  • Conclusion et perspectives

3
Cadre de l'étude
  • Définition modifier le signal de parole dun
    locuteur source de telle façon que le signal
    résultant semble avoir été prononcé par le
    locuteur cible
  • Nous nous intéressons à la conversion de voix
    dans le cadre de la synthèse de la parole à
    partir du texte
  • Exemples d'application
  • Diversification des voix de synthèse
  • Unification de messages vocaux
  • Doublage de films

4
Cadre de l'étude
  • Créations de corpus pour la synthèse fastidieux
    et coûteux
  • Enregistrement du corpus 10 heures de parole
    environ
  • Traitements associés aux bases (phonétisation,
    segmentation, vérification)
  • Plusieurs mois pour créer une nouvelle voix !
  • Problèmes à résoudre
  • Quels sont les paramètres caractéristiques de
    lidentité vocale ?
  • Comment apprendre une nouvelle voix ?
  • Comment transformer une voix ?

5
Production de la parole
  • Interaction entre les systèmes neurologique et
    physiologique
  • Processus physiologique
  • Production dune source vocale
  • Modifié par le conduit vocal
  • Bruit d'aspiration
  • Bruit de friction
  • Plosion
  • Voisement
  • Représentation du signal de parole
  • Prédiction linéaire
  • Modèle source-filtre

6
Le modèle source-filtre
V/NV
cavité nasale
lèvres
cavité buccale
Glotte
Signal de parole
Source
Filtre
Enveloppe spectrale
7
Paramètres caractéristiques de lidentité vocale
  • Niveau trame
  • Enveloppe spectrale (timbre)
  • Pitch
  • Signal glottique
  • Niveau segmental
  • Evolution des paramètres du niveau trame
  • Acoustique (trajectoires des formants)
  • Prosodique (contours de pitch et dénergie, durée
    des phonèmes, )
  • Informations liées au style délocution
  • Niveau linguistique
  • Choix des mots, dialectes, accents régionaux, ...

8
Principes de la conversion de voix
  • Phase dapprentissage

Modèle
Source
Cible
Fonction de conversion
paramètres
paramètres
Analyse
Analyse
parole
parole
Alignement
  • Phase de transformation

Modèle
Source
Paramètres source
Paramètres convertis
Analyse
Synthèse
Fonction de conversion
parole
parole convertie
résidu
9
Objectif de la thèse
  • Etat de l'art
  • Transformation du timbre (LSF, cepstre, formants,
    )
  • Normalisation de la fréquence fondamentale
  • Contributions
  • Choix de la modélisation spectrale pour la
    conversion du timbre
  • Proposition d'une nouvelle méthode de conversion
    du pitch
  • Conversion de voix sur des corpus non parallèles

10
Plan
  • Cadre de létude
  • Conversion du timbre
  • " du pitch
  • " du timbre et du pitch
  • " avec des bases non parallèles
  • Conclusion et perspectives

11
Conversion du timbre
  • Quantification vectorielle Abe88, Arsalan
  • Régression linéaire Hermansky89, Valbret92
  • DFW Valbret92
  • Réseaux de neurones Narendranath95
  • Modèle de mélange de gaussiennes (GMM)
    Stylianou95, Kain98, Chen03
  • GMM une technique de référence pour la
    conversion du timbre

12
Conversion du timbre par GMM
  • Alignement des trames source x et cible y
  • Modélisation de la densité jointe z(x,y) par GMM
  • Apprentissage des paramètres par algorithme EM
  • Fonction de transformation

13
Quelle paramétrisation ?
  • Comparaison des modélisations de l'enveloppe
    spectrale par paramètres LSF et cepstre discret
  • Base de données utilisées corpus Agnès et
    Philippe
  • Test objectifs
  • Distorsion spectrale
  • Les deux paramétrisations conduisent à des
    résultats similaires

14
Quelle paramétrisation ?
  • Evaluation subjective
  • Nécessité de combiner modifications du timbre et
    du pitch
  • Problème origine des dégradations difficile à
    identifier
  • Comparaison de la qualité de codage des
    paramètres LSF et cepstre discret par test MOS
  • 20 phrases de test
  • 12 auditeurs
  • Notation sur une échelle à 5 niveaux
  • Résultats du tests
  • Cepstre discret MOS 4.3
  • LSF MOS 4.2
  • Comparaison des paires de notes
  • 93 des phrases sont jugées équivalentes
  • 7 des phrases donnent la préférence au cepstre
    discret (MOS2)

15
Quelle paramétrisation ?
  • Mesures objectives similaires
  • Le cepstre discret permet une qualité de codage
    meilleure que les paramètres LSF
  • La stabilité des filtres LSF transformés non
    garantie
  • Choix du cepstre discret pour le reste du
    travail

16
Plan
  • Cadre de létude
  • Conversion du timbre
  • Conversion du pitch
  • " conjointe du timbre et du pitch
  • " sur des bases non parallèles
  • Conclusion et perspectives

17
Conversion du pitch
  • Etat de l'art
  • Normalisation globale du pitch
  • Transformations linéaires par morceaux Gillet03
  • Aucune méthode de conversion ne permet de
    refléter des différences de style prosodique
    entre deux locuteurs
  • Observations
  • Dépendance entre le pitch et l'enveloppe
    spectrale Syrdal
  • Ajustement de l'enveloppe spectrale après une
    modification de pitch Tanaka, Stylianou
  • Exploiter la corrélation entre les
    informations liées au timbre et au pitch
  • Deux approches
  • Prédiction du pitch à partir de l'enveloppe
    spectrale convertie
  • Conversion conjointe du timbre et du pitch

18
Prédiction du pitch (1)
  • Normalisation du pitch
  • Modélisation conjointe du cepstre discret et du
    pitch normalisé de la cible par GMM
  • Estimation des paramètres GMM par algorithme EM
  • Fonction de prédiction du pitch

19
Prédiction du pitch (2)
20
Prédiction du pitch en conversion de voix
  • Mise en oeuvre en conversion de voix
  • Conversion du timbre par GMM
  • Prédiction du pitch à partir du timbre converti
  • Performances
  • Bonne prédiction de pitch quand le timbre est
    bien converti
  • Mais manque de robustesse

Source
Paramètres spectraux
Paramètres spectraux
Conversion du timbre
Analyse
Synthèse
Pitch
parole convertie
Prédiction du pitch
parole
Résidu
Approche proposée conversion conjointe de
lenveloppe spectrale et du pitch
21
Plan
  • Cadre de létude
  • Conversion du timbre
  • " du pitch
  • Conversion conjointe du timbre et du pitch
  • " avec des bases non parallèles
  • Conclusion et perspectives

22
Conversion conjointe du timbre et du pitch (1)
Phase dapprentissage
  • Fonction de conversion pour les trames voisées
  • Vecteurs paramètres coefficients cepstraux
    pitch normalisé
  • Modélisation de la densité conjointe de la source
    et de la cible par GMM

Cible
Source
Paramètres cepstraux
Paramètres cepstraux
Fonction de conversion conjointe
Analyse HNM
Analyse HNM
parole
parole
  • Pour les trames non voisées seuls les
    coefficients cepstraux sont utilisés

23
Conversion conjointe du timbre et du pitch (2)
Phase de transformation
pitch
normalisation
denormalisation
Source
Fonction de conversion conjointe
V
V
Synthèse HNM
Analyse HNM
Coefficients cepstraux
V/NV?
NV
NV
Fonction de conversion du timbre
Parole
Coefficients cepstraux
Parole convertie
Résidu
24
Conversion conjointe évaluation objective (1)
  • Mesure objective Distorsion de pitch normalisée

25
Conversion conjointe évaluation objective (2)
  • Mesure objective distorsion spectrale
    normalisée

Agnès -gt Philippe
Philippe -gt Agnès
  • La conversion conjointe améliore la conversion de
    l'enveloppe spectrale

(b)
26
Conversion conjointe évaluation subjective (1)
  • A quoi comparer la conversion conjointe ?
  • La conversion classique conversion du
    timbrenormalisation du pitch
  • Plaquage acoustique parole source sur laquelle
    sont calqués le timbre et le pitch de la cible
  • La parole naturelle
  • Evaluation subjective (test MOS)
  • 20 phrases
  • 12 auditeurs

27
Conversion conjointe Evaluation subjective (2)
  • Test 1 Comparaison des conversions conjointe et
    classique
  • MOS
  • 3.63 pour la conversion conjointe
  • 2.44 pour la conversion classique
  • Comparaison des paires de notes
  • 71.25 donnent la préférence à la conversion
    conjointe
  • 26.25 des phrases sont jugées équivalentes
  • 2.5 donnent la préférence à la conversion
    classique

28
Conversion conjointe évaluation subjevtive (3)
  • Test 2 Comparaison de la conversion conjointe
    avec le plaquage acoustique et la parole
    naturelle
  • MOS
  • Conjointe 2.76
  • Plaquage 3.22
  • Naturelle 5
  • Comparaison de paires de notes
  • Conjointe gt plaquage 12.8
  • Conjointe plaquage 37.2
  • Plaquage gt conjointe 48

29
Conversion conjointe démonstration
Source
  • Cible

Conversion conjointe
  • Conversion
  • classique

Plaquage acoustique
30
Plan
  • Cadre de létude
  • Conversion du timbre
  • " du pitch
  • " conjointe du timbre et du pitch
  • Conversion avec des bases non parallèles
  • Conclusion et perspectives

31
Conversion avec des corpus non parallèles (1)
  • Problème comment caractériser le parallélisme
    de deux corpus ?
  • Correspondance phonétique prérequis minimal
  • Correspondance prosodique (symbolique)
  • Intérêt de l'utilisation de corpus non parallèles
    rendre la conversion de voix plus réaliste
  • État de l'art
  • Adaptation au locuteur par HMM
  • Composition de plusieurs fonctions de
    transformation apprises sur des corpus parallèles
  • Qualité de parole convertie jugée médiocre /
    corpus parallèles
  • Méthode proposée utiliser de la parole générée
    par un système de synthèse par corpus comme base
    d'apprentissage

32
Conversion avec des corpus non parallèles (2)
  • Type de transformation
  • Référence -gt cible
  • Source -gt référence
  • Source -gt cible (cas général)

33
Conversion avec des corpus non parallèles (3)
  • Évaluation objective
  • Distorsion spectrale

34
Conversion avec corpus non parallèles (4)
  • Evaluation subjective
  • MOS
  • 2.98 pour un conversion parallèle
  • 2.75 non parallèles
  • Comparaison des paires de notes
  • PgtNP 43
  • PNP 38
  • NPgtP 21

35
Conversion avec des corpus non parallèles (5)
Source
Cible
Non parallèles
Parallèles
36
Plan
  • Cadre de létude
  • Conversion du timbre
  • " du pitch
  • " conjointe du timbre et du pitch
  • " avec des bases non parallèles
  • Conclusion et perspectives

37
Conclusion
  • Principales réalisations
  • Prédiction du pitch précise
  • Transformation locale de la fréquence
    fondamentale
  • Conversion du timbre plus robuste
  • Adaptation d'un système de conversion dans le cas
    de corpus non parallèles

38
Perspectives
  • Evaluation des techniques proposées
  • Evaluation sur d'autres bases de données
  • Evaluation de la conversion non parallèle dans le
    cas général
  • Modélisation du signal
  • Tenir explicitement compte des caractéristiques
    du signal glottique
  • Conversion à l'échelle segmentale
  • Prendre en compte la dépendance temporelle entre
    trames
  • Utiliser des modèles prosodiques qui
    permettraient de transformer le rythme et
    lintonation
Write a Comment
User Comments (0)
About PowerShow.com