Procesamiento de seales de voz - PowerPoint PPT Presentation

1 / 67
About This Presentation
Title:

Procesamiento de seales de voz

Description:

Resoluci n de intensidad: 1 dB. ATV 2002 Dpto. Electr nica y Tecn. Computadores - UGR ... Resoluci n en intensidad: Mejor de 1 dB. Mecanismos de adaptaci n. ... – PowerPoint PPT presentation

Number of Views:220
Avg rating:3.0/5.0
Slides: 68
Provided by: cere2
Category:
Tags: db | procesamiento | seales | voz

less

Transcript and Presenter's Notes

Title: Procesamiento de seales de voz


1
Procesamiento de señales de voz
2
La comunicación oral
3
Qué es la voz?
  • Onda de sonido (onda de presión)
  • Producida por el aparato fonador
  • Utilizada para comunicación (para transmisión de
    mensajes)

4
Cuestiones varias
  • Qué relación hay entre los fonemas y la señal de
    voz?
  • Y entre otras características y la señal de voz?
  • Cómo podemos analizar las características de la
    voz?
  • Cómo se manifiesta una patología de la voz en la
    señal?
  • Cómo podemos ajustar un sistema de ayuda a la
    audición para optimizar la comprensión de la voz?
  • Cómo podemos interpretar un error en la
    producción de un fonema?
  • Cómo podemos interpretar un error en detección o
    identificación de fonemas?

5
Procesamiento de voz
  • Análisis de voz
  • Codificación y comprensión de voz
  • Síntesis de voz
  • Reconocimiento automático de voz
  • Reconocimiento y verificación de locutores
  • Detección de patologías
  • Diseño de ayudas para la audición

6
Qué es la voz?
  • Producción de la voz
  • Percepción de la voz
  • Procesamiento de señales
  • Dificultades al intentar relacionar la señal con
    las características

7
Problemas del procesamiento de voz
  • Variabilidad
  • Intra-locutor (estado salud / ánimo, velocidad)
  • Inter-locutor
  • Adquisición
  • Continuidad concatenación y coarticulación
  • Información contenida en la señal de voz muy
    redundante
  • Multi-interactividad entre niveles
  • Nivel fonético
  • Características suprasegmentales
  • Nivel semántico contexto suplencia mental
  • Ruido perturbación efecto Lombard

8
  • Variabilidad de las señales de voz
  • 40 ms correspondientes al fonema /a/

9
Modelos de producción de voz
  • Órganos de producción de voz
  • Cavidades infraglóticas
  • Cavidad laríngea (cuerdas vocales)
  • Cavidades supraglóticas
  • Provisión de aire
  • Generación de la onda glotal
  • Filtrado de la onda glotal (diversificación
    fonética)

10
Modelo acústico de producción de voz
  • Onda acústica onda de presión en el aire con c
    350 m/s
  • Longitud de onda l c / f
  • Para 100 Hz, l 3.5 m
  • Para 4 kHz, l 8.75 cm
  • Producción de sonido
  • Fonemas sonoros vibración cuerdas vocales
  • Fonemas sordos flujo turbulento
  • Fonemas oclusivos obstrucción apertura

11
Modelo acústico de producción de voz (II)
  • Paredes no rígidas
  • Pérdidas onda acústica
  • Forma y sección del tracto vocal varía en el
    tiempo
  • Se producen entre 5 y 20 fonemas por segundo
  • Acoplamiento de la cavidad nasal mediante
    desplazamiento del velo del paladar

12
Simplificaciones
  • Tracto vocal tubo rígido descrito por la función
    de área A(x,t)
  • Como l gt radio del tubo, aproximación de onda
    plana
  • (El problema de contorno tridimensional se puede
    reducir a un problema unidimensional)
  • Se desprecian pérdidas por viscosidad, conducción
    térmica en aire y paredes del tubo

13
Función de área
14
Ecuaciones de onda
15
Condiciones de contorno
  • Glotis vibración cuerdas vocales
  • Labios p(L)0
  • Onda proporcional a u(L)

Solución de las ecuaciones de onda
  • A se puede suponer constante en el tiempo
    (condición de quasi-estacionariedad)
  • Para A(x) sencilla, soluciones analíticas
  • Para A(x) compleja, métodos numéricos
  • Medidas de A(x) Rx, TAC, RMN, articulógraf.

16
Pérdidas por elasticidad
  • mw masa/unid.long
  • bw cte. amortiguación
  • kw cte. recuperación elástica
  • Solución para
  • L 17.5 cm
  • A cte 5.0 cm2

17
u(L,f) / uG(f)
18
Formantes
  • Formantes resonancias del tracto vocal
  • Por las dimensiones y la velocidad de propagación
    del sonido, aparece en promedio 1 formante por
    cada kHz
  • El tracto vocal filtra la onda glotal
    amplifica cada componente de frecuencia con una
    determinada ganancia

19
Pérdidas por radiación de onda
  • p(L) 0 no es cierto
  • Impedancia acústica Z
  • Impedancia para abertura circular de radio a en
    plano infinito
  • El filtrado del tracto vocal considerando las
    perdidas por radiación es distinto
  • Caída para altas frecuencias
  • 6 dB / década

20
u(L,f) / uG(f)
21
Solución numérica para función de área
correspondiente a fonema /a/
22
Acoplamiento del tracto nasal
23
Modelo acústico de producción de voz
  • Excitación
  • Fonemas sonoros
  • Fonemas sordos
  • Fonemas oclusivos
  • Filtrado por tracto vocal / nasal
  • Formantes (1 por kHz)
  • Caída 6 dB/década

24
Modelo digital de producción de voz
25
Características de la voz
  • Excitación
  • Sonoro (freq. fundamental o pitch)
  • Sordo
  • Oclusivo
  • Combinación
  • Formantes
  • Cavidad buco-nasal
  • Envolvente espectral
  • Energía presión de aire
  • Evolución en el tiempo de los parámetros

26
Características de la voz
TONO
  • Excitación
  • Sonoro (freq. fundamental o pitch)
  • Sordo
  • Oclusivo
  • Combinación
  • Formantes
  • Cavidad buco-nasal
  • Envolvente espectral
  • Energía presión de aire
  • Evolución en el tiempo de los parámetros

TIMBRE
INTENSIDAD
DURACIÓN
27
Clasificación de los fonemas(desde el punto de
vista de la producción)
  • Actividad de cuerdas vocales
  • Vocales
  • Consonantes sonoras
  • Consonantes sordas
  • Modo de articulación
  • Vocales
  • Consonantes
  • Lugar de articulación
  • Vocales
  • Consonantes

28
Clasificación de vocales
  • Modo de articulación (formante 1)
  • Cerradas (i,u)
  • Medias (e,o)
  • Abiertas (a)
  • Lugar de articulación (formante 2)
  • Anteriores (i,e)
  • Centrales (a)
  • Posteriores (o,u)

29
Formantes 1º y 2º en vocales
30
Modo de articulación (cons.)
  • Oclusivas (b,d,g,p,t,k)
  • Fricativas (s,f,z,x,y)
  • Africadas (ch)
  • Nasales (m,n,ñ)
  • Líquidas
  • Laterales (l, ll)
  • Vibrantes (r, R)

31
Lugar de articulación (cons.)
  • Bilabiales (b,p,m)
  • Labiodentales (f)
  • Linguodentales (t,d)
  • Linguointerdentales (z)
  • Linguoalveolares (s,n,l,r,R)
  • Linguopalatales (y,ch,ñ,ll)
  • Linguovelares (k,g,x)

32
Fonemas del español
33
Análisis de señales de voz
  • Conceptos de procesado de señales
  • Transformada de Fourier
  • Componentes de frecuencia
  • Espectro de potencia
  • Filtrado
  • Ventanas
  • Muestreo
  • Espectrogramas

34
Transformada de Fourier
  • Transformada (FT)
  • Cambio de representación
  • Misma información (otra representación)
  • Existe transformada inversa (FT-1)
  • Transforma señal compleja en señal compleja

35
Espectro de potencia (1)
36
Espectro de potencia (2)
37
Descomposición en componentes freq.
38
Linealidad de la Transformada de Fourier
39
Linealidad de la Transformada de Fourier
40
Filtrado
excitación
señal filtrada
filtro
  • Caracterización del filtro
  • Tiempo respuesta impulsiva
  • Frecuencia función de transferencia (o respuesta
    en frecuencia)

41
Filtrado en el tiempo convolución
42
Filtrado en frecuencia multiplicación
43
Ventanas (multiplicación en tiempo)
44
Ventanas (multiplicación en tiempo)
45
Transformada de un tren de pulsos
46
Transformada de señal periódica
47
Muestreo de señales T. de muestreo
48
Transformada Fourier Resumen
49
DFT y FFT
  • Transformada discreta de Fourier (DFT)
  • Transformada rápida de Fourier (FFT)
  • Señales discretas (muestreadas)
  • Ventana (resolución espectral)
  • N muestras en t gt N muestras en f
  • FFT Muy utilizada en procesamiento digital de
    señales

50
La señal de voz
/sal/
51
La señal de voz
/s/
/a/
/l/
52
Estacionariedad de la voz
  • La señal de voz es estacionaria a trozos
  • Durante la pronunciación de un fonema es
    quasi-estacionaria
  • Velocidad cambios tracto vocal
  • Velocidad cambios cuerdas vocales
  • Estacionaria durante 20 40 ms
  • Velocidad de pronunciación 5-20 fonemas / seg
  • Análisis de trozos de voz estacionarios
    ventanas

53
Análisis con ventanas
54
Análisis con ventanas
55
Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
56
Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
57
Formantes 1º y 2º en vocales
58
Espectro de consonantes sonoras
/m/
/l/
/n/
/y/
/ñ/
/R/
59
Espectro de consonantes fricativas
/s/
/z/
/sh/
/f/
/ss/
/j/
60
Fonemas no estacionarios
  • Fonemas estacionarios
  • vocales /a/ /e/ /i/ /o/ /u/
  • consonantes sonoras /l/ /y/ /R/ /m/ /n/ /ñ/
  • consonantes fricativas /s/ /sh/ /ss/ /z/ /f/ /j/
  • Fonemas no estacionarios
  • Plosivas sordas /p/ /t/ /k/
  • Plosivas sonoras /b/ /d/ /g/
  • Otras consonantes /ch/ /r/

61
Espectrograma (representación tiempo -
frecuencia)
62
Espectrograma (representación tiempo -
frecuencia)
m b o i a kom p r a R p a n
63
Ventana en el espectrograma 64ms / 8 ms
64
Información relevante de la señal de voz
  • Para reconocimiento de voz
  • Envolvente espectral (formantes)
  • Evolución temporal de los formantes
  • Información espectral de tiempo corto
  • Información complementaria
  • Tono fundamental
  • Estructura fina del espectro

65
Cómo funciona el oído
  • Extrae información de la señal de audio.
  • Envía la información al cerebro en forma de
    estímulos nerviosos.
  • El implante coclear trata de imitar el mecanismo
    de conversión del sonido en potenciales de acción.

66
Características del oído humano
  • Configuración de la cóclea
  • 6.000 células ciliadas internas
  • 40.000 terminaciones nerviosas
  • Repolarización 2 ms (400 - 500 disparos/seg)
  • Conexión sináptica sin interacción entre canales
  • Capacidad de un oído entrenado
  • Resolución espectral 1/9 tono
  • Resolución temporal 400 - 500 Hz
  • Resolución de intensidad 1 dB

67
Capacidad del oído humano
  • Resolución en frecuencia 1/9 tono
  • fo - 1.013fo 450 Hz - 456 Hz
  • rango de frecuencia 20 Hz - 20.000 Hz
  • Resolución en el tiempo
  • limitado por tiempo relajación de células
    ciliadas y terminaciones nerviosas (400 disparos
    por seg.)
  • Resolución en intensidad
  • Mejor de 1 dB
  • Mecanismos de adaptación.
Write a Comment
User Comments (0)
About PowerShow.com