Reconocimiento de la voz Grupo PAS Universidad de Deusto - PowerPoint PPT Presentation

1 / 49
About This Presentation
Title:

Reconocimiento de la voz Grupo PAS Universidad de Deusto

Description:

Funcionamiento de los sistemas reconocedores del habla con entrenamiento ... es extremadamente exacta, y s lo unos cuantos s mbolos son posibles en cada ... – PowerPoint PPT presentation

Number of Views:555
Avg rating:5.0/5.0
Slides: 50
Provided by: Osc90
Category:

less

Transcript and Presenter's Notes

Title: Reconocimiento de la voz Grupo PAS Universidad de Deusto


1
Reconocimiento de la vozGrupo PAS Universidad
de Deusto
2
Índice
  • Introducción
  • Historia del reconocimiento de voz
  • Tecnología del habla
  • Funcionamiento de los sistemas reconocedores del
    habla con entrenamiento
  • Estructura general de un sistema de
    reconocimiento automático del habla
  • Reconocimiento del habla empleando técnicas de
    comparación de patrones
  • Algunas herramientas estadísticas usadas en el
    desarrollo de los sistemas de reconocimiento
  • Los Modelos Ocultos de Markov (MOM) (Hidden
    Markov Models)
  • Las técnicas de grupo
  • Redes neuronales artificiales
  • Procesado de voz en los sistemas de
    reconocimiento del habla
  • Productos de Reconocimiento de Voz
  • Aplicaciones
  • Datos de interés
  • Bibliografía

3
Introducción
  • Qué es reconocimiento de voz?
  • Es la conversión de palabras habladas (sonido) a
    palabras escritas (texto).
  • Sus campos de aplicación desde la
    domótica hasta la inteligencia artificial.
  • Se podrá reconocer
  • un número limitado de palabras grabando unos
    ejemplos como patrones a
  • identificar con las entradas
  • un vocabulario completo
    pudiendo hablar con naturalidad haciendo que el
    sistema
  • identifique las palabras
    frases y el significado.
  • Un sistema de reconocimiento de voz podrá operar
    identificando
  • Palabras aisladas
  • Fonemas (mayor complejidad) para
    reconocer palabras, frases, etc
  • Los ingenieros que trabajan con el habla han
    tratado de construir máquinas que sean capaces de
    recibir órdenes y/o mensajes por medio del habla,
    interpretar esos mensajes, realizar las
    actividades solicitadas y eventualmente presentar
    resultados, también en forma hablada.

4
Introducción
  • Debe cumplir 3 tareas
  • Pre-Procesamiento Convierte la entrada de voz a
    una forma que el reconocedor pueda procesar.
  • Reconocimiento Identifica lo que se dijo
    (traducción de señal a texto).
  • Comunicación Envía lo reconocido al sistema
    (Software/Hardware)
  • Estos tres procesos deberían ser invisibles al
    usuario de la interfaz.

5
2. Historia del reconocimiento de voz
  • 1870 ? Alexander Graham Bell
  • Quería construir un dispositivo que hiciera el
    habla visible a las personas con problemas
    auditivos.
  • Resultado el teléfono.
  • 1880 ? Tihamir Nemes
  • Intenta desarrollar un sistema de transcripción
    automática que identifique secuencias de sonidos
    y los imprima (texto).
  • El proceso es rechazado por no ser realista.
  • 1910 ? ATT Bell Laboratories
  • Construye la primera máquina, basada en
    plantillas, capaz de reconocer voz de los 10
    dígitos del Inglés.
  • Requiere un extenso entrenamiento a la voz de una
    persona, pero una vez logrado tiene un 99 de
    certeza.
  • Surge la esperanza de que el reconocimiento de
    voz sea simple y directo.

6
Historia del reconocimiento de voz
  • A mediados de los 60
  • El proceso es muy lento
  • Empiezan a reducir los alcances y se centran en
    sistemas más específicos
  • Dependientes del Locutor
  • Flujo discreto de habla (con espacios / pausas
    entre palabras)
  • Vocabulario pequeño (menor o igual a 50 palabras)
  • Estos sistemas empiezan a incorporar técnicas de
    normalización del tiempo.
  • Se minimiza la diferencia en la velocidad del
    habla.
  • IBM y CMV trabajan en reconocimiento de voz
    continuo pero los resultados no llegan hasta
    1970.
  • A principios de los 70
  • Se produce el primer producto de reconocimiento
    de voz, el VIP100 de Threshold Technology Inc.
  • Gracias al lanzamiento de grandes proyectos de
    investigación y financiamiento por parte del
    gobierno norteamericano, se precipita la época de
    la inteligencia artificial.
  • Los sistemas empiezan a incorporar módulos de
  • análisis léxico
  • análisis sintáctico
  • análisis semántico
  • análisis pragmático

7
Historia del reconocimiento de voz
  • Entre los 80 y los 90
  • Surgen los sistemas de vocabulario amplio ? Más
    de 1000 palabras.
  • Bajan los precios.
  • Empresas importantes actualmente
  • Philips
  • Lernout Hauspie
  • Sensory Circuits
  • Dragon Systems
  • Speechworks
  • Vocalis
  • Dialogic
  • Novell
  • Microsoft
  • NEC
  • Siemens
  • Intel

8
3. Tecnología del habla
  • Tratamiento de la palabra
  • Está dividido en tres partes importantes
  • Síntesis de la señal vocal Viene a ser la
    creación de señal vocal sintética.
  • La máquina debe ser capaz de expresarse emitiendo
    sonidos que podamos entender como palabras o
    frases
  • Codificación La computadora debe ser capaz de
    procesar la información para que la señal vocal
    sea almacenada de una forma eficiente.
  • Compresión de la señal para transmitirla por un
    medio de B limitado.
  • Reconocimiento La computadora debe ser capaz de
    escuchar y reconocer las palabras emitidas por
    una persona.
  • Es la parte más complicada del tratamiento de la
    palabra.
  • Involucra el desarrollo de algoritmos que sean
    capaces de realizar la comparación de patrones de
    voz entre palabras pronunciadas y las palabras de
    un diccionario predeterminado.

9
4.Funcionamiento de los sistemas reconocedores
del habla con entrenamiento
  • Dos etapas
  • Etapa de entrenamiento se le presentan al
    sistema una cantidad de pronunciaciones
    (elementos del habla unidades básicas de las
    palabras, palabras, frases, oraciones, etc.) que
    se desea que éste memorice
  • Etapa de reconocimiento (superada la etapa de
    entrenamiento) se le pide que identifique una
    pronunciación particular dada, como alguna de las
    que ya conoce o parecida a las que conoce o
    simplemente como desconocida. Esto significa que
    la pronunciación a reconocer no tiene que ser,
    necesariamente, una de las que se usan en la
    etapa de entrenamiento.
  • La información almacenada o retenida por el
    reconocedor está constituida por propiedades
    extraídas de todas las pronunciaciones de
    entrenamiento.
  • No se almacenan las pronunciaciones, sino
    propiedades de ese conjunto.
  • Así se evita almacenar datos redundantes y con
    ello darle al sistema la propiedad de responder
    en forma rápida, a cualquier solicitud de
    identificación de alguna señal de entrada.
  • Lo ideal es que los sistemas respondan en tiempo
    real.

10
5. Estructura general de un sistema de
reconocimiento automático del habla
  • 1. Módulo de adquisición de datos realiza la
    conversión analógica a digital
  • 2. Módulo de extracción de propiedades de la
    señal de voz compresión de los datos para
    obtener un vector de propiedades (energía
    espectral, tono, formantes, donde empieza el
    sonido, donde termina el sonido, etc.) de cada
    segmento y de cada sonido de la pronunciación.
  • Esto implica el uso de técnicas espectrales,
    FFT, modelos autoregresivos (ARMA) y
  • regresivos (MA), Modelos de
    Predicción Lineal (LPC), Análisis Cepstral,
    filtrados, etc.
  • 3. Módulo de cuantificación de los sonidos
    identificar los distintos sonidos utilizando la
    secuencia de vectores de propiedades obtenida en
    el módulo anterior. Cada vector está asociado a
    un sonido del habla, luego la salida de este
    módulo es una secuencia de valores, donde cada
    valor representa el sonido con el que está
    asociado un vector de propiedades.
  • Un mismo valor y por lo tanto un mismo
    sonido, puede aparecer varias veces en esta
    secuencia de salida.
  • 4. Módulo reconocedor propiamente dicho
    identifica una pronunciación dada, como conocida,
    parecida a una conocida o como desconocida. Para
    ello recibe desde el módulo de cuantificación la
    secuencia de valores que corresponde a una mezcla
    de los sonidos que puede tratar el sistema estos
    sonidos individualmente corresponden a un
    segmento de la señal de la voz pero en conjunto y
    en la secuencia constituyen la señal completa de
    la pronunciación que se desea reconocer o
    memorizar. La complejidad de este módulo depende
    del tipo de identificación que se requiera.

11
6. Reconocimiento del habla empleando técnicas de
comparación de patrones
  • Su principal ventaja inmediata reside en que no
    es necesario descubrir todas las características
    espectrales de la voz a nivel fonético, lo que
    evita desarrollar etapas complejas de detección
    de formantes, de rasgos distintivos de los
    sonidos, tono de voz, etc.

12
Reconocimiento del habla empleando técnicas de
comparación de patrones
  • Se aplica normalmente en casos donde el número de
    palabras necesarias sea pequeño.
  • También se puede constituir los grupos de
    patrones por unidades tales como sonidos básicos
    (fonemas y demás clasificaciones de sonidos
    cortos).
  • Al grabar estos sonidos en la base de datos, se
    obtendrán sus características espectrales (suele
    hacerse con los parámetros LPC)
  • LPC-Estimación Espectral por Predicción Lineal
    esta técnica ha probado ser muy eficiente debido
    a la posibilidad de parametrizar la señal con un
    número pequeño de patrones con los cuales es
    posible reconstruirla adecuadamente.
  • Por mucho que se mejore este sistema, siempre
    existirá el error al normalizar en tiempo y
    amplitud éstas señales de entrada para que
    coincidan con el patrón.
  • En este punto es donde cabe mencionar los
    sistemas avanzados como son las cadenas ocultas
    de Markov (HMM) y las redes neuronales.

13
7. Algunas herramientas estadísticas usadas en
eldesarrollo de los sistemas de reconocimiento
  • Los Modelos Ocultos de Markov (MOM) (Hidden
    Markov Models)
  • Son autómatas de estados finitos estocásticos. Se
    usan para modelar las pronunciaciones dada la
    gran variabilidad de dichas señales.
  • Origen ? década de los 50. La idea consistía en
    modelar un proceso estocástico doble, donde se
    asumía que los datos observados eran producto de
    hacer pasar el proceso real (oculto) a través de
    un medio cuyo resultado era el proceso observado
    (Deller y otros, 1993).
  • Surge el algoritmo de identificación conocido
    como el algoritmo de Máxima Estimación (ME).
  • Para la aplicación de esta teoría al
    procesamiento de la voz, Baum y Welch hicieron
    una modificación y lo llamaron Baum-Welch,
    posteriormente surgió el algoritmo Viterbi.
  • Década actual ? aparecen los modelos de redes
    neurales artificiales para hacer ese tipo de
    entrenamiento e identificación.

14
7.1. Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
  • HMMHiden Markov Models

15
Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
  • Reconocimiento de Palabras Aisladas
  • Nonspeech modelo acústico de duración de una
    trama que modela el ruido de fondo.
  • Word cualquier palabra de todas las posibles
    del habla.
  • El punto clave
  • el reconocedor encuentra los tiempos óptimos de
    inicio/fin de la pronunciación respecto al
    invetario de modelo acústico (búsqueda
    direccionada de hipótesis).

16
Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
  • Reconocimiento de voz simple/continuo (sin
    gramática)
  • El sistema reconoce arbitrariamente secuencias
    largas de palabras o eventos que no pertenecen al
    habla.
  • El gran debate
  • Abajo arriba
  • Arriba - abajo

17
(No Transcript)
18
  • El parseo se refiere al problema de determinar si
    una secuencia dada podría haber sido generada a
    partir de una máquina de estado dada.
  • Este cálculo, como podemos ver, requiere una
    búsqueda elaborada de todas las combinaciones
    posibles de salida de los símbolos de la máquina
    de estados.
  • Este cálculo puede obtenerse eficientemente en un
    modo de abajo-arriba, si la probabilidad de los
    símbolos de entrada es extremadamente exacta, y
    sólo unos cuantos símbolos son posibles en cada
    punto de los niveles inferiores del árbol.
  • Si los símbolos de entrada son ambiguos, se
    prefiere el parseo arriba-abajo.

19
Los Modelos Ocultos de Markov (MOM) (Hidden
Markov Models)
  • Generalización del HMM
  • Considera el siguiente diagrama de estado que
    representa un modelo de lenguaje simple que
    envuelve secuencias de dígitos encerradas

20
  • En la terminología asociada con la teoría formaI
    del lenguaje, este HMM es conocido como un
    automaton de estado finito
  • La palabra stochasticcan se aplica porque las
    transiciones y símbolos de salida están
    governadas por distribuciones de probabilidad.
  • Como existen multiples transiciones y
    observaciones generadas en cualquier punto en el
    tiempo, este gráfico particular se clasifica como
    un automaton no determinista.
  • En el futuro, nos referiremos a este sistema como
    un automaton de estado finito estocástico (FSA or
    SFSA) cuando se usa para información más
    lingüística.
  • También podemos expresar este sistema como una
    gramática regular

21
(No Transcript)
22
  • Las probabilidades de regla no son iguales a las
    probabilidades de transición ya que necesitan
    combinar probabilidades de transición y
    probabilidades de salida.
  • Por ejemplo, considerar p7
  • En general,
  • Nota que debemos ajustar probabilidades en elos
    sistemas terminales cuando la gramática es no
    determinista
  • para permitir generación de una terminal final.
  • La transición de HMM a lenguages formales
    estocásticos ha finalizado.

23
7.2. Las técnicas de grupo
  • Para la identificación de los todos los sonidos
    diferentes en el módulo de cuantificación también
    se hace un entrenamiento.
  • Se tiene un espacio de vectores de observaciones,
    donde cada vector contiene propiedades extraídas
    de un segmento de la señal de una pronunciación y
    que desea construir un sistema que maneje un
    número K de sonidos diferentes capaz de reconocer
    pronunciaciones de distintas personas que hablen
    un mismo idioma.
  • Las pronunciaciones varían de persona a persona
    (por influencia del ambiente, el ruido, estado de
    ánimo, estructura física del aparato fonador
    humano, etc.), es de esperar que los sonidos
    individuales no sean iguales, pero sí
    parecidos.
  • Por ello, el espacio vectorial de observaciones
    se divide en K grupos, donde cada grupo contiene
    aquellos vectores que corresponden a un sonido
    distinto.
  • Esta transformación del espacio vectorial de
    observaciones original a K grupos, se realiza
    usando la teoría de clustering y específicamente
    a través de una de sus herramientas, la conocida
    como cuantificación vectorial.

24
Las técnicas de grupo
  • La cuantificación vectorial trabaja sobre la base
    del siguiente algoritmo, el algoritmo LBG en
    honor a sus creadores LLoyd, Buzo y Gray y es una
    extensión del algoritmo de las K-Medias. En la
    actualidad, también se hace cuantificación
    vectorial en el contexto de las Redes Neurales
    Artificiales a través del algoritmo Learning
    Vector Quantizer, LVQ

25
Las técnicas de grupo
  • 1. Se seleccionan arbitrariamente K vectores del
    espacio vectorial de observaciones, esos vectores
    constituyen el llamado Código.
  • 2. A cada vector del espacio de observaciones, lo
    asociamos con aquel vector de los K del Código,
    con el que más se identifique en el sentido de
    una medida de distorsión (con aquel cuya
    distorsión resulte más pequeña).
  • 3. Calculamos la distorsión total producto de la
    asociación hecha en el paso 2. Si esa distorsión
    es suficientemente pequeña, paramos el proceso.
  • 4. Por cada grupo que se forma, se calcula su
    vector promedio. Los nuevos vectores promedios de
    los grupos constituyen el nuevo código.
  • 5. Se vuelve al paso 2.
  • Como resultado de esta cuantificación, el espacio
    de observaciones original fue transformado a un
    espacio de grupo de vectores parecidos y luego
    a un espacio constituido sólo por los vectores
    centroides (los promedios) de los grupos. Además,
    como podemos apreciar en la figura anterior, cada
    centroide se puede representar por un valor o
    índice.

26
Las técnicas de grupo
  • El proceso de cuantificación descrito constituye
    la etapa de entrenamiento del llamado módulo de
    cuantificación, mientras que en el proceso de
    identificación de ese módulo, lo que hace es una
    comparación (en el sentido de una medida de
    distorsión) entre cada vector que le entra y los
    respectivos centroides que tiene almacenados, se
    asocia ese vector con aquel centroide con el cual
    la distorsión es más pequeña y se marca o
    identifica a través del índice del grupo.
  • Es claro que el proceso de cuantificación
    comprende una compresión de datos, lo que reduce
    la carga computacional de los sistemas y, por lo
    tanto, el tiempo de respuesta es
    considerablemente más rápido al empleado si no se
    hiciera este tipo de manejo de propiedades.

27
8. Redes neuronales artificiales
  • Una nueva forma de computación inspirada en
    modelos biológicos.
  • Una neurona se compone de dendritas (entradas),
    cuerpo (decisión) y axón (salida).
  • En nuestro cerebro tenemos miles de neuronas
    interconectadas entre sí, lo que equivale a unas
    10E15 conexiones (aproximadamente). La
    información en sí, es el potencial eléctrico.
  • El modelo que vamos a tomar de ella es el
    siguiente

28
Redes neuronales artificiales
  • Los sistemas neuronales biológicos presentan un
    mecanismo muy importante llamado neurotransmisor
    para controlar el flujo de la información que
    transita a través de las neuronas. En las redes
    neuronales artificiales se modela un
    neurotransmisor como una multiplicación de la
    salida por un peso (número).
  •  En la siguiente figura podremos ver más
    detalladamente las entradas (u), que son
    parámetros de una TF, la salida (y) y los pesos
    (w).
  • Si Wgt0 ? sinapsis excitadora
  • Si W0 ? no existe conexión
  • Si Wlt0 ? sinapsis inhibidora
  • Cuando multiplicamos la entrada por el peso (uw)
    tendremos un valor con el cual decidiremos si a
    la salida daremos un 1 o un 0.
  • Existe un umbral ? tal que si (uw-?) es mayor
    que cero, la salida vale y 1.
  • La salida no es un impulso tipo escalón ya que
    necesitamos una función derivable (por motivos de
    programación) así que aproxima esa señal a una de
    tipo sigmoidea (continua y derivable).

29
Redes neuronales artificiales
  • Una vez establecido el comportamiento de una
    neurona artificial, vamos a conectar neuronas
    entre sí con el fin de formar una red de
    computación.
  • Las neuronas biológicas están continuamente
    creando y destruyendo conexiones, lo que se hace
    es regular esta función mediante la variación del
    valor de los pesos estableciendo unos valores de
    manera aleatoria.
  • Hay muchos tipos de aprendizaje entre ellos
  • Década de los 70? sistema de retropropagación
    (Algoritmo Back Propagation), en el que cuando la
    última capa de salida suelta un valor, comienza
    el proceso contrario (propagación hacia atrás)
    analizando qué es lo que ha pasado en cada
    neurona de cada capa y dando órdenes a cada una
    de ellas para ver cómo puede mejorar.

30
Redes neuronales artificiales
  • Definición de un tipo de red neuronal el
    perceptrón.
  • El método de aprendizaje que utiliza es el
    supervisado por corrección de error (Hebbiano).
  • Presenta una sola neurona
  • de cómputo, de ahí su sencillez
  • Las neuronas de menor tamaño pertenecen a la capa
    de entrada y son parte del formalismo de la red.
    Se encargan de recibir y distribuirlos datos del
    exterior, sin realizar cómputos sobre los mismos.
  • Esto significa que el resultado de la neurona va
    a tomar uno de los dos valores previstos en la
    función escalón (-1 y 1). El valor de la salida
    dependerá de si X1W1X2W2 es mayor o menor que
    el umbral ?.
  • Por tanto se establece la
  • siguiente ecuación

31
Redes neuronales artificiales
  • Existen otros casos mucho más complejos, los
    cuales, parten de la idea básica de éste
  • Perceptrón multicapa
  • Consiste en poner varias capas elementales
    interconectadas sucesivamente con el objeto de
    dotar a la red de la complejidad suficiente para
    realizar la tarea requerida.
  • Perceptrón multicapa con capas de retardo
  • Es el modelo más complejo. Consiste en la
    inclusión de bloques (o capas) de neuronas que
    toman como entradas las salidas de otro/s
    bloque/s en el instante anterior.
  • Esto permite que la red sea un sistema con
    memoria a corto plazo (o en fase operativa).
    Esta memoria es muy diferente a la memoria debida
    al entrenamiento que presenta el sistema global
    (que podría llamarse memoria a largo plazo o
    memoria en fase de entrenamiento).

32
Redes neuronales artificiales
  • Entrenamiento de varias capas
  • Con varias capas ya no tenemos un sistema de
    ecuaciones lineales porque no hemos aplicado sólo
    una no linealidad sino que hemos aplicado una no
    linealidad a una aplicación lineal de varias no
    linealidades y esto ya no se puede resolver como
    un sistema de ecuaciones lineales. Al no tener
    una solución directa podemos pensar en buscar
    llegar a la solución siguiendo varios pasos a
    partir de un punto. El método de entrenamiento
    será por tanto iterativo. Ahora se puede hablar
    más propiamente de entrenamiento (mejora por
    fases).
  • Ahora lo que buscamos son dos cosas
  • Un punto de comienzo (pesos iniciales). Se suelen
    escoger unos números aleatorios pero pequeños.
  • Un camino (o una dirección a seguir en cada
    paso). Lo que nos interesa ahora es buscar en
    cada paso (cada iteración) una dirección de
    nuestro espacio de pesos que nos conduzca por un
    camino que lleve al objetivo la minimización del
    error. Wn1 Wn ?Wn
  • Se deben usar las Redes neuronales artificiales
    (RNA) de manera eficiente para el reconocimiento
    de voz. Para ello se deben elegir las entradas de
    la red, las salidas y la estructura necesaria
    para que produzca las salidas deseadas (dadas
    unas entradas). Después habrá que elegir un
    algoritmo de entrenamiento y unos parámetros para
    después realizarlo.

33
9. Procesado de voz en los sistemas de
reconocimiento del habla
  • Objetivo Incorporar la información relevante en
    el sistema que facilite la tarea del
    reconocimiento.
  • Características relevantes de la Voz
  • - La información espectral.
  • - El tipo de excitación.
  • - La energía.
  • Análisis espectral de tiempo corto
  • -Pre-énfasis.
  • -La señal es segmentada en tramas.
  • -Cada trama queda representada por un vector de
    características.
  • -Transformación al dominio cepstral.

34
Procesado de voz en los sistemas de
reconocimiento del habla
  • Reprensentación de las características
    espectrales
  • CEPSTRUM transformada inversa de Fourier del
    logaritmo del espectro.
  • COEFICIENTES CEPSTRALES muestras del cepstrum.
  • REPRESENTACIÓN BASADA EN EL MODELO LPC

35
Procesado de voz en los sistemas de
reconocimiento del habla
  • Reprensentación basada en el Modelo LPC
  • Señal predicha
  • Error de predicción
  • Los coeficientes LPC son aquellos que minimizan
    la energía del error (energía residual)
  • Se plantea el siguiente sistema de p ecuaciones
    con p incógnitas.

36
(No Transcript)
37
Procesado de voz en los sistemas de
reconocimiento del habla
  • Compensación del Efecto del Ruido
  • Señal de entrada al sistema de reconocimiento ?
    voz ruidosa
  • Soluciones
  • -Intentar mejorar la señal de voz
  • -Parametrizar directamente la señal ruidosa.
  • -Hacer uso de modelos auditivos
  • Voz limpia a partir de voz ruidosa
  • -Durante los tramos de silencio, estimar el
    espectro de ruido contaminante.
  • -Sustraérselo al espectro instantáneo de la
    señal de entrada.
  • -La señal temporal es la

38
10. PRODUCTOS DE RECONOCIMIENTO DE VOZ
  • FreeSpeech 2000
  • Requiere Pentium/MMX 166 o equivalente 48 MB en
    RAM 100MB de espacio en disco  duro tarjeta de
    sonido compatible con Sound Blaster Microsoft
    Windows 95,98 o NT con SP3.
  • Soporte para dictado en seis idiomas.
  • Baja precisión?reduce la facilidad de uso.
  • 93 en exactitud y 91 en precisión
  • Carece de una tarjeta de consulta rápida e
    incluye poca información de los comandos.  
  • Los usuarios encontrarán mayor precisión y
    facilidad de uso en otros programas que
    participan en esta competencia.

39
PRODUCTOS DE RECONOCIMIENTO DE VOZ
  • L H Voice Xpress Professional, Versión 4
  • Requiere Pentium II 48 MB en RAM con Microsoft
    Windows 95 o 98, o 64 MB con Windows NT 200 MB
    de espacio en disco  duro tarjeta de sonido de
    16 bits compatible con Sound Blaster o micrófono
    USB.  
  • Punto fuerte del programa ? comandos intuitivos
    con lenguaje natural para Microsoft Word, Excel y
    el sencillo procesador de palabras Voice Xpress.

40
PRODUCTOS DE RECONOCIMIENTO DE VOZ
  • Características de corrección limitadas carecen
    de reproducción de audio
  • 94 en precisión
  • Voice Xpress permite respaldar sus archivos de
    voz con facilidad en Iomega Zip Drive.
  • Los usuarios que desean controlar Excel y Word
    por medio de la voz ? Voice Xpress opción
    adecuada.  

41
PRODUCTOS DE RECONOCIMIENTO DE VOZ
  • Dragon Naturally Speaking Preferred 4.0
  • Requiere Pentium MMX/200 o equivalente 48 MB en
    RAM 200MB de espacio en disco duro tarjeta de
    sonido de 16 bits compatible con Creative Labs
    Sound Blaster Microsoft Windows 95 , 98 o NT
  • Marca el estándar para la facilidad de uso
  • Navegación Web activada por la voz.

42
PRODUCTOS DE RECONOCIMIENTO DE VOZ
  • Tiene atajos intuitivos para el dictado y el
    formato.
  • Ej. cap para escribir todo en mayúsculas
  • Único  producto  en esta competencia  que permite
    dictar, corregir y practicar sin utilizar las
    manos.  
  • 96 de precisión.
  • Soporte limitado para el lenguaje natural en
    aplicaciones distintas de Microsoft Word

43
PRODUCTOS DE RECONOCIMIENTO DE VOZ
  • Via Voice Pro Millennium Edition
  • Requiere Pentium/233 o equivalente 48 MB en RAM
    con Microsoft Windows 95 o 98, o 64 MB con
    Windows NT 100 MB de espacio en disco duro
    tarjeta de sonido de 16 bits.
  • variedad de funcionalidad tanto para aplicaciones
    de dictado como de control
  • Precisión entre 95 y 98
  • Permite controlar los menús y cuadros de diálogo
    en la mayor parte de los programas de Windows,
    con comandos en lenguaje natural disponibles para
    Microsoft Word y Excel, entre otros.

44
PRODUCTOS DE RECONOCIMIENTO DE VOZ
  • Permite activar Internet Explorer con la voz.
  • Naturally Speaking también lo permite, pero sólo
    Via Voice  numera los elementos de la página, de
    modo que puede decir el nombre del elemento
    requerido.
  • Complicado corregir los errores en Via Voice.
  • El manual del programa sugiere emplear una
    combinación de ratón, teclado y voz para editar.
  • Comandos de formato común como convertir en
    negritas las tres últimas palabras únicamente
    funcionaron en Microsoft Word.

45
11. APLICACIONES
  • Medicina
  • APLICACIÓN EN LA HISTORIA CLÍNICA incluye
    descripciones habladas de los hallazgos del
    examen físico u otras observaciones
  • LABORATORIO entrada "on-line" de datos de
    laboratorio
  • APLICACIONES DIAGNÓSTICAS Y TERAPÉUTICAS
    desarrollado de redes neuronales multicapa,
    entrenadas y probadas utilizando palabras
    aisladas pronunciadas por pacientes con
    disartria.

46
APLICACIONES
  • Operadores automáticos
  • SERVICIO AUTOMATIZADO DE ASISTENCIA DE
    DIRECTORIO Proveedores de servicios ofrecen a
    sus clientes la posibilidad de obtener un nº de
    teléfono manteniendo un diálogo completo con un
    sistema activado por la voz.
  • SPEECHATTENDANT Es una solución de contestación
    automática para empresas medianas y grandes que
    habilita el enrutamiento de llamadas mediante la
    voz.
  • Capacidad de entender el habla de quienes
    realizan las llamadas, incluso de aquéllos que
    hablan con acentos extranjeros, y responder a
    consultas comunes durante las 24 horas del día,
    los 7 días de la semana.

47
APLICACIONES
  • Móviles
  • XMODE MULTIMODAL SYSTEM Interacciones para
    usuarios de dispositivos personales inalámbricos
    mediante combinación de reconocimiento automático
    de voz (ASR) y texto a voz (TTS) con multimedia e
    Internet móvil.
  • Integración de interfaces de audio, voz y vídeo
    en un único dispositivo móvil y en una sola
    sesión.
  • Discapacitados
  • Grandes dificultades en el uso del teclado y el
    ratón estándar.

48
12. Datos de interés
  • Algunas aplicaciones que se han conseguido
  • Command control usar la voz para controlar una
    máquina
  • Form-filling llenar una forma con datos
  • Automatic dictation hablar en vez de usar el
    teclado para escribir
  • Information retrieval sacar información de un
    base de datos
  • Cooperative task completion usar un diálogo para
    lograr una meta
  • Nivel actual
  • Los dígitos por teléfono 1 error
  • Preguntas naturales dentro de un vocabulario
    mediano 4 error
  • Dictado automático de vocabulario grande (pero
    dependiente del locutor) 5 error
  • La transcripción de las noticias 17 error
  • Entre las opciones de software hablado se
    destacan
  • Dragon Naturally Speaking (www.scansoft.com),
    de ScanSoft
  • ViaVoice (www.ibm.com/software/voice/viavoice),
    de IBM.

49
13. Bibliografía
  • http//www.psicologia-online.com/colaboradores/dpu
    chol/modelado.shtml
  • http//www.jegsworks.com/Lessons-sp/lesson3/lesson
    3-5.htm
  • http//mailweb.udlap.mx/sistemas/tlatoa/courses/s
    yllabus.html
  • http//www.nodo50.org/utlai/num22/221006.htm
  • http//www.scielo.org.ve/scielo.php?pidS0254-0770
    2002000300008scriptsci_arttexttlnges
  • http//www.imim.es/quark/21/021063.htm
  • http//www.psicocentro.com/cgi-bin/articulo_s.asp?
    textoart49001
  • http//www.mor.itesm.mx/omayora/TallerHCI-04/Came
    raReady/CMiranda.pdf
  • http//webdiis.unizar.es/jminguez/Silla20de20Ru
    edas20Inteligente Controlada por Voz.pdf
  • http//mailweb.udlap.mx/ingrid/ingrid/articulo_16
    6.pdf
  • http//gps-tsc.upc.es/veu/personal/canton/HablaFlu
    ida1.pdf
  • http//tamarisco.datsi.fi.upm.es/ASIGNATURAS/FRAV/
    apuntes/clasifica.pdf
  • http//www.ejournal.unam.mx/compuysistemas/vol03-0
    2/CYS03203.pdf
  • Nuestro agradecimiento a los alumnos de Ing. de
    Telecomunicación en la recopilación de
    información
Write a Comment
User Comments (0)
About PowerShow.com