SSML - PowerPoint PPT Presentation

1 / 24
About This Presentation
Title:

SSML

Description:

Especificaci n desarrollada por el Voice Browser Working Group ... Non-Markup Behaviour: procesador de s ntesis (diccionario de pronunciaci n) ... – PowerPoint PPT presentation

Number of Views:49
Avg rating:3.0/5.0
Slides: 25
Provided by: mar7179
Category:
Tags: ssml | diccionario | el

less

Transcript and Presenter's Notes

Title: SSML


1
SSML
  • Speech Synthesys markup language
  • Estado actual del estándar SSML para la síntesis
    del habla dentro del Speech Interface Framework
    desarrollado por el grupo de trabajo Voice
    Browser del W3C

Autor Mario Rodríguez Boya
2
Índice de Contenidos
  • Introducción
  • Proceso de Síntesis del Habla
  • Formato de un Documento SSML
  • Integración con otros Lenguajes
  • Implementaciones Actuales
  • Desafíos Futuros
  • Conclusiones

3
Introducción
  • Lenguaje de marcas basado en XML
  • Especificación desarrollada por el Voice Browser
    Working Group
  • Parte del W3C Speech Interface Framework
  • Método estándar para la pronunciación, tono,
    volumen, velocidad
  • Generación automática (XSLT) o manual

4
Índice de Contenidos
  • Introducción
  • Proceso de Síntesis del Habla
  • Formato de un Documento SSML
  • Integración con otros Lenguajes
  • Implementaciones Actuales
  • Desafíos Futuros
  • Conclusiones

5
Proceso de Síntesis del Habla
  • Análisis Gramatical
  • Análisis de la Estructura
  • Normalización del Texto
  • Conversión del Texto a Fonemas
  • Análisis Prosódico
  • Generación de la Forma de Onda

6
Proceso de Síntesis del Habla
  • Análisis Gramatical
  • Se extraen las etiquetas del árbol
  • La estructura, etiquetas y atributos extraídos
    serán utilizados en las etapas posteriores

7
Proceso de Síntesis del Habla
  • Análisis de la Estructura
  • Markup Support ltpgt y ltsgt
  • Non-Markup Behaviour Procesador de Sintesis (por
    defecto)

8
Proceso de Síntesis del Habla
  • Normalización del Texto
  • Construcciones especiales (1/2, 100 )
  • Ambigüedad
  • Markup Support ltsay-asgt
  • Non-Markup Behaviour
  • Procesador de síntesis
  • Múltiples posibilidades
  • Análisis del contexto
  • Errores muy probables en la transformación

9
Proceso de Síntesis del Habla
  • Conversión del Texto a Fonemas
  • Deducir la pronunciación de las palabras
  • Distintos tipos de lenguajes ? Distintos tipos de
    conversiones (uno a uno, muchos a uno...)
  • Markup Support ltphonemegt
  • Non-Markup Behaviour procesador de síntesis
    (diccionario de pronunciación)

10
Proceso de Síntesis del Habla
  • Análisis Prosódico
  • Prosodia conjunto de rasgos del habla
  • Buena prosodia ? Voz humana natural y
    comprensible
  • Markup Support ltemphasisgt, ltbreakgt y ltprosodygt
  • Non-Markup Behaviour procesador de síntesis muy
    efectivo al establecer los rasgos

11
Proceso de Síntesis del Habla
  • Generación de la Forma de Onda
  • Llevada a cabo automáticamente por el procesador
    de síntesis (Non-Markup Behaviour)
  • Se puede solicitar explícitamente (Markup Suport)
    una voz con determinadas cualidades (e.g. Voz de
    una mujer joven)

12
Índice de Contenidos
  • Introducción
  • Proceso de Síntesis del Habla
  • Formato de un Documento SSML
  • Integración con otros Lenguajes
  • Implementaciones Actuales
  • Desafíos Futuros
  • Conclusiones

13
Formato de un Documento SSML
  • DOCTYPE
  • lt!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS
    1.0//EN" "http//www.w3.org/TR/speech-synthesis/sy
    nthesis.dtd"gt
  • Elemento Raíz ltspeakgt
  • lt?xml version"1.0"?gt
  • ltspeak version"1.0" xmlns"http//www.w3.org/2001
    /10/synthesis"
  • xmlnsxsi"http//www.w3.org/2001/XMLSche
    ma-instance"
  • xsischemaLocation"http//www.w3.org/200
    1/10/synthesis
  • http//www.w3.org/TR/speech-synthesis/syn
    thesis.xsd"
  • xmllang"en-US"gt

14
Formato de un Documento SSML
  • ltspeak version"1.0" xmlns"http//www.w3.org/20
    01/10/synthesis" xmlnsxsi"http//www.w3.org/20
    01/XMLSchema-instance" xsischemaLocation"http
    //www.w3.org/2001/10/synthesis
    http//www.w3.org/TR/speech-synthesis/synthesis.xs
    d" xmllang"es"gt
  • ltpgt
  • ltsgt Tienes 4 mensajes.lt/sgt
  • ltsgt
  • El primero es de Mario, recibido a las
    ltbreak/gt 345pm.
  • lt/sgt
  • ltsgt
  • El asunto es ltprosody
    rate"-20"gtvacacioneslt/prosodygt
  • lt/sgt
  • lt/pgt
  • lt/speakgt

15
Formato de un Documento SSML
  • ltpgt
  • ltvoice gender"female"gt
  • La canción habla de dos personas
  • lt/voicegt
  • lt/pgt
  • ltpgt
  • ltvoice gender"male"gt
  • Aquí tiene una muestra
  • ltaudio src"http//www.example.com/music.wav"
    /gt
  • Le gustaría comprar la canción?
  • lt/voicegt
  • lt/pgt

16
Índice de Contenidos
  • Introducción
  • Proceso de Síntesis del Habla
  • Formato de un Documento SSML
  • Integración con otros Lenguajes
  • Implementaciones Actuales
  • Desafíos Futuros
  • Conclusiones

17
Integración con otros Lenguajes
  • Colabora con SMIL para descripción de
    aplicaciones multimedia con salida de voz
  • Complementa a ACSS
  • Mayor funcionalidad que ACSS
  • ACSS controla mejor el aspecto espacial
  • Junto con VoiceXML permite el desarrollo de
    navegadores de voz

18
Índice de Contenidos
  • Introducción
  • Proceso de Síntesis del Habla
  • Formato de un Documento SSML
  • Integración con otros Lenguajes
  • Implementaciones Actuales
  • Desafíos Futuros
  • Conclusiones

19
Implementaciones Actuales
  • Loquendo TTS
  • Microsoft Speeh Server aplicaciones de telefonía
    por voz
  • OptimTalkv
  • Voice Center
  • Código Abierto FreeTTS

20
Índice de Contenidos
  • Introducción
  • Proceso de Síntesis del Habla
  • Formato de un Documento SSML
  • Integración con otros Lenguajes
  • Implementaciones Actuales
  • Desafíos Futuros
  • Conclusiones

21
Desafíos Futuros
  • Normalización del texto
  • Homógrafos
  • Abreviaturas
  • Símbolos
  • Implantación en navegadores Web
  • Naturalización del habla
  • Prosodia
  • Comunicación fluida

22
Índice de Contenidos
  • Introducción
  • Proceso de Síntesis del Habla
  • Formato de un Documento SSML
  • Integración con otros Lenguajes
  • Implementaciones Actuales
  • Desafíos Futuros
  • Conclusiones

23
Conclusiones
  • Estándares del W3C Voice Browser Group sirven
    para interacción hombre-máquina de forma natural
  • SSML ofrece control de la prosodia por parte del
    autor o automático
  • Problemas en la inferencia de significado de
    símbolos y abreviaturas en distintos contextos

24
Fin
Hola estudiantes del curso de doctorado
Tecnologías, estándares y servicios Web, espero
que les haya gustado la presentación de Mario
SSML Estado actual del estándar SSML para
la síntesis del habla dentro del Speech
Interface Framework desarrollado por el agrupo
de trabajo Voice Browser del W3C Autor Mario
Rodríguez Boya
Write a Comment
User Comments (0)
About PowerShow.com