Síntesis de Voz
Prof. Eduardo López Gonzaloe-mail: [email protected]
Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones
Síntesis de VozSíntesis de Voz
Tipos de Síntesis de Voz y Aplicaciones
Principios básicos de Sistemas de Conversión de Texto a Voz (TTS systems)
Sintetizadores de Voz
Sistemas y Dificultades
Síntesis de VozSíntesis de Voz
Tipos de Síntesis de Voz y Aplicaciones
(C)Conversión de Concepto
a VozConcept-to-Speech CTS
Locutores virtuales (visual – TTS)
Otros: Enseñanza (I. Cervantes), ..http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl
Comunicadores y Ayudas para Discapacitados
Asistentes de Lectura
Acceso a Inform.Telefónica(A)
Voz Pre-Grabada(codificación)
(B)Conversión de Texto
a VozText-to-Speech TTS
1791
• El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano
1835
• Sistema parlante diseñado por Sir Charles Wheatstone
Sprachsynthese (TTS, Vocoder) Historie der Sprachsynthese
1939Homer Dudley’s “Voder”:
Primer Sintetizador “electrónico” compuesto de:
• Un oscilador (controlado por un pedal) y una fuente de ruído blanco
• Diez filtros paso banda, con salida conectada a potenciómetros
• Algunos botones para generar consonantes como t, p, etc...
http://www.acoustics.hut.fi/~slemmett/dippa/appa.htmlProseminar Sprachdialogsysteme Philipp S. Bach
Síntesis de VozSíntesis de Voz
Principios básicos de Sistemas de Conversión de Texto a Voz (TTS systems)
ProcesoLingüístico-Prosódico
Proceso de Señal
•Sonidos (pausas)•Prosodia:
o F0o Duracióno Energía
Análisis del TextoAnálisis FonéticoAnálisis Prosódico
Modelos de Síntesisde Voz
SINTETIZADOR
Texto Voz
Cotovía es un sistema de conversión texto-voz bilingüe para Gallego y Castellano desarrollado por el Grupo de Tratamientode la Señal de la Universidad de Vigo (España) y un grupo de investigadores de la Universidad de Santiago de Compostela
con el apoyo del Centro Ramón Piñeiro para a Investigación en Humanidades.
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis del Texto
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
Componentes:
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis del Texto
Detección de la Estructura:– Segmentación de
párrafos.– Separación de frases.– Tipos de frases.– Detección de estructura
de SMS, e-mail, página web, ...
– Identificación del Idioma, ...
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis del Texto
Normalización del Texto:– Abreviaturas (Vd. Sr. ),
acrónimos (CEE, BMW) , etc.
– Fechas, Horas, Cantidades, Números
– Corrección automática de errores o expansión de formas de escritura (SMSs)
– Identificación de palabras extranjeras, ..
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis del Texto
Análisis Lingüístico:– Análisis sintáctico y
semántico (posible)– Desambiguación de
palabras.– Estructura de la frase.– Identificación de tipo de
frase.
Detección de la Estructuradel Texto
Texto de Entrada
Normalización del Texto
Análisis Lingüístico
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis Fonético
Salida del Componente de Análisis de Texto
Análisis Morfológico
ConversiónLetra-a-sonido
(Grafema-a-alófono)
Componentes:
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis Fonético
Salida del Componente de Análisis de Texto
Análisis Morfológico
ConversiónLetra-a-sonido
(Grafema-a-alófono)
Análisis Morfológico:– Palabras de función:
pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar)
– Palabras de contenido – Prefijos y sufijos,
conjugaciones, plurales, aumentativos, etc
– Descubrir homógrafas que cambian sentidoEj.: para (preposición) y para (verbo)
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis Fonético
Salida del Componente de Análisis de Texto
Análisis Morfológico
ConversiónLetra-a-sonido
(Grafema-a-alófono)
Conversión Grafema-Alófono:– Soluciones basadas en
diccionario• Palabras divididas en
morfemas (para disminuir diccionario)
• Si la palabra no está: usa reglas
– Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis Prosódico
Salida del Componente de Análisis Fonético
Modelado de:• Entonación• Duración• Intensidad
Sonidos y pausas +F0, duración y Energía
Módulo Pausador
Componentes:
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis Prosódico
Salida del Componente de Análisis Fonético
Modelado de:• Entonación• Duración• Intensidad
Sonidos y pausas +F0, duración y Energía
Módulo Pausador
Módulo Pausador:– Decisión de dónde insertar
pausas –ortográficas y no ortográficas- :
• Información gramatical: coeficientes de relación
• Número de sílabas– Asignación de la duración
adecuada a las pausas
Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz
Proceso Lingüístico-Prosódico: Análisis Prosódico
Salida del Componente de Análisis Fonético
Modelado de:• Entonación• Duración• Intensidad
Sonidos y pausas +F0, duración y Energía
Módulo Pausador
Modelado Prosódico:– Modelos:
• Patrones pre-establecidos• Basados en reglas• Estocásticos, a partir de
datos.– Modelado de F0 y duración:
¿independiente o conjunto?– Intensidad, generalmente
sólo normalización
Síntesis de VozSíntesis de VozMODELOS PROSÓDICOS
Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos
Escuela Británica – basada en análisis auditivoPierrehumbert 1980 – análisis acústico (ToBI)Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptualTilt - Taylor 1998 – base fonética
Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y
luego combinar los modelos parciales.
Fujisaki 1983, Grønnum 1992, Möbius et al. 1993,
Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York:
Hispanic Institute. Guadarrama 1974.
http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf
Síntesis de VozSíntesis de Voz
Sintetizadores de VozParamétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980)
Modelos Articulatorios
No Paramétricos: Concatenación de unidadesBase de datos de unidades “pequeña” +
modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980):
Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador.
Síntesis por formantes: produce la voz sintética a partir de los parámetros de control.
Text-to-phoneconversiontext
Phonestring Synthesis-
by-rule
Synthesisercontrol
parameters Synthesiser
“letter-to-sound”
rules
Exceptionsdictionary
Speakertable
Rules
Linguisticanalysis
Prosodyparameters
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control
Unvoiced Excitation
VoicedExcitation
A
A
A
A
F1
F2
F3
F4
ExcitationMixers
FormantAmplitude
ControlFormant
Resonators
VoicingControl
Speech Out+
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control
El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-
talk
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)
Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla.
Síntesis por concatenación de unidades:
• Selección de unidades: tipo “dífonos” para representarla coarticulación entre dos sonidos.
• Algoritmo de modificación prosódica (PSOLA: PitchSynchronous Overlap-Add)
Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades
Generación de la base de datos
Lista de Unidades
Informac.unidades
Sintetizador de VozModificación Prosódica
BD Unidadesde síntesis
Concatenación
Síntesis
DecodificaciónDe voz
Segmentaciónde unidades
Corpusde voz
BDUnidades
de VozAnálisis
BD Unidades
Parametriz. Ecualización
Codificaciónde voz
Fonemas yProsodia
Voz
Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades: Dífonos
...# L L AA T T A A #
Modificación de paramètrosprosódicos
0 200 400 600 800 1000 1200 1400 1600 1800 2000-2
-1.5
-1
-0.5
0
0.5
1
1.5
2x 10
4
0 500 1000 1500 2000 2500-2
-1.5
-1
-0.5
0
0.5
1
1.5
2x 10
4
PSOLA: Pitch Synchronous Overlap and Add
• PSOLA (Charpentier-Moulines, 1986)• Es el método más utilizado en síntesis por
concatenación de unidades• Existen 3 versiones TD-PSOLA,
LP-PSOLA y FD-PSOLA
PSOLA
De: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
Modification de la Voz usandoPSOLA
• Además de la síntesis de voz a partir de segmentos hay dos aplicaciones del PSOLAque se usan en TTS:– Modificación del Pitch– Modificación de la Duración
Aumentando el pitch con PSOLA
De: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
Disminuyendo el pitch PSOLA
De: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
Modificando el Pitch
=X
Hannedpitch period
Dífono Original Extractedpitch period
Hanningwindow‘C_A’
Modificando el PitchPSOLA – Pitch Synchronous Overlap and Add
=
50% Overlap + Add
Pitch Up > 50%Pitch Down < 50%
PSOLA strengths and weaknesses
• Strengths– Produces good quality speech
• Weaknesses– Large, annotated corpus needed for each ‘voice’– Requires accurate pitch peak detection– Inflexible – new voices can only be produced by
recording and labelling significant speech corpora from new speakers
• Automatic annotation of corpora using techniques from speech recognition
Síntesis de VozSíntesis de Voz
Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación
prosódica (PSOLA – CNET, Moulines & Charpentier 1990)
Hay otros modelos de síntesis: Modelos Armónicos
Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Modelos Articulatorios:
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia):
S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)
u1 u2 u3 u4 ... ... ...... un Gran BD deUnidades de Voz ui10 – 150 min.
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Se define:Coste de ajuste al objetivo:
Coste de concatenación::
j: diferencia de f0, duración, contexto, ...wj
t: peso de cada factor
( )iit utC ,
( )iic uuC ,1−
( ) ∑=
=P
jii
tj
tjii
t utcwutC1
),(,
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Se define:Coste de concatenación::
j: distancias en el punto de unión: cepstral, log-energía, f0, ...
wjc: peso de cada factor
( )iic uuC ,1−
( ) ( )∑=
−− = Q
jii
cj
iic
uucuuC
11
cj
1 ,w
la BD en existesecuencia la si 0,
Síntesis de VozSíntesis de VozObjetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia):
S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)
u1 u2 u3 u4 ... ... ...... un
{ui} óptima => mínimo
Gran BD deUnidades de Voz ui10 – 150 min.
( )nn utC 11 ,
( ) ( ) ∑∑=
−=
+++=n
in
cii
cn
iii
tcnn SuCuuCutCuSCutC2
11
111 ),(),(),(,,
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Problemas:
Qué factores y entrenamiento de los pesos: wjc, wj
t
Algoritmo de búsqueda de unidades
Síntesis de VozSíntesis de Voz
Sistemas y DificultadesDificultades
Naturalidad: prosodia, sistemas mixtos por corpus + dífonos
Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones
Personalización/Generación rápida de nuevas voces
Síntesis Audio-Visual
Síntesis de VozSíntesis de VozSistemas y Dificultades
Sistemas Comerciales (castellano):Telefónica Investigación y Desarrollo
http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xslTecnología / Diálogo / etc...
ATLAS: http://www.atlas-cti.com/es/download-atlastts.htmScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/)Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm)ELAN Informatique
(http://www.elanspeech.com/demos/sayso.html)Nuance (RealSpeak & Vocalicer:
http://www.nuance.com/prodserv/demo_vocalizer.html)
Síntesis de VozSíntesis de VozSistemas y Dificultades
Sistemas Investigación y Distribución Libre:Festival
http://www.cstr.ed.ac.uk/projects/festival/MBROLA
http://tcts.fpms.ac.be/synthesis/mbrola/mbrola.htmlFreeTTS (Festival => Java)
http://freetts.sourceforge.net/docs/index.php
Universidades españolas:http://www.gts.tsc.uvigo.es/cotovia/cotovia.es.html , corpushttp://www-gth.die.upm.es/research/synthesis/synth-form-
concat.html
Otros Contextos:MPEG-4 & MPEG-7Microsoft Speech API
Síntesis de VozSíntesis de VozSistemas y Dificultades
Otros Contextos: Síntesis Audio-Visual
Identificación de Sonidos(Reconocedor de Habla)
sonidos --> visemas
Audio(voz pre-grabada)
Conversor Texto-VozTexto
Animación
Audio
visemas
• Animación 2D o 3D
• Composición de Vídeo
Síntesis de VozSíntesis de VozSistemas y Dificultades
Otros Contextos: Síntesis Audio-VisualHaptek
http://www.haptek.comFaceWorks
http://interface.digital.com/Lipsync
(aplicaciones http://www.annosoft.com/index.htm)
Composición de vídeo:Vir2elle: http://www.vir2elle.com/Oddcast: http://vhost.oddcast.com/vhost_minisite/
Web bots: Alicebot(aplicaciones http://www.alicebot.org/)
Top Related