Download - Prof. Eduardo López Gonzalo e-mail: [email protected]/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de Voz

Prof. Eduardo López Gonzaloe-mail: [email protected]

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Síntesis de VozSíntesis de Voz

Tipos de Síntesis de Voz y Aplicaciones

Principios básicos de Sistemas de Conversión de Texto a Voz (TTS systems)

Sintetizadores de Voz

Sistemas y Dificultades


Tipos de Síntesis de Voz y Aplicaciones

(C)Conversión de Concepto

a VozConcept-to-Speech CTS

Locutores virtuales (visual – TTS)

Otros: Enseñanza (I. Cervantes), ..http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl

Comunicadores y Ayudas para Discapacitados

Asistentes de Lectura

Acceso a Inform.Telefónica(A)

Voz Pre-Grabada(codificación)

(B)Conversión de Texto

a VozText-to-Speech TTS

1791

• El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano

1835

• Sistema parlante diseñado por Sir Charles Wheatstone

Sprachsynthese (TTS, Vocoder) Historie der Sprachsynthese

1939Homer Dudley’s “Voder”:

Primer Sintetizador “electrónico” compuesto de:

• Un oscilador (controlado por un pedal) y una fuente de ruído blanco

• Diez filtros paso banda, con salida conectada a potenciómetros

• Algunos botones para generar consonantes como t, p, etc...

http://www.acoustics.hut.fi/~slemmett/dippa/appa.htmlProseminar Sprachdialogsysteme Philipp S. Bach


Principios básicos de Sistemas de Conversión de Texto a Voz (TTS systems)

ProcesoLingüístico-Prosódico

Proceso de Señal

•Sonidos (pausas)•Prosodia:

o F0o Duracióno Energía

Análisis del TextoAnálisis FonéticoAnálisis Prosódico

Modelos de Síntesisde Voz

SINTETIZADOR

Texto Voz

Cotovía es un sistema de conversión texto-voz bilingüe para Gallego y Castellano desarrollado por el Grupo de Tratamientode la Señal de la Universidad de Vigo (España) y un grupo de investigadores de la Universidad de Santiago de Compostela

con el apoyo del Centro Ramón Piñeiro para a Investigación en Humanidades.

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis del Texto

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Componentes:



Detección de la Estructura:– Segmentación de

párrafos.– Separación de frases.– Tipos de frases.– Detección de estructura

de SMS, e-mail, página web, ...

– Identificación del Idioma, ...


Texto de Entrada





Normalización del Texto:– Abreviaturas (Vd. Sr. ),

acrónimos (CEE, BMW) , etc.

– Fechas, Horas, Cantidades, Números

– Corrección automática de errores o expansión de formas de escritura (SMSs)

– Identificación de palabras extranjeras, ..


Texto de Entrada





Análisis Lingüístico:– Análisis sintáctico y

semántico (posible)– Desambiguación de

palabras.– Estructura de la frase.– Identificación de tipo de

frase.


Texto de Entrada




Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Componentes:







Análisis Morfológico:– Palabras de función:

pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar)

– Palabras de contenido – Prefijos y sufijos,

conjugaciones, plurales, aumentativos, etc

– Descubrir homógrafas que cambian sentidoEj.: para (preposición) y para (verbo)







Conversión Grafema-Alófono:– Soluciones basadas en

diccionario• Palabras divididas en

morfemas (para disminuir diccionario)

• Si la palabra no está: usa reglas

– Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones


Proceso Lingüístico-Prosódico: Análisis Prosódico

Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Componentes:






Módulo Pausador

Módulo Pausador:– Decisión de dónde insertar

pausas –ortográficas y no ortográficas- :

• Información gramatical: coeficientes de relación

• Número de sílabas– Asignación de la duración

adecuada a las pausas






Módulo Pausador

Modelado Prosódico:– Modelos:

• Patrones pre-establecidos• Basados en reglas• Estocásticos, a partir de

datos.– Modelado de F0 y duración:

¿independiente o conjunto?– Intensidad, generalmente

sólo normalización

Síntesis de VozSíntesis de VozMODELOS PROSÓDICOS

Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos

Escuela Británica – basada en análisis auditivoPierrehumbert 1980 – análisis acústico (ToBI)Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptualTilt - Taylor 1998 – base fonética

Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y

luego combinar los modelos parciales.

Fujisaki 1983, Grønnum 1992, Möbius et al. 1993,

Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York:

Hispanic Institute. Guadarrama 1974.

http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf


Sintetizadores de VozParamétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980)

Modelos Articulatorios

No Paramétricos: Concatenación de unidadesBase de datos de unidades “pequeña” +

modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980):

Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador.

Síntesis por formantes: produce la voz sintética a partir de los parámetros de control.

Text-to-phoneconversiontext

Phonestring Synthesis-

by-rule

Synthesisercontrol

parameters Synthesiser

“letter-to-sound”

rules

Exceptionsdictionary

Speakertable

Rules

Linguisticanalysis

Prosodyparameters


Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

Unvoiced Excitation

VoicedExcitation

A

A

A

A

F1

F2

F3

F4

ExcitationMixers

FormantAmplitude

ControlFormant

Resonators

VoicingControl

Speech Out+


Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-

talk

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla.

Síntesis por concatenación de unidades:

• Selección de unidades: tipo “dífonos” para representarla coarticulación entre dos sonidos.

• Algoritmo de modificación prosódica (PSOLA: PitchSynchronous Overlap-Add)

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades

Generación de la base de datos

Lista de Unidades

Informac.unidades

Sintetizador de VozModificación Prosódica

BD Unidadesde síntesis

Concatenación

Síntesis

DecodificaciónDe voz

Segmentaciónde unidades

Corpusde voz

BDUnidades

de VozAnálisis

BD Unidades

Parametriz. Ecualización

Codificaciónde voz

Fonemas yProsodia

Voz

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades: Dífonos

...# L L AA T T A A #

Modificación de paramètrosprosódicos

0 200 400 600 800 1000 1200 1400 1600 1800 2000-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

0 500 1000 1500 2000 2500-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

PSOLA: Pitch Synchronous Overlap and Add

• PSOLA (Charpentier-Moulines, 1986)• Es el método más utilizado en síntesis por

concatenación de unidades• Existen 3 versiones TD-PSOLA,

LP-PSOLA y FD-PSOLA

PSOLA

De: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Modification de la Voz usandoPSOLA

• Además de la síntesis de voz a partir de segmentos hay dos aplicaciones del PSOLAque se usan en TTS:– Modificación del Pitch– Modificación de la Duración

Aumentando el pitch con PSOLA


Disminuyendo el pitch PSOLA


Modificando el Pitch

=X

Hannedpitch period

Dífono Original Extractedpitch period

Hanningwindow‘C_A’

Modificando el PitchPSOLA – Pitch Synchronous Overlap and Add

=

50% Overlap + Add

Pitch Up > 50%Pitch Down < 50%

PSOLA strengths and weaknesses

• Strengths– Produces good quality speech

• Weaknesses– Large, annotated corpus needed for each ‘voice’– Requires accurate pitch peak detection– Inflexible – new voices can only be produced by

recording and labelling significant speech corpora from new speakers

• Automatic annotation of corpora using techniques from speech recognition


Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación

prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Hay otros modelos de síntesis: Modelos Armónicos

Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo


Modelos Articulatorios:



Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un Gran BD deUnidades de Voz ui10 – 150 min.



Se define:Coste de ajuste al objetivo:

Coste de concatenación::

j: diferencia de f0, duración, contexto, ...wj

t: peso de cada factor

( )iit utC ,

( )iic uuC ,1−

( ) ∑=

=P

jii

tj

tjii

t utcwutC1

),(,



Se define:Coste de concatenación::

j: distancias en el punto de unión: cepstral, log-energía, f0, ...

wjc: peso de cada factor

( )iic uuC ,1−

( ) ( )∑=

−− = Q

jii

cj

iic

uucuuC

11

cj

1 ,w

la BD en existesecuencia la si 0,

Síntesis de VozSíntesis de VozObjetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un

{ui} óptima => mínimo

Gran BD deUnidades de Voz ui10 – 150 min.

( )nn utC 11 ,

( ) ( ) ∑∑=

−=

+++=n

in

cii

cn

iii

tcnn SuCuuCutCuSCutC2

11

111 ),(),(),(,,



Problemas:

Qué factores y entrenamiento de los pesos: wjc, wj

t

Algoritmo de búsqueda de unidades


Sistemas y DificultadesDificultades

Naturalidad: prosodia, sistemas mixtos por corpus + dífonos

Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones

Personalización/Generación rápida de nuevas voces

Síntesis Audio-Visual

Síntesis de VozSíntesis de VozSistemas y Dificultades

Sistemas Comerciales (castellano):Telefónica Investigación y Desarrollo

http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xslTecnología / Diálogo / etc...

ATLAS: http://www.atlas-cti.com/es/download-atlastts.htmScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/)Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm)ELAN Informatique

(http://www.elanspeech.com/demos/sayso.html)Nuance (RealSpeak & Vocalicer:

http://www.nuance.com/prodserv/demo_vocalizer.html)


Sistemas Investigación y Distribución Libre:Festival

http://www.cstr.ed.ac.uk/projects/festival/MBROLA

http://tcts.fpms.ac.be/synthesis/mbrola/mbrola.htmlFreeTTS (Festival => Java)

http://freetts.sourceforge.net/docs/index.php

Universidades españolas:http://www.gts.tsc.uvigo.es/cotovia/cotovia.es.html , corpushttp://www-gth.die.upm.es/research/synthesis/synth-form-

concat.html

Otros Contextos:MPEG-4 & MPEG-7Microsoft Speech API


Otros Contextos: Síntesis Audio-Visual

Identificación de Sonidos(Reconocedor de Habla)

sonidos --> visemas

Audio(voz pre-grabada)

Conversor Texto-VozTexto

Animación

Audio

visemas

• Animación 2D o 3D

• Composición de Vídeo


Otros Contextos: Síntesis Audio-VisualHaptek

http://www.haptek.comFaceWorks

http://interface.digital.com/Lipsync

(aplicaciones http://www.annosoft.com/index.htm)

Composición de vídeo:Vir2elle: http://www.vir2elle.com/Oddcast: http://vhost.oddcast.com/vhost_minisite/

Web bots: Alicebot(aplicaciones http://www.alicebot.org/)