Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Post on 03-Feb-2015

3 views 0 download

Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4b.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Tratamiento Digital de VozTratamiento Digital de Voz

Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Síntesis de VozSíntesis de Voz

Sintetizadores de VozParamétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios

No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980):

Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control.

Text-to-phoneconversiontext

Phonestring Synthesis-

by-rule

Synthesisercontrol

parametersSynthesiser

“letter-to-sound”

rules

Exceptionsdictionary

Speakertable

Rules

Linguisticanalysis

Prosodyparameters

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

Unvoiced Excitation

VoicedExcitation

A

A

A

A

F1

F2

F3

F4

ExcitationMixers

FormantAmplitude

Control

FormantResonators

VoicingControl

Speech Out+

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-

talk

Síntesis de VozSíntesis de Voz

Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla.

Síntesis por concatenación de unidades:

• Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos.

• Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades

Generación de la base de datos

Lista de Unidades

Voz

Fonemas yProsodia

Informac.unidades

Sintetizador de VozModificación Prosódica

BD Unidadesde síntesis

Concatenación

Síntesis

DecodificaciónDe voz

Segmentaciónde unidades

Corpusde voz

BDUnidades

de VozAnálisis

BD Unidades

Parametriz. Ecualización

Codificaciónde voz

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades: Dífonos

...# L L AA T T A A #

Modificación de paramètrosprosódicos

0 200 400 600 800 1000 1200 1400 1600 1800 2000-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

0 500 1000 1500 2000 2500-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

PSOLA: Pitch Synchronous Overlap and Add

• PSOLA (Charpentier, 1986)

• Most successful current approach to concatenative synthesis

• In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added

• BT’s Laureate is an example

PSOLA

From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Speech modification using PSOLA

• In addition to speech synthesis from segments, there are two other common applications of PSOLA:– Pitch modification– Duration modification

Increasing pitch using PSOLA

From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Decreasing pitch using PSOLA

From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Altering Pitch

X

Hanningwindow

=

Original diphone Extractedpitch period

Hannedpitch period‘C_A’

PSOLA – Pitch Synchronous Overlap and Add

=

Altering Pitch

50% Overlap + Add

Pitch Up > 50%Pitch Down < 50%

PSOLA strengths and weaknesses

• Strengths– Produces good quality speech

• Weaknesses– Large, annotated corpus needed for each ‘voice’– Requires accurate pitch peak detection– Inflexible – new voices can only be produced by

recording and labelling significant speech corpora from new speakers

• Automatic annotation of corpora using techniques from speech recognition

Síntesis de VozSíntesis de Voz

Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Hay otros modelos de síntesis: Modelos Armónicos

Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Modelos Articulatorios:

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +

prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un

Gran BD deUnidades

de Voz ui

10 – 150 min.

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Se define:

Coste de ajuste al objetivo:

Coste de concatenación::

j: diferencia de f0, duración, contexto, ...

wjt: peso de cada factor

iit utC ,

iic uuC ,1

P

jii

tj

tjii

t utcwutC1

),(,

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Se define:

Coste de concatenación::

j: distancias en el punto de unión: cepstral, log-energía, f0, ...

wjc: peso de cada factor

iic uuC ,1

Q

jii

cj

iic

uucuuC

11

cj

1 ,w

la BD en existesecuencia la si 0

,

Síntesis de VozSíntesis de Voz

Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +

prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un

{ui} óptima => mínimo

Gran BD deUnidades

de Voz ui

10 – 150 min. nn utC 11 ,

n

in

cii

cn

iii

tcnn SuCuuCutCuSCutC2

11

111 ),(),(),(,,

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Problemas:

Qué factores y entrenamiento de los pesos: wjc, wj

t

Algoritmo de búsqueda de unidades

Tratamiento Digital de VozTratamiento Digital de Voz

Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Síntesis de VozSíntesis de Voz

Sistemas y Dificultades

Dificultades Naturalidad: prosodia, sistemas mixtos por corpus + dífonos

Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones

Personalización/Generación rápida de nuevas voces

Síntesis Audio-Visual

Síntesis de VozSíntesis de Voz

Sistemas y DificultadesSistemas Comerciales (castellano):

Telefónica Investigación y Desarrollohttp://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xslTecnología / Diálogo / etc...

ATLAS: http://www.atlas-cti.com/es/download-atlastts.htm

ScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/)Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm)ELAN Informatique (http://www.elanspeech.com/demos/sayso.html)Nuance (RealSpeak & Vocalicer: http://www.nuance.com/prodserv/demo_vocalizer.html)

Síntesis de VozSíntesis de Voz

Sistemas y Dificultades

Sistemas Investigación y Distribución Libre: Festivalhttp://www.cstr.ed.ac.uk/projects/festival/MBROLAhttp://tcts.fpms.ac.be/synthesis/mbrola/mbrola.htmlFreeTTS (Festival => Java) http://freetts.sourceforge.net/docs/index.php

Otros Contextos: MPEG-4 & MPEG-7Microsoft Speech API

Síntesis de VozSíntesis de Voz

Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual

Identificación de Sonidos(Reconocedor de Habla)

sonidos --> visemas

Audio(voz pre-grabada)

Conversor Texto-VozTexto

Animación

Audio

visemas

• Animación 2D o 3D

• Composición de Vídeo

Síntesis de VozSíntesis de Voz

Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual

Haptekhttp://www.haptek.comFaceWorkshttp://interface.digital.com/ Lipsync(aplicaciones http://www.annosoft.com/index.htm)

Composición de vídeo: Vir2elle: http://www.vir2elle.com/ Oddcast: http://vhost.oddcast.com/vhost_minisite/

Web bots: Alicebot(aplicaciones http://www.alicebot.org/)