Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4b.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Tratamiento Digital de VozTratamiento Digital de Voz

Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Síntesis de VozSíntesis de Voz

Sintetizadores de VozParamétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios

No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980):

Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control.

Text-to-phoneconversiontext

Phonestring Synthesis-

by-rule

Synthesisercontrol

parametersSynthesiser

“letter-to-sound”

Exceptionsdictionary

Speakertable

Linguisticanalysis

Prosodyparameters

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

Unvoiced Excitation

VoicedExcitation

ExcitationMixers

FormantAmplitude

Control

FormantResonators

VoicingControl

Speech Out+

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-

Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla.

Síntesis por concatenación de unidades:

• Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos.

• Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades

Generación de la base de datos

Lista de Unidades

Fonemas yProsodia

Informac.unidades

Sintetizador de VozModificación Prosódica

BD Unidadesde síntesis

Concatenación

Síntesis

DecodificaciónDe voz

Segmentaciónde unidades

Corpusde voz

BDUnidades

de VozAnálisis

BD Unidades

Parametriz. Ecualización

Codificaciónde voz

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades: Dífonos

...# L L AA T T A A #

Modificación de paramètrosprosódicos

0 200 400 600 800 1000 1200 1400 1600 1800 2000-2

0 500 1000 1500 2000 2500-2

PSOLA: Pitch Synchronous Overlap and Add

• PSOLA (Charpentier, 1986)

• Most successful current approach to concatenative synthesis

• In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added

• BT’s Laureate is an example

From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Speech modification using PSOLA

• In addition to speech synthesis from segments, there are two other common applications of PSOLA:– Pitch modification– Duration modification

Increasing pitch using PSOLA

Decreasing pitch using PSOLA

Altering Pitch

Hanningwindow

Original diphone Extractedpitch period

Hannedpitch period‘C_A’

PSOLA – Pitch Synchronous Overlap and Add

Altering Pitch

50% Overlap + Add

Pitch Up > 50%Pitch Down < 50%

PSOLA strengths and weaknesses

• Strengths– Produces good quality speech

• Weaknesses– Large, annotated corpus needed for each ‘voice’– Requires accurate pitch peak detection– Inflexible – new voices can only be produced by

recording and labelling significant speech corpora from new speakers

• Automatic annotation of corpora using techniques from speech recognition

Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Hay otros modelos de síntesis: Modelos Armónicos

Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo

Modelos Articulatorios:

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +

prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un

Gran BD deUnidades

de Voz ui

10 – 150 min.

Se define:

Coste de ajuste al objetivo:

Coste de concatenación::

j: diferencia de f0, duración, contexto, ...

wjt: peso de cada factor

iit utC ,

iic uuC ,1

t utcwutC1

Se define:

Coste de concatenación::

j: distancias en el punto de unión: cepstral, log-energía, f0, ...

wjc: peso de cada factor

iic uuC ,1

uucuuC

la BD en existesecuencia la si 0

Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +

prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un

{ui} óptima => mínimo

Gran BD deUnidades

de Voz ui

10 – 150 min. nn utC 11 ,

tcnn SuCuuCutCuSCutC2

111 ),(),(),(,,

Problemas:

Qué factores y entrenamiento de los pesos: wjc, wj

Algoritmo de búsqueda de unidades

Tratamiento Digital de VozTratamiento Digital de Voz

Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Sistemas y Dificultades

Dificultades Naturalidad: prosodia, sistemas mixtos por corpus + dífonos

Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones

Personalización/Generación rápida de nuevas voces

Síntesis Audio-Visual

Sistemas y DificultadesSistemas Comerciales (castellano):

Telefónica Investigación y Desarrollohttp://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xslTecnología / Diálogo / etc...

ATLAS: http://www.atlas-cti.com/es/download-atlastts.htm

ScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/)Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm)ELAN Informatique (http://www.elanspeech.com/demos/sayso.html)Nuance (RealSpeak & Vocalicer: http://www.nuance.com/prodserv/demo_vocalizer.html)

Sistemas y Dificultades

Sistemas Investigación y Distribución Libre: Festivalhttp://www.cstr.ed.ac.uk/projects/festival/MBROLAhttp://tcts.fpms.ac.be/synthesis/mbrola/mbrola.htmlFreeTTS (Festival => Java) http://freetts.sourceforge.net/docs/index.php

Otros Contextos: MPEG-4 & MPEG-7Microsoft Speech API

Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual

Identificación de Sonidos(Reconocedor de Habla)

sonidos --> visemas

Audio(voz pre-grabada)

Conversor Texto-VozTexto

Animación

visemas

• Animación 2D o 3D

• Composición de Vídeo

Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual

Haptekhttp://www.haptek.comFaceWorkshttp://interface.digital.com/ Lipsync(aplicaciones http://www.annosoft.com/index.htm)

Composición de vídeo: Vir2elle: http://www.vir2elle.com/ Oddcast: http://vhost.oddcast.com/vhost_minisite/

Web bots: Alicebot(aplicaciones http://www.alicebot.org/)

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Documents

Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Oficina de Radiocomunicaciones (BR) - ITU

Apuntes radiocomunicaciones

Radiocomunicaciones por satélite

PublicaciÃ³n TDV 2019 0001

SR01_Contenidos RADIOCOMUNICACIONES

Sonido y Radiocomunicaciones. Manual Analfatecnicos

Oficina de Radiocomunicaciones

CUADERNO DE PRÁCTICAS DE RADIOCOMUNICACIONES.

Radiocomunicaciones Clif 2013

Test de Dependencia de Videojuegos (TDV) Cholíz, 2011

Radiocomunicaciones Uruapan

Laboratorio de Radiocomunicaciones - …users.alliedmods.net/~faluco/apuntespak/3A/ApuntesPak_Lab_Radio.… · Laboratorio de Radiocomunicaciones Apuntes de Pak ... Fecha de última

RADIOCOMUNICACIONES - Universidad de La Laguna

Guia de Radiocomunicaciones Hf Junio 2011

El tdv libro que dios quiere que leas y que satanas oculto por siglos.

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Curso Operador de Radiocomunicaciones

Servicios de radiocomunicaciones espectro.pdf

Radiocomunicaciones 2

Radiocomunicaciones CY