CodificacionVoz

download CodificacionVoz

of 49

Transcript of CodificacionVoz

  • 8/6/2019 CodificacionVoz

    1/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    CODIFICACIN DE LA VOZEste trabajo consiste en explicar como se puede simular la voz

    mediante circuitos electrnicos.

    En primer lugar vamos a analizar que sucede en un ser humano

    a la hora en que se crea la voz y como se puede modelar para quesuene mejor, la tcnica vocal. Tras esto se analiza como podemosmodelizar esto mediante un circuito electrnico y que caractersticasha de cumplir para que el modelo sea lo ms parecido posible a la vozhumana.

    1.MECANISMO DE LA VOZ

    En el mecanismo de la voz se deben estudiar por separado lostres elementos fundamentales que intervienen:

    a) Elemento motor: AIRE-RESPIRACINb) Elemento vibrador: CUERDAS VOCALESc) Elemento amplificador: ORGANOS DE LA CABEZA

    Corte seccional de la cabeza que muestra el mecanismo de la voz:

    DIBUJO 1

    1

  • 8/6/2019 CodificacionVoz

    2/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    a) RESPIRACIN

    Para la emisin de los sonidos es imprescindible el uso del aire

    ya que este es el elemento motor de la voz. Al inspirar se llenan lospulmones de aire. Los pulmones son un reservorio de aire queimpulsan el aire a travs de un orificio de la laringe que se llamaglotis, cuando el aire pasa por l, las cuerdas vocales se cierran y seabren, pero este mecanismo se va a estudiar ms adelante.

    Ahora vamos a analizar las diferentes forma de respirar.

    La respiracin puede ser:

    I) ClavicularII) Abdominal SuperiorIII) Abdominal Inferior

    En la figura inferior se muestran las tres formas de respiracin:

    DIB 2

    La respiracin clavicular se realiza elevando los hombros a la

    hora de respirar. Aporta una cantidad de aire pequea y produceirregularidades en la laringe.

    2

  • 8/6/2019 CodificacionVoz

    3/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    La respiracin abdominal superior intensa produce unenvaramiento de los rganos fnicos.

    La respiracin abdominal inferior es llamada tambindiafragmtico - costal proporciona un gran volumen de aire, activa

    y pone en tensin el msculo diafragmtico que es el verdaderoimpulsor y regulador de la columna de aire durante la emisin dela voz.

    Estos matices de la respiracin son muy importantes a la horade cantar, aunque a la hora de hablar no nos interese tanto tenerlosen cuenta.

    Como informacin adicional vamos a explicar las diferenciasque podemos encontrar en la formacin del sonido a la hora de hablary a la hora de cantar. El diafragma es el origen de la dinmica delcanto, aunque no tenga especial importancia en la forma de hablar,ya que no nos interesa tener un chorro de aire que tenga unascaractersticas especiales, lo nico interesante es tener aire. Al cantardeben trabajar del orden de ciento cincuenta msculos en el trax ydiafragma, cuando a la hora de hablar no ser necesario el uso detantos msculos por lo que ya hemos comentado, que no esnecesario tener ninguna caracterstica especial en el chorro de aire.

    b) LAS CUERDAS VOCALES

    Como ya hemos comentado antes las cuerdas vocales son elelemento vibrador en la creacin de la voz. Las cuerdas vocales sonrepliegues de la mucosa de la laringe por las que pasa el aire. Estepaso produce un efecto de frotamiento entre los bordes finsimos delas cuerdas, produciendo una energa acstica. Estos repliegues estnservidos de 40 pequeos msculos que a las rdenes o impulsoscerebrales, se tensan y destensan adecuadamente para producir losdiferentes sonidos con sus diferencias tonales. Para que vibren las

    cuerdas vocales tiene que haber una voluntad expresa del hablante;si no, el paso del aire por la trquea produce un sonido caractersticode un tubo, pero no el de la voz.

    El nmero de vibraciones de las cuerdas vocales no dependeexclusivamente de la longitud de las mismas, sino del grado deexcitabilidad del individuo en s, en el nervio motor de dichas cuerdas.Quien sea delgado y alto no tiene que ser precisamente una vozpeculiarmente baja, esto slo depende de la cualidad de excitabilidaddel nervio motor de las cuerdas.

    Las cuerdas estn agrupadas en dos pares:

    3

  • 8/6/2019 CodificacionVoz

    4/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    I) InferioresII) Superiores

    En el dibujo de abajo se muestran las cuerdas vocales tantoinferiores como las superiores, ayudando su localizacin mediante

    otro dibujo de la parte exterior:

    DIB 3

    Las cuerdas vocales inferiores se denominan como las cuerdasverdaderas y en cambio las superiores se denominan como laspseudocuerdas.

    Podemos considerar que cada par de cuerdas forman una doblelengeta membranacea. Estas lengetas crean el sonido elemental,que al pasar por la faringe y las cavidades vocales y nasales seamplificaran para salir al exterior, pero esto lo detallaremos msadelante.

    Las cuerdas vocales pueden trabajar de diversas formas

    4

  • 8/6/2019 CodificacionVoz

    5/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    VOZ DE CABEZA:Cuando se produce la actividad delos bordes de las cuerdas vocales,con gran finura.

    VOZ DE PECHO:Cuando se produce la actividad devibracin de las cuerdas vocalescon una mayor masa, voz fuerte.

    VOZ DE FALSETE:Actividad de las cuerdas vocalesreduciendo mucho el paso del airey uniendo cuerdas por el otroextremo.

    SUPERAGUDOS:Actividad de las cuerdas enalgunas mujeres, logrando hacerpermanecer juntas la mitad de lascuerdas y trabajando solamentecon la otra mitad.

    Tambin vamos analizar algunas de las afecciones que puedensufrir las cuerdas vocales: los ndulos:

    Los ndulos o plipos sepresentan algunas veces de la

    5

  • 8/6/2019 CodificacionVoz

    6/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    forma en la que vemos en lafigura, no dejando juntarse bienlas cuerdas al sonar. Producenvoces solapadas. Si estos ndulosno se extirpan puede sobrevenir

    alguna infeccin por losconstantes frotamientos.

    Puede ocurrir que algunaspersonas tengan un ndulo en unaregin lmite que no llega aimpedir el buen funcionamiento dela voz por tanto nunca se notahablando.

    El tamao de las cuerdas vocales influye en el tono de voz, aligual que el tamao de la faringe, cosa que se puede observar en lamuda de voz sobre todo en el cambio de voz que experimentan losnios. Al producirse el cambio vara tanto el tono como la claridad dela voz.

    c) ORGANOS DE LA CABEZA

    Estos son los elementos que amplificaran los sonidoselementales que ya han creado las cuerda vocales. Tenemos quetener en cuenta como amplificadores tanto las cavidades bucalescomo las nasales adems de los senos maxilares y los frontales.

    En el siguiente dibujo se pueden observar la representacingrfica de las cavidades fonticas:

    DIB 4

    La distancia entre las cuerdas vocales y los labios, en unindividuo normal es aproximadamente de 18 cm. En esta distancia

    6

  • 8/6/2019 CodificacionVoz

    7/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    estn ubicadas las cavidades que van a modelar la voz, por lo tantova a ser una parte muy importante.

    La voz producida en la laringe hay que proyectarla bien alexterior. El punto de apoyo subjetivo debe ser en una lnea imaginaria

    a la altura del velo paladar, con el fin de obligar la proyeccin de lavoz hacia adelante y lograr las resonancias o amplificaciones de lascavidades antes mencionadas.

    En el siguiente dibujo se muestra claramente, tanto laproyeccin como el lugar donde se sitan las vocales:

    DIB 5

    Cada una de las cuerdas vocales se debe proyectar, en laemisin constante de la voz, hacia los puntos del paladar indicados enla figura. Para conseguirlo exige distintas posturas de las cavidades,las cuales estn representadas en la siguiente figura:

    DIB6

    Dependiendo de las posturas, la voz obtiene un cierto colornasal, muy apropiado para dotarla de resonancias con una cierta

    7

  • 8/6/2019 CodificacionVoz

    8/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    riqueza de armnicos. El timbre de la voz depende precisamente dela amplificacin del sonido en las cajas de resonancia.

    La emisin ptima del sonido se obtiene cuando las frecuenciasdel sonido elemental, creadas mediante las cuerdas vocales, actan

    en las cavidades de resonancia dispuestas o afinadas para producirlas mismas frecuencias que aqul, dando como resultado unaamplificacin correcta y afinada de aquel sonido elemental.

    Las cuerdas vocales crean frecuencia bsicas e infinidad dearmnicos de estos cuya amplitud va decreciendo, puede llegar hasta35 armnicos. Las cavidades resonantes a su vez nos dan unosarmnicos que se ven amplificados en concordancia con losformantes o frecuencias de resonancia de las cavidades.

    Cada persona tiene diferente constitucin fsica y por tanto lasresonancias obtenidas sern diferentes, al igual que los timbres enuna agrupacin. La resonancia se puede diferenciar con una emisinde aire constante, y con la boca cerrada o abierta, emitindose lossonidos por la nariz expresamente, lo que se puede hacer cerrando laglotis, y amplificndose en las cavidades nasales.

    Como resultado del estudio de la resonancia de la formaanterior se puede decir que las personas pueden controlas lasfrecuencias de los picos modificando el conducto bucal. Mediante lamandbula se puede cambiar el primer formante, mediante la lengua

    se modificar el segundo formante y mediante la punta de la lenguael tercer formante. Con todos estos cambios se va a poder conseguircualquier tono, timbre y color en la voz.

    Con todo lo visto se sabe que la amplificacin se produce sobretodo en la cavidad bucal, dependiendo de las frecuencias deresonancia que caractericen estas cavidades, tanto por lascaractersticas fsicas como los cambios voluntarios que puede haceruna persona. Con esto llegamos a la conclusin de que se van aconseguir distintos tonos para cada persona aunque tengan lascuerdas vocales idnticas.

    En los prrafos anteriores se ha hablado tanto del timbre comodel color de la voz, los cuales vamos a explicar junto con laintensidad.

    La voz puede tener bsicamente tres colores: normal, claro(carcter jovial) y oscuro (carcter dramtico). Estos colores sepueden trabajar, y adems la voz ha de tener variacin en los colorespuesto que sino puede llegar a ser muy montona.

    La intensidad de la voz viene determinada por la fuerza con laque los pulmones impulsan el aire, y en este caso sern importantes

    8

  • 8/6/2019 CodificacionVoz

    9/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    las diferentes formas de respirar, distinta en cada persona, que sehan explicado antes.

    Por ltimo tenemos el timbre de la voz que se diferenciara porlos sonidos elementales creados por las cuerdas vocales. En este

    punto hay que recalcar que el timbre de los hombres es ms graveque el de las mujeres, porque las cuerdas vocales del hombre sonms gruesas que las de la mujer.

    Nos centraremos ahora en de la diferencia en la formacin delas vocales y de las consonantes:

    Las vocales son sonidos con una cierta frecuencia que se verncambiados por las cavidades y en cambio las consonantes son ruido.

    Las consonantes se producen de forma brusca y tiene muchosarmnicos transitorios que se crean al pasar el ruido por lascavidades. stas, se pueden dividir en dos categoras: ConsonantesHablantes y Consonantes Silenciosas. Las consonantes hablantes sedistinguen de las silenciosas porque en la formacin de las primerasintervienen las cuerdas vocales.

    2.CODIFICACION DE LA VOZ

    Para la simulacin de la seal de voz se pueden utilizar diversas

    tcnicas. Hasta el da de hoy, se han desarrollado muchas tcnicaspara la codificacin de voz con el objetivo de reducir la informacinque necesaria sin perder calidad. Algunas de las tcnicas estnestandarizadas como PCM, DM, APCM, ADM o LPC. Esta ltima se basaen modelar el sistema de reproduccin de seal de voz. Unplanteamiento posible de este sistema puede ser la versinadaptativa.

    En general la seal de voz es una sucesin de sonidos tantosonoros como sordos que pasados por un sistema que modela el

    tracto vocal crea la seal de voz. Por tanto podemos distinguir dosexcitaciones:

    Sonido sonoro: Es el caso de las seales que se generan alvibrar las cuerdas vocales a una frecuencia determinada o tonollamado pitch. Para generar este sonido la excitacin ser un tren dedeltas con un periodo igual al del pitch.

    Sonido sordo: Esta excitacin se modela con un ruido blanco. Nova a presentar ninguna periodicidad.

    Para el modelo LPC el sistema por el que pasar la excitacin

    ser un modelo todo polos. Para la codificacin de la seal seutilizarn ventanas de unos 20ms de duracin en el cual se podr

    9

  • 8/6/2019 CodificacionVoz

    10/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    distinguir una seal ms o menos constante, y en las que se podrndiferenciar tanto los sonidos sonoros como los sordos. Lo importantedel modelo LPC es que se utiliza prediccin lineal para conseguir loscoeficientes del sistema con a los que podremos aplicar diferentestratamientos para conseguir mejoras en la seal de voz a sintetizar

    Algunos de estos tratamientos pueden ser las tcnicas demodificacin del escalado en tiempo y escalado en pitch de la sealde voz. Seguidamente se va ha hacer un estudio detallado de estatcnica.

    1.Introduccin

    La modificacin del escalado en tiempo y en menor grado en elpitch de seales de voz y audio son uno de los temas de mayorinters terico y prctico. Las aplicaciones son numerosas, como porejemplo, la sntesis de un texto hablado (basado en concatenacin deunidades acsticas), transformacin de las caractersticas de la voz,aprendizaje de lenguas extranjeras ... .

    Para completar la necesidad de un escalado en tiempo y enpitch de alta calidad, un gran nmero de algoritmos han sidopropuestos recientemente, para su implementacin en tiempo real ya veces utilizando solamente un hardware barato. Parece que muchos

    de los algoritmos pueden ser vistos como una pequea variacin deun pequeo nmero de esquemas bsicos.

    Vamos a ver algoritmos en el dominio frecuencial (phasevocoder) y en el dominio temporal (TD-PSOLA). Tambin sepresentarn las variaciones ms recientes de estos.

    La principal propuesta para analizarlos a la vez, se basa en unasimple extensin de la STFT (Short-Time Fourier Transform) que tieneen cuenta la variacin en el tiempo.

    En el punto 2 se van a explicar la produccin bsica de unaseal de voz, que ayuda a explicar la modificacin del escalado entiempo y en pitch. A su vez se va a explicar la STFT. En el punto 3 seanalizarn las modificaciones del escalado en tiempo/pitch basadosen el esquema del anlisis y sntesis de STFT con velocidadesuniformes. Una vez en el punto 4 se explicar el TD-PSOLA (Pitch-Synchronous Overlap/Add), en el que quedarn evidenciados losparecidos con la tcnica phase-vocoder. Algunas de las variacionesdel PSOLA se presentarn en el punto 5 y se terminar esta segundaparte comparndolo con el MBR-PSOLA.

    10

  • 8/6/2019 CodificacionVoz

    11/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    2.STFT y PHASE-VOCODER

    Las aplicaciones del STFT para seales de voz son numerosascomo tambin lo son las modificaciones sufridas la tcnica durantemuchos aos. Hoy en da la teora se ha llegado a entender bien, ypor tanto se pueden hacer implementaciones existentes, basadas enFFT y simples modificaciones del mtodo de sntesis de solapar ysumar.

    2.1. STFT y Phase Vocoder

    Anlisis: La STFT se puede tomar como una forma alternativa derepresentacin de una seal de voz uniendo los dominios de

    frecuencia y tiempo. La idea bsica consiste en aplicar transformadafourier a una porcin limitada de seal, pero luego shift en otraporcin de seal y repetir esta operacin, como se puede ver en lafigura:

    FIG1

    En este punto tenemos la seal descrita por los valores de la

    transformada fourier obtenidas en diferentes ventanas.Denotamos la seal muestreada que tenemos que analizar

    como x[n] (se asume que el periodo de muestreo es Te=1). Lassucesivas ventanas se denominan ta(u) (slo toman valores enteros).En aplicaciones estandar el anlisis de STFT se hace a velocidadconstante; pero para las transformaciones de escalado en tiempo ypitch es necesario hacerlo a velocidad no constante.

    Formalmente la STFT se puede describir como un paso-bajo oun paso-banda. Se va a trabajar con el paso-banda, ya que se

    corresponde al modo en que se usa la transformada en la prctica. Elpaso-bajo es ms til para el anlisis.

    11

  • 8/6/2019 CodificacionVoz

    12/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    La transformada viene dada por:

    La ventana de anlisis hu[n] es una funcin de peso que se aplicaantes de la transformada (selecciona el segmento y el peso para queluego sea analizado) .

    X(ta(u),w) es el espectro de la seal en tiempo ta(u)

    El anlisis de la ventana depende de u. Implcitamente se puedever que la ventana es:

    1-Simtrica y de duracin finita Tu2-De tipo paso-bajo

    Cualquiera de las ventanas se puede usar, dependiendo de lacaracterstica espectral. Las diferentes opciones son: Hanning,

    Blackman, Kaiser. Cuando la ventana se mantiene constante, unasolucin alternativa consiste en el diseo de un filtro FIR paso-bajocon una apropiada frecuencia de corte.

    Para un valor dado de w, X(ta(u),w) puede ser consideradocomo la salida de un filtro paso-banda complejo centrado en w ymuestreado en sucesivos instantes de ta(u).

    En la prctica la STFT es evaluada en frecuencias discretas k =2 k/N usando la FFT (Fast Fourier Transform) de longitud N>Tu. En elprocesado de audio y voz, el trmino phase-vocoder se refiere a laSTFT, en el cual la evaluacin compleja de los componentesespectrales de corto tiempo X(ta(u), k) estn expresados encoordenadas polares, Magnitud M y fase

    X(ta(u), k)=M(ta(u), k)*e j (ta(u), k)= M(ta(u), k)*e j (ta(u), k)

    Modificacin y sntesis: Vamos a diferenciar tanto la etapa de sntesiscomo la de modificacin.

    -Etapa de modificacin: Para el escalado en tiempo y en pitchconsiste de las siguientes etapas:

    12

    ( )( ) [ ] ( )( ) jwnana enutnhuut

    = += ,

    ( ){ } ( ) ( ){ }nutnhnut aua += ,

  • 8/6/2019 CodificacionVoz

    13/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    1-La aplicacin de modificaciones apropiadas a la streamX(ta(u), k) para producir el stream de short time sntesis spectrum

    Y(ts(u), k)2-La sincronizacin de los Y(ts(u), k) en un nuevo conjunto de

    instantes de tiempo, llamados ts(u).

    Ejemplos de la modificacin del espectro de corto tiempoincluyen transformacin de fase (escalado en tiempo) y lacompresin/expansin de los ejes de frecuencia (escalado en pitch)que sern detallados ms adelante.

    La stream de instantes de tiempo de sinteses ts(u) esdetermiada por la stream de instantes de tiempo de analisis deacuerdo con las deseadas modificaciones de escalado en pitch y en

    tiempo. El nmero de ts(u) necesitados no tiene porque ser igual queel de ta(u),(es idntico para transformaciones de phase-vocoder perono par PSOLA). Para los factores de modificacin no constantes, losinstantes de tiempo de sntesis generalmente sern espaciadosirregularmente, sin importar si la velocidad es constante o no.

    -Etapa de sntesis: Este es el ltimo paso, que consiste encombinar las stream de seales de corto tiempo sintetizadossincronizados en los instantes de tiempo de sntesis para obtener laseal modificada deseada como veremos ms adelante.

    Dada una secuencia arbitraria Y(ts(u), k) no existirnecesariamente una seal en tiempo, y(u), de la cual Y(ts(u), k) seasu STFT. La stream de Y(ts(u), k) de una seal dada ha se satisfacercondiciones de consistencia ya que la transformada corresponde a unsolapamiento de seales de corto tiempo. Existen muchas solucionespara este problema. Desde un punto de vista terico, hay muchas yrobustas motivaciones para usar el procedimiento de mnimo pesadocuadrado (weighted least-square) de solapado y suma. Esteprocedimiento consiste en buscar la seal y[n] cuya STFT

    Mejor se asemeje con la Y(ts(u), k), en el sentido de menorcuadratura

    fu[n], que es usado en la definicin de espectro de corto tiempo, esreferido como la ventana de sntesis. En las realizaciones prcticas,

    fu[n] es de duracin finita y menor que N (nmero de coeficientes deFFT) para despreciar el aliasing en tiempo.

    13

    ( )[ ] ( ) ( )[ ]

    +=

    m

    jkm

    suxs

    n emutymft ,

    ( )[ ] ( ){ } 21

    0

    ,, ksksN

    kn

    wtyut

    =

  • 8/6/2019 CodificacionVoz

    14/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    Normalmente se deduce directamente del anlisis de laventana, reflejando las modificaciones traidas al Y(ts(u), k) en el cual

    Y(ts(u), k) es el que mejor se asemeja. Cuando la elocidad desntesis es constante, fu[n]=f[n] pero generalmente fu[n] depender

    del tiempo. Aplicando la condicin de Parseval, y tomando en cuentaque la longitud de la ventan de sntesis es menor que la longitud de latransformada ec(5) quedar representada en el dominio del tiempo.

    Tomando como mnimo error cuadrtico:

    con

    Una generalizacin puede ser desarrollarse compensando elcriterio del error cuadrtico con una secuencia wn[n] de funciones decompensacin positivas.

    La frmula de sntesis que nos queda resolviendo la ec 8 es

    El algoritmo de sntesis es similar al de solapar y sumarcompensado: las sucesivas seales de sntesis de corto tiempo son

    combinadas con los apropiados pesos y variaciones de tiempo. Eldenominador acta como el factor de normalizacin de la variacindel tiempo, que compensa las modificaciones de energa resultadasde la posibilidad de un solape variable entre las ventanas sucesivas.

    El anlisis-sntesis STFT consigue una perfecta reconstruccincuando tomamos ventanas idnticas para anlisis y sntesis.

    Las diferentes elecciones de wu[n] proporcionan diferentesesquemas de sntesis. Posiblemente la aproximacin ms inmediatase consigue considerando wu[n]=1

    14

    ( ) ( ) ( )[ ] +=N N

    suW nufynfnuY2,

    ( ) ( )=

    +=0

    ,1

    ,K

    jkn

    kw euSY

    N

    nuy

    ( ) ( ) ( ) ( )[ ]2

    )(, +=u n

    suwu nufynfnuyxnw

    ( )( ) ( ) ( )

    ( ) ( )

    =

    u

    susn

    u

    sususw

    utufutuw

    utnwutufutuy

    n)()(

    )()()(,

    2

  • 8/6/2019 CodificacionVoz

    15/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    A causa del criterio del mnimo error, esta eleccin cuantificamayormente el error en el centro de la ventana de sntesis. Paracuantificar este efecto tomamos wu[n]=1/fu[n] quedando la frmulade sntesis de la siguiente forma:

    Que es simplemente el procedimiento de sntesis desolapamiento y suma. En implementaciones de tiempo real, el factorde normalizacin de la variacin de la variacin de tiempo fu(n-ts(u))que aparece en la ec. 11 es no deseable porque requiere una divisinpor cada muestra de salida. En cambio para un anlisis/sntesis develocidad constante, este factor de normalizacin puede ser calculadoe incluido en la ventana de sntesis. Para modelar las velocidades demodificacin de tiempo/pitch de tiempo variable, la normalizacinpuede ser omitida sin que afecte a la calidad de reestructuracin a lasalida: cuando la ventana de anlisis es lo suficientemente largacomparada con el espaciado entre los instantes de anlisis, estefactor es constante, consecuencia de las caractersticas paso-bajo delas ventanas de anlisis y sntesis

    2.2 Representacin cuasi-estacionario de la seal devoz

    Cuando se disean algoritmos de modificacin de la escala detiempo y pitch, es conveniente referirse a modelos paramtricos deproduccin de seales de voz (aunque este modelo no se useexplcitamente para seales el anlisis/sntesis propuestos) . En estaseccin se introducir la representacin cuasi-estacionaria de lasseales de voz muestreadas. La relacin entre el STFT de la seal devoz y lo parmetros de produccin de las seales de voz sonevidentes.

    Modelos de produccin de la seal de voz: La onda de la seal de vozmuestreada es modelada como la salida de un filtro lineal de tiempo

    15

    ( )( ) ( )

    ( )

    =

    u

    su

    u

    swsu

    utuf

    utuuyutuf

    n)(

    )(,)(,2

    ( )( )

    ( )

    =

    u

    su

    u

    sw

    utnf

    utuuy

    n)(

    )(,

  • 8/6/2019 CodificacionVoz

    16/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    variable conducido por una seal de excitacin, la cual es tanto unasuma de seales de banda estrecha con armnicos relacionados confrecuencias instantneas (sonido sonoro) como una secuenciaaleatoria estacionaria con un espectro de potencia flat (sonido sordo).

    Nos vamos a centrar sobre todo en el sonido sonoro. Los filtrosde tiempo variable aproximan el efecto combinado de.

    1-Las caractersticas de transmisin de las cavidades supra-glotales(incluyendo la radiacin en la apertura de la boca).

    2-En la forma del pulso glotal.

    El comportamiento entrada-salida del sistema estcaracterizado mediante su respuesta de muestra unitaria y de tiempovariable gn(m) definido como la respuesta en el instante n a unamuestra unitaria aplicada en el instante n-m. Una descripcinequivalente es dad por la funcin de transferencia de tiempo variabledel sistema definido como la transformada de Fourier de gn(m):

    G(n,m) y (n,m) son respectivamente referido como laamplitud y la fase de la variacin del tiempo de sistema. La noestacionariedad de gn(m) corresponde al movimiento de los

    articuladores fsicos y normalmente es comparado con la variacin enel tiempo de la forma de onda de la seal de voz. Pero puede serconsiderado casi constante para su duracin , por lo tanto podemosconsiderar gn(m) cuasi-estacionario.

    Para voiced speech, la excitacin de la forma de onda e(u) esrepresentado como la suma de exponenciales complejas relacionadasarmnicamente con amplitudes de valor unidad , fase inicial cero yuna funcin de frecuencia fundamental que vara despacio n2 /p(u)siendo p(u) el periodo del Pitch local.

    Donde k(u) es la excitacin de fase del k-esimo armnico:

    Como p(n) es casi constante, cerca del instante n, la fase del

    proceso de aproxima a:

    16

    ( ) ( )

    =

    =m

    wujjwm

    n ewuGemg),(,

    =

    =1)(

    0

    ))(()(up

    k

    nj kene

    ( ) ==

    ==

    n

    m

    n

    m

    kkmp

    kmn

    00 )(

    2)(

    )()()()( nmnnm kkk +=

  • 8/6/2019 CodificacionVoz

    17/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    para un (m-n) muy pequeo.

    Teniendo en cuenta la frmulas estandar de filtrado variable en

    el tiempo, la seal de voz modelada ser:

    Asumiendo que p(n), periodo del pitch, es constante para laduracin de gn(m) la seal de excitacin puede ser reemplazada porla representacin de sus armnicos locales.

    Siendo Ak(n), la amplitud del sistema y k(n) la suma de laexcitacin de fase k(n) y la del sistema k(n).

    k(n) es referido como la fase instantnes que teniendo encuenta que (n,wk(n)) vara lentamente se puede igualar a:

    2.3 Especificacin de la escala de tiempo/pitch

    En este punto vamos a comentar las modificaciones ideales de laescala de tiempo/pitch con la referencia del modelo de produccin deseal de voz. Primero definimos la funcin warping de tiempo/pitch yluego definimos los efectos de la modificacin en el modeloparamtrico.

    a) Modificacin del escalado de tiempo.

    Con esta modificacin se altera la velocidad aparente dearticulacin sin que afecete ala contenido espectral: El contorno depitch (np(n)) y la evolucin temporal de la estrucutura de losformantes tendra que estar escalados en el tiempo, pero no

    modificados.

    17

    =

    =m

    n mnemgnx )()()(

    ( ) { }( )[ ]

    ( )

    =

    =

    +

    =

    ==

    1)(

    0

    )(

    1)(

    0

    )(,)(

    )(

    )(,)(

    np

    k

    nj

    k

    np

    k

    nwnnj

    k

    k

    kk

    nA

    nnGnx

    )()()()( nmnnm kkk +=

  • 8/6/2019 CodificacionVoz

    18/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    Funcin Warping:Es la definicin de una cantidad de modificacinarbitraria de escalado de tiempo especificando un mapeado entre eltiempo en la seal original y el tiempo en la seal modificada. Estemapeado tt=D(t) es referido como la funcin warping de escalado

    de tiempo. t se refiere al tiempo en la seal original y t al tiempo en

    la seal escalado en el tiempo. La definicin integral de D:

    donde ( )>0 es la variacin de tiempo de la velocidad demodificacin de tiempo. Para ( ) constante, la funcin es lineal:D(t)= (t). El caso >1 corresponde a aumentar la velocidad

    aparente, por tanto, a una compresin de la escala de tiempo.

    Para velocidades de modificacin de tiempo con tiempo variablela D(t) es no lineal. Tener en cuenta que (t) es implcitamenteregular y de variacin lenta, por tanto, el ancho de banda de la sealmodificada ser algunos rdenes de magnitud menor que el de laseal original.

    Modificacin ideal. La funcin w especifica que los eventos de la sealde voz que ocurren en el instante t de la seal original, ocurren ent=D(t) de la seal escalada en el tiempo.Por tanto los parmetros de la seal sern:

    donde D-1( ) denota la inversa de mapeado (unin de la nueva escalade tiempo con la original) .

    1. El contorno de pitch nP(n) de la seal modificada est escaladaen el tiempo mediante la funcin warping.

    2. La funcin del sistema(amplitud, fase) son una versin escalada

    en el tiempo de la funcin original del sistema.

    18

    ( ) ( ) =t

    dtD0

    )(

    ( )[ ]( )

    ( )

    ( )

    =

    =

    +=

    ==

    =

    n

    m

    k

    kk

    kkk

    mDP

    knn

    nDP

    knDtnn

    nPk

    nDnDGnGnAn

    nDPnPn

    01

    11

    11

    1'

    )(2)(

    .)(

    2)()()(

    .1)(0

    .)(),()()(

    .)()(

  • 8/6/2019 CodificacionVoz

    19/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    3. La frecuencia instantnea de k-esimo armnico en la sealmodificada en el instante n se corresponde con la frecuenciainstantnes de la seal original en el instante D-1(n).

    b) Modificacin en el escalado de Pitch

    El objetivo es alterar la frecuencia fundamental de un segmento deseal de voz sin que se vea aumentada su envoltorio espectral nisu evolucin en el tiempo.

    Funcin Warping de Pitch: Es la definicin de la cantidad detransformacin de una escala de pitch especificando el factor t (t)de modificacin de pitch variable en el tiempo que afectar alcontorno de pitch: Transformando:

    Cuando el factor de transformacin de pitch es mayor que 1, (t)>1, la frecuencia de pitch local se ver incrementada mediante elfactor1/ (t); del mismo modo (t)

  • 8/6/2019 CodificacionVoz

    20/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    A diferencia de las modificaciones de escala de tiempo, lasmodificacines de escala de pitch requieren la estimacin de lasamplitudes G(n, (n)wk(n)) y las fases (n, (n)wk(n)) delsistema, a las frecuencias que no tienen porque ser las de los

    armnicos de pitch de la seal original. Esto es por lo que casi todoslos algoritmos de modificacin de escala de pitch requieren ladescomposicin explcita de la seal de voz en:

    1- La envolvente espectral variable en el tiempo2- Una seal de excitacin con un espectro flag

    Porque la funcin del sistema G(n,m) variable en el tiempo noes exactamente identificable mediante la forma de onda de la sealde entrada, son necesarios supuestos adicionales para esta tarea. Enel siguiente punto se describirn brevemente algunos mtodosusados para este propsito

    2.4 Descomposicin del filtrado de excitacin

    Este es un procedimiento estandar en las aplicaciones de procesadode seal de voz, incluidos la codificacion de voz de bajo bit-rate,reconocimiento de la seal de voz y su sintesis. Obviamente este tipode descomposicin se pueden lograr de difirentes modos, pero slo sevan a esplicar dos aproximaciones simples que darn buenos

    resultados:

    1- Basado en modelado todo-polos LPC de la seal de voz2- Uso explcito del espectro de la amplitud de corto tiempo

    El segundo es ms fcil de implementar en procedimientos enlos que la seal slo se representa en el dominio frecuencial

    1. LPC, Modelado todo-polos

    Posiblemente sea el modelo ms usado para el procesado deseales de voz. En el mbito LPC, la envolvente espectral de unaseal de voz que vara lentamente es estimado usando loscoeficientes del filtro todo-polos que usa cortos periodos de tiempopara analizar instantes (normalmente los periodos suelen ser de 20-30ms y se suelen usar de 10 a 20 coeficientes, dependiendo delancho de banda de la seal de voz).

    Los mtodos de estimacin tambin pueden ser muchos, porejemplo el ms usado es el mtodo estandar de autocorrelacin, porsu simplicidad (en particular porque no hay que controlar la

    estabilidad de filtro como en el procedimiento de la estimacin decovarianza). Usando el flujo de los modelos LPC, la excitacin queda

    20

  • 8/6/2019 CodificacionVoz

    21/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    determinada con el filtrado inverso. Para evitar problemas en lossegmentos donde los coeficientes del filtro cambian rpidamente, seinterpolan los coeficientes del filtro. Esta interpolacin deber seraplicada directamente tambin en los coeficientes de prediccin o enlos coeficientes transformados, tales como los coeficientes de

    reflexin o los Log-Area-Ratio. Tambin puede ser utilizada uaimplementacin normalizada de los filtros LPC.

    Pero el mtodo LPC nos da problemas con las voces de lasmujeres que tienen grandes pitch-s, porque el filtro LPC tiende a unmodelo de armnicos de pitch individuales ms que a una envolventeoverall. En este caso, se pueden usar parmetros de estimacinalternativos, como por ejemplo el modelado discreto todo-polos queposibilita la compatibilidad de la envolvente LPC con los armnicos depitch, mientras impone contrastes adicionales para evitar elsobremodelado.

    2. Modelado directo

    Para implementaciones en el dominio de la frecuencia, habrque considerar el modelado directo de la envolvente espectral de laseal de voz, desde el momento en que el analisis del espectro de unperiodo de tiempo corto es usado como una representacinintermedia de la seal. La apreximacin ms directa en este casoconsiste en interpolas las magnitudes de los armnicos de pitch. Lainterpolacin ha de ser lineal o cuadrtica, pero siempre requiere una

    estimacin de pitch con retardo fraccional o un procedimiento decaptacin preliminar de un pico. Esta emvolviente si es real, es pordefecto de fase cero. Si es necesario, la emvolvente de fase mnimahabr que calcularla usando las relaciones de transformada deHilbert. En todo caso, el espectro es obtenido mediante la divisin delanalisis de espectros por envolvente. Habr que tener especialcuidado para el aliasing temporal, por ejemplo el aumento de losnmeros de puntos de la FFT.

    Una solucin alternativa interesante consiste en la estimacinde los coeficientes del filtro de LPC de los cuales conseguiran la mejor

    funcin de transferencia de la envolvente de fase cero. Puede serhecho aplicando la inversa de Fourier a la envolvente cuadrada defase cero, y luego usando el algoritmo de levinson en la sevuencia depseudo autocorrelacin obtenida.

    3. ESCALADO EN TIEMPO/PITCH USANDOTRANSFORMADA DE FOURIER

    21

  • 8/6/2019 CodificacionVoz

    22/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    3.1 Escalado en tiempo

    Asumiendo que el modelo de produccin de la seal de vozexplicada en puntos anteriores es vlida, y que la modificacin de

    escalado de tiempo es especificado mediante la funcin de warpingtD(t), explicado tambin antes. La seal de voz es analizado usandola transformada de Fourier: tambin se asume que el analisis deventana y el tamao de la FFT son elegidos de forma que seconsiguen las condiciones del analisis de banda estrecha.

    3.1.1 Transformada de Fourier de tiempo escalado

    Segmentos de sonidos de voz sonoros:

    A pesar de que las modificaciones de velocidad constantepueden ser desarrolladas usando las mismas velocidades de analisis ysintesis, el algoritmo es simplificado significativamente si el analisises desarrollada a una velocidad constante R diferente de la velocidadde sintesis variable en el tiempo.

    Para los dos analisis el instante de tiempo ta(u)=uR es asociadocon u instante de tiempo de sintesis virtual t*s(u)=D(uR). En la figurase ilustra la correspondencia entre uR y t*s(u)=D(ta(u)).

    Fig2

    Los instantes de tiempo virtuales no tienen porque ser unnmero entero, dependen de ta(u) y de la funcin de warping D(t).Aun y todo, el esquema de sintesis de Fourier requiere los valores de

    Y(ts(u), k) que se calculan en los instantes mltiples del periodo demuestreo. Para remediar este problema, los instantes de sintesis sonmovidos a los enteros ms cercanos, y Y(ts(u), k) calculado en losinstantes de tiempo ts(u)= ts(u) .

    Y(ts(u), k) en los instantes ts(u) se representa por:

    22

  • 8/6/2019 CodificacionVoz

    23/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    con

    Para ts(u-1) m ts(u) y N(u)= ts(u)- ts(u-1) donde N(u) es eltiempo de las muestras entre dos instantes de sintesis sucesivos, y (u, k) es la frecuencia instantnea en el d-simo canal en nestimado segn la ecuacin de estimacin.

    Se puede verificar fcilmente1-La amplitud instantnes de la sunusoide del canal k-simo en elinstante ts(u) en la seal escalada en tiempo es igual al de la amplitudinstantnes de la sal original en el momento ta(u).2-La frecuencia instantnea del armnico de pitch en el instante ts(u)en la seal escalada en tiempo es:

    La frecuencia instantnea (m, k) necesita ser estimado encada instante (u-1)R+iR/N(u). La amplitud por el contrario, norequiere ninguna interpolacin. Pero en la prctica la ecuacin sesimplifica

    Que se puede interpretar como: Y(ts(u), k) es obtenido por laevolucin del escalado de tiempo de las amplitudes y frecuenciasinstantneas y dejando que la fase se mueva libremente. Estogarantiza que la seal escalada en tiempo obtenga las mismasfrecuencias de armnicos de pitch, y que sus evoluciones estnescalados en el tiempo de acuerdo con tD(t).

    Finalmente la seal escalada en tiempo es obtenida mediante laintroduccin de la STFT escalada en tiempo en la frmula de sntesis.Notese que cuando D(t) no es lineal, la ventan de sntesis ha de sernormalizada mediante D(t). Aunque en la prctica esta normalizacinpuede ser omitidaa.

    Segmentos de sonido sordos

    23

    ( )( ) ( )( )[ ] ( )( )ks utjksks eutDMutY = ,1 ,,

    ( ) ( )( ) ( )( )

    ( )

    =

    ++=

    1

    1

    ,1,1,utm

    i

    kksk

    s

    uN

    iRRuutm

    ( )( ) ( )( ) ( )kksks uRutut = ,,1,

    ( )( ) ( )( ) ( ) ( )( )kksks RuuNutut += ,1,1,

  • 8/6/2019 CodificacionVoz

    24/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    Aunque el sistema de modificacin arriba descrito se base en lasuposicin de que la seal de voz s casi peridica con unosparmetros de variacin lenta a lo largo del tiempo, el mismo sistemapuede tambien ser aplicado en seales sordas. Usando el mismoesquema de modificacin para segmentos sonoros y sordos se aade

    la robustez del algoritmo porque la decisin de sonido sonoro o sordoes necesaris.

    En todo caso utilizar el mismo mtodo para ambos segmentosgenera artifacts para factores de modificacin relativamente grandes:los segmentos sordos escalados en el tiempo adquieren una cualidadtomal como resultado de la coherencia de la fase entre los sucesivosespectros de corto tiempo

    3.1.2 Implementacin

    El algoritmo de implementacin puede reducirse a:

    1- Fijar las fases instantneas iniciales ^(0, k)=arg(x(0, k))2- Valorar la transformada en los instantes de anlisis ta(u) y calcular

    la frecuencia instantnea en cada canal3- Calcular los instantes de sntesis escalado en tiempo

    ts(u)= D(ta(u) ) y las correspondientes fases instantneas

    ^(ts(u), k) mediante:

    4- Reconstruir la transformada Fourier escalada en el tiempo en losinstantes ts(u) mediante:

    5- Calcular la n-sima seal modificada.

    3.2. Escalado en pitch

    Necesita 5 pasos:

    1- La seal de excitacin y la envolvente espectral sonextrados de la seal.

    2- La seal de excitacin es procesada modificando laestructura de pitch, el procesado es volviendo a muestrear.

    3- Obtener la seal de voz modificada en pitch recombinandola envolvente espectral y la excitacin modificada en pitch.

    24

    ( )( ) ( )( ) ( ) ( )[ ] ( )( )Ruwutututut sssksks 11,1, +=

    ( )( ) ( ) ( )( )ks utLjkks euAutY= ,,

  • 8/6/2019 CodificacionVoz

    25/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    La etapa es volver a muestrear altera la duracin delsegmento.

    4- Se aplica una modificacin en la escala de tiempo paracompensar.

    5- Restaurar la duracin del segmento original.

    3.2.1. Volver a muestrear en el dominio de tiempo yen el de frecuencia

    Se presentan dos mtodos, uno que trabaja en el dominio deltiempo y el otro que trabaja en el dominio de la frecuencia.

    Mtodo en el dominio del tiempo: normalmente se usa parafactores de velocidades de muestreo constantes y racionales, =D/U.

    Consiste en:1- Upsampling la seal original mediante el factor V insertandoU-1 muestras de valor cero entre muestras adyacentes.

    2- Interpolando la seal resultante mediante un filtro paso bajocon la apropiada frecuencia de muestreo.

    3- Downsampling la seal resultante mediante el factor D,descartando D-1 muestras de cada D.

    El espectro conseguido en el primer paso es una versincomprimida del espectro original, est formada por V copias(imgenes) del espectro original que quedan comprimidos en el

    intervalo [- /U, /U].

    La reconstruccin libre de aliasing requiere la cancelacinexacta de estas imgenes, por tanto el filtro interpolador debertener una frecuencia de muestreo de /U. An y todo, el ltimo pasorequiere un filtrado paso-bajo, con una frecuencia de corte de /D.Los dos filtrados se suelen hacer en un mismo paso con la frecuenciade corte mnima de /D y /U. En el ltimo paso la seal interpoladaideal produce una seal diezmada cuya frecuencia est concentradaen el intervalo [- D/U, D/U] cuando D/U1.

    Este mtodo es implementado cuando se est trabajando confactores de conversin de velocidad de muestreo:

    -constantes-racionales

    Todo lo que se necesita es un filtro paso-bajo o una cascada defiltros paso-bajo. La situacin es bastante diferente cuando losfactores son:

    -variables en el tiempo

    25

  • 8/6/2019 CodificacionVoz

    26/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    -irracionales.

    Para este caso teemos la solucin de phase-vocoder, operandocon un convertidor de velocidad de muestreo no cannico en eldominio de la frecuencia.

    Mtodo en el dominio de la frecuencia: la conversin de lavelocidad de muestreo es arbitraria (t)>0. Esta es una aplicacinimportante del anlisis-sntesis de la JTFT. En este campo de trabajo,la modificacin se hace en el dominio de la frecuencia mediante lossiguientes tres pasos:

    1- La extraccin del stream de la seal de anlisis en unavelocidad de anlisis constante de R muestras.

    2- La interpolacin de los espectros complejos de Fourier en unnuevo cojunto de frecuencias y la evaluacin de las sealesde sntesis asociadas.

    3- La sntesis de la seal modificada.

    Durante el segundo paso, la interpolacin lineal se aplica a laparte real e imaginaria del especxtro y se expresa.

    k= k (ta(u))

    (k)=k (ta(u)) -k

    Donde x indica el mayor valor entero menor que x.

    Volviendo a muestrear la seal con el factor (t) (estando tantoen el dominio temporal como en el de frecuencia) causa unamodificacin local de la escala de tiempo con el factor (t)=1/ (t). Aconsecuencia la seal modificada corresponde a: x (ts(u), k) essincronizada en un instante de tiempo virtual dado por:

    La longitud efectiva de la seal modificada se divide por: (UR).Hay que darse cuenta de que cuando se aumenta la velocidad demuestreo, la duracin de la seal modificada se ve incrementada ypuede exceder la longitud N de la transformada de Fourier, causandoun aliasing en la seal de salida. Para evitar este problema, lalongitud Tu de la ventana de aliasing hu[n] siempre tendr que sermenor que N (ta(u)). Aunque no se tendr en cuenta en velocidades

    de muestreo menores.

    26

    ( )( ) ( )( ) ( )( ) ( ) ( )( 1,,1, ++= kkaks utXkutXkutX

    ( ) ( )=uR

    s dttut0

    /1

  • 8/6/2019 CodificacionVoz

    27/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    Como en general la naturaleza no entera de las velocidades demuestreo vara, ocurren retardos fraccionales entre las franjas desntesis. Ms precisamente, la ts(u)=D(uR) no tiene que correspondernecesariamente a nmeros enteros de muestras, aunque el esquemade sntesis s que lo requiere. ts(u)= ts(u) . Cuando intentamos

    corregir el retardo fraccional ts(u) -ts(u), es necesario aplicar retardofraccional de muestreo a cada franja, por lo tanto han de solaparsecon las relaciones de fase correctas. Estos ajustes de retardo sonaplicados en cada trmino del espectro con una correccin de fase.

    La salida finalmente se consigue con un proceso desolapamiento y suma con pesos de menor cuadratura. Tener encuenta que a causa de la naturaleza de variabilidad en el tiempo de

    las modificaciones, la velocidad de sntesis es no constante aunque lade anlisis lo sea.

    Durante el proceso de volver a muestrear, la frecuencia decorte wh de la ventana de anlisis es multiplicada por el factor (ta(u)). Para evitar artefactos durante la sntesis, el ancho de bandade la ventana de sntesis deber elegirse para modificar la frecuenciade muestreo (ta(u)) wh. Para las ventanas de anlisis estndares:

    fu(n) = hu(n/ (ta(u)))

    Para factores de diezmado simples, 2/3 o 4/5, la tcnica descritaes ms compleja computacionalmente que el procedimiento en eldominio del tiempo.

    3.2.2 Escalado de pitch basado en resampling

    En el contexto, el resampling es desarrollado sin modificar lafrecuencia actual de muestreo: el intervalo de frecuenciasnormalizado [- , ] permanece asociado con las mismas frecuencias

    fsicas. Como consecuencia las operaciones de upsampling ydownsampling resultan :

    -en la compresin-expansin lineal de los ejes de frecuencia-en la compresin-expansin lineal de los ejes de tiempo

    Cuando se aplica a seales de voz la compresin-expansin delos ejes de frecuencia modifican el espaciado entre los sucesivosarmnicos de pitch, como se puede observar en la figura siguiente:

    27

    ( )( ) ( )( )[ ] ( ) ( )( )ututjksks sskeutXutY= ,,

  • 8/6/2019 CodificacionVoz

    28/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    FIG3

    Pero incluso modifica la localizacin y los anchos de banda delos formantes. Esto no es deseable para la seal de voz modificada enpitch. Para evitar este problema, el resampling es aplicado en la seal

    de fuente obtenida mediante el mtodo de descomposicin.La compresin-expansin lineal de los ejes de tiempo tambin

    deben ser compensados por una tcnica de modificacin de escala detiempos. Finalmente, la forma de onda de la modificacin de pitchdeseada se obtiene combinando la seal resampling de excitacin ylas envolventes no procesadas.

    Regeneracin de las bandas de frecuencia altas.

    Cuando se incrementa el pitch de la fuente ( =D/U>1), elespectro de ste se expande y la franja de frecuencias ms alta de laseal se descarta. En contraste, como se ha mencionado en el punto3.2.1. cuando se decrementa el pitch de la seal de fuente

  • 8/6/2019 CodificacionVoz

    29/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    Espectral Folding: es un mtodo que se usa en el dominio del tiempoy que consiste en usar una frecuencia de corte errnea en la etapa deinterpolacin para permitir una cantidad de aliasing frecuencial.

    Se asume que el filtro paso-bajo tiene una frecuencia de corte

    /D, siendo /D > /U y garantizando la cancelacin exacta deimgenes, por lo tanto consiguiendo una seal que contiene unacantidad deseada de aliasing frecuencial. Diezmando la sealmediante el factor D, se consigue una seal que ocupa todo elintervalo de frecuencias normalizadas [- , ]. Las frecuencias msaltas sern versiones archivadas del espectro comprimido original. Lamayor ventaja del espectral folding es su simplicidad: no requierecomputacin adicional para regenerar las bandas altas de frecuencia.

    Espectral Copying: se puede desarrollar slo con mtodos de

    resampling en el dominio de la frecuencia. La tcnica necesita elcopiado de las componentes de las bandas de baja frecuencia en laparte alta. La duplicacin es algo ms involucrado que el archivadoespectral, desde el momento en que la fase de cada componentefrecuencial necesita un ajuste. Esto es especialmente verdad cuandose usan seales de ancho de banda estrecho (velocidad de 8Khz);pero es menos crtico para seales de ancho de banda ancho (mayorque 16 Khz) porque las frecuencias que faltan son ms o menossordas.

    Escalado de tiempo compensado: para devolver su evolucin

    temporal original a la seal modificada en pitch, ha de serdesarrollada una modificacin de escala de tiempo compensatoriapara que los mapas de instantes de sntesis virtuales ts(u) vuelvan alos instantes de anlisis originales ts(u) = UR. Este cambio se hacemediante D-1(t) siendo D(t):

    3.2.3. Implementacin de phase-vocoder para lamodificacin de escala de pitch.

    Ofrece una natural franja de trabajo para la modificacin deescala de pitch mediante el resampling en el dominio frecuencialporque simplifica significativamente los sucesivos pasos de lamodificacin. En particular porque el resampling de la fuente y lamodificacin de la escala de tiempo compesatoria pueden serdesarrollados a la vez sin computacin adicional. Ms precisamente,ms que sintetizar la seal modificada en pitch de la fuente, aplica la

    compensacin en el escalado de tiempo. Es ms eficiente incorporarel escalado de tiempo en la etapa de sntesis de STFT.

    29

    ( ) ( )=t

    duutD0

    /1

  • 8/6/2019 CodificacionVoz

    30/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    Es fcil verificar que la modificacin de escala de tiemporequerida corresponde a una velocidad de anlisis variable en eltiempo y una velocidad de sntesis constante: ts(u) ha de sermapeado a t s(u) = UR.

    Esta implementacin se puede resumir como:

    1- Primero se desarrolla la descomposicin de filtro de fuete dela seal original.

    2- Desarrollo de la transformada de Fourier en la seal defuente. Este y el primer paso se pueden hacersimultneamente. En este punto tenemos la seal originaldescompuesta en Xs(uR, k) espectro de la excitacin yG(uR, w) la funcin de envolvente variable en el tiempo.

    3- Calcular Xs(ts(u), k) espectro de fuente resampleadolinealmente.4- Si es necesario, (ta(u))

  • 8/6/2019 CodificacionVoz

    31/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    original, las frecuencias instantneas (t s(u), k) son calculadas encada canal, luego son multiplicadas mediante el factor demodificacin de pitch. Las amplitudes Ak(uR) se derivan de la funcinde envolvente y el banco paralelo de osciladores sinusoidales esusado para generar la seal de salida escalado en pitch. Los

    osciladores son controlados en frecuencia y amplitud y susparmetros Ak(uR) y (t s(u), k) son puestos al da en los instantesUR. Este esquema tiene como ventaja el bypassing de resampling delespectro de excitacin. Aun y todo suele consumir ms tiempo que lasntesis de solape y suma.

    3.2.4. Inconvenientes de la modificacin de escala depitch mediante resampling.

    El mtodo presenta diversos inconvenientes que se resumen acontinuacin.

    Regeneracin de altas frecuencias. Las tcnicas usadas para generarlas partes de frecuencias altas del espectro no es satisfactoria. Elprolema es serio cuando se procesan seales de banda estrecha(frecuencia de muestreo de 8Khz). Este punto ilustra la mayormotivacin para sustituir tcnicas ms apropiadas como el mtodo

    TD-PSOLA o el mtodo paramtrico.

    Derivadas de las amplitudes armnicas: los mtodos de estimacin de

    envolvente espectral no son perfectos en el sentido de quegeneralmente fallan al flatear completamente el espectro de la sealde fuente. Las amplitudes de los armnicos de pitch flateadospresentan algunas fluctuaciones con respecto a la envolvente idealespectral. Las tcnicas de resampling de la fuente en el domiio deltiempo y de frecuencia warpean los ejes de frecuencias linealmente:las derivaciones de amplitud de los armnicos de pitch son movidosen frecuencia.

    Voicing: Los dems detalles de la fuente tambin son movidos de sus

    posicionamientos espectrales originales. Esto pasa particularmenteen el voicing, que no es uniforme por encima de las frecuencias. Lafuente espectral de un sonido sonoro normalmente exhibe bandas defrecuencia donde los ruidos dominan los armnicos de pitch (estefenmeno se nota ms en las bandas de alta frecuencia).

    4. El sistema PSOLA

    Casi todas las tcnicas de dominio de tiempo paramodificaciones de escalas de tiempos y de pitch se basan en el

    31

  • 8/6/2019 CodificacionVoz

    32/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    mismo mtodo fundamental, mejor ilustrada por el mtodo medianteel Pitch Synchronous Overlap and Add (PSOLA).

    Se describen las caractersticas ms importates de la tcnicade PSOLA. La descomposicin de la forma de onda en un flujo de

    seales de anlisis, la modificacin de estas en seales de sntesis yal final la sntesis de solapado y sumado.

    Se va a interpretar brevemente el mtodo de PSOLA.

    4.1. El rea de trabajo de anlisis y sntesis dePSOLA

    El esquema de anlisis y sntesis se puede dividir en tres pasos

    sucesivos:

    4.1.1. De la forma de onda de la seal de voz a laseal de anlisis.

    Este primer paso consiste en la descomposicin de x[n], formade onda de la seal de voz, en un flujo de seales de anlisis,denotada x[s,n]. Estas seales se obtienen multiplicando x[n] con unasecuencia de ventanas de anlisis trasladadas en el tiempo.

    x[s,n]=hs[n] x[n-ta(s)]

    donde hs[n] es la ventana de anlisis y ta(s) es el s-simoinstante de tiempo de anlisis. En el contexto de PSOLA, t a(s) tambinse refiere a las marcas de pitch de anlisis; estas marcas de pitch soninicializadas a la velocidad de sincronizacin de pitch en las porcionesde seal de voz sonoras y a velocidad constante en las porcionessordas.

    La longitud T de la ventana de anlisis es proporcional al

    periodo de pitch local P(s)=> T= P(s). El factor de proporcionalidad entra en el rango de 2, para el mtodo standard de TD-PSOLA, a 4,para la implementacin en frecuencia. La ventana de anlisis h s[n]puede ser elegido arbitrariamente: el punto clave es usar unaventana con un comportamiento espectral razonable en trminos delbulo principal y atenuacin de lbulos secundarios. Esto se vermejor en el punto 4.5. En casi todas las implementaciones se usanventanas de Hamming.

    4.1.2. De la seal de anlisis a la de sntesis.

    32

  • 8/6/2019 CodificacionVoz

    33/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    El segundo paso consiste en transformar el flujo de seales deanlisis en un flujo de seales de sntesis, sincronizados en un nuevoconjunto de instantes de tiempo ts[u] , referidos como marcas depitch de sntesis.

    El flujo de marcas de pitch de sntesis ts[u] viene determinadopor el de anlisis ta[s] de acuerdo con la modificacin de escala detiempo y de pitch deseadas. Este punto es crucial en el mtodo dePSOLA pero todava no est documentado, se har una descripcin enel punto 4.2. A lo largo del flujo de marcas de sntesis, esdeterminado un mapeado ts[u] ta[s] entre las marcas de pitch desntesis y de anlisis, especificando cuales seales de anlisisdeberan ser seleccionadas para cualquier marca de pitch de sntesisdada. En las figuras 7 y 4 de abajo se pueden ver las modificacionesy los mapeados para factores de modificacin de escala de tiempos yde pitch constantes.

    FIG 4. FIG.7

    En la implementacin ms simple, es impuesta unacorrespondencia uno a uno entre las seales de anlisis y de sntesis:el flujo de seales de sntesis es obtenido simplemente duplicando oeliminando seales de anlisis. Asumiendo que ts[u] es mapeadomediante ta[s], la asociada seal de sntesis y(u,n) es simplementey(u,n)=x(s,n).

    En sistemas ms sofisticados, el mapeado no es ms largo queuno a uno pero involucra interpolacin lineal entre 2 sucesivas

    seales de anlisis lo ms cerca posible de las marcas de pitchvirtuales asociadas a ts[u], quedndonos:

    y(u,n)= h x(s,n) + (1- h) x(s+1,n)

    donde 0 h 1 es un factor de interpolacin lineal.

    En las implementaciones en el dominio de la frecuencia (FD-PSOLA) las seales de sntesis son expresadas en el dominio de lafrecuencia, y hay que remarcar que este esquema es

    computacionalmente menos atractivo que la aproximacin standarddel PSOLA de dominio temporal que simplifica esta etapa de

    33

  • 8/6/2019 CodificacionVoz

    34/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    modificacin. Las modificaciones en el dominio de la frecuencia sonparalelas a aquellas que son usadas en los phase-vocoderconvencionales, pero estas tcnicas se detallarn en el punto 4.6.

    4.1.3. De la seal de sntesis a la seal de salida

    En el ltimo paso, la seal sintetizada y(u) es obtenidacombinando las formas de onda de sntesis sincronizadas en el flujode marcas de pitch de sntesis ts(u). Para este propsito se puedenusar procedimientos de pesada mnimo cuadrtico. En el algoritmoPSOLA del dominio del tiempo, la ventana de sntesis fu(n) es igual ala ventana de sntesis asociada con la marca de pitch de anlisis ta(s).En PSOLA del dominio del tiempo deber ser usada una ventana desntesis diferente para tener en cuenta el cambio inherente

    introducido en la escala de tiempos mediante la modificacin en losejes de frecuencia.

    4.2. Clculo de las marcas de pitch en sntesis.

    Este clculo se da en 2 pasos sucesivos, primero las marcas depitch son generadas de acuerdo con la codificacin de escala de pitchy de tiempos deseada y luego cada marca de sntesis es asociada conuna o ms marcas de pitch de anlisis.

    4.2.1. Modificacin de escala de pitch.

    Para ello, el flujo de marcas de pitch de sntesis ts(u) escalculado mediante el flujo de marcas de pitch de anlisis ta(s) y losfactores de modificacin de escala de pitch s= ts(u) de la siguientemanera. Asumiendo por simplicidad que la seal es sonoracompletamente, las marcas de pitch de anlisis ta(s) son posicionadasen un modo sincronizado de pitch, por ejemplo: ta(s+1) - ta(s) =P(ta(s)) donde P(t) es una funcin de contorno de pitch constante t ->P(t)

    P(t) = P(ta(s)), ta(s) t ta(s+1)

    Las marcas de pitch de sntesis han de ser posicionadastambin en un modo sincronizado de pitch, respecto a contorno depitch de sntesis t -> P(t). Existe el problema de tener que hallaruna serie de marcas de pitch de sntesis ts(u) como : ts(u+1) = ts(u) +P (ts(u)) siendo P(ts(u)) aproximadamente 1/ ( ts(u)) veces el pitchde la seal original cerca del instante ts(u):

    34

  • 8/6/2019 CodificacionVoz

    35/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    P(ts(u)) P(ts(u))/ ( ts(u))

    Esto se puede hacer fcilmente mediante recursin, se busca el

    valor de ts(u+1) que cumpla:

    Para ta(s) t ta(s+1)

    De acuerdo con esta ecuacin, el periodo de pitch de sntesists(u+1)- ts(u) es igual al significado del periodo de pitch escalado1/ (t) en la seal original calculado en la franja ts(u+1)- ts(u). Lasintegrales se pueden resolver fcilmente porque P(t) y (t) sonfunciones constantes. La figura 4 ilustra el clculo de las marcas depitch de sntesis para modificaciones de escala de pitch.

    Las modificaciones de escala de pitch usando TD-PSOLA sepueden ver en la figura de abajo.

    Fig 5 -6

    35

    ( ) ( )( ) ( )

    ( )

    ( )( )

    ( )

    dtt

    tP

    utututut

    ut

    utss

    ss

    s

    s

    +

    +=+

    1

    1

    11

    ( ) ( )( ) sa stt ==

  • 8/6/2019 CodificacionVoz

    36/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    4.2.2. Modificaciones de escala de tiempo

    Las modificaciones de tiempo son un poco ms complicadasporque la seal original y la escalada no comparten el mismo eje detiempos.

    La modificacin de escalado en tiempo es especificadoasociando a cada marca de pitch de anlisis, un factor demodificacin de escalado de tiempo denominado s >0, del cualdeducimos la funcin warping de escalado en tiempo tD(t):

    D(ta(1))=0D(t)=D(ta(s)) + s (t- ta(s))

    ta(s) t ta(s+1)

    36

  • 8/6/2019 CodificacionVoz

    37/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    tD(t) es una funcin lineal y estrictamente montona. Una vezespecificada la funcin warping de escalado en tiempo, el siguientepaso consiste en generar un stream de marcas de pitch de sntesists(u) partiendo de las marcas de pitch de anlisis ta(s) mientras semantenga el contorno de pitch. Como en el caso anterior, las marcas

    de pitch de anlisis ta(s) se posicionan en un modo sincronizado deitch, por ejemplo ta(s+1)- ta(s)=P(ta(s)). El contorno de pitch desntesis se define como tP(t)=P(D-1(t)): el pitch en la seal escaladaen tiempo en el instante t debera estar cerca del pitch en la sealoriginal en el instante D-1(t).

    En este punto habr que encontrar un flujo de marcas de pitchde sntesis ts(u) de forma que ts(u+1)=ts(u)+P(ts(u)). Para solucionarel problema, compensa el definir un flujo de marcas de pitch virtualests(u) en la seal original relacionadas con las marcas de pitch de

    sntesis mediantets(u)=D(ts(u)) ts(u)= D-1(ts(u))

    Asumiendo que ts(u) y ts(u) son conocidos, habr que intentardeterminar ts(u+1) y ts(u+1), de forma que ts(u+1)-ts(u) seaproximadamente igual al pitch en la seal original en el instantets(u). Esto se puede expresar como:

    Con ts(u+1)=D(ts(u+1))

    De acuerdo con esta ecuacin, el periodo de pitch de sntesists(u+1)- ts(u) en el instante ts(u) es igual al valor medio del pitch en laseal original calculada en el intervalo de tiempo ts(u+1)- ts(u).

    Tener en cuenta que este intervalo de tiempo ts(u+1)- ts(u) estmapeado con ts(u+1)- ts(u), mediante la funcin de mapeado D(t).

    La ecuacin anterior es una ecuacin integral pero que sepuede resolver fcilmente porque D(t) y P(t) son funciones lineales.En la figura 7 se puede ver como se calculen las marcas de pitch desntesis para las modificaciones en la escala de tiempos.

    FIG7

    37

    ( ) ( )( ) ( )

    ( )( )

    ( )

    dttPutut

    utut

    ut

    utss

    ss

    s

    s

    +

    +=+

    1'

    ''1'

    11

  • 8/6/2019 CodificacionVoz

    38/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    La modificacin de la escala de tiempos usando TD-PSOLA semuestra en la siguiente figura.

    Fig 8 - 9

    4.2.3 Modificaciones combinadas de escala detiempo y de pitch

    Basndonos como antes en que la modificacin del escalado depitch y la modificacin del escalado de tiempo estn definidos con 2flujos s y s pueden tambin sustituirse por:

    (t)= s con ta(s) t ta(s+1)

    38

    ( ) ( )( ) ( ) ( )

    ( )

    +

    +=+

    1'

    ' )(

    )(

    '1'

    11

    ut

    utss

    ss

    s

    s

    dtt

    tP

    utututut

  • 8/6/2019 CodificacionVoz

    39/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    La combinacin de las modificaciones de l escalado de pitch ydel escalado de tiempo no contiene mayor complejidad. Comoejemplo podemos ver las modificaciones dadas en la figura siguiente:

    Fig10

    4.2.4 Mapeado de las marcas de pitch de sntesis enlas de anlisis

    El ltimo paso consiste en asociar a una seal sintetizada entiempo corto a cualquier marca de pitch sintetizada. Est claro queuna marca de pitch sintetizada no est, generalmente, unvocamenteasociada con un anlisis de marca de pitch: la marca de pitch virtualt`s(u) no se corresponde necesariamente con un anlisis de la marcade pitch. Una solucin simple consiste en tomar una media de dosanlisis de seales en tiempo corto contiguos. Suponemos ta(s)t`s(u) ta(s+1) con lo que:

    y(u,n)=(1- u) x(s,n) + u x(s+1,n)

    39

  • 8/6/2019 CodificacionVoz

    40/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    u = (t`s(u)- ta(s))/( ta(s+1)- ta(s))

    En la implementacin ms sencilla, el coeficiente u sereemplaza por el entero ms cercano a l, que ser 0 1. Esta ltimasolucin es equivalente a seleccionar el anlisis de la seal asociadacon el anlisis de la marca de pitch ms cercana a la marca de pitchvirtual t`s(u). En este caso, y cuando slo tomamos las modificacionesen la escala de pitch, los mtodos de PSOLA en el dominio de tiempoy de frecuencia trabajan eliminando y duplicando el anlisis entiempo corto de las seales en una escala de sincronismo de pitchmucho ms parecida a los mtodos estandares en el dominio detiempo del sincronismo de pitch.

    4.3 Sonidos sordos escalados en tiempoEn las secciones anteriores, nos centramos sobre todo en las

    modificaciones de seales de voz sonoras. Hay que tener especialcuidado con la relacin con las seales de voz no sonoras. Recalcarque el algoritmo PSOLA para el escalado en tiempo trabaja coneliminacin/duplicacin de formas de onda en tiempo corto.Desafortunadamente en la vocalizacin de las fricativas no sonoras,este proceso introduce un ruido tonal debido a que la repeticin desegmentos parecidos al ruido producen una autocorrelacin artificialen el tiempo en la seal de salida, que se percibe con ciertaperiodicidad. Una sencilla solucin a este problema consiste eninvertir el eje de tiempos siempre que el algoritmo necesite repetiruna seal de tiempo corto (Ej: xs(m) se reemplaza por xs(-m)). Estaoperacin, preserva la amplitud del espectro en tiempo corto perocambia el signo de la fase del espectro, reduciendo as la indeseadacorrelacin en la seal de salida. Esta aproximacin eliminaeficientemente el ruido tonal cuando el factor de escala de tiempo esmenor que dos.

    4.4 La propiedad de resampleado de frecuenciaPSOLA en el dominio del tiempo es un mtodo

    sorprendentemente sencillo para la modificacin en escalado detiempo y en escalado de pitch de seales de voz.

    La alta calidad que obtenemos de las seales escaladas en eltiempo es una consecuencia del hecho de que el mtodo funcionaduplicando o eliminando partes de la seal de voz en una escala desincronismo de pitch.

    Se van a describir los resultados ms significativos del anlisisde la ventana. Para mayor simplicidad tomaremos:

    40

  • 8/6/2019 CodificacionVoz

    41/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    1- La seal original de voz es peridica con un periodo de pitchentero p

    2- -El factor de modificacin del escalado de pitch, , es unnmero entero y constante

    3- El factor de modificacin de escala de tiempos es constantey de valor =1/

    Estas hiptesis son ideales pero los resultados no puedenextenderse a supuestos menos restringidos. Como consecuenciadirecta de estas hiptesis tenemos que :

    1- Las marcas de pitch de anlisis se dan en ta(s)=sP.

    2- Existe una correspondencia unvoca del mapeado entre lasmarcas de pitch de sntesis y de anlisis ts(s)=sP

    3- Las ventanas de anlisis (cuya longitud es proporcional alperiodo de pitch local) son equivalentes al mismo prototipode ventana

    De acuerdo con estas anotaciones tenemos:

    x(s,n)=h(n)x(n-sP)

    Se tomar en cuenta para simplificar el empleo delprocedimiento OLA. Omitiendo la normalizacin de variacin deltiempo de la ecuacin de OLA obtenemos:

    y(n)=x(s,n-s P)=h(n-s P) x(n-sP-s P)

    Desde que consideramos peridica la seal de entrada, conperiodo P, x(m-sP)=x(m), y por tanto la ecuacin anterior nos queda:

    y(n)=h(n-s P) x(n-s P)

    La seal sinttica la obtenemos, por tanto, repitiendo con unperiodo P el mismo prototipo de seal, h(n)x(n). Obviamente, y(n)es peridica de periodo P. Los resultados tipos de las transformadasde fourier de las seales sinusoidales resultan:

    Siendo Ck=x(2 k/P ) con x(w)=h(n)x(n) -jwn

    41

    ( )

    =

    =1

    0

    21 P

    k

    Pknj

    kCP

    ny

  • 8/6/2019 CodificacionVoz

    42/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    Esta ltima expresin significa que las amplitudes complejas Ckde los armnicos del pitch en la seal sinttica original sonequivalentes a los valores en los armnicos de pitch de frecuencias2 k/ P de la DFT del prototipo de la seal en tiempo corto h(n)x(n).En otras palabras, el mtodo PSOLA en dominio de tiempo trabaja

    haciendo resampling de la transformada Fourier del anlisis de laseal, como podemos observar en las figuras de abajo:

    Fig 11y12

    42

  • 8/6/2019 CodificacionVoz

    43/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    Esta relacin contiene mucha ms informacin adicional yaclara la influencia de los diferentes parmetros (tamao de ventanay tipo de ventana) a lo largo del algoritmo.

    4.5 Eleccin de la ventana de anlisis

    De los resultados obtenidos de la seccin anterior podemosdeterminar qu ventanas h(n) son las adecuadas para el algoritmo

    TD-PSOLA. La ventana a analizar debe ser tal que la STFT X(W) seauna estimacin variable de la envolvente de la seal espectral.Influyen dos factores significativamente en las caractersticas deX(W):

    - El tipo de ventana

    -La longitud de la ventana

    Como hemos mencionado antes, la longitud de la ventana deanlisis T es proporcional al periodo de pitch local (Ej: T= P(s)). Parafunciones de ventana estndares, la resolucin espectral (anchura delbulo principal) es inversamente proporcional al tamao de ventana;la anchura del lbulo principal para una frecuencia normalizada es8 /T para ventanas de Hamming y de Hanning y es 12 /T para laventan de Blackman.

    Para =2 (anlisis en banda ancha), la frecuencia de corte dela ventana (4 /P(s) para la ventana de Hanning) es mayor que elespacio entre dos armnicas de pitch (2 /P(s)): la ventana de anlisisno podr resolver cada uno de los armnicos de pitch.

    El anlisis en tiempo corte del espectro X(W) es una estimacinde la envolvente de la seal espectral de la voz: el lbulo principal dela ventana proporciona las medias para la interpolacin entrearmnicos.

    Por el contrario, para valores de mayores, se aumenta laresolucin del tamao de ventana y muestra la estructura armnicade X(W), una propiedad que no es deseable para el mtodo TD-PSOLA: el resampling de X(W) en la sntesis de la frecuencia del pitch2 k/ P produce efectos audibles debido a la atenuacin/cancelacinde los armnicos de pitch.

    Por supuesto, la proporcionalidad exacta de cada periodo depitch es importante; en las implementaciones en tiempo real slo unnmero limitado de ventanas puede ser tabulado y guardado en lamemoria del ordenador lo que permite no calcular los coeficientes de

    una nueva ventana para cada periodo de pitch.

    43

  • 8/6/2019 CodificacionVoz

    44/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    El tipo de anlisis usado para la ventana es tambin muyimportante: un excesivo leakage espectral introduce modificacionesindeseables del timbre, haciendo desaparecer los pequeos detallesde la estructura de los formantes. Este detalle excluye determinadasventanas introducidas anteriormente, como la ventana trapezoidal no

    simtrica propuesta por Lukaszewickz y Karjalainen(1987) y laventana no simtrica del coseno propuesta por Hamon(1988) en laversin original del algoritmo TD-PSOLA.

    La interpretacin en trminos de resampling en frecuenciaancha tambin algunos shortcomings del algoritmo TD-PSOLA. Estclaro que la envolvente espectral implcita usada por el mtodoPSOLA que referencia la sntesis de los armnicos complejos de pitch,no corresponde exactamente con la verdadera envolvente espectraldebido a la convolucin H(w) en el dominio del tiempo.

    Esta discrepancia se convierte ms acusada para voces de pitchelevadas, en cuyo caso los anlisis de las ventanas son ms cortos enel tiempo por lo que exhiben lbulos principales mayores. Los errorestipo son:

    1-Ensanchamiento del ancho de banda del formante.

    2-La fusin de formantes cercanos aunque esto no ocurrehabitualmente.

    Afortunadamente, estos efectos no causan una gran

    degradacin en la calidad de salida de la voz, por lo menos cuandolas modificaciones en el escalado de pitch son despreciables.

    4.6. PSOLA en el dominio de la frecuencia y otrasvariantes.

    Las aproximaciones del PSOLA en el dominio de la frecuencia(FD-PSOLA) y la predictividad lineal de PSOLA (LP-PSOLA), sontericamente, ms apropiadas que el PSOLA en el dominio del tiempopara las modificaciones en el escalado de pitch porque estos nosproporcionan un control independiente sobre la envolvente espectralde sntesis de la seal. Este punto es especialmente relevante en elcontexto de las modificaciones de las caractersticas del hablante.

    FD-PSOLA: la tcnica FD-PSOLA se usa solamente para lasmodificaciones en la escala del pitch y se distingue del algoritmo de

    TD-PSOLA en la definicin de sntesis de seales. Ms que la seal desntesis de solapado y sumado, cada sntesis de la seal esmodificada. La modificacin se acarrea en el dominio de la frecuencia

    anlisis del espectro.

    44

  • 8/6/2019 CodificacionVoz

    45/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    El algoritmo es una rplica exacta de resampling en el dominiode la frecuencia descrito en la seccin 3.2.1: el espaciado entrearmnicos de pitch es escalado por el factor s, mediante lainterpolacin lineal de la parte real y la imaginaria del espectrocomplejo. Como siempre cuando el pitch es ms bajo, la banda de

    altas frecuencias es regenerada tambin mediante copia y archivadoespectral.

    LP-PSOLA: el escalado de tiempo del sincronismo de pitch y lamodificacin del esquema de escala de pitch pueden ser tambinembebidos en los vocoders de excitacin residual, empleando unmtodo llamado PSOLA de Predictividad Lineal (LP-PSOLA). Antes decualquier procesado PSOLA, los modelos autoprogresivos sonadecuados a la seal en una escala de sincronismo de pitch (un filtro

    de anlisis es considerado para cada anlisis de marca de pitch). Lasmodificaciones en el escalado de pitch y el escalado de tiempo sonacarreados a la seal residual, consiguiendo mediante el filtradoinverso, la seal original. Obtenemos la seal de salida filtrando elresiduo modificado con el filtro de sntesis de variacin en el tiempo,resincronizado con el flujo de sntesis de marcas de pitch. Los filtrosde sntesos son :

    1- Simples copias de los filtros de anlisis (en el modo estandarde sntesis de eliminacin-duplicacin)

    2- Interpolaciones entre dos filtros de anlisis sucesivos (en lasntesis de interpolacin ms sofisticada).

    Los mtodos empleados para probar la calidad de la vozresintetizada mediante RELP tambin pueden ser empleados.

    5. MBR PSOLA

    La idea bsica de TD_PSOLA consiste en que podemosconseguir una versin modificada de pitch de una seal de voz (lasupondremos peridica de - a ), mediante el sumatorio del datosi(n) extrado sncronamente el pitch de la seal original y cambiandola base de tiempos entre ventanas del perodo original del pitch To alperodo deseado T.

    45

    ( ) ( )

    ( ) ( ){ }0

    0)(

    TTinsnS

    iTnnxnS

    ii

    I

    =

    =

    =

  • 8/6/2019 CodificacionVoz

    46/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    En la prctica, las muestras Si(n) son diferentes de cerosolamente en un intervalo que depende del factor de recuperacin Fr,definido como el ratio de tamao L de la ventana analizada W(n), enel anlisis del perodo del pitch. Tomando el valor tpico de Fr=2 , el

    sumatorio anterior tiene un mximo de 4 trminos cuando el factorde pitch definido como el cociente de periodo de pitch de sntesis deperodo original (Fp=T/T0) est limitado entre [0.5.....2].

    Cuando T=T0, la seal original reconstruida esaproximadamente proporcional a la seal original.

    (1)

    El tamao de la ventana a analizar es la suficiente respecto deT0 para la frmula de Poisson para obtener en el espectro de pulsos deDirac w*(n).

    Si T es diferente de T0, la operacin viene a resultar, de acuerdocon la misma frmula de Poisson, una rearmonizacin del espectro deSi(n) con la frecuencia fundamental 1/T.

    Como consecuencia, TD_PSOLA se puede ver como unintermedio entre 2 situaciones extremas donde ninguna de ellasofrecen resultados satisfactorios:

    Si Fr es muy grande, aparecen lneas espectrales en el espectrode S1(n) que impiden que sta sea rearmonizable.

    Si Fr es muy pequeo, no se cumple la aproximacin(1).

    En vez de padecer cualquiera de estos dos problemas, la opcinintermedia ofrece una buena calidad para ciertos valores de Fp: Fr 2,el espectro de Si(n) aproxima el desarrollo del espectro de S(n) y la

    rearmonizacin cambia el pitch sin alterar las frecuencias y losanchos de banda de los formantes.

    5.1.Resntesis Multibanda.

    Para poder aproximar el caso ptimo de idnticas ventanasOLA, los datos de la seal de voz han de tener estas caractersticas:

    1. Todas las palabras deben ser pronunciadas con unpitch constante.

    46

    ( ) ( ) ( ) ( ) ( )

    ( ) ( )nxns

    nnxiTnnxns

    ==

  • 8/6/2019 CodificacionVoz

    47/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    2. Debe ser posible un correcto posicionamiento de laventana OLA.3. La interpolacin espectral entre ventanasconcatenadas debe ser fcil de mostrar, sin un incrementoexcesivo de operaciones.

    Por lo tanto, resintetizaremos lo segmentos de la base de datos parapoder adaptarlos a los requerimientos de la TD_PSOLA.

    El mtodo est basado en la Resntesis de los armnicos yenlazado usando ratios de Voz/No Voz durante el anlisis. El resultadoes una mejora de TD_PSOLA llamado MBR_PSOLA (Multi-BandResynthesis Pitch Synchronous Overlap Add), que combina laeficiencia matemtica del algoritmo original con la flexibilidad delmodelo MBE. Se muestra una sola vez en las tramas de las voces delos segmentos de la base de datos, sin un incremento de lacomplejidad en la sntesis de TTs.

    Las no coincidencias de pitch y de fase son eliminadas gracias ala constante de Resntesis del Pitch, con las fases armnicas a ceropara valores bien escogidos al inicio de cada periodo, de manera quelas ondas concatenadas son muy similares entre ellas.

    Esto no es compatible con la evolucin continua de lasamplitudes sinusoidales porque una seal estacionaria se repitesolamente tras su periodo fundamental. Para contrarrestar el click

    resultante, las tramas fueron sintetizadas con armnicos de amplitudconstante, y superpuestas entre ellas.

    Una consecuencia muy importante de esta operacin deResntesis es que el marcado de Pitch se convierte automtico. Sinembargo, existe un problema: dada la constante de periodo de pitch ylos armnicos iniciales impuestos durante la Resntesis, los Pitch Markers pueden darse en cualquier posicin relativa que no sean losperiodos de Resntesis (que comienzan en cero), con ello se mantieneconstante a lo largo de la parte de voz de la base de datos.

    La calidad del resultado de la sintonizacin de voz, dependemucho de la estrategia usada durante la Resntesis para hacer que lafase sea cero.

    Un estudio sobre la influencia del valor del Pitch inicial en lacalidad del TTS resultante, demuestra que es importante mantenerlas fases originales para los armnicos de altas frecuencias.

    Se toma una muestra de frecuencia de unos 2000 Hz.

    Adems, una importante ventaja de hacer cero la fase, cuandose combina con un Pitch de resintesis constante, es que el desarrollode interpolacin espectral se hace equivalente a la interpolacin

    47

  • 8/6/2019 CodificacionVoz

    48/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    temporal directa. Esto permite que el sintetizador TTS cumpla latercera condicin mostrando el espectro deseado moviendodirectamente segmentos de onda contiguos.

    El algoritmo de interpolacin lineal fue recientemente

    comprometido por el nmero de segmentos de periodos interpolados.Esto impide que se muestren los transitorios de las interpolaciones, loque nunca es deseado.

    Cuando no exista ningn control, algunas vocales tienden a serodas como dos sonidos simultneos. Los estados estables de la vozson detectados automticamente por el ratio de Voz/No Voz deenerga calculado durante anlisis de MBE. Las posibles tramasinterpoladas al principio y al final de cada segmento se limitan a estaclase

    Si SNL y S0R, respectivamente, denotan la ltima y la primeraventana OLA de dos segmentos concatenados, nosotros podremosmodificar una cantidad de ML y MR ventanas OLA antes de SNL ydespus de S0Rde acuerdo con:

    for i=0......ML y j=0 MR-1.

    El desarrollo de interpolacin espectral, puede por tanto, mostrase alo largo de un sencillo dominio de tiempo de interpolacin lineal delos perodos de pitch de la voz.

    5.2 Conclusiones.

    MBR-PSOLA ha sido aplicado a una base de datos se segmentosen francs. Desde el comienzo, los test de pruebas de escucharevelaron una alta calidad sorprendente. La falta de coincidenciasconcatenadas, si las hay, son realmente detectables. Se concentran ,sobre todo, en los lados de los segmentos sin voz o en los periodostransitorios de voz. El uso de segmentos de ms alto nivel, como detres sonidos, pueden ayudar en estos casos.

    La ventaja importante que introduce este algoritmo al conceptodel esquema TTS (los marcadores de pitch son impuestos por la

    operacin de resintesis y alta calidad se da sin necesidad de

    48

    ( )

    +=

    +=

    R

    RRL

    N

    R

    j

    R

    j

    L

    LL

    N

    RL

    iN

    L

    iN

    M

    jMSSSS

    M

    iMSSSS

    5.0

    2

    1)(

    5.0

    2

    1

    0

    0

  • 8/6/2019 CodificacionVoz

    49/49

    ELECTROACSTICA CODIFICACION DE LA VOZ

    optimizar los segmentos en la base de datos), lo convierte en unainteresante tcnica de sntesis TTL multiidiomas.

    3.BIBLIOGRAFIA

    -Tcnica VocalCarl HogsetEditorial: Euskal Herriko Abesbatzen Elkartea, 1995

    -Apuntes de tcnica vocal

    Curso 97-98, cursillos de direccin coral.

    -Speech CommunicationsEric Moulines, Jean Laroche , 1995T. Dutoit , H. Leich, 1993