Estimación y Seguimiento de los Formantes de la Voz Humana...

Post on 06-Mar-2020

0 views 0 download

Transcript of Estimación y Seguimiento de los Formantes de la Voz Humana...

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Estimacion y Seguimiento de los Formantes de laVoz Humana

Tratamiento Estadıstico de Senales 2010

Pablo A. Iturralde, Rodrigo L. Rosa

August 20, 2011

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Agenda...

1 IntroduccionLa Voz Humana: Modelo

2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza

3 VVTR: Visual Vocal Tract Resonance

4 Reconocimiento de Vocales

5 Sıntesis de Vocales

6 References

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

1 IntroduccionLa Voz Humana: Modelo

2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza

3 VVTR: Visual Vocal Tract Resonance

4 Reconocimiento de Vocales

5 Sıntesis de Vocales

6 References

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Introduccion

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Modelo

Figure: Sonidos sonoros.

� Sonidos sonoros:

• Caracterıstica tonal

• Forma de onda: Periodica

• La cuerdas vocales vibran

• Ejemplos: Vocales, sonidosnasales (’n’,’m’).

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Modelo

Figure: Sonidos sonoros.

� Sonidos sonoros:

• Caracterıstica tonal

• Forma de onda: Periodica

• La cuerdas vocales vibran

• Ejemplos: Vocales, sonidosnasales (’n’,’m’).

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Modelo

Figure: Sonidos sonoros.

� Sonidos sonoros:

• Caracterıstica tonal

• Forma de onda: Periodica

• La cuerdas vocales vibran

• Ejemplos: Vocales, sonidosnasales (’n’,’m’).

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Modelo

Figure: Sonidos sonoros.

� Sonidos sonoros:

• Caracterıstica tonal

• Forma de onda: Periodica

• La cuerdas vocales vibran

• Ejemplos: Vocales, sonidosnasales (’n’,’m’).

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Modelo

Figure: Sonidos sonoros.

� Sonidos sonoros:

• Caracterıstica tonal

• Forma de onda: Periodica

• La cuerdas vocales vibran

• Ejemplos: Vocales, sonidosnasales (’n’,’m’).

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Sonidos sordos

Figure: Sonidos sordos: ’s’,’f ’, etc.

� Sonidos sordos:

• Forma de onda:Pseudo-aleatoria (ruido).

• Las cuerdas vocales novibran.

• Ejemplos: Fricativas:’s’,’f’,etc.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Sonidos sordos

Figure: Sonidos sordos: ’s’,’f ’, etc.

� Sonidos sordos:

• Forma de onda:Pseudo-aleatoria (ruido).

• Las cuerdas vocales novibran.

• Ejemplos: Fricativas:’s’,’f’,etc.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Sonidos sordos

Figure: Sonidos sordos: ’s’,’f ’, etc.

� Sonidos sordos:

• Forma de onda:Pseudo-aleatoria (ruido).

• Las cuerdas vocales novibran.

• Ejemplos: Fricativas:’s’,’f’,etc.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Sonidos sordos

Figure: Sonidos sordos: ’s’,’f ’, etc.

� Sonidos sordos:

• Forma de onda:Pseudo-aleatoria (ruido).

• Las cuerdas vocales novibran.

• Ejemplos: Fricativas:’s’,’f’,etc.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Sonidos sonoros

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Fonemas

Fonemas: Clase de equivalencia de sonidos.

(a) Vocal O (b) Vocal U

� Picos en el espectro de un fonema→ Frecuencias de resonancia del tracto vocal.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Fonemas

Fonemas: Clase de equivalencia de sonidos.

(a) Vocal O (b) Vocal U

� Picos en el espectro de un fonema→ Frecuencias de resonancia del tracto vocal.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Fonemas

Fonemas: Clase de equivalencia de sonidos.

(a) Vocal O (b) Vocal U

� Picos en el espectro de un fonema→ Frecuencias de resonancia del tracto vocal.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Fonemas

Fonemas: Clase de equivalencia de sonidos.

(a) Vocal O (b) Vocal U

� Picos en el espectro de un fonema→ Frecuencias de resonancia del tracto vocal.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Modelo

� Tecnicas de estimacion→ Linear Predictive Coding :

• Autocorrelacion

• Covarianza

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Modelo

� Tecnicas de estimacion→ Linear Predictive Coding :

• Autocorrelacion

• Covarianza

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

La Voz Humana: Modelo

La Voz Humana: Modelo Matematico

Figure: (a) Frecuencia. (b) Tiempo.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

1 IntroduccionLa Voz Humana: Modelo

2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza

3 VVTR: Visual Vocal Tract Resonance

4 Reconocimiento de Vocales

5 Sıntesis de Vocales

6 References

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Modelo:

sn = −p∑

k=1

aksn−k +Gun

� Objetivo:→ Determinar ak & G.

� Hipotesis:

• Estacionaridad• un desconocida

� Estimacion:

sn = −p∑

k=1

aksn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Modelo:

sn = −p∑

k=1

aksn−k +Gun

� Objetivo:→ Determinar ak & G.

� Hipotesis:

• Estacionaridad• un desconocida

� Estimacion:

sn = −p∑

k=1

aksn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Modelo:

sn = −p∑

k=1

aksn−k +Gun

� Objetivo:→ Determinar ak & G.

� Hipotesis:

• Estacionaridad• un desconocida

� Estimacion:

sn = −p∑

k=1

aksn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Modelo:

sn = −p∑

k=1

aksn−k +Gun

� Objetivo:→ Determinar ak & G.

� Hipotesis:

• Estacionaridad• un desconocida

� Estimacion:

sn = −p∑

k=1

aksn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Modelo:

sn = −p∑

k=1

aksn−k +Gun

� Objetivo:→ Determinar ak & G.

� Hipotesis:

• Estacionaridad• un desconocida

� Estimacion:

sn = −p∑

k=1

aksn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Modelo:

sn = −p∑

k=1

aksn−k +Gun

� Objetivo:→ Determinar ak & G.

� Hipotesis:

• Estacionaridad• un desconocida

� Estimacion:

sn = −p∑

k=1

aksn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Modelo:

sn = −p∑

k=1

aksn−k +Gun

� Objetivo:→ Determinar ak & G.

� Hipotesis:

• Estacionaridad• un desconocida

� Estimacion:

sn = −p∑

k=1

aksn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Estimacion:

sn = −p∑

k=1

aksn−k

� Error:

en = sn − sn

= sn +

p∑k=1

aksn−k

� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :

Ep =∑n

s2n+

p∑k=1

ak∑n

snsn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Estimacion:

sn = −p∑

k=1

aksn−k

� Error:

en = sn − sn

= sn +

p∑k=1

aksn−k

� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :

Ep =∑n

s2n+

p∑k=1

ak∑n

snsn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Estimacion:

sn = −p∑

k=1

aksn−k

� Error:

en = sn − sn

= sn +

p∑k=1

aksn−k

� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :

Ep =∑n

s2n+

p∑k=1

ak∑n

snsn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Estimacion:

sn = −p∑

k=1

aksn−k

� Error:

en = sn − sn

= sn +

p∑k=1

aksn−k

� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :

Ep =∑n

s2n+

p∑k=1

ak∑n

snsn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

LPC : Linear Predictive Coding

� Estimacion:

sn = −p∑

k=1

aksn−k

� Error:

en = sn − sn

= sn +

p∑k=1

aksn−k

� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :

Ep =∑n

s2n+

p∑k=1

ak∑n

snsn−k

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion

Autocorrelacion

Def.:

R(i) =

∞∑n=−∞

snsn+i

Ecuacion a resolver:

Ep = R(0) +

p∑k=1

akR(k)

→ Matriz para MC:

Mi,k = R(i− k)

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion

Autocorrelacion

Def.:

R(i) =

∞∑n=−∞

snsn+i

Ecuacion a resolver:

Ep = R(0) +

p∑k=1

akR(k)

→ Matriz para MC:

Mi,k = R(i− k)

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion

Autocorrelacion

Def.:

R(i) =

∞∑n=−∞

snsn+i

Ecuacion a resolver:

Ep = R(0) +

p∑k=1

akR(k)

→ Matriz para MC:

Mi,k = R(i− k)

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Covarianza

Covarianza

Def.:

ϕki =

N−1∑n=0

sn−ksn−i

Ecuacion a resolver:

Ep = ϕ00 +

p∑k=1

akϕ0k

→ Matriz para MC:Mi,k = ϕki

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Covarianza

Covarianza

Def.:

ϕki =

N−1∑n=0

sn−ksn−i

Ecuacion a resolver:

Ep = ϕ00 +

p∑k=1

akϕ0k

→ Matriz para MC:Mi,k = ϕki

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Covarianza

Covarianza

Def.:

ϕki =

N−1∑n=0

sn−ksn−i

Ecuacion a resolver:

Ep = ϕ00 +

p∑k=1

akϕ0k

→ Matriz para MC:Mi,k = ϕki

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Autocorrelacion Vs. Covarianza

Autocorrelacion (corr) o covarianza (cov)?

Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Autocorrelacion Vs. Covarianza

Autocorrelacion (corr) o covarianza (cov)?

Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Autocorrelacion Vs. Covarianza

Autocorrelacion (corr) o covarianza (cov)?

Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Autocorrelacion Vs. Covarianza

Autocorrelacion (corr) o covarianza (cov)?

Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Autocorrelacion Vs. Covarianza

Autocorrelacion (corr) o covarianza (cov)?

Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Autocorrelacion Vs. Covarianza

Autocorrelacion (corr) o covarianza (cov)?

Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Autocorrelacion Vs. Covarianza

Autocorrelacion (corr) o covarianza (cov)?

Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Tamano de Ventana

./A_L.wav

Figure: Ventana de 256 muestras.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Tamano de ventana

./A_L.wav

Figure: Ventana: 512 muestras.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Tamano de ventana

./A_L.wav

Figure: Ventana: 1024 muestras.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Eleccion del tamano de ventana y el metodo

Tamano de ventana & modelo estacionario

� Senales de voz: Abarcar 2 periodos de la senal

• Ventanas de entre 256 y 2048 muestras.

Criterios para la eleccion del metodo:

� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov

� Si [la capacidad computacional es limitada] entonces corr, sinocov

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Eleccion del tamano de ventana y el metodo

Tamano de ventana & modelo estacionario

� Senales de voz: Abarcar 2 periodos de la senal

• Ventanas de entre 256 y 2048 muestras.

Criterios para la eleccion del metodo:

� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov

� Si [la capacidad computacional es limitada] entonces corr, sinocov

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Eleccion del tamano de ventana y el metodo

Tamano de ventana & modelo estacionario

� Senales de voz: Abarcar 2 periodos de la senal

• Ventanas de entre 256 y 2048 muestras.

Criterios para la eleccion del metodo:

� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov

� Si [la capacidad computacional es limitada] entonces corr, sinocov

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Eleccion del tamano de ventana y el metodo

Tamano de ventana & modelo estacionario

� Senales de voz: Abarcar 2 periodos de la senal

• Ventanas de entre 256 y 2048 muestras.

Criterios para la eleccion del metodo:

� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov

� Si [la capacidad computacional es limitada] entonces corr, sinocov

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Eleccion del tamano de ventana y el metodo

Tamano de ventana & modelo estacionario

� Senales de voz: Abarcar 2 periodos de la senal

• Ventanas de entre 256 y 2048 muestras.

Criterios para la eleccion del metodo:

� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov

� Si [la capacidad computacional es limitada] entonces corr, sinocov

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Eleccion del tamano de ventana y el metodo

Tamano de ventana & modelo estacionario

� Senales de voz: Abarcar 2 periodos de la senal

• Ventanas de entre 256 y 2048 muestras.

Criterios para la eleccion del metodo:

� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov

� Si [la capacidad computacional es limitada] entonces corr, sinocov

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Orden del Filtro

./A_L.wav

Figure: Autocorrelacion + Rectangular - Ventana: 512 muestrasPablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Orden del Filtro

./A_L.wav

Figure: Autocorrelacion + Hanning - Ventana: 512 muestrasPablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Orden del Filtro

./A_L.wav

(a) Rectangular window. (b) Hanning window.

Figure: Autocorrelacion - Ventana: 512 muestras

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Autocorrelacion Vs. Covarianza

Orden del Filtro

./A_L.wav

Figure: Covarianza - Ventana: 512 muestrasPablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

1 IntroduccionLa Voz Humana: Modelo

2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza

3 VVTR: Visual Vocal Tract Resonance

4 Reconocimiento de Vocales

5 Sıntesis de Vocales

6 References

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Visual Vocal Tract Resonance

Idea:

� Para c/ventana wi:

• LPC→ Polos pi del filtro→ Candidatos

• Polos de banda ancha→ Se descartan.

� Recorrer [wi, pi]

• Si un frecuencia serepite→ Kalman.

Figure: Algoritmo VVTR

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Ejemplo: VVTR a una vocal

./E_L.wav

Figure: Seguimiento de formantes en E L.wav

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Generacion de candidatos

1 LPC de cada ventana mediante corr o cov→ Polos: Candidatos a frecuencias de resonancia

(formantes).→ Solo si tienen ancho de banda menor a 400Hz

(a) Ventana a analizar (b) LPC (Covarianza)Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Generacion de candidatos

1 LPC de cada ventana mediante corr o cov→ Polos: Candidatos a frecuencias de resonancia

(formantes).→ Solo si tienen ancho de banda menor a 400Hz

(a) Ventana a analizar (b) LPC (Covarianza)Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Generacion de candidatos

1 LPC de cada ventana mediante corr o cov→ Polos: Candidatos a frecuencias de resonancia

(formantes).→ Solo si tienen ancho de banda menor a 400Hz

(a) Ventana a analizar (b) LPC (Covarianza)Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Maquina de estados

2 Iniciar/terminar trayectorias.

Figure: Maquina de estados del algoritmo VVTR.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Innovacion

3 Asociar candidatos con frecuencias yaexistenes.

� Opciones:

• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...

� Estrategia:

• Prioridad para frequencies bajoseguimiento

• Conflictos: Nearest neighbor.

→ No es optimo globalmente.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Innovacion

3 Asociar candidatos con frecuencias yaexistenes.

� Opciones:

• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...

� Estrategia:

• Prioridad para frequencies bajoseguimiento

• Conflictos: Nearest neighbor.

→ No es optimo globalmente.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Innovacion

3 Asociar candidatos con frecuencias yaexistenes.

� Opciones:

• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...

� Estrategia:

• Prioridad para frequencies bajoseguimiento

• Conflictos: Nearest neighbor.

→ No es optimo globalmente.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Innovacion

3 Asociar candidatos con frecuencias yaexistenes.

� Opciones:

• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...

� Estrategia:

• Prioridad para frequencies bajoseguimiento

• Conflictos: Nearest neighbor.

→ No es optimo globalmente.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Innovacion

3 Asociar candidatos con frecuencias yaexistenes.

� Opciones:

• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...

� Estrategia:

• Prioridad para frequencies bajoseguimiento

• Conflictos: Nearest neighbor.

→ No es optimo globalmente.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Innovacion

3 Asociar candidatos con frecuencias yaexistenes.

� Opciones:

• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...

� Estrategia:

• Prioridad para frequencies bajoseguimiento

• Conflictos: Nearest neighbor.

→ No es optimo globalmente.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Innovacion

3 Asociar candidatos con frecuencias yaexistenes.

� Opciones:

• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...

� Estrategia:

• Prioridad para frequencies bajoseguimiento

• Conflictos: Nearest neighbor.

→ No es optimo globalmente.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Innovacion

3 Asociar candidatos con frecuencias yaexistenes.

� Opciones:

• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...

� Estrategia:

• Prioridad para frequencies bajoseguimiento

• Conflictos: Nearest neighbor.

→ No es optimo globalmente.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR: Innovacion

3 Asociar candidatos con frecuencias yaexistenes.

� Opciones:

• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...

� Estrategia:

• Prioridad para frequencies bajoseguimiento

• Conflictos: Nearest neighbor.

→ No es optimo globalmente.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR - Kalman

4 Kalman� Ecuaciones:

xk = Axk−1 +Gwk−1

yk = Hxk + vk

A =

[1 T0 1

]G =

[T 2

2T

]H =

[1 0

]� Vector de estados:

xk =

[Fk

Fk

]Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR - Kalman

4 Kalman� Ecuaciones:

xk = Axk−1 +Gwk−1

yk = Hxk + vk

A =

[1 T0 1

]G =

[T 2

2T

]H =

[1 0

]� Vector de estados:

xk =

[Fk

Fk

]Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR - Kalman

4 Kalman� Ecuaciones:

xk = Axk−1 +Gwk−1

yk = Hxk + vk

A =

[1 T0 1

]G =

[T 2

2T

]H =

[1 0

]� Vector de estados:

xk =

[Fk

Fk

]Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

VVTR - Kalman

4 Kalman� Ecuaciones:

xk = Axk−1 +Gwk−1

yk = Hxk + vk

A =

[1 T0 1

]G =

[T 2

2T

]H =

[1 0

]� Vector de estados:

xk =

[Fk

Fk

]Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

1 IntroduccionLa Voz Humana: Modelo

2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza

3 VVTR: Visual Vocal Tract Resonance

4 Reconocimiento de Vocales

5 Sıntesis de Vocales

6 References

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Reconocimiento de vocales - Caracterizacion

VVTR→ Con dos frecuencias es posible caracterizar a una vocal.

Table: Fingerprints

Formantes F1 F2

A 730 1300E 440 2000I 270 2300O 460 800U 280 750

Resultados:

� 88% de exito sobre una base de datos de 15 usuarios.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Reconocimiento de vocales - Caracterizacion

VVTR→ Con dos frecuencias es posible caracterizar a una vocal.

Table: Fingerprints

Formantes F1 F2

A 730 1300E 440 2000I 270 2300O 460 800U 280 750

Resultados:

� 88% de exito sobre una base de datos de 15 usuarios.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Reconocimiento de vocales - Caracterizacion

VVTR→ Con dos frecuencias es posible caracterizar a una vocal.

Table: Fingerprints

Formantes F1 F2

A 730 1300E 440 2000I 270 2300O 460 800U 280 750

Resultados:

� 88% de exito sobre una base de datos de 15 usuarios.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Reconocimiento de vocales - Caracterizacion

VVTR→ Con dos frecuencias es posible caracterizar a una vocal.

Table: Fingerprints

Formantes F1 F2

A 730 1300E 440 2000I 270 2300O 460 800U 280 750

Resultados:

� 88% de exito sobre una base de datos de 15 usuarios.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Reconocimiento de Vocales: Mapa de formantes

Figure: Particion 2D generada por la metrica utilizada.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Reconocimiento de Vocales

./A_L.wav

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

1 IntroduccionLa Voz Humana: Modelo

2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza

3 VVTR: Visual Vocal Tract Resonance

4 Reconocimiento de Vocales

5 Sıntesis de Vocales

6 References

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Aplicacion: Sıntesis de Vocales

Modelo: SX(z) = HX(z)UT imbreDeV oz(z)

Idea:

� LPC : → Respuesta en frecuencia de cada vocal.

SX(z) = HX(z)UT imbreDeV oz(z)

� Filtrado inverso → Timbre de voz.

UT imbreDeV oz(z) =SX(z)

HX(z)Aplicacion:

� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:

SY (z) = HY (z)UT imbreDeV oz(z)

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Aplicacion: Sıntesis de Vocales

Modelo: SX(z) = HX(z)UT imbreDeV oz(z)

Idea:

� LPC : → Respuesta en frecuencia de cada vocal.

SX(z) = HX(z)UT imbreDeV oz(z)

� Filtrado inverso → Timbre de voz.

UT imbreDeV oz(z) =SX(z)

HX(z)Aplicacion:

� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:

SY (z) = HY (z)UT imbreDeV oz(z)

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Aplicacion: Sıntesis de Vocales

Modelo: SX(z) = HX(z)UT imbreDeV oz(z)

Idea:

� LPC : → Respuesta en frecuencia de cada vocal.

SX(z) = HX(z)UT imbreDeV oz(z)

� Filtrado inverso → Timbre de voz.

UT imbreDeV oz(z) =SX(z)

HX(z)Aplicacion:

� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:

SY (z) = HY (z)UT imbreDeV oz(z)

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Aplicacion: Sıntesis de Vocales

Modelo: SX(z) = HX(z)UT imbreDeV oz(z)

Idea:

� LPC : → Respuesta en frecuencia de cada vocal.

SX(z) = HX(z)UT imbreDeV oz(z)

� Filtrado inverso → Timbre de voz.

UT imbreDeV oz(z) =SX(z)

HX(z)Aplicacion:

� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:

SY (z) = HY (z)UT imbreDeV oz(z)

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Aplicacion: Sıntesis de Vocales

Modelo: SX(z) = HX(z)UT imbreDeV oz(z)

Idea:

� LPC : → Respuesta en frecuencia de cada vocal.

SX(z) = HX(z)UT imbreDeV oz(z)

� Filtrado inverso → Timbre de voz.

UT imbreDeV oz(z) =SX(z)

HX(z)Aplicacion:

� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:

SY (z) = HY (z)UT imbreDeV oz(z)

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Aplicacion: Sıntesis de Vocales

Modelo: SX(z) = HX(z)UT imbreDeV oz(z)

Idea:

� LPC : → Respuesta en frecuencia de cada vocal.

SX(z) = HX(z)UT imbreDeV oz(z)

� Filtrado inverso → Timbre de voz.

UT imbreDeV oz(z) =SX(z)

HX(z)Aplicacion:

� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:

SY (z) = HY (z)UT imbreDeV oz(z)

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Aplicacion: Sıntesis de Vocales

./timbre_L.wav a partir de ./A_L.wav

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Aplicacion: Sıntesis de Vocales

Sıntesis basada en:

./A_L.wav

Audio sintetizado./synt_1_L.wav [A]

./synt_2_L.wav [E]

./synt_3_L.wav [I]

./synt_4_L.wav [O]

./synt_5_L.wav [U]

Audio original./A_L.wav: [A]

./E_L.wav: [E]

./I_L.wav: [I]

./O_L.wav: [O]

./U_L.wav: [U]

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Aplicacion: Sıntesis de Vocales

Sıntesis basada en:

./A_L.wav

Audio sintetizado./synt_1_L.wav [A]

./synt_2_L.wav [E]

./synt_3_L.wav [I]

./synt_4_L.wav [O]

./synt_5_L.wav [U]

Audio original./A_L.wav: [A]

./E_L.wav: [E]

./I_L.wav: [I]

./O_L.wav: [O]

./U_L.wav: [U]

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

Trabajo a futuro

� Aplicacion: Reconocimiento de vocales

• Mejorar la extraccion de caracterısticas (2 formantes porvocal): considerar varianza, ancho de banda de los polos.

• Considerar que hacer cuando solo se reconoce una frecuenciamediante VVTR.

• Mejorar clasificador: actualmente es el mınimo de una metricaeuclideana ponderada.

• Extender reconocimiento a fonemas no vocales.

• Segmentar audio complejo (actualmente se trabaja confonemas puros) e intentar reconocimiento de fonemas.

� Nueva aplicacion: reconocimiento de timbres vocales.

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

END

A jugar con sint show.m?

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

END

A jugar con sint show.m?

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

1 IntroduccionLa Voz Humana: Modelo

2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza

3 VVTR: Visual Vocal Tract Resonance

4 Reconocimiento de Vocales

5 Sıntesis de Vocales

6 References

Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana

Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References

References

J. Makhoul. Linear prediccion: A tutorial review. Proceedings of theIEEE, VOL. 63, NO. 4, APRIL 1975.Anthony Zaknich. Principles of adaptive filters and self-learningsystems. ISBN-10:1852339845.

Jan S. Erkelens and Piet M. T. Broersen. Bias Propagacion in theAutocorrelacion Method of Linear Prediccion. IEEE Transaccions onSpeech and Audio Processing, VOL. 5, NO. 2, MARCH 1997.

I. Yocel 0zbek, Mobeccel Demirekler. Tracking of Visible Vocal TractResonances (VVTR) Based on Kalman Filtering.

W. Klein, R. Plomp, and L.C. Pols, Vowel spectra, vowel spaces, andvowel identificacion. The Journal of the Acoustical Society ofAmerica, vol. 48, 1970, pp. 999-1009.

A. Cohen, C.J. Ebeling, K. Fokkema, A.G.F. van Holk. Fonologie

van het Nederlands en het Fries. Martinus Nijhoff, s-Gravenhage,

1962. 2nd Ed.Pablo A. Iturralde, Rodrigo L. Rosa

Estimacion y Seguimiento de los Formantes de la Voz Humana