Estimación y Seguimiento de los Formantes de la Voz Humana...
Transcript of Estimación y Seguimiento de los Formantes de la Voz Humana...
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Estimacion y Seguimiento de los Formantes de laVoz Humana
Tratamiento Estadıstico de Senales 2010
Pablo A. Iturralde, Rodrigo L. Rosa
August 20, 2011
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Agenda...
1 IntroduccionLa Voz Humana: Modelo
2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza
3 VVTR: Visual Vocal Tract Resonance
4 Reconocimiento de Vocales
5 Sıntesis de Vocales
6 References
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
1 IntroduccionLa Voz Humana: Modelo
2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza
3 VVTR: Visual Vocal Tract Resonance
4 Reconocimiento de Vocales
5 Sıntesis de Vocales
6 References
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Introduccion
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Modelo
Figure: Sonidos sonoros.
� Sonidos sonoros:
• Caracterıstica tonal
• Forma de onda: Periodica
• La cuerdas vocales vibran
• Ejemplos: Vocales, sonidosnasales (’n’,’m’).
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Modelo
Figure: Sonidos sonoros.
� Sonidos sonoros:
• Caracterıstica tonal
• Forma de onda: Periodica
• La cuerdas vocales vibran
• Ejemplos: Vocales, sonidosnasales (’n’,’m’).
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Modelo
Figure: Sonidos sonoros.
� Sonidos sonoros:
• Caracterıstica tonal
• Forma de onda: Periodica
• La cuerdas vocales vibran
• Ejemplos: Vocales, sonidosnasales (’n’,’m’).
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Modelo
Figure: Sonidos sonoros.
� Sonidos sonoros:
• Caracterıstica tonal
• Forma de onda: Periodica
• La cuerdas vocales vibran
• Ejemplos: Vocales, sonidosnasales (’n’,’m’).
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Modelo
Figure: Sonidos sonoros.
� Sonidos sonoros:
• Caracterıstica tonal
• Forma de onda: Periodica
• La cuerdas vocales vibran
• Ejemplos: Vocales, sonidosnasales (’n’,’m’).
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Sonidos sordos
Figure: Sonidos sordos: ’s’,’f ’, etc.
� Sonidos sordos:
• Forma de onda:Pseudo-aleatoria (ruido).
• Las cuerdas vocales novibran.
• Ejemplos: Fricativas:’s’,’f’,etc.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Sonidos sordos
Figure: Sonidos sordos: ’s’,’f ’, etc.
� Sonidos sordos:
• Forma de onda:Pseudo-aleatoria (ruido).
• Las cuerdas vocales novibran.
• Ejemplos: Fricativas:’s’,’f’,etc.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Sonidos sordos
Figure: Sonidos sordos: ’s’,’f ’, etc.
� Sonidos sordos:
• Forma de onda:Pseudo-aleatoria (ruido).
• Las cuerdas vocales novibran.
• Ejemplos: Fricativas:’s’,’f’,etc.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Sonidos sordos
Figure: Sonidos sordos: ’s’,’f ’, etc.
� Sonidos sordos:
• Forma de onda:Pseudo-aleatoria (ruido).
• Las cuerdas vocales novibran.
• Ejemplos: Fricativas:’s’,’f’,etc.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Sonidos sonoros
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Fonemas
Fonemas: Clase de equivalencia de sonidos.
(a) Vocal O (b) Vocal U
� Picos en el espectro de un fonema→ Frecuencias de resonancia del tracto vocal.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Fonemas
Fonemas: Clase de equivalencia de sonidos.
(a) Vocal O (b) Vocal U
� Picos en el espectro de un fonema→ Frecuencias de resonancia del tracto vocal.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Fonemas
Fonemas: Clase de equivalencia de sonidos.
(a) Vocal O (b) Vocal U
� Picos en el espectro de un fonema→ Frecuencias de resonancia del tracto vocal.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Fonemas
Fonemas: Clase de equivalencia de sonidos.
(a) Vocal O (b) Vocal U
� Picos en el espectro de un fonema→ Frecuencias de resonancia del tracto vocal.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Modelo
� Tecnicas de estimacion→ Linear Predictive Coding :
• Autocorrelacion
• Covarianza
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Modelo
� Tecnicas de estimacion→ Linear Predictive Coding :
• Autocorrelacion
• Covarianza
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
La Voz Humana: Modelo
La Voz Humana: Modelo Matematico
Figure: (a) Frecuencia. (b) Tiempo.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
1 IntroduccionLa Voz Humana: Modelo
2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza
3 VVTR: Visual Vocal Tract Resonance
4 Reconocimiento de Vocales
5 Sıntesis de Vocales
6 References
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Modelo:
sn = −p∑
k=1
aksn−k +Gun
� Objetivo:→ Determinar ak & G.
� Hipotesis:
• Estacionaridad• un desconocida
� Estimacion:
sn = −p∑
k=1
aksn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Modelo:
sn = −p∑
k=1
aksn−k +Gun
� Objetivo:→ Determinar ak & G.
� Hipotesis:
• Estacionaridad• un desconocida
� Estimacion:
sn = −p∑
k=1
aksn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Modelo:
sn = −p∑
k=1
aksn−k +Gun
� Objetivo:→ Determinar ak & G.
� Hipotesis:
• Estacionaridad• un desconocida
� Estimacion:
sn = −p∑
k=1
aksn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Modelo:
sn = −p∑
k=1
aksn−k +Gun
� Objetivo:→ Determinar ak & G.
� Hipotesis:
• Estacionaridad• un desconocida
� Estimacion:
sn = −p∑
k=1
aksn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Modelo:
sn = −p∑
k=1
aksn−k +Gun
� Objetivo:→ Determinar ak & G.
� Hipotesis:
• Estacionaridad• un desconocida
� Estimacion:
sn = −p∑
k=1
aksn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Modelo:
sn = −p∑
k=1
aksn−k +Gun
� Objetivo:→ Determinar ak & G.
� Hipotesis:
• Estacionaridad• un desconocida
� Estimacion:
sn = −p∑
k=1
aksn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Modelo:
sn = −p∑
k=1
aksn−k +Gun
� Objetivo:→ Determinar ak & G.
� Hipotesis:
• Estacionaridad• un desconocida
� Estimacion:
sn = −p∑
k=1
aksn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Estimacion:
sn = −p∑
k=1
aksn−k
� Error:
en = sn − sn
= sn +
p∑k=1
aksn−k
� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :
Ep =∑n
s2n+
p∑k=1
ak∑n
snsn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Estimacion:
sn = −p∑
k=1
aksn−k
� Error:
en = sn − sn
= sn +
p∑k=1
aksn−k
� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :
Ep =∑n
s2n+
p∑k=1
ak∑n
snsn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Estimacion:
sn = −p∑
k=1
aksn−k
� Error:
en = sn − sn
= sn +
p∑k=1
aksn−k
� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :
Ep =∑n
s2n+
p∑k=1
ak∑n
snsn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Estimacion:
sn = −p∑
k=1
aksn−k
� Error:
en = sn − sn
= sn +
p∑k=1
aksn−k
� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :
Ep =∑n
s2n+
p∑k=1
ak∑n
snsn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
LPC : Linear Predictive Coding
� Estimacion:
sn = −p∑
k=1
aksn−k
� Error:
en = sn − sn
= sn +
p∑k=1
aksn−k
� Procedimiento:→ Minimizar el errorcuadratico total medianteMC :
Ep =∑n
s2n+
p∑k=1
ak∑n
snsn−k
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion
Autocorrelacion
Def.:
R(i) =
∞∑n=−∞
snsn+i
Ecuacion a resolver:
Ep = R(0) +
p∑k=1
akR(k)
→ Matriz para MC:
Mi,k = R(i− k)
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion
Autocorrelacion
Def.:
R(i) =
∞∑n=−∞
snsn+i
Ecuacion a resolver:
Ep = R(0) +
p∑k=1
akR(k)
→ Matriz para MC:
Mi,k = R(i− k)
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion
Autocorrelacion
Def.:
R(i) =
∞∑n=−∞
snsn+i
Ecuacion a resolver:
Ep = R(0) +
p∑k=1
akR(k)
→ Matriz para MC:
Mi,k = R(i− k)
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Covarianza
Covarianza
Def.:
ϕki =
N−1∑n=0
sn−ksn−i
Ecuacion a resolver:
Ep = ϕ00 +
p∑k=1
akϕ0k
→ Matriz para MC:Mi,k = ϕki
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Covarianza
Covarianza
Def.:
ϕki =
N−1∑n=0
sn−ksn−i
Ecuacion a resolver:
Ep = ϕ00 +
p∑k=1
akϕ0k
→ Matriz para MC:Mi,k = ϕki
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Covarianza
Covarianza
Def.:
ϕki =
N−1∑n=0
sn−ksn−i
Ecuacion a resolver:
Ep = ϕ00 +
p∑k=1
akϕ0k
→ Matriz para MC:Mi,k = ϕki
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Autocorrelacion Vs. Covarianza
Autocorrelacion (corr) o covarianza (cov)?
Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Autocorrelacion Vs. Covarianza
Autocorrelacion (corr) o covarianza (cov)?
Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Autocorrelacion Vs. Covarianza
Autocorrelacion (corr) o covarianza (cov)?
Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Autocorrelacion Vs. Covarianza
Autocorrelacion (corr) o covarianza (cov)?
Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Autocorrelacion Vs. Covarianza
Autocorrelacion (corr) o covarianza (cov)?
Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Autocorrelacion Vs. Covarianza
Autocorrelacion (corr) o covarianza (cov)?
Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Autocorrelacion Vs. Covarianza
Autocorrelacion (corr) o covarianza (cov)?
Autocorrelacion CovarianzaMatriz Toeplitz SimetricaCosto Computacional Menor Mayor# Muestras N p+NEnvantanado No...? NoSesgo Si No
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Tamano de Ventana
./A_L.wav
Figure: Ventana de 256 muestras.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Tamano de ventana
./A_L.wav
Figure: Ventana: 512 muestras.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Tamano de ventana
./A_L.wav
Figure: Ventana: 1024 muestras.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Eleccion del tamano de ventana y el metodo
Tamano de ventana & modelo estacionario
� Senales de voz: Abarcar 2 periodos de la senal
• Ventanas de entre 256 y 2048 muestras.
Criterios para la eleccion del metodo:
� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov
� Si [la capacidad computacional es limitada] entonces corr, sinocov
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Eleccion del tamano de ventana y el metodo
Tamano de ventana & modelo estacionario
� Senales de voz: Abarcar 2 periodos de la senal
• Ventanas de entre 256 y 2048 muestras.
Criterios para la eleccion del metodo:
� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov
� Si [la capacidad computacional es limitada] entonces corr, sinocov
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Eleccion del tamano de ventana y el metodo
Tamano de ventana & modelo estacionario
� Senales de voz: Abarcar 2 periodos de la senal
• Ventanas de entre 256 y 2048 muestras.
Criterios para la eleccion del metodo:
� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov
� Si [la capacidad computacional es limitada] entonces corr, sinocov
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Eleccion del tamano de ventana y el metodo
Tamano de ventana & modelo estacionario
� Senales de voz: Abarcar 2 periodos de la senal
• Ventanas de entre 256 y 2048 muestras.
Criterios para la eleccion del metodo:
� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov
� Si [la capacidad computacional es limitada] entonces corr, sinocov
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Eleccion del tamano de ventana y el metodo
Tamano de ventana & modelo estacionario
� Senales de voz: Abarcar 2 periodos de la senal
• Ventanas de entre 256 y 2048 muestras.
Criterios para la eleccion del metodo:
� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov
� Si [la capacidad computacional es limitada] entonces corr, sinocov
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Eleccion del tamano de ventana y el metodo
Tamano de ventana & modelo estacionario
� Senales de voz: Abarcar 2 periodos de la senal
• Ventanas de entre 256 y 2048 muestras.
Criterios para la eleccion del metodo:
� Si [es posible tomar ventanas de tamano suficiente] entoncescorr, sino cov
� Si [la capacidad computacional es limitada] entonces corr, sinocov
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Orden del Filtro
./A_L.wav
Figure: Autocorrelacion + Rectangular - Ventana: 512 muestrasPablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Orden del Filtro
./A_L.wav
Figure: Autocorrelacion + Hanning - Ventana: 512 muestrasPablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Orden del Filtro
./A_L.wav
(a) Rectangular window. (b) Hanning window.
Figure: Autocorrelacion - Ventana: 512 muestras
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Autocorrelacion Vs. Covarianza
Orden del Filtro
./A_L.wav
Figure: Covarianza - Ventana: 512 muestrasPablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
1 IntroduccionLa Voz Humana: Modelo
2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza
3 VVTR: Visual Vocal Tract Resonance
4 Reconocimiento de Vocales
5 Sıntesis de Vocales
6 References
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Visual Vocal Tract Resonance
Idea:
� Para c/ventana wi:
• LPC→ Polos pi del filtro→ Candidatos
• Polos de banda ancha→ Se descartan.
� Recorrer [wi, pi]
• Si un frecuencia serepite→ Kalman.
Figure: Algoritmo VVTR
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Ejemplo: VVTR a una vocal
./E_L.wav
Figure: Seguimiento de formantes en E L.wav
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Generacion de candidatos
1 LPC de cada ventana mediante corr o cov→ Polos: Candidatos a frecuencias de resonancia
(formantes).→ Solo si tienen ancho de banda menor a 400Hz
(a) Ventana a analizar (b) LPC (Covarianza)Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Generacion de candidatos
1 LPC de cada ventana mediante corr o cov→ Polos: Candidatos a frecuencias de resonancia
(formantes).→ Solo si tienen ancho de banda menor a 400Hz
(a) Ventana a analizar (b) LPC (Covarianza)Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Generacion de candidatos
1 LPC de cada ventana mediante corr o cov→ Polos: Candidatos a frecuencias de resonancia
(formantes).→ Solo si tienen ancho de banda menor a 400Hz
(a) Ventana a analizar (b) LPC (Covarianza)Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Maquina de estados
2 Iniciar/terminar trayectorias.
Figure: Maquina de estados del algoritmo VVTR.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Innovacion
3 Asociar candidatos con frecuencias yaexistenes.
� Opciones:
• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...
� Estrategia:
• Prioridad para frequencies bajoseguimiento
• Conflictos: Nearest neighbor.
→ No es optimo globalmente.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Innovacion
3 Asociar candidatos con frecuencias yaexistenes.
� Opciones:
• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...
� Estrategia:
• Prioridad para frequencies bajoseguimiento
• Conflictos: Nearest neighbor.
→ No es optimo globalmente.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Innovacion
3 Asociar candidatos con frecuencias yaexistenes.
� Opciones:
• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...
� Estrategia:
• Prioridad para frequencies bajoseguimiento
• Conflictos: Nearest neighbor.
→ No es optimo globalmente.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Innovacion
3 Asociar candidatos con frecuencias yaexistenes.
� Opciones:
• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...
� Estrategia:
• Prioridad para frequencies bajoseguimiento
• Conflictos: Nearest neighbor.
→ No es optimo globalmente.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Innovacion
3 Asociar candidatos con frecuencias yaexistenes.
� Opciones:
• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...
� Estrategia:
• Prioridad para frequencies bajoseguimiento
• Conflictos: Nearest neighbor.
→ No es optimo globalmente.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Innovacion
3 Asociar candidatos con frecuencias yaexistenes.
� Opciones:
• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...
� Estrategia:
• Prioridad para frequencies bajoseguimiento
• Conflictos: Nearest neighbor.
→ No es optimo globalmente.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Innovacion
3 Asociar candidatos con frecuencias yaexistenes.
� Opciones:
• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...
� Estrategia:
• Prioridad para frequencies bajoseguimiento
• Conflictos: Nearest neighbor.
→ No es optimo globalmente.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Innovacion
3 Asociar candidatos con frecuencias yaexistenes.
� Opciones:
• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...
� Estrategia:
• Prioridad para frequencies bajoseguimiento
• Conflictos: Nearest neighbor.
→ No es optimo globalmente.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR: Innovacion
3 Asociar candidatos con frecuencias yaexistenes.
� Opciones:
• Ancho de banda constante.• Ancho de banda variable→ Mayor complejidad, resultadossimilares...
� Estrategia:
• Prioridad para frequencies bajoseguimiento
• Conflictos: Nearest neighbor.
→ No es optimo globalmente.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR - Kalman
4 Kalman� Ecuaciones:
xk = Axk−1 +Gwk−1
yk = Hxk + vk
A =
[1 T0 1
]G =
[T 2
2T
]H =
[1 0
]� Vector de estados:
xk =
[Fk
Fk
]Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR - Kalman
4 Kalman� Ecuaciones:
xk = Axk−1 +Gwk−1
yk = Hxk + vk
A =
[1 T0 1
]G =
[T 2
2T
]H =
[1 0
]� Vector de estados:
xk =
[Fk
Fk
]Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR - Kalman
4 Kalman� Ecuaciones:
xk = Axk−1 +Gwk−1
yk = Hxk + vk
A =
[1 T0 1
]G =
[T 2
2T
]H =
[1 0
]� Vector de estados:
xk =
[Fk
Fk
]Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
VVTR - Kalman
4 Kalman� Ecuaciones:
xk = Axk−1 +Gwk−1
yk = Hxk + vk
A =
[1 T0 1
]G =
[T 2
2T
]H =
[1 0
]� Vector de estados:
xk =
[Fk
Fk
]Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
1 IntroduccionLa Voz Humana: Modelo
2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza
3 VVTR: Visual Vocal Tract Resonance
4 Reconocimiento de Vocales
5 Sıntesis de Vocales
6 References
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Reconocimiento de vocales - Caracterizacion
VVTR→ Con dos frecuencias es posible caracterizar a una vocal.
Table: Fingerprints
Formantes F1 F2
A 730 1300E 440 2000I 270 2300O 460 800U 280 750
Resultados:
� 88% de exito sobre una base de datos de 15 usuarios.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Reconocimiento de vocales - Caracterizacion
VVTR→ Con dos frecuencias es posible caracterizar a una vocal.
Table: Fingerprints
Formantes F1 F2
A 730 1300E 440 2000I 270 2300O 460 800U 280 750
Resultados:
� 88% de exito sobre una base de datos de 15 usuarios.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Reconocimiento de vocales - Caracterizacion
VVTR→ Con dos frecuencias es posible caracterizar a una vocal.
Table: Fingerprints
Formantes F1 F2
A 730 1300E 440 2000I 270 2300O 460 800U 280 750
Resultados:
� 88% de exito sobre una base de datos de 15 usuarios.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Reconocimiento de vocales - Caracterizacion
VVTR→ Con dos frecuencias es posible caracterizar a una vocal.
Table: Fingerprints
Formantes F1 F2
A 730 1300E 440 2000I 270 2300O 460 800U 280 750
Resultados:
� 88% de exito sobre una base de datos de 15 usuarios.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Reconocimiento de Vocales: Mapa de formantes
Figure: Particion 2D generada por la metrica utilizada.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Reconocimiento de Vocales
./A_L.wav
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
1 IntroduccionLa Voz Humana: Modelo
2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza
3 VVTR: Visual Vocal Tract Resonance
4 Reconocimiento de Vocales
5 Sıntesis de Vocales
6 References
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Aplicacion: Sıntesis de Vocales
Modelo: SX(z) = HX(z)UT imbreDeV oz(z)
Idea:
� LPC : → Respuesta en frecuencia de cada vocal.
SX(z) = HX(z)UT imbreDeV oz(z)
� Filtrado inverso → Timbre de voz.
UT imbreDeV oz(z) =SX(z)
HX(z)Aplicacion:
� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:
SY (z) = HY (z)UT imbreDeV oz(z)
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Aplicacion: Sıntesis de Vocales
Modelo: SX(z) = HX(z)UT imbreDeV oz(z)
Idea:
� LPC : → Respuesta en frecuencia de cada vocal.
SX(z) = HX(z)UT imbreDeV oz(z)
� Filtrado inverso → Timbre de voz.
UT imbreDeV oz(z) =SX(z)
HX(z)Aplicacion:
� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:
SY (z) = HY (z)UT imbreDeV oz(z)
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Aplicacion: Sıntesis de Vocales
Modelo: SX(z) = HX(z)UT imbreDeV oz(z)
Idea:
� LPC : → Respuesta en frecuencia de cada vocal.
SX(z) = HX(z)UT imbreDeV oz(z)
� Filtrado inverso → Timbre de voz.
UT imbreDeV oz(z) =SX(z)
HX(z)Aplicacion:
� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:
SY (z) = HY (z)UT imbreDeV oz(z)
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Aplicacion: Sıntesis de Vocales
Modelo: SX(z) = HX(z)UT imbreDeV oz(z)
Idea:
� LPC : → Respuesta en frecuencia de cada vocal.
SX(z) = HX(z)UT imbreDeV oz(z)
� Filtrado inverso → Timbre de voz.
UT imbreDeV oz(z) =SX(z)
HX(z)Aplicacion:
� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:
SY (z) = HY (z)UT imbreDeV oz(z)
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Aplicacion: Sıntesis de Vocales
Modelo: SX(z) = HX(z)UT imbreDeV oz(z)
Idea:
� LPC : → Respuesta en frecuencia de cada vocal.
SX(z) = HX(z)UT imbreDeV oz(z)
� Filtrado inverso → Timbre de voz.
UT imbreDeV oz(z) =SX(z)
HX(z)Aplicacion:
� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:
SY (z) = HY (z)UT imbreDeV oz(z)
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Aplicacion: Sıntesis de Vocales
Modelo: SX(z) = HX(z)UT imbreDeV oz(z)
Idea:
� LPC : → Respuesta en frecuencia de cada vocal.
SX(z) = HX(z)UT imbreDeV oz(z)
� Filtrado inverso → Timbre de voz.
UT imbreDeV oz(z) =SX(z)
HX(z)Aplicacion:
� Sıntesis a partir del timbre de voz y de la respuesta en frecuenciatıpica de cada vocal:
SY (z) = HY (z)UT imbreDeV oz(z)
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Aplicacion: Sıntesis de Vocales
./timbre_L.wav a partir de ./A_L.wav
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Aplicacion: Sıntesis de Vocales
Sıntesis basada en:
./A_L.wav
Audio sintetizado./synt_1_L.wav [A]
./synt_2_L.wav [E]
./synt_3_L.wav [I]
./synt_4_L.wav [O]
./synt_5_L.wav [U]
Audio original./A_L.wav: [A]
./E_L.wav: [E]
./I_L.wav: [I]
./O_L.wav: [O]
./U_L.wav: [U]
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Aplicacion: Sıntesis de Vocales
Sıntesis basada en:
./A_L.wav
Audio sintetizado./synt_1_L.wav [A]
./synt_2_L.wav [E]
./synt_3_L.wav [I]
./synt_4_L.wav [O]
./synt_5_L.wav [U]
Audio original./A_L.wav: [A]
./E_L.wav: [E]
./I_L.wav: [I]
./O_L.wav: [O]
./U_L.wav: [U]
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
Trabajo a futuro
� Aplicacion: Reconocimiento de vocales
• Mejorar la extraccion de caracterısticas (2 formantes porvocal): considerar varianza, ancho de banda de los polos.
• Considerar que hacer cuando solo se reconoce una frecuenciamediante VVTR.
• Mejorar clasificador: actualmente es el mınimo de una metricaeuclideana ponderada.
• Extender reconocimiento a fonemas no vocales.
• Segmentar audio complejo (actualmente se trabaja confonemas puros) e intentar reconocimiento de fonemas.
� Nueva aplicacion: reconocimiento de timbres vocales.
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
END
A jugar con sint show.m?
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
END
A jugar con sint show.m?
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
1 IntroduccionLa Voz Humana: Modelo
2 LPC: Linear Predictive CodingAutocorrelacionCovarianzaAutocorrelacion Vs. Covarianza
3 VVTR: Visual Vocal Tract Resonance
4 Reconocimiento de Vocales
5 Sıntesis de Vocales
6 References
Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana
Introduccion LPC: Linear Predictive Coding VVTR: Visual Vocal Tract Resonance Reconocimiento de Vocales Sıntesis de Vocales References
References
J. Makhoul. Linear prediccion: A tutorial review. Proceedings of theIEEE, VOL. 63, NO. 4, APRIL 1975.Anthony Zaknich. Principles of adaptive filters and self-learningsystems. ISBN-10:1852339845.
Jan S. Erkelens and Piet M. T. Broersen. Bias Propagacion in theAutocorrelacion Method of Linear Prediccion. IEEE Transaccions onSpeech and Audio Processing, VOL. 5, NO. 2, MARCH 1997.
I. Yocel 0zbek, Mobeccel Demirekler. Tracking of Visible Vocal TractResonances (VVTR) Based on Kalman Filtering.
W. Klein, R. Plomp, and L.C. Pols, Vowel spectra, vowel spaces, andvowel identificacion. The Journal of the Acoustical Society ofAmerica, vol. 48, 1970, pp. 999-1009.
A. Cohen, C.J. Ebeling, K. Fokkema, A.G.F. van Holk. Fonologie
van het Nederlands en het Fries. Martinus Nijhoff, s-Gravenhage,
1962. 2nd Ed.Pablo A. Iturralde, Rodrigo L. Rosa
Estimacion y Seguimiento de los Formantes de la Voz Humana