Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño,...
Transcript of Tecnologías del habla - aholab · TIC en Redes Móviles T Hombres: Glotis de mayor tamaño,...
Tecnologías del hablaTecnologías del hablaInmaculada HernaezEduardo LleidaEva NavasAlfonso Ortega
Curso 2006/2007
TIC en Redes Móviles
Programa
Introducción 1.1. Generación y percepción de la señal de vozGeneración y percepción de la señal de voz
•• ProducciónProducción• Modelos digitales• Percepción
2. Técnicas avanzadas de análisis de voz3. Codificación de voz4. Reconocimiento automático del habla5. Conversión texto-habla
TIC en Redes Móviles
1. Generación del habla
• Sistema sub-glotal: pulmones, bronquios y tráquea, son la fuente de energía
• Tracto vocal (longitud media 17cm, sección de 0 a 20 cm:
•Glotis (aloja las cuerdas vocales)•Faringe•Cavidad bucal
• Tracto nasal: velo del paladar y nariz• Voz: Onda acústica radiada cuando los
pulmones expulsan el aire y el flujo resultante es perturbado por alguna constricción en el tracto vocal.
TIC en Redes Móviles
• Sonidos sonoros: la glotis se encuentra cerradacon las cuerdas vocales tensas. El aire empuja lascuerdas vocales y las hace vibrar. • Sonidos sordos: la glotis está abierta y lascuerdas relajadas. El flujo de aire saliente de la glotis será turbulento. El aire sale
impulsado confuerza por lospulmones hacia
el exterior
El aire coge granvelocidad en la tráquea
1. Generación del habla
TIC en Redes Móviles
1. Generación del habla
TIC en Redes Móviles
1. Generación del habla
Glotis y señal del laringógrafo
TIC en Redes Móviles
0 T 2T 3T
Glotis abierta
Glotis cerrada
t
1. Generación del habla
1/F0Pitch
TIC en Redes Móviles
Ama etorri da
Bihar eguraldi ona izango dugu
Ama etorri da?
Bihar eguraldi ona izango dugu?
Curvas de entonación
1. Generación del habla
TIC en Redes Móviles
Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave.Mujeres y niños: Glotis más pequeña, cuerdas vocales más cortas, voz másaguda. Pitch o frecuencia fundamental o F0: Frecuencia de vibración de las cuerdasvocales en la producción de los sonidos sonoros.
1. Generación del habla
TIC en Redes Móviles
1. Generación del habla
TIC en Redes Móviles
• Sonidos sonoros: la glotis se encuentra cerradacon las cuerdas vocales tensas. El aire empuja lascuerdas vocales y las hace vibrar. • Sonidos sordos: la glotis está abierta y lascuerdas relajadas. El flujo de aire saliente de la glotis será turbulento. El aire sale
impulsado confuerza por lospulmones hacia
el exterior
El aire coge granvelocidad en la tráquea
La cavidad bucal actúa de cavidad resonante: frecuencias
de resonancia o formantes
1. Generación del habla
TIC en Redes Móviles
1. Generación del habla
TIC en Redes Móviles
Resonancias: Formantes
1. Generación del habla
TIC en Redes Móviles
1. Generación del habla
TIC en Redes Móviles
Vocales: Desde la glotis, el aire atraviesa la cavidad bucal sinobstáculos. Las vocales siempre son sonoras. Consonantes: La lengua o los labios ayudados por los dientes y por el paladar interrumpen total (oclusivas) o parcialmente(fricativas, africadas) el paso del aire.
1. Generación del habla
TIC en Redes Móviles
Sonidos nasales: el velo del paladar baja y el aire se dirige hacia el exterior
atravesando la cavidad nasal. Las cavidadesnasal y bucal se acoplan acústicamente.
• Sonidos sonoros: la glotis se encuentra cerradacon las cuerdas vocales tensas. El aire empuja lascuerdas vocales y las hace vibrar. • Sonidos sordos: la glotis está abierta y lascuerdas relajadas. El flujo de aire saliente de la glotis será turbulento. El aire sale
impulsado confuerza por lospulmones hacia
el exterior
El aire coge granvelocidad en la tráquea
La cavidad bucal actúa de cavidad resonante: frecuencias
de resonancia o formantes
1. Generación del habla
TIC en Redes Móviles
Sonidos sonoros: el flujo del aire procedente de los pulmones es periódicamente interrumpido por la apertura y cierre de las cuerdas vocales. Es un flujo periódico de frecuencia fundamental F0 (frecuencia de pitch).Sonidos sordos: No hay vibración de las cuerdas vocales. El flujo de aire encuentra una constricción en el tracto vocal, tomando gran velocidad y formando turbulencias.Tracto vocal y tracto nasal: Actúan de cavidades resonantes, cuyas frecuencias de resonancia se conocen como Formantes. Los valores de los formantes dependen de la forma y dimensiones del tracto vocal. Por ello, las características espectrales de la voz varían en el tiempo como varía la forma del tracto vocal.
1. Generación del habla
TIC en Redes Móviles
200Hz
i e a o u
F1
F22500Hz
1. Generación del habla
Formantes de las vocales
TIC en Redes Móviles
Fonética acústica: modo de articulación
No
FricativasAproximantes
VibrantesLaterales
Sono
ridad
VocalesSiNasales
Oclusivas
Oclusivas Fricativas
Africadas
Oclusión
No Total Parcial
1. Generación del habla
TIC en Redes Móviles
labiales: [p], [b], [m]
dentales: [t], [d]
alveoares: [n], [s]
palatales: [J], [L]
velares: [k], [g], [x]
Fonética acústica: lugar de articulación
1. Generación del habla
TIC en Redes Móviles
Factores culturales
• Volumen de la voz• Conjunto de sonidos• Duración• Entonación• Formas de formar frases• Velocidad del habla• Vocabulario
Factores Fisiológicos
• Tracto vocal• Cuerdas vocales y• frecuencia de vibración• Forma del pulso glotal• Cansancio• Congestión nasal
Factores Ambientales
• Ruido de fondo• Factores mecánicos: vibraciones• Estado emocional • Acústica de la sala • Ambiente: calor
1. Generación del habla
Variabilidad de la voz
TIC en Redes Móviles
Programa
Introducción 1.1. Generación y percepción de la señal de vozGeneración y percepción de la señal de voz
•• ProducciónProducción•• Modelos digitalesModelos digitales• Percepción
2. Técnicas avanzadas de análisis de voz3. Codificación de voz4. Reconocimiento automático del habla5. Conversión texto-habla
TIC en Redes Móviles
Pulso de Rosenberg
g(t)
G(f)
Excitación Cavidad Resonante
Radiación labios
1. Generación del habla
TIC en Redes Móviles
GENERADORde PULSOS
PULSOGLOTAL
G(z)
GENERADORde RUIDO
x
x
TRACTOVOCAL
V(z)
RADIACIÓNLABIOS
R(z)F0
AV
AUCOEFICIENTES
REFLEXIÓN
s(n)
EXCITACIÓNSONORA
EXCITACIÓNSORDA
GENERADORde
EXCITACIONES
TRACTOVOCAL
H(z)
u(n)
G(z) V(z) R(z)
1. Generación del habla
TIC en Redes Móviles
Modelo de fuente y tracto vocal:Separa totalmente características de fuente y de tracto vocal.Funciona mejor cuando los parámetros varían lentamente: sonidos más estacionarios.Filtro V(z) todo polos: solo tiene resonancias, no puede modelar los ceros de las nasales.Separa fuente ruidosa y sonora: no válido para todos los sonidos. Cambio brusco de una fuente a otra: no realista.
1. Generación del habla
TIC en Redes Móviles
BibliografíaRabiner, L.R. Schfer, R.W (1978) Digital Processing ofSpeech Signal. Prentice-Hall Signal Processing SeriesAlan V. Oppenheim. Series Editor. 1978.RabinerFant, G. Acoustic Theory of Speech Production 2nd. Ed. 1970, Mouton, The Hague.Deller, J., Hansen, Proakis (2000) Discrete-Time Processing of Speech Signals IEEE Press.
1. Generación del habla