Download - Procesamiento de señales de voz

Transcript
Page 1: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR1

Procesamiento de señales de voz

Page 2: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR2

La comunicación oral

Page 3: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR3

¿Qué es la voz?

• Onda de sonido (onda de presión)

• Producida por el aparato fonador

• Utilizada para comunicación (para transmisión de mensajes)

Page 4: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR4

Cuestiones varias:

• ¿Qué relación hay entre los fonemas y la señal de voz?• ¿Y entre otras características y la señal de voz?• ¿Cómo podemos analizar las características de la voz?• ¿Cómo se manifiesta una patología de la voz en la

señal?• ¿Cómo podemos ajustar un sistema de ayuda a la

audición para optimizar la comprensión de la voz?• ¿Cómo podemos interpretar un error en la producción

de un fonema?• ¿Cómo podemos interpretar un error en detección o

identificación de fonemas?

Page 5: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR5

Procesamiento de voz

• Análisis de voz• Codificación y comprensión de voz• Síntesis de voz• Reconocimiento automático de voz• Reconocimiento y verificación de

locutores• Detección de patologías• Diseño de ayudas para la audición

Page 6: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR6

¿Qué es la voz?

• Producción de la voz

• Percepción de la voz

• Procesamiento de señales

Dificultades al intentar relacionar la señal con las características

Page 7: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR7

Problemas del procesamiento de voz

• Variabilidad– Intra-locutor (estado salud / ánimo, velocidad)– Inter-locutor– Adquisición

• Continuidad: concatenación y coarticulación• Información contenida en la señal de voz muy

redundante• Multi-interactividad entre niveles:

– Nivel fonético– Características suprasegmentales– Nivel semántico: contexto – suplencia mental

• Ruido: perturbación + efecto Lombard

Page 8: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR8

• Variabilidad de las señales de voz

• 40 ms correspondientes al fonema /a/

Page 9: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR9

Modelos de producción de voz

• Órganos de producción de voz– Cavidades infraglóticas– Cavidad laríngea (cuerdas vocales)– Cavidades supraglóticas

Provisión de aireGeneración de la “onda glotal”Filtrado de la onda glotal (diversificación

fonética)

Page 10: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR10

Modelo acústico de producción de voz

• Onda acústica: onda de presión en el aire con c = 350 m/s

• Longitud de onda = c / f– Para 100 Hz, = 3.5 m– Para 4 kHz, = 8.75 cm

• Producción de sonido:– Fonemas sonoros: vibración cuerdas vocales– Fonemas sordos: flujo turbulento– Fonemas oclusivos: obstrucción + apertura

Page 11: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR11

• Paredes no rígidas:– Pérdidas onda acústica

• Forma y sección del tracto vocal varía en el tiempo:– Se producen entre 5 y 20 fonemas por segundo

• Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar

Modelo acústico de producción de voz (II)

Page 12: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR12

Simplificaciones

• Tracto vocal tubo rígido descrito por la “función de área” A(x,t)

• Como > radio del tubo, aproximación de onda plana – (El problema de contorno tridimensional se puede

reducir a un problema unidimensional)

• Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo

Page 13: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR13

Función de área

Page 14: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR14

Ecuaciones de onda

Page 15: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR15

Condiciones de contorno• Glotis: vibración cuerdas vocales• Labios: p(L)=0• Onda proporcional a u(L)

Solución de las ecuaciones de onda• A se puede suponer constante en el tiempo

(condición de quasi-estacionariedad)• Para A(x) sencilla, soluciones analíticas• Para A(x) compleja, métodos numéricos• Medidas de A(x): Rx, TAC, RMN, articulógraf.

Page 16: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR16

Pérdidas por elasticidad

• mw masa/unid.long;• bw cte. amortiguación• kw cte. recuperación elástica

• Solución para:• L = 17.5 cm• A = cte = 5.0 cm2

Page 17: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR17

u(L,f) / uG(f)

Page 18: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR18

Formantes

• Formantes: resonancias del tracto vocal

• Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz

• El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia

Page 19: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR19

Pérdidas por radiación de onda

• p(L) = 0 no es cierto• Impedancia acústica Z• Impedancia para abertura circular

de radio a en plano infinito

• El filtrado del tracto vocal considerando las perdidas por radiación es distinto:• Caída para altas frecuencias• 6 dB / década

Page 20: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR20

u(L,f) / uG(f)

Page 21: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR21

Solución numérica para función de área correspondiente a fonema /a/

Page 22: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR22

Acoplamiento del tracto nasal

Page 23: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR23

Modelo acústico de producción de voz

• Excitación– Fonemas sonoros– Fonemas sordos– Fonemas oclusivos

• Filtrado por tracto vocal / nasal– Formantes (1 por kHz)– Caída 6 dB/década

Page 24: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR24

Modelo digital de producción de voz

Page 25: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR25

Características de la voz

• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

Page 26: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR26

Características de la voz

• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

Page 27: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR27

Clasificación de los fonemas(desde el punto de vista de la producción)

• Actividad de cuerdas vocales– Vocales– Consonantes sonoras– Consonantes sordas

• Modo de articulación– Vocales– Consonantes

• Lugar de articulación– Vocales– Consonantes

Page 28: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR28

Clasificación de vocales

• Modo de articulación (formante 1)– Cerradas (i,u)– Medias (e,o)– Abiertas (a)

• Lugar de articulación (formante 2)– Anteriores (i,e)– Centrales (a)– Posteriores (o,u)

Page 29: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR29

Formantes 1º y 2º en vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

fre

q. 2

o fo

rma

nte

(H

z)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

Page 30: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR30

Modo de articulación (cons.)

• Oclusivas (b,d,g,p,t,k)

• Fricativas (s,f,z,x,y)

• Africadas (ch)

• Nasales (m,n,ñ)

• Líquidas:– Laterales (l, ll)– Vibrantes (r, R)

Page 31: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR31

Lugar de articulación (cons.)

• Bilabiales (b,p,m)

• Labiodentales (f)

• Linguodentales (t,d)

• Linguointerdentales (z)

• Linguoalveolares (s,n,l,r,R)

• Linguopalatales (y,ch,ñ,ll)

• Linguovelares (k,g,x)

Page 32: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR32

Fonemas del español

Page 33: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR33

Análisis de señales de voz

• Conceptos de procesado de señales– Transformada de Fourier– Componentes de frecuencia– Espectro de potencia– Filtrado– Ventanas– Muestreo– Espectrogramas

Page 34: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR34

Transformada de Fourier

• Transformada (FT): – Cambio de representación– Misma información (otra representación)– Existe transformada inversa (FT-1)– Transforma señal compleja en señal

compleja:

Re(z)

Im(z)

x

yr

Page 35: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR35

Espectro de potencia (1)

Page 36: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR36

Espectro de potencia (2)

Page 37: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR37

Descomposición en componentes freq.

Page 38: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR38

Linealidad de la Transformada de Fourier

Page 39: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR39

Linealidad de la Transformada de Fourier

Page 40: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR40

Filtrado

• Caracterización del filtro:– Tiempo: respuesta impulsiva– Frecuencia: función de transferencia (o

respuesta en frecuencia)

filtroexcitación señal filtrada

Page 41: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR41

Filtrado en el tiempo: convolución

Page 42: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR42

Filtrado en frecuencia: multiplicación

Page 43: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR43

Ventanas (multiplicación en tiempo)

Page 44: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR44

Ventanas (multiplicación en tiempo)

Page 45: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR45

Transformada de un tren de pulsos

Page 46: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR46

Transformada de señal periódica

Page 47: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR47

Muestreo de señales: T. de muestreo

Page 48: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR48

Transformada Fourier: Resumen

Page 49: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR49

DFT y FFT

• Transformada discreta de Fourier (DFT)• Transformada rápida de Fourier (FFT)

• Señales discretas (muestreadas)• Ventana (resolución espectral)• N muestras en t => N muestras en f• FFT: Muy utilizada en procesamiento

digital de señales

Page 50: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR50

La señal de voz

/sal/

Page 51: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR51

La señal de voz

/s/ /a/ /l/

Page 52: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR52

Estacionariedad de la voz

• La señal de voz es “estacionaria a trozos”– Durante la pronunciación de un fonema es quasi-

estacionaria– Velocidad cambios tracto vocal– Velocidad cambios cuerdas vocales

– Estacionaria durante 20 – 40 ms– Velocidad de pronunciación: 5-20 fonemas / seg– Análisis de “trozos de voz estacionarios”:

ventanas

Page 53: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR53

Análisis con ventanas

Page 54: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR54

Análisis con ventanas

Page 55: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR55

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

Page 56: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR56

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

Page 57: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR57

Formantes 1º y 2º en vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

fre

q. 2

o fo

rma

nte

(H

z)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

Page 58: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR58

Espectro de consonantes sonoras

/l/

/R/

/y/

/m/

/n/

/ñ/

Page 59: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR59

Espectro de consonantes fricativas

/s/

/ss/

/sh/

/z/

/f/

/j/

Page 60: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR60

Fonemas no estacionarios

• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/

• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/

Page 61: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR61

Espectrograma (representación tiempo - frecuencia)

Page 62: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR62

Espectrograma (representación tiempo - frecuencia)

m b o i a kom p r a R p a n

Page 63: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR63

Ventana en el espectrograma: 64ms / 8 ms

Page 64: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR64

Información relevante de la señal de voz:

• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes

Información espectral de tiempo corto

• Información complementaria:– Tono fundamental– Estructura fina del espectro

Page 65: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR65

Cómo funciona el oído

• Extrae información de la señal de audio.

• Envía la información al cerebro en forma de estímulos nerviosos.

• El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción.

Page 66: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR66

Características del oído humano

• Configuración de la cóclea:6.000 células ciliadas internas40.000 terminaciones nerviosasRepolarización: 2 ms (400 - 500 disparos/seg)Conexión sináptica: sin interacción entre

canales

• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB

Page 67: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR67

Capacidad del oído humano

• Resolución en frecuencia: 1/9 tono:– fo - 1.013*fo 450 Hz - 456 Hz– rango de frecuencia: 20 Hz - 20.000 Hz

• Resolución en el tiempo:– limitado por tiempo relajación de células ciliadas y

terminaciones nerviosas (~400 disparos por seg.)

• Resolución en intensidad:– Mejor de 1 dB

• Mecanismos de adaptación.