CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos...

21
2.5 Parámetros en el dominio de la frecuencia: Transformada corta de Fourier, generación de espectogramas Análisis de Fourier en tiempo corto. En muchas áreas de la ciencia y la ingeniería, la representación de señales u otras funciones mediante sumas de sinusoides o exponenciales complejas conduce a soluciones convenientes a problemas y a menudo a una mayor penetración en fenómenos físicos que la que está disponible mediante otros medios. Tales representaciones – representaciones de Fourier como se llaman comúnmente – son útiles en el procesamiento de señales por dos razones básicas. La primera es que para sistemas lineales es muy conveniente determinar la respuesta a una superposición de sinusoides o exponenciales complejas. La segunda razón es que las representaciones de Fourier a menudo sirven para poner en evidencia algunas propiedades de la señal que podrían ser menos evidentes en la señal original. La investigación y tecnología en comunicaciones de voz son áreas donde tradicionalmente el concepto de una representación de Fourier ha tomado un papel importante. Para observar el por qué de esto, es útil recordar que el modelo de producción de un sonido de voz de estado estable como una vocal o una fricativa, simplemente consiste en un sistema lineal excitado por una fuente que varía con el tiempo ya sea de manera periódica o aleatoria. En general, el espectro de la salida de tal modelo será el producto de la respuesta en frecuencia del sistema del tracto vocal y el espectro de la excitación. Por tanto, se esperaría que el espectro de la salida reflejara las propiedades tanto de la respuesta en frecuencia de la excitación como del tracto vocal. Hemos visto, sin embargo, que las ondas de voz son generalmente más complicadas que una simple vocal sostenida o un sonido fricativo. Por lo tanto las representaciones de Fourier estándares que son apropiadas para señales periódicas, transitorias o aleatorias estacionarias, no son directamente aplicables a la representación de señales de voz cuyas propiedades cambian notablemente en función del tiempo. Sin embargo, hemos visto amplia evidencia de que el principio del análisis en tiempo corto es una aproximación válida para el procesamiento de voz. Hemos visto, por ejemplo, que las propiedades temporales como energía, cruces por cero y correlación pueden asumirse como fijas en intervalos de tiempo del orden de 10 a 30ms. Debemos demostrar que podemos asumir que las propiedades espectrales de la voz, de manera similar, cambian de manera relativamente lenta con el tiempo. Con el fin de estudiar las propiedades espectrales de las señales de voz, debemos encontrar conveniente el introducir formalmente el concepto de una representación de Fourier variante en el tiempo de una señal. Debemos definir una transformada de Fourier variante en el tiempo y la operación de síntesis de una transformada de Fourier variante en el tiempo. Para esto será conveniente considerar el análisis de Fourier en el contexto de un banco de filtros. Esto nos conducirá tanto a los adentros teóricos y prácticos 60

Transcript of CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos...

Page 1: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

2.5 Parámetros en el dominio de la frecuencia: Transformada corta de Fourier, generación de espectogramas

Análisis de Fourier en tiempo corto.En muchas áreas de la ciencia y la ingeniería, la representación de señales u otras funciones mediante sumas de sinusoides o exponenciales complejas conduce a soluciones convenientes a problemas y a menudo a una mayor penetración en fenómenos físicos que la que está disponible mediante otros medios. Tales representaciones – representaciones de Fourier como se llaman comúnmente – son útiles en el procesamiento de señales por dos razones básicas. La primera es que para sistemas lineales es muy conveniente determinar la respuesta a una superposición de sinusoides o exponenciales complejas. La segunda razón es que las representaciones de Fourier a menudo sirven para poner en evidencia algunas propiedades de la señal que podrían ser menos evidentes en la señal original.

La investigación y tecnología en comunicaciones de voz son áreas donde tradicionalmente el concepto de una representación de Fourier ha tomado un papel importante. Para observar el por qué de esto, es útil recordar que el modelo de producción de un sonido de voz de estado estable como una vocal o una fricativa, simplemente consiste en un sistema lineal excitado por una fuente que varía con el tiempo ya sea de manera periódica o aleatoria. En general, el espectro de la salida de tal modelo será el producto de la respuesta en frecuencia del sistema del tracto vocal y el espectro de la excitación. Por tanto, se esperaría que el espectro de la salida reflejara las propiedades tanto de la respuesta en frecuencia de la excitación como del tracto vocal. Hemos visto, sin embargo, que las ondas de voz son generalmente más complicadas que una simple vocal sostenida o un sonido fricativo. Por lo tanto las representaciones de Fourier estándares que son apropiadas para señales periódicas, transitorias o aleatorias estacionarias, no son directamente aplicables a la representación de señales de voz cuyas propiedades cambian notablemente en función del tiempo. Sin embargo, hemos visto amplia evidencia de que el principio del análisis en tiempo corto es una aproximación válida para el procesamiento de voz. Hemos visto, por ejemplo, que las propiedades temporales como energía, cruces por cero y correlación pueden asumirse como fijas en intervalos de tiempo del orden de 10 a 30ms. Debemos demostrar que podemos asumir que las propiedades espectrales de la voz, de manera similar, cambian de manera relativamente lenta con el tiempo.

Con el fin de estudiar las propiedades espectrales de las señales de voz, debemos encontrar conveniente el introducir formalmente el concepto de una representación de Fourier variante en el tiempo de una señal. Debemos definir una transformada de Fourier variante en el tiempo y la operación de síntesis de una transformada de Fourier variante en el tiempo. Para esto será conveniente considerar el análisis de Fourier en el contexto de un banco de filtros. Esto nos conducirá tanto a los adentros teóricos y prácticos (computacionales) del análisis de Fourier variante en el tiempo. Debemos considerar también otras técnicas computacionales basadas en algoritmos de cálculo rápidos para en análisis de Fourier discreto (algoritmo FFT). Finalmente, habiendo considerado los detalles teóricos y computacionales de las representaciones de Fourier variantes en el tiempo, debemos considerar las aplicaciones al análisis/síntesis de la voz (vocoders), despliegue de espectros, y otros problemas básicos del análisis de voz como el análisis de las formantes y detección del tono.

Definiciones y PropiedadesPara definir una representación de Fourier dependiente del tiempo, estamos motivados por la necesidad de una representación espectral que refleje las propiedades variantes en el tiempo de una señal de voz. Una definición útil de la transformada de Fourier dependiente del tiempo es:

…………………………..(1)

En la ecuación (1), w(n-m) es una “ventana” real que determina la porción de la señal de entrada que recibe énfasis en un determinado índice de tiempo n. La transformada de Fourier dependiente del tiempo es claramente función de dos variables: el índice de tiempo n, que es discreta, y la variable de frecuencia

60

Page 2: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

, que es continua. Una forma alternativa de la ecuación (1) es obtenida mediante el cambio del índice de la sumatoria, lo que nos lleva a la expresión:

………(2)

Si definimos:

……………………………(3)

entonces Xn(ej) puede ser expresada como:

………………………………………(4)

Estas ecuaciones pueden ser interpretadas de dos formas distintas. Primero, si asumimos que n es fija, podemos notar que Xn(ej) es simplemente la transformada de Fourier normal de la secuencia w(n-m)x(m), -<m<. Por tanto, para n fija, Xn(ej) tiene las mismas propiedades que la transformada de Fourier normal. La segunda interprestación se obtiene considerando a Xn(ej) como una función del índice de tiempo n con fija. En este caso observamos que tanto la ecuación (1) como la (3) se encuentran en la forma de una convolución. Esta interpretación nos conduce naturalmente a considerar la representación de Fourier dependiente del tiempo en términos de un filtrado lineal. Como veremos, ambas interpretaciones nos conducen a aspectos útiles y debemos encontrar valioso el examen en detalle de la transformada de Fourier dependiente del tiempo desde ambos puntos de vista.

Interpretación de la transformada de FourierConsideremos a Xn(ej) como la transformada de Fourier normal de la secuencia w(n-m)x(m), -

<m<, para una n fija. La transformada de Fourier dependiente del tiempo es una función del índice de tiempo n, que toma todos los valores enteros hasta “desplazar” la ventana w(n-m) sobre la secuencia x(m). Esto se muestra en la figura 1, que muestra a x(m) y w(n-m) como funciones de m para varios valores de n. (Note que la señal y la ventana son graficadas por conveniencia como funciones continuas a pesar de que únicamente se encuentran definidas para valores enteros de m y n-m.)

Figura 1. Gráficas de x(m) y w(n-m) para varios valores de n

Las condiciones de existencia de la representación mediante transformada de Fourier dependiente del tiempo con fácilmente obtenidas si recordamos que es condición suficiente para la existencia de la transformada de Fourier convencional que la secuencia x(m)w(n-m) sea absolutamente sumable para todos los valores de n. Si, como suele ser el caso, w(n-m) es de duración finita, entonces esta condición se satisface claramente.

Como en el caso de la transformada de Fourier normal de señales en tiempo discreto, la transformada de Fourier variante en el tiempo es periódica en con periodo 2. Esto se observa fácilmente sustituyendo +2 en la ecuación (1). También note que es posible expresar la transformada de Fourier variante en el tiempo en términos de una variedad de variables de frecuencia. Por ejemplo, si =T, donde T es el periodo de muestreo usado para obtener la secuencia x(m), entonces es la frecuencia analógica en radianes. También, haciendo las sustituciones =2f o =2FT, podemos expresar la transformada de

61

Page 3: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Fourier variante en el tiempo como función de la frecuencia cíclica normalizada (f) o la frecuencia analógica cíclica convencional (F – en Hertz) respectivamente.

El hecho de que, para un valor dado de n, Xn(ej) tiene las mismas propiedades que una transformada de Fourier normal, nos conduce a probar de manera simple que la secuencia de entrada x(m) puede ser recuperada exactamente a partir de la transformada de Fourier variante en el tiempo. Retomando la observación hecha anteriormente de que Xn(ej) es simplemente la transformada de Fourier normal de w(n-m)x(m), podemos escribir:

…………………………….(5)

Note que la integración en la ecuación (5) puede hacerse sobre cualquier intervalo de longitud 2 (por ejemplo, de 0 a 2) pues todo el integrando es periódico con periodo 2. Ahora si w(0)0, la ecuación (5) puede ser evaluada para m=n, obteniendo por tanto:

……………………………………(6)

Por lo tanto, con el requerimiento de que w(0) sea diferente de cero, la secuencia x(n) puede ser recuperada exactamente a partir de Xn(ej), si se conoce Xn(ej) para todos los valores de en un periodo completo. Este es un resultado teórico importante, que, como veremos, toma importancia práctica con la imposición de un requerimiento simple adicional para la ventana.

Una propiedad importante de Xn(ej) se relaciona con la autocorrelación en tiempo corto como se definió en la sección 2.4. Dado que Xn(ej) es la transformada de Fourier normal de w(n-m)x(m) para cada valor de n, entonces es fácilmente observable que:

……………….(7)

es la transformada de Fourier de:

………………..(8)

Las ecuaciones (7) y (8) nos sirven para relacionar la representación en espectro de tiempo corto con la correlación en tiempo corto.

La transformada de Fourier en tiempo corto, Xn(ej), puede ser expresada en una variedad de formas alternativas. Una forma particularmente simple es en términos de sus partes real e imaginaria, es decir:

…………………………………………...(9)

Para el caso en que x(m) y w(n-m) son reales, entonces an() y bn() satisfacen ciertas relaciones de simetría y periodicidad. Otra representación de Xn(ej) es en términos de su magnitud y fase como:

………….………………………….(10)

Las cantidades |Xn(ej)| y n() pueden ser relacionadas con an() y bn() y viceversa.

Hasta ahora no hemos considerado el papel de la ventana w(n-m), más allá de su función obvia de seleccionar la porción de la secuencia x(m) que será analizada. La forma de la secuencia de la ventana tiene un importante efecto en la naturaleza de la transformada de Fourier dependiente del tiempo, y el presente punto de vista provee una forma conveniente de interpretar el papel de la ventana w(n-m). Si se considera a Xn(ej) como la transformada de Fourier normal de la secuencia w(n-m)x(m), y si asumimos que las transformadas de Fourier normales

…………………………………………..(11)

62

Page 4: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

y

………………………………………..(12)

existen, entonces la transformada de Fourier normal de w(n-m)x(m) (para n fija) es la convolución de las transformadas de w(n-m) y x(m). Como, para n fija, la transformada de Fourier de w(n-m) es W(e-j)e-j, entonces

…………………..(13)

Cambiando por - en la ecuación (14) podemos escribir:

……………………..(14)

Por tanto, observamos que la transformada de Fourier de la secuencia x(m), -<m< es convolucionada con la transformada de Fourier de la ventana desplazada. Este resultado necesita ser calificado reconociendo que hablando estrictamente la transformada normal de Fourier de una señal de voz no existe. Sin embargo, la ecuación (14) puede ser útil si recordamos que el propósito de la ventana es enfatizar un segmento finito de la señal de voz en la vecindad de la muestra n, y para deenfatizar lo restante de la señal. De hecho, las ventanas típicas pueden ser tales que w(n-m)=0 para m fuera de un intervalo finito alrededor de n. Hasta ahora en lo que al resultado final concierne, es completamente razonable asumir que las propiedades de x(m) dentro de la ventana persisten fuera de la ventana. Por ejemplo, si la señal de voz en la ventana corresponde a una vocal u otro sonido sonoro, podemos considerar que la secuencia resultante x(m)w(n-m) proviene de un sonido sonoro periódico sostenido. De igual forma, si la voz dentro de la ventana es sorda, podemos asumir que las mismas propiedades sordas existen fuera de la ventana. Un punto de vista igualmente apropiado es que la señal sea simplemente cero fuera de la ventana. Esto sería apropiado para el análisis de sonidos transitorios como las plosivas.

Por lo tanto, la ecuación (14) es significativa si asumimos que X(e j) es la transformada de Fourier de una señal cuyas propiedades básicas ya sea que continúen fuera de la ventana o sea cero fuera de ella. Entonces la transformada de Fourier dependiente del tiempo puede ser interpretada como una versión suavizada de la transformada de Fourier del segmento de la señal dentro de la ventana.

Con este punto de vista, las propiedades de la transformada de Fourier de la ventana, W(e j), se vuelven importantes. Es claro a partir de la ecuación (14) que para una reproducción fiel de las propiedades de X(ej) en Xn(ej), la función W(ej) debe aparecer como un impulso con respecto a X(e j). En la sección 2.4 hemos discutido las propiedades de las ventanas rectangular y de Hamming. Se mostró como el ancho del lóbulo principal de W(ej) es inversamente proporcional a la longitud de la ventana, mientras que los niveles de los lóbulos laterales son esencialmente independientes de la longitud de la ventana.

Los efectos de usar ventanas para el análisis espectral de la voz se muestran en las figuras 2-5. La parte (a) de cada una de estas figuras muestra la señal a la que se aplicó el ventaneo: x(m)w(n-m) para una ventana de Hamming; la parte (b) muestra la magnitud logarítmica de Xn(ej) (en dB); la parte (c) muestra la señal a la que se aplicó ventaneo usando una ventana rectangular, y la parte (c) muestra el especro de la magnitud logarítmica resultante. La figura 2 muestra los resultados para una ventana de duración 500 muestras (50ms para una frecuencia de muestreo de 10kHz) para una sección de voz sonora. La periodicidad de la señal se observa claramente en la figura 2(a) (señal en el tiempo) así como en la figura 2(b) en la que la frecuencia fundamental y sus armónicas se muestran como picos angostos en frecuencias igualmente espaciadas en la transformada de Fourier de tiempo corto. El espectro de la figura 2(b) también consiste de un primer pico formante fuerte alrededor de 300-400Hz, y un pico ancho alrededor de 2200 Hz que corresponde al 2do y 3er formantes. También se observa un cuarto pico formante alrededor de 3800Hz. Finalmente el espectro muestra una tendencia a caer en las frecuencias altas debido a la naturaleza paso bajas del espectro del pulso glotal.

63

Page 5: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Comparando el espectro de la figura 2(b) (ventana de Hamming) y 2(d) (ventana rectangular) se observa una similaridad en términos de las armónicas del tono, la estructura de las formantes, y la forma espectral. Las diferencias en el espectro también pueden ser observadas, siendo la más notable la forma más afilada de la figura 2(d) debido a la mayor resolución en frecuencia de la ventana rectangular con relación a la de una ventana de Hamming de igual longitud. Otra diferencia en el espectro es que los relativamente grandes lóbulos laterales de la ventana rectangular producen un espectro ruidoso. Este efecto ocurre debido a los lóbulos laterales por las armónicas adyacentes que interactúan en el espacio entre armónicas – algunas veces reforzando otras cancelando – produciendo una variación aleatoria entre armónicas. Este efecto indeseable entre armónicas adyacentes tiende a compensar los beneficios del lóbulo principal angosto de la ventana rectangular. Como resultado, tales ventanas son raramente usadas en el análisis espectral de la voz.

Ventana de Hamming

Ventana Rectangular

64

Page 6: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Figura 2. Análisis espectral para voz sonora usando una ventana de 50ms (a,b) de Hamming; (c,d) rectangular. Las partes (a) y (c) muestran las señales en el tiempo; las partes (b) y (c) muestran los

correspondientes espectros.

La figura 3 muestra un conjunto similar de comparaciones para una sección de 50 muestras (5ms) de voz sonora. Para tales ventanas tan cortas las secuencia en el tiempo x(m)w(n-m) (Figuras 3(a),(c)) no muestran la periodicidad de la señal, y tampoco lo hacen los espectros de las señales. (Figuras 3(b), (d)). En contraste con la figura 2, los espectros de la figura 3 muestran únicamente algunos picos más o menos anchos en 400, 1400 y 2200 Hz, correspondientes a los primeros tres formantes de la sección de voz dentro de la ventana. Comparando los espectros de las figuras 3(b) y 3(d) se observa de nuevo el incremento en la resolución de la frecuencia obtenida con la ventana rectangular.

Ventana de Hamming

Ventana Rectangular

65

Page 7: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Figura 3. Análisis espectral para voz sonora usando una ventana de 5ms (a,b) de Hamming; (c,d) rectangular. Las partes (a) y (c) muestran las señales en el tiempo; las partes (b) y (c) muestran los

correspondientes espectros.

Las figuras 4 y 5 muestran los efectos de las ventanas para una sección de voz sorda (correspondiente a la fricativa /sh/) para un segmento de 500 muestras (Figura 4) y un segmento de 50 muestras (Figura 5). A partir de estas figuras se observa que el espectro muestra una tendencia que varía lentamente con una serie de picos agudos y valles superimpuestos. La apariencia ruidosa del espectro (para ambas ventanas) se debe a la naturaleza aleatoria de la voz sorda. Finalmente el uso de una ventana de Hamming produce un espectro más suave que el que produce una ventana rectangular.

Ventana de Hamming

66

Page 8: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Ventana Rectangular

Figura 4. Análisis espectral para voz sorda usando una ventana de 50ms (a,b) de Hamming; (c,d) rectangular. Las partes (a) y (c) muestran las señales en el tiempo; las partes (b) y (c) muestran los

correspondientes espectros.

67

Page 9: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Figura 5. Análisis espectral para voz sorda usando una ventana de 5ms (a,b) de Hamming; (c,d) rectangular. Las partes (a) y (c) muestran las señales en el tiempo; las partes (b) y (c) muestran los

correspondientes espectros.

Los ejemplos de las figuras 2-5 ilustran claramente la relación básica entre la duración en tiempo de la ventana y las propiedades de la transformada de Fourier de tiempo corto. Esto es, la resolución en frecuencia varía inversamente con la longitud de la ventana. Cuando recordamos que el propósito de la ventana es limitar el intervalo de tiempo a ser analizado para que las propiedades de la señal no cambien de manera apreciable, observamos que se requiere un cierto compromiso. En la figura 2(c), por ejemplo, se puede observar que las frecuencias formantes cambian en un intervalo de 50ms. Se requiere un intervalo de análisis más corto con el fin de desplegar esta variación temporal. Ventanas de 5ms de duración posicionadas en el inicio y final de un intervalo de 50ms conducirían a diferentes transformadas de Fourier en tiempo corto. Por lo tanto, una buena resolución en el tiempo requiere un ventana corta miesntras que una buena resolución en frecuencia requiere una ventana larga.

Hemos visto que la interpretación de la transformada de Fourier dependiente del tiempo como la transformada de Fourier convencional de un segmento de la señal de voz al que se aplicó ventaneo conduce a conceptos útiles de las propiedades de la representación en Fourier dependiente del tiempo y el papel de la ventana.

Generación de espectogramas

La figura 6(a) es un espectograma de banda ancha. Una representación de un espectograma de banda ancha resulta de una ventana que relativamente corta en el tiempo y se caracteriza por una resolución pobre en el dominio de la frecuencia y una buena resolución en el dominio del tiempo. El eje de la frecuencia está etiquetado en términos de la frecuencia de tiempo continuo. Como la frecuencia de muestreo de la señal era de 16,000 muestras/s, se tiene que la frecuencia = corresponde a 8kHz. La ventana específica usada en la figura 6(a) fue una ventana de Hamming de 6.7ms de duración, correspondientes a L=108. El valor de R fue R=16, representando incrementos de tiempo de 1ms. Las barras gruesas y oscuras que se mueven horizontalmente a través del espectograma corresponden a las frecuencias de resonancia del tracto vocal que, como vemos, cambian con el tiempo. La apariencia vertical y estriada del espectograma se debe a la naturaleza cuasiperiódica de las porciones sonoras de la señal, como es evidente al comparar las variaciones en la señal desplegada y el espectograma. Como la longitud de la ventana de análisis es del orden de la longitud de un periodo de la señal, mientras la ventana se desplaza en el tiempo, alternadamente cubre segmentos de alta energía de la señal y entre ellos segmentos de baja energía, produciendo las estriaciones verticales en la gráfica durante intervalos sonoros.

En un análisis de Fourier de banda angosta dependiente del tiempo, se usa una ventana más larga para proveer una mayor resolución en frecuencia con el correspondiente decremento de la resolución en el tiempo. Tal análisis de banda angosta de la voz es ilustrado en la figura 6(b). En este caso la ventana fue de Hamming de 45ms de duración. Esto corresponde a L=720. El valor de R fue R=16.

Esta discusión hace alusión a las muchas razones por las que la transformada de Fourier dependiente del tiempo es tan importante en el análisis y procesamiento de voz. De hecho, este concepto es usado directa e indirectamente como base del análisis acústico –fonético y para varias aplicaciones fundamentales de procesamiento de voz como codificación digital, eliminación de ruido y reverberación, reconocimiento de voz, verificación del locutor, e identificación del locutor.

68

Page 10: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Figura 6. (a) Espectograma de banda ancha. (b) Espectograma de banda angosta.

69

Page 11: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Uso de ventanas en el análisis espectral

En esta sección introducimos los efectos del truncamiento de datos. Para mantener la situación relativamente sencilla, consideremos únicamente un segmento grande de datos, correspondiente a una sinusoide de amplitud unitaria de 10Hz muestreada a 40Hz como se muestra en la figura 7(a).

Figura 7(a) Sinusoide de 10Hz muestreada a 40Hz

Intuitivamente, esperamos que el espectro de la secuencia derivado de esta señal analógica tenga una sola frecuencia. Por supuesto, al evaluar la DFT, aparecen tanto la frecuencia positiva como la negativa, por lo que observamos dos líneas en realidad. En lugar de graficar |X(k)| 2/N, mostraremos únicamente |X(k)| la cual indica las magnitudes relativas de las frecuencias presentes en la señal. Consideremos las situaciones ilustradas en las figuras 7(b) y (c) donde se muestran uno y tres periodos de la sinusoide respectivamente. Las magnitudes resultantes de la DFT para estas longitudes y para una longitud de 20 periodos se muestran en la figura 7(d), (e) y (f). Como era de esperarse, en cada caso, solo vemos líneas aisladas en frecuencias de 10Hz. También notamos, aunque todas las demás magnitudes son cero, el espaciamiento en frecuencia (o resolución) para un segmento de longitud T0=0.1s es de 10Hz, para T0=0.3s es de 3.33Hz, y para T0=2.0s la resolución es 0.5Hz. Finalmente, notamos que las magnitudes de 10Hz son proporcionales al número de periodos incluidos en el segmento. Para un segmento de un periodo, la magnitud es de 2.0, para uno de tres periodos la magnitud es de 6.0, y para el segmento de 20 periodos el valor es de 40.0. En cada uno de estos tres casos, los datos infinitamente largos de la sinusoide fueron truncados de tal forma que un número entero de periodos estuvieran contenidos en los segmentos. Estos truncamientos aparentemente no causan efectos adversos.

Figura 7(b) Sinusoide de 10Hz muestreada a 40Hz. La longitud del segmento es de 1 periodo

70

Page 12: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Figura 7(c) Sinusoide de 10Hz muestreada a 40Hz. La longitud del segmento es de 3 periodos

Figura 7(d) DFT para el segmento de longitud 1 periodo (f=10Hz)

71

Page 13: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Figura 7(e) DFT para el segmento de longitud 3 periodos (f=3.33Hz)

Figura 7(f) DFT para el segmento de longitud 20 periodos (f=0.5Hz)

¿Qué pasa, sin embargo, si tomamos la misma sinusoide de 10Hz, muestreada de nuevo con fS=40Hz y seleccionamos un segmento cuya longitud no sea un múltiplo entero del periodo de la sinusoide?. Las

72

Page 14: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

figuras 8(a) y (b) ilustran el resultado si seleccionamos un segmento de longitud correspondiente a 2.5 y 19.5 ciclos de la sinusoide de 10Hz. Note que el espectro para diez muestras (N=10) no incluye a 10Hz como una de las frecuencias – la resolución en frecuencia es de 4Hz porque T0=0.250. La única línea de frecuencia en 10Hz se encuentra “expandida” y aparecen dos líneas de igual magnitud en 8Hz y 12Hz. Este efecto de expansión se conoce como fuga (leakage) y observamos que no está limitado al rango de 8-12Hz. Existen también significativos valores de la DFT diferentes de cero en 0Hz (DC), 4Hz, 16Hz, y 20Hz, y ninguna de estas frecuencias se encuentran en la señal analógica original. Un efecto similar aparece en la figura 8(b) donde la resolución en frecuencia es 1/T0=1/1.950=0.513Hz y los valores de frecuencia más cercanos a 10Hz se encuentran en 9.74Hz y 10.25Hz. Note que los 10Hz se encuentran a la mitad de estas frecuencias adyacentes en la DFT y en cada una de estas frecuencias las magnitudes de la DFT son de aproximadamente 25. Aquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias, de nuevo como resultado del truncamiento del segmento.

73

Page 15: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

Figura 8(a) 2.5 periodos de la sinusoide de 10Hz muestreada a 40Hz y su DFT

Figura 8(b) 19.5 periodos de la sinusoide de 10Hz muestreada a 40Hz y su DFT

Comparando los espectros de las figuras 8 observamos que en (a) las magnitudes de las componentes de frecuencia no adyacentes a 10Hz son de aproximadamente 30-40% de los valores pico adyacentes a 10Hz mientras que en (b) esto cae hasta aproximadamente 4-7%. ¿Por qué la diferencia?. Un análisis preciso se encuentra más allá del estudio de nuestra discusión, pero se puede obtener una idea intuitiva de lo que está pasando si observamos de nuevo las representaciones en el dominio del tiempo de las dos sinusoides truncadas en las figuras 8. En una base heurística sugerimos que el medio ciclo “faltante” en la figura 8(a) representa un mayor porcentaje de la longitud total del segmento que el medio ciclo “faltante” del segmento de 19.5 ciclos de la figura 8(b). Otra forma de observar esto es comparando las

74

Page 16: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

extensiones periódicas de las dos sinusoides truncadas con la señal de 10Hz original mostrada en la figura 7(a). De nuevo, en una base intuitiva, argumentamos que la extensión periódica mostrada en la figura 9(b) se asemeja más a la sinusoide original mostrada en la figura 7(a) que la extensión periódica mostrada en la figura 9(a).

Figura 9(a) Extensión periódica de la sinusoide de 10Hz. Longitud de segmento: 2.5 periodos.

Figura 9(b) Extensión periódica de la sinusoide de 10Hz. Longitud de segmento: 19.5 periodos.

Una fuente primaria de las fugas observadas en las DFT de las figuras 8(a) y (b) es la discontinuidad introducida en las extensiones periódicas de las figuras 9 al truncar la secuencia. Como se discutió previamente, el truncamiento puede ser visto como la multiplicación de una sinusoidal infinitamente larga por una ventana rectangular. Cuando la longitud de la ventana es igual a un número entero de periodos

75

Page 17: CAPÍTULO 2profesores.fi-b.unam.mx/procvoz/Capitulo2/2_5.doc · Web viewAquí también observamos significativas componentes de frecuencia diferentes de cero en todas las frecuencias,

de la sinusoide, no se introducen discontinuidades, y no resultan fugas. Muchas de las secuencias de interés que consideramos son más complejas que una secuencia sinusoidal, sin embargo, puede ser difícil, o imposible, evitar la introducción de discontinuidades causadas por la ventana rectangular. Por tanto, es de interés investigar otras ventanas que no creen discontinuidades muy grandes.

Consideramos entonces las ventanas de Hamming y Hanning como alternativas a la ventana rectangular. La idea fundamental en la que se basan estas ventanas es en recortar gradualmente los datos cerca de los extremos del segmento, evitando así el trocamiento abrupto de la ventana rectangular.

76