Post on 14-Sep-2015
description
02-06-2015
1
Anlisis Acstico de la VozClaudio E. Pedemonte Solanich
Docente U. MAYOR
TEMUCO
Tipologas de Seales. Tono puro o peridico simple
Corresponde a una variacin de presin sinusoidal.
Amplitud.
Frecuencia.
Periodo.
02-06-2015
2
Tipologas de Seales
Tono peridico complejo
Est compuesto por una frecuencia fundamental y un grupo determinado de armnicos
Sonidos producidos por instrumentos musicales de afinacin definida.
Sonidos producidos por el sistema fonatorio con vibracin de pliegues voclicos.
Amplitud, Frecuencia, Periodo.
Tipologas de Seales. Tono peridico complejo
TEOREMA DE FOURIERToda seal peridica compleja se
puede descomponer en una sumatoria de tonos simples
La frecuencia fundamental de un tono peridico complejo
corresponde a la menor de sus componentes.
02-06-2015
3
Tipologas de Seales Sonidos aleatorios o ruido
Compuestos por muchas frecuencias cuyos valores son impredecibles
Ruido blanco
Ruido generado por una cascada de agua
Ruido rosa
Amplitud
Representaciones grficas del sonidoAnlisis Acstico de la Voz
02-06-2015
4
Oscilograma o forma de onda (waveform) Es una representacin grfica en que se muestra la variacin de energa
eje vertical- de una onda con respecto al tiempo eje horizontal-.
Anlisis de amplitud, periodo, duracin.
Oscilograma Tono Puro 440 Hz, Software PRAAT
Oscilograma o forma de onda (waveform)
Oscilograma Voz Normal, fonema /a/, software PRAAT
02-06-2015
5
Espectro FFT o Spectrum
Algoritmo informtico que nos permite obtener el espectro de frecuencia de una seal tanto peridica compleja como no peridica en tiempo real.
Representacin grfica en la que se muestra la relacin de energa (amplitud) de las diferentes componentes o armnicos de un sonido, o concentraciones de energa en ciertos rangos de frecuencias.
Representacin de la frecuencia -eje horizontal- y la amplitud -eje vertical- de los armnicos en un instante o intervalo de tiempo de la seal sonora del habla.
Anlisis de la intensidad y de la estructura formntica (timbre).
No es preciso para determinar el valor de los formantes.
Espectro FFT o Spectrum(Fast Fourier Transformation ) FILTRO DE BANDA ANCHA
Anlisis espectral realizando con una ventana temporal pequea.
Menor cantidad de lneas espectrales para la representacin del espectro.
Se visualizan zonas de concentracin de energa.
Mala resolucin para los armnicos y componentes del sonido
FILTRO DE BANDA ESTRECHA Anlisis espectral realizado con una ventana temporal grande.
Mayor cantidad de lneas espectrales para la representacin del espectro
Buena resolucin para los armnicos y componentes del sonido.
02-06-2015
6
FFT
Forma de onda
Espectro FFT o SpectrumFFT Sonido Armnico
Onda Peridica
Espectro
Espectro Discreto
FFT
Forma de onda
Espectro FFT o SpectrumFFT Sonido Armnico
Onda no Peridica
Espectro
Espectro Continuo
02-06-2015
7
Espectro FFT o Spectrum
Spectrum Voz Normal, fonema /a/, Filtro de banda anchasoftware PRAAT
Espectro FFT o Spectrum
Spectrum Voz Normal, fonema /a/, Filtro de banda estrechasoftware PRAAT
02-06-2015
8
Espectrograma
Es una representacin que nos permite observar la concentracin de energa en rango o componentes particulares de frecuencia y la evolucin temporal de esta.
Representacin de las variaciones intensidad escala de colores o grises- de las frecuencias eje vertical- con respecto al tiempo eje horizontal-.
Anlisis de la duracin y estructura formntica, amplitud.
Espectrogramas de Banda Ancha y Banda estrecha
La resolucin de un espectro depende del largo de la ventana FFT.
Con una buena resolucin se pueden observar y medir la F0 y los armnicos.
Con una resolucin menor, se pueden apreciar mejor los formantes y los pulsos glticos.
A los espectrogramas de buena resolucin se les llama de Banda Estrecha. Los de menor resolucin se llaman de Banda Ancha.
En Praat, una buena resolucin o espectro de banda estrecha se obtiene con Windows length = 0,1 segundo.
Un espectro de banda ancha se obtiene con Windows length = 0,005 segundos.
Espectrogramas
02-06-2015
9
Espectrograma
Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda anchasoftware PRAAT
Espectrograma
Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda estrechasoftware PRAAT
02-06-2015
10
Espectrograma
Oscilograma y Espectrograma Plipos, fonema /a/, Filtro de banda estrechasoftware PRAAT
Espectrograma
Oscilograma y Espectrograma de secuencia voclica /i, e, a, o, u/Filtro de banda Ancha
software PRAAT
02-06-2015
11
Espectro Promedio a Largo Plazo (LTAS) Long-term Average Spectrum es el espectro promedio de muchos
espectros obtenidos durante un cierto intervalo de tiempo, mientras el paciente habla, lee un texto o canta una cancin.
Es especialmente til para obtener caractersticas tanto de la fuente (cuerdas vocales), como del filtro (tracto vocal).
A travs del LTAS es posible obtener varias variables relacionadas con la distribucin de la energa espectral de la voz, por medio de pendientes espectrales.
Espectro Promedio a Largo Plazo (LTAS)
LTAS Voz Resonante
02-06-2015
12
Espectro Promedio a Largo Plazo (LTAS)
LTAS Voz Opaca
Espectro Promedio a Largo Plazo (LTAS)
LTAS Voz severamente Disfnica
02-06-2015
13
Espectro LPC
La LPC (Lineal Predicting Coding) muestra una envolvente del espectro.
Facilita la identificacin de formantes y su estudio
No permite ver los armnicos
Se puede graficar de dos formas como corte LPC y como historia formntica
Espectro LPC
Frequency (Hz)
0 2.205104
So
und
pre
ssure
lev
el (
dB/
Hz)
20
40
60
Corte LPC de vocal /a/
02-06-2015
14
Espectro LPC
Frequency (Hz)
0 2.205104
So
und
pre
ssure
lev
el (
dB/
Hz)
20
40
60
Espectro FFT y Corte LPC de vocal /a/ juntos
Espectro LPC
Oscilograma, Espectrograma e Historial Formntica deserie voclica /i, e, a, o, u/
02-06-2015
15
Anlisis de ndices acsticosAnlisis Acstico de la Voz
MDVP
El Multi-Dimensional Voice Program (MDVP) es un software que trabaja enconjunto con el Computerized Speech Lab (CSL) ambos de la firma KayPENTAX.
El MDVP permite la adquisicin, anlisis y clculo de ms de 33 parmetros de lavoz a partir de una vocalizacin sostenida de un fonema sonoro
Herramientas de Anlisis
02-06-2015
16
MDVP
Herramientas de Anlisis
PRAAT
Praat es una herramienta para el anlisis fontico del habla desarrollada por Paul Boersma y David Weenink en el Instituto de Ciencias Fonticas de la Universidad de msterdam.
Puede descargarse gratuitamente para varios sistemas operativos desde la pgina del programa, en la que se encuentra tambin la documentacin necesaria para utilizarlo:http://www.praat.org
Herramientas de Anlisis
02-06-2015
17
Jitter
Mide la perturbacin o variacin del periodo de la frecuenciafundamental entre cada ciclo vocal en una emisin sostenida.
Se tolera cierta variabilidad porque es imposible la ausencia devariacin tonal.
PRAAT nos entrega 5 tipos de Jitter, pero generalmente se utilizansolo dos:
Parmetros de Anlisis Medidas de Perturbacin
Jitter (local) Es el promedio absoluto de las diferencias entre periodos consecutivos dividido por
el periodo promedio (MDVP Jitt)
1,04 % es el umbral patolgico.
Jitter (local, absolute) Es el promedio absoluto de las diferencias entre periodos consecutivos (MDVP
Jita)
83.200 s es el umbral para patologas.
Para entender bien el concepto utilizaremos un tono puro.
Parmetros de AnlisisMedidas de Perturbacin
02-06-2015
18
T=0.01151
T=0.01153
T=0.01154
Parmetros de AnlisisMedidas de Perturbacin
Shimmer
Mide la perturbacin o variacin de la amplitud entre ciclo y ciclo de fonacin.
Se presenta como porcentaje de variacin de la amplitud entre ciclos o perodosde frecuencia.
Shimmer (local)
Es el promedio de las diferencias absolutas entre la amplitud de periodos consecutivos, dividido por la amplitud promedio. (MDVP Shim),
3.810% umbral patolgico.
Shimmer (local, dB)
Es el logaritmo de base 10 del promedio absoluto de las diferencias entre las amplitudes de periodos consecutivos multiplicado por 20. (MDVP ShdB),
0.350 dB umbral patolgico
Parmetros de AnlisisMedidas de Perturbacin
02-06-2015
19
Parmetros de AnlisisMedidas de Perturbacin
HNR (ndice armnico-ruido)
Aunque un sonido se produzca por vibracin de cuerdas vocales, siempre presenta un componente de ruido en el sonido.
En una fonacin adecuada, el ruido queda enmascarado.
Razn entre la energa del ruido propio de la seal entre 1500-4500 Hz y las componentes armnicas ubicadas entre 70-4500Hz
La amplitud de los armnicos, mltiplos de la frecuenciafundamental, depende de un correcto cierre de las cuerdasvocales y supone un sonido peridico.
Parmetros de Anlisis
02-06-2015
20
HNR (ndice armnico-ruido)
Ruido es toda seal que contamina la emisin vocal y que essolo aire o energa no armnica que se puede producir porflujos turbulentos de aire producto del cierre parcial de lascuerdas vocales al vibrar.
Entonces, el ndice armnico ruido es la relacin entre laenerga armnica y la energa del ruido.
Valores bajos de este parmetro se pueden asociar a vibraciones irregulares de las cuerdas, presencia de escape de aire, presencia de sub-armnicos y/o quiebres en la voz.
Un valor indicador de fonacin adecuada es 20 dB o ms.
Ante la presencia de hiatus, el valor HNR disminuye a valores menores a 20 dB.
Parmetros de Anlisis
DIENTE DE SIERRA + RUDIO BLANCOHNR=30 dB
DIENTE DE SIERRA + RUDIO BLANCOHNR=20 dB
DIENTE DE SIERRA + RUDIO BLANCOHNR=10 dB
HNR (ndice armnico-ruido)
02-06-2015
21
Jitter
Shimmer
NHR
Parmetros de Anlisis
Tiempo de Ataque
Todo sonido presenta un ataque, decaimiento, sostenimiento y decaimiento. Esto se conoce como envolvente del sonido.
El ataque es el inicio del sonido vocal. Es representado por la pendiente inicial de intensidad del sonido.
Se mide a partir del fonema /a/ como inicio de una palabra.
Se propone medir el tiempo de ataque a partir de las palabras ala, rbol, amigo. Con esto se caracterizan distintas coarticulaciones.
Entonces, se obtiene el tiempo de ataque promedio.
Estabilidad de la F0
02-06-2015
22
Tiempo de Ataque
Estabilidad de la F0
Ataque vocal
Tiempo de Ataque
Estabilidad de la F0
Ataque vocal
02-06-2015
23
El national center for voice and speech (Titze 1995) sugiere una clasificacin de las voces segn el grado de perturbacin. Lo que permite determinar el tipo de estudio o anlisis idneo para cada caso.
TIPO 1: voz con vibraciones casi peridicas. Perturbacin menor al 5%. Puede ser analizada por medio de los parmetros de perturbacin a corto plazo (Jitter,Shimmer,HNR).
TIPO 2: voces con subarmnicos y modulaciones. Perturbacin mayor al 5%. No puede ser analizada de forma fiable con los parmetros anteriores. Debe estudiarse con un mtodo perceptual, un mtodo visual como el espectrograma y caracterizacin espectral.
TIPO 3: voces caticas o random. Solo pueden ser estudiadas por mtodos perceptuales,
Clasificacin de los tipos de seales de voz.
02-06-2015
24
LTAS (Long Time Average Spectrum)
Espectro Promedio de Largo Plazo.
Se obtienen bandas de frecuencia promedio con anchos de banda determinados por el usuario.
Se obtiene en un contexto de Habla o Canto segn los aspectos que se deseen caracterizar.
En un contexto hablado, se sugiere utilizar un texto fonticamente balanceado.
Considera aportes de la emisin larngea y de las resonancias del tracto.
Aporta a la discriminacin y caracterizacin de distintos tipos de emisin vocal o mordente.
Aporta a la discriminacin y caracterizacin del timbre o color de la voz.
Caracterizacin del espectro vocal
LTAS (Long Time Average Spectrum)
Caracterizacin del espectro vocal
LTAS graficado enbandas defrecuencia (bin)con ancho debanda igual a 178Hz
02-06-2015
25
LTAS (Long Time Average Spectrum)
Caracterizacin del espectro vocal
LTAS graficado conuna curva deinterpolacin entrelos valores de cadabin.
LTAS (Long Time Average Spectrum)
Caracterizacin del espectro vocal
LTAS graficado conuna curva deinterpolacin ybins
02-06-2015
26
Inclinacin espectral (Spectral Tilt)
Lnea que representa la tendencia o inclinacin del espectro LTAS.
En trminos comparativos, la inclinacin espectral nos sirve para comparar distintos timbres de voz.
Caracterizacin del espectro vocal
Inclinacin espectral (Spectral Tilt)
Caracterizacin del espectro vocal
02-06-2015
27
R (alfa ratio) Es la relacin entre el nivel de energa promedio que existe entre la
banda de 1000 Hz 5000 Hz y 50 Hz y 1000 Hz.
Para una anlisis pre y post es necesario controlar la intensidad de la emisin vocal, puesto que diferentes intensidades afectan la anergia de altas frecuencias.
En PRAAT se puede obtener la energa por banda de frecuencia a partir de un objeto LTAS.
Un aumento de intensidad no produce un aumento lineal de frecuencia
Caracterizacin del espectro vocal
H1 H2
Es la diferencia entre la amplitud del primer armnico (F0) y el segundo armnico.
Los valores de amplitud se pueden medir directamente de un espectro simple.
Tambin pueden medirse a partir de un LTAS considerando la amplitud del bin 1 y del bin 2.
En este ltimo caso, el ancho de banda de cada bin, debe considerar el rango de variacin de ambos armnicos.
Generalmente, F0 o H1 presenta mayor amplitud.
Esto cambia si la voz es estridente.
Caracterizacin del espectro vocal
02-06-2015
28
L1-L0
Es la relacin de energa entre las bandas de 300 Hz a 800 Hz y de 50 Hz a 300 Hz.
Es una medida del grado de contacto gltico. (Sundberg)
Relacin entre los armnicos afectados por el primer formante y la energa de F0.
Pendiente negativa cuando la voz es soplada.
Pendiente positiva cuando la voz es resonante o apretada.
Hay que mantener controlada la intensidad.
Caracterizacin del espectro vocal
1K-5K 5K-8K
Es la relacin de energa entre las banda de 1 kHz a 5kHz y la de 5 kHz a 8 kHz.
Medida de ruido gltico.
Pendientes negativas.
En voces sopladas menor pendiente (mayor ruido gltico)
En voces apretadas mayor pendiente. (menor ruido gltico)
Caracterizacin del espectro vocal
02-06-2015
29
Formantes
Son las resonancias del tracto vocal.
Se denominan F1, F2, , FN.
En su estudio, se busca realizar una correlacin entre aspectos articulatorios (normalidad o trastorno) y las resonancias del tracto vocal.
Por los general, para un anlisis fontico basta con evaluar F1 y F2.
Para analizar el mordiente y el color de la voz, se estudia F3, F4 y F5.
Caracterizacin de las resonancias
Propiedades de los Formantes
Las formantes varan las amplitudes del espectro del sonido madre, pero no
desplazan las frecuencias propias del mismo.
Se analizan normalmente entre 3 y 5 formantes.
El formante F1 generalmente controla la amplitud del sonido y depende de el
grado de apertura del tracto vocal. A mayor apertura, mayor valor frecuencia de
F1.
El formante F2 depende de la posicin del punto articulatorio. Mientras ms
anterior, mayor frecuencia de F2.
El formante F3 depende de las dimensiones de la cavidad que se forme por
delante del pex lingual; cuanto ms pequea, mayor frecuencia de F3.
F4 y F5 varan con la anchura y longitud del tracto vocal; cuanto ms corto y
estrecho el tracto, mayor frecuencia de F4 y F5.
Todos los formantes tienen un ancho de banda definido donde se aprecia el
fenmeno de resonancia
Caracterizacin de las resonancias