CLASIFICADOR DE ESCENAS ACÚSTICAS BASADO EN REDES...

CLASIFICADOR DE ESCENAS ACÚSTICAS BASADO ENREDES NEURONALES ARTIFICIALES Y ANÁLISIS DE

COMPONENTES PRINCIPALES

Brayan Mauricio León MartínezCódigo: 20132005006

Juan Diego Castillo CruzCódigo: 20132005020

Universidad Distrital Francisco José de CaldasFacultad de Ingeniería

Proyecto Curricular Ingeniería ElectrónicaBogotá, Colombia

2019

CLASIFICADOR DE ESCENAS ACÚSTICAS BASADO ENREDES NEURONALES ARTIFICIALES Y ANÁLISIS DE

COMPONENTES PRINCIPALES

Brayan Mauricio León MartínezCódigo: 20132005006

Juan Diego Castillo CruzCódigo: 20132005020

Trabajo de grado para optar por el titulo de:Ingeniero Electrónico

Director:ANDRES EDUARDO GAONA BARRERA

Profesor Asistente – Facultad de Ingeniería

Universidad Distrital Francisco José de CaldasFacultad de Ingeniería

Proyecto Curricular Ingeniería ElectrónicaBogotá, Colombia

2019

Índice general

1 Generalidades 91.1. Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.2. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Marco Teórico 132.1. Extracción de Características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1. Transformada de Fourier en Tiempo Discreto . . . . . . . . . . . . . . . . . . . 13

2.1.2. MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.3. Banco de Filtros de Tonos Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2. Redes Neuronales Artificiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.1. Modelo de Unidad de Procesamiento Elemental . . . . . . . . . . . . . . . . . . 20

2.2.2. Redes Tipo Feed-Forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.3. Redes Neuronales Convolucionales . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3. Reducción de Características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.3.1. Análisis de Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . 28

2.4. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Entrenamiento con características no modificadas 333.1. Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2. Equipo para Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3. Extracción de Características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.4. Experimento 1: Variación de Topologías en MLP y CNN . . . . . . . . . . . . . . . . . 36

3.4.1. Experimento 1A: Entrenamiento Con Características de Entrada Individuales . . 38

3.4.2. Experimento 1B: Entrenamiento Con Características de Entrada Combinadas . . 46

3.5. Análisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4 Entrenamiento con características reducidas 55

5

4.1. Experimento 2: Reducción de características utilizando PCA . . . . . . . . . . . . . . . 55

4.1.1. Experimento 2A: Primer Entrenamiento con Características de Entrada Reducidas 57

4.1.2. Experimento 2B: Segundo Entrenamiento con Características de Entrada Reducidas 58

4.2. Análisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Conclusiones y Trabajo Futuro 635.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.2. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Índice de figuras 65

Índice de tablas 67

Bibliografía 69

6

Resumen

La clasificación acústica de escenas ha venido cobrando importancia en los últimos años, poruna parte, son interesantes las aplicaciones que puede tener y adicionalmente, representa un retoimplementar una herramienta computacional que permita detectar adecuadamente sonidos complejosy diversos, como los presentados en entornos reales. En este trabajo se implementan redes neuronalesconvolucionales y feed-forward, entrenadas con características individuales como Coeficientes Ceps-trales de Frecuencia en escala Mel (MFCC), tonos gamma y Transformada Discreta de Fourier (DFT),extraídas a los sonidos en ventanas de 100 ms con solapamiento de 50 %, para luego formar segmentosde 1 y 10 segundos. De igual forma las redes neuronales se entrenan con las combinaciones decaracterísticas (DFT-Gamma, DFT-MFCC, Gamma-MFCC, DFT-Gamma-MFCC). Posteriormente serealiza reducción del número de coeficientes de entrada implementando PCA, verificando el impactode esta reducción en el rendimiento y el tiempo de entrenamiento de diferentes arquitecturas de redneuronal. En ambos casos se utiliza validación cruzada con un 80 % de los datos para entrenamiento y20 % para validación, para el desarrollo se utiliza la base de datos DCASE2018.

7

Capítulo 1

Generalidades

1.1. Planteamiento del Problema

La clasificación de escenas acústicas (ASC, del inglés Audio Scene Classification) consiste en identifi-

car ambientes por los sonidos que los caracterizan [1]. La idea básica es extraer información de las señales

de audio y posteriormente ingresarla a un sistema capaz de asignar una etiqueta adecuada al entorno de

grabación. Dentro de las tareas que se desarrollan alrededor de esta temática se encuentra la clasificación

de entornos urbanos, principalmente ambientes públicos altamente concurridos.

Pese a que se está familiarizado con las escenas generalmente incluidas en la tarea de ASC, se puede

considerar que la capacidad de las personas para reconocer ambientes urbanos por medio de señales

acústicas es baja. En el estudio realizado por Mesaros y sus colegas en [2] se mostró que personas con

un entrenamiento mínimo alcanzaban un 54,4 % de exactitud en la clasificación. Lo cual es inferior

comparado con las herramientas computacionales, que obtienen en promedio 80 %. Adicionalmente, la

mayoría de los participantes tuvieron que repetir los audios para estar seguros de la respuesta brindada.

La acústica de ambientes urbanos es poco estructurada, ya que en estos entornos coexisten gran cantidad

de sonidos tales como voces, objetos mecánicos, etc. que al combinarse generan señales complejas con

componentes propios de cada entorno, que además están contaminadas por ruido [3]. Adicionalmente los

dispositivos de grabación tienen diferentes respuestas a la frecuencia que sumado a la disparidad de los

sonidos que se producen en cada ciudad, hace que el generalizar un modelo matemático sea altamente

complejo [4]. Por ello se han buscado alternativas que evitan modelar estos entornos, por ejemplo: análisis

estadístico y redes neuronales.

En cualquier solución planteada se extrae información en intervalos cortos de tiempo a señales acús-

ticas. Esta puede ser tasa de cruces por cero, energía de la señal, espectrogramas, MFCC (del inglés,

Mel Frequency Cepstral Coefficients), tonos gamma, etc [1], [5]. La agrupación de estos intervalos da

como resultado un vector de características. Estos son utilizados para entrenar y validar los modelos

implementados, tanto con redes neuronales como con análisis estadístico [1].

Desde el punto de vista estadístico se han explorado varias alternativas para dar solución al problema

de ASC. Como la implementación de modelos ocultos de Markov (HMM, del inglés Hidden Markov

Models)[6], [7], [8], modelos de mezcla gaussiana (GMM, del inglés Gaussian Mixture Models)[7], [9] e

incluso estadística descriptiva[10].

Para los modelos estadísticos, se asume que los vectores de características son generados de una dis-

tribución de probabilidades, esto implica que las escenas representadas contienen información similar

9

entre ellas [11], sin tener en cuenta la variabilidad de los sonidos debidos a las diferentes locaciones de

grabación. Durante el entrenamiento de estos modelos, los parámetros de la distribución son optimizados

de acuerdo con información estadística de los datos. Para la validación se realiza el mismo procedimiento

de extracción de información y la clasificación se realiza de acuerdo con los criterios de decisión estableci-

dos. En estos modelos matemáticos se busca resumir las propiedades de las escenas de audio ambiente en

vectores de características generados de la extracción de información a la señal de audio [1]. Sin embargo,

la exactitud de este tipo de métodos está entre 58 % y 72 %, lo que resulta ser inferior al rendimiento

obtenido con modelos de redes neuronales artificiales [12].

En cuanto a las redes neuronales se han propuesto como solución incluso desde el primer trabajo rela-

cionado con ASC, cuando Sawhney en 1997 implementó redes neuronales recurrentes para clasificar

cinco escenas acústicas como voces, personas, metro, tráfico y otros [13]. Desde entonces las soluciones

basadas en estos modelos se han vuelto cada vez más comunes y complejas. A su vez, el problema de

clasificación de entornos urbanos ha tendido a ser cada vez más realista. Por lo cual las bases de datos

incluyen una mayor cantidad de sonidos, que provienen de diferentes ciudades y locaciones, aumentando

la variabilidad de la información y por ende haciendo más compleja la tarea de clasificación [14].

Para la tarea de ASC las redes neuronales Feed-Forward se han mostrado en inferioridad al compararlas

con las redes convolucionales. Por ejemplo, en [15] el rendimiento es aproximadamente 20 % inferior

al obtenido en [16], entrenando con la misma base de datos. De esta manera se explica fácilmente el

creciente número de implementaciones de redes neuronales convolucionales, que se muestran como una

alternativa para implementaciones cada vez más complejas y realistas [16], [17],[18].

En el proceso de buscar mejores resultados, los investigadores han optado por implementar topologías con

grandes cantidades de capas, filtros y neuronas como en [16], [19], [20]. Adicionalmente, es común la

extracción de un gran número de características a los audios, que puede conllevar a la redundancia de la

información [21]. El conjunto de las características con la topología implementada hace de los modelos

cada vez más complejos. Por lo cual, en cada iteración de los algoritmos se tienen que ajustar un gran

número de parámetros, lo que representa tiempos de entrenamiento prolongados y un hardware costoso.

Entonces, ¿Cómo sería un método para reducir la complejidad de redes neuronales artificiales para la

tarea de ASC?

1.2. Justificación

Los sistemas de cómputo en la actualidad alcanzan velocidades de procesamiento en escalas de

Giga Hertz, estos son capaces de realizar una gran cantidad de operaciones por segundo, favoreciendo

la aplicación de técnicas de inteligencia computacional. Debido al alto procesamiento disponible, los

investigadores han optado por extraer cada vez más datos de las señales para resolver problemas de todo

tipo, tales como: clasificadores de imágenes, clasificación de sonido, detección de objetos, reconocimiento

de voz, reconocimiento de palabras, etc. [22].

Dentro de las áreas de la inteligencia computacional el problema de clasificación de sonido ambiente

ha demostrado una relevancia importante, cobrando gran interés en las últimas décadas entre los in-

vestigadores, debido al potencial que estos desarrollos tendrán a futuro [1]. En la actualidad se pueden

vislumbrar aplicaciones relacionadas en su mayoría con la contextualización de diferentes dispositivos,

incluso algunas en tiempo real. Como:

10

Sistemas de navegación de robots móviles, ya que se evitaría depender exclusivamente de las

imágenes capturadas por las cámaras y permitiría persuadir al robot a cerca de los posibles obstáculos

que podría encontrar en el entorno [9].

Adaptación del volumen de un teléfono celular inteligente que se configure adecuadamente de

acuerdo con el entorno que rodea el dispositivo [8], [23].

Sistemas de vigilancia, ya que permite conocer un ambiente de grabación desconocido, logrando

que en investigaciones se obtenga información adicional y de esa manera lograr avances más ágiles

[24].

Pensar en aplicar soluciones de ASC en entornos reales conlleva a problemas relacionados con la natura-

leza de los ambientes analizados, ya que en estos se presentan sonidos con una alta variabilidad en su

respuesta y altos niveles de ruido [25]. Por lo cual, es necesario realizar implementaciones de modelos

con una adecuada capacidad de generalización, que permitan reconocer en la mayoría de los casos el

entorno presentado. Hoy en día es posible pensar en entrenar redes neuronales con topologías complejas,

ya que estos modelos se han mostrado como la mejor alternativa para realizar la tarea de ASC [25]. Esto

sustentado en la alta capacidad de procesamiento disponible en máquinas con hardware robusto, lo cual

limita el campo de aplicación de estas soluciones.

En aplicaciones en tiempo real es necesario que los tiempos de procesamiento sean cortos y la exactitud

alta. Como se mencionó anteriormente, existen implementaciones de redes neuronales que alcanzan

errores de clasificación bajos, pero con la dificultad de que sus topologías constan de millones de conexio-

nes y adicionalmente se extrae un numero de características elevado a cada sonido [19]. Por lo cual en

dispositivos con capacidad de cálculo limitada los tiempos de respuesta se hacen elevados.

Una alternativa para disminuir los tiempos de procesamiento es comprimir la información de entrada a la

red neuronal. Haciendo uso de técnicas de Análisis de Componentes Principales (PCA, del inglés Principal

Component Analysis) es posible reducir la dimensionalidad de los datos, eliminando la redundancia entre

coeficientes, que finalmente no aportan a la solución del problema [21].

Teniendo en cuenta las múltiples aplicaciones de ASC, que las redes neuronales artificiales son una de las

mejores alternativas para afrontar este problema y que adicionalmente es posible reducir la dimensiona-

lidad de las entradas a la red. Es adecuado analizar la exactitud en la clasificación de redes neuronales

con topologías reducidas y determinar cuál es el impacto en el rendimiento al realizar eliminación de

características de entrada a la red.

También es importante que se generen avances en la tarea de ASC desde la universidad Distrital Francisco

José de Caldas bajo el liderazgo del grupo de investigación LAMIC. Lo cual supone una oportunidad de

integrar el área de análisis de señales con las redes neuronales. Recalcando en la comunidad la importancia

de la implementación de herramientas computacionales para el desarrollo de diferentes tareas.

11

1.3. Objetivos

1.3.1. Objetivo General

Desarrollar un esquema de reducción de complejidad de redes neuronales artificiales para la tarea de

clasificación de escenas acústicas urbanas.

1.3.2. Objetivos Específicos

Realizar el procesamiento de señales de audio utilizando técnicas de extracción de características

como DFT, MFCC y tonos Gamma.

Implementar clasificadores de ambientes urbanos con redes neuronales artificiales feed-forward y

convolucionales.

Identificar las entradas más relevantes utilizando técnicas de reducción de características.

Comparar el rendimiento de los mejores modelos de redes neuronales con características de entrada

completas y reducidas.

1.4. Alcances y Limitaciones

Se explorarán dos tipos de red neuronal artificial, como son las redes feed-forward y las convo-

lucionales. Para evaluar el rendimiento de estas se utilizará el error de generalización realizando

validación cruzada con una división de datos de 80 % para entrenamiento y 20 % para validación.

Para el entrenamiento y validación de los modelos implementados en el proyecto no se construirá

una base de datos nueva, por lo tanto, se utilizará únicamente la base de datos pública TUT Urban

Aucoustic Scenes 2018. Sin embargo, los modelos obtenidos podrían ser extrapolados a otras bases

de datos para evaluar la capacidad de generalización de estos.

Es pertinente mencionar que la clasificación se ejecutará con sonidos previamente grabados y no se

pretende implementar un clasificador de escenas acústicas urbanas en tiempo real.

El proyecto en su totalidad será programado en el software MATLAB y no estará codificado en otros

lenguajes de programación, tampoco se implementará en dispositivos diferentes al computador.

Para el desarrollo del proyecto se explorará el análisis de componentes principales, con el fin de

reducir la complejidad del entrenamiento de algunos modelos de red neuronal artificial.

12

Capítulo 2

Marco Teórico

2.1. Extracción de Características

2.1.1. Transformada de Fourier en Tiempo Discreto

Para el análisis de señales digitales (discretizadas en tiempo y amplitud) se usa principalmente la

transformada de Fourier en tiempo discreto, debido a la información que puede ser obtenida. De [26] se

sabe que una señal muestreada periódica con periodo N puede ser representada mediante el análisis de

Fourier como:

x [n] =∑

k=<N>

akejk 2π

Nn (2.1)

La anterior expresión es llamada ecuación de síntesis. Donde:

N representa el periodo de la señal.

k representa el conjunto de N señales en donde se repiten estas señales.

n representa la muestra.

ak representa los coeficientes de la señal, estos pueden ser calculados mediante la ecuación de análisis

de la siguiente manera:

ak =1

N

∑n=<N>

x[n]e−jk2πNn (2.2)

Debido a que las señales que se producen en la naturaleza no son periódicas surge el análisis de

Fourier de tiempo discreto para señales no periódicas. La ecuación de síntesis se calcula como:

x [n] =1

2π

∫2π

X(ejw)ejwndw (2.3)

Donde:

w es 2π/N cuando N tiende a infinito y considerando que todas las muestras fuera del intervalo de

x[n] valen cero.

Mientras que la ecuación de análisis puede considerarse como una combinación de exponenciales

complejas infinitesimalmente cercanas, se calcula como:

X(ejw) =∞∑

n=−∞x[n]e−jwn (2.4)

13

Figura 2.1: Transformada de Fourier Discreta (DFT) de una señal no periódica finita. Adaptado de [27].

El único problema radica en el hecho de que el anterior resultado tiene una respuesta en el dominio de

la frecuencia continuo, sin embargo, se desean resultados en el dominio de la frecuencia discretos para

señales no periódicas; de [27] se toma el análisis que usa las ecuaciones 2.1 y 2.2, considerando la no

periodicidad de las señales que permiten un tratamiento numérico.

Al comparar las ecuaciones de análisis 2.2 y 2.4 se puede observar que son semejantes y se relacionan

con ak = 1/N ·X(ejw) al reemplazar w por kw0. Por lo tanto, la evaluación de una señal no periódica

producirá muestras en el dominio de la frecuencia discretas. Estas muestras serán la transformada de

Fourier para señales periódicas evaluadas cada 2π/N , con lo cual x[n] será una señal periódica extendida

en el tiempo y reducida en un factor de 1/N .

En la figura 2.1 se puede observar una señal aperiódica con M muestras en la parte superior izquierda,

donde el objetivo es lograr una transformada como la que se ve en la parte inferior derecha, para lograrlo

se pueden tomar dos análisis diferentes. El primero será el considerar que la señal muestreada es periódica

con periodo 2π para obtener su espectro discreto muestreado con una frecuencia Ω0 tal como se ve

en la imagen superior derecha. El segundo es transformar la señal a un espectro continuo para luego

muestrearlo con una frecuencia de kΩ0 como se ve en la parte inferior izquierda, que bajo el anterior

análisis matemático puede hacerse directamente.

Transformada Rápida de Fourier

En señales con un gran número de muestras el cálculo matemático de la transformada de Fourier en

tiempo discreto crecería extraordinariamente; siendo necesario N2 multiplicaciones y N2 −N sumas.

Conforme N aumenta también lo hará la cantidad de operaciones necesarias para desarrollar la transfor-

mada. Bajo este problema surge el desarrollo de la Transformada Rápida de Fourier (FFT, del inglés Fast

Fourier Transform). A continuación, se desarrolla la FFT adaptado de [27], en la que la longitud N es par

y se expone la idea básica detrás de la FFT.

Al separar las señales en sus componentes par e impar, se obtiene:

14

Figura 2.2: Diagrama mariposa de la DFT inversa usando FFT. Adaptado de [27].

xe[n] = x[2n] 0 ≤ n ≤ N ′ − 1

xo[n] = x[2n+ 1] 0 ≤ n ≤ N ′ − 1(2.5)

Donde N′

= N/2.

Teniendo en cuenta la ecuación 2.2 y adaptando el proceso desarrollado en [27] se separan las señales

bajo las anteriores ecuaciones, considerando que las funciones pares serán 2m mientras las impares serán

2m+ 1.

X[k] =1

N

N ′−1∑m=0

x [2m] e−j2mwon+N

′−1∑m=0

x [2m+ 1] e−j(2m+1)won

(2.6)

Al considerar que la ecuación anterior corresponde a las transformadas para los valores pares e

impares, se puede expresar X[k] como:

X [k] = Xe [k] + e−jwokXo [k] 0 ≤ k ≤ N − 1 (2.7)

Donde X[k] es una combinación ponderada de Xe y Xo. Al considerar la periodicidad es válido

afirmar que Xe [k] = Xe

[k +N

′]

;Xo [k] = Xo

[k +N

′], y e−jwo(k+N

′) = −e−jwo(k)

Por lo tanto, los primeros N′

valores de X[k] serán:

X [k] = Xe [k] + e−jwokXo [k] 0 ≤ k ≤ N ′ − 1 (2.8)

Y los segundos valores de X[k] serán:

X[k +N

′]= Xe [k] + e−jwokXo [k] 0 ≤ k ≤ N ′ − 1 (2.9)

Bajo la anterior consideración la cantidad de operaciones que se deben desarrollar con el algoritmo

FFT es menor a N · log2(N) que es mucho menor que al realizar el cálculo con las ecuaciones de

análisis. En la figura 2.2 se puede observar el esquema básico inverso del algoritmo ”mariposa”, ya que

se reutilizan cálculos desarrollados con anterioridad para producir a la salida las componentes xee[0] y

xee[1], reduciendo considerablemente los tiempos de calculo de la DFT.

2.1.2. MFCC

Los Coeficientes Cepstrales de Frecuencia Melódica (MFCC, del inglés Mel-Frequency Cepstral Coef-

ficients) son una representación del espectro de potencia de un sonido. Está basada en una transformación

coseno lineal de un espectro de potencia logarítmica en una escala de frecuencia melódica no lineal.

En el diagrama de bloques de la figura 2.3 se puede observar el procedimiento para calcular los MFCCs, el

15

Figura 2.3: Diagrama de bloques utilizado para la extracción de los coeficientes MFCC. Adaptado de [30].

cual está descrito en la norma técnica [28] y en [29]. A continuación, se explicarán los bloques numerados

en el diagrama.

1. Transformada de Fourier de una ventana de la señal

Segmentación Las señales de audio son aleatorias y no estacionarias. No obstante, es posible

analizarlas en segmentos de corta duración (del orden de ms), así la señal puede considerarse

estacionaria. Para esto es necesario generar segmentos consecutivos de la señal, este proceso

se conoce como enventanado. Para mantener la continuidad de la información, es común

dividir señales en segmentos solapados entre sí, de tal manera que no se pierda información

entre transiciones de ventanas.

Para esta tarea la función más simple que se puede aplicar es una ventana rectangular de

longitud M:

sw[m] = si[m], 0 ≤ m ≤M − 1 (2.10)

Donde:

M es la longitud del segmento.

si es la señal de entrada.

sw es la señal de salida.

Transformada de Fourier

A cada segmento de muestras se le aplica la Transformada Discreta de Fourier (DFT, del inglés

Discrete Fourier Transform) de longitud N y se calcula el valor absoluto para así obtener la

magnitud del espectro de la señal:

X[k] =

∣∣∣∣∣N−1∑n=0

sw[n]e−jnk2πN

∣∣∣∣∣ , k = 0, 1, . . . , N − 1 (2.11)

Con la utilización del valor absoluto de la transformada de Fourier se descarta la fase y se

trabaja únicamente con la envolvente de la señal de voz.

16

2. Mapeo del espectro de la señal a escala Mel

Banco de filtros

La señal se toma desde 20 Hz hasta la mitad de la frecuencia de muestreo y es dividida en

M canales equidistantes en el dominio de la frecuencia mel. El comportamiento del sistema

psico-acústico humano se aproxima mediante la escala de frecuencias mel como:

Mel[x] = 2595 ∗ log10

(1 +

x

700

)(2.12)

Donde:

x corresponde a la frecuencia representada en el eje de escala lineal.

Las frecuencias centrales (f [m]) de los canales en términos de los segmentos de la DFT son

calculadas con la siguiente ecuación:

f [m] =

(N

fs

)Mel−1

[Mel

[fstart +

Mel[fs/2]−Mel[fstart]

M + 1∗m

]], m = 1, 2, . . . ,M

(2.13)

Donde:

fs es la frecuencia de muestreo.

fstart es la frecuencia de inicio del banco de filtros.

M es el número de canales triangulares.

Entonces cada filtro está definido por la ecuación 2.14, que está representada en la figura 2.4

donde se observan los canales triangulares sobrelapados, los cuales tienen anchos de banda

mayores pero menores amplitudes a medida que aumenta la frecuencia.

Hm[k] =

0 k < f [m− 1]

2(k−f [m−1])(f [m+1]−f [m−1])(f [m]−f [m−1]) f [m− 1] ≤ k ≤ f [m]

2(f [m+1]−k)(f [m+1]−f [m−1])(f [m]−f [m−1]) f [m] ≤ k ≤ f [m+ 1]

0 k > f [m− 1]

(2.14)

La salida del filtro mel es la suma ponderada de los valores del espectro de la magnitud de la

DFT en cada banda X[m]. Las ventanas triangulares solapadas al 50 % se usan como:

fbankk =

f [k]∑m=f [k−1]

m− f [k − 1] + 1

f [k]− f [k − 1] + 1X[m] +

f [k+1]∑m=f [k]+1

1− m− f [k]

f [k + 1]− f [k] + 1X[m]

(2.15)

Donde:

k = 1, 2, . . . ,M es el número de canales triangulares (filtros).

f [0] y f [M ] denotan los índices de los segmentos DFT correspondientes a la frecuencia inicial

y a la mitad de la frecuencia de muestreo, respectivamente.

f [0] = fstartfs∗N

f [M ] = fs/2fs∗N

(2.16)

17

Figura 2.4: Representación de los filtros triangulares utilizados para calcular los coeficientes MFCC.Adaptado de [31].

Energía

Ahora se calcula la energía correspondiente a cada uno de los filtros:

En =M∑k=1

|fbank[k]|2 (2.17)

Donde:

n = 0, 1, . . . , N − 1 denotando las transformadas DFT tomadas a cada segmento de audio.

3. Transformada coseno discreta a la potencia de la señal en escala Mel

Logaritmo

La energía de salida del filtrado mel es sujeto a una función logarítmica, con lo cual se logra

que las variaciones de la energía entre los filtros de cada segmento sean suaves:

fk = 10 ∗ log10(Ek), k = 1, 2, . . . ,M (2.18)

Los espectros de los filtros en las bandas adyacentes están correlacionados entre sí, generando

coeficientes espectrales dependientes entre ellos.

Transformada coseno discreta

Para eliminar la correlación entre los filtros, se aplica la Transformada Coseno Discreta (DCT,

del inglés Discrete Cosine Transform):

Ck =M∑i=1

fi ∗ cos

(πk

M(i− 0, 5)

), 0 ≤ k ≤ K (2.19)

2.1.3. Banco de Filtros de Tonos Gamma

Es natural visualizar los sonidos como una representación de la energía del contenido frecuencial de

la señal según va variando ésta a lo largo del tiempo, debido a que esta es una de las formas de describir la

información que obtiene el cerebro de nuestros oídos a través del nervio auditivo [32]. En el oído humano

18

Figura 2.5: Representación del banco de filtros de tonos gamma [34]. Elaboración propia.

las bandas de frecuencias altas están más ampliamente espaciadas con respecto a las bandas de bajas

frecuencias. Por lo cual, los filtros de tonos gamma fueron concebidos como un ajuste a observaciones

experimentales de la cóclea (caracol) de los mamíferos.

Los tonos gamma fueron introducidos por Aertsen y Johannesma en 1980 [33] y son definidos en el

dominio del tiempo por su respuesta al impulso, que es el producto de una envolvente gamma y un tono

sinusoidal:

t = atn−1 exp(−2πbt) cos (2πfct+ φ) (2.20)

Donde:

a es el factor de amplitud.

t es el tiempo en segundos.

n es el orden del filtro y determina la pendiente de las transiciones.

b determina la duración de la respuesta al impulso y, por lo tanto, el ancho de banda del filtro, en Hz.

fc es la frecuencia central en Hz.

φ es la fase de la portadora en radianes.

Una recopilación de datos del Ancho de Banda Rectangular Equivalente (ERB, del inglés Equivalent

Rectangular Bandwidth) de los filtros auditivos está dada por la ecuación 2.21, esta escala define el

espaciamiento relativo y el ancho de banda de los filtros de tonos gamma. En la figura 2.5 se puede

observar la representación de los tonos gamma definidos en la ecuación 2.20 con el ancho de banda ERB

definidos en la ecuación 2.21.

ERB = 24, 7

(4, 37

fc1000

+ 1

)(2.21)

Para este trabajo se utiliza la implementación de Ellis [34], en la cual se realiza una representación en

tiempo-frecuencia de los sonidos como en un espectrograma. Pero con la salvedad de que el espaciamiento

en la frecuencia no es constante, lo cual se asemeja con el funcionamiento de la cóclea antes mencionado.

La señal de audio es primero procesada por el banco de filtros de tonos gamma implementada por

Malcom en [35] y posteriormente se suma la energía dentro de ventanas de tiempo regulares a cada filtro

independientemente. En la figura 2.6 (a) se pueden observar las variaciones de un señal voz en el tiempo y

19

Figura 2.6: Representación de una señal de voz (a). En el tiempo. (b). Como ”espectrograma” aplicandoel banco de filtros de tonos Gamma a la frecuencia. Elaboración propia.

en (b) los niveles de energía del contenido frecuencial en escala ERB a medida que la señal varía en el

tiempo.

2.2. Redes Neuronales Artificiales

Una red neuronal artificial es un modelo de computación inspirada en el funcionamiento del cerebro

[36]. Pero el funcionamiento de un computador digital es totalmente diferente al del cerebro, ya que el

primero realizan operaciones de forma secuencial, mientras que el segundo tiene la capacidad de operar

en paralelo y adicionalmente es altamente complejo.

Es por esto que una red neuronal es un sistema constituido por unidades de procesamiento sencillas

llamadas neuronas interconectadas entre sí. Adicionalmente, se implementa un algoritmo que permite

ajustar las conexiones dentro del modelo neuronal, estos son llamados pesos.

2.2.1. Modelo de Unidad de Procesamiento Elemental

El modelo básico de una neurona está compuesto por un vector de pesos w = (w1, w2, . . . , wM )T

equivalente a las conexiones sinápticas, además de w0 que corresponde al peso asociado con la entrada

bias. Un vector de entradas x y un escalar y que corresponde a la salida de la neurona. Igualmente existe

una función de activación g(·), la cual va a ser operada con la suma ponderada entre el vector de entrada y

el de pesos, incluyendo el bias [37]. En la figura 2.7 se puede ver la topología descrita y en la ecuación

2.22 se representa matemáticamente el sistema.

y = g

(M∑i=1

wixi + w0

)(2.22)

La función de activación más básica g(·), tiene una salida binaria, conocida como limitador duro. Esta fue

20

Figura 2.7: Modelo básico de una neurona con M entradas y el bias, una ponderación, la función deactivación y su salida. Elaboración propia.

propuesta por McCulloch-Pitts [38] y está definida por la siguiente ecuación:

g(a) =

1 a ≥ 0

−1 a < 0(2.23)

Otra función con salida binaria es la función escalón unitario, la cual viene dada por:

g(a) =

1 a ≥ 0

0 a < 0(2.24)

Sin embargo, existen funciones con respuesta de salida continua, que pueden ser lineales o no lineales. La

primera tiene la forma:

g(a) = a (2.25)

Funciones de activación no lineales pueden tener la forma sigmoidal:

g(a) =1

1 + e−a(2.26)

O de tangente hiperbólica:

g(a) =ea − e−a

ea + e−a(2.27)

2.2.2. Redes Tipo Feed-Forward

Es un tipo de red neuronal que forma arquitecturas de varios niveles que operan localmente de manera

independiente (neurona), pero que funcionalmente resuelven un problema de forma global. Las conexiones

de sus sinapsis no forman bucles, por lo que no dependen de estados anteriores de la misma red neuronal,

y la dirección de propagación de la información es en un sentido. En la figura 2.8 se puede observar la

topología de una red feed-forward, la cual consta de D entradas, una capa oculta con M unidades y una

salida de K elementos. Cada unidad de procesamiento tiene una entrada adicional correspondiente al bias.

Tomando como referencia el análisis realizado en [36, pp. 116-120], la salida de la j − esima unidad

oculta está dada por la siguiente ecuación:

aj =d∑i=1

W(1)ji xi +W

(1)j0 (2.28)

21

Figura 2.8: Topología de red tipo feed-forward de una capa oculta, con D entradas, M unidades ocultas yK salidas. Adaptado de [36, fig. 4.1].

Donde:

W(1)ji representa un peso en la primera capa, desde la entrada xi hacia la unidad oculta j.

W(1)j0 representa el peso de la entrada bias de la unidad oculta, el cual tiene una entrada x0 = 1.

La activación de la unidad oculta j es entonces obtenida transformando la suma lineal usando una función

de activación g(·), de la siguiente forma:

zj = g(aj) (2.29)

Las salidas de la red son obtenidas transformando las activaciones de las unidades ocultas usando una

segunda capa de procesamiento de elementos. De esta manera, para cada unidad de salida k, se construye

una combinación lineal de las salidas de las unidades ocultas, como se muestra en la siguiente ecuación:

ak =M∑j=1

W(2)kj zj +W

(2)k0 (2.30)

Una vez más la activación de la k− esima unidad de salida se obtiene al utilizar una función de activación

no lineal g(·):

yk = g(ak) (2.31)

Nótese que no es necesario que la función de activación sea la misma para la capa oculta y la capa de

salida.

Tanto los pesos asociados a la capa oculta, como los asociados a la capa de salida, pueden ser adaptados,

es decir que sus valores pueden cambiar durante el proceso de entrenamiento. Normalmente se emplean

algoritmos de aprendizaje supervisado, el más común es el de back-propagation [36, pp. 140-145].

2.2.3. Redes Neuronales Convolucionales

Las Redes Neuronales Convolucionales (CNN, del inglés Convolutional Neural Network) son un tipo

de arquitectura de aprendizaje profundo, inspirado en el mecanismo de percepción de los seres vivos. Los

experimentos realizados en 1959 por Hubel y Wiesel, sirvieron para que en 1980 Kunihiko Fukushima

propusiera el neocognitrón [39] considerado un precursor de este tipo de redes neuronales.

22

Para que una red sea capaz de aprender se le debe dar un entrenamiento con una gran cantidad característi-

cas, pero en muchas ocasiones obtener buenas características representativas de la tarea se hace difícil. El

potencial que poseen las CNN es el hecho de extraer características relevantes para cientos de problemas

sin la necesidad de buscar características adicionales [40]. Pese a que las CNN sean una generalización

de las redes neuronales artificiales (ANN), estas tienen una mejor generalización comparadas con redes

totalmente conectadas, ya que se reduce el número de parámetros necesarios para el entrenamiento [41].

El modelo general de CNN se compone de capas alternadas: convolucionales, submuestreo o pooling,

activación y capas totalmente conectadas, que están secuencialmente conectadas [41], la topología se

muestra en la figura 2.9, cuyas capas serán abordadas a continuación.

Capas convolucionales: cuenta con filtros o matrices que se deslizan sobre el vector de entrada

o lo que podría ser una imagen. El deslizamiento sería tanto horizontal como vertical, extrayendo N

número de características [40]. La entrada es la imagen original XIn, mientras que para siguientes capas

convolucionales la entrada viene determinada por:

X lj = f

∑i∈Mj

(X l−1i ∗W l

ij + blj

) (2.32)

Donde:

l es la capa de la red

j es la característica mapeada

W l son los pesos de la matriz en la capa

blj son los bias que se adicionan

∗ es la operación de convolución

f(x) es la función de activación, que en la mayoría de los casos es ReLU (Rectified Linear Unit).

En la figura 2.10 se puede observar el funcionamiento de una capa convolcuional compuesta por la entrada,

la operación de convolución con un kernel, la sumatoria de esta operación y finalmente la función de

activación, en este caso ReLU, que generan un nuevo mapa de características.

Aunque recientemente han aparecido capas convolucionales de diferentes tipos tales como: capas convolu-

cionales Tiled, capas convolucionales dilatadas y otras de gran utilidad [39].

Funciones de activación: las funciones de activación más usadas en redes neuronales convencionales

son de tipo sigmoidal. En las redes convolucionales se usan funciones de activación de tipo Rectified

Linear Unit (ReLU) para introducir una no linealidad, cuyo funcionamiento corresponde a:

Figura 2.9: Estructura básica de una CNN compuesta por capas: entrada, convolucionales, pooling,totalmente conectadas y salida. Adaptado de [41].

23

Figura 2.10: Composición básica de una capa convolucional con función de activación ReLU. Adaptadode [40].

Figura 2.11: Funciones de activación (a). ReLu. (b) PReLU. (c) RReLU. Adaptado de [42].

yi =

xi si xi ≥ 0

0 si xi < 0(2.33)

Para la función de activación ReLU es mucho más fácil el cálculo de las derivadas parciales y por lo

tanto el tiempo de entrenamiento se reduce, pero su eficiencia se ve afectada cuando el gradiente de

entrenamiento es demasiado grande [40]. Además de ReLU existen otras funciones de activación tales

como: Parametric Rectified Linear (PReLU), Randomized ReLU (RReLU), Exponential Linear Unit

(ELU) [42], [39]. En la figura 2.11 se puede observar la función de activación ReLU, PReLU y RReLU

donde su comportamiento difiere cuando ingresan valores negativos, notando que mientras ReLU da como

respuesta un valor igual a cero el resto de funciones arrojan valores negativos.

Aunque el uso de PReLU mejora ligeramente el rendimiento como se ve en [42], es poco significativo al

momento de implementarlo.

Capas de submuestreo: esta capa reduce significativamente el número de parámetros para entrenar,

generando otro vector de menor tamaño. El más común es llamado max-pooling que toma la muestra

más significativa de un conjunto [40]. Los principales objetivos de realizar pooling son el reducir la

dimensionalidad y mantener la invarianza a la escala para el conjunto de datos [41]. Se define como:

X lj = βijpooling(X l−1

j ) (2.34)

Donde:

pooling(x) son las reglas que se usan para reducir la dimensionalidad.

βij Es el peso del submuestreo que es un valor preacordado.

Recientemente han aparecido otro tipo de capas de submuestreo tales como: Lp pooling, Mixed pooling,

Stochastic pooling, Spectral pooling, Spatial pyramid pooling, Multi-scale orderless pooling [41].

24

Capas totalmente conectadas: como se mencionó antes esta capa es similar a los modelos con-

vencionales excepto que es alimentada con la información extraída de las capas anteriores. Es posible

usar el algoritmo de descenso de gradiente para entrenar la red, pero este realiza la actualización de los

parámetros después de usar todos los datos, dando como resultado una poca eficiencia cuando se disponen

de bases de datos extensas. La mejor solución a este problema es implementar el algoritmo de descenso

de gradiente estocástico [40]. La capa totalmente conectada se define como:

X l = f(wlX(l−1) + bl) (2.35)

Función de perdida: es importante escoger la una función de perdida dependiendo de la tarea a

realizar, dentro de esta función las más conocidas son, Hinge loss, Contrastive loss, Triplet loss, y la

más usada Softmax loss [39]. Considerando la cantidad de clases a clasificar, las salidas de las capas

densamente conectadas son ingresadas a una capa Softmax, la cual se define como:

pij =ezij∑k

l=1 ezij

(2.36)

Donde:

zij = wTj ai + bj siendo la salida de las capas totalmente conectadas.

Esta capa devuelve un valor no negativo y normalizado para obtener una distribución de probabilidad en

todas las clases, estas probabilidades son usadas para dar una estimación de la salida en la capa softmax

como:

softmax = − 1

N

N∑i=1

K∑j=1

y(i) = j

log pj

(i)

(2.37)

Dropout: es un método que permite reducir el sobreajuste de una red al eliminar pesos de forma

aleatoria, se puede definir como:

y = r · a(W tX) o y = a(R ∗Wx) (2.38)

Donde:

X es la entrada.

w es la matriz de pesos.

r es un vector de tamaño d independientes en una distribución de Bernoulli con parámetro p.

En algunos trabajos se ha encontrado que el poner capas Dropout después de las capas convolucionales no

mejora el sobreajuste, debido a una alta correlación existente en las imágenes usadas [43].

En la figura 2.12 se muestra como al implementar una capa de dropout, esta elimina pesos aleatoriamente

con una cierta probabilidad. Al implementar esta técnica se puede forzar a que la red tenga precisión

incluso con la perdida de información.

Batch normalization (BN): debido a que los datos de entrada fluyen a través de las capas internas,

cambia tanto la media como la varianza, provocando perdida de aprendizaje. La solución al problema de

cambio de covarianza es ajustar la estimación de la media y la varianza, las cuales son calculadas después

25

Figura 2.12: Eliminación aleatoria de pesos mediante la implementación de una capa de dropout. Lasflechas punteadas con X marcadas representan pesos eliminados. Adaptado de [39].

de cada mini-batch en lugar de realizar el cálculo sobre todos los datos [39]. Supongamos que d es la

dimensión de la entrada x = [x1, x2, x3, ..., xd] . Primero normalizamos la dimensión kth

xk =(xk − µB)√δ2B + ε

(2.39)

Donde:

µB es la media.

δ2B es la varianza.

ε es un valor constante.

Para mejorar la habilidad de la representación, la entrada xk es transformada como:

yk = BNγ (xk) = yxk + β (2.40)

Donde γ y β son los parámetros de aprendizaje.

Batch normalization tiene algunas ventajas con respecto a la normalización global de los datos. Siendo

la más importante que reduce el cambio de covarianza y también reduce la dependencia del gradiente

en la escala de los parámetros o sus valores iniciales. De esta manera se beneficia el efecto del flujo de

gradiente en la red, habilitando el uso de gradientes con una tasa de aprendizaje más grande que incluso

puede llegar a reducir la necesidad de Dropout en la red [39].

26

Algoritmo de Entrenamiento

Descenso de gradiente como se muestra en [40] es el algoritmo para minimizar el costo de la función

bajo el uso de backpropagation.

Algoritmo 1: Algoritmo de descenso de gradiente

1 Ingresar el vector de entrada a la red.

2 Ejecutar los filtros de convolución para generar el mapa de características.

3 Las características obtenidas pasarlas a través de ReLU para introducir una no linealidad.

4 Aplicar el submuestreo para obtener el mapa de características, el cual introduce invarianza a la

traslación.

5 Repetir los pasos 2 al 4 para cada tipo de capa.

6 El mapa de características obtenido es pasado a través de las capas totalmente conectadas para su

clasificación.

7 Pasar la salida a un clasificador como softmax.

8 Calcular la perdida en la capa final y calcular el gradiente con respecto a todos los parámetros.

9 Propagar el error hacia atrás y ajustar los parámetros.

10 Ejecutar el paso hacia adelante y repetir los Pasos 2 a 9 usando los parámetros ajustados hasta que

la red converja.

Descenso Estocástico de Gradiente

Este algoritmo es similar al descenso de gradiente, excepto que los datos de entrenamiento durante

cada iteración son tomados aleatoriamente para actualizar los pesos de la red, adicionalmente converge

más rápido, debido a que ahorra el uso de la memoria al no acumular los pesos intermedios [40]. Descenso

de gradiente estocástico es la más común de las soluciones en optimización para redes convolucionales

debido a sus buenos resultados [39].

Algoritmo De Optimización ADAM (Adaptive Moment Estimation)

El descenso de gradiente es usado fácilmente donde la función es muy diferenciable con respecto a

los parámetros usados en la red, pero donde este proceso no es fácilmente diferenciable es mucho mejor

usar ADAM [40], Facilitando la tasa de aprendizaje usando el primero y segundo momento de gradiente,

es computacionalmente eficiente y requiere menos memoria.

Este algoritmo requiere de po que corresponde al primer momento del vector, qo que corresponde al

segundo momento del vector de varianza no centrada y t que representa los pasos de tiempo e inicializado

a cero. Considerando que f(w) es el objetivo con parámetros w, α = 0,001, m1 = 0,9, m2 = 0,999,

27

ε = 10−8. El algoritmo ADAM es el siguiente.

Algoritmo 2: Algoritmo de optimización ADAM

1 Calcular el gradiente gt = ∂f (x,w)/∂w

2 Calcular pt = m1pt−1 + (1−m1) gt

3 Calcular qt = m2qt−1 + (1−m2) g2t

4 Calcular pt = pt/(1−mt1)

5 Calcular qt = qt/(1−mt2)

6 Actualizar los parámetros wt = wt−1 − αpt/(√qt + ε)

7 Repetir desde 1 hasta convergencia.

8 Entregar wt

El inconveniente con este método es que requiere derivadas de segundo orden incrementando el costo

computacional, como se muestra en [40].

2.3. Reducción de Características

2.3.1. Análisis de Componentes Principales

La utilidad del Análisis de Componentes Principales (PCA, del inglés Principal Component Analysis)

radica en el hecho de mapear datos de cualquier tipo a otro espacio, donde la gran cantidad de información

de los datos quedará registrada en unos pocos ejes del nuevo espacio, siendo ordenados por la varianza, y

revelando información oculta. Con lo cual cuanto mayor varianza mayor información lleva determinado

eje [44].

Para el análisis de PCA en [45] se asume que:

1. La idea detrás de PCA consiste en asumir la linealidad entre variables y de esta forma poder determinar

la matriz de transformación adecuada.

2. La media y la varianza son suficientes para describir problemas de distribución Gaussiana con el fin de

reducir redundancias y ruido de las señales.

3. Una varianza grande indica una dinámica importante.

4. Las nuevas bases serán ortogonales entre sí.

Como se ve en la figura 2.13, si los nuevos ejes son ruido y señal, la mayor cantidad de información la

aporta el eje llamado señal y muy poca información el eje llamado ruido, que podría llegar a ser eliminado

si tiene una varianza menor con respecto al eje señal. Logrando una reducción de características.

Para el análisis de PCA podemos definir como un vector aleatorio, con p variables y con n muestras y una

colección de esas muestras denominado como Y que será la colección de todos los datos [46]

y1 =

yi1

yi2...

yip

, Y =

y′1

y′2...

y′n

(2.41)

Si las muestras no están correlacionadas a los ejes, la nube de puntos no estará paralela a ningún eje. Con

lo cual para intentar establecer un nuevo espacio a este problema podemos hallar una rotación de ejes,

28

Figura 2.13: Varianza del ruido y la señal analizado en nuevos ejes. Adaptado de [45].

intentando hacer que la nube de puntos esté paralela a nuevos ejes. Al multiplicar por una matriz A se

puede conseguir el efecto deseado [45].

zi = Ayi (2.42)

Siendo A ortogonal, por tanto A′A = I . Entonces la idea es buscar la matriz A que proporcione unos

datos no correlacionados, al tomar la matriz de covarianza de z denotada como sz [46] descrita como.

sz = ASA′

=

s2z1 0 · · · 0

0 s2z2 · · · 0...

.... . .

...

0 0 · · · s2zp

(2.43)

Donde S es la matriz de covarianzas de y. Entonces para encontrar A se parte del hecho que A es capaz

de diagonalizar a S. La matriz A que diagonaliza a S es:

A =

a′1

a′2...

a′p

(2.44)

Donde ai son los autovectores de S.

Por lo tanto los nuevos vectores principales serán:

z1 = a11y1 + a12y2 + · · ·+ a1pyp (2.45)

Los autovectores de S serán las varianzas de las componentes principales, por tanto:

λ1 0 · · · 0

0 λ2 · · · 0...

.... . .

...

0 0 · · · λp

=

s2z1 0 · · · 0

0 s2z2 · · · 0...

.... . .

...

0 0 · · · s2zp

(2.46)

29

Como los auto valores son varianzas, se puede establecer la proporción de varianza por las primeras k

componentes como.

proporcion de varianza =λ1 + λ2 + · · ·+ λk∑p

j=1 Sjj(2.47)

De la ecuación 2.47 se infiere que los datos que presenten una correlación muy grande tenderá a almacenar

mucha información en pocos valores de k, pero si la correlación es pequeña tenderá a presentar una

disminución de características poco significativa en los nuevos datos [46].

2.4. Estado del Arte

La tarea básica de ASC (del inglés, Acoustic Scene Classification) consiste en asignar una etiqueta a

una entrada de datos de audio que caracteriza el tipo de ambiente en el cual fue grabado. Generalmente se

realiza un procesamiento a los audios, con el objetivo de extraer los coeficientes que representan el sonido

y de esta manera reducir la dimensionalidad del problema de clasificación [47].

La idea de dejar la tarea de ASC a un computador fue primero planteada por Cherry en 1953 [48]. En

esa ocasión hablaban de la capacidad que tienen los humanos de estar atentos a una conversación, aún en

entornos con presencia de ruido. Este es el conocido “cocktail party problem”, perteneciente al área de

reconocimiento automático de habla.

Pero fue hasta 1997 cuando Sawhney y Maes del MIT, implementaron la primera solución relacionada

con ASC, emplearon redes neuronales recurrentes y vecinos cercanos como clasificador [13]. Solo un

año después, desde la misma institución se publicó un trabajo en el cual exploraban otra alternativa para

abordar la problemática de ASC. Esta vez los investigadores implementaron modelos ocultos de Markov y

adicionalmente desarrollaron una base de datos más especializada para la tarea [6].

De los sonidos de ambientes urbanos se puede obtener una cantidad importante de información represen-

tada en un vector de características. En algunos trabajos hacen uso de características como MFCC [49],

[50],[51], Log Mel [25], [52], [53], tonos Gamma [3], [5], [53], e incluso de la DFT [12]. De igual manera

en otros trabajos relacionados con ASC se hacen agrupaciones de diferentes tipos de características

evidenciando un rendimiento ligeramente superior, comparado con el uso de un solo tipo de las mismas

[5], [54],[55], [56], pero cabe destacar que este aumento en la mayoría de los casos no supera el 6 %.

La elección de las características de entrada y el número de coeficientes a extraer son temas en los cuales

no hay consenso entre los investigadores. Por ejemplo, en [57] extraen 13 coeficientes MFCC y obtienen

un rendimiento del 82,9 %. Por otra parte, en [58] extraen 60 coeficientes MFCC y el rendimiento es de

75,3 %. Pero el aumento del número de coeficientes extraídos no conlleva a la disminución del rendimiento,

ya que, por ejemplo, en [59] extraen 20 coeficientes MFCC y el rendimiento es superior al 90 %. En todos

los casos la base de datos utilizada fue la TUT Acoustic Scenes 2016, pero con topologías diferentes de

DNN en cada caso.

Es necesario mencionar que la obtención de características no es realizada en el audio completo, si no

que este es fragmentado en segmentos de corta duración que comúnmente no superan los 150 ms, con

solapamiento que varía entre un 30 % y 50 %. En [60] se evidencia que los mejores rendimientos se

obtienen al concatenar segmentos y generar vectores que representan intervalos de tiempo de entre uno y

cinco segundos.

Estas características se pueden generalizar al generar un Árbol de Etiquetas Embebido (LTE, del inglés

30

Label Tree Embedding), con el cual se divide el grupo de etiquetas en conjuntos disjuntos que representan

las probabilidades de pertenencia a una u otra ramificación [3], [5]. También se ha llegado a hacer análisis

a las características utilizando métodos propios de la estadística descriptiva como son la media, desvia-

ción estándar, varianza, etc. [10]. En estos casos se busca resumir las propiedades de escenas de audio

individuales o categorías completas de paisajes sonoros a partir de los vectores de características [1].

Para realizar la tarea de ASC basados en modelos estadísticos se asume que tanto las características de

entrenamiento como las de validación fueron generadas con base en una distribución de probabilidad

definida, lo que implicaría que las escenas representadas contienen información similar entre ellas [11].

Aun así se han realizado implementaciones con GMM y HMM [7], pero en los últimos años se han

mostrado en inferioridad al comparar su rendimiento con el de las redes neuronales artificiales [12], [59],

[61], [62].

Sin lugar a dudas las implementaciones más comunes están relacionadas con redes neuronales artificiales.

Desde topologías simples de MLP (Multi Layer Perceptron) en las que se entrenan conjuntos de neuronas

de la capa oculta con diferentes características y estas salidas están totalmente conectadas con la capa ocul-

ta posterior [15] u otras más sencillas donde el entrenamiento se realiza con un único tipo de característica

y topologías comunes de pocas capas y neuronas [57], [63]. Pero también se deben mencionar topologías

de DNN donde se utilizan un gran número de neuronas por cada capa oculta obteniendo rendimientos

comparables con los de las redes convolucionales [20], [56], [59], [61].

Actualmente las redes convolucionales están siendo ampliamente usadas en ASC debido a que han

demostrado resultados superiores a cualquier otro tipo de clasificador [47], [64]. La mayoría de trabajos

desarrollados para ASC usando redes convolucionales se basan en topologías que combinan capas convo-

lucionales, funciones de activación, capas de pooling, etc. [54], [56], destacando en algunos trabajos la

importancia de concatenar capas de Dropout, lo que permite reducir el sobre ajuste [53], [20].

Al analizar las topologías, se encuentran casos donde la complejidad es alta para la tarea de ASC, ya que

toman como referencia las técnicas utilizadas para el análisis de imágenes, donde se implementan un gran

numero de capas y filtros convolucionales [12], [16], [19], [53], [65], [66]. Esto representa tiempos de

entrenamiento elevados y puede desencadenar en sobre ajuste a los datos. También es posible encontrar

soluciones en las cuales se utilizan pocas capas y filtros convolucionales [14], [63] y otros casos donde se

intentan combinar clasificadores como CNN y RNN en un intento por mejorar el rendimiento [25], [49],

[67].

Teniendo en cuenta estos precedentes, se puede decir que la elección de los parámetros más adecuados

para realizar la segmentación del audio, la extracción de características y el modelo de clasificación,

depende totalmente de los conocimientos del investigador y la experiencia en temas relacionados con

ASC.

31

Capítulo 3

Entrenamiento con características nomodificadas

El proceso general de tratamiento de los sonidos, entrenamiento y validación de los modelos de red

neuronal feed-forward y convolucionales implementados se resume en la figura 3.1. El primer paso en este

proceso es la digitalización del audio, para posteriormente realizar el ventaneo de la señal que representa,

en este caso en segmentos de 100 ms, con solapamiento entre ventanas de 50 ms. Posteriormente a cada

segmento se le extraen coeficientes de tres tipos de características, como son: DFT, tonos gamma y MFCC.

Estos coeficientes son sometidos a un proceso de normalización, que pretende establecer un rango para los

datos de entrada a la red neuronal, ya sea para establecer segmentos de 1 o 10 segundos. Posteriormente

se realiza la concatenación de características, como son: DFT-Gamma, DFT-MFCC, Gamma-MFCC y

DFT-Gamma-MFCC. El siguiente paso metodológico es realizar el entrenamiento con un 80 % de los

datos disponibles, con características de entrada individuales y posteriormente combinadas, tanto para

segmentos de 1 y 10 segundos. Una vez entrenado el modelo se procede a validar el mismo con el 20 %

de los datos previamente separados.

3.1. Base de Datos

La base de datos empleada para el desarrollo del proyecto es la TUT Urban Acoustic Scenes 2018,

esta es de uso libre y es utilizada para el reto DCASE2018 [18]. Esta consta de diez escenas acústicas,

como son: aeropuerto, centro comercial (adentro), estación de metro, calle peatonal, plaza pública, calle

con nivel de tráfico medio, viajando en bus, viajando en metro subterráneo, viajando en tranvía y parque

urbano [14]. En la tabla 3.1 se enumera el orden de las clases utilizado para el análisis y presentación de

las matrices de confusión.

Cada escena consta de 864 segmentos de audio de 10 segundos cada uno. Estos fueron grabados en seis

importantes ciudades europeas: Barcelona, Helsinki, Londres, París, Estocolmo y Viena. En cada ciudad y

para cada escena se eligieron diferentes locaciones para la grabación de los sonidos. En cada locación

se realizaron entre 2 y 3 sesiones de grabación de 5 a 6 minutos cada una y con un margen de tiempo

entre ellas. Posteriormente, las grabaciones originales fueron segmentadas en archivos individuales de 10

segundos [14].

Las grabaciones de sonido fueron realizadas con el micrófono de electret Soundman OKM II Klassik/studio

33

Figura 3.1: Diagrama de bloques de un clasificador basado en sonidos. Elaboración propia.

1 Aeropuerto2 Bus3 Metro4 Estación de metro5 Parque6 Plaza pública7 Centro comercial8 Calle peatonal9 Tráfico

10 Tranvía

Tabla 3.1: Orden de clases establecido para las matrices de confusión.

A3 y el grabador de sonido Zoom F8 usando una frecuencia de muestreo de 48 kHz con resolución de 24

bits. Los micrófonos fueron llevados en los oídos, de modo que los sonidos son similares a los que llegan

al sistema auditivo humano [14].

3.2. Equipo para Entrenamiento

El entrenamiento de las redes neuronales artificiales se realiza en un host virtual solicitado a la Red

de Investigaciones de Tecnología Avanzada RITA de la Universidad Distrital Francisco José de Caldas,

para este fin han asignado una máquina con sistema operativo Linux, con 32 GB de memoria RAM y un

procesador de 20 núcleos con frecuencia de 2 GHz. El entrenamiento se realiza utilizando la función de

procesamiento en paralelo de MATLAB r2018b, cuya licencia académica es brindada por la Universidad

Distrital Francisco José de Caldas.

34

Figura 3.2: Proceso de ventaneo y extracción de características. Elaboración propia.

3.3. Extracción de Características

Como se mencionó anteriormente, la base de datos consta de 10 clases, cada una contiene 864

audios de 10 segundos, por lo que se dispone de 8640 audios en total. El primer paso es la extracción de

características para formar una base de datos propia. Cada audio es dividido en ventanas de tiempo de

100 ms con superposición de 50 ms, de esta manera se consigue una buena resolución en frecuencia y en

tiempo. Por lo tanto, cada audio estará segmentado en 199 ventanas y así cada clase queda compuesta por

171.936 tramas.

A cada ventana de audio se le extrajeron 40 coeficientes MFCC, 40 coeficientes de tonos gamma y 100

coeficientes DFT, mediante el procedimiento descrito en el capítulo 2 Marco Teórico. En la figura 3.2 se

resume el proceso expuesto anteriormente. Cabe destacar que, bajo la aplicación de la FFT, la cantidad de

coeficientes disponibles por cada transformación es igual a la cantidad de muestras en el tiempo de cada

audio de 100 ms (4800 muestras), teniendo en cuenta que es un elevado número de coeficientes y que

finalmente muchos de estos representan ruido que no aporta información para el problema, se considera

suprimir aquellas características que tienen una magnitud inferior a -50dB.

Hasta este punto se cuenta con matrices en cada clase de 40x171936 para características de tipo MFCC y

tonos gamma, además de una matriz de 100x171936 para características de tipo DFT. En la figura 3.3

se muestra el proceso para formar un mapa de características, primero de aproximadamente un segundo

donde las matrices son divididas cada 20 columnas evitando solapamiento con características de audios

adyacentes.Mientras que para formar un mapa de características de 10 segundos se dividen las matrices

cada 199 columnas.

El análisis es realizado para segmentos de 1 y 10 segundos, ya que para una red neuronal puede ser

más sencillo extraer características importantes de segmentos cortos de tiempo debido al nivel de detalle

que se puede representar y a que los sonidos de ambientes urbanos por su naturaleza presentan una alta

variabilidad.

35

Figura 3.3: División de características en segmentos de 1 y 10 segundos. Elaboración propia.

Figura 3.4: Topología de MLP compuesta por tres capas ocultas. Elaboración propia.

3.4. Experimento 1: Variación de Topologías en MLP y CNN

La parte A del primer experimento realizado consiste en entrenar redes neuronales artificiales feed-

forward y convolucionales con las características individuales extraídas a los audios (MFCC, tonos

gamma y DFT), variando las topologías y la longitud de los segmentos de audio. Primero se realiza el

entrenamiento con segmentos de 10 segundos y posteriormente con segmentos de 1 segundo. Cada modelo

de red neuronal convolucional es entrenado tres veces, mientras que las topologías de red feed-forward

es entrenada cinco veces, en ambos casos por un máximo de 25 iteraciones. En todos los casos la base

de datos es dividida de forma aleatoria utilizando 80 % de los datos para entrenamiento y 20 % para

validación de los modelos. La división se realiza sobre cada conjunto de datos, de tal manera que cada

clase es entrenada y validada con la misma cantidad de ejemplos.

Las redes feed-forward están compuestas por capas totalmente conectadas y softmax como salida, en

las figuras 3.4 y 3.5 se puede observar las topologías implementadas para redes neuronales con tres y

cuatro capas ocultas, respectivamente. Las variaciones se realizan sobre el número capas y neuronas que

componen cada capa. En todos los casos el algoritmo de entrenamiento es de gradiente descendiente

estocástico.

Por su parte, las redes convolucionales están constituidas por capas convolucionales, max pooling, dropout,

batch normalization, totalmente conectadas y salida softmax, esta red es entrenada utilizando el algoritmo

de optimización ADAM. La topología está organizada en dos bloques convolucionales compuesto cada

uno básicamente por dos capas convolucionales con igual número de filtros, en la figura 3.6 se puede

36

Figura 3.5: Topología de MLP compuesta por cuatro capas ocultas. Elaboración propia.

Figura 3.6: Topología de CNN, en cada bloque hay dos capas convolucionales con igual número de filtrosen cada experimento (variable x). Elaboración propia.

observar la organización de las capas en la red implementada. En la experimentación, las variaciones se

realizan sobre el número de filtros que componen cada bloque convolucional, cabe destacar que el bloque

A en todos los casos está compuesto por un número de filtros mayor que el bloque B tal como se muestra

en la figura 3.6 derecha.

Las redes neuronales cuando son entrenadas con características MFCC y tonos gamma, tienen como

entrada una matriz de [40x199x1] para segmentos de 10 segundos y de [40x20x1] para segmentos de 1

segundo. Para coeficientes DFT primera dimensión es de 100, ya que esta corresponde con el número de

características extraídas a cada segmento. La tercera dimensión de la matriz de entrada es el número de

canales de color que compone la imagen, para este problema los datos corresponden a la magnitud de la

energía de la señal, por lo cual se pueden representar en escala de grises.

De esta primera parte del experimento 1 se pueden identificar las topologías de redes neuronales feed-

forward y convolucionales que obtienen los mejores rendimientos para cada una de las características y

para cada longitud de segmento utilizado. Adicionalmente es necesario tener en cuenta los tiempos que

tardan las redes neuronales en ajustar sus parámetros.

La parte B del experimento 1 consiste en entrenar las topologías que obtuvieron los mejores resultados en

cuanto a rendimiento y tiempo de entrenamiento en el experimento A, con combinaciones de características

como entrada (DFT-Gamma, DFT-MFCC, Gamma-MFCC y MFCC-gamma-DFT). De esta manera se

puede evaluar el efecto que tiene la combinación de características en el rendimiento de las redes

neuronales, esto para segmentos de audio de 1 y 10 segundos.

37

3.4.1. Experimento 1A: Entrenamiento Con Características de EntradaIndividuales

En esta primera parte de la experimentación se busca evaluar el rendimiento de las características indi-

viduales extraídas (MFCC, tonos gamma y DFT) a segmentos de audio de 10 segundos y posteriormente

de 1 segundo. Para este fin se entrenan diferentes topologías de CNN y de MLP, a las cuales se les varía el

número de filtros convolucionales, el número de capas y las neuronas por capa, según corresponda.

La topología de CNN está compuesta por dos bloques convolucionales, como se muestra en la figura

3.6, en cada bloque convolucional se varía el número de filtros, empezando desde 16 filtros realizando

variaciones en potencias de 2 hasta 128. En todos los casos el segundo bloque convolucional tiene una

mayor cantidad de filtros, con el objetivo de mantener la representación de la potencia a medida que el

tamaño espectral se reduce [25]. De esta manera, se logra que el segundo bloque convolucional extraiga

características más relevantes y menos sensibles al ruido, obteniendo una mayor cantidad de información

que será alimentada a las capas totalmente conectadas de la red, de esta forma las combinaciones de los

bloques convolucionales quedarán 16-32, 16-64, 16-128, 32-64, 32-128, 64-128.

En cuanto a la topología de MLP, se varía el número de capas ocultas junto con el número de neuronas

por capa, con lo cual se plantea el uso de 3 y 4 capas ocultas incluyendo la capa de salida, ya que se

evidenció que con el uso de dos capas ocultas no se obtienen rendimientos satisfactorios. Cada capa oculta

inicialmente tiene 50 unidades (excepto la capa de salida, que en todos los casos tiene 10 neuronas), y

para cada experimento se aumentará este número en 50 neuronas hasta un máximo de 150 unidades para

topologías de 3 capas como se muestra en la figura 3.4 y 100 para topologías de 4 capas como en la figura

3.5.

Con esto se pretende encontrar las mejores topologías de CNN y MLP entrenadas, mediante la compa-

ración de rendimiento para los segmentos de audio evaluados. Sin embargo, es necesario considerar el

tiempo que toma cada topología en ser entrenada, ya que en experimentos posteriores esta información

será relevante para realizar una comparación de los diferentes modelos implementados.

Resultados Obtenidos con Segmentos de 10 Segundos

Redes Neuronales Convolucionales

En la tabla 3.2 se observan los rendimientos con los datos de entrenamiento y validación alcanzados

por las diferentes CNN entrenadas. Allí se puede constatar como en algunos casos el margen entre los

rendimientos de entrenamiento y validación supera el 20 %, lo que muestra un sobreentrenamiento de las

redes neuronales, por lo cual se dice que la capacidad de generalización de dichos modelos es baja. Cabe

destacar que con todas las características utilizadas para entrenar las redes convolucionales se presenta

sobreajuste a los datos. Aunque las características de entrada que presentan el menor sobreajuste son las

MFCC, también son estas las que tienen los menores rendimientos en el entrenamiento y la validación.

El hecho de evidenciar sobreentrenamiento con la mayoría de topologías implementadas para segmentos

de 10 segundos, da cuenta de que los datos de entrada no brindan información adecuada a los modelos

entrenados, esto puede deberse principalmente a la longitud que representan estos datos, pero también

puede indicar la incapacidad de las redes neuronales de extraer información importante de los datos de

entrada.

En la figura 3.7 se evidencia que para todas las topologías, los mejores rendimientos con los datos

38

10 Segundos DFT Tonos gamma MFCCFiltros %Ent %Val %Ent %Val %Ent %Val16-32 92 63,12 91 66,94 80 61,7316-64 87 58,96 86 65,14 63 56,8816-128 71 58,73 78 65,14 50 49,9432-64 73 58,9 90 66,71 73 62,1432-128 64 54,91 75 62,54 68 57,3464-128 70 60,58 74 65,9 63 54,57

Tabla 3.2: Rendimiento de entrenamiento y validación con CNN para características de entrada individualesy segmentos de 10 segundos.

Figura 3.7: Rendimiento de validación de las topologías de CNN implementadas. Elaboración propia.

de validación son alcanzados con los coeficientes gamma como entrada. Donde el mejor rendimiento

alcanzado es de 66,94 %, que se obtiene con la topología más sencilla entrenada, que consta de 16 y 32

filtros para el primer y segundo bloque convolucional, respectivamente. Sin embargo, el sobreajuste a

los datos es evidente, ya que el rendimiento en entrenamiento es superior en aproximadamente 24 % con

respecto a la validación del modelo. Por otra parte, la topología más compleja entrenada con las mismas

características obtiene un rendimiento de 65,9 % (1 % inferior con respecto al mejor rendimiento), pero el

margen entre los rendimientos de entrenamiento y validación es de aproximadamente 8 %, lo cual es 3

veces menor que el anteriormente evaluado, esto indica una mejor capacidad de generalización del modelo

más complejo.

En la figura 3.8 se representan los tiempos de entrenamiento en función del número de filtros convolu-

cionales, se puede observar cómo los tiempos de entrenamiento con características MFCC y gamma son

similares para todos los casos experimentados, ya que el número de coeficientes extraídos es igual en

ambos casos. Por otra parte, al utilizar DFT con un mayor número de coeficientes, los tiempos de entrena-

miento se elevan con un coeficiente inferior a la representada por la razón del número de coeficientes.

También se evidencia que conforme la complejidad de la red aumenta, los tiempos de entrenamiento

aumentan con una tendencia de crecimiento exponencial.

En la tabla 3.3 se observa la matriz de confusión de la mejor topología entrenada, nótese que la clase

estación de metro tiene el menor rendimiento en validación con apenas un 50 %, pero muy cercano con

las clases metro y sendero peatonal con 52 %. Para el caso de la clase estación de metro, esta presenta las

mayores confusiones con la clase metro y centro comercial, 10,4 % y 8,67 %, respectivamente. La clase

39

Figura 3.8: Número de filtros Vs. tiempo de entrenamiento en minutos con características individualespara las redes neuronales convolucionales implementadas. Elaboración propia.

SAL

IDA

1 65,9 0 3,47 7,51 0 10,4 4,05 9,83 0 0,582 0 80,3 11 4,05 3,47 0 0 0 0,58 14,53 2,31 2,89 52 10,4 2,31 1,73 0 1,73 0 14,54 4,62 0,58 12,7 50,3 0,58 1,73 0 5,2 1,16 6,945 0 2,31 1,16 2,89 86,1 6,36 0 1,73 6,36 1,166 6,36 0 1,16 4,05 2,31 58,4 0,58 17,9 12,7 2,317 14,5 0 1,16 8,67 0 3,47 91,3 9,25 0 08 5,78 0,58 2,31 5,78 0 11 3,47 52 4,05 1,739 0 0 0,58 2,31 2,89 5,2 0,58 1,73 74,6 010 0,58 13,3 14,5 4,05 2,31 1,73 0 0,58 0,58 58,4

1 2 3 4 5 6 7 8 9 10ETIQUETA

Tabla 3.3: Matriz de confusión para la mejor topología de CNN implementada. Elaboración propia.

metro presenta las mayores confusiones con la clase tranvía (14,5 %), estación de metro (12,7 %) y bus

(11 %), en estos casos se evidencia cómo la naturaleza de sonidos propios del transporte urbano influye

sobre la clasificación de la CNN.

Por otra parte, la clase centro comercial tiene el mayor rendimiento en validación con 91,3 % de aciertos,

presentando las mayores confusiones con las clases aeropuerto (4,05 %) y calle peatonal (3,47 %), estos

tres ambientes son altamente concurridos por personas, pero en este caso la CNN puede diferenciar de

buena forma la clase adecuada.

Redes Neuronales Feed-Forward

En la tabla 3.4 se resume el rendimiento en entrenamiento y validación obtenido con las diferentes

topologías de ANN implementadas y en la figura 3.9 se observa la comparación de los rendimientos

con los datos de validación con los tres tipos de características experimentados. Se puede observar que

con los datos de validación el mejor rendimiento es de apenas 55,43 % y se obtiene con entrada de

características gamma, con la topología compuesta por 100-150-10 neuronas en cada capa, de igual

manera con esta misma topología se obtiene el mejor rendimiento con características MFCC. Esta misma

topología entrenada con coeficientes DFT obtiene un rendimiento ligeramente inferior (0,23 %) comparado

40

10 segundos DFT Gamma MFCCNeuronas %Ent %Val %Ent %Val %Ent %Val50-50 100 51,91 90 52,14 70 46,5950-100 100 51,97 93 51,62 75 47,1150-150 100 52,66 95 53,18 77 48,09100-50 100 51,91 93 54,28 78 46,47100-100 100 53,18 97 55,14 81 48,73100-150 100 52,95 95 55,43 80 50,8150-50-50 100 49,25 90 50,87 50 43,8750-100-50 100 50,29 92 51,45 50 46,0750-100-100 100 50,64 92 52,43 55 47,11100-50-100 100 51,56 93 52,25 53 45,43100-100-100 100 50,06 97 53,58 57 46,82

Tabla 3.4: Rendimiento de entrenamiento y validación con MLP para características de entrada individualesy segmentos de 10 segundos.

Figura 3.9: Rendimiento de validación de las topologías de MLP implementadas. Elaboración propia.

con el mejor rendimiento obtenido con este tipo de características (53,18 %).

Por otra parte, es evidente el sobreajuste a los datos de los modelos implementados, esto indica acerca

de una baja capacidad de generalización y plantea el problema de que la red neuronal memoriza los

datos de entrenamiento y por esto cuando se evalúa con nuevos datos el porcentaje de aciertos se reduce

notablemente.

En cuanto a los tiempos de entrenamiento estos son considerablemente menores comparados con los de

CNN. En la tabla 3.5 se observa que el mayor tiempo de entrenamiento es de apenas 6 minutos, mientras

que el mayor tiempo de entrenamiento de CNN es de 884 minutos.

En la tabla 3.6 se muestra la matriz de confusión para el mejor rendimiento entre redes feed-forward, en

esta se puede observar que el menor rendimiento lo obtiene la clase estación de metro, apenas 30,1 %, la

cual sufre las mayores confusiones con la clase calle peatonal (20,2 %), de igual forma sufre confusiones

importantes con la clase metro (12,1 %). Por otra parte la clase trafico ostenta el mayor rendimiento

(73,4 %), pero sufre las mayores confusiones con la clase parque (9,25 %).

También se puede observar que las clases aeropuerto, estación de metro, plaza pública y centro comercial,

sufren las mayores confusiones con la clase calle peatonal, en todos los casos esta confusión está alrededor

41

Neuronas DFT/min Gamma/min MFCC/min50-50 3 3 350-100 3 3 350-150 3 3 3100-50 6 4 5100-100 6 4 4100-150 6 5 550-50-50 4 3 350-100-50 4 3 350-100-100 4 3 3100-50-100 6 5 5100-100-100 6 5 5

Tabla 3.5: Tiempos de entrenamiento en minutos de las diferentes topologías de MLP implementadas.

SAL

IDA

1 51,4 0 1,16 7,51 0 6,36 7,51 4,05 1,73 0,582 0 69,9 12,1 3,47 5,78 1,16 0 1,73 1,16 19,13 1,73 8,09 48 12,1 2,89 6,36 0 4,05 0 16,24 1,73 3,47 5,78 30,1 1,16 2,31 1,16 4,05 4,05 5,25 0 6,36 2,31 2,89 71,1 9,25 0 1,73 9,25 1,166 6,94 1,16 2,89 2,89 2,31 38,2 1,16 12,1 5,2 0,587 14,5 0 0,58 4,62 0 1,16 63 3,47 0 08 19,7 0 5,2 20,2 2,31 22,5 20,8 58,4 4,62 5,789 2,89 0,58 2,89 9,25 8,09 11 6,36 8,09 73,4 0,5810 1,16 10,4 19,1 6,94 6,36 1,73 0 2,31 0,58 50,9

1 2 3 4 5 6 7 8 9 10ETIQUETA

Tabla 3.6: Matriz de confusión para la mejor topología de MLP implementada. Elaboración propia.

del 20 %.

Resultados Obtenidos con Segmentos de 1 Segundo


Como en el experimento anterior y como se puede observar en la figura 3.10, los mejores resultados se

obtuvieron al entrenar las CNN con tonos gamma como entrada, mientras que con las características MFCC

se obtienen los resultados más bajos. Cabe destacar que, pese a que se utilizaron más características DFT

los resultados obtenidos comparados con los de tonos gamma están entre el 4 % y el 8 % en inferioridad,

esto permite plantear la posibilidad de reducir el número de características de este tipo, teniendo en cuenta

que los tiempos de entrenamiento son altos, con respecto a las demás características utilizadas.

Se puede observar en la tabla 3.7, que los mejores resultados en validación alcanzan un 82,56 % con la

topología de 64-128 filtros convolucionales, pero el tiempo que toma en entrenar este modelo es 524

minutos que es aproximadamente 2,5 veces el tiempo que tarda el segundo modelo con mayor rendimiento

compuesto por 32-64 filtros convolucionales (197 minutos), como se muestra en la figura 3.11 y la

diferencia entre ellos es de menos de un 1 % en validación.

En la figura 3.11 se observa la representación de los tiempos de entrenamiento en minutos con respecto

42

1 Segundo DFT Gamma MFCCFiltros %Val %Val %Val16-32 73,74 77,56 68,0816-64 74,2 80,68 69,2116-128 72,99 80,62 70,9132-64 74,71 81,65 70,7932-128 74,47 80,54 70,664-128 74,03 82,56 71,5

Tabla 3.7: Rendimiento de validación con CNN para características de entrada individuales y segmentosde 1 segundo.

Figura 3.10: Rendimiento de validación de las topologías de CNN implementadas con segmentos de 1segundo. Elaboración propia.

a la totalidad del número de filtros convolucionales implementados. En esta gráfica se muestra como

los tiempos de entrenamiento crecen de forma exponencial a medida que aumenta el número de filtros

convolucionales.

Para este experimento, los tiempos de entrenamiento son en general elevados, ya que el menor tiempo

obtenido es de 97 minutos, con la topología compuesta por 16-32 filtros convolucionales entrenada

con características gamma. Por otra parte, el mayor tiempo de entrenamiento es de 1203 minutos, con

características DFT, como se mencionó anteriormente, para este tipo de característica se extrajeron 100

coeficientes por cada segmento.

En la tabla 3.8 se muestra la matriz de confusión para el mejor rendimiento obtenido en la validación.

Se puede observar que el menor rendimiento lo obtiene la clase metro con un 75,17 %, la cual sufre las

mayores confusiones con la clase tranvía (12,21 %). Pese a que es el menor rendimiento para la topología,

este es mayor en 8 % comparado con el rendimiento promedio obtenido con segmentos de 10 segundos

para la mejor CNN. En este caso, la clase parque obtiene el mejor rendimiento, alcanzando 94,5 %,

teniendo las mayores confusiones con la clase plaza publica (1,85 %).


Los resultados obtenidos en entrenamiento y validación con segmentos de 1 segundo se pueden

observar en la tabla 3.9, mientras que en la figura 3.12 se representan los resultados de validación. El

mejor rendimiento alcanzado con los datos de validación es de 66,42 % con el modelo más complejo

43

Figura 3.11: Número de filtros Vs. tiempo de entrenamiento en minutos con características individualespara las redes nueronales convolucionales implementadas. Elaboración propia.

SAL

IDA

1 80,67 0 0,35 3,3 0,06 1,91 3,99 1,85 0,35 0,232 0,12 87,67 4,86 1,74 0,41 0,46 0 0,46 0,41 3,73 0,69 1,1 75,17 3,59 0,41 0,23 0,06 0,87 0,46 2,434 2,03 0,35 3,18 76,74 0,52 1,39 3,01 1,74 1,62 0,465 0,58 1,5 1,5 1,39 94,5 6,31 0,06 1,39 5,73 2,086 3,94 0,17 0,69 2,49 1,84 77,2 2,03 10,65 6,31 0,417 3,53 0 0,12 0,93 0 0,35 84,09 1,16 0,12 0,068 7,81 0,58 1,79 5,79 0,12 8,33 6,37 78,3 2,66 0,939 0,17 0,06 0,12 0,98 1,04 3,07 0,35 2,72 81,77 0,2310 0,46 8,56 12,21 3,07 1,1 0,75 0,06 0,87 0,58 89,47

1 2 3 4 5 6 7 8 9 10ETIQUETA

Tabla 3.8: Matriz de confusión para la mejor topología de CNN implementada con segmentos de 1segundo.Elaboración propia.

entrenado compuesto por 100-100-100-10 neuronas con características de entrada tonos gamma. Sin

embargo, se puede observar que las características MFCC con una topología menos robusta (100-150)

obtiene el segundo mejor rendimiento de todas las topologías implementadas 65,54 %. En la figura 3.12

se puede notar que los rendimientos más pobres en todos los casos se obtienen con las características de

entrada DFT, que en el peor de los casos está por debajo hasta en un 8,8 %, mostrándose en inferioridad

en comparación con las demás características utilizadas.

El mejor rendimiento en validación obtenido con segmentos de 1 segundo supera en aproximadamente

11 % al mejor rendimiento con segmentos de 10 segundos. Se puede ver en la tabla 3.10 la matriz de

confusión, donde la mayoría de las clases obtienen mejor rendimiento que el promedio obtenido con

segmentos de mayor longitud, solo la clase calle peatonal, con un porcentaje de aciertos de 54,28 %, tiene

un rendimiento más pobre, sufriendo las mayores confusiones con la clase plaza pública (9,61 %). Por

otra parte, la clase trafico tiene el mejor rendimiento, alcanzando un 78,7 % en validación, sufriendo las

mayores confusiones con la clase plaza pública (6,66 %).

44

1 Segundo DFT Gamma MFCCNeuronas %Ent %Val %Ent %Val %Ent %Val50-50 75 52,96 67 60,14 65,3 61,3450-100 76 54,7 68 62,04 68,14 62,7750-150 80 55,84 72 63,8 70 63,7100-50 84 54,55 70 61,95 67 61,91100-100 87 55,56 75 62,92 70 63,95100-150 88 56,72 77 64,87 71 65,5450-50-50 78 55,28 70 62,97 64,14 59,9950-100-50 80 57,12 73 64,47 65 61,9250-100-100 83 57,51 74 65,39 67 61,67100-50-100 87 57,11 73 64,72 65 61,5100-100-100 90 58,8 78 66,42 68 63,95

Tabla 3.9: Rendimiento de entrenamiento y validación con MLP para características de entrada individualesy segmentos de 1 segundo.

Figura 3.12: Rendimiento de validación de las topologías de MLP implementadas con segmentos de 1segundo. Elaboración propia.

SAL

IDA

1 73,55 0,23 2,14 7,58 0,52 7,64 9,43 9,61 1,33 1,792 0,23 77,31 11,46 3,07 4,05 0,81 0,06 0,52 0,41 14,413 0,93 4,57 56,54 6,25 3,41 1,33 0,17 1,5 0,98 8,974 4,69 1,1 7,06 59,14 0,81 3,01 2,55 5,32 1,85 4,575 0,29 2,55 1,62 1,1 67,48 6,13 0 0,87 4,51 1,626 4,63 0,69 2,08 4,46 6,19 56,94 2,84 12,56 6,66 2,037 5,5 0,17 0,52 3,13 0,06 2,72 76,45 4,98 0,35 08 8,45 0,81 2,78 6,31 1,27 9,32 7,7 54,28 3,82 1,339 0,87 1,39 2,26 3,65 10,13 9,84 0,64 7,47 78,7 1,4510 0,87 11,17 13,54 5,32 6,08 2,26 0,17 2,89 1,39 63,83

1 2 3 4 5 6 7 8 9 10ETIQUETA

Tabla 3.10: Matriz de confusión para la mejor topología de MLP implementada con segmentos de1segundo. Elaboración propia..

45

3.4.2. Experimento 1B: Entrenamiento Con Características de EntradaCombinadas

Para la segunda parte del primer experimento, se plantea realizar la combinación de las características

extraídas a cada audio. Teniendo en cuenta los elevados tiempos de entrenamiento con características DFT

se decidió reducir el número de características a utilizar a 50. De esta manera, la dimensión de la imagen

de entrada es de [80x20x1] para segmentos de 1 segundo y [80x199x1] para segmentos de 10 segundos,

cuando se combinan característica MFCC-Gamma, mientras que cuando se realizan combinaciones

MFCC-DFT, DFT-Gamma, el tamaño de las entradas será de [90x199x1] y [90x20x1], para 10 y 1

segundo, respectivamente. Al combinar los tres tipos de características exploradas, la dimensión de

entrada es de [130x20x1] y [130x199x1], para segmentos de 1 y 10 segundos, respectivamente.

En los experimentos anteriores se observó que el aumento del número de coeficientes de un tipo no

garantiza un mejor rendimiento en la validación de los modelos implementados. Muestra de ello son los

resultados obtenidos con 100 coeficientes DFT, que en ningún caso superaron el rendimiento obtenido

por 40 coeficientes gamma. Adicionalmente, el tiempo de entrenamiento aumentaba considerablemente,

lo cual presentaba esta alternativa como inviable. Pero en esta parte de la experimentación se combinan

diferentes tipos de características con el fin de entregar más información a las redes neuronales y de esta

manera, se realice el ajuste de los parámetros con mayor precisión y así obtener mejoras en la validación

de los modelos implementados.

Como se observó en los experimentos anteriores, el tiempo de entrenamiento de las topologías feed-

forward es menor comparado con las topologías de CNN, es por esto que la experimentación con ANN

se realiza con la totalidad de topologías, mientras que con CNN la experimentación se ejecuta con las

mejores topologías encontradas en el Experimento 1A.

Resultados Obtenidos con Segmentos de 10 Segundos


Debido a los prolongados tiempos de entrenamiento empleados por las CNN, se entrenaron los

modelos que ajustan los parámetros entrenables en los menores tiempos y a su vez obtenían los mejores

resultados en términos de rendimiento. En este sentido, para combinación de dos tipos de característica se

entrenaron dos modelos, el primero consta de 16-32 filtros convolucionales en cada bloque, mientras que

el segundo consta de 32-64 filtros en cada bloque. Para la combinación de tres características se entrenó el

modelo más sencillo experimentado.

Los resultados de entrenamiento y validación se recopilan en la tabla 3.11, mientras que en la figura 3.13

se muestra solo los rendimientos en validación, en esta se puede observar que los mejores rendimientos

se obtienen con la combinación de coeficientes gamma y MFCC,alcanzando el 73,24 % de validación,

superando incluso la combinación de tres características en aproximadamente 0,75 % y las combinaciones

de otras dos características hasta en un 9,25 %.

Recordando el mejor resultado alcanzado con CNN y los con coeficientes gamma, logró un 66,94 % de

rendimiento en validación (tabla 3.2). Nótese que este rendimiento es aproximadamente 6 % inferior

comparado con el mejor resultado alcanzado en este experimento (73,24 %) con la topología compuesta

por 16-32 filtros por bloque convolucional. Cabe destacar que el tiempo que tarda en entrenar el mejor

modelo con características combinadas es de 83 minutos, como se puede observar en la tabla 3.12 y este

46

10 Segundos DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCCFiltros %Ent %Val %Ent %Val %Ent %Val %Ent %Val16-32 90 66,42 89 67,98 85 73,24 90 72,4932-64 82 65,72 83 66,18 82 69,19 – –

Tabla 3.11: Rendimiento de entrenamiento y validación con CNN para características de entrada combina-das y segmentos de 10 segundos.

Figura 3.13: Rendimiento de validación de las topologías de CNN implementadas con segmentos de 10segundos y características de entrada combinadas. Elaboración propia.

Filtros DFT-Gamma/min DFT-MFCC/min Gamma-MFCC/min DFT-Gamma-MFCC/min16-32 90 88 83 13332-64 238 231 231 –

Tabla 3.12: Tiempos de entrenamiento en minutos de las diferentes topologías de CNN implementadas.

es aproximadamente el doble de tiempo que se tarda con características individuales gamma (42 minutos).

En la tabla 3.12 se recopilan los tiempos que toman los modelos en entrenarse, se puede observar que

el modelo que ostenta el mejor rendimiento tiene el menor tiempo de entrenamiento, 83 minutos. Los

tiempos de entrenamiento son comparables entre topologías cuando se utilizan combinaciones de dos

características, ya que la variación en el tamaño de los datos de entrada no es elevada.

En la tabla 3.13 se observa la matriz de confusión de la mejor topología alcanzada. En esta se puede

observar que la clase con el menor rendimiento es plaza pública con apenas un 50,87 % de aciertos,

sufriendo las mayores confusiones con la clase calle peatonal (24,28 %). El mayor porcentaje de aciertos

es conseguido por la clase parque, alcanzando 89,02 %, apenas tiene un 5,2 % de confusión con la clase

plaza pública.

Con respecto a los resultados del experimento 1A, tres clases bajan su rendimiento, la clases Bus, Plaza

pública y Centro comercial, en aproximadamente un 5 %, 7,5 % y 9 %, respectivamente. Por otra parte la

clase Tranvía aumenta su rendimiento en aproximadamente 26 %, alcanzando casi 85 % de aciertos en

clasificación.

De igual manera el rendimiento promedio pasó de 66,93 % con características individuales a 73,24 % con

la combinación de características gamma-MFCC, esto representa un aumento del 6,3 %.

47

SAL

IDA

1 69,94 0 0 8,67 0 4,05 5,2 3,47 0 02 0,58 75,14 7,51 0,58 0 0 0 0 0,58 4,623 0 4,05 64,74 13,87 0 0,58 0 0,58 0 5,24 4,05 0 2,31 57,8 0 0,58 1,16 2,31 3,47 1,165 0 1,16 0 0 89,02 5,78 0 2,89 4,62 1,736 1,73 0 0 0 5,2 50,87 0 3,47 4,62 1,737 5,78 0 0 1,73 0 7,51 82,08 3,47 0 08 17,92 0 0,58 8,67 1,73 24,28 11,56 75,72 4,05 0,589 0 0,58 0 0 0 4,62 0 4,05 82,08 010 0 19,08 24,86 8,67 4,05 1,73 0 4,05 0,58 84,97

1 2 3 4 5 6 7 8 9 10ETIQUETA

Tabla 3.13: Matriz de confusión para la mejor topología de CNN implementada con combinación decaracterísticas. Elaboración propia

10 Segundos DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCCNeuronas %Ent %Val %Ent %Val %Ent %Val %Ent %Val50-50 100 58,27 100 58,09 93 59,77 100 62,6650-100 100 58,21 100 59,25 98 59,54 100 64,9150-150 100 58,03 100 57,05 96 61,56 100 64,86100-50 100 60,17 100 58,03 93 60,06 100 65,14100-100 100 60 100 58,27 98 62,77 100 65,38100-150 100 59,48 100 58,03 97 62,95 100 66,5350-50-50 100 55,61 100 54,68 93 56,42 100 62,1450-100-50 100 55,2 100 55,9 94 58,27 100 62,0850-100-100 100 56,99 100 56,13 96 58,27 100 63,06100-50-100 100 55,61 100 55,2 96 59,31 100 63,82100-100-100 100 58,38 100 55,14 96 58,96 100 63,87

Tabla 3.14: Rendimiento de entrenamiento y validación con MLP para características de entrada combina-das y segmentos de 10 segundos.


Como se pudo observar en el experimento 1A, los tiempos de entrenamiento de los MLP son bajos,

por lo cual es posible entrenar todas las topologías planteadas anteriormente. En la tabla 3.14 se puede

observar que el mejor resultado en validación se obtiene con la topología compuesta por tres capas con

100-150-10 neuronas, alcanzando un 66,53 %. Este resultado es comparable con la mejor validación

obtenida con un solo tipo de característica y CNN.

Este rendimiento promedio de validación representa una mejora de 11,1 % comparado con el mejor

resultado obtenido al entrenar con un solo tipo de característica. Es destacable que ambos resultados se

obtuvieron con la misma topología, sin embargo, el tiempo de entrenamiento del modelo con características

combinadas es 2,4 veces más alto que el entrenado con características individuales.

En la tabla 3.15 se muestra la matriz de confusión para el mejor resultado en validación, se puede

observar que el menor rendimiento es alcanzado por la clase plaza pública con apenas 43,93 % de aciertos,

sufriendo la confusión más alta con la clase calle peatonal. Mientras que el mejor resultado se obtiene

con la clase centro comercial alcanzando un 83,82 % y teniendo los mayores inconvenientes con la clase

48

SAL

IDA

1 56,65 0 1,16 8,67 0 6,36 7,51 10,98 0,58 1,162 0 81,5 7,51 0,58 1,73 0,58 0 0 1,16 11,563 0 6,94 62,43 9,83 1,16 2,31 0 0,58 0 10,44 7,51 0,58 10,98 61,85 1,73 4,62 2,89 5,2 2,89 5,25 0 0,58 1,16 0,58 81,5 9,25 0 1,16 6,36 4,056 4,62 0 2,89 5,2 2,89 43,93 2,31 16,18 5,78 0,587 19,65 0 0 3,47 0 5,2 83,82 12,14 0 08 9,83 0,58 0 4,05 4,05 16,76 3,47 49,71 3,47 1,739 1,73 0,58 1,16 3,47 2,31 8,09 0 2,31 79,77 1,1610 0 9,25 12,72 2,31 4,62 2,89 0 1,73 0 64,16

1 2 3 4 5 6 7 8 9 10ETIQUETA

Tabla 3.15: Matriz de confusión para la mejor topología de MLP implementada con combinación decaracterísticas. Elaboración propia.

1 Segundo DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCCFiltros %Ent %Val %Ent %Val %Ent %Val %Ent %Val16-64 82 81,71 82 81,36 87 87,31 – –16-128 82 81,24 82 82,33 87 86,99 – –32-64 82 82,17 83 82,87 87 87,31 88 87,96

Tabla 3.16: Rendimiento de entrenamiento y validación con CNN para características de entrada combina-das y segmentos de 1 segundo.

aeropuerto, con un 7,51 % de confusión.

Con respecto al experimento 1A, el rendimiento promedio en validación aumentó en aproximadamente

11 %. La clase que experimentó la mayor mejoría fue estación de metro, que pasó de un 30,1 % a 62,43 %.

Por otra parte la única clase que disminuyó el porcentaje de aciertos fue la clase calle peatonal, que pasó

de un 58,4 % a un 49,71 % en validación.

En las tablas 3.13 y 3.15, se puede observar que en ambos casos la clase plaza pública es la que tiene el

menor porcentaje de aciertos y de igual manera sufre las mayores confusiones con la clase calle peatonal.

Resultados Obtenidos con Segmentos de 1 Segundo


Con segmentos de 1 segundo, se entrenaron 3 topologías de CNN. Se puede observar en la tabla 3.16

que el mejor rendimiento es obtenido utilizando una combinación de las tres características exploradas,

alcanzando un 87,96 % de aciertos en la validación de datos. Este resultado supera en 0,65 % al modelo

con el segundo mejor rendimiento (87,31 %), pero el tiempo de entrenamiento del mejor modelo es

aproximadamente el doble del segundo modelo, como se puede observar en la tabla 3.17.

Por otra parte, si se comparan los mejores resultados obtenidos con segmentos de un segundo, el modelo

entrenado con un solo tipo de característica tiene un rendimiento inferior en un 5,4 % y su tiempo de

entrenamiento es 14 minutos más bajo aproximadamente.

En la matriz de confusión de la tabla 3.18 se observa que el menor rendimiento es de 77,78 % de aciertos,

para la clase calle peatonal. Este resultado es inferior en 0,52 % comparado con el obtenido con el

experimento con un solo tipo de característica, es de destacar que la clase tranvía bajó su rendimiento en el

49

Filtros DFT-Gamma/min DFT-MFCC/min Gamma-MFCC/min DFT-Gamma-MFCC/min16-64 279 293 262 –16-128 631 630 574 –32-64 372 403 352 538

Tabla 3.17: Tiempo de entrenamiento en minutos con CNN para características de entrada combinadas ysegmentos de 1 segundo.

mismo porcentaje. Por otra parte la clase parque tiene un rendimiento de 97,16 %, nuevamente esta clase

tiene el mejor rendimiento, mejorando en 2,66 %. Cabe destacar que la clase metro, que en el experimento

1A obtuvo el menor rendimiento, aumentó el porcentaje de aciertos en 14,93 %.

SAL

IDA

1 89,53 0 0 2,84 0,12 2,37 6,19 5,79 0,17 0,232 0 93,46 1,97 0,23 0,06 0,17 0 0,06 0,12 2,723 0,12 2,84 90,1 4,75 0,23 0,69 0 0,35 0,93 5,384 0,93 0,23 2,31 82,64 0,17 0,75 1,39 1,33 1,39 0,695 0,17 0,69 0,41 0,98 97,16 3,24 0,06 1,1 2,37 1,16 3,13 0,06 0,35 1,85 0,87 82,99 2,08 9,2 4,11 0,757 3,01 0 0 1,62 0,12 0,93 87,79 1,97 0,12 08 2,95 0,06 0,35 2,72 0,58 4,8 2,43 77,78 1,56 0,179 0,06 0,23 0,12 0,93 0,58 3,59 0,06 1,74 89,18 0

10 0,12 2,43 4,4 1,45 0,12 0,46 0 0,69 0,06 88,951 2 3 4 5 6 7 8 9 10

ETIQUETA

Tabla 3.18: Matriz de confusión para la mejor topología de CNN implementada con combinación decaracterísticas.


En la tabla 3.19 se muestran los rendimientos en entrenamiento y validación, en esta se puede

observar que la combinación de características Gamma-MFCC presenta los menores margenes entre

los rendimientos, entre un 5 %-10,87 %. En la figura 3.14 se consolidan los resultados obtenidos al

entrenar diferentes topologías de red neuronal feed-forward con características de entrada combinadas.

Se puede observar que con la unión de características Gamma-MFCC se obtienen los mejores resultados

en la validación de los modelos, al contrario de lo que se podría pensar, al combinar las características

DFT-Gamma-MFCC los rendimientos son más bajos, pese a que se entrega un mayor número de datos a

los modelos, estos no aportan información para la solución del problema.

El mejor rendimiento en la validación de los modelos es de 76,13 %, el cual es 10 % superior comparado

con el mejor rendimiento alcanzado en el experimento realizado con una sola característica de entrada.

Como en el experimento anterior, los mejores resultados se obtienen con la topología compuesta por

cuatro capas con 100-100-100-10 neuronas.

En la tabla 3.20 se muestra la matriz de confusión para el mejor modelo entrenado. Se puede observar que

el rendimiento más bajo es de 62,44 % y es alcanzado con la clase plaza pública, esta tiene los mayores

problemas con la clase calle peatonal (9,38 %). Por otra parte el mayor rendimiento es de 89,64 % con la

clase parque, que con respecto al resultado del experimento 1A, tiene el mayor porcentaje de mejora en

su rendimiento que alcanza el 22,16 %. Cabe destacar que el rendimiento de todas las clases aumentó

50

1 Segundo DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCCNeuronas Entr Val Entr Val Entr Val Ent Val50-50 81 60,42 84,23 60,98 77,83 69,85 87 66,8350-100 85,84 61,83 86,34 62,43 78 73 85 68,8750-150 86 63,13 86,97 63,54 81,56 73,35 90 70,06100-50 87 61,59 89,45 62,02 80,67 70,56 90 68,04100-100 90 62,85 91,44 64,4 83,59 75,5 90 69,47100-150 89 64,02 91,83 65,39 85 74,22 92 70,8150-50-50 87,27 62,29 87,79 64,34 79 71,86 92 68,8450-100-50 88 64,33 89,7 65,17 85 74,6 95 71,0750-100-100 89,21 64,65 91,77 65,34 85,16 75,62 95 72,01100-50-100 95 64,42 94,06 64,77 85 75,04 97 71,71100-100-100 95 66,43 95,72 66,13 87 76,13 97 73,16

Tabla 3.19: Rendimiento de entrenamiento y validación con MLP para características de entrada combina-das y segmentos de 1 segundo.

Figura 3.14: Rendimiento de validación de las topologías de MLP implementadas con segmentos de 1segundo y características de entrada combinadas. Elaboración propia.

con respecto al experimento anterior, desde un 1,33 % de la clase aeropuerto hasta el 22,16 % de la clase

parque.

3.5. Análisis de Resultados

En la tabla 3.21 se recopila el resumen de los mejores rendimientos obtenidos para los experimentos

1A y 1B. Se pudo observar que en todos los casos el rendimiento de las redes neuronales convolucionales

supera al obtenido con redes feed-forward. En este sentido, el aumento del rendimiento va desde un 6,71 %

entrenando con características de entrada combinadas con segmentos de 10 segundos, hasta un 16,14 %

entrenando con características individuales y segmentos de 1 segundo.

Al realizar los experimentos con segmentos de 1 segundo se pudo observar que los rendimientos de

entrenamiento y validación con redes convolucionales en todos los casos eran totalmente comparables, es

decir que se eliminaba prácticamente el sobreajuste a los datos. Esto se debe a que la red neuronal tiene un

mayor número de datos que representan información que permite ajustar los parámetros de la red de mejor

51

SAL

IDA

1 74,88 0,06 0,35 3,7 0,52 6,83 6,42 8,1 0,98 0,872 0,06 83,91 7,47 1,16 0,41 0,64 0 0,52 0,52 13,023 0,12 8,39 76,74 8,04 0,41 1,45 0,06 0,81 1,68 10,074 5,67 1,16 4,28 73,21 1,5 3,53 2,72 5,15 3,24 3,655 0,41 1,1 1,5 1,39 89,64 5,27 0 1,79 2,2 1,746 2,2 0,23 0,75 2,66 3,07 62,44 1,68 7,06 5,5 0,937 8,8 0 0,12 2,26 0,06 3,65 85,59 6,31 0,69 0,068 7,18 0,29 0,29 2,95 1,27 9,38 3,3 65,1 1,91 0,989 0,41 0,35 1,5 2,08 1,91 6,08 0,17 3,7 82,64 1,56

10 0,29 4,51 7 2,55 1,22 0,75 0,06 1,45 0,64 67,131 2 3 4 5 6 7 8 9 10

ETIQUETA

Tabla 3.20: Matriz de confusión para la mejor topología de MLP implementada con combinación decaracterísticas.

Individual/ % Combinada/ %Segmento CNN MLP CNN MLP10 seg 66,94 55,43 73,24 66,531 seg 82,56 66,42 87,96 76,13

Tabla 3.21: Resumen de rendimiento de validación de MLP y CNN con segmentos de 1 y 10 segundos.

Individual/min Combinada/minSegmento CNN MLP CNN MLP10 seg 42 5 83 121 seg 524 29 538 33

Tabla 3.22: Resumen de tiempos de entrenamiento de las mejores topologías de MLP y CNN consegmentos de 1 y 10 segundos.

manera, adicionalmente, los segmentos de menor duración facilitan la identificación de características

relevantes para la solución del problema de clasificación de escenas acústicas.

Si se comparan los rendimientos con segmentos de entrada de 1 y 10 segundos, se observan mejores resul-

tados con los segmentos más cortos (1 segundo). El porcentaje de mejora va desde un 9,6 % entrenando

MLP con características combinadas, hasta un 15,62 % entrenando con características individuales una

CNN.

De igual manera, el rendimiento de las redes neuronales mejora al combinar las características de entrada.

Incluso es con las combinaciones de características que se obtienen los mejores resultados para CNN

(87,96 %) y para MLP (76,13 %). El porcentaje de mejora con respecto a las características individuales

va desde un 5,4 % con CNN y segmentos de 1 segundo hasta un 11,1 % con MLP y segmentos de 10

segundos.

Por otra parte, los tiempos de entrenamiento de las redes neuronales convolucionales son mucho más altos

que los tiempos de las redes neuronales feed-forward. Como se observa en la tabla 3.22, el mayor tiempo

de entrenamiento se obtiene entrenando una CNN con 32-64 filtros convolucionales en cada bloque con

todas las características combinadas en segmentos de 1 segundo, que tarda 538 minutos en ajustar los

parámetros y obtener el mejor rendimiento alcanzado en el experimento 1.

Como se observó en el capítulo y se resumen en la tabla 3.23, las redes neuronales convolucionales tienen

52

DFT/ %

Gamma/ %

MFCC/ %

DFT-Gamma/ %

DFT-MFCC/ %

Gamma-MFCC/ %

DFT-Gamma-MFCC / %

CNN1 seg 74,71 82,56 71,5 82,17 82,87 87,31 87,9610 seg 63,12 66,94 62,14 66,42 67,98 73,24 72,49

MLP1 seg 58,8 66,42 65,54 66,43 66,13 76,13 73,1610 seg 53,18 55,43 50,81 60 59,25 62,95 66,53

Tabla 3.23: Mejores rendimientos con segmentos de 1 y 10 segundos con características no transformadaspara datos de validación.

en general un mejor rendimiento que las redes feed-forward, adicionalmente, los modelos entrenados

pueden generalizar de mejor manera al ser entrenados con datos que representan segmentos de tiempo

más cortos. De igual manera, el rendimiento en validación también se afecta positivamente al concatenar

características, debido a que se brinda mayor información a las redes neuronales y estas pueden ajustar

sus parámetros de forma más precisa.

En contraposición a los mejores rendimientos están los tiempos de entrenamiento, que empiezan a ser

considerables a medida que los modelos se hacen más complejos. Este comportamiento era esperado,

pues se tienen que hacer un mayor número de cálculos y ajustes de parámetros. De igual manera, se

observó la relación directa que existe entre el crecimiento de los tiempos de entrenamiento y el número

de coeficientes utilizado, que como se pudo notar con coeficientes DFT un número mayor de estos no

garantiza un mejor rendimiento de los modelos. Este efecto permite observar que puede existir un número

de coeficientes que no aportan a la solución del problema de clasificación y que adicionalmente hay

un tipo de características más apropiada para entrenar los modelos, como lo son los tonos gamma que

en todos los casos obtuvieron los mejores porcentajes de aciertos con los datos de validación, como se

muestra en la tabla 3.23.

Es posible comparar los resultados obtenidos con trabajos realizados utilizando la base de datos DCA-

SE18, pero es necesario recordar que estos han sido desarrollados con segmentos de 10 segundos, por lo

cual la comparación se realiza únicamente con estos resultados.

El modelo base propuesto en [14] tiene un rendimiento promedio de 59,7 %, teniendo la clase plaza

pública el rendimiento más bajo con 40,4 %, mientras que la clase trafico tiene el rendimiento más alto

alcanzando 80,5 %. Por otra parte el trabajo que en su momento ostentó el mejor rendimiento [16], alcanza

en promedio un 76,9 %, teniendo la clase plaza pública el rendimiento más bajo con 50 %, mientras que la

clase trafico tiene el rendimiento más alto alcanzando un 91,8 %.

Los primeros modelos propuestos en este trabajo se basan en redes neuronales feed-forward, el mejor de

estos tiene un rendimiento promedio de 66,53 %, el cual es superior al modelo base en un 6,8 %, pero

inferior al mejor modelo en 10,3 %. En tanto a la clase que ostenta el mejor rendimiento es la clase centro

comercial, que alcanza 83,82 %, mientras que la clase plaza pública tiene el menor rendimiento, con

apenas 43,93 % de aciertos.

Los segundos modelos propuestos en este trabajo se basan en CNN, el mejor de estos alcanza en promedio

73,24 % de aciertos, donde la clase plaza pública tiene el rendimiento más bajo, alcanzando 50,87 %,

mientras que la clase parque alcanza el mayor rendimiento con un 89,02 %.

Se puede observar que los modelos propuestos en este trabajo, en ambos casos superan el rendimiento

promedio del sistema base, y que el modelo propuesto de CNN tiene un rendimiento promedio inferior en

53

3,66 % comparado con el mejor modelo presentado. Es destacable que la clase plaza pública en los casos

comparados ostenta el menor rendimiento, que en el mejor de los casos apenas supera el 50 %.

54

Capítulo 4

Entrenamiento con característicasreducidas

En el experimento anterior (sección 3.4) se pudo observar que los mejores rendimientos en validación

se alcanzaron con entradas que representan segmentos de 1 segundo y con las topologías de red neuronal

convolucional, por lo cual, en la segunda parte de la experimentación se decide omitir los entrenamientos

con segmentos de 10 segundos y los entrenamientos de redes neuronales feed-forward.

En este experimento se utiliza el análisis de componentes principales (PCA) para reducir el número de

coeficientes de cada tipo de característica usada DFT, Gamma y MFCC. En la figura 4.1 se observa el

proceso de preprocesamiento de la información, el cual es similar al representado en la figura 3.1, pero en

este caso se agrega un bloque correspondiente al proceso de reducción de características utilizando PCA.

Para este análisis se parte de considerar que existe una linealidad entre características, que permitirá reducir

adecuadamente la cantidad de coeficientes además de tener en cuenta que la pérdida de información no

sea alta al reducir las características.

Al igual que para el experimento 1 (sección 3.4) se plantea separar los datos por clase en un 80 % para

entrenamiento y 20 % para validación que posteriormente serán concatenados en forma secuencial todos

los datos que se usarán para entrenamiento, donde dichos datos se utilizarán para obtener la matriz llamada

A (sección 2.3.1) bajo el análisis de componentes que permitirá realizar la transformación y posterior

reducción en características tanto con los datos de entrenamiento como de validación, evitando que estos

últimos interfieran en el proceso. Una vez transformados los datos, se usará la información obtenida de la

figura 4.2 para considerar la cantidad mínima de características a usar y así evaluar el comportamiento de

las redes neuronales en el proceso de clasificación de esta tarea con los datos que se consideren necesarios.

4.1. Experimento 2: Reducción de características utilizando PCA

Para la parte A del experimento 2 se considera el análisis individual de los tres tipos de características

DFT, gamma y MFCC. En esta parte se establece un criterio para la reducción basado en superar el

90 % de la información contenida en los datos originales. En la figura 4.2 se puede observar que bajo

esta consideración se han dispuesto de lineas punteadas en los puntos de corte situados en (6,97), (7,93),

(50,90). Por lo tanto con este criterio los coeficientes gamma, se redujeron de 40 a 6, representando así un

55

Figura 4.1: Proceso de reducción de características utilizando PCA. Elaboración propia.

97 % de la información contenida en los coeficientes originales. Para los coeficientes MFCC la reducción

fue de 40 a 7, logrando representar aproximadamente un 93 % de la información original. Finalmente

para coeficientes DFT la reducción se realizó de 100 a 50 coeficientes, representando un 90 % de la

información.

Para la parte B de la experimentación se considera aumentar la cantidad de información representada

anteriormente mediante PCA, haciendo la reducción de características menos drástica, manteniendo

en consideración el objetivo de la reducción de los tiempos de entrenamiento, como se ve en la figura

4.2 y usando como guía las lineas continuas, se puede observar que los puntos de corte se ubican en

(15,99), (15,97) y (50,90). De esta manera los coeficientes gamma y MFCC, se redujeron de 40 a 15,

representando 99 % y 97 % de la información contenida en los coeficientes originales, respectivamente.

Para las características de tipo DFT se mantiene la reducción a 50 coeficientes con el fin de evitar el

aumento de los tiempos de entrenamiento innecesariamente, ya que anteriormente se ha observado que

estos crecen exponencialmente.

El objetivo del experimento 2 es evaluar el efecto que tiene la reducción de características utilizando

PCA, con base en dos criterios que se han venido mencionando a lo largo del documento. El primero

es el rendimiento en validación de las redes neuronales convolucionales propuestas en el experimento

1 (sección 3.4), que resultan interesantes de comparar. El segundo criterio que se tiene en cuenta es el

tiempo de entrenamiento de los modelos con los nuevos datos transformados. De esta manera es posible

56

Figura 4.2: Número de características Vs. Información representada utilizando PCA

dar un concepto de la factibilidad de implementar PCA para simplificar la resolución del problema de

clasificación acústica de escenas urbanas.

4.1.1. Experimento 2A: Primer Entrenamiento con Características de EntradaReducidas

Como se mencionó anteriormente, en el experimento 2 se entrenan las redes neuronales con caracte-

rísticas reducidas mediante la aplicación de análisis de componentes principales. En el experimento 2A

se utilizan como datos de entrada 50 coeficientes DFT, 6 coeficientes gamma, 7 coeficientes MFCC y

posteriormente la concatenación de estas características.

Cabe destacar que los entrenamientos solo se realizan con segmentos de 1 segundo. Por esto, el tamaño de

las matrices de entrada será de [50x20x1], [6x20x1] y [7x20x1], para características de entrada indivi-

duales DFT, gamma y MFCC, respectivamente. Mientras que para las combinaciones será de [57x20x1],

[56x20x1], [13x20x1] y [63x20x1], para DFT-Gamma, DFT-MFCC, gamma-MFCC y DFT-Gamma-

MFCC, respectivamente.

Entrenamiento con características individuales

En la tabla 4.1 se recopilan los resultados obtenidos cuando se entrenan redes neuronales convolucio-

nales con características de entrada individuales. Se puede observar que con entradas gamma y MFCC los

rendimientos son muy bajos, apenas alcanzando 42 % y 51,88 % máximo, respectivamente.

Con respecto a los resultados obtenidos en el experimento 1A, los rendimientos con características gamma

bajan entre 38 % y 40,92 %, mientras que con MFCC el rendimiento en validación disminuye entre

18,84 % y 19,73 %. Por otra parte con características DFT el rendimiento es aproximadamente igual, pero

es necesario tener en cuenta que en este caso se puede decir que se presenta sobreajuste, ya que el margen

entre el rendimiento de entrenamiento y validación esta entre 9 % - 18 %, cabe recordar que este efecto no

se ha presentado cuando se entrenó con las características no reducidas.

En la tabla 4.2 se recopilan los tiempos de entrenamiento de los modelos implementados. Como era

57

de esperarse con características DFT el entrenamiento toma los mayores tiempos, pero con respecto al

experimento 1A se redujeron a aproximadamente la mitad.

La reducción de coeficientes gamma y MFCC fue aproximadamente de 85 %, pero la reducción máxima

en los tiempos de entrenamiento fue del 78 % para el modelo más complejo entrenado, ya que pasó de

entrenarse en 524 minutos con todas las características a 112 minutos, mientras que para el modelo más

sencillo la reducción fue de aproximadamente 50 %, pasando de aproximadamente 100 minutos a 46

minutos.La reducción en los tiempos de entrenamiento es evidente, afectando en mayor proporción los

modelos más complejos, pero los rendimientos de validación alcanzados son deficientes.

Entrenamiento con características combinadas

En la tabla 4.3 se recopilan los resultados obtenidos al entrenar las CNNs con combinaciones

de características. Se puede observar que el mejor rendimiento se alcanza entrenando la topología

más compleja implementada, alcanzando 81,6 %. Con respecto al mejor resultado del experimento 1B

(87,96 %), el rendimiento en validación disminuye en 6,36 %. En la figura 4.3 se muestra el tiempo de

entrenamiento de estas topologías, si se analiza el tiempo de entrenamiento de los modelos que obtuvieron

los mejores rendimientos en validación, se observa que en el experimento 2A el mejor modelo toma 178

minutos más que el modelo del experimento 1B.

4.1.2. Experimento 2B: Segundo Entrenamiento con Características deEntrada Reducidas

Los resultados obtenidos en el experimento 2A no se pueden considerar satisfactorios, ya que se han

obtenido resultados más pobres y adicionalmente los tiempos de entrenamiento no se redujeron para los

modelos que obtienen los mejores rendimientos comparando con el experimento 1. Por este motivo se

DFT GAMMA MFCCFiltros %Ent %Val %Ent %Val %Ent %Val16-32 80,87 71,6 41,84 39,56 51,14 48,6716-64 86,46 73,25 43,85 40,54 53,6 49,4816-128 90,13 73,51 44,44 40,32 55,84 51,2432-64 87,22 73,39 44,54 40,73 55,75 51,1632-128 90,24 74,06 47,09 41,71 57,77 51,7664-128 91,41 73,22 47,23 42,07 58,66 51,88

Tabla 4.1: Rendimiento de entrenamiento y validación con CNN para características de entrada individualesreducidas.

DFT/min GAMMA/min MFCC/min16-32 97 46 4816-64 147 53 5616-128 306 76 7832-64 204 61 6532-128 380 85 8864-128 579 112 119

Tabla 4.2: Tiempos de entrenamiento en minutos de CNN con características de entrada reducidas

58

DFT-GAMMA DFT-MFCC GAMMA-MFCC DFT-GAMMA-MFCCFiltros %Ent %Val %Ent %Val %Ent %Val %Ent %Val16-32 83,5 73,34 85,81 76,32 66,95 61,98 88,31 77,9616-64 88,64 74,81 90,17 77,94 70,72 63,92 92,76 79,5316-128 91,92 75,65 93,78 78,81 73,46 65,36 95,72 80,6932-64 89,13 75,68 92,26 79,25 72,14 65,23 93,23 79,7732-128 93,03 75,62 94,82 79,2 76,06 66,79 96,11 80,8464-128 93,72 76,27 95,48 80,01 76,46 67,07 96,98 81,6

Tabla 4.3: Rendimiento de entrenamiento y validación con CNN para características de entrada combinadasreducidas.

Figura 4.3: Número de filtros Vs. tiempo de entrenamiento en minutos con características combinadasreducidas. Elaboración propia.

plantea realizar un experimento 2B, en este se transforman de 40 coeficientes a 15, para características

gamma y MFCC, mientras que para características DFT se continúa con los 50 coeficientes transformados

para el experimento anterior.

Las dimensiones de las entradas para coeficientes individuales son de [50x20x1] para características

DFT, mientras que para características gamma y MFCC son de [15x20x1]. Las dimensiones de entrada

para características combinadas son de [65x20x1] para las Gamma-DFT y MFCC-DFT, [30x20x1] para

MFCC-Gamma y finalmente [80x20x1] para la combinación MFCC-Gamma-DFT.

Entrenamiento con características individuales

En la tabla 4.4 se consolidan los resultados obtenidos entrenando CNN con características de entrada

individuales. Se puede observar que en general el rendimiento en validación de las diferentes topologías

mejora con respecto a lo obtenido en el experimento 2A entrenando con características individuales, ya

que se pasa de un 74,06 % a un 75,22 %, en ambos casos las características son DFT y pese a haber

mejorado con características gamma y DFT el rendimiento entre 18,11 % -22,92 % y 9,1 %-12,11 %,

respectivamente, aun los rendimientos no son comparables con los obtenidos en el experimento 1A. Para

los datos de validación, el mejor resultado en el experimento 2B (75,22 %) es inferior en aproximadamente

7,3 % comparado con el mejor resultado del experimento 1A (82,56 %).

59

DFT GAMMA MFCCFiltros %Ent %Val %Ent %Val %Ent %Val16-32 79,93 70,5 63,02 57,67 63,6 57,7716-64 85,97 72,9 68,61 60,61 68,45 60,9416-128 89,57 72,91 72,62 63,24 74,36 63,3532-64 87,75 73,7 69,41 61,6 70,48 61,3432-128 91,13 73,85 75,67 64,55 75,2 63,6964-128 91,6 75,22 76,64 64,71 76,71 63,56

Tabla 4.4: Rendimiento de entrenamiento y validación con CNN para características de entrada individualesreducidas.

DFT-GAMMA DFT-MFCC GAMMA-MFCC DFT-GAMMA-MFCCFiltros %Ent %Val %Ent %Val %Ent %Val %Ent %Val16-32 88,93 76,96 88,85 78,96 81,43 73,44 91,61 80,5916-64 91,8 78 92,82 79,48 86,84 76,44 95,58 81,5216-128 94,68 78,52 96,28 80,97 90,61 78,14 97,66 82,4232-64 92,88 78,6 94,42 81 87,59 76,95 96,1 82,4232-128 95,67 79,06 96,35 81,08 91,39 78,14 98,16 82,6864-128 96,04 79,15 96,92 82,08 93,17 79,73 98,17 82,89

Tabla 4.5: Rendimiento de entrenamiento y validación con CNN para características de entrada combinadasreducidas.

Filtros DFT-Gamma/min DFT-MFCC/min Gamma-MFCC/min DFT-Gamma-MFCC/min16-32 114 115 76 13516-64 181 177 106 21816-128 393 389 205 48432-64 260 254 140 31632-128 486 478 244 59464-128 743 745 365 924

Tabla 4.6: Tiempo de entrenamiento en minutos de CNN para características de entrada combinadasreducidas.

Entrenamiento con características combinadas

Al realizar el entrenamiento con características de entrada combinadas se observa en general un mejor

rendimiento que el alcanzado con entradas individuales. Como se puede observar en la tabla 4.5, el mejor

rendimiento se obtiene entrenando la topología compuesta por 64-128 filtros convolucionales alcanzando

82,89 % de aciertos con los datos de validación, este rendimiento es superior en 1,29 % comparado con el

mejor rendimiento del experimento 2A con características combinadas (81,6 %). Por otra parte, el mejor

resultado alcanzado en el experimento 2B es inferior en aproximadamente 5 % comparado con el mejor

resultado del experimento 1B (87,96 %).

Si se compara el tiempo de entrenamiento de los mejores resultados de los experimentos 1B y 2B, el

primero tardó 538 minutos, mientras que el segundo 924 minutos. Esto representa un aumento de 386

minutos y como se mencionó anteriormente no se mejoró el rendimiento en validación. Los tiempos de

entrenamiento para el experimento 2B se consolidan en la tabla 4.6.

60

Experimento Individual/ % Combinada/ %2A 74,06 81,62B 75,22 82,891 82,56 87,96

Tabla 4.7: Resumen de mejores rendimientos de validación para entrenamiento realizados con característi-cas reducidas y completas

Experimento Individual/min Combinada/min2A 380 7162B 576 9241 524 538

Tabla 4.8: Resumen de tiempos de entrenamiento de las mejores topologías para los experimentos concaracterísticas reducidas y completas

4.2. Análisis de Resultados

Como se observa en la tabla 4.7 los rendimientos obtenidos con los datos de entrada transformados

con PCA fueron más bajos que los obtenidos con los datos en su totalidad. Con características individuales

la disminución en el rendimiento fue de 7,34 %, mientras que con características combinadas fue de 5 %.

Se observó que los mejores rendimientos en el experimento 2 fueron alcanzados con la topología com-

puesta por 64-128 filtros convolucionales. Adicionalmente, entre el experimento 2A y 2B se presentó una

mejora de apenas 1,29 %, pero a costa de 208 minutos más de entrenamiento como se puede observar en

la tabla 4.8, por lo cual la ganancia no es evidente. Igualmente se observó que en ambos casos los datos de

entrada corresponden a la combinación de las tres características exploradas. Con respecto al experimento

1 con características individuales, el tiempo de entrenamiento aumentó en 52 minutos, mientras que con

características combinadas, el aumento alcanza los 380 minutos.

En el experimento 2 se pudo observar lo inconveniente de aplicar PCA a los datos de entrada, ya que en

este método se asume la linealidad entre las variables. Pese a que se calcula representar más del 90 % de la

información contenida en los datos originales, la transformación no es adecuada y se pierde información

relevante para solucionar el problema de clasificación de ambientes. Este hecho es evidente al comparar el

rendimiento de los modelos entrenados con características Gamma en los experimentos 1 y 2, donde la

disminución en el rendimiento alcanzó hasta un 40 % aproximadamente.

En la tabla 4.9 se pueden observar los resultados obtenidos al realizar reducción de características, para

cada una de las características de entrada exploradas. Comparando los resultados obtenidos en el Experi-

mento 2A y 2B, se pueden notar los aumentos de rendimientos al aumentar el número de características

utilizados, tanto que en el experimento 2B, las características de tipo gamma, alcanzan mejor rendimiento

que las MFCC.

Se puede notar que las características de tipo gamma sufren la mayor disminución en el rendimiento

comparado con el experimento 1, en promedio un 40 % para el Experimento 2A y un 20 % para el 2B.

Por parte de las características MFCC la disminución en el rendimiento fue de un 20 % y un 10 % para el

experimento 2A y 2B, respectivamente. Este hecho muestra que las características gamma pueden ser

consideradas más sensibles al proceso realizado con PCA.

61

DFT/ %

Gamma/ %

MFCC/ %

DFT-Gamma/ %

DFT-MFCC/ %

Gamma-MFCC/ %

DFT-Gamma-MFCC/ %

Exp 2A 74,06 42,07 51,88 76,27 80,01 67,07 81,6Exp 2B 75,22 64,71 63,69 79,15 82,08 79,73 82,89

Tabla 4.9: Mejores rendimientos alcanzados con segmentos de 1 segundo y características reducidas paradatos de validación.

62

Capítulo 5

Conclusiones y Trabajo Futuro

5.1. Conclusiones

El problema de clasificación de entornos urbanos basados en sonidos presenta la dificultad relacionada

con la variabilidad de los ambientes tratados. Las redes neuronales se muestran como una alternativa para

dar solución al problema, ya que estos sistemas no necesitan de modelos matemáticos exactos o complejos

y la clasificación se basa en datos procesados que permiten extraer características de cada escena acústica.

A lo largo del documento se ha observado como las redes neuronales convolucionales en todos los casos

obtenían mejores rendimientos de clasificación que las redes neuronales feed-forward. En este sentido, con

los mejores rendimientos en validación las CNN alcanzaron un 87,96 % superando en aproximadamente

10 % el rendimiento de los MLP que alcanzaron 76,13 %, en ambos casos con características combinadas

y segmentos de 1 segundo. Sin embargo, los tiempos de entrenamiento de los mejores modelos no son

comparables en ningún sentido, ya que la topología de CNN tarda 538 minutos, mientras que la MLP

apenas toma 33 minutos, esto debido a la cantidad de parámetros a entrenar, ya que mientras que el MLP

tiene que ajustar 181310 parámetros en 10 capas, la CNN tiene que ajustar 1090486 parámetros en 24

capas.

Las CNN muestran una diferencia en rendimiento aproximado de entre 10 % a un 15 % mientras que

para las MLP esta diferencia se encuentra entre 5 % y un 15 % comparar los dos segmentos explorados,

evidenciando un error de generalización mayor en redes MLP. Es destacable que los mejores rendimientos

se obtuvieron con segmentos de audio de 1 segundo de duración con respecto a segmentos de audio de

10 segundos tanto para CNN como MLP, debido principalmente a que segmentos de un segundo facilita

la extracción de características relevantes a cada escena, y adicionalmente, hay un mayor número de

ejemplos disponibles por cada clase en una relación de 10 a 1, lo que representa mayor cantidad de

información y una menor variabilidad en los segmentos cortos de tiempo, pero significa mayores tiempos

de entrenamiento, pues se tienen que desarrollar un mayor número de operaciones aritméticas para realizar

el ajuste de los parámetros en la red neuronal.

En tanto a las características de entrenamiento no reducidas, fueron los coeficientes gamma los que

obtuvieron mejores resultados de validación, incluso sobre las características DFT que disponían de más

del doble de coeficientes, mientras que las características de tipo MFCC obtuvieron los rendimientos más

bajos de los tres tipos de características explorados.

Por otra parte, en los experimentos realizados se mostró como con la combinación de características

63

de entrada ayuda a las redes neuronales a mejorar su rendimiento con los datos de validación, ya que

se brinda mayor información a los modelos, lo que permite un mejor ajuste de los parámetros. Los

modelos entrenados con la combinación de las tres características (DFT-Gamma-MFCC) superan en

aproximadamente 5 % el rendimiento del mejor modelo entrenado con características de tipo gamma y el

tiempo de entrenamiento es superior en tan solo 15 minutos.

Para los resultados obtenidos con la reducción de características realizada implementando análisis de

componentes principales, se puede decir que no se obtuvieron resultados satisfactorios, ya que los

rendimientos disminuyeron hasta en un 40 % con características gamma, con respecto a la información

original. Un factor influyente en la disminución del rendimiento de las redes neuronales con análisis de

componentes principales, está relacionado con la drástica reducción de la dimensionalidad del problema,

que pese a suponerse una buena representación de la información se evidencia que el uso de una dimensión

muy pequeña conlleva a perdidas de generalidad. Adicionalmente, se debe tener en cuenta que en el

análisis realizado con PCA se asume que las variables están correlacionadas, por lo cual se pierde

información relevante para la solución del problema en términos de la caracterización de los entornos.

5.2. Trabajo Futuro

A continuación, se listan algunas propuestas para continuar con la investigación relacionada con la

clasificación de escenas acústicas:

Como se pudo observar la exploración de las topologías implementadas se realizó de forma manual

basados en la metodología de prueba y error. En este sentido es posible elaborar un algoritmo que

realice la tarea de elección de una topología que cumpla con algunos criterios establecidos con

anticipación.

Por otra parte, se mostró en el desarrollo del documento, el inconveniente de realizar la reducción

de características basados en técnicas lineales, ya que se sufre de perdida de información no lineal

relevante. Por lo cual, es posible implementar distintas técnicas de reducción de características, que

permitan evaluar cual solución desarrolla de forma positiva el rendimiento al problema.

En cuanto a la base de datos, una labor interesante es la grabación de sonidos propios de Colombia,

para realizar el entrenamiento y validación de modelos de redes neuronales y así preparar las

herramientas necesarias de cara a una posible implementación en el país.

Determinar la influencia de frecuencias audibles y no audibles para el ser humano en el desa-

rrollo del problema de ASC comprobado mediante CNN, mediante la aplicación de filtros en el

preprocesamiento de la señales acústicas.

En este trabajo se realizaron pruebas con dos diferentes segmentos de audio, determinando que el

rendimiento es mas alto para segmentos de 1 segundo, por lo tanto se puede realizar un trabajo

que explore otras longitudes y así hacer un análisis más detallado de la influencia de las diferentes

duraciones de audio en el rendimiento de las redes neuronales.

64

Índice de figuras

2.1. Transformada de Fourier Discreta (DFT) de una señal no periódica finita. Adaptado de [27]. 14

2.2. Diagrama mariposa de la DFT inversa usando FFT. Adaptado de [27]. . . . . . . . . . . . . 15

2.3. Diagrama de bloques utilizado para la extracción de los coeficientes MFCC. Adaptado de [30]. 16

2.4. Representación de los filtros triangulares utilizados para calcular los coeficientes MFCC.

Adaptado de [31]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.5. Representación del banco de filtros de tonos gamma [34]. Elaboración propia. . . . . . . . . 19

2.6. Representación de una señal de voz (a). En el tiempo. (b). Como ”espectrograma” aplicando

el banco de filtros de tonos Gamma a la frecuencia. Elaboración propia. . . . . . . . . . . . 20

2.7. Modelo básico de una neurona con M entradas y el bias, una ponderación, la función de

activación y su salida. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.8. Topología de red tipo feed-forward de una capa oculta, con D entradas, M unidades ocultas y

K salidas. Adaptado de [36, fig. 4.1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.9. Estructura básica de una CNN compuesta por capas: entrada, convolucionales, pooling,

totalmente conectadas y salida. Adaptado de [41]. . . . . . . . . . . . . . . . . . . . . . . . 23

2.10. Composición básica de una capa convolucional con función de activación ReLU. Adaptado

de [40]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.11. Funciones de activación (a). ReLu. (b) PReLU. (c) RReLU. Adaptado de [42]. . . . . . . . . 24

2.12. Eliminación aleatoria de pesos mediante la implementación de una capa de dropout. Las

flechas punteadas con X marcadas representan pesos eliminados. Adaptado de [39]. . . . . . 26

2.13. Varianza del ruido y la señal analizado en nuevos ejes. Adaptado de [45]. . . . . . . . . . . 29

3.1. Diagrama de bloques de un clasificador basado en sonidos. Elaboración propia. . . . . . . . 34

3.2. Proceso de ventaneo y extracción de características. Elaboración propia. . . . . . . . . . . . 35

3.3. División de características en segmentos de 1 y 10 segundos. Elaboración propia. . . . . . . 36

3.4. Topología de MLP compuesta por tres capas ocultas. Elaboración propia. . . . . . . . . . . 36

3.5. Topología de MLP compuesta por cuatro capas ocultas. Elaboración propia. . . . . . . . . . 37

3.6. Topología de CNN, en cada bloque hay dos capas convolucionales con igual número de filtros

en cada experimento (variable x). Elaboración propia. . . . . . . . . . . . . . . . . . . . . . 37

3.7. Rendimiento de validación de las topologías de CNN implementadas. Elaboración propia. . 39

3.8. Número de filtros Vs. tiempo de entrenamiento en minutos con características individuales

para las redes neuronales convolucionales implementadas. Elaboración propia. . . . . . . . . 40

65

3.9. Rendimiento de validación de las topologías de MLP implementadas. Elaboración propia. . . 41

3.10. Rendimiento de validación de las topologías de CNN implementadas con segmentos de 1

segundo. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.11. Número de filtros Vs. tiempo de entrenamiento en minutos con características individuales

para las redes nueronales convolucionales implementadas. Elaboración propia. . . . . . . . . 44

3.12. Rendimiento de validación de las topologías de MLP implementadas con segmentos de 1

segundo. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.13. Rendimiento de validación de las topologías de CNN implementadas con segmentos de 10

segundos y características de entrada combinadas. Elaboración propia. . . . . . . . . . . . . 47

3.14. Rendimiento de validación de las topologías de MLP implementadas con segmentos de 1

segundo y características de entrada combinadas. Elaboración propia. . . . . . . . . . . . . 51

4.1. Proceso de reducción de características utilizando PCA. Elaboración propia. . . . . . . . . . 56

4.2. Número de características Vs. Información representada utilizando PCA . . . . . . . . . . . 57

4.3. Número de filtros Vs. tiempo de entrenamiento en minutos con características combinadas

reducidas. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

66

Índice de tablas

3.1. Orden de clases establecido para las matrices de confusión. . . . . . . . . . . . . . . . . . . 34

3.2. Rendimiento de entrenamiento y validación con CNN para características de entrada indivi-

duales y segmentos de 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3. Matriz de confusión para la mejor topología de CNN implementada. Elaboración propia. . . 40

3.4. Rendimiento de entrenamiento y validación con MLP para características de entrada indivi-

duales y segmentos de 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.5. Tiempos de entrenamiento en minutos de las diferentes topologías de MLP implementadas. . 42

3.6. Matriz de confusión para la mejor topología de MLP implementada. Elaboración propia. . . 42

3.7. Rendimiento de validación con CNN para características de entrada individuales y segmentos

de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.8. Matriz de confusión para la mejor topología de CNN implementada con segmentos de

1segundo. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.9. Rendimiento de entrenamiento y validación con MLP para características de entrada indivi-

duales y segmentos de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.10. Matriz de confusión para la mejor topología de MLP implementada con segmentos de

1segundo. Elaboración propia.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.11. Rendimiento de entrenamiento y validación con CNN para características de entrada combi-

nadas y segmentos de 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.12. Tiempos de entrenamiento en minutos de las diferentes topologías de CNN implementadas. . 47

3.13. Matriz de confusión para la mejor topología de CNN implementada con combinación de

características. Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.14. Rendimiento de entrenamiento y validación con MLP para características de entrada combi-

nadas y segmentos de 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.15. Matriz de confusión para la mejor topología de MLP implementada con combinación de

características. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49


nadas y segmentos de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.17. Tiempo de entrenamiento en minutos con CNN para características de entrada combinadas y

segmentos de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.18. Matriz de confusión para la mejor topología de CNN implementada con combinación de

características. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

67

3.19. Rendimiento de entrenamiento y validación con MLP para características de entrada combi-

nadas y segmentos de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.20. Matriz de confusión para la mejor topología de MLP implementada con combinación de

características. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.21. Resumen de rendimiento de validación de MLP y CNN con segmentos de 1 y 10 segundos. . 52

3.22. Resumen de tiempos de entrenamiento de las mejores topologías de MLP y CNN con

segmentos de 1 y 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.23. Mejores rendimientos con segmentos de 1 y 10 segundos con características no transformadas

para datos de validación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53


duales reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2. Tiempos de entrenamiento en minutos de CNN con características de entrada reducidas . . . 58


nadas reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59


duales reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60


nadas reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.6. Tiempo de entrenamiento en minutos de CNN para características de entrada combinadas

reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.7. Resumen de mejores rendimientos de validación para entrenamiento realizados con caracte-

rísticas reducidas y completas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.8. Resumen de tiempos de entrenamiento de las mejores topologías para los experimentos con

características reducidas y completas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.9. Mejores rendimientos alcanzados con segmentos de 1 segundo y características reducidas

para datos de validación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

68

Bibliografía

[1] D. Barchiesi, D. Giannoulis, D. Stowell, and M. D. Plumbley, “Acoustic scene classification:

Classifying environments from the sounds they produce,” IEEE Signal Processing Magazine, vol. 32,

no. 3, pp. 16–34, May 2015.

[2] A. Mesaros, T. Heittola, and T. Virtanen, “Assessment of human and machine performance in

acoustic scene classification: Dcase 2016 case study,” in 2017 IEEE Workshop on Applications of

Signal Processing to Audio and Acoustics (WASPAA), Oct 2017, pp. 319–323.

[3] H. Phan, L. Hertel, M. Maaß, P. Koch, and A. Mertins, “Label tree embeddings

for acoustic scene classification,” CoRR, vol. abs/1606.07908, 2016. [Online]. Available:

http://arxiv.org/abs/1606.07908

[4] Y. Yin, R. R. Shah, and R. Zimmermann, “Learning and fusing multimodal deep features for

acoustic scene categorization,” in Proceedings of the 26th ACM International Conference on

Multimedia, ser. MM ’18. New York, NY, USA: ACM, 2018, pp. 1892–1900. [Online]. Available:

http://doi.acm.org/10.1145/3240508.3240631

[5] H. Phan, P. Koch, F. Katzberg, M. Maaß, R. Mazur, and A. Mertins, “Audio scene classification

with deep recurrent neural networks,” CoRR, vol. abs/1703.04770, 2017. [Online]. Available:


[6] B. P. Clarkson, N. N. Sawhney, and A. Pentland, “Auditory context awareness via wearable compu-

ting,” 1998.

[7] A. Eronen, J. Tuomi, A. Klapuri, S. Fagerlund, T. Sorsa, G. Lorho, and J. Huopaniemi, “Audio-based

context awareness - acoustic modeling and perceptual evaluation,” in 2003 IEEE International

Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP ’03)., vol. 5,

April 2003, pp. V–529.

[8] A. J. Eronen, V. T. Peltonen, J. T. Tuomi, A. P. Klapuri, S. Fagerlund, T. Sorsa, G. Lorho, and

J. Huopaniemi, “Audio-based context recognition,” IEEE Transactions on Audio, Speech, and

Language Processing, vol. 14, no. 1, pp. 321–329, Jan 2006.

[9] S. Chu, S. Narayanan, C. . J. Kuo, and M. J. Mataric, “Where am i? scene recognition for mobile

robots using audio features,” in 2006 IEEE International Conference on Multimedia and Expo, July

2006, pp. 885–888.

69


http://doi.acm.org/10.1145/3240508.3240631


[10] J. T. Geiger, B. Schuller, and G. Rigoll, “Large-scale audio feature extraction and svm for acoustic

scene classification,” in 2013 IEEE Workshop on Applications of Signal Processing to Audio and

Acoustics, Oct 2013, pp. 1–4.

[11] J. Ye, T. Kobayashi, N. Toyama, H. Tsuda, and M. Murakawa, “Acoustic scene classification using

efficient summary statistics and multiple spectro-temporal descriptor fusion,” Applied Sciences,

vol. 8, no. 8, 2018. [Online]. Available: http://www.mdpi.com/2076-3417/8/8/1363

[12] Y. Han and K. Lee, “Acoustic scene classification using convolutional neural network and multiple-

width frequency-delta data augmentation,” arXiv preprint arXiv:1607.02383, 2016.

[13] N. N. Sawhney, “Situational awareness from environmental sounds,” 1997.

[14] A. Mesaros, T. Heittola, and T. Virtanen, “A multi-device dataset for urban acoustic

scene classification,” 2018, submitted to DCASE2018 Workshop. [Online]. Available:

https://arxiv.org/abs/1807.09840

[15] R. Fraile, E. Blanco-Martin, J. M. Gutierrez-Arriola, N. Saenz-Lechon, and V. J. Osma-Ruiz,

“Classification of acoustic scenes based on modulation spectra and position-pitch maps,” DCASE2018

Challenge, Tech. Rep., September 2018.

[16] Y. Sakashita and M. Aono, “Acoustic scene classification by ensemble of spectrograms based on

adaptive temporal divisions,” IEEE AASP Challenge on DCASE 2018 technical reports, 2018.

[17] A. Mesaros, T. Heittola, and T. Virtanen, “Acoustic scene classification: An overview of dcase

2017 challenge entries,” in 2018 16th International Workshop on Acoustic Signal Enhancement

(IWAENC), Sep. 2018, pp. 411–415.

[18] A. Mesaros, T. Heittola, and T. Virtanen, “Results task 1a dcase2018,”

2018, accedido 16-05-2019. [Online]. Available: http://dcase.community/challenge2018/

task-acoustic-scene-classification-results-a

[19] O. Mariotti, M. Cord, and O. Schwander, “Exploring deep vision models for acoustic scene classifi-

cation,” DCASE2018 Challenge, Tech. Rep., September 2018.

[20] K. Hussain, M. Hussain, and M. Khan, “An improved acoustic scene classification method using

convolutional neural networks (cnns),” American Scientific Research Journal for Engineering,

Technology, and Sciences (ASRJETS), vol. 44, no. 1, pp. 68–76, 2018. [Online]. Available:

http://asrjetsjournal.org/index.php/American_Scientific_Journal/article/view/4169

[21] J. Shlens, “A tutorial on principal component analysis,” CoRR, vol. abs/1404.1100, 2014. [Online].

Available: http://arxiv.org/abs/1404.1100

[22] A. Bhandare, M. Bhide, P. Gokhale, and R. V. Chandavarkar, “Applications of convolutional neural

networks,” IJCSIT, 2016.

[23] B. Schilit, N. Adams, and R. Want, “Context-aware computing applications,” in 1994 First Workshop

on Mobile Computing Systems and Applications, Dec 1994, pp. 85–90.

70

http://www.mdpi.com/2076-3417/8/8/1363

https://arxiv.org/abs/1807.09840

http://dcase.community/challenge2018/task-acoustic-scene-classification-results-a

http://dcase.community/challenge2018/task-acoustic-scene-classification-results-a

http://asrjetsjournal.org/index.php/American_Scientific_Journal/article/view/4169


[24] R. Radhakrishnan, A. Divakaran, and A. Smaragdis, “Audio analysis for surveillance applications,”

in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2005., Oct 2005,

pp. 158–161.

[25] H. Phan, O. Y. Chén, L. D. Pham, P. Koch, M. D. Vos, I. V. McLoughlin, and A. Mertins,

“Spatio-temporal attention pooling for audio scene classification,” CoRR, vol. abs/1904.03543, 2019.

[Online]. Available: http://arxiv.org/abs/1904.03543

[26] A. V. Oppenheim, A. S. Willsky, and S. H. Nawab, Señales y sistemas. Pearson Educación, 1998.

[27] S. Haykin, B. Van Veen, and G. Czarez, Señales y sistemas. Limusa, 2001.

[28] ETSI ES 201 108, European Telecommunications Standards Institute, Sep. 2003. [Online]. Availa-

ble: https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.

pdf

[29] S. Jothilakshmi, V. Ramalingam, and S. Palanivel, “Speaker diarization using autoassociative neural

networks,” Engineering Applications of Artificial Intelligence, vol. 22, no. 4, pp. 667 – 675, 2009.

[Online]. Available: http://www.sciencedirect.com/science/article/pii/S0952197609000396

[30] MathWorks, “Cepstral Feaure Extractor,” accedido 16-09-2018. [Online]. Available: https:

//bit.ly/2VFxGIe

[31] V. autores, “MEL-Frequency Cepstrum,” accedido 20-04-2019. [Online]. Available: https://www.

isip.piconepress.com/courses/msstate/ece_8463/lectures/current/lecture_13/lecture_13_08.html

[32] R. D. Patterson, K. Robinson, J. Holdsworth, D. McKeown, C. Zhang, and M. Allerhand,

“Complex Sounds and Auditory Images,” in Auditory Physiology and Perception, Y. CAZALS,

K. HORNER, and L. DEMANY, Eds. Pergamon, 1992, pp. 429–446. [Online]. Available:

http://www.sciencedirect.com/science/article/pii/B978008041847650054X

[33] A. M. Aertsen and P. I. Johannesma, “Spectro-temporal receptive fields of auditory neurons

in the grassfrog,” Biol. Cybern., vol. 38, no. 4, pp. 223–234, Nov. 1980. [Online]. Available:

http://dx.doi.org/10.1007/BF00337015

[34] D. Ellis, “Gammatone-like spectrograms,” 2009, accedido 16-09-2018. [Online]. Available:

http://www.ee.columbia.edu/~dpwe/resources/matlab/gammatonegram/

[35] M. Slaney, “Auditory Toolbox,” Interval Research Corporation, Technical report, Oct. 1998. [Online].

Available: https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.

pdf

[36] C. M. Bishop, Neural Networks for Pattern Recognition. New York, NY, USA: Oxford University

Press, Inc., 1995.

[37] R. Salas, “Redes neuronales artificiales,” 1998, universidad de Valparaiso, Departamento de compu-

tación.

[38] W. S. McCulloch and W. Pitts, “A logical calculus of the ideas immanent in nervous activity. 1943.”

Bulletin of mathematical biology, vol. 52 1-2, pp. 99–115; discussion 73–97, 1988.

71


https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.pdf

https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.pdf

http://www.sciencedirect.com/science/article/pii/S0952197609000396

https://bit.ly/2VFxGIe

https://bit.ly/2VFxGIe

https://www.isip.piconepress.com/courses/msstate/ece_8463/lectures/current/lecture_13/lecture_13_08.html

https://www.isip.piconepress.com/courses/msstate/ece_8463/lectures/current/lecture_13/lecture_13_08.html

http://www.sciencedirect.com/science/article/pii/B978008041847650054X

http://dx.doi.org/10.1007/BF00337015

http://www.ee.columbia.edu/~dpwe/resources/matlab/gammatonegram/

https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf

https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.pdf

[39] J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang, G. Wang, J. Cai et al.,

“Recent advances in convolutional neural networks,” Pattern Recognition, vol. 77, pp. 354–377,

2018.

[40] S. Indolia, A. K. Goswami, S. Mishra, and P. Asopa, “Conceptual understanding of convolutional

neural network-a deep learning approach,” Procedia computer science, vol. 132, pp. 679–688, 2018.

[41] W. Zhiqiang and L. Jun, “A review of object detection based on convolutional neural network,” in

2017 36th Chinese Control Conference (CCC). IEEE, 2017, pp. 11 104–11 109.

[42] B. Xu, N. Wang, T. Chen, and M. Li, “Empirical evaluation of rectified activations in convolutional

network,” arXiv preprint arXiv:1505.00853, 2015.

[43] J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler, “Efficient object localization using

convolutional networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern

Recognition, 2015, pp. 648–656.

[44] S. de la fuente fernandez. análisis de componentes. [Online]. Available: http://www.fuenterrebollo.

com/Economicas/ECONOMETRIA/MULTIVARIANTE/ACP/ACP.pdf

[45] J. Shlens, “A tutorial on principal component analysis: Derivation, discussion and singular value

decomposition,” Mar, vol. 25, no. 1, p. 16, 2003.

[46] J. G. y Nicolás Cardiel. (2010/2011) Tema 9: Análisis de componentes principales (pca). [Online].

Available: https://es.scribd.com/document/335122257/Analisis-de-componentes-principales-pdf

[47] A. Mesaros, T. Heittola, and T. Virtanen, “Acoustic scene classification: An overview of dcase

2017 challenge entries,” in 2018 16th International Workshop on Acoustic Signal Enhancement

(IWAENC), Sep. 2018, pp. 411–415.

[48] B. Arons, “A review of the cocktail party effect,” JOURNAL OF THE AMERICAN VOICE I/O

SOCIETY, vol. 12, pp. 35–50, 1992.

[49] Z. Ren, K. Qian, Y. Wang, Z. Zhang, V. Pandit, A. Baird, and B. Schuller, “Deep scalogram

representations for acoustic scene classification,” IEEE/CAA Journal of Automatica Sinica, vol. 5,

no. 3, pp. 662–669, 2018.

[50] D. Feng, K. Xu, H. Mi, F. Liao, and Y. Zhou, “Sample dropout for audio scene classification using

multi-scale dense connected convolutional neural network,” in Pacific Rim Knowledge Acquisition

Workshop. Springer, 2018, pp. 114–123.

[51] G. Takahashi, T. Yamada, S. Makino, and N. Ono, “Acoustic scene classification using deep neural

network and frame-concatenated acoustic feature,” Detection and Classification of Acoustic Scenes

and Events, 2016.

[52] A. Mesaros, T. Heittola, and T. Virtanen, “A multi-device dataset for urban acoustic scene classifica-

tion,” arXiv preprint arXiv:1807.09840, 2018.

72

http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/MULTIVARIANTE/ACP/ACP.pdf

http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/MULTIVARIANTE/ACP/ACP.pdf

https://es.scribd.com/document/335122257/Analisis-de-componentes-principales-pdf

[53] Z. Zhang, S. Xu, S. Cao, and S. Zhang, “Deep convolutional neural network with mixup for

environmental sound classification,” in Chinese Conference on Pattern Recognition and Computer

Vision (PRCV). Springer, 2018, pp. 356–367.

[54] A. Dang, T. H. Vu, and J.-C. Wang, “Acoustic scene classification using convolutional neural

networks and multi-scale multi-feature extraction,” in 2018 IEEE International Conference on

Consumer Electronics (ICCE). IEEE, 2018, pp. 1–4.

[55] K. Hussain, M. Hussain, and M. G. Khan, “An improved acoustic scene classification method

using convolutional neural networks (cnns),” American Scientific Research Journal for Engineering,

Technology, and Sciences (ASRJETS), vol. 44, no. 1, pp. 68–76, 2018.

[56] M. Valenti, A. Diment, G. Parascandolo, S. Squartini, and T. Virtanen, “Dcase 2016 acoustic scene

classification using convolutional neural networks,” in Proc. Workshop Detection Classif. Acoust.

Scenes Events, 2016, pp. 95–99.

[57] U. S. Prakruthi, D. Kiran, and H. Ramasangu, “High performance neural network based acoustic

scene classification,” in 2018 2nd International Conference on Inventive Systems and Control

(ICISC), Jan 2018, pp. 781–784.

[58] S. H. Bae, I. Choi, and N. S. Kim, “Acoustic scene classification using parallel combination of lstm

and cnn,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2016

Workshop (DCASE2016), 2016, pp. 11–15.

[59] R. Patiyal and P. Rajan, “Acoustic scene classification using deep learning,” IEEE AASP Challenge

on Detection and Classification of Acoustic Scenes and Events (DCASE), 2016.

[60] Y. Petetin, C. Laroche, and A. Mayoue, “Deep neural networks for audio scene recognition,” in 2015

23rd European Signal Processing Conference (EUSIPCO). IEEE, 2015, pp. 125–129.

[61] Q. Kong, I. Sobieraj, W. Wang, and M. Plumbley, “Deep neural network baseline for dcase challenge

2016,” Proceedings of DCASE 2016, 2016.

[62] G. Takahashi, T. Yamada, S. Makino, and N. Ono, “Acoustic scene classification using deep neural

network and frame-concatenated acoustic feature,” Detection and Classification of Acoustic Scenes

and Events, 2016.

[63] G. S. Mafra, N. Q. K. Duong, A. Ozerov, and P. Pérez, “Acoustic scene classification: An

evaluation of an extremely compact feature representation,” in Detection and Classification

of Acoustic Scenes and Events 2016, Budapest, Hungary, Sep. 2016. [Online]. Available:

https://hal.archives-ouvertes.fr/hal-01400986

[64] A. Mesaros, T. Heittola, E. Benetos, P. Foster, M. Lagrange, T. Virtanen, and M. D. Plumbley,

“Detection and classification of acoustic scenes and events: Outcome of the dcase 2016 challenge,”

IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 2, pp. 379–393,

Feb 2018.

[65] Y. Han and J. Park, “Convolutional neural networks with binaural representations and background

subtraction for acoustic scene classification,” DCASE2017 Challenge, Tech. Rep., September 2017.

73

https://hal.archives-ouvertes.fr/hal-01400986

[66] Y. Yin, R. R. Shah, and R. Zimmermann, “Learning and fusing multimodal deep features for acoustic

scene categorization,” in 2018 ACM Multimedia Conference on Multimedia Conference. ACM,

2018, pp. 1892–1900.

[67] S. S. R. Phaye, E. Benetos, and Y. Wang, “Subspectralnet - using sub-spectrogram based

convolutional neural networks for acoustic scene classification,” CoRR, vol. abs/1810.12642, 2018.

[Online]. Available: http://arxiv.org/abs/1810.12642

74


CLASIFICADOR DE ESCENAS ACÚSTICAS BASADO EN REDES...

Documents

Transcript of CLASIFICADOR DE ESCENAS ACÚSTICAS BASADO EN REDES...