CLASIFICADOR DE ESCENAS ACÚSTICAS BASADO EN REDES...
Transcript of CLASIFICADOR DE ESCENAS ACÚSTICAS BASADO EN REDES...
CLASIFICADOR DE ESCENAS ACÚSTICAS BASADO ENREDES NEURONALES ARTIFICIALES Y ANÁLISIS DE
COMPONENTES PRINCIPALES
Brayan Mauricio León MartínezCódigo: 20132005006
Juan Diego Castillo CruzCódigo: 20132005020
Universidad Distrital Francisco José de CaldasFacultad de Ingeniería
Proyecto Curricular Ingeniería ElectrónicaBogotá, Colombia
2019
CLASIFICADOR DE ESCENAS ACÚSTICAS BASADO ENREDES NEURONALES ARTIFICIALES Y ANÁLISIS DE
COMPONENTES PRINCIPALES
Brayan Mauricio León MartínezCódigo: 20132005006
Juan Diego Castillo CruzCódigo: 20132005020
Trabajo de grado para optar por el titulo de:Ingeniero Electrónico
Director:ANDRES EDUARDO GAONA BARRERA
Profesor Asistente – Facultad de Ingeniería
Universidad Distrital Francisco José de CaldasFacultad de Ingeniería
Proyecto Curricular Ingeniería ElectrónicaBogotá, Colombia
2019
Índice general
1 Generalidades 91.1. Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Marco Teórico 132.1. Extracción de Características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1. Transformada de Fourier en Tiempo Discreto . . . . . . . . . . . . . . . . . . . 13
2.1.2. MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.3. Banco de Filtros de Tonos Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2. Redes Neuronales Artificiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1. Modelo de Unidad de Procesamiento Elemental . . . . . . . . . . . . . . . . . . 20
2.2.2. Redes Tipo Feed-Forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3. Redes Neuronales Convolucionales . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Reducción de Características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.1. Análisis de Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . 28
2.4. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 Entrenamiento con características no modificadas 333.1. Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2. Equipo para Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3. Extracción de Características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4. Experimento 1: Variación de Topologías en MLP y CNN . . . . . . . . . . . . . . . . . 36
3.4.1. Experimento 1A: Entrenamiento Con Características de Entrada Individuales . . 38
3.4.2. Experimento 1B: Entrenamiento Con Características de Entrada Combinadas . . 46
3.5. Análisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4 Entrenamiento con características reducidas 55
5
4.1. Experimento 2: Reducción de características utilizando PCA . . . . . . . . . . . . . . . 55
4.1.1. Experimento 2A: Primer Entrenamiento con Características de Entrada Reducidas 57
4.1.2. Experimento 2B: Segundo Entrenamiento con Características de Entrada Reducidas 58
4.2. Análisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Conclusiones y Trabajo Futuro 635.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Índice de figuras 65
Índice de tablas 67
Bibliografía 69
6
Resumen
La clasificación acústica de escenas ha venido cobrando importancia en los últimos años, poruna parte, son interesantes las aplicaciones que puede tener y adicionalmente, representa un retoimplementar una herramienta computacional que permita detectar adecuadamente sonidos complejosy diversos, como los presentados en entornos reales. En este trabajo se implementan redes neuronalesconvolucionales y feed-forward, entrenadas con características individuales como Coeficientes Ceps-trales de Frecuencia en escala Mel (MFCC), tonos gamma y Transformada Discreta de Fourier (DFT),extraídas a los sonidos en ventanas de 100 ms con solapamiento de 50 %, para luego formar segmentosde 1 y 10 segundos. De igual forma las redes neuronales se entrenan con las combinaciones decaracterísticas (DFT-Gamma, DFT-MFCC, Gamma-MFCC, DFT-Gamma-MFCC). Posteriormente serealiza reducción del número de coeficientes de entrada implementando PCA, verificando el impactode esta reducción en el rendimiento y el tiempo de entrenamiento de diferentes arquitecturas de redneuronal. En ambos casos se utiliza validación cruzada con un 80 % de los datos para entrenamiento y20 % para validación, para el desarrollo se utiliza la base de datos DCASE2018.
7
Capítulo 1
Generalidades
1.1. Planteamiento del Problema
La clasificación de escenas acústicas (ASC, del inglés Audio Scene Classification) consiste en identifi-
car ambientes por los sonidos que los caracterizan [1]. La idea básica es extraer información de las señales
de audio y posteriormente ingresarla a un sistema capaz de asignar una etiqueta adecuada al entorno de
grabación. Dentro de las tareas que se desarrollan alrededor de esta temática se encuentra la clasificación
de entornos urbanos, principalmente ambientes públicos altamente concurridos.
Pese a que se está familiarizado con las escenas generalmente incluidas en la tarea de ASC, se puede
considerar que la capacidad de las personas para reconocer ambientes urbanos por medio de señales
acústicas es baja. En el estudio realizado por Mesaros y sus colegas en [2] se mostró que personas con
un entrenamiento mínimo alcanzaban un 54,4 % de exactitud en la clasificación. Lo cual es inferior
comparado con las herramientas computacionales, que obtienen en promedio 80 %. Adicionalmente, la
mayoría de los participantes tuvieron que repetir los audios para estar seguros de la respuesta brindada.
La acústica de ambientes urbanos es poco estructurada, ya que en estos entornos coexisten gran cantidad
de sonidos tales como voces, objetos mecánicos, etc. que al combinarse generan señales complejas con
componentes propios de cada entorno, que además están contaminadas por ruido [3]. Adicionalmente los
dispositivos de grabación tienen diferentes respuestas a la frecuencia que sumado a la disparidad de los
sonidos que se producen en cada ciudad, hace que el generalizar un modelo matemático sea altamente
complejo [4]. Por ello se han buscado alternativas que evitan modelar estos entornos, por ejemplo: análisis
estadístico y redes neuronales.
En cualquier solución planteada se extrae información en intervalos cortos de tiempo a señales acús-
ticas. Esta puede ser tasa de cruces por cero, energía de la señal, espectrogramas, MFCC (del inglés,
Mel Frequency Cepstral Coefficients), tonos gamma, etc [1], [5]. La agrupación de estos intervalos da
como resultado un vector de características. Estos son utilizados para entrenar y validar los modelos
implementados, tanto con redes neuronales como con análisis estadístico [1].
Desde el punto de vista estadístico se han explorado varias alternativas para dar solución al problema
de ASC. Como la implementación de modelos ocultos de Markov (HMM, del inglés Hidden Markov
Models)[6], [7], [8], modelos de mezcla gaussiana (GMM, del inglés Gaussian Mixture Models)[7], [9] e
incluso estadística descriptiva[10].
Para los modelos estadísticos, se asume que los vectores de características son generados de una dis-
tribución de probabilidades, esto implica que las escenas representadas contienen información similar
9
entre ellas [11], sin tener en cuenta la variabilidad de los sonidos debidos a las diferentes locaciones de
grabación. Durante el entrenamiento de estos modelos, los parámetros de la distribución son optimizados
de acuerdo con información estadística de los datos. Para la validación se realiza el mismo procedimiento
de extracción de información y la clasificación se realiza de acuerdo con los criterios de decisión estableci-
dos. En estos modelos matemáticos se busca resumir las propiedades de las escenas de audio ambiente en
vectores de características generados de la extracción de información a la señal de audio [1]. Sin embargo,
la exactitud de este tipo de métodos está entre 58 % y 72 %, lo que resulta ser inferior al rendimiento
obtenido con modelos de redes neuronales artificiales [12].
En cuanto a las redes neuronales se han propuesto como solución incluso desde el primer trabajo rela-
cionado con ASC, cuando Sawhney en 1997 implementó redes neuronales recurrentes para clasificar
cinco escenas acústicas como voces, personas, metro, tráfico y otros [13]. Desde entonces las soluciones
basadas en estos modelos se han vuelto cada vez más comunes y complejas. A su vez, el problema de
clasificación de entornos urbanos ha tendido a ser cada vez más realista. Por lo cual las bases de datos
incluyen una mayor cantidad de sonidos, que provienen de diferentes ciudades y locaciones, aumentando
la variabilidad de la información y por ende haciendo más compleja la tarea de clasificación [14].
Para la tarea de ASC las redes neuronales Feed-Forward se han mostrado en inferioridad al compararlas
con las redes convolucionales. Por ejemplo, en [15] el rendimiento es aproximadamente 20 % inferior
al obtenido en [16], entrenando con la misma base de datos. De esta manera se explica fácilmente el
creciente número de implementaciones de redes neuronales convolucionales, que se muestran como una
alternativa para implementaciones cada vez más complejas y realistas [16], [17],[18].
En el proceso de buscar mejores resultados, los investigadores han optado por implementar topologías con
grandes cantidades de capas, filtros y neuronas como en [16], [19], [20]. Adicionalmente, es común la
extracción de un gran número de características a los audios, que puede conllevar a la redundancia de la
información [21]. El conjunto de las características con la topología implementada hace de los modelos
cada vez más complejos. Por lo cual, en cada iteración de los algoritmos se tienen que ajustar un gran
número de parámetros, lo que representa tiempos de entrenamiento prolongados y un hardware costoso.
Entonces, ¿Cómo sería un método para reducir la complejidad de redes neuronales artificiales para la
tarea de ASC?
1.2. Justificación
Los sistemas de cómputo en la actualidad alcanzan velocidades de procesamiento en escalas de
Giga Hertz, estos son capaces de realizar una gran cantidad de operaciones por segundo, favoreciendo
la aplicación de técnicas de inteligencia computacional. Debido al alto procesamiento disponible, los
investigadores han optado por extraer cada vez más datos de las señales para resolver problemas de todo
tipo, tales como: clasificadores de imágenes, clasificación de sonido, detección de objetos, reconocimiento
de voz, reconocimiento de palabras, etc. [22].
Dentro de las áreas de la inteligencia computacional el problema de clasificación de sonido ambiente
ha demostrado una relevancia importante, cobrando gran interés en las últimas décadas entre los in-
vestigadores, debido al potencial que estos desarrollos tendrán a futuro [1]. En la actualidad se pueden
vislumbrar aplicaciones relacionadas en su mayoría con la contextualización de diferentes dispositivos,
incluso algunas en tiempo real. Como:
10
Sistemas de navegación de robots móviles, ya que se evitaría depender exclusivamente de las
imágenes capturadas por las cámaras y permitiría persuadir al robot a cerca de los posibles obstáculos
que podría encontrar en el entorno [9].
Adaptación del volumen de un teléfono celular inteligente que se configure adecuadamente de
acuerdo con el entorno que rodea el dispositivo [8], [23].
Sistemas de vigilancia, ya que permite conocer un ambiente de grabación desconocido, logrando
que en investigaciones se obtenga información adicional y de esa manera lograr avances más ágiles
[24].
Pensar en aplicar soluciones de ASC en entornos reales conlleva a problemas relacionados con la natura-
leza de los ambientes analizados, ya que en estos se presentan sonidos con una alta variabilidad en su
respuesta y altos niveles de ruido [25]. Por lo cual, es necesario realizar implementaciones de modelos
con una adecuada capacidad de generalización, que permitan reconocer en la mayoría de los casos el
entorno presentado. Hoy en día es posible pensar en entrenar redes neuronales con topologías complejas,
ya que estos modelos se han mostrado como la mejor alternativa para realizar la tarea de ASC [25]. Esto
sustentado en la alta capacidad de procesamiento disponible en máquinas con hardware robusto, lo cual
limita el campo de aplicación de estas soluciones.
En aplicaciones en tiempo real es necesario que los tiempos de procesamiento sean cortos y la exactitud
alta. Como se mencionó anteriormente, existen implementaciones de redes neuronales que alcanzan
errores de clasificación bajos, pero con la dificultad de que sus topologías constan de millones de conexio-
nes y adicionalmente se extrae un numero de características elevado a cada sonido [19]. Por lo cual en
dispositivos con capacidad de cálculo limitada los tiempos de respuesta se hacen elevados.
Una alternativa para disminuir los tiempos de procesamiento es comprimir la información de entrada a la
red neuronal. Haciendo uso de técnicas de Análisis de Componentes Principales (PCA, del inglés Principal
Component Analysis) es posible reducir la dimensionalidad de los datos, eliminando la redundancia entre
coeficientes, que finalmente no aportan a la solución del problema [21].
Teniendo en cuenta las múltiples aplicaciones de ASC, que las redes neuronales artificiales son una de las
mejores alternativas para afrontar este problema y que adicionalmente es posible reducir la dimensiona-
lidad de las entradas a la red. Es adecuado analizar la exactitud en la clasificación de redes neuronales
con topologías reducidas y determinar cuál es el impacto en el rendimiento al realizar eliminación de
características de entrada a la red.
También es importante que se generen avances en la tarea de ASC desde la universidad Distrital Francisco
José de Caldas bajo el liderazgo del grupo de investigación LAMIC. Lo cual supone una oportunidad de
integrar el área de análisis de señales con las redes neuronales. Recalcando en la comunidad la importancia
de la implementación de herramientas computacionales para el desarrollo de diferentes tareas.
11
1.3. Objetivos
1.3.1. Objetivo General
Desarrollar un esquema de reducción de complejidad de redes neuronales artificiales para la tarea de
clasificación de escenas acústicas urbanas.
1.3.2. Objetivos Específicos
Realizar el procesamiento de señales de audio utilizando técnicas de extracción de características
como DFT, MFCC y tonos Gamma.
Implementar clasificadores de ambientes urbanos con redes neuronales artificiales feed-forward y
convolucionales.
Identificar las entradas más relevantes utilizando técnicas de reducción de características.
Comparar el rendimiento de los mejores modelos de redes neuronales con características de entrada
completas y reducidas.
1.4. Alcances y Limitaciones
Se explorarán dos tipos de red neuronal artificial, como son las redes feed-forward y las convo-
lucionales. Para evaluar el rendimiento de estas se utilizará el error de generalización realizando
validación cruzada con una división de datos de 80 % para entrenamiento y 20 % para validación.
Para el entrenamiento y validación de los modelos implementados en el proyecto no se construirá
una base de datos nueva, por lo tanto, se utilizará únicamente la base de datos pública TUT Urban
Aucoustic Scenes 2018. Sin embargo, los modelos obtenidos podrían ser extrapolados a otras bases
de datos para evaluar la capacidad de generalización de estos.
Es pertinente mencionar que la clasificación se ejecutará con sonidos previamente grabados y no se
pretende implementar un clasificador de escenas acústicas urbanas en tiempo real.
El proyecto en su totalidad será programado en el software MATLAB y no estará codificado en otros
lenguajes de programación, tampoco se implementará en dispositivos diferentes al computador.
Para el desarrollo del proyecto se explorará el análisis de componentes principales, con el fin de
reducir la complejidad del entrenamiento de algunos modelos de red neuronal artificial.
12
Capítulo 2
Marco Teórico
2.1. Extracción de Características
2.1.1. Transformada de Fourier en Tiempo Discreto
Para el análisis de señales digitales (discretizadas en tiempo y amplitud) se usa principalmente la
transformada de Fourier en tiempo discreto, debido a la información que puede ser obtenida. De [26] se
sabe que una señal muestreada periódica con periodo N puede ser representada mediante el análisis de
Fourier como:
x [n] =∑
k=<N>
akejk 2π
Nn (2.1)
La anterior expresión es llamada ecuación de síntesis. Donde:
N representa el periodo de la señal.
k representa el conjunto de N señales en donde se repiten estas señales.
n representa la muestra.
ak representa los coeficientes de la señal, estos pueden ser calculados mediante la ecuación de análisis
de la siguiente manera:
ak =1
N
∑n=<N>
x[n]e−jk2πNn (2.2)
Debido a que las señales que se producen en la naturaleza no son periódicas surge el análisis de
Fourier de tiempo discreto para señales no periódicas. La ecuación de síntesis se calcula como:
x [n] =1
2π
∫2π
X(ejw)ejwndw (2.3)
Donde:
w es 2π/N cuando N tiende a infinito y considerando que todas las muestras fuera del intervalo de
x[n] valen cero.
Mientras que la ecuación de análisis puede considerarse como una combinación de exponenciales
complejas infinitesimalmente cercanas, se calcula como:
X(ejw) =∞∑
n=−∞x[n]e−jwn (2.4)
13
Figura 2.1: Transformada de Fourier Discreta (DFT) de una señal no periódica finita. Adaptado de [27].
El único problema radica en el hecho de que el anterior resultado tiene una respuesta en el dominio de
la frecuencia continuo, sin embargo, se desean resultados en el dominio de la frecuencia discretos para
señales no periódicas; de [27] se toma el análisis que usa las ecuaciones 2.1 y 2.2, considerando la no
periodicidad de las señales que permiten un tratamiento numérico.
Al comparar las ecuaciones de análisis 2.2 y 2.4 se puede observar que son semejantes y se relacionan
con ak = 1/N ·X(ejw) al reemplazar w por kw0. Por lo tanto, la evaluación de una señal no periódica
producirá muestras en el dominio de la frecuencia discretas. Estas muestras serán la transformada de
Fourier para señales periódicas evaluadas cada 2π/N , con lo cual x[n] será una señal periódica extendida
en el tiempo y reducida en un factor de 1/N .
En la figura 2.1 se puede observar una señal aperiódica con M muestras en la parte superior izquierda,
donde el objetivo es lograr una transformada como la que se ve en la parte inferior derecha, para lograrlo
se pueden tomar dos análisis diferentes. El primero será el considerar que la señal muestreada es periódica
con periodo 2π para obtener su espectro discreto muestreado con una frecuencia Ω0 tal como se ve
en la imagen superior derecha. El segundo es transformar la señal a un espectro continuo para luego
muestrearlo con una frecuencia de kΩ0 como se ve en la parte inferior izquierda, que bajo el anterior
análisis matemático puede hacerse directamente.
Transformada Rápida de Fourier
En señales con un gran número de muestras el cálculo matemático de la transformada de Fourier en
tiempo discreto crecería extraordinariamente; siendo necesario N2 multiplicaciones y N2 −N sumas.
Conforme N aumenta también lo hará la cantidad de operaciones necesarias para desarrollar la transfor-
mada. Bajo este problema surge el desarrollo de la Transformada Rápida de Fourier (FFT, del inglés Fast
Fourier Transform). A continuación, se desarrolla la FFT adaptado de [27], en la que la longitud N es par
y se expone la idea básica detrás de la FFT.
Al separar las señales en sus componentes par e impar, se obtiene:
14
Figura 2.2: Diagrama mariposa de la DFT inversa usando FFT. Adaptado de [27].
xe[n] = x[2n] 0 ≤ n ≤ N ′ − 1
xo[n] = x[2n+ 1] 0 ≤ n ≤ N ′ − 1(2.5)
Donde N′
= N/2.
Teniendo en cuenta la ecuación 2.2 y adaptando el proceso desarrollado en [27] se separan las señales
bajo las anteriores ecuaciones, considerando que las funciones pares serán 2m mientras las impares serán
2m+ 1.
X[k] =1
N
N ′−1∑m=0
x [2m] e−j2mwon+N
′−1∑m=0
x [2m+ 1] e−j(2m+1)won
(2.6)
Al considerar que la ecuación anterior corresponde a las transformadas para los valores pares e
impares, se puede expresar X[k] como:
X [k] = Xe [k] + e−jwokXo [k] 0 ≤ k ≤ N − 1 (2.7)
Donde X[k] es una combinación ponderada de Xe y Xo. Al considerar la periodicidad es válido
afirmar que Xe [k] = Xe
[k +N
′]
;Xo [k] = Xo
[k +N
′], y e−jwo(k+N
′) = −e−jwo(k)
Por lo tanto, los primeros N′
valores de X[k] serán:
X [k] = Xe [k] + e−jwokXo [k] 0 ≤ k ≤ N ′ − 1 (2.8)
Y los segundos valores de X[k] serán:
X[k +N
′]= Xe [k] + e−jwokXo [k] 0 ≤ k ≤ N ′ − 1 (2.9)
Bajo la anterior consideración la cantidad de operaciones que se deben desarrollar con el algoritmo
FFT es menor a N · log2(N) que es mucho menor que al realizar el cálculo con las ecuaciones de
análisis. En la figura 2.2 se puede observar el esquema básico inverso del algoritmo ”mariposa”, ya que
se reutilizan cálculos desarrollados con anterioridad para producir a la salida las componentes xee[0] y
xee[1], reduciendo considerablemente los tiempos de calculo de la DFT.
2.1.2. MFCC
Los Coeficientes Cepstrales de Frecuencia Melódica (MFCC, del inglés Mel-Frequency Cepstral Coef-
ficients) son una representación del espectro de potencia de un sonido. Está basada en una transformación
coseno lineal de un espectro de potencia logarítmica en una escala de frecuencia melódica no lineal.
En el diagrama de bloques de la figura 2.3 se puede observar el procedimiento para calcular los MFCCs, el
15
Figura 2.3: Diagrama de bloques utilizado para la extracción de los coeficientes MFCC. Adaptado de [30].
cual está descrito en la norma técnica [28] y en [29]. A continuación, se explicarán los bloques numerados
en el diagrama.
1. Transformada de Fourier de una ventana de la señal
Segmentación Las señales de audio son aleatorias y no estacionarias. No obstante, es posible
analizarlas en segmentos de corta duración (del orden de ms), así la señal puede considerarse
estacionaria. Para esto es necesario generar segmentos consecutivos de la señal, este proceso
se conoce como enventanado. Para mantener la continuidad de la información, es común
dividir señales en segmentos solapados entre sí, de tal manera que no se pierda información
entre transiciones de ventanas.
Para esta tarea la función más simple que se puede aplicar es una ventana rectangular de
longitud M:
sw[m] = si[m], 0 ≤ m ≤M − 1 (2.10)
Donde:
M es la longitud del segmento.
si es la señal de entrada.
sw es la señal de salida.
Transformada de Fourier
A cada segmento de muestras se le aplica la Transformada Discreta de Fourier (DFT, del inglés
Discrete Fourier Transform) de longitud N y se calcula el valor absoluto para así obtener la
magnitud del espectro de la señal:
X[k] =
∣∣∣∣∣N−1∑n=0
sw[n]e−jnk2πN
∣∣∣∣∣ , k = 0, 1, . . . , N − 1 (2.11)
Con la utilización del valor absoluto de la transformada de Fourier se descarta la fase y se
trabaja únicamente con la envolvente de la señal de voz.
16
2. Mapeo del espectro de la señal a escala Mel
Banco de filtros
La señal se toma desde 20 Hz hasta la mitad de la frecuencia de muestreo y es dividida en
M canales equidistantes en el dominio de la frecuencia mel. El comportamiento del sistema
psico-acústico humano se aproxima mediante la escala de frecuencias mel como:
Mel[x] = 2595 ∗ log10
(1 +
x
700
)(2.12)
Donde:
x corresponde a la frecuencia representada en el eje de escala lineal.
Las frecuencias centrales (f [m]) de los canales en términos de los segmentos de la DFT son
calculadas con la siguiente ecuación:
f [m] =
(N
fs
)Mel−1
[Mel
[fstart +
Mel[fs/2]−Mel[fstart]
M + 1∗m
]], m = 1, 2, . . . ,M
(2.13)
Donde:
fs es la frecuencia de muestreo.
fstart es la frecuencia de inicio del banco de filtros.
M es el número de canales triangulares.
Entonces cada filtro está definido por la ecuación 2.14, que está representada en la figura 2.4
donde se observan los canales triangulares sobrelapados, los cuales tienen anchos de banda
mayores pero menores amplitudes a medida que aumenta la frecuencia.
Hm[k] =
0 k < f [m− 1]
2(k−f [m−1])(f [m+1]−f [m−1])(f [m]−f [m−1]) f [m− 1] ≤ k ≤ f [m]
2(f [m+1]−k)(f [m+1]−f [m−1])(f [m]−f [m−1]) f [m] ≤ k ≤ f [m+ 1]
0 k > f [m− 1]
(2.14)
La salida del filtro mel es la suma ponderada de los valores del espectro de la magnitud de la
DFT en cada banda X[m]. Las ventanas triangulares solapadas al 50 % se usan como:
fbankk =
f [k]∑m=f [k−1]
m− f [k − 1] + 1
f [k]− f [k − 1] + 1X[m] +
f [k+1]∑m=f [k]+1
1− m− f [k]
f [k + 1]− f [k] + 1X[m]
(2.15)
Donde:
k = 1, 2, . . . ,M es el número de canales triangulares (filtros).
f [0] y f [M ] denotan los índices de los segmentos DFT correspondientes a la frecuencia inicial
y a la mitad de la frecuencia de muestreo, respectivamente.
f [0] = fstartfs∗N
f [M ] = fs/2fs∗N
(2.16)
17
Figura 2.4: Representación de los filtros triangulares utilizados para calcular los coeficientes MFCC.Adaptado de [31].
Energía
Ahora se calcula la energía correspondiente a cada uno de los filtros:
En =M∑k=1
|fbank[k]|2 (2.17)
Donde:
n = 0, 1, . . . , N − 1 denotando las transformadas DFT tomadas a cada segmento de audio.
3. Transformada coseno discreta a la potencia de la señal en escala Mel
Logaritmo
La energía de salida del filtrado mel es sujeto a una función logarítmica, con lo cual se logra
que las variaciones de la energía entre los filtros de cada segmento sean suaves:
fk = 10 ∗ log10(Ek), k = 1, 2, . . . ,M (2.18)
Los espectros de los filtros en las bandas adyacentes están correlacionados entre sí, generando
coeficientes espectrales dependientes entre ellos.
Transformada coseno discreta
Para eliminar la correlación entre los filtros, se aplica la Transformada Coseno Discreta (DCT,
del inglés Discrete Cosine Transform):
Ck =M∑i=1
fi ∗ cos
(πk
M(i− 0, 5)
), 0 ≤ k ≤ K (2.19)
2.1.3. Banco de Filtros de Tonos Gamma
Es natural visualizar los sonidos como una representación de la energía del contenido frecuencial de
la señal según va variando ésta a lo largo del tiempo, debido a que esta es una de las formas de describir la
información que obtiene el cerebro de nuestros oídos a través del nervio auditivo [32]. En el oído humano
18
Figura 2.5: Representación del banco de filtros de tonos gamma [34]. Elaboración propia.
las bandas de frecuencias altas están más ampliamente espaciadas con respecto a las bandas de bajas
frecuencias. Por lo cual, los filtros de tonos gamma fueron concebidos como un ajuste a observaciones
experimentales de la cóclea (caracol) de los mamíferos.
Los tonos gamma fueron introducidos por Aertsen y Johannesma en 1980 [33] y son definidos en el
dominio del tiempo por su respuesta al impulso, que es el producto de una envolvente gamma y un tono
sinusoidal:
t = atn−1 exp(−2πbt) cos (2πfct+ φ) (2.20)
Donde:
a es el factor de amplitud.
t es el tiempo en segundos.
n es el orden del filtro y determina la pendiente de las transiciones.
b determina la duración de la respuesta al impulso y, por lo tanto, el ancho de banda del filtro, en Hz.
fc es la frecuencia central en Hz.
φ es la fase de la portadora en radianes.
Una recopilación de datos del Ancho de Banda Rectangular Equivalente (ERB, del inglés Equivalent
Rectangular Bandwidth) de los filtros auditivos está dada por la ecuación 2.21, esta escala define el
espaciamiento relativo y el ancho de banda de los filtros de tonos gamma. En la figura 2.5 se puede
observar la representación de los tonos gamma definidos en la ecuación 2.20 con el ancho de banda ERB
definidos en la ecuación 2.21.
ERB = 24, 7
(4, 37
fc1000
+ 1
)(2.21)
Para este trabajo se utiliza la implementación de Ellis [34], en la cual se realiza una representación en
tiempo-frecuencia de los sonidos como en un espectrograma. Pero con la salvedad de que el espaciamiento
en la frecuencia no es constante, lo cual se asemeja con el funcionamiento de la cóclea antes mencionado.
La señal de audio es primero procesada por el banco de filtros de tonos gamma implementada por
Malcom en [35] y posteriormente se suma la energía dentro de ventanas de tiempo regulares a cada filtro
independientemente. En la figura 2.6 (a) se pueden observar las variaciones de un señal voz en el tiempo y
19
Figura 2.6: Representación de una señal de voz (a). En el tiempo. (b). Como ”espectrograma” aplicandoel banco de filtros de tonos Gamma a la frecuencia. Elaboración propia.
en (b) los niveles de energía del contenido frecuencial en escala ERB a medida que la señal varía en el
tiempo.
2.2. Redes Neuronales Artificiales
Una red neuronal artificial es un modelo de computación inspirada en el funcionamiento del cerebro
[36]. Pero el funcionamiento de un computador digital es totalmente diferente al del cerebro, ya que el
primero realizan operaciones de forma secuencial, mientras que el segundo tiene la capacidad de operar
en paralelo y adicionalmente es altamente complejo.
Es por esto que una red neuronal es un sistema constituido por unidades de procesamiento sencillas
llamadas neuronas interconectadas entre sí. Adicionalmente, se implementa un algoritmo que permite
ajustar las conexiones dentro del modelo neuronal, estos son llamados pesos.
2.2.1. Modelo de Unidad de Procesamiento Elemental
El modelo básico de una neurona está compuesto por un vector de pesos w = (w1, w2, . . . , wM )T
equivalente a las conexiones sinápticas, además de w0 que corresponde al peso asociado con la entrada
bias. Un vector de entradas x y un escalar y que corresponde a la salida de la neurona. Igualmente existe
una función de activación g(·), la cual va a ser operada con la suma ponderada entre el vector de entrada y
el de pesos, incluyendo el bias [37]. En la figura 2.7 se puede ver la topología descrita y en la ecuación
2.22 se representa matemáticamente el sistema.
y = g
(M∑i=1
wixi + w0
)(2.22)
La función de activación más básica g(·), tiene una salida binaria, conocida como limitador duro. Esta fue
20
Figura 2.7: Modelo básico de una neurona con M entradas y el bias, una ponderación, la función deactivación y su salida. Elaboración propia.
propuesta por McCulloch-Pitts [38] y está definida por la siguiente ecuación:
g(a) =
1 a ≥ 0
−1 a < 0(2.23)
Otra función con salida binaria es la función escalón unitario, la cual viene dada por:
g(a) =
1 a ≥ 0
0 a < 0(2.24)
Sin embargo, existen funciones con respuesta de salida continua, que pueden ser lineales o no lineales. La
primera tiene la forma:
g(a) = a (2.25)
Funciones de activación no lineales pueden tener la forma sigmoidal:
g(a) =1
1 + e−a(2.26)
O de tangente hiperbólica:
g(a) =ea − e−a
ea + e−a(2.27)
2.2.2. Redes Tipo Feed-Forward
Es un tipo de red neuronal que forma arquitecturas de varios niveles que operan localmente de manera
independiente (neurona), pero que funcionalmente resuelven un problema de forma global. Las conexiones
de sus sinapsis no forman bucles, por lo que no dependen de estados anteriores de la misma red neuronal,
y la dirección de propagación de la información es en un sentido. En la figura 2.8 se puede observar la
topología de una red feed-forward, la cual consta de D entradas, una capa oculta con M unidades y una
salida de K elementos. Cada unidad de procesamiento tiene una entrada adicional correspondiente al bias.
Tomando como referencia el análisis realizado en [36, pp. 116-120], la salida de la j − esima unidad
oculta está dada por la siguiente ecuación:
aj =d∑i=1
W(1)ji xi +W
(1)j0 (2.28)
21
Figura 2.8: Topología de red tipo feed-forward de una capa oculta, con D entradas, M unidades ocultas yK salidas. Adaptado de [36, fig. 4.1].
Donde:
W(1)ji representa un peso en la primera capa, desde la entrada xi hacia la unidad oculta j.
W(1)j0 representa el peso de la entrada bias de la unidad oculta, el cual tiene una entrada x0 = 1.
La activación de la unidad oculta j es entonces obtenida transformando la suma lineal usando una función
de activación g(·), de la siguiente forma:
zj = g(aj) (2.29)
Las salidas de la red son obtenidas transformando las activaciones de las unidades ocultas usando una
segunda capa de procesamiento de elementos. De esta manera, para cada unidad de salida k, se construye
una combinación lineal de las salidas de las unidades ocultas, como se muestra en la siguiente ecuación:
ak =M∑j=1
W(2)kj zj +W
(2)k0 (2.30)
Una vez más la activación de la k− esima unidad de salida se obtiene al utilizar una función de activación
no lineal g(·):
yk = g(ak) (2.31)
Nótese que no es necesario que la función de activación sea la misma para la capa oculta y la capa de
salida.
Tanto los pesos asociados a la capa oculta, como los asociados a la capa de salida, pueden ser adaptados,
es decir que sus valores pueden cambiar durante el proceso de entrenamiento. Normalmente se emplean
algoritmos de aprendizaje supervisado, el más común es el de back-propagation [36, pp. 140-145].
2.2.3. Redes Neuronales Convolucionales
Las Redes Neuronales Convolucionales (CNN, del inglés Convolutional Neural Network) son un tipo
de arquitectura de aprendizaje profundo, inspirado en el mecanismo de percepción de los seres vivos. Los
experimentos realizados en 1959 por Hubel y Wiesel, sirvieron para que en 1980 Kunihiko Fukushima
propusiera el neocognitrón [39] considerado un precursor de este tipo de redes neuronales.
22
Para que una red sea capaz de aprender se le debe dar un entrenamiento con una gran cantidad característi-
cas, pero en muchas ocasiones obtener buenas características representativas de la tarea se hace difícil. El
potencial que poseen las CNN es el hecho de extraer características relevantes para cientos de problemas
sin la necesidad de buscar características adicionales [40]. Pese a que las CNN sean una generalización
de las redes neuronales artificiales (ANN), estas tienen una mejor generalización comparadas con redes
totalmente conectadas, ya que se reduce el número de parámetros necesarios para el entrenamiento [41].
El modelo general de CNN se compone de capas alternadas: convolucionales, submuestreo o pooling,
activación y capas totalmente conectadas, que están secuencialmente conectadas [41], la topología se
muestra en la figura 2.9, cuyas capas serán abordadas a continuación.
Capas convolucionales: cuenta con filtros o matrices que se deslizan sobre el vector de entrada
o lo que podría ser una imagen. El deslizamiento sería tanto horizontal como vertical, extrayendo N
número de características [40]. La entrada es la imagen original XIn, mientras que para siguientes capas
convolucionales la entrada viene determinada por:
X lj = f
∑i∈Mj
(X l−1i ∗W l
ij + blj
) (2.32)
Donde:
l es la capa de la red
j es la característica mapeada
W l son los pesos de la matriz en la capa
blj son los bias que se adicionan
∗ es la operación de convolución
f(x) es la función de activación, que en la mayoría de los casos es ReLU (Rectified Linear Unit).
En la figura 2.10 se puede observar el funcionamiento de una capa convolcuional compuesta por la entrada,
la operación de convolución con un kernel, la sumatoria de esta operación y finalmente la función de
activación, en este caso ReLU, que generan un nuevo mapa de características.
Aunque recientemente han aparecido capas convolucionales de diferentes tipos tales como: capas convolu-
cionales Tiled, capas convolucionales dilatadas y otras de gran utilidad [39].
Funciones de activación: las funciones de activación más usadas en redes neuronales convencionales
son de tipo sigmoidal. En las redes convolucionales se usan funciones de activación de tipo Rectified
Linear Unit (ReLU) para introducir una no linealidad, cuyo funcionamiento corresponde a:
Figura 2.9: Estructura básica de una CNN compuesta por capas: entrada, convolucionales, pooling,totalmente conectadas y salida. Adaptado de [41].
23
Figura 2.10: Composición básica de una capa convolucional con función de activación ReLU. Adaptadode [40].
Figura 2.11: Funciones de activación (a). ReLu. (b) PReLU. (c) RReLU. Adaptado de [42].
yi =
xi si xi ≥ 0
0 si xi < 0(2.33)
Para la función de activación ReLU es mucho más fácil el cálculo de las derivadas parciales y por lo
tanto el tiempo de entrenamiento se reduce, pero su eficiencia se ve afectada cuando el gradiente de
entrenamiento es demasiado grande [40]. Además de ReLU existen otras funciones de activación tales
como: Parametric Rectified Linear (PReLU), Randomized ReLU (RReLU), Exponential Linear Unit
(ELU) [42], [39]. En la figura 2.11 se puede observar la función de activación ReLU, PReLU y RReLU
donde su comportamiento difiere cuando ingresan valores negativos, notando que mientras ReLU da como
respuesta un valor igual a cero el resto de funciones arrojan valores negativos.
Aunque el uso de PReLU mejora ligeramente el rendimiento como se ve en [42], es poco significativo al
momento de implementarlo.
Capas de submuestreo: esta capa reduce significativamente el número de parámetros para entrenar,
generando otro vector de menor tamaño. El más común es llamado max-pooling que toma la muestra
más significativa de un conjunto [40]. Los principales objetivos de realizar pooling son el reducir la
dimensionalidad y mantener la invarianza a la escala para el conjunto de datos [41]. Se define como:
X lj = βijpooling(X l−1
j ) (2.34)
Donde:
pooling(x) son las reglas que se usan para reducir la dimensionalidad.
βij Es el peso del submuestreo que es un valor preacordado.
Recientemente han aparecido otro tipo de capas de submuestreo tales como: Lp pooling, Mixed pooling,
Stochastic pooling, Spectral pooling, Spatial pyramid pooling, Multi-scale orderless pooling [41].
24
Capas totalmente conectadas: como se mencionó antes esta capa es similar a los modelos con-
vencionales excepto que es alimentada con la información extraída de las capas anteriores. Es posible
usar el algoritmo de descenso de gradiente para entrenar la red, pero este realiza la actualización de los
parámetros después de usar todos los datos, dando como resultado una poca eficiencia cuando se disponen
de bases de datos extensas. La mejor solución a este problema es implementar el algoritmo de descenso
de gradiente estocástico [40]. La capa totalmente conectada se define como:
X l = f(wlX(l−1) + bl) (2.35)
Función de perdida: es importante escoger la una función de perdida dependiendo de la tarea a
realizar, dentro de esta función las más conocidas son, Hinge loss, Contrastive loss, Triplet loss, y la
más usada Softmax loss [39]. Considerando la cantidad de clases a clasificar, las salidas de las capas
densamente conectadas son ingresadas a una capa Softmax, la cual se define como:
pij =ezij∑k
l=1 ezij
(2.36)
Donde:
zij = wTj ai + bj siendo la salida de las capas totalmente conectadas.
Esta capa devuelve un valor no negativo y normalizado para obtener una distribución de probabilidad en
todas las clases, estas probabilidades son usadas para dar una estimación de la salida en la capa softmax
como:
softmax = − 1
N
N∑i=1
K∑j=1
y(i) = j
log pj
(i)
(2.37)
Dropout: es un método que permite reducir el sobreajuste de una red al eliminar pesos de forma
aleatoria, se puede definir como:
y = r · a(W tX) o y = a(R ∗Wx) (2.38)
Donde:
X es la entrada.
w es la matriz de pesos.
r es un vector de tamaño d independientes en una distribución de Bernoulli con parámetro p.
En algunos trabajos se ha encontrado que el poner capas Dropout después de las capas convolucionales no
mejora el sobreajuste, debido a una alta correlación existente en las imágenes usadas [43].
En la figura 2.12 se muestra como al implementar una capa de dropout, esta elimina pesos aleatoriamente
con una cierta probabilidad. Al implementar esta técnica se puede forzar a que la red tenga precisión
incluso con la perdida de información.
Batch normalization (BN): debido a que los datos de entrada fluyen a través de las capas internas,
cambia tanto la media como la varianza, provocando perdida de aprendizaje. La solución al problema de
cambio de covarianza es ajustar la estimación de la media y la varianza, las cuales son calculadas después
25
Figura 2.12: Eliminación aleatoria de pesos mediante la implementación de una capa de dropout. Lasflechas punteadas con X marcadas representan pesos eliminados. Adaptado de [39].
de cada mini-batch en lugar de realizar el cálculo sobre todos los datos [39]. Supongamos que d es la
dimensión de la entrada x = [x1, x2, x3, ..., xd] . Primero normalizamos la dimensión kth
xk =(xk − µB)√δ2B + ε
(2.39)
Donde:
µB es la media.
δ2B es la varianza.
ε es un valor constante.
Para mejorar la habilidad de la representación, la entrada xk es transformada como:
yk = BNγ (xk) = yxk + β (2.40)
Donde γ y β son los parámetros de aprendizaje.
Batch normalization tiene algunas ventajas con respecto a la normalización global de los datos. Siendo
la más importante que reduce el cambio de covarianza y también reduce la dependencia del gradiente
en la escala de los parámetros o sus valores iniciales. De esta manera se beneficia el efecto del flujo de
gradiente en la red, habilitando el uso de gradientes con una tasa de aprendizaje más grande que incluso
puede llegar a reducir la necesidad de Dropout en la red [39].
26
Algoritmo de Entrenamiento
Descenso de gradiente como se muestra en [40] es el algoritmo para minimizar el costo de la función
bajo el uso de backpropagation.
Algoritmo 1: Algoritmo de descenso de gradiente
1 Ingresar el vector de entrada a la red.
2 Ejecutar los filtros de convolución para generar el mapa de características.
3 Las características obtenidas pasarlas a través de ReLU para introducir una no linealidad.
4 Aplicar el submuestreo para obtener el mapa de características, el cual introduce invarianza a la
traslación.
5 Repetir los pasos 2 al 4 para cada tipo de capa.
6 El mapa de características obtenido es pasado a través de las capas totalmente conectadas para su
clasificación.
7 Pasar la salida a un clasificador como softmax.
8 Calcular la perdida en la capa final y calcular el gradiente con respecto a todos los parámetros.
9 Propagar el error hacia atrás y ajustar los parámetros.
10 Ejecutar el paso hacia adelante y repetir los Pasos 2 a 9 usando los parámetros ajustados hasta que
la red converja.
Descenso Estocástico de Gradiente
Este algoritmo es similar al descenso de gradiente, excepto que los datos de entrenamiento durante
cada iteración son tomados aleatoriamente para actualizar los pesos de la red, adicionalmente converge
más rápido, debido a que ahorra el uso de la memoria al no acumular los pesos intermedios [40]. Descenso
de gradiente estocástico es la más común de las soluciones en optimización para redes convolucionales
debido a sus buenos resultados [39].
Algoritmo De Optimización ADAM (Adaptive Moment Estimation)
El descenso de gradiente es usado fácilmente donde la función es muy diferenciable con respecto a
los parámetros usados en la red, pero donde este proceso no es fácilmente diferenciable es mucho mejor
usar ADAM [40], Facilitando la tasa de aprendizaje usando el primero y segundo momento de gradiente,
es computacionalmente eficiente y requiere menos memoria.
Este algoritmo requiere de po que corresponde al primer momento del vector, qo que corresponde al
segundo momento del vector de varianza no centrada y t que representa los pasos de tiempo e inicializado
a cero. Considerando que f(w) es el objetivo con parámetros w, α = 0,001, m1 = 0,9, m2 = 0,999,
27
ε = 10−8. El algoritmo ADAM es el siguiente.
Algoritmo 2: Algoritmo de optimización ADAM
1 Calcular el gradiente gt = ∂f (x,w)/∂w
2 Calcular pt = m1pt−1 + (1−m1) gt
3 Calcular qt = m2qt−1 + (1−m2) g2t
4 Calcular pt = pt/(1−mt1)
5 Calcular qt = qt/(1−mt2)
6 Actualizar los parámetros wt = wt−1 − αpt/(√qt + ε)
7 Repetir desde 1 hasta convergencia.
8 Entregar wt
El inconveniente con este método es que requiere derivadas de segundo orden incrementando el costo
computacional, como se muestra en [40].
2.3. Reducción de Características
2.3.1. Análisis de Componentes Principales
La utilidad del Análisis de Componentes Principales (PCA, del inglés Principal Component Analysis)
radica en el hecho de mapear datos de cualquier tipo a otro espacio, donde la gran cantidad de información
de los datos quedará registrada en unos pocos ejes del nuevo espacio, siendo ordenados por la varianza, y
revelando información oculta. Con lo cual cuanto mayor varianza mayor información lleva determinado
eje [44].
Para el análisis de PCA en [45] se asume que:
1. La idea detrás de PCA consiste en asumir la linealidad entre variables y de esta forma poder determinar
la matriz de transformación adecuada.
2. La media y la varianza son suficientes para describir problemas de distribución Gaussiana con el fin de
reducir redundancias y ruido de las señales.
3. Una varianza grande indica una dinámica importante.
4. Las nuevas bases serán ortogonales entre sí.
Como se ve en la figura 2.13, si los nuevos ejes son ruido y señal, la mayor cantidad de información la
aporta el eje llamado señal y muy poca información el eje llamado ruido, que podría llegar a ser eliminado
si tiene una varianza menor con respecto al eje señal. Logrando una reducción de características.
Para el análisis de PCA podemos definir como un vector aleatorio, con p variables y con n muestras y una
colección de esas muestras denominado como Y que será la colección de todos los datos [46]
y1 =
yi1
yi2...
yip
, Y =
y′1
y′2...
y′n
(2.41)
Si las muestras no están correlacionadas a los ejes, la nube de puntos no estará paralela a ningún eje. Con
lo cual para intentar establecer un nuevo espacio a este problema podemos hallar una rotación de ejes,
28
Figura 2.13: Varianza del ruido y la señal analizado en nuevos ejes. Adaptado de [45].
intentando hacer que la nube de puntos esté paralela a nuevos ejes. Al multiplicar por una matriz A se
puede conseguir el efecto deseado [45].
zi = Ayi (2.42)
Siendo A ortogonal, por tanto A′A = I . Entonces la idea es buscar la matriz A que proporcione unos
datos no correlacionados, al tomar la matriz de covarianza de z denotada como sz [46] descrita como.
sz = ASA′
=
s2z1 0 · · · 0
0 s2z2 · · · 0...
.... . .
...
0 0 · · · s2zp
(2.43)
Donde S es la matriz de covarianzas de y. Entonces para encontrar A se parte del hecho que A es capaz
de diagonalizar a S. La matriz A que diagonaliza a S es:
A =
a′1
a′2...
a′p
(2.44)
Donde ai son los autovectores de S.
Por lo tanto los nuevos vectores principales serán:
z1 = a11y1 + a12y2 + · · ·+ a1pyp (2.45)
Los autovectores de S serán las varianzas de las componentes principales, por tanto:
λ1 0 · · · 0
0 λ2 · · · 0...
.... . .
...
0 0 · · · λp
=
s2z1 0 · · · 0
0 s2z2 · · · 0...
.... . .
...
0 0 · · · s2zp
(2.46)
29
Como los auto valores son varianzas, se puede establecer la proporción de varianza por las primeras k
componentes como.
proporcion de varianza =λ1 + λ2 + · · ·+ λk∑p
j=1 Sjj(2.47)
De la ecuación 2.47 se infiere que los datos que presenten una correlación muy grande tenderá a almacenar
mucha información en pocos valores de k, pero si la correlación es pequeña tenderá a presentar una
disminución de características poco significativa en los nuevos datos [46].
2.4. Estado del Arte
La tarea básica de ASC (del inglés, Acoustic Scene Classification) consiste en asignar una etiqueta a
una entrada de datos de audio que caracteriza el tipo de ambiente en el cual fue grabado. Generalmente se
realiza un procesamiento a los audios, con el objetivo de extraer los coeficientes que representan el sonido
y de esta manera reducir la dimensionalidad del problema de clasificación [47].
La idea de dejar la tarea de ASC a un computador fue primero planteada por Cherry en 1953 [48]. En
esa ocasión hablaban de la capacidad que tienen los humanos de estar atentos a una conversación, aún en
entornos con presencia de ruido. Este es el conocido “cocktail party problem”, perteneciente al área de
reconocimiento automático de habla.
Pero fue hasta 1997 cuando Sawhney y Maes del MIT, implementaron la primera solución relacionada
con ASC, emplearon redes neuronales recurrentes y vecinos cercanos como clasificador [13]. Solo un
año después, desde la misma institución se publicó un trabajo en el cual exploraban otra alternativa para
abordar la problemática de ASC. Esta vez los investigadores implementaron modelos ocultos de Markov y
adicionalmente desarrollaron una base de datos más especializada para la tarea [6].
De los sonidos de ambientes urbanos se puede obtener una cantidad importante de información represen-
tada en un vector de características. En algunos trabajos hacen uso de características como MFCC [49],
[50],[51], Log Mel [25], [52], [53], tonos Gamma [3], [5], [53], e incluso de la DFT [12]. De igual manera
en otros trabajos relacionados con ASC se hacen agrupaciones de diferentes tipos de características
evidenciando un rendimiento ligeramente superior, comparado con el uso de un solo tipo de las mismas
[5], [54],[55], [56], pero cabe destacar que este aumento en la mayoría de los casos no supera el 6 %.
La elección de las características de entrada y el número de coeficientes a extraer son temas en los cuales
no hay consenso entre los investigadores. Por ejemplo, en [57] extraen 13 coeficientes MFCC y obtienen
un rendimiento del 82,9 %. Por otra parte, en [58] extraen 60 coeficientes MFCC y el rendimiento es de
75,3 %. Pero el aumento del número de coeficientes extraídos no conlleva a la disminución del rendimiento,
ya que, por ejemplo, en [59] extraen 20 coeficientes MFCC y el rendimiento es superior al 90 %. En todos
los casos la base de datos utilizada fue la TUT Acoustic Scenes 2016, pero con topologías diferentes de
DNN en cada caso.
Es necesario mencionar que la obtención de características no es realizada en el audio completo, si no
que este es fragmentado en segmentos de corta duración que comúnmente no superan los 150 ms, con
solapamiento que varía entre un 30 % y 50 %. En [60] se evidencia que los mejores rendimientos se
obtienen al concatenar segmentos y generar vectores que representan intervalos de tiempo de entre uno y
cinco segundos.
Estas características se pueden generalizar al generar un Árbol de Etiquetas Embebido (LTE, del inglés
30
Label Tree Embedding), con el cual se divide el grupo de etiquetas en conjuntos disjuntos que representan
las probabilidades de pertenencia a una u otra ramificación [3], [5]. También se ha llegado a hacer análisis
a las características utilizando métodos propios de la estadística descriptiva como son la media, desvia-
ción estándar, varianza, etc. [10]. En estos casos se busca resumir las propiedades de escenas de audio
individuales o categorías completas de paisajes sonoros a partir de los vectores de características [1].
Para realizar la tarea de ASC basados en modelos estadísticos se asume que tanto las características de
entrenamiento como las de validación fueron generadas con base en una distribución de probabilidad
definida, lo que implicaría que las escenas representadas contienen información similar entre ellas [11].
Aun así se han realizado implementaciones con GMM y HMM [7], pero en los últimos años se han
mostrado en inferioridad al comparar su rendimiento con el de las redes neuronales artificiales [12], [59],
[61], [62].
Sin lugar a dudas las implementaciones más comunes están relacionadas con redes neuronales artificiales.
Desde topologías simples de MLP (Multi Layer Perceptron) en las que se entrenan conjuntos de neuronas
de la capa oculta con diferentes características y estas salidas están totalmente conectadas con la capa ocul-
ta posterior [15] u otras más sencillas donde el entrenamiento se realiza con un único tipo de característica
y topologías comunes de pocas capas y neuronas [57], [63]. Pero también se deben mencionar topologías
de DNN donde se utilizan un gran número de neuronas por cada capa oculta obteniendo rendimientos
comparables con los de las redes convolucionales [20], [56], [59], [61].
Actualmente las redes convolucionales están siendo ampliamente usadas en ASC debido a que han
demostrado resultados superiores a cualquier otro tipo de clasificador [47], [64]. La mayoría de trabajos
desarrollados para ASC usando redes convolucionales se basan en topologías que combinan capas convo-
lucionales, funciones de activación, capas de pooling, etc. [54], [56], destacando en algunos trabajos la
importancia de concatenar capas de Dropout, lo que permite reducir el sobre ajuste [53], [20].
Al analizar las topologías, se encuentran casos donde la complejidad es alta para la tarea de ASC, ya que
toman como referencia las técnicas utilizadas para el análisis de imágenes, donde se implementan un gran
numero de capas y filtros convolucionales [12], [16], [19], [53], [65], [66]. Esto representa tiempos de
entrenamiento elevados y puede desencadenar en sobre ajuste a los datos. También es posible encontrar
soluciones en las cuales se utilizan pocas capas y filtros convolucionales [14], [63] y otros casos donde se
intentan combinar clasificadores como CNN y RNN en un intento por mejorar el rendimiento [25], [49],
[67].
Teniendo en cuenta estos precedentes, se puede decir que la elección de los parámetros más adecuados
para realizar la segmentación del audio, la extracción de características y el modelo de clasificación,
depende totalmente de los conocimientos del investigador y la experiencia en temas relacionados con
ASC.
31
Capítulo 3
Entrenamiento con características nomodificadas
El proceso general de tratamiento de los sonidos, entrenamiento y validación de los modelos de red
neuronal feed-forward y convolucionales implementados se resume en la figura 3.1. El primer paso en este
proceso es la digitalización del audio, para posteriormente realizar el ventaneo de la señal que representa,
en este caso en segmentos de 100 ms, con solapamiento entre ventanas de 50 ms. Posteriormente a cada
segmento se le extraen coeficientes de tres tipos de características, como son: DFT, tonos gamma y MFCC.
Estos coeficientes son sometidos a un proceso de normalización, que pretende establecer un rango para los
datos de entrada a la red neuronal, ya sea para establecer segmentos de 1 o 10 segundos. Posteriormente
se realiza la concatenación de características, como son: DFT-Gamma, DFT-MFCC, Gamma-MFCC y
DFT-Gamma-MFCC. El siguiente paso metodológico es realizar el entrenamiento con un 80 % de los
datos disponibles, con características de entrada individuales y posteriormente combinadas, tanto para
segmentos de 1 y 10 segundos. Una vez entrenado el modelo se procede a validar el mismo con el 20 %
de los datos previamente separados.
3.1. Base de Datos
La base de datos empleada para el desarrollo del proyecto es la TUT Urban Acoustic Scenes 2018,
esta es de uso libre y es utilizada para el reto DCASE2018 [18]. Esta consta de diez escenas acústicas,
como son: aeropuerto, centro comercial (adentro), estación de metro, calle peatonal, plaza pública, calle
con nivel de tráfico medio, viajando en bus, viajando en metro subterráneo, viajando en tranvía y parque
urbano [14]. En la tabla 3.1 se enumera el orden de las clases utilizado para el análisis y presentación de
las matrices de confusión.
Cada escena consta de 864 segmentos de audio de 10 segundos cada uno. Estos fueron grabados en seis
importantes ciudades europeas: Barcelona, Helsinki, Londres, París, Estocolmo y Viena. En cada ciudad y
para cada escena se eligieron diferentes locaciones para la grabación de los sonidos. En cada locación
se realizaron entre 2 y 3 sesiones de grabación de 5 a 6 minutos cada una y con un margen de tiempo
entre ellas. Posteriormente, las grabaciones originales fueron segmentadas en archivos individuales de 10
segundos [14].
Las grabaciones de sonido fueron realizadas con el micrófono de electret Soundman OKM II Klassik/studio
33
Figura 3.1: Diagrama de bloques de un clasificador basado en sonidos. Elaboración propia.
1 Aeropuerto2 Bus3 Metro4 Estación de metro5 Parque6 Plaza pública7 Centro comercial8 Calle peatonal9 Tráfico
10 Tranvía
Tabla 3.1: Orden de clases establecido para las matrices de confusión.
A3 y el grabador de sonido Zoom F8 usando una frecuencia de muestreo de 48 kHz con resolución de 24
bits. Los micrófonos fueron llevados en los oídos, de modo que los sonidos son similares a los que llegan
al sistema auditivo humano [14].
3.2. Equipo para Entrenamiento
El entrenamiento de las redes neuronales artificiales se realiza en un host virtual solicitado a la Red
de Investigaciones de Tecnología Avanzada RITA de la Universidad Distrital Francisco José de Caldas,
para este fin han asignado una máquina con sistema operativo Linux, con 32 GB de memoria RAM y un
procesador de 20 núcleos con frecuencia de 2 GHz. El entrenamiento se realiza utilizando la función de
procesamiento en paralelo de MATLAB r2018b, cuya licencia académica es brindada por la Universidad
Distrital Francisco José de Caldas.
34
Figura 3.2: Proceso de ventaneo y extracción de características. Elaboración propia.
3.3. Extracción de Características
Como se mencionó anteriormente, la base de datos consta de 10 clases, cada una contiene 864
audios de 10 segundos, por lo que se dispone de 8640 audios en total. El primer paso es la extracción de
características para formar una base de datos propia. Cada audio es dividido en ventanas de tiempo de
100 ms con superposición de 50 ms, de esta manera se consigue una buena resolución en frecuencia y en
tiempo. Por lo tanto, cada audio estará segmentado en 199 ventanas y así cada clase queda compuesta por
171.936 tramas.
A cada ventana de audio se le extrajeron 40 coeficientes MFCC, 40 coeficientes de tonos gamma y 100
coeficientes DFT, mediante el procedimiento descrito en el capítulo 2 Marco Teórico. En la figura 3.2 se
resume el proceso expuesto anteriormente. Cabe destacar que, bajo la aplicación de la FFT, la cantidad de
coeficientes disponibles por cada transformación es igual a la cantidad de muestras en el tiempo de cada
audio de 100 ms (4800 muestras), teniendo en cuenta que es un elevado número de coeficientes y que
finalmente muchos de estos representan ruido que no aporta información para el problema, se considera
suprimir aquellas características que tienen una magnitud inferior a -50dB.
Hasta este punto se cuenta con matrices en cada clase de 40x171936 para características de tipo MFCC y
tonos gamma, además de una matriz de 100x171936 para características de tipo DFT. En la figura 3.3
se muestra el proceso para formar un mapa de características, primero de aproximadamente un segundo
donde las matrices son divididas cada 20 columnas evitando solapamiento con características de audios
adyacentes.Mientras que para formar un mapa de características de 10 segundos se dividen las matrices
cada 199 columnas.
El análisis es realizado para segmentos de 1 y 10 segundos, ya que para una red neuronal puede ser
más sencillo extraer características importantes de segmentos cortos de tiempo debido al nivel de detalle
que se puede representar y a que los sonidos de ambientes urbanos por su naturaleza presentan una alta
variabilidad.
35
Figura 3.3: División de características en segmentos de 1 y 10 segundos. Elaboración propia.
Figura 3.4: Topología de MLP compuesta por tres capas ocultas. Elaboración propia.
3.4. Experimento 1: Variación de Topologías en MLP y CNN
La parte A del primer experimento realizado consiste en entrenar redes neuronales artificiales feed-
forward y convolucionales con las características individuales extraídas a los audios (MFCC, tonos
gamma y DFT), variando las topologías y la longitud de los segmentos de audio. Primero se realiza el
entrenamiento con segmentos de 10 segundos y posteriormente con segmentos de 1 segundo. Cada modelo
de red neuronal convolucional es entrenado tres veces, mientras que las topologías de red feed-forward
es entrenada cinco veces, en ambos casos por un máximo de 25 iteraciones. En todos los casos la base
de datos es dividida de forma aleatoria utilizando 80 % de los datos para entrenamiento y 20 % para
validación de los modelos. La división se realiza sobre cada conjunto de datos, de tal manera que cada
clase es entrenada y validada con la misma cantidad de ejemplos.
Las redes feed-forward están compuestas por capas totalmente conectadas y softmax como salida, en
las figuras 3.4 y 3.5 se puede observar las topologías implementadas para redes neuronales con tres y
cuatro capas ocultas, respectivamente. Las variaciones se realizan sobre el número capas y neuronas que
componen cada capa. En todos los casos el algoritmo de entrenamiento es de gradiente descendiente
estocástico.
Por su parte, las redes convolucionales están constituidas por capas convolucionales, max pooling, dropout,
batch normalization, totalmente conectadas y salida softmax, esta red es entrenada utilizando el algoritmo
de optimización ADAM. La topología está organizada en dos bloques convolucionales compuesto cada
uno básicamente por dos capas convolucionales con igual número de filtros, en la figura 3.6 se puede
36
Figura 3.5: Topología de MLP compuesta por cuatro capas ocultas. Elaboración propia.
Figura 3.6: Topología de CNN, en cada bloque hay dos capas convolucionales con igual número de filtrosen cada experimento (variable x). Elaboración propia.
observar la organización de las capas en la red implementada. En la experimentación, las variaciones se
realizan sobre el número de filtros que componen cada bloque convolucional, cabe destacar que el bloque
A en todos los casos está compuesto por un número de filtros mayor que el bloque B tal como se muestra
en la figura 3.6 derecha.
Las redes neuronales cuando son entrenadas con características MFCC y tonos gamma, tienen como
entrada una matriz de [40x199x1] para segmentos de 10 segundos y de [40x20x1] para segmentos de 1
segundo. Para coeficientes DFT primera dimensión es de 100, ya que esta corresponde con el número de
características extraídas a cada segmento. La tercera dimensión de la matriz de entrada es el número de
canales de color que compone la imagen, para este problema los datos corresponden a la magnitud de la
energía de la señal, por lo cual se pueden representar en escala de grises.
De esta primera parte del experimento 1 se pueden identificar las topologías de redes neuronales feed-
forward y convolucionales que obtienen los mejores rendimientos para cada una de las características y
para cada longitud de segmento utilizado. Adicionalmente es necesario tener en cuenta los tiempos que
tardan las redes neuronales en ajustar sus parámetros.
La parte B del experimento 1 consiste en entrenar las topologías que obtuvieron los mejores resultados en
cuanto a rendimiento y tiempo de entrenamiento en el experimento A, con combinaciones de características
como entrada (DFT-Gamma, DFT-MFCC, Gamma-MFCC y MFCC-gamma-DFT). De esta manera se
puede evaluar el efecto que tiene la combinación de características en el rendimiento de las redes
neuronales, esto para segmentos de audio de 1 y 10 segundos.
37
3.4.1. Experimento 1A: Entrenamiento Con Características de EntradaIndividuales
En esta primera parte de la experimentación se busca evaluar el rendimiento de las características indi-
viduales extraídas (MFCC, tonos gamma y DFT) a segmentos de audio de 10 segundos y posteriormente
de 1 segundo. Para este fin se entrenan diferentes topologías de CNN y de MLP, a las cuales se les varía el
número de filtros convolucionales, el número de capas y las neuronas por capa, según corresponda.
La topología de CNN está compuesta por dos bloques convolucionales, como se muestra en la figura
3.6, en cada bloque convolucional se varía el número de filtros, empezando desde 16 filtros realizando
variaciones en potencias de 2 hasta 128. En todos los casos el segundo bloque convolucional tiene una
mayor cantidad de filtros, con el objetivo de mantener la representación de la potencia a medida que el
tamaño espectral se reduce [25]. De esta manera, se logra que el segundo bloque convolucional extraiga
características más relevantes y menos sensibles al ruido, obteniendo una mayor cantidad de información
que será alimentada a las capas totalmente conectadas de la red, de esta forma las combinaciones de los
bloques convolucionales quedarán 16-32, 16-64, 16-128, 32-64, 32-128, 64-128.
En cuanto a la topología de MLP, se varía el número de capas ocultas junto con el número de neuronas
por capa, con lo cual se plantea el uso de 3 y 4 capas ocultas incluyendo la capa de salida, ya que se
evidenció que con el uso de dos capas ocultas no se obtienen rendimientos satisfactorios. Cada capa oculta
inicialmente tiene 50 unidades (excepto la capa de salida, que en todos los casos tiene 10 neuronas), y
para cada experimento se aumentará este número en 50 neuronas hasta un máximo de 150 unidades para
topologías de 3 capas como se muestra en la figura 3.4 y 100 para topologías de 4 capas como en la figura
3.5.
Con esto se pretende encontrar las mejores topologías de CNN y MLP entrenadas, mediante la compa-
ración de rendimiento para los segmentos de audio evaluados. Sin embargo, es necesario considerar el
tiempo que toma cada topología en ser entrenada, ya que en experimentos posteriores esta información
será relevante para realizar una comparación de los diferentes modelos implementados.
Resultados Obtenidos con Segmentos de 10 Segundos
Redes Neuronales Convolucionales
En la tabla 3.2 se observan los rendimientos con los datos de entrenamiento y validación alcanzados
por las diferentes CNN entrenadas. Allí se puede constatar como en algunos casos el margen entre los
rendimientos de entrenamiento y validación supera el 20 %, lo que muestra un sobreentrenamiento de las
redes neuronales, por lo cual se dice que la capacidad de generalización de dichos modelos es baja. Cabe
destacar que con todas las características utilizadas para entrenar las redes convolucionales se presenta
sobreajuste a los datos. Aunque las características de entrada que presentan el menor sobreajuste son las
MFCC, también son estas las que tienen los menores rendimientos en el entrenamiento y la validación.
El hecho de evidenciar sobreentrenamiento con la mayoría de topologías implementadas para segmentos
de 10 segundos, da cuenta de que los datos de entrada no brindan información adecuada a los modelos
entrenados, esto puede deberse principalmente a la longitud que representan estos datos, pero también
puede indicar la incapacidad de las redes neuronales de extraer información importante de los datos de
entrada.
En la figura 3.7 se evidencia que para todas las topologías, los mejores rendimientos con los datos
38
10 Segundos DFT Tonos gamma MFCCFiltros %Ent %Val %Ent %Val %Ent %Val16-32 92 63,12 91 66,94 80 61,7316-64 87 58,96 86 65,14 63 56,8816-128 71 58,73 78 65,14 50 49,9432-64 73 58,9 90 66,71 73 62,1432-128 64 54,91 75 62,54 68 57,3464-128 70 60,58 74 65,9 63 54,57
Tabla 3.2: Rendimiento de entrenamiento y validación con CNN para características de entrada individualesy segmentos de 10 segundos.
Figura 3.7: Rendimiento de validación de las topologías de CNN implementadas. Elaboración propia.
de validación son alcanzados con los coeficientes gamma como entrada. Donde el mejor rendimiento
alcanzado es de 66,94 %, que se obtiene con la topología más sencilla entrenada, que consta de 16 y 32
filtros para el primer y segundo bloque convolucional, respectivamente. Sin embargo, el sobreajuste a
los datos es evidente, ya que el rendimiento en entrenamiento es superior en aproximadamente 24 % con
respecto a la validación del modelo. Por otra parte, la topología más compleja entrenada con las mismas
características obtiene un rendimiento de 65,9 % (1 % inferior con respecto al mejor rendimiento), pero el
margen entre los rendimientos de entrenamiento y validación es de aproximadamente 8 %, lo cual es 3
veces menor que el anteriormente evaluado, esto indica una mejor capacidad de generalización del modelo
más complejo.
En la figura 3.8 se representan los tiempos de entrenamiento en función del número de filtros convolu-
cionales, se puede observar cómo los tiempos de entrenamiento con características MFCC y gamma son
similares para todos los casos experimentados, ya que el número de coeficientes extraídos es igual en
ambos casos. Por otra parte, al utilizar DFT con un mayor número de coeficientes, los tiempos de entrena-
miento se elevan con un coeficiente inferior a la representada por la razón del número de coeficientes.
También se evidencia que conforme la complejidad de la red aumenta, los tiempos de entrenamiento
aumentan con una tendencia de crecimiento exponencial.
En la tabla 3.3 se observa la matriz de confusión de la mejor topología entrenada, nótese que la clase
estación de metro tiene el menor rendimiento en validación con apenas un 50 %, pero muy cercano con
las clases metro y sendero peatonal con 52 %. Para el caso de la clase estación de metro, esta presenta las
mayores confusiones con la clase metro y centro comercial, 10,4 % y 8,67 %, respectivamente. La clase
39
Figura 3.8: Número de filtros Vs. tiempo de entrenamiento en minutos con características individualespara las redes neuronales convolucionales implementadas. Elaboración propia.
SAL
IDA
1 65,9 0 3,47 7,51 0 10,4 4,05 9,83 0 0,582 0 80,3 11 4,05 3,47 0 0 0 0,58 14,53 2,31 2,89 52 10,4 2,31 1,73 0 1,73 0 14,54 4,62 0,58 12,7 50,3 0,58 1,73 0 5,2 1,16 6,945 0 2,31 1,16 2,89 86,1 6,36 0 1,73 6,36 1,166 6,36 0 1,16 4,05 2,31 58,4 0,58 17,9 12,7 2,317 14,5 0 1,16 8,67 0 3,47 91,3 9,25 0 08 5,78 0,58 2,31 5,78 0 11 3,47 52 4,05 1,739 0 0 0,58 2,31 2,89 5,2 0,58 1,73 74,6 010 0,58 13,3 14,5 4,05 2,31 1,73 0 0,58 0,58 58,4
1 2 3 4 5 6 7 8 9 10ETIQUETA
Tabla 3.3: Matriz de confusión para la mejor topología de CNN implementada. Elaboración propia.
metro presenta las mayores confusiones con la clase tranvía (14,5 %), estación de metro (12,7 %) y bus
(11 %), en estos casos se evidencia cómo la naturaleza de sonidos propios del transporte urbano influye
sobre la clasificación de la CNN.
Por otra parte, la clase centro comercial tiene el mayor rendimiento en validación con 91,3 % de aciertos,
presentando las mayores confusiones con las clases aeropuerto (4,05 %) y calle peatonal (3,47 %), estos
tres ambientes son altamente concurridos por personas, pero en este caso la CNN puede diferenciar de
buena forma la clase adecuada.
Redes Neuronales Feed-Forward
En la tabla 3.4 se resume el rendimiento en entrenamiento y validación obtenido con las diferentes
topologías de ANN implementadas y en la figura 3.9 se observa la comparación de los rendimientos
con los datos de validación con los tres tipos de características experimentados. Se puede observar que
con los datos de validación el mejor rendimiento es de apenas 55,43 % y se obtiene con entrada de
características gamma, con la topología compuesta por 100-150-10 neuronas en cada capa, de igual
manera con esta misma topología se obtiene el mejor rendimiento con características MFCC. Esta misma
topología entrenada con coeficientes DFT obtiene un rendimiento ligeramente inferior (0,23 %) comparado
40
10 segundos DFT Gamma MFCCNeuronas %Ent %Val %Ent %Val %Ent %Val50-50 100 51,91 90 52,14 70 46,5950-100 100 51,97 93 51,62 75 47,1150-150 100 52,66 95 53,18 77 48,09100-50 100 51,91 93 54,28 78 46,47100-100 100 53,18 97 55,14 81 48,73100-150 100 52,95 95 55,43 80 50,8150-50-50 100 49,25 90 50,87 50 43,8750-100-50 100 50,29 92 51,45 50 46,0750-100-100 100 50,64 92 52,43 55 47,11100-50-100 100 51,56 93 52,25 53 45,43100-100-100 100 50,06 97 53,58 57 46,82
Tabla 3.4: Rendimiento de entrenamiento y validación con MLP para características de entrada individualesy segmentos de 10 segundos.
Figura 3.9: Rendimiento de validación de las topologías de MLP implementadas. Elaboración propia.
con el mejor rendimiento obtenido con este tipo de características (53,18 %).
Por otra parte, es evidente el sobreajuste a los datos de los modelos implementados, esto indica acerca
de una baja capacidad de generalización y plantea el problema de que la red neuronal memoriza los
datos de entrenamiento y por esto cuando se evalúa con nuevos datos el porcentaje de aciertos se reduce
notablemente.
En cuanto a los tiempos de entrenamiento estos son considerablemente menores comparados con los de
CNN. En la tabla 3.5 se observa que el mayor tiempo de entrenamiento es de apenas 6 minutos, mientras
que el mayor tiempo de entrenamiento de CNN es de 884 minutos.
En la tabla 3.6 se muestra la matriz de confusión para el mejor rendimiento entre redes feed-forward, en
esta se puede observar que el menor rendimiento lo obtiene la clase estación de metro, apenas 30,1 %, la
cual sufre las mayores confusiones con la clase calle peatonal (20,2 %), de igual forma sufre confusiones
importantes con la clase metro (12,1 %). Por otra parte la clase trafico ostenta el mayor rendimiento
(73,4 %), pero sufre las mayores confusiones con la clase parque (9,25 %).
También se puede observar que las clases aeropuerto, estación de metro, plaza pública y centro comercial,
sufren las mayores confusiones con la clase calle peatonal, en todos los casos esta confusión está alrededor
41
Neuronas DFT/min Gamma/min MFCC/min50-50 3 3 350-100 3 3 350-150 3 3 3100-50 6 4 5100-100 6 4 4100-150 6 5 550-50-50 4 3 350-100-50 4 3 350-100-100 4 3 3100-50-100 6 5 5100-100-100 6 5 5
Tabla 3.5: Tiempos de entrenamiento en minutos de las diferentes topologías de MLP implementadas.
SAL
IDA
1 51,4 0 1,16 7,51 0 6,36 7,51 4,05 1,73 0,582 0 69,9 12,1 3,47 5,78 1,16 0 1,73 1,16 19,13 1,73 8,09 48 12,1 2,89 6,36 0 4,05 0 16,24 1,73 3,47 5,78 30,1 1,16 2,31 1,16 4,05 4,05 5,25 0 6,36 2,31 2,89 71,1 9,25 0 1,73 9,25 1,166 6,94 1,16 2,89 2,89 2,31 38,2 1,16 12,1 5,2 0,587 14,5 0 0,58 4,62 0 1,16 63 3,47 0 08 19,7 0 5,2 20,2 2,31 22,5 20,8 58,4 4,62 5,789 2,89 0,58 2,89 9,25 8,09 11 6,36 8,09 73,4 0,5810 1,16 10,4 19,1 6,94 6,36 1,73 0 2,31 0,58 50,9
1 2 3 4 5 6 7 8 9 10ETIQUETA
Tabla 3.6: Matriz de confusión para la mejor topología de MLP implementada. Elaboración propia.
del 20 %.
Resultados Obtenidos con Segmentos de 1 Segundo
Redes Neuronales Convolucionales
Como en el experimento anterior y como se puede observar en la figura 3.10, los mejores resultados se
obtuvieron al entrenar las CNN con tonos gamma como entrada, mientras que con las características MFCC
se obtienen los resultados más bajos. Cabe destacar que, pese a que se utilizaron más características DFT
los resultados obtenidos comparados con los de tonos gamma están entre el 4 % y el 8 % en inferioridad,
esto permite plantear la posibilidad de reducir el número de características de este tipo, teniendo en cuenta
que los tiempos de entrenamiento son altos, con respecto a las demás características utilizadas.
Se puede observar en la tabla 3.7, que los mejores resultados en validación alcanzan un 82,56 % con la
topología de 64-128 filtros convolucionales, pero el tiempo que toma en entrenar este modelo es 524
minutos que es aproximadamente 2,5 veces el tiempo que tarda el segundo modelo con mayor rendimiento
compuesto por 32-64 filtros convolucionales (197 minutos), como se muestra en la figura 3.11 y la
diferencia entre ellos es de menos de un 1 % en validación.
En la figura 3.11 se observa la representación de los tiempos de entrenamiento en minutos con respecto
42
1 Segundo DFT Gamma MFCCFiltros %Val %Val %Val16-32 73,74 77,56 68,0816-64 74,2 80,68 69,2116-128 72,99 80,62 70,9132-64 74,71 81,65 70,7932-128 74,47 80,54 70,664-128 74,03 82,56 71,5
Tabla 3.7: Rendimiento de validación con CNN para características de entrada individuales y segmentosde 1 segundo.
Figura 3.10: Rendimiento de validación de las topologías de CNN implementadas con segmentos de 1segundo. Elaboración propia.
a la totalidad del número de filtros convolucionales implementados. En esta gráfica se muestra como
los tiempos de entrenamiento crecen de forma exponencial a medida que aumenta el número de filtros
convolucionales.
Para este experimento, los tiempos de entrenamiento son en general elevados, ya que el menor tiempo
obtenido es de 97 minutos, con la topología compuesta por 16-32 filtros convolucionales entrenada
con características gamma. Por otra parte, el mayor tiempo de entrenamiento es de 1203 minutos, con
características DFT, como se mencionó anteriormente, para este tipo de característica se extrajeron 100
coeficientes por cada segmento.
En la tabla 3.8 se muestra la matriz de confusión para el mejor rendimiento obtenido en la validación.
Se puede observar que el menor rendimiento lo obtiene la clase metro con un 75,17 %, la cual sufre las
mayores confusiones con la clase tranvía (12,21 %). Pese a que es el menor rendimiento para la topología,
este es mayor en 8 % comparado con el rendimiento promedio obtenido con segmentos de 10 segundos
para la mejor CNN. En este caso, la clase parque obtiene el mejor rendimiento, alcanzando 94,5 %,
teniendo las mayores confusiones con la clase plaza publica (1,85 %).
Redes Neuronales Feed-Forward
Los resultados obtenidos en entrenamiento y validación con segmentos de 1 segundo se pueden
observar en la tabla 3.9, mientras que en la figura 3.12 se representan los resultados de validación. El
mejor rendimiento alcanzado con los datos de validación es de 66,42 % con el modelo más complejo
43
Figura 3.11: Número de filtros Vs. tiempo de entrenamiento en minutos con características individualespara las redes nueronales convolucionales implementadas. Elaboración propia.
SAL
IDA
1 80,67 0 0,35 3,3 0,06 1,91 3,99 1,85 0,35 0,232 0,12 87,67 4,86 1,74 0,41 0,46 0 0,46 0,41 3,73 0,69 1,1 75,17 3,59 0,41 0,23 0,06 0,87 0,46 2,434 2,03 0,35 3,18 76,74 0,52 1,39 3,01 1,74 1,62 0,465 0,58 1,5 1,5 1,39 94,5 6,31 0,06 1,39 5,73 2,086 3,94 0,17 0,69 2,49 1,84 77,2 2,03 10,65 6,31 0,417 3,53 0 0,12 0,93 0 0,35 84,09 1,16 0,12 0,068 7,81 0,58 1,79 5,79 0,12 8,33 6,37 78,3 2,66 0,939 0,17 0,06 0,12 0,98 1,04 3,07 0,35 2,72 81,77 0,2310 0,46 8,56 12,21 3,07 1,1 0,75 0,06 0,87 0,58 89,47
1 2 3 4 5 6 7 8 9 10ETIQUETA
Tabla 3.8: Matriz de confusión para la mejor topología de CNN implementada con segmentos de 1segundo.Elaboración propia.
entrenado compuesto por 100-100-100-10 neuronas con características de entrada tonos gamma. Sin
embargo, se puede observar que las características MFCC con una topología menos robusta (100-150)
obtiene el segundo mejor rendimiento de todas las topologías implementadas 65,54 %. En la figura 3.12
se puede notar que los rendimientos más pobres en todos los casos se obtienen con las características de
entrada DFT, que en el peor de los casos está por debajo hasta en un 8,8 %, mostrándose en inferioridad
en comparación con las demás características utilizadas.
El mejor rendimiento en validación obtenido con segmentos de 1 segundo supera en aproximadamente
11 % al mejor rendimiento con segmentos de 10 segundos. Se puede ver en la tabla 3.10 la matriz de
confusión, donde la mayoría de las clases obtienen mejor rendimiento que el promedio obtenido con
segmentos de mayor longitud, solo la clase calle peatonal, con un porcentaje de aciertos de 54,28 %, tiene
un rendimiento más pobre, sufriendo las mayores confusiones con la clase plaza pública (9,61 %). Por
otra parte, la clase trafico tiene el mejor rendimiento, alcanzando un 78,7 % en validación, sufriendo las
mayores confusiones con la clase plaza pública (6,66 %).
44
1 Segundo DFT Gamma MFCCNeuronas %Ent %Val %Ent %Val %Ent %Val50-50 75 52,96 67 60,14 65,3 61,3450-100 76 54,7 68 62,04 68,14 62,7750-150 80 55,84 72 63,8 70 63,7100-50 84 54,55 70 61,95 67 61,91100-100 87 55,56 75 62,92 70 63,95100-150 88 56,72 77 64,87 71 65,5450-50-50 78 55,28 70 62,97 64,14 59,9950-100-50 80 57,12 73 64,47 65 61,9250-100-100 83 57,51 74 65,39 67 61,67100-50-100 87 57,11 73 64,72 65 61,5100-100-100 90 58,8 78 66,42 68 63,95
Tabla 3.9: Rendimiento de entrenamiento y validación con MLP para características de entrada individualesy segmentos de 1 segundo.
Figura 3.12: Rendimiento de validación de las topologías de MLP implementadas con segmentos de 1segundo. Elaboración propia.
SAL
IDA
1 73,55 0,23 2,14 7,58 0,52 7,64 9,43 9,61 1,33 1,792 0,23 77,31 11,46 3,07 4,05 0,81 0,06 0,52 0,41 14,413 0,93 4,57 56,54 6,25 3,41 1,33 0,17 1,5 0,98 8,974 4,69 1,1 7,06 59,14 0,81 3,01 2,55 5,32 1,85 4,575 0,29 2,55 1,62 1,1 67,48 6,13 0 0,87 4,51 1,626 4,63 0,69 2,08 4,46 6,19 56,94 2,84 12,56 6,66 2,037 5,5 0,17 0,52 3,13 0,06 2,72 76,45 4,98 0,35 08 8,45 0,81 2,78 6,31 1,27 9,32 7,7 54,28 3,82 1,339 0,87 1,39 2,26 3,65 10,13 9,84 0,64 7,47 78,7 1,4510 0,87 11,17 13,54 5,32 6,08 2,26 0,17 2,89 1,39 63,83
1 2 3 4 5 6 7 8 9 10ETIQUETA
Tabla 3.10: Matriz de confusión para la mejor topología de MLP implementada con segmentos de1segundo. Elaboración propia..
45
3.4.2. Experimento 1B: Entrenamiento Con Características de EntradaCombinadas
Para la segunda parte del primer experimento, se plantea realizar la combinación de las características
extraídas a cada audio. Teniendo en cuenta los elevados tiempos de entrenamiento con características DFT
se decidió reducir el número de características a utilizar a 50. De esta manera, la dimensión de la imagen
de entrada es de [80x20x1] para segmentos de 1 segundo y [80x199x1] para segmentos de 10 segundos,
cuando se combinan característica MFCC-Gamma, mientras que cuando se realizan combinaciones
MFCC-DFT, DFT-Gamma, el tamaño de las entradas será de [90x199x1] y [90x20x1], para 10 y 1
segundo, respectivamente. Al combinar los tres tipos de características exploradas, la dimensión de
entrada es de [130x20x1] y [130x199x1], para segmentos de 1 y 10 segundos, respectivamente.
En los experimentos anteriores se observó que el aumento del número de coeficientes de un tipo no
garantiza un mejor rendimiento en la validación de los modelos implementados. Muestra de ello son los
resultados obtenidos con 100 coeficientes DFT, que en ningún caso superaron el rendimiento obtenido
por 40 coeficientes gamma. Adicionalmente, el tiempo de entrenamiento aumentaba considerablemente,
lo cual presentaba esta alternativa como inviable. Pero en esta parte de la experimentación se combinan
diferentes tipos de características con el fin de entregar más información a las redes neuronales y de esta
manera, se realice el ajuste de los parámetros con mayor precisión y así obtener mejoras en la validación
de los modelos implementados.
Como se observó en los experimentos anteriores, el tiempo de entrenamiento de las topologías feed-
forward es menor comparado con las topologías de CNN, es por esto que la experimentación con ANN
se realiza con la totalidad de topologías, mientras que con CNN la experimentación se ejecuta con las
mejores topologías encontradas en el Experimento 1A.
Resultados Obtenidos con Segmentos de 10 Segundos
Redes Neuronales Convolucionales
Debido a los prolongados tiempos de entrenamiento empleados por las CNN, se entrenaron los
modelos que ajustan los parámetros entrenables en los menores tiempos y a su vez obtenían los mejores
resultados en términos de rendimiento. En este sentido, para combinación de dos tipos de característica se
entrenaron dos modelos, el primero consta de 16-32 filtros convolucionales en cada bloque, mientras que
el segundo consta de 32-64 filtros en cada bloque. Para la combinación de tres características se entrenó el
modelo más sencillo experimentado.
Los resultados de entrenamiento y validación se recopilan en la tabla 3.11, mientras que en la figura 3.13
se muestra solo los rendimientos en validación, en esta se puede observar que los mejores rendimientos
se obtienen con la combinación de coeficientes gamma y MFCC,alcanzando el 73,24 % de validación,
superando incluso la combinación de tres características en aproximadamente 0,75 % y las combinaciones
de otras dos características hasta en un 9,25 %.
Recordando el mejor resultado alcanzado con CNN y los con coeficientes gamma, logró un 66,94 % de
rendimiento en validación (tabla 3.2). Nótese que este rendimiento es aproximadamente 6 % inferior
comparado con el mejor resultado alcanzado en este experimento (73,24 %) con la topología compuesta
por 16-32 filtros por bloque convolucional. Cabe destacar que el tiempo que tarda en entrenar el mejor
modelo con características combinadas es de 83 minutos, como se puede observar en la tabla 3.12 y este
46
10 Segundos DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCCFiltros %Ent %Val %Ent %Val %Ent %Val %Ent %Val16-32 90 66,42 89 67,98 85 73,24 90 72,4932-64 82 65,72 83 66,18 82 69,19 – –
Tabla 3.11: Rendimiento de entrenamiento y validación con CNN para características de entrada combina-das y segmentos de 10 segundos.
Figura 3.13: Rendimiento de validación de las topologías de CNN implementadas con segmentos de 10segundos y características de entrada combinadas. Elaboración propia.
Filtros DFT-Gamma/min DFT-MFCC/min Gamma-MFCC/min DFT-Gamma-MFCC/min16-32 90 88 83 13332-64 238 231 231 –
Tabla 3.12: Tiempos de entrenamiento en minutos de las diferentes topologías de CNN implementadas.
es aproximadamente el doble de tiempo que se tarda con características individuales gamma (42 minutos).
En la tabla 3.12 se recopilan los tiempos que toman los modelos en entrenarse, se puede observar que
el modelo que ostenta el mejor rendimiento tiene el menor tiempo de entrenamiento, 83 minutos. Los
tiempos de entrenamiento son comparables entre topologías cuando se utilizan combinaciones de dos
características, ya que la variación en el tamaño de los datos de entrada no es elevada.
En la tabla 3.13 se observa la matriz de confusión de la mejor topología alcanzada. En esta se puede
observar que la clase con el menor rendimiento es plaza pública con apenas un 50,87 % de aciertos,
sufriendo las mayores confusiones con la clase calle peatonal (24,28 %). El mayor porcentaje de aciertos
es conseguido por la clase parque, alcanzando 89,02 %, apenas tiene un 5,2 % de confusión con la clase
plaza pública.
Con respecto a los resultados del experimento 1A, tres clases bajan su rendimiento, la clases Bus, Plaza
pública y Centro comercial, en aproximadamente un 5 %, 7,5 % y 9 %, respectivamente. Por otra parte la
clase Tranvía aumenta su rendimiento en aproximadamente 26 %, alcanzando casi 85 % de aciertos en
clasificación.
De igual manera el rendimiento promedio pasó de 66,93 % con características individuales a 73,24 % con
la combinación de características gamma-MFCC, esto representa un aumento del 6,3 %.
47
SAL
IDA
1 69,94 0 0 8,67 0 4,05 5,2 3,47 0 02 0,58 75,14 7,51 0,58 0 0 0 0 0,58 4,623 0 4,05 64,74 13,87 0 0,58 0 0,58 0 5,24 4,05 0 2,31 57,8 0 0,58 1,16 2,31 3,47 1,165 0 1,16 0 0 89,02 5,78 0 2,89 4,62 1,736 1,73 0 0 0 5,2 50,87 0 3,47 4,62 1,737 5,78 0 0 1,73 0 7,51 82,08 3,47 0 08 17,92 0 0,58 8,67 1,73 24,28 11,56 75,72 4,05 0,589 0 0,58 0 0 0 4,62 0 4,05 82,08 010 0 19,08 24,86 8,67 4,05 1,73 0 4,05 0,58 84,97
1 2 3 4 5 6 7 8 9 10ETIQUETA
Tabla 3.13: Matriz de confusión para la mejor topología de CNN implementada con combinación decaracterísticas. Elaboración propia
10 Segundos DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCCNeuronas %Ent %Val %Ent %Val %Ent %Val %Ent %Val50-50 100 58,27 100 58,09 93 59,77 100 62,6650-100 100 58,21 100 59,25 98 59,54 100 64,9150-150 100 58,03 100 57,05 96 61,56 100 64,86100-50 100 60,17 100 58,03 93 60,06 100 65,14100-100 100 60 100 58,27 98 62,77 100 65,38100-150 100 59,48 100 58,03 97 62,95 100 66,5350-50-50 100 55,61 100 54,68 93 56,42 100 62,1450-100-50 100 55,2 100 55,9 94 58,27 100 62,0850-100-100 100 56,99 100 56,13 96 58,27 100 63,06100-50-100 100 55,61 100 55,2 96 59,31 100 63,82100-100-100 100 58,38 100 55,14 96 58,96 100 63,87
Tabla 3.14: Rendimiento de entrenamiento y validación con MLP para características de entrada combina-das y segmentos de 10 segundos.
Redes Neuronales Feed-Forward
Como se pudo observar en el experimento 1A, los tiempos de entrenamiento de los MLP son bajos,
por lo cual es posible entrenar todas las topologías planteadas anteriormente. En la tabla 3.14 se puede
observar que el mejor resultado en validación se obtiene con la topología compuesta por tres capas con
100-150-10 neuronas, alcanzando un 66,53 %. Este resultado es comparable con la mejor validación
obtenida con un solo tipo de característica y CNN.
Este rendimiento promedio de validación representa una mejora de 11,1 % comparado con el mejor
resultado obtenido al entrenar con un solo tipo de característica. Es destacable que ambos resultados se
obtuvieron con la misma topología, sin embargo, el tiempo de entrenamiento del modelo con características
combinadas es 2,4 veces más alto que el entrenado con características individuales.
En la tabla 3.15 se muestra la matriz de confusión para el mejor resultado en validación, se puede
observar que el menor rendimiento es alcanzado por la clase plaza pública con apenas 43,93 % de aciertos,
sufriendo la confusión más alta con la clase calle peatonal. Mientras que el mejor resultado se obtiene
con la clase centro comercial alcanzando un 83,82 % y teniendo los mayores inconvenientes con la clase
48
SAL
IDA
1 56,65 0 1,16 8,67 0 6,36 7,51 10,98 0,58 1,162 0 81,5 7,51 0,58 1,73 0,58 0 0 1,16 11,563 0 6,94 62,43 9,83 1,16 2,31 0 0,58 0 10,44 7,51 0,58 10,98 61,85 1,73 4,62 2,89 5,2 2,89 5,25 0 0,58 1,16 0,58 81,5 9,25 0 1,16 6,36 4,056 4,62 0 2,89 5,2 2,89 43,93 2,31 16,18 5,78 0,587 19,65 0 0 3,47 0 5,2 83,82 12,14 0 08 9,83 0,58 0 4,05 4,05 16,76 3,47 49,71 3,47 1,739 1,73 0,58 1,16 3,47 2,31 8,09 0 2,31 79,77 1,1610 0 9,25 12,72 2,31 4,62 2,89 0 1,73 0 64,16
1 2 3 4 5 6 7 8 9 10ETIQUETA
Tabla 3.15: Matriz de confusión para la mejor topología de MLP implementada con combinación decaracterísticas. Elaboración propia.
1 Segundo DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCCFiltros %Ent %Val %Ent %Val %Ent %Val %Ent %Val16-64 82 81,71 82 81,36 87 87,31 – –16-128 82 81,24 82 82,33 87 86,99 – –32-64 82 82,17 83 82,87 87 87,31 88 87,96
Tabla 3.16: Rendimiento de entrenamiento y validación con CNN para características de entrada combina-das y segmentos de 1 segundo.
aeropuerto, con un 7,51 % de confusión.
Con respecto al experimento 1A, el rendimiento promedio en validación aumentó en aproximadamente
11 %. La clase que experimentó la mayor mejoría fue estación de metro, que pasó de un 30,1 % a 62,43 %.
Por otra parte la única clase que disminuyó el porcentaje de aciertos fue la clase calle peatonal, que pasó
de un 58,4 % a un 49,71 % en validación.
En las tablas 3.13 y 3.15, se puede observar que en ambos casos la clase plaza pública es la que tiene el
menor porcentaje de aciertos y de igual manera sufre las mayores confusiones con la clase calle peatonal.
Resultados Obtenidos con Segmentos de 1 Segundo
Redes Neuronales Convolucionales
Con segmentos de 1 segundo, se entrenaron 3 topologías de CNN. Se puede observar en la tabla 3.16
que el mejor rendimiento es obtenido utilizando una combinación de las tres características exploradas,
alcanzando un 87,96 % de aciertos en la validación de datos. Este resultado supera en 0,65 % al modelo
con el segundo mejor rendimiento (87,31 %), pero el tiempo de entrenamiento del mejor modelo es
aproximadamente el doble del segundo modelo, como se puede observar en la tabla 3.17.
Por otra parte, si se comparan los mejores resultados obtenidos con segmentos de un segundo, el modelo
entrenado con un solo tipo de característica tiene un rendimiento inferior en un 5,4 % y su tiempo de
entrenamiento es 14 minutos más bajo aproximadamente.
En la matriz de confusión de la tabla 3.18 se observa que el menor rendimiento es de 77,78 % de aciertos,
para la clase calle peatonal. Este resultado es inferior en 0,52 % comparado con el obtenido con el
experimento con un solo tipo de característica, es de destacar que la clase tranvía bajó su rendimiento en el
49
Filtros DFT-Gamma/min DFT-MFCC/min Gamma-MFCC/min DFT-Gamma-MFCC/min16-64 279 293 262 –16-128 631 630 574 –32-64 372 403 352 538
Tabla 3.17: Tiempo de entrenamiento en minutos con CNN para características de entrada combinadas ysegmentos de 1 segundo.
mismo porcentaje. Por otra parte la clase parque tiene un rendimiento de 97,16 %, nuevamente esta clase
tiene el mejor rendimiento, mejorando en 2,66 %. Cabe destacar que la clase metro, que en el experimento
1A obtuvo el menor rendimiento, aumentó el porcentaje de aciertos en 14,93 %.
SAL
IDA
1 89,53 0 0 2,84 0,12 2,37 6,19 5,79 0,17 0,232 0 93,46 1,97 0,23 0,06 0,17 0 0,06 0,12 2,723 0,12 2,84 90,1 4,75 0,23 0,69 0 0,35 0,93 5,384 0,93 0,23 2,31 82,64 0,17 0,75 1,39 1,33 1,39 0,695 0,17 0,69 0,41 0,98 97,16 3,24 0,06 1,1 2,37 1,16 3,13 0,06 0,35 1,85 0,87 82,99 2,08 9,2 4,11 0,757 3,01 0 0 1,62 0,12 0,93 87,79 1,97 0,12 08 2,95 0,06 0,35 2,72 0,58 4,8 2,43 77,78 1,56 0,179 0,06 0,23 0,12 0,93 0,58 3,59 0,06 1,74 89,18 0
10 0,12 2,43 4,4 1,45 0,12 0,46 0 0,69 0,06 88,951 2 3 4 5 6 7 8 9 10
ETIQUETA
Tabla 3.18: Matriz de confusión para la mejor topología de CNN implementada con combinación decaracterísticas.
Redes Neuronales Feed-Forward
En la tabla 3.19 se muestran los rendimientos en entrenamiento y validación, en esta se puede
observar que la combinación de características Gamma-MFCC presenta los menores margenes entre
los rendimientos, entre un 5 %-10,87 %. En la figura 3.14 se consolidan los resultados obtenidos al
entrenar diferentes topologías de red neuronal feed-forward con características de entrada combinadas.
Se puede observar que con la unión de características Gamma-MFCC se obtienen los mejores resultados
en la validación de los modelos, al contrario de lo que se podría pensar, al combinar las características
DFT-Gamma-MFCC los rendimientos son más bajos, pese a que se entrega un mayor número de datos a
los modelos, estos no aportan información para la solución del problema.
El mejor rendimiento en la validación de los modelos es de 76,13 %, el cual es 10 % superior comparado
con el mejor rendimiento alcanzado en el experimento realizado con una sola característica de entrada.
Como en el experimento anterior, los mejores resultados se obtienen con la topología compuesta por
cuatro capas con 100-100-100-10 neuronas.
En la tabla 3.20 se muestra la matriz de confusión para el mejor modelo entrenado. Se puede observar que
el rendimiento más bajo es de 62,44 % y es alcanzado con la clase plaza pública, esta tiene los mayores
problemas con la clase calle peatonal (9,38 %). Por otra parte el mayor rendimiento es de 89,64 % con la
clase parque, que con respecto al resultado del experimento 1A, tiene el mayor porcentaje de mejora en
su rendimiento que alcanza el 22,16 %. Cabe destacar que el rendimiento de todas las clases aumentó
50
1 Segundo DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCCNeuronas Entr Val Entr Val Entr Val Ent Val50-50 81 60,42 84,23 60,98 77,83 69,85 87 66,8350-100 85,84 61,83 86,34 62,43 78 73 85 68,8750-150 86 63,13 86,97 63,54 81,56 73,35 90 70,06100-50 87 61,59 89,45 62,02 80,67 70,56 90 68,04100-100 90 62,85 91,44 64,4 83,59 75,5 90 69,47100-150 89 64,02 91,83 65,39 85 74,22 92 70,8150-50-50 87,27 62,29 87,79 64,34 79 71,86 92 68,8450-100-50 88 64,33 89,7 65,17 85 74,6 95 71,0750-100-100 89,21 64,65 91,77 65,34 85,16 75,62 95 72,01100-50-100 95 64,42 94,06 64,77 85 75,04 97 71,71100-100-100 95 66,43 95,72 66,13 87 76,13 97 73,16
Tabla 3.19: Rendimiento de entrenamiento y validación con MLP para características de entrada combina-das y segmentos de 1 segundo.
Figura 3.14: Rendimiento de validación de las topologías de MLP implementadas con segmentos de 1segundo y características de entrada combinadas. Elaboración propia.
con respecto al experimento anterior, desde un 1,33 % de la clase aeropuerto hasta el 22,16 % de la clase
parque.
3.5. Análisis de Resultados
En la tabla 3.21 se recopila el resumen de los mejores rendimientos obtenidos para los experimentos
1A y 1B. Se pudo observar que en todos los casos el rendimiento de las redes neuronales convolucionales
supera al obtenido con redes feed-forward. En este sentido, el aumento del rendimiento va desde un 6,71 %
entrenando con características de entrada combinadas con segmentos de 10 segundos, hasta un 16,14 %
entrenando con características individuales y segmentos de 1 segundo.
Al realizar los experimentos con segmentos de 1 segundo se pudo observar que los rendimientos de
entrenamiento y validación con redes convolucionales en todos los casos eran totalmente comparables, es
decir que se eliminaba prácticamente el sobreajuste a los datos. Esto se debe a que la red neuronal tiene un
mayor número de datos que representan información que permite ajustar los parámetros de la red de mejor
51
SAL
IDA
1 74,88 0,06 0,35 3,7 0,52 6,83 6,42 8,1 0,98 0,872 0,06 83,91 7,47 1,16 0,41 0,64 0 0,52 0,52 13,023 0,12 8,39 76,74 8,04 0,41 1,45 0,06 0,81 1,68 10,074 5,67 1,16 4,28 73,21 1,5 3,53 2,72 5,15 3,24 3,655 0,41 1,1 1,5 1,39 89,64 5,27 0 1,79 2,2 1,746 2,2 0,23 0,75 2,66 3,07 62,44 1,68 7,06 5,5 0,937 8,8 0 0,12 2,26 0,06 3,65 85,59 6,31 0,69 0,068 7,18 0,29 0,29 2,95 1,27 9,38 3,3 65,1 1,91 0,989 0,41 0,35 1,5 2,08 1,91 6,08 0,17 3,7 82,64 1,56
10 0,29 4,51 7 2,55 1,22 0,75 0,06 1,45 0,64 67,131 2 3 4 5 6 7 8 9 10
ETIQUETA
Tabla 3.20: Matriz de confusión para la mejor topología de MLP implementada con combinación decaracterísticas.
Individual/ % Combinada/ %Segmento CNN MLP CNN MLP10 seg 66,94 55,43 73,24 66,531 seg 82,56 66,42 87,96 76,13
Tabla 3.21: Resumen de rendimiento de validación de MLP y CNN con segmentos de 1 y 10 segundos.
Individual/min Combinada/minSegmento CNN MLP CNN MLP10 seg 42 5 83 121 seg 524 29 538 33
Tabla 3.22: Resumen de tiempos de entrenamiento de las mejores topologías de MLP y CNN consegmentos de 1 y 10 segundos.
manera, adicionalmente, los segmentos de menor duración facilitan la identificación de características
relevantes para la solución del problema de clasificación de escenas acústicas.
Si se comparan los rendimientos con segmentos de entrada de 1 y 10 segundos, se observan mejores resul-
tados con los segmentos más cortos (1 segundo). El porcentaje de mejora va desde un 9,6 % entrenando
MLP con características combinadas, hasta un 15,62 % entrenando con características individuales una
CNN.
De igual manera, el rendimiento de las redes neuronales mejora al combinar las características de entrada.
Incluso es con las combinaciones de características que se obtienen los mejores resultados para CNN
(87,96 %) y para MLP (76,13 %). El porcentaje de mejora con respecto a las características individuales
va desde un 5,4 % con CNN y segmentos de 1 segundo hasta un 11,1 % con MLP y segmentos de 10
segundos.
Por otra parte, los tiempos de entrenamiento de las redes neuronales convolucionales son mucho más altos
que los tiempos de las redes neuronales feed-forward. Como se observa en la tabla 3.22, el mayor tiempo
de entrenamiento se obtiene entrenando una CNN con 32-64 filtros convolucionales en cada bloque con
todas las características combinadas en segmentos de 1 segundo, que tarda 538 minutos en ajustar los
parámetros y obtener el mejor rendimiento alcanzado en el experimento 1.
Como se observó en el capítulo y se resumen en la tabla 3.23, las redes neuronales convolucionales tienen
52
DFT/ %
Gamma/ %
MFCC/ %
DFT-Gamma/ %
DFT-MFCC/ %
Gamma-MFCC/ %
DFT-Gamma-MFCC / %
CNN1 seg 74,71 82,56 71,5 82,17 82,87 87,31 87,9610 seg 63,12 66,94 62,14 66,42 67,98 73,24 72,49
MLP1 seg 58,8 66,42 65,54 66,43 66,13 76,13 73,1610 seg 53,18 55,43 50,81 60 59,25 62,95 66,53
Tabla 3.23: Mejores rendimientos con segmentos de 1 y 10 segundos con características no transformadaspara datos de validación.
en general un mejor rendimiento que las redes feed-forward, adicionalmente, los modelos entrenados
pueden generalizar de mejor manera al ser entrenados con datos que representan segmentos de tiempo
más cortos. De igual manera, el rendimiento en validación también se afecta positivamente al concatenar
características, debido a que se brinda mayor información a las redes neuronales y estas pueden ajustar
sus parámetros de forma más precisa.
En contraposición a los mejores rendimientos están los tiempos de entrenamiento, que empiezan a ser
considerables a medida que los modelos se hacen más complejos. Este comportamiento era esperado,
pues se tienen que hacer un mayor número de cálculos y ajustes de parámetros. De igual manera, se
observó la relación directa que existe entre el crecimiento de los tiempos de entrenamiento y el número
de coeficientes utilizado, que como se pudo notar con coeficientes DFT un número mayor de estos no
garantiza un mejor rendimiento de los modelos. Este efecto permite observar que puede existir un número
de coeficientes que no aportan a la solución del problema de clasificación y que adicionalmente hay
un tipo de características más apropiada para entrenar los modelos, como lo son los tonos gamma que
en todos los casos obtuvieron los mejores porcentajes de aciertos con los datos de validación, como se
muestra en la tabla 3.23.
Es posible comparar los resultados obtenidos con trabajos realizados utilizando la base de datos DCA-
SE18, pero es necesario recordar que estos han sido desarrollados con segmentos de 10 segundos, por lo
cual la comparación se realiza únicamente con estos resultados.
El modelo base propuesto en [14] tiene un rendimiento promedio de 59,7 %, teniendo la clase plaza
pública el rendimiento más bajo con 40,4 %, mientras que la clase trafico tiene el rendimiento más alto
alcanzando 80,5 %. Por otra parte el trabajo que en su momento ostentó el mejor rendimiento [16], alcanza
en promedio un 76,9 %, teniendo la clase plaza pública el rendimiento más bajo con 50 %, mientras que la
clase trafico tiene el rendimiento más alto alcanzando un 91,8 %.
Los primeros modelos propuestos en este trabajo se basan en redes neuronales feed-forward, el mejor de
estos tiene un rendimiento promedio de 66,53 %, el cual es superior al modelo base en un 6,8 %, pero
inferior al mejor modelo en 10,3 %. En tanto a la clase que ostenta el mejor rendimiento es la clase centro
comercial, que alcanza 83,82 %, mientras que la clase plaza pública tiene el menor rendimiento, con
apenas 43,93 % de aciertos.
Los segundos modelos propuestos en este trabajo se basan en CNN, el mejor de estos alcanza en promedio
73,24 % de aciertos, donde la clase plaza pública tiene el rendimiento más bajo, alcanzando 50,87 %,
mientras que la clase parque alcanza el mayor rendimiento con un 89,02 %.
Se puede observar que los modelos propuestos en este trabajo, en ambos casos superan el rendimiento
promedio del sistema base, y que el modelo propuesto de CNN tiene un rendimiento promedio inferior en
53
3,66 % comparado con el mejor modelo presentado. Es destacable que la clase plaza pública en los casos
comparados ostenta el menor rendimiento, que en el mejor de los casos apenas supera el 50 %.
54
Capítulo 4
Entrenamiento con característicasreducidas
En el experimento anterior (sección 3.4) se pudo observar que los mejores rendimientos en validación
se alcanzaron con entradas que representan segmentos de 1 segundo y con las topologías de red neuronal
convolucional, por lo cual, en la segunda parte de la experimentación se decide omitir los entrenamientos
con segmentos de 10 segundos y los entrenamientos de redes neuronales feed-forward.
En este experimento se utiliza el análisis de componentes principales (PCA) para reducir el número de
coeficientes de cada tipo de característica usada DFT, Gamma y MFCC. En la figura 4.1 se observa el
proceso de preprocesamiento de la información, el cual es similar al representado en la figura 3.1, pero en
este caso se agrega un bloque correspondiente al proceso de reducción de características utilizando PCA.
Para este análisis se parte de considerar que existe una linealidad entre características, que permitirá reducir
adecuadamente la cantidad de coeficientes además de tener en cuenta que la pérdida de información no
sea alta al reducir las características.
Al igual que para el experimento 1 (sección 3.4) se plantea separar los datos por clase en un 80 % para
entrenamiento y 20 % para validación que posteriormente serán concatenados en forma secuencial todos
los datos que se usarán para entrenamiento, donde dichos datos se utilizarán para obtener la matriz llamada
A (sección 2.3.1) bajo el análisis de componentes que permitirá realizar la transformación y posterior
reducción en características tanto con los datos de entrenamiento como de validación, evitando que estos
últimos interfieran en el proceso. Una vez transformados los datos, se usará la información obtenida de la
figura 4.2 para considerar la cantidad mínima de características a usar y así evaluar el comportamiento de
las redes neuronales en el proceso de clasificación de esta tarea con los datos que se consideren necesarios.
4.1. Experimento 2: Reducción de características utilizando PCA
Para la parte A del experimento 2 se considera el análisis individual de los tres tipos de características
DFT, gamma y MFCC. En esta parte se establece un criterio para la reducción basado en superar el
90 % de la información contenida en los datos originales. En la figura 4.2 se puede observar que bajo
esta consideración se han dispuesto de lineas punteadas en los puntos de corte situados en (6,97), (7,93),
(50,90). Por lo tanto con este criterio los coeficientes gamma, se redujeron de 40 a 6, representando así un
55
Figura 4.1: Proceso de reducción de características utilizando PCA. Elaboración propia.
97 % de la información contenida en los coeficientes originales. Para los coeficientes MFCC la reducción
fue de 40 a 7, logrando representar aproximadamente un 93 % de la información original. Finalmente
para coeficientes DFT la reducción se realizó de 100 a 50 coeficientes, representando un 90 % de la
información.
Para la parte B de la experimentación se considera aumentar la cantidad de información representada
anteriormente mediante PCA, haciendo la reducción de características menos drástica, manteniendo
en consideración el objetivo de la reducción de los tiempos de entrenamiento, como se ve en la figura
4.2 y usando como guía las lineas continuas, se puede observar que los puntos de corte se ubican en
(15,99), (15,97) y (50,90). De esta manera los coeficientes gamma y MFCC, se redujeron de 40 a 15,
representando 99 % y 97 % de la información contenida en los coeficientes originales, respectivamente.
Para las características de tipo DFT se mantiene la reducción a 50 coeficientes con el fin de evitar el
aumento de los tiempos de entrenamiento innecesariamente, ya que anteriormente se ha observado que
estos crecen exponencialmente.
El objetivo del experimento 2 es evaluar el efecto que tiene la reducción de características utilizando
PCA, con base en dos criterios que se han venido mencionando a lo largo del documento. El primero
es el rendimiento en validación de las redes neuronales convolucionales propuestas en el experimento
1 (sección 3.4), que resultan interesantes de comparar. El segundo criterio que se tiene en cuenta es el
tiempo de entrenamiento de los modelos con los nuevos datos transformados. De esta manera es posible
56
Figura 4.2: Número de características Vs. Información representada utilizando PCA
dar un concepto de la factibilidad de implementar PCA para simplificar la resolución del problema de
clasificación acústica de escenas urbanas.
4.1.1. Experimento 2A: Primer Entrenamiento con Características de EntradaReducidas
Como se mencionó anteriormente, en el experimento 2 se entrenan las redes neuronales con caracte-
rísticas reducidas mediante la aplicación de análisis de componentes principales. En el experimento 2A
se utilizan como datos de entrada 50 coeficientes DFT, 6 coeficientes gamma, 7 coeficientes MFCC y
posteriormente la concatenación de estas características.
Cabe destacar que los entrenamientos solo se realizan con segmentos de 1 segundo. Por esto, el tamaño de
las matrices de entrada será de [50x20x1], [6x20x1] y [7x20x1], para características de entrada indivi-
duales DFT, gamma y MFCC, respectivamente. Mientras que para las combinaciones será de [57x20x1],
[56x20x1], [13x20x1] y [63x20x1], para DFT-Gamma, DFT-MFCC, gamma-MFCC y DFT-Gamma-
MFCC, respectivamente.
Entrenamiento con características individuales
En la tabla 4.1 se recopilan los resultados obtenidos cuando se entrenan redes neuronales convolucio-
nales con características de entrada individuales. Se puede observar que con entradas gamma y MFCC los
rendimientos son muy bajos, apenas alcanzando 42 % y 51,88 % máximo, respectivamente.
Con respecto a los resultados obtenidos en el experimento 1A, los rendimientos con características gamma
bajan entre 38 % y 40,92 %, mientras que con MFCC el rendimiento en validación disminuye entre
18,84 % y 19,73 %. Por otra parte con características DFT el rendimiento es aproximadamente igual, pero
es necesario tener en cuenta que en este caso se puede decir que se presenta sobreajuste, ya que el margen
entre el rendimiento de entrenamiento y validación esta entre 9 % - 18 %, cabe recordar que este efecto no
se ha presentado cuando se entrenó con las características no reducidas.
En la tabla 4.2 se recopilan los tiempos de entrenamiento de los modelos implementados. Como era
57
de esperarse con características DFT el entrenamiento toma los mayores tiempos, pero con respecto al
experimento 1A se redujeron a aproximadamente la mitad.
La reducción de coeficientes gamma y MFCC fue aproximadamente de 85 %, pero la reducción máxima
en los tiempos de entrenamiento fue del 78 % para el modelo más complejo entrenado, ya que pasó de
entrenarse en 524 minutos con todas las características a 112 minutos, mientras que para el modelo más
sencillo la reducción fue de aproximadamente 50 %, pasando de aproximadamente 100 minutos a 46
minutos.La reducción en los tiempos de entrenamiento es evidente, afectando en mayor proporción los
modelos más complejos, pero los rendimientos de validación alcanzados son deficientes.
Entrenamiento con características combinadas
En la tabla 4.3 se recopilan los resultados obtenidos al entrenar las CNNs con combinaciones
de características. Se puede observar que el mejor rendimiento se alcanza entrenando la topología
más compleja implementada, alcanzando 81,6 %. Con respecto al mejor resultado del experimento 1B
(87,96 %), el rendimiento en validación disminuye en 6,36 %. En la figura 4.3 se muestra el tiempo de
entrenamiento de estas topologías, si se analiza el tiempo de entrenamiento de los modelos que obtuvieron
los mejores rendimientos en validación, se observa que en el experimento 2A el mejor modelo toma 178
minutos más que el modelo del experimento 1B.
4.1.2. Experimento 2B: Segundo Entrenamiento con Características deEntrada Reducidas
Los resultados obtenidos en el experimento 2A no se pueden considerar satisfactorios, ya que se han
obtenido resultados más pobres y adicionalmente los tiempos de entrenamiento no se redujeron para los
modelos que obtienen los mejores rendimientos comparando con el experimento 1. Por este motivo se
DFT GAMMA MFCCFiltros %Ent %Val %Ent %Val %Ent %Val16-32 80,87 71,6 41,84 39,56 51,14 48,6716-64 86,46 73,25 43,85 40,54 53,6 49,4816-128 90,13 73,51 44,44 40,32 55,84 51,2432-64 87,22 73,39 44,54 40,73 55,75 51,1632-128 90,24 74,06 47,09 41,71 57,77 51,7664-128 91,41 73,22 47,23 42,07 58,66 51,88
Tabla 4.1: Rendimiento de entrenamiento y validación con CNN para características de entrada individualesreducidas.
DFT/min GAMMA/min MFCC/min16-32 97 46 4816-64 147 53 5616-128 306 76 7832-64 204 61 6532-128 380 85 8864-128 579 112 119
Tabla 4.2: Tiempos de entrenamiento en minutos de CNN con características de entrada reducidas
58
DFT-GAMMA DFT-MFCC GAMMA-MFCC DFT-GAMMA-MFCCFiltros %Ent %Val %Ent %Val %Ent %Val %Ent %Val16-32 83,5 73,34 85,81 76,32 66,95 61,98 88,31 77,9616-64 88,64 74,81 90,17 77,94 70,72 63,92 92,76 79,5316-128 91,92 75,65 93,78 78,81 73,46 65,36 95,72 80,6932-64 89,13 75,68 92,26 79,25 72,14 65,23 93,23 79,7732-128 93,03 75,62 94,82 79,2 76,06 66,79 96,11 80,8464-128 93,72 76,27 95,48 80,01 76,46 67,07 96,98 81,6
Tabla 4.3: Rendimiento de entrenamiento y validación con CNN para características de entrada combinadasreducidas.
Figura 4.3: Número de filtros Vs. tiempo de entrenamiento en minutos con características combinadasreducidas. Elaboración propia.
plantea realizar un experimento 2B, en este se transforman de 40 coeficientes a 15, para características
gamma y MFCC, mientras que para características DFT se continúa con los 50 coeficientes transformados
para el experimento anterior.
Las dimensiones de las entradas para coeficientes individuales son de [50x20x1] para características
DFT, mientras que para características gamma y MFCC son de [15x20x1]. Las dimensiones de entrada
para características combinadas son de [65x20x1] para las Gamma-DFT y MFCC-DFT, [30x20x1] para
MFCC-Gamma y finalmente [80x20x1] para la combinación MFCC-Gamma-DFT.
Entrenamiento con características individuales
En la tabla 4.4 se consolidan los resultados obtenidos entrenando CNN con características de entrada
individuales. Se puede observar que en general el rendimiento en validación de las diferentes topologías
mejora con respecto a lo obtenido en el experimento 2A entrenando con características individuales, ya
que se pasa de un 74,06 % a un 75,22 %, en ambos casos las características son DFT y pese a haber
mejorado con características gamma y DFT el rendimiento entre 18,11 % -22,92 % y 9,1 %-12,11 %,
respectivamente, aun los rendimientos no son comparables con los obtenidos en el experimento 1A. Para
los datos de validación, el mejor resultado en el experimento 2B (75,22 %) es inferior en aproximadamente
7,3 % comparado con el mejor resultado del experimento 1A (82,56 %).
59
DFT GAMMA MFCCFiltros %Ent %Val %Ent %Val %Ent %Val16-32 79,93 70,5 63,02 57,67 63,6 57,7716-64 85,97 72,9 68,61 60,61 68,45 60,9416-128 89,57 72,91 72,62 63,24 74,36 63,3532-64 87,75 73,7 69,41 61,6 70,48 61,3432-128 91,13 73,85 75,67 64,55 75,2 63,6964-128 91,6 75,22 76,64 64,71 76,71 63,56
Tabla 4.4: Rendimiento de entrenamiento y validación con CNN para características de entrada individualesreducidas.
DFT-GAMMA DFT-MFCC GAMMA-MFCC DFT-GAMMA-MFCCFiltros %Ent %Val %Ent %Val %Ent %Val %Ent %Val16-32 88,93 76,96 88,85 78,96 81,43 73,44 91,61 80,5916-64 91,8 78 92,82 79,48 86,84 76,44 95,58 81,5216-128 94,68 78,52 96,28 80,97 90,61 78,14 97,66 82,4232-64 92,88 78,6 94,42 81 87,59 76,95 96,1 82,4232-128 95,67 79,06 96,35 81,08 91,39 78,14 98,16 82,6864-128 96,04 79,15 96,92 82,08 93,17 79,73 98,17 82,89
Tabla 4.5: Rendimiento de entrenamiento y validación con CNN para características de entrada combinadasreducidas.
Filtros DFT-Gamma/min DFT-MFCC/min Gamma-MFCC/min DFT-Gamma-MFCC/min16-32 114 115 76 13516-64 181 177 106 21816-128 393 389 205 48432-64 260 254 140 31632-128 486 478 244 59464-128 743 745 365 924
Tabla 4.6: Tiempo de entrenamiento en minutos de CNN para características de entrada combinadasreducidas.
Entrenamiento con características combinadas
Al realizar el entrenamiento con características de entrada combinadas se observa en general un mejor
rendimiento que el alcanzado con entradas individuales. Como se puede observar en la tabla 4.5, el mejor
rendimiento se obtiene entrenando la topología compuesta por 64-128 filtros convolucionales alcanzando
82,89 % de aciertos con los datos de validación, este rendimiento es superior en 1,29 % comparado con el
mejor rendimiento del experimento 2A con características combinadas (81,6 %). Por otra parte, el mejor
resultado alcanzado en el experimento 2B es inferior en aproximadamente 5 % comparado con el mejor
resultado del experimento 1B (87,96 %).
Si se compara el tiempo de entrenamiento de los mejores resultados de los experimentos 1B y 2B, el
primero tardó 538 minutos, mientras que el segundo 924 minutos. Esto representa un aumento de 386
minutos y como se mencionó anteriormente no se mejoró el rendimiento en validación. Los tiempos de
entrenamiento para el experimento 2B se consolidan en la tabla 4.6.
60
Experimento Individual/ % Combinada/ %2A 74,06 81,62B 75,22 82,891 82,56 87,96
Tabla 4.7: Resumen de mejores rendimientos de validación para entrenamiento realizados con característi-cas reducidas y completas
Experimento Individual/min Combinada/min2A 380 7162B 576 9241 524 538
Tabla 4.8: Resumen de tiempos de entrenamiento de las mejores topologías para los experimentos concaracterísticas reducidas y completas
4.2. Análisis de Resultados
Como se observa en la tabla 4.7 los rendimientos obtenidos con los datos de entrada transformados
con PCA fueron más bajos que los obtenidos con los datos en su totalidad. Con características individuales
la disminución en el rendimiento fue de 7,34 %, mientras que con características combinadas fue de 5 %.
Se observó que los mejores rendimientos en el experimento 2 fueron alcanzados con la topología com-
puesta por 64-128 filtros convolucionales. Adicionalmente, entre el experimento 2A y 2B se presentó una
mejora de apenas 1,29 %, pero a costa de 208 minutos más de entrenamiento como se puede observar en
la tabla 4.8, por lo cual la ganancia no es evidente. Igualmente se observó que en ambos casos los datos de
entrada corresponden a la combinación de las tres características exploradas. Con respecto al experimento
1 con características individuales, el tiempo de entrenamiento aumentó en 52 minutos, mientras que con
características combinadas, el aumento alcanza los 380 minutos.
En el experimento 2 se pudo observar lo inconveniente de aplicar PCA a los datos de entrada, ya que en
este método se asume la linealidad entre las variables. Pese a que se calcula representar más del 90 % de la
información contenida en los datos originales, la transformación no es adecuada y se pierde información
relevante para solucionar el problema de clasificación de ambientes. Este hecho es evidente al comparar el
rendimiento de los modelos entrenados con características Gamma en los experimentos 1 y 2, donde la
disminución en el rendimiento alcanzó hasta un 40 % aproximadamente.
En la tabla 4.9 se pueden observar los resultados obtenidos al realizar reducción de características, para
cada una de las características de entrada exploradas. Comparando los resultados obtenidos en el Experi-
mento 2A y 2B, se pueden notar los aumentos de rendimientos al aumentar el número de características
utilizados, tanto que en el experimento 2B, las características de tipo gamma, alcanzan mejor rendimiento
que las MFCC.
Se puede notar que las características de tipo gamma sufren la mayor disminución en el rendimiento
comparado con el experimento 1, en promedio un 40 % para el Experimento 2A y un 20 % para el 2B.
Por parte de las características MFCC la disminución en el rendimiento fue de un 20 % y un 10 % para el
experimento 2A y 2B, respectivamente. Este hecho muestra que las características gamma pueden ser
consideradas más sensibles al proceso realizado con PCA.
61
DFT/ %
Gamma/ %
MFCC/ %
DFT-Gamma/ %
DFT-MFCC/ %
Gamma-MFCC/ %
DFT-Gamma-MFCC/ %
Exp 2A 74,06 42,07 51,88 76,27 80,01 67,07 81,6Exp 2B 75,22 64,71 63,69 79,15 82,08 79,73 82,89
Tabla 4.9: Mejores rendimientos alcanzados con segmentos de 1 segundo y características reducidas paradatos de validación.
62
Capítulo 5
Conclusiones y Trabajo Futuro
5.1. Conclusiones
El problema de clasificación de entornos urbanos basados en sonidos presenta la dificultad relacionada
con la variabilidad de los ambientes tratados. Las redes neuronales se muestran como una alternativa para
dar solución al problema, ya que estos sistemas no necesitan de modelos matemáticos exactos o complejos
y la clasificación se basa en datos procesados que permiten extraer características de cada escena acústica.
A lo largo del documento se ha observado como las redes neuronales convolucionales en todos los casos
obtenían mejores rendimientos de clasificación que las redes neuronales feed-forward. En este sentido, con
los mejores rendimientos en validación las CNN alcanzaron un 87,96 % superando en aproximadamente
10 % el rendimiento de los MLP que alcanzaron 76,13 %, en ambos casos con características combinadas
y segmentos de 1 segundo. Sin embargo, los tiempos de entrenamiento de los mejores modelos no son
comparables en ningún sentido, ya que la topología de CNN tarda 538 minutos, mientras que la MLP
apenas toma 33 minutos, esto debido a la cantidad de parámetros a entrenar, ya que mientras que el MLP
tiene que ajustar 181310 parámetros en 10 capas, la CNN tiene que ajustar 1090486 parámetros en 24
capas.
Las CNN muestran una diferencia en rendimiento aproximado de entre 10 % a un 15 % mientras que
para las MLP esta diferencia se encuentra entre 5 % y un 15 % comparar los dos segmentos explorados,
evidenciando un error de generalización mayor en redes MLP. Es destacable que los mejores rendimientos
se obtuvieron con segmentos de audio de 1 segundo de duración con respecto a segmentos de audio de
10 segundos tanto para CNN como MLP, debido principalmente a que segmentos de un segundo facilita
la extracción de características relevantes a cada escena, y adicionalmente, hay un mayor número de
ejemplos disponibles por cada clase en una relación de 10 a 1, lo que representa mayor cantidad de
información y una menor variabilidad en los segmentos cortos de tiempo, pero significa mayores tiempos
de entrenamiento, pues se tienen que desarrollar un mayor número de operaciones aritméticas para realizar
el ajuste de los parámetros en la red neuronal.
En tanto a las características de entrenamiento no reducidas, fueron los coeficientes gamma los que
obtuvieron mejores resultados de validación, incluso sobre las características DFT que disponían de más
del doble de coeficientes, mientras que las características de tipo MFCC obtuvieron los rendimientos más
bajos de los tres tipos de características explorados.
Por otra parte, en los experimentos realizados se mostró como con la combinación de características
63
de entrada ayuda a las redes neuronales a mejorar su rendimiento con los datos de validación, ya que
se brinda mayor información a los modelos, lo que permite un mejor ajuste de los parámetros. Los
modelos entrenados con la combinación de las tres características (DFT-Gamma-MFCC) superan en
aproximadamente 5 % el rendimiento del mejor modelo entrenado con características de tipo gamma y el
tiempo de entrenamiento es superior en tan solo 15 minutos.
Para los resultados obtenidos con la reducción de características realizada implementando análisis de
componentes principales, se puede decir que no se obtuvieron resultados satisfactorios, ya que los
rendimientos disminuyeron hasta en un 40 % con características gamma, con respecto a la información
original. Un factor influyente en la disminución del rendimiento de las redes neuronales con análisis de
componentes principales, está relacionado con la drástica reducción de la dimensionalidad del problema,
que pese a suponerse una buena representación de la información se evidencia que el uso de una dimensión
muy pequeña conlleva a perdidas de generalidad. Adicionalmente, se debe tener en cuenta que en el
análisis realizado con PCA se asume que las variables están correlacionadas, por lo cual se pierde
información relevante para la solución del problema en términos de la caracterización de los entornos.
5.2. Trabajo Futuro
A continuación, se listan algunas propuestas para continuar con la investigación relacionada con la
clasificación de escenas acústicas:
Como se pudo observar la exploración de las topologías implementadas se realizó de forma manual
basados en la metodología de prueba y error. En este sentido es posible elaborar un algoritmo que
realice la tarea de elección de una topología que cumpla con algunos criterios establecidos con
anticipación.
Por otra parte, se mostró en el desarrollo del documento, el inconveniente de realizar la reducción
de características basados en técnicas lineales, ya que se sufre de perdida de información no lineal
relevante. Por lo cual, es posible implementar distintas técnicas de reducción de características, que
permitan evaluar cual solución desarrolla de forma positiva el rendimiento al problema.
En cuanto a la base de datos, una labor interesante es la grabación de sonidos propios de Colombia,
para realizar el entrenamiento y validación de modelos de redes neuronales y así preparar las
herramientas necesarias de cara a una posible implementación en el país.
Determinar la influencia de frecuencias audibles y no audibles para el ser humano en el desa-
rrollo del problema de ASC comprobado mediante CNN, mediante la aplicación de filtros en el
preprocesamiento de la señales acústicas.
En este trabajo se realizaron pruebas con dos diferentes segmentos de audio, determinando que el
rendimiento es mas alto para segmentos de 1 segundo, por lo tanto se puede realizar un trabajo
que explore otras longitudes y así hacer un análisis más detallado de la influencia de las diferentes
duraciones de audio en el rendimiento de las redes neuronales.
64
Índice de figuras
2.1. Transformada de Fourier Discreta (DFT) de una señal no periódica finita. Adaptado de [27]. 14
2.2. Diagrama mariposa de la DFT inversa usando FFT. Adaptado de [27]. . . . . . . . . . . . . 15
2.3. Diagrama de bloques utilizado para la extracción de los coeficientes MFCC. Adaptado de [30]. 16
2.4. Representación de los filtros triangulares utilizados para calcular los coeficientes MFCC.
Adaptado de [31]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5. Representación del banco de filtros de tonos gamma [34]. Elaboración propia. . . . . . . . . 19
2.6. Representación de una señal de voz (a). En el tiempo. (b). Como ”espectrograma” aplicando
el banco de filtros de tonos Gamma a la frecuencia. Elaboración propia. . . . . . . . . . . . 20
2.7. Modelo básico de una neurona con M entradas y el bias, una ponderación, la función de
activación y su salida. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.8. Topología de red tipo feed-forward de una capa oculta, con D entradas, M unidades ocultas y
K salidas. Adaptado de [36, fig. 4.1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.9. Estructura básica de una CNN compuesta por capas: entrada, convolucionales, pooling,
totalmente conectadas y salida. Adaptado de [41]. . . . . . . . . . . . . . . . . . . . . . . . 23
2.10. Composición básica de una capa convolucional con función de activación ReLU. Adaptado
de [40]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.11. Funciones de activación (a). ReLu. (b) PReLU. (c) RReLU. Adaptado de [42]. . . . . . . . . 24
2.12. Eliminación aleatoria de pesos mediante la implementación de una capa de dropout. Las
flechas punteadas con X marcadas representan pesos eliminados. Adaptado de [39]. . . . . . 26
2.13. Varianza del ruido y la señal analizado en nuevos ejes. Adaptado de [45]. . . . . . . . . . . 29
3.1. Diagrama de bloques de un clasificador basado en sonidos. Elaboración propia. . . . . . . . 34
3.2. Proceso de ventaneo y extracción de características. Elaboración propia. . . . . . . . . . . . 35
3.3. División de características en segmentos de 1 y 10 segundos. Elaboración propia. . . . . . . 36
3.4. Topología de MLP compuesta por tres capas ocultas. Elaboración propia. . . . . . . . . . . 36
3.5. Topología de MLP compuesta por cuatro capas ocultas. Elaboración propia. . . . . . . . . . 37
3.6. Topología de CNN, en cada bloque hay dos capas convolucionales con igual número de filtros
en cada experimento (variable x). Elaboración propia. . . . . . . . . . . . . . . . . . . . . . 37
3.7. Rendimiento de validación de las topologías de CNN implementadas. Elaboración propia. . 39
3.8. Número de filtros Vs. tiempo de entrenamiento en minutos con características individuales
para las redes neuronales convolucionales implementadas. Elaboración propia. . . . . . . . . 40
65
3.9. Rendimiento de validación de las topologías de MLP implementadas. Elaboración propia. . . 41
3.10. Rendimiento de validación de las topologías de CNN implementadas con segmentos de 1
segundo. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.11. Número de filtros Vs. tiempo de entrenamiento en minutos con características individuales
para las redes nueronales convolucionales implementadas. Elaboración propia. . . . . . . . . 44
3.12. Rendimiento de validación de las topologías de MLP implementadas con segmentos de 1
segundo. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.13. Rendimiento de validación de las topologías de CNN implementadas con segmentos de 10
segundos y características de entrada combinadas. Elaboración propia. . . . . . . . . . . . . 47
3.14. Rendimiento de validación de las topologías de MLP implementadas con segmentos de 1
segundo y características de entrada combinadas. Elaboración propia. . . . . . . . . . . . . 51
4.1. Proceso de reducción de características utilizando PCA. Elaboración propia. . . . . . . . . . 56
4.2. Número de características Vs. Información representada utilizando PCA . . . . . . . . . . . 57
4.3. Número de filtros Vs. tiempo de entrenamiento en minutos con características combinadas
reducidas. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
66
Índice de tablas
3.1. Orden de clases establecido para las matrices de confusión. . . . . . . . . . . . . . . . . . . 34
3.2. Rendimiento de entrenamiento y validación con CNN para características de entrada indivi-
duales y segmentos de 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3. Matriz de confusión para la mejor topología de CNN implementada. Elaboración propia. . . 40
3.4. Rendimiento de entrenamiento y validación con MLP para características de entrada indivi-
duales y segmentos de 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.5. Tiempos de entrenamiento en minutos de las diferentes topologías de MLP implementadas. . 42
3.6. Matriz de confusión para la mejor topología de MLP implementada. Elaboración propia. . . 42
3.7. Rendimiento de validación con CNN para características de entrada individuales y segmentos
de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.8. Matriz de confusión para la mejor topología de CNN implementada con segmentos de
1segundo. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.9. Rendimiento de entrenamiento y validación con MLP para características de entrada indivi-
duales y segmentos de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.10. Matriz de confusión para la mejor topología de MLP implementada con segmentos de
1segundo. Elaboración propia.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.11. Rendimiento de entrenamiento y validación con CNN para características de entrada combi-
nadas y segmentos de 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.12. Tiempos de entrenamiento en minutos de las diferentes topologías de CNN implementadas. . 47
3.13. Matriz de confusión para la mejor topología de CNN implementada con combinación de
características. Elaboración propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.14. Rendimiento de entrenamiento y validación con MLP para características de entrada combi-
nadas y segmentos de 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.15. Matriz de confusión para la mejor topología de MLP implementada con combinación de
características. Elaboración propia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.16. Rendimiento de entrenamiento y validación con CNN para características de entrada combi-
nadas y segmentos de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.17. Tiempo de entrenamiento en minutos con CNN para características de entrada combinadas y
segmentos de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.18. Matriz de confusión para la mejor topología de CNN implementada con combinación de
características. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
67
3.19. Rendimiento de entrenamiento y validación con MLP para características de entrada combi-
nadas y segmentos de 1 segundo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.20. Matriz de confusión para la mejor topología de MLP implementada con combinación de
características. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.21. Resumen de rendimiento de validación de MLP y CNN con segmentos de 1 y 10 segundos. . 52
3.22. Resumen de tiempos de entrenamiento de las mejores topologías de MLP y CNN con
segmentos de 1 y 10 segundos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.23. Mejores rendimientos con segmentos de 1 y 10 segundos con características no transformadas
para datos de validación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1. Rendimiento de entrenamiento y validación con CNN para características de entrada indivi-
duales reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2. Tiempos de entrenamiento en minutos de CNN con características de entrada reducidas . . . 58
4.3. Rendimiento de entrenamiento y validación con CNN para características de entrada combi-
nadas reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.4. Rendimiento de entrenamiento y validación con CNN para características de entrada indivi-
duales reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.5. Rendimiento de entrenamiento y validación con CNN para características de entrada combi-
nadas reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.6. Tiempo de entrenamiento en minutos de CNN para características de entrada combinadas
reducidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.7. Resumen de mejores rendimientos de validación para entrenamiento realizados con caracte-
rísticas reducidas y completas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.8. Resumen de tiempos de entrenamiento de las mejores topologías para los experimentos con
características reducidas y completas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.9. Mejores rendimientos alcanzados con segmentos de 1 segundo y características reducidas
para datos de validación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
68
Bibliografía
[1] D. Barchiesi, D. Giannoulis, D. Stowell, and M. D. Plumbley, “Acoustic scene classification:
Classifying environments from the sounds they produce,” IEEE Signal Processing Magazine, vol. 32,
no. 3, pp. 16–34, May 2015.
[2] A. Mesaros, T. Heittola, and T. Virtanen, “Assessment of human and machine performance in
acoustic scene classification: Dcase 2016 case study,” in 2017 IEEE Workshop on Applications of
Signal Processing to Audio and Acoustics (WASPAA), Oct 2017, pp. 319–323.
[3] H. Phan, L. Hertel, M. Maaß, P. Koch, and A. Mertins, “Label tree embeddings
for acoustic scene classification,” CoRR, vol. abs/1606.07908, 2016. [Online]. Available:
http://arxiv.org/abs/1606.07908
[4] Y. Yin, R. R. Shah, and R. Zimmermann, “Learning and fusing multimodal deep features for
acoustic scene categorization,” in Proceedings of the 26th ACM International Conference on
Multimedia, ser. MM ’18. New York, NY, USA: ACM, 2018, pp. 1892–1900. [Online]. Available:
http://doi.acm.org/10.1145/3240508.3240631
[5] H. Phan, P. Koch, F. Katzberg, M. Maaß, R. Mazur, and A. Mertins, “Audio scene classification
with deep recurrent neural networks,” CoRR, vol. abs/1703.04770, 2017. [Online]. Available:
http://arxiv.org/abs/1703.04770
[6] B. P. Clarkson, N. N. Sawhney, and A. Pentland, “Auditory context awareness via wearable compu-
ting,” 1998.
[7] A. Eronen, J. Tuomi, A. Klapuri, S. Fagerlund, T. Sorsa, G. Lorho, and J. Huopaniemi, “Audio-based
context awareness - acoustic modeling and perceptual evaluation,” in 2003 IEEE International
Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP ’03)., vol. 5,
April 2003, pp. V–529.
[8] A. J. Eronen, V. T. Peltonen, J. T. Tuomi, A. P. Klapuri, S. Fagerlund, T. Sorsa, G. Lorho, and
J. Huopaniemi, “Audio-based context recognition,” IEEE Transactions on Audio, Speech, and
Language Processing, vol. 14, no. 1, pp. 321–329, Jan 2006.
[9] S. Chu, S. Narayanan, C. . J. Kuo, and M. J. Mataric, “Where am i? scene recognition for mobile
robots using audio features,” in 2006 IEEE International Conference on Multimedia and Expo, July
2006, pp. 885–888.
69
[10] J. T. Geiger, B. Schuller, and G. Rigoll, “Large-scale audio feature extraction and svm for acoustic
scene classification,” in 2013 IEEE Workshop on Applications of Signal Processing to Audio and
Acoustics, Oct 2013, pp. 1–4.
[11] J. Ye, T. Kobayashi, N. Toyama, H. Tsuda, and M. Murakawa, “Acoustic scene classification using
efficient summary statistics and multiple spectro-temporal descriptor fusion,” Applied Sciences,
vol. 8, no. 8, 2018. [Online]. Available: http://www.mdpi.com/2076-3417/8/8/1363
[12] Y. Han and K. Lee, “Acoustic scene classification using convolutional neural network and multiple-
width frequency-delta data augmentation,” arXiv preprint arXiv:1607.02383, 2016.
[13] N. N. Sawhney, “Situational awareness from environmental sounds,” 1997.
[14] A. Mesaros, T. Heittola, and T. Virtanen, “A multi-device dataset for urban acoustic
scene classification,” 2018, submitted to DCASE2018 Workshop. [Online]. Available:
https://arxiv.org/abs/1807.09840
[15] R. Fraile, E. Blanco-Martin, J. M. Gutierrez-Arriola, N. Saenz-Lechon, and V. J. Osma-Ruiz,
“Classification of acoustic scenes based on modulation spectra and position-pitch maps,” DCASE2018
Challenge, Tech. Rep., September 2018.
[16] Y. Sakashita and M. Aono, “Acoustic scene classification by ensemble of spectrograms based on
adaptive temporal divisions,” IEEE AASP Challenge on DCASE 2018 technical reports, 2018.
[17] A. Mesaros, T. Heittola, and T. Virtanen, “Acoustic scene classification: An overview of dcase
2017 challenge entries,” in 2018 16th International Workshop on Acoustic Signal Enhancement
(IWAENC), Sep. 2018, pp. 411–415.
[18] A. Mesaros, T. Heittola, and T. Virtanen, “Results task 1a dcase2018,”
2018, accedido 16-05-2019. [Online]. Available: http://dcase.community/challenge2018/
task-acoustic-scene-classification-results-a
[19] O. Mariotti, M. Cord, and O. Schwander, “Exploring deep vision models for acoustic scene classifi-
cation,” DCASE2018 Challenge, Tech. Rep., September 2018.
[20] K. Hussain, M. Hussain, and M. Khan, “An improved acoustic scene classification method using
convolutional neural networks (cnns),” American Scientific Research Journal for Engineering,
Technology, and Sciences (ASRJETS), vol. 44, no. 1, pp. 68–76, 2018. [Online]. Available:
http://asrjetsjournal.org/index.php/American_Scientific_Journal/article/view/4169
[21] J. Shlens, “A tutorial on principal component analysis,” CoRR, vol. abs/1404.1100, 2014. [Online].
Available: http://arxiv.org/abs/1404.1100
[22] A. Bhandare, M. Bhide, P. Gokhale, and R. V. Chandavarkar, “Applications of convolutional neural
networks,” IJCSIT, 2016.
[23] B. Schilit, N. Adams, and R. Want, “Context-aware computing applications,” in 1994 First Workshop
on Mobile Computing Systems and Applications, Dec 1994, pp. 85–90.
70
[24] R. Radhakrishnan, A. Divakaran, and A. Smaragdis, “Audio analysis for surveillance applications,”
in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2005., Oct 2005,
pp. 158–161.
[25] H. Phan, O. Y. Chén, L. D. Pham, P. Koch, M. D. Vos, I. V. McLoughlin, and A. Mertins,
“Spatio-temporal attention pooling for audio scene classification,” CoRR, vol. abs/1904.03543, 2019.
[Online]. Available: http://arxiv.org/abs/1904.03543
[26] A. V. Oppenheim, A. S. Willsky, and S. H. Nawab, Señales y sistemas. Pearson Educación, 1998.
[27] S. Haykin, B. Van Veen, and G. Czarez, Señales y sistemas. Limusa, 2001.
[28] ETSI ES 201 108, European Telecommunications Standards Institute, Sep. 2003. [Online]. Availa-
ble: https://www.etsi.org/deliver/etsi_es/201100_201199/201108/01.01.03_60/es_201108v010103p.
[29] S. Jothilakshmi, V. Ramalingam, and S. Palanivel, “Speaker diarization using autoassociative neural
networks,” Engineering Applications of Artificial Intelligence, vol. 22, no. 4, pp. 667 – 675, 2009.
[Online]. Available: http://www.sciencedirect.com/science/article/pii/S0952197609000396
[30] MathWorks, “Cepstral Feaure Extractor,” accedido 16-09-2018. [Online]. Available: https:
//bit.ly/2VFxGIe
[31] V. autores, “MEL-Frequency Cepstrum,” accedido 20-04-2019. [Online]. Available: https://www.
isip.piconepress.com/courses/msstate/ece_8463/lectures/current/lecture_13/lecture_13_08.html
[32] R. D. Patterson, K. Robinson, J. Holdsworth, D. McKeown, C. Zhang, and M. Allerhand,
“Complex Sounds and Auditory Images,” in Auditory Physiology and Perception, Y. CAZALS,
K. HORNER, and L. DEMANY, Eds. Pergamon, 1992, pp. 429–446. [Online]. Available:
http://www.sciencedirect.com/science/article/pii/B978008041847650054X
[33] A. M. Aertsen and P. I. Johannesma, “Spectro-temporal receptive fields of auditory neurons
in the grassfrog,” Biol. Cybern., vol. 38, no. 4, pp. 223–234, Nov. 1980. [Online]. Available:
http://dx.doi.org/10.1007/BF00337015
[34] D. Ellis, “Gammatone-like spectrograms,” 2009, accedido 16-09-2018. [Online]. Available:
http://www.ee.columbia.edu/~dpwe/resources/matlab/gammatonegram/
[35] M. Slaney, “Auditory Toolbox,” Interval Research Corporation, Technical report, Oct. 1998. [Online].
Available: https://engineering.purdue.edu/~malcolm/interval/1998-010/AuditoryToolboxTechReport.
[36] C. M. Bishop, Neural Networks for Pattern Recognition. New York, NY, USA: Oxford University
Press, Inc., 1995.
[37] R. Salas, “Redes neuronales artificiales,” 1998, universidad de Valparaiso, Departamento de compu-
tación.
[38] W. S. McCulloch and W. Pitts, “A logical calculus of the ideas immanent in nervous activity. 1943.”
Bulletin of mathematical biology, vol. 52 1-2, pp. 99–115; discussion 73–97, 1988.
71
[39] J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang, G. Wang, J. Cai et al.,
“Recent advances in convolutional neural networks,” Pattern Recognition, vol. 77, pp. 354–377,
2018.
[40] S. Indolia, A. K. Goswami, S. Mishra, and P. Asopa, “Conceptual understanding of convolutional
neural network-a deep learning approach,” Procedia computer science, vol. 132, pp. 679–688, 2018.
[41] W. Zhiqiang and L. Jun, “A review of object detection based on convolutional neural network,” in
2017 36th Chinese Control Conference (CCC). IEEE, 2017, pp. 11 104–11 109.
[42] B. Xu, N. Wang, T. Chen, and M. Li, “Empirical evaluation of rectified activations in convolutional
network,” arXiv preprint arXiv:1505.00853, 2015.
[43] J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler, “Efficient object localization using
convolutional networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, 2015, pp. 648–656.
[44] S. de la fuente fernandez. análisis de componentes. [Online]. Available: http://www.fuenterrebollo.
com/Economicas/ECONOMETRIA/MULTIVARIANTE/ACP/ACP.pdf
[45] J. Shlens, “A tutorial on principal component analysis: Derivation, discussion and singular value
decomposition,” Mar, vol. 25, no. 1, p. 16, 2003.
[46] J. G. y Nicolás Cardiel. (2010/2011) Tema 9: Análisis de componentes principales (pca). [Online].
Available: https://es.scribd.com/document/335122257/Analisis-de-componentes-principales-pdf
[47] A. Mesaros, T. Heittola, and T. Virtanen, “Acoustic scene classification: An overview of dcase
2017 challenge entries,” in 2018 16th International Workshop on Acoustic Signal Enhancement
(IWAENC), Sep. 2018, pp. 411–415.
[48] B. Arons, “A review of the cocktail party effect,” JOURNAL OF THE AMERICAN VOICE I/O
SOCIETY, vol. 12, pp. 35–50, 1992.
[49] Z. Ren, K. Qian, Y. Wang, Z. Zhang, V. Pandit, A. Baird, and B. Schuller, “Deep scalogram
representations for acoustic scene classification,” IEEE/CAA Journal of Automatica Sinica, vol. 5,
no. 3, pp. 662–669, 2018.
[50] D. Feng, K. Xu, H. Mi, F. Liao, and Y. Zhou, “Sample dropout for audio scene classification using
multi-scale dense connected convolutional neural network,” in Pacific Rim Knowledge Acquisition
Workshop. Springer, 2018, pp. 114–123.
[51] G. Takahashi, T. Yamada, S. Makino, and N. Ono, “Acoustic scene classification using deep neural
network and frame-concatenated acoustic feature,” Detection and Classification of Acoustic Scenes
and Events, 2016.
[52] A. Mesaros, T. Heittola, and T. Virtanen, “A multi-device dataset for urban acoustic scene classifica-
tion,” arXiv preprint arXiv:1807.09840, 2018.
72
[53] Z. Zhang, S. Xu, S. Cao, and S. Zhang, “Deep convolutional neural network with mixup for
environmental sound classification,” in Chinese Conference on Pattern Recognition and Computer
Vision (PRCV). Springer, 2018, pp. 356–367.
[54] A. Dang, T. H. Vu, and J.-C. Wang, “Acoustic scene classification using convolutional neural
networks and multi-scale multi-feature extraction,” in 2018 IEEE International Conference on
Consumer Electronics (ICCE). IEEE, 2018, pp. 1–4.
[55] K. Hussain, M. Hussain, and M. G. Khan, “An improved acoustic scene classification method
using convolutional neural networks (cnns),” American Scientific Research Journal for Engineering,
Technology, and Sciences (ASRJETS), vol. 44, no. 1, pp. 68–76, 2018.
[56] M. Valenti, A. Diment, G. Parascandolo, S. Squartini, and T. Virtanen, “Dcase 2016 acoustic scene
classification using convolutional neural networks,” in Proc. Workshop Detection Classif. Acoust.
Scenes Events, 2016, pp. 95–99.
[57] U. S. Prakruthi, D. Kiran, and H. Ramasangu, “High performance neural network based acoustic
scene classification,” in 2018 2nd International Conference on Inventive Systems and Control
(ICISC), Jan 2018, pp. 781–784.
[58] S. H. Bae, I. Choi, and N. S. Kim, “Acoustic scene classification using parallel combination of lstm
and cnn,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2016
Workshop (DCASE2016), 2016, pp. 11–15.
[59] R. Patiyal and P. Rajan, “Acoustic scene classification using deep learning,” IEEE AASP Challenge
on Detection and Classification of Acoustic Scenes and Events (DCASE), 2016.
[60] Y. Petetin, C. Laroche, and A. Mayoue, “Deep neural networks for audio scene recognition,” in 2015
23rd European Signal Processing Conference (EUSIPCO). IEEE, 2015, pp. 125–129.
[61] Q. Kong, I. Sobieraj, W. Wang, and M. Plumbley, “Deep neural network baseline for dcase challenge
2016,” Proceedings of DCASE 2016, 2016.
[62] G. Takahashi, T. Yamada, S. Makino, and N. Ono, “Acoustic scene classification using deep neural
network and frame-concatenated acoustic feature,” Detection and Classification of Acoustic Scenes
and Events, 2016.
[63] G. S. Mafra, N. Q. K. Duong, A. Ozerov, and P. Pérez, “Acoustic scene classification: An
evaluation of an extremely compact feature representation,” in Detection and Classification
of Acoustic Scenes and Events 2016, Budapest, Hungary, Sep. 2016. [Online]. Available:
https://hal.archives-ouvertes.fr/hal-01400986
[64] A. Mesaros, T. Heittola, E. Benetos, P. Foster, M. Lagrange, T. Virtanen, and M. D. Plumbley,
“Detection and classification of acoustic scenes and events: Outcome of the dcase 2016 challenge,”
IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 2, pp. 379–393,
Feb 2018.
[65] Y. Han and J. Park, “Convolutional neural networks with binaural representations and background
subtraction for acoustic scene classification,” DCASE2017 Challenge, Tech. Rep., September 2017.
73
[66] Y. Yin, R. R. Shah, and R. Zimmermann, “Learning and fusing multimodal deep features for acoustic
scene categorization,” in 2018 ACM Multimedia Conference on Multimedia Conference. ACM,
2018, pp. 1892–1900.
[67] S. S. R. Phaye, E. Benetos, and Y. Wang, “Subspectralnet - using sub-spectrogram based
convolutional neural networks for acoustic scene classification,” CoRR, vol. abs/1810.12642, 2018.
[Online]. Available: http://arxiv.org/abs/1810.12642
74