Tesis profesional - UNSA

Universidad Nacional De San Agustín de Arequipa Facultad De Ingeniería De Producción Y Servicios
Ingeniería De Sistemas
Tesis profesional
MODELO ESTOCÁSTICO BASADO EN REDES NEURONALES NO TRADICIONALES APLICADA A LA GENERACIÓN DE CAUDALES MENSUALES CASO: CUENCA DEL RIO CHILI,
AREQUIPA
supervisado por: Phd. Jose Alfredo Herrera Quispe
23 de mayo de 2018
A mis padres, José y Dina por su capacidad de creer en mi
Resumen
Las investigaciones en recursos hídricos pueden involucrar la generación de datos y/o pronóstico no sólo de variables hidrológicas sino de otras variables derivadas que permitan reducir pérdidas de tipo económicas y sociales, dimensionando y escenificando el impacto de una sequía, inundación y principalmente la demanda poblacional. Por lo tanto, la búsqueda de un diseño óptimo en un proyecto de gestión del agua frecuentemente involucra encontrar un método o técnica que genere largas secuencias de las características de los flujos(caudales) en este caso de un río en cuestión. Estas secuencias consideradas como series temporales pueden ser usadas para analizar y optimizar el desempeño del proyecto diseñado. Con el fin de cubrir esos requerimientos, este trabajo tiene como objetivo la elaboración de un nuevo modelo de proceso estocástico para ser aplicado en problemas que envuelven fenómenos de comportamiento estocástico y de características periódicas en sus propiedades probabilísticas como media y varianza. Para esto fueron usados dos componentes, el primero, un tipo de red neuronal recurrente introducido en la literatura denominado Echo State Network(ESN), siendo el componente determinista. Una característica interesante de ESN es que a partir de ciertas propiedades algebraicas, entrenar solamente la capa de salida de la red es a menudo suficiente para alcanzar un desempeño excelente en aplicaciones prácticas. La segunda parte del modelo, es un componente aleatorio que incorpora al modelo la incertidumbre asociada a los procesos hidrológicos. El modelo finalmente es llamado MEESN. Este fue calibrado y validado en series temporales mensuales de cuatro cuencas hidrográficas de MOPEX, así como en el ámbito local en series de la cuenca del Chili. El nuevo modelo fue comparado con modelos presentes en la literatura como el modelo; PEN, Thomas & Fiering y ANFIS. Los resultados muestran que MEESN y su versión modificada MEESN+TSM (que considera una variable exógena) ofrecen una alternativa prometedora para propósitos de simulación, con potencial interesante en el contexto de los recursos hidrometeorológicos.
Palabras Clave: Hidrológicas, Caudal, ESN, Optimización, Determinista, Series Temporales,Redes Neuro- nales, Estocástico, Sistema Dinámico.
2
BP BackPropagation
MAE Error Medio Absoluto
MEESN Modelo Estocástico ESN
MEESN Modelo Estocástico ESN
MSE Error Medio Cuadrático
RNA Redes Neuronales Artificiales
3
Índice general
Resumen 2
1. Introducción 6 1.1. Definición del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4. Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.2. Organización de Capítulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Marco Teórico 10 2.1. Procesos estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1. Serie Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.2. Proceso Estrictamente Estacionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.1.3. Proceso Débilmente Estacionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Ruido Blanco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3. Modelos Estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1. Modelos Auto-Regresivos(AR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3.2. Modelo de Medias Móviles(MA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.3. Modelo Autorregresivo de Media Móvil ARMA(p,q) . . . . . . . . . . . . . . . . . . . . . 13 2.3.4. Modelo Autorregresivo Integrado de Media Móvil(ARIMA) . . . . . . . . . . . . . . . . . 14 2.3.5. Modelo SARIMA(ARIMA estacional) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1. Pruebas de bondad de Ajuste(adherencia) . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1.1. Test t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1.2. Test de Levene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2. Estimadores de Primer Orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.5. Modelos De Aprendizaje De Maquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.1. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.5.2. Redes Neuronales Recurrentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.5.3. Entrenamiento de una Red Neuronal Recurrente . . . . . . . . . . . . . . . . . . . . . . . 21
2.6. Reservoir Computing y Redes Echo State . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6.1. Reservoir Computing(RC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6.2. Liquid State Machines(LSM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6.3. Redes Echo State(RNAR-esn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.6.4. Dinámica una Red ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.4.1. Entrenamiento De Una Red ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.6.4.2. Aprendizaje De Una Red ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.6.4.3. Validaciones De Una Red ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3. Estado del Arte 28 3.1. Planificación Y Ejecución De Mapeo Sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4
3.2. Enfoques Clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.3. Enfoques De Aprendizaje Automático (Machine learning) . . . . . . . . . . . . . . . . . . . . . . 29 3.4. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4. Propuesta 31 4.1. Descripción del Modelo MEESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.2. Componente Estocástico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1. Proceso de Márkov de primer orden: modelo de Thomas & Fiering . . . . . . . . . . . . . 32 4.3. Componente Determinista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3.1. Formalización de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3.2. Parámetros de ESN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3.2.1. Tamaño del reservorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3.2.2. Radio Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3.2.3. Conectividad y Topología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.3.2.4. Optimización aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.4. Generación de Escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.5. Consideraciones Finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5. Experimentos 39 5.1. Usando Bases Ortonormales como Matriz de Conectividad . . . . . . . . . . . . . . . . . . . . . . 39 5.2. Estimación de parámetros para generar escenarios Hidrológicos . . . . . . . . . . . . . . . . . . . 42
5.2.1. Pre-procesamiento de datos, entradas y salidas . . . . . . . . . . . . . . . . . . . . . . . . 42 5.2.2. Datos de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.2.3. Configuración de aprendizaje de la red RNAR-echo . . . . . . . . . . . . . . . . . . . . . . 43
5.3. Generación de escenarios sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.3.1. Caso de Estudio: MOPEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.3.2. Análisis de escenarios sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.3.3. Análisis de Adherencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.3.4. Análisis visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.3.5. Caso de Estudio: Cuenca del Rio Chili, Arequipa . . . . . . . . . . . . . . . . . . . . . . 47 5.3.6. Caracterización del área de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3.7. Contexto del caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.7.1. Generador de escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3.8. Estaciones de Medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.8.1. Estación El Pañe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3.8.2. Estación el Frayle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.3.8.3. Estación Aguada Blanca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.9. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.3.9.1. Análisis de Adherencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.10. Inspección Visual de los Escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.4. Incorporando información adicional, variable exógena . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.4.1. Re-formulación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.5. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.5.1. Inspección Visual de los Escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.5.2. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6. Conclusión y trabajos futuros 76 6.0.1. Limitaciones del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.0.2. Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.0.3. Publicaciones Generadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5
Introducción
1.1. Definición del problema Según Autodema 2002; ANA 2013, 2017, dentro de los problemas identificados en la región de Arequipa se
encontraron una ineficiente y desintegrada gestión del recurso hídrico en la Cuenca del Río Chili, generando baja disponibilidad del recurso. Se atribuyen estos problemas de gestión como causantes de pérdidas físicas, económicas, sociales y ambientales.
Existen limitaciones por el uso de modelos tradicionales en la operación de la oferta de agua. Según (Concytec- UNSA, 2012) podemos definir los siguientes problemas:
La operación y control en el manejo de la oferta del agua.
La operación de embalses con métodos tradicionales.
La Pérdida de agua de riego hasta en un 50% por ineficiencia en uso y distribución 3.80% de terrenos productivos tiene rendimiento bajo, debido a una mala distribución del recurso hídrico.
Por lo tanto cada vez es más difícil ignorar la necesidad de modelos eficientes y efectivos en la generación de escenarios de predicción basados en variables hidrológicas. Actualmente se proponen modelos basados en conceptos de inteligencia artificial como las Redes Neuronales Artificiales que permiten representar tareas de naturaleza dinámica (predicción de variables hidrológicas) con mejor desempeño que los modelos lineales. El tipo de redes neuronales que presenta un notable desempeño en el área de hidrología según (Lukoševiius und Jaeger (2009), Coulibaly (2010), Chang et al. (2002), Chiang et al. (2004)) son las llamadas Redes Neuronales Recurrentes, que debido a su estructura de conexiones cíclicas permite un modelado más parsimonioso de propiedades diná- micas. Sin embargo, la recurrencia presente en su estructura puede ocasionar incremento en la complejidad de aprendizaje y posteriormente ocasionar problemas de convergencia(Lukoševiius und Jaeger, 2009). Debido a lo anterior mencionado, esta investigación representa un intento de responder a la siguiente pregunta: ¿Puede ser considerada como alternativa válida un modelo de generación de escenarios para predicción de variables hidroló- gicas basado en Redes Neuronales Recurrentes, usando nuevos métodos como ESN para reducir la complejidad en su construcción?.
1.2. Justificación El desarrollo de modelos de pronóstico de series temporales para el uso de los estudios hidrológicos, que
sean precisos y fiables sigue siendo una de las tareas más importantes y difíciles en la hidrología (de Vos, 2013). Problemas reales como pronóstico presentan características complejas de tipo no lineal y algunas veces de comportamiento caótico, a fin de modelar el comportamiento de este tipo de fenómenos, realizar una aproximación lineal (BOX, 1970) puede generar un modelo poco eficiente (Luna et al., 2006).
Estas series hidrológicas mensuales tienen como característica un comportamiento periódico que se manifiesta en sus propiedades como la media, varianza, asimetría y estructura de auto-correlación (THOMAS (1962),
6
MACEIRA (Rio de Janeiro, RJ, 1989.)). Su análisis puede llevarse acabo mediante el uso de modelos auto- regresivos dentro de los cuales destaca el modelo PAR(p)(Maceira, 2005.). Sin embargo, estos modelos son estadísticos y lineales, eso implica que su aplicación en series hidrológicas (de comportamiento caótico) puede no capturar sus características reales, y por lo tanto generar resultados inconsistentes.
Entre las metodologías que intentar modelar problemas complejos no lineales actualmente, las Redes Neuro- nales Artificiales (RNA)(de Vos und Rientjes, 2008) destacan como métodos de aprendizaje de maquina. Aunque muchos investigadores de RNA demostraron el buen desempeño de estas técnicas. Su comportamiento de ”caja negra” tiene observaciones planteadas con respecto a su fiabilidad y validez como modelos hidrológicos(Cunge (2003), de Vos und Rientjes (2005)).
De hecho, en muchos trabajos sobre modelos de pronóstico(hidrológico) en la literatura lasRNA’s en especial del tipo feedforward han sido ampliamente usadas, en contraste con las RNA’s de tipo Recurrente (de Vos, 2013). Las RNA’s recurrentes son capaces de representar mapas dinámicos no lineales comúnmente encontradas en las tareas de pronóstico de series temporales(Sun et al., 2016). Estudios sobre su desempeño muestran un desempeño superior que sus similares feedforward(Brezak et al., 2012). Pero, la principal razón de la preferencia en uso de RNA’s feedforward sobre RNA’s recurrentes es la recurrencia que ocasiona mayor complejidad sobre todo en el proceso de aprendizaje de la RNA.
Lo anterior mencionado motivó en este proyecto la elaboración de un nuevo modelo de proceso estocástico utilizando Redes Neuronales Artificiales Recurrentes (RNAR) a fin de aprovechar sus ventajas sobre las RNA’s feedforward. Para esto, se aplicó un paradigma típico de RNAR introducido denominado Reservoir Computing (RC)(Lukoševiius und Jaeger, 2009). RC es un enfoque de aprendizaje que se perfila como simple y rápido en comparación a otros enfoques usados en RNAR, todo esto con el fin de reducir su complejidad de construcción y aprovechar su capacidad comprobada de representar mejor las características de las series temporales. Además, como parte de nuestra propuesta se considerará un componente no determinista que representa un ruido aleatorio con distribución normal, esto con el fin de tener en cuenta la incertidumbre que afecta típicamente los procesos hidrológico (Awchi und Srivastava, 2004). En consecuencia, nuestro modelo es una propuesta novedosa en la literatura.
Finalmente, este modelo puede ser aplicado en la solución de problemas de la región de Arequipa que invo- lucran fenómenos climatológicos como caudales, precipitación, temperatura e incluso de tipo económico como fluctuaciones de precios entre otros.
1.3. Objetivos Proponer un modelo de Proceso Estocástico para la generación de series temporales hidrológicas mediante
el uso de técnicas de inteligencia artificial relativamente novedosas, como ESN y un ruido aleatorio basado en la incertidumbre que afecta típicamente procesos hidrológicos.
1.4. Objetivos Específicos Estudiar los modelos lineales, entre los cuales destacamos el modelo de Thomas & Fiering (THOMAS, 1962).
Revisar en la literatura los distintos modelos basados en aprendizaje de maquina como: Redes Neuronales feedforward, Redes Neuronales Recurrentes, el enfoque de Reservoir Computing y redes ANFIS.
Aplicar el modelo propuesto en la generación y pronóstico de series temporales para 2 casos de estudio basados en variables hidrológicas(Caudales, Precipitación): El primero usando series temporales de MO- PEX, en 4 cuencas seleccionadas de manera aleatoria. El segundo, usando series temporales de la cuenca del Chili, en tres estaciones de medición: el Pañe, Aguada blanca y el Frayle.
Evaluar el modelo propuesto en comparación con los modelos: Estocásticos Neuronal(PEN) de (Campos et al., 2011), (THOMAS, 1962) y ANFIS (Jang, 1993a).
Analizar la media, desviación estándar, asimetría como parámetros utilizados para evaluar el modelo propuesto y su habilidad para representar series sintéticas igualmente probables a la población histórica. A fin de contrastar nuestra propuesta con los modelos en la literatura anteriormente mencionados.
7
Comprobar si nuestro modelo basado en ESN puede ser considerado como una alternativa válida a las redes neuronales feedforward y recurrentes tradicionales.
Establecer las conclusiones, contribuciones, limitaciones, y trabajo futuro del modelo.
1.4.1. Contribuciones Las principales contribuciones de esta tesis son:
El desarrollo de un nuevo modelo de proceso estocástico MEESN basado en redes neuronales recurrentes y un componente aleatorio, usando técnicas de aprendizaje ESN, como una alternativa válida capaz de simular series sintéticas igualmente probables a la serie histórica.
Este nuevo modelo puede ser aplicado para modelar series temporales que presentan características perió- dicas.
Nuestro modelo aprovecha virtudes de sus dos componentes para realizar la estimación de un proceso estocástico: en primer lugar, la capacidad de aprendizaje y generalización mediante ejemplos, por parte de la RNA Recurrente (componente determinista) y en segundo lugar, la incertidumbre de un valor aleatorio(componente no determinista) que afecta típicamente procesos hidrológicos.
El proceso de aprendizaje de una RNAR es realizado usando el enfoque ESN, donde solamente es necesario ajustar los pesos de salida para poder capturar el comportamiento de una serie temporal, los pesos de entrada y del reservorio son establecidos aleatoriamente. De esa manera se logra reducir el costo computacional de aprendizaje.
Para entrenar nuestro modelo es necesario solamente la serie temporal histórica. La única transformación necesaria es una normalización de esos datos en un intervalo pre-establecido. No es necesario suponer ningún comportamiento de la serie histórica para utilizarlo en nuestro modelo. Todo el comportamiento de la serie es capturado por las RNA Recurrentes en sus estados internos. Esta característica permite a nuestro modelo descartar el uso de técnicas de «ventana» y términos auto regresivos.
1.4.2. Organización de Capítulos Este trabajo esta organizado de la siguiente forma: En el Capítulo 2, se presenta un breve resumen sobre conceptos fundamentales del modelo propuesto en
esta tesis, como son; la teoría de procesos estocásticos, redes neuronales artificiales, recurrentes y enfoques de aprendizaje (se destaca ESN). Además, se presenta una breve descripción sobre métodos de muestra aleatoria y los test de hipótesis utilizados en la validación del desempeño de nuestro modelo.
En el Capítulo 3, Se utiliza el método estándar de revisión sistemática de literatura (RSL) basada en las directrices originales propuestas por Kitchenham (2004). Se emplea una búsqueda manual de revistas y publicaciones en congresos que cumplen los criterios de exclusión e inclusión establecidos en el protocolo de revisión.
En el Capítulo 4, se describe detalladamente los 2 componentes principales del modelado completo del nuevo proceso estocástico MEESN, con el fin de procesar series temporales hidrológicas mensuales. El ajuste del modelo consiste en: estimar sus parámetros, configuración de la red neuronal recurrente ESN (RNAR-esn), mediante métodos de optimización aleatoria. El objetivo principal es generar escenarios sintéticos en el contexto de una arquitectura para la planificación de Recursos Hídricos, vinculada a un sistema de soporte de decisiones, con miras a la planificación a medio plazo que permitirán proyectar posibles escenarios de condiciones climáticas y de demanda de agua.
En el Capítulo 5, se muestran los resultados obtenidos en cada caso de estudio en este trabajo. Primero, se presenta la validación (test de adherencia, RMSE, NRMSE, CE, MAD) de los escenarios generados por nuestro modelo comparado con los escenarios generados por los modelos presentes en la literatura como PEN (Campos et al., 2011), (THOMAS, 1962) y ANFIS (Jang, 1993a), para tratar series temporales mensuales de MOPEX en 4 cuencas elegidas aleatoriamente. En segundo lugar, se evalúa la propuesta en la generación escenarios de variables hidrológicas (caudales, precipitación) en la cuenca del Chili-Arequipa, en tres estaciones de medición(el Pañe, Aguada blanca y el Frayle, en periodos mensuales), siguiendo el mismo procedimiento de validación.
8
El Capítulo 6, finaliza este trabajo presentando las conclusiones generales y las propuestas de trabajos futuros.
9
Capítulo 2
Marco Teórico
Este capítulo ofrece un resumen de los fundamentos teóricos necesarios para entender nuestro nuevo modelo. el capítulo inicia con la Sección 2.1, donde se comenta sobre procesos estocásticos y sus propiedades. La sección 2.2 presenta el concepto de Ruido blanco, que es utilizado en la generación de series temporales sintéticas por parte de nuestro modelo. La sección 2.3 cubre algunos de los mas conocidos modelos estadísticos para la predicción de series temporales. En la Sección 2.4 son presentados algunos Test de hipótesis, utilizados para la validación de la bondad de ajuste (test de adherencia) de los escenarios generados por nuestro modelo en comparación con la serie histórica. Se encuentra en la Sección 2.5 los conceptos principales de Redes Neuronales, que es considerada la base del modelo de esta tesis. Para finalizar la Sección 2.6 ofrece los conceptos básicos sobre reservoir computing y echo state networks, paradigmas que son usados para entrenar de manera simple e igualmente efectiva una Red Neuronal Recurrente, que es el componente mas importante en nuestro modelo.
2.1. Procesos estocásticos Por lo general, se representa un Proceso Estocástico(PE) como {Z (t) : t ∈ T}, donde t representa el instante
de tiempo, Z (t) es una variable aleatoria llamada estado del proceso en el instante t y T es el conjunto de índices denominado espacio paramétrico de PE.
Por lo tanto, un PE es un modelo matemático caracterizado por una colección de variables aleatorias orde- nadas, en el tiempo y en el espacio, y definidas en un conjunto, continuo o discreto, que describe la evolución de algún fenómeno con características aleatorias (Muller, 2007).
Si el conjunto T es un intervalo finito o infinito de números reales, se dice que {Z (t) : t ∈ T} es un proceso continuo. Por otra parte, si T es un conjunto finito o contable, como por ejemplo T = {1, 2, 3, . . .}o T = {1, 9, 43, 279}, se dice que PE es un proceso discreto (Barros, 2009). El espacio de estados de un PE es el conjunto de todos los posibles valores de variables Z (t), que también puede ser discreto o continuo. La combinación de los posibles valores de T y Z (t) conduce a cuatro clases de proceso estocástico (para mas información véase (Barros, 2009)).
2.1.1. Serie Temporal El concepto de proceso estocástico proporciona el análisis probabilístico de series temporales. Así, una serie
temporal puede ser considerada una realización de un PE, esto es, una posible trayectoria del proceso. Por lo tanto, un PE es un proceso generador de datos cuya serie temporal es una realización muestral entre todas las series posibles a ser generadas por este modelo. Por ejemplo, nosotros podemos considerar el siguiente proceso estocástico definido como:
Zt = Zt−1 + at (2.1)
) .
Este proceso es conocido como camino aleatorio (vea Figura 2.1). Con el fin de obtener un modelo adecuado para una serie temporal, se necesita de una secuencia de estudio
de la misma. Donde dado un PE (fenómeno real) se obtiene una serie temporal (muestra finita de observaciones
10
Figura 2.1: Proceso estocástico de camino aleatorio, se muestra 200 realizaciones de este proceso.
equidistantes en el tiempo) y a través del análisis de series temporales (estudio de la muestra) se identifica un modelo cuyo objetivo es inferir sobre el comportamiento de la realidad. A partir de la expresión matemática de ese modelo, se pueden obtener las fórmulas para sus momentos como media, varianza, entre otros. Por lo tanto, una manera de describir un PE es a través de los momentos de las variables aleatorias, en especial, la media, la varianza y autocovarianza del proceso (Barros, 2009). La media y la varianza de un PE discreto son funciones de instante de tiempo t, definidas, respectivamente, por las ecuaciones 2.2 y 2.3.
µ (t) = E [Z (t)] (2.2)
σ2 (t) = V ar [Z (t)] = E {
[Z (t)− µ (t)] 2 }
(2.3)
Siendo E [•], el valor esperado y Z (t)el estado del proceso en el instante t. La autocovarianza de un PE discreto es una función definida, entre los instantes t1 y t2 por:
γ (t1, t2) = Cov [Z (t1) , Z (t2)] = E {[Z (t1)− µ (t1)] · [Z (t2)− µ (t2)]} (2.4)
Esto es, la autocovarancia de un PE discreto es sólo la covarianza entre instantes de tiempo diferentes. Por lo tanto, la varianza del PE es sólo un caso particular de la autocovariancia, donde t1 = t2.
Los momentos de orden más alto se pueden definir de manera similar, pero son poco usados en la práctica. Las definiciones de los momentos para un PE continuo son análogas a las de un PE discreto.
Estas características de procesos estocásticos están íntimamente ligadas a la noción de estacionariedad de un proceso (Barros, 2009). Se dice que un proceso es estacionario si no hay cambios en sus características, es decir, si es invariante en relación al tiempo. Según la estacionariedad, un proceso puede clasificarse en:
2.1.2. Proceso Estrictamente Estacionario Cuando sus estadísticas no son afectadas por variaciones debido a la selección del origen del tiempo, osea, la
distribución de probabilidad conjunta no cambia al desplazar el tiempo o el espacio. De esta forma, la distribución de probabilidad conjunta P {Z (t1) = z1, Z (t2) = z2, . . . , Z (tn) = zn} es la misma que P {Z (t1 + k) = z1, Z (t2 + k) = z2, . . . , Z (tn + k) = zn}, para cualquier ti, k y n. La media y la varianza son constantes para todo instante de tiempo t ∈ T y la función de autocovarianza solo depende del desplazamiento ti+k− ti. La media del proceso esta dada por la ecuación 2.5 y la autocovarianza de retraso k puede ser escrita como la ecuación 2.6.
µ (t) = E [Z (t)] = E [Z (t+ k)] (2.5)
11
γ (k) = E {[Z (t)− µ] · [Z (t+ k)− µ]} (2.6)
Por lo tanto cuando k = 0, se tiene la varianza constante del proceso:
σ2 = γ (0) = E {
[Z (t)− µ] 2 }
2.1.3. Proceso Débilmente Estacionario La condición de estacionariedad es mas débil porque se impone condiciones solamente sobre los dos primeros
momentos, que no garantizan condiciones sobre la estacionariedad de la función de probabilidad. Por lo tanto, la media del proceso es constante y su autocovarianza depende sólo de k = ti+k − ti.
En la práctica, son 3 los tipos de series temporales: aquellas con propiedades de estacionariedad en periodos largos(estrictamente estacionarias); las que poseen estacionariedad en periodos cortos(débilmente estacionarias) y finalmente aquellas que no son estacionarias(sus propiedades están cambiando con el tiempo). Algunos métodos estadísticos tratan la no-estacionariedad de series temporales, mediante técnicas que filtran la parte no-estacionaria, trabajando solamente con la parte estacionaria (Muller, 2007).
Existen algunos procesos estocásticos que son muy usados en la especificación de modelos para series temporales, y son usados en la construcción de procesos mas complicados, un ejemplo de esos PE básicos es el ruido blanco o secuencia aleatoria.
2.2. Ruido Blanco Un PE discreto es llamado ruido blanco si es un proceso puramente aleatorio, es decir, si los Z (t) constituyen
una secuencia de variables aleatorias independientes e idénticamente distribuidas. Un ruido blanco tiene la media, varianza constante y la función de auto-correlación nula en todos los retrasos
k, es decir son totalmente descorrelacionadas. Presentan distribución normal de media cero y de desviación 1, Z (t) ∼ N (0, 1).
Los procesos de ruido blanco aparecen en la construcción de otros procesos mas complejos, como, por ejemplo los modelos de Box y Jenkins (BOX, 1970). Estos modelos tienen como propósito que los datos de series de tiempo puedan usarse en pronóstico(tarea a realizar en esta tesis). Es decir, el uso de las observaciones de una serie de tiempo disponible en el momento t Para predecir su valor en el tiempo t+ l; Donde l se denomina horizonte de previsión o tiempo de avance (Douglas C. Montgomery, 2008). El horizonte de previsión es el número de etapas de tiempo en el futuro para las cuales las previsiones deben producirse.
Un método de pronóstico es un procedimiento que calcula Z (t), para el tiempo t a partir de valores pasados( Z (t− 1) , Z (t− 2) , Z (t− 3) , . . .). Se han propuesto numerosos algoritmos de aprendizaje de máquina y esta- dísticos. Los modelos estadísticos estándar son los más predominantes en la literatura seguida por los modelos de redes neuronales artificiales de aprendizaje automático.
2.3. Modelos Estadísticos Esta sección cubre algunos algoritmos comunes utilizados para la predicción de series temporales en esta-
dística. El campo de predicción ha sido influenciado, durante mucho tiempo, por métodos estadísticos lineales tales como el modelo auto-regresivo (AR), el modelo de media móvil (MA) y los modelos híbridos que derivan de ellos como ARMA (media móvil auto-regresiva), ARIMA (Media móvil integrada auto-regresiva) y SARIMA (ARIMA estacional).
2.3.1. Modelos Auto-Regresivos(AR) En el proceso auto-regresivo, una variable de salida Z (t), depende linealmente de sus propios valores ante-
riores (Z (t− 1) , Z (t− 2) , . . . , Z (t− p)), y algún ruido blanco εt(Casella und Berger, 2002). Por definición, se dice que un proceso {Z (t)}, es un proceso auto-regresivo de orden p denotado como AR(p) si Z (t), puede ser descrito por:
12
Z (t) = φ1 · Z (t− 1) + φ2 · Z (t− 2) + . . .+ φp · Z (t− p) + εt (2.8)
Dónde εt, es el ruido blanco con media cero y varianza finita fija σ2, y φ1, . . . φp, son los parámetros del modelo. El orden p del modelo determina el número de observaciones pasadas utilizadas para predecir el valor actual. El ejemplo más simple de un proceso AR es el caso de primer orden, denotado como AR(1), dado por:
Z (t) = φ1 · Z (t− 1) + εt (2.9)
En el caso multivariable donde hay múltiples observaciones para cada paso de tiempo, podemos considerar un modelo auto-regresivo multivariante o un vector auto-regresivo (VAR). Considere M series temporales generadas a partir de M variables, un modelo VAR (p) se define por la siguiente ecuación:
Z (t) =
Donde Z (t) = [ Z(1) (t) , Z(2) (t) , . . . , Z(M) (t)
]T , es un vector columna M-dimensional de serie temporal con
índice t. Cada Ak, es una matriz M-por-M de parámetros donde φki,j , es el elemento en la posición (i, j) en la
matriz Ak, y εt = [ ε (1) t , . . . ε
(M) t
...
(2.11)
2.3.2. Modelo de Medias Móviles(MA) Supongamos que {εt} es un proceso puramente aleatorio con una media de cero y una varianza σ2, entonces
se dice que un proceso {Z (t)}, es un proceso de media móvil de orden q denotado MA(q), si Z (t), puede ser expresado por:
Z (t) = εt + θ1 · εt−1 + θ2 · εt−2 + . . .+ θq · εt−q (2.12)
Donde θ1, θ2, . . . θq, son parámetros del modelo (Casella und Berger, 2002). La media móvil también describe un método en el que la siguiente muestra depende de la suma ponderada
de las entradas pasadas o presentes de una serie temporal exógena {X (t)}, de N dimensiones descritas en la ecuación2.13.
Z (t) = θ0 ·X (t) + θ1 ·X (t− 1) + θ2 ·X (t− 2) + . . .+ θq ·X (t− q) (2.13)
Similar al modelo AR(p), en el caso de series temporales múltiples, un modelo multivariado de MA(q) de dimensión M puede escribirse como:
Z (t) =
Bk ·X (t− k) (2.14)
Donde Xt es una serie de tiempo exógena N-dimensional y Bk, es una M-por-N matriz de parámetros.
2.3.3. Modelo Autorregresivo de Media Móvil ARMA(p,q) El modelo ARMA es uno de los más utilizados ya que combina las ventajas de los modelos AR(p) auto-
regresivo y MA(q). El modelo ARMA fue originalmente propuesto en 1951 por Peter Whittle en su tesis "Hy- pothesis testing in time series analysis" y fue adaptado por George E. P. Box y Gwilym Jenkins en 1971 (BOX, 1970). Un modelo ARMA (p, q) de orden (p, q) se define por:
13
Z (t) = φ1 · Z (t− 1) + . . .+ φp · Z (t− p) + εt + θ1 · εt−1 + . . .+ θq · εt−q (2.15)
Donde Z (t) es la serie original y εt, es una serie de errores aleatorios desconocidos que se supone siguen una distribución de probabilidad normal. La versión multivariable del modelo ARMA se llama auto-regresivo vectorial de media móvil (VARMA) que es dada por:
Z (t) =
Bk ·X (t− k) (2.16)
Donde Z (t) es la salida, Z (t− k) y X (t− k), son respectivamente las variables de salidas pasadas y las variables pasadas de variables exógenas. Ak y Bk, son M-por-M y M-por-N las matrices de parámetros respectivamente.
2.3.4. Modelo Autorregresivo Integrado de Media Móvil(ARIMA) Los modelos definidos anteriormente como AR, MA, y ARMA se utilizan en el análisis de series de tiempo
estacionarias (Campos et al., 2011). En la práctica, la mayoría de las series de tiempo son no estacionarias, por lo que para adaptarse a los modelos estacionarios, es indispensable deshacerse de las fuentes no estacionarias de variación (De Almeida, 2008). Una solución a esto, fue introducida por Box y Jenkins (BOX, 1970), el modelo ARIMA que generalmente supera esta limitación mediante la introducción de un proceso de diferenciación que transforma efectivamente los datos no estacionarios en estacionarios (Conover und Conover, 1980). Esto se hace restando la observación en el periodo actual de la observación anterior. Por ejemplo, una diferenciación de primer orden se realiza reemplazando Z (t) por Z
′ (t) = Z (t)− Z (t− 1). Por lo tanto, el modelo ARIMA se denomina
ARMA "Integrado" debido al modelo estacionario que se ajusta a los datos diferenciados que tienen que sumarse o integrarse para proporcionar un modelo para los datos originales no estacionarios. La forma general del proceso ARIMA(p,d,q) se describe como:
Z ′ (t) = ∇kZ (t) = φ1 · Z
′ (t− 1) + . . .+ φp · Z
′ (t− p) + εt + θ1 · εt−1 + . . .+ θq · εt−q (2.17)
Donde los parámetros p, d y q son números enteros no negativos que se refieren al orden de la parte autorre- gresiva, el grado de primera diferenciación implicada y el orden de la parte media móvil respectivamente. Esta capacidad para hacer frente al proceso no estacionario ha convertido el modelo ARIMA en uno de los enfoques más populares y ampliamente utilizados en la predicción de series temporales.
2.3.5. Modelo SARIMA(ARIMA estacional) SARIMA(De Almeida, 2008) es una extensión del modelo ARIMA. Se utiliza cuando los datos presentan
una característica periódica que se debe conocer de antemano. Por ejemplo, el componente estacional que repite todas las observaciones s puede ser mensual S = 12,(12 en 1 año) o trimestral S = 4, (4 en 1 año). El modelo SARIMA se denomina normalmente ARIMA (p, d, q)X(P,D,Q)s, donde P = número de términos estacionales autorregresivos (SAR), D = número de diferencias estacionales, Q = número de términos de media móvil estacional (SMA).
En general la metodología para el ajuste de modelos estocásticos de la familia ARIMA a series temporales, sugerida por BOX & Jenkis, puede ser extendida para otros modelos como los de la familia PAR(p). Esta metodología esta compuesta por 3 etapas:
Identificación del modelo: Escoger el orden del modelo, en el modelo autorregresivo consiste en determinar el vector p.
Estimación del modelo: Obtener estimativas para los parámetros del modelo.
Verificación del modelo: Verificar mediante test estadísticos si el modelo seleccionado es adecuado. Si es capaz de generar ruidos blancos después de la aplicación del filtro auto-regresivo.
Si el modelo estimado se considera adecuado, esto significa que es capaz de generar series sintéticas, igualmente probables a la serie histórica (Maceira, 2005.).
14
Verdadero Correcto Error Tipo I, Falso Positivo
Falso Error Tipo II, Falso Negativo Correcto
Cuadro 2.1: Resultados de un Test de hipótesis, los dos errores que pueden ser cometidos al realizar un Test de hipótesis son: Rechazar la hipótesis H0, cuando tal hipótesis es verdadera(error tipo I), No rechazar la hipótesis H0, cuando tal hipótesis es falsa(error tipo II).
2.4. Test de Hipótesis Esta hipótesis estadística corresponde a una suposición que se hace en relación con un valor de un parámetro
poblacional o una afirmación dada sobre la naturaleza de la población (Campos et al., 2011). En la prueba se consideran dos hipótesis:
H0: Hipótesis Nula - es la hipótesis a ser probada.
Ha: Hipótesis Alternativa - es la hipótesis que rechaza H0.
La realización de la prueba consiste en aceptar una de las hipótesis. Los posibles resultados de una prueba de hipótesis son:
Una parte importante de la prueba de hipótesis es controlar la probabilidad de cometer los errores:
α = p (rechazarH0 | H0 es verdadero)− probabilidad de error tipo I
β = p (no rechazarH0 | H0 es falso)− probabilidad de error tipo II
Una situación ideal es aquella donde ambas probabilidades α y β son próximas a cero, entre tanto, a medida que disminuye α, la probabilidad de β tiende a aumentar.
Se da el nombre de nivel de significación del test, a la probabilidad α del error del tipo I. Por convención, se acostumbra utilizar un nivel de significación del 5 % ó 1 %, pero cualquier valor entre 0 y 1 puede ser utilizado. Normalmente, los métodos emplean un Test estadístico de prueba y una distribución de muestreo. El Test puede ser una media, una proporción, diferencia entre las medias, z-score, entre otros, calculada a partir de los datos de la muestra. La elección de Test depende del modelo de probabilidad elegido y de las hipótesis de la prueba. Si la probabilidad estadística del Test es inferior al nivel de significación α, la hipótesis nula H0 es rechazada. Se calcula también la probabilidad de obtener un test estadístico, como mínimo tan significativo en cuanto a lo que fue efectivamente observado en la muestra, suponiendo que la hipótesis nula es verdadera. A esta probabilidad se le da el nombre de p-valor. La interpretación directa es que si el p-valor es inferior al nivel de significación exigido, entonces se dice que la hipótesis nula es rechazada al nivel de significación determinado.
2.4.1. Pruebas de bondad de Ajuste(adherencia) Las pruebas de ajuste son instrumentos de la matemática estadística (corresponden a una clase de Test de
hipótesis) para determinar si una muestra se adhiere o no a un determinado modelo distributivo, es decir, para saber cuál es el modelo que describe el comportamiento probabilístico de la muestra dada(Montgomery und Runger, 1971).
A continuación se presentan las pruebas de bondad de ajuste elegidas para ser utilizadas en ese trabajo. Estas pruebas son muy utilizadas en la comparación de muestras y sus modelos distributivos, que serán útiles para validar nuestro modelo.
2.4.1.1. Test t
Para saber si una muestra es diferente de otra, se debe comparar varianzas y medias de las muestras. estas deben ser estadísticamente iguales, no se deben diferenciar significativamente. La comparación directa de las
15
muestras no es adecuada, pues es necesario considerar la dispersión de estas medidas(Casella und Berger, 2002). Por lo tanto, es preciso establecer si existe desvío significativo entre las varianzas y medias de las dos muestras.
Dada dos muestras X1 y X2, la primera con n1 y la segunda con n2 observaciones, el test trabaja con las siguientes hipótesis:
H0 : X1 −X2 = 0
Ha : X1 −X2 6= 0
Donde, X1es la media de la muestra X1 y X2 la media de la muestra. Considerando s21 y s22, como las varianzas de las muestras X1 y X2, el parámetro t es determinado por la ecuación 2.18.
t =
(2.18)
Para el uso del test de significación, la distribución de la estadística del test es aproximada por una distribución t-Student(Campos et al., 2011).
El análisis de este test puede basarse en el p-valor, que impide rechazar H0 en el caso que su valor este encima del nivel de significación α (probabilidad de cometer el error de tipo I).
2.4.1.2. Test de Levene
Este test verifica la homogeneidad de varianzas(Conover und Conover, 1980). Sean consideradas K ≥ 2 muestras aleatorias independientes entre si. La muestra i representa una colección de nivariables aleatorias independientes e idénticamente distribuidas, con distribución Gi, media µi y varianza σ2
i , siendo Gi, µi, σ 2 i
desconocidos. El test trabaja con las hipótesis:
H0 : σi = ... = σk
Ha : σq 6= σr, para algun q 6= r, q = 1, ..., k y r = 1, ..., k
La ecuación 2.19 presenta los desvíos absolutos de las variables Xi,j con relación a la media muestral del grupo Xi, denotado por Xi:
Xi =
∑ni
Zi,,j =| Xi,j −Xi | (2.19)
con j = 1, ..., ni e i = 1, ..., k. La estadística del test de levene es denotado por W0 y es calculada por la ecuación 2.20.
W0 =
n =
RMSE Raíz del Error Medio Cuadrático = √ MSE
MAPE Error Porcentual Absoluto Medio = media (|pt|)
Cuadro 2.2: Los estimadores de precisión utilizados con frecuencia de acuerdo a (Gooijer und Hyndman, 2006). No pueden ser usadas para hacer comparaciones entre series que están en diferentes escalas.
El test de Levene rechaza la hipótesis Hosi la estadística del test Wo es mayor que el cuartil de orden 1-α de la distribución F(k−1,n−k), siendo α la probabilidad de cometer un error de tipo I.
2.4.2. Estimadores de Primer Orden Además de los Test de hipótesis estadísticos a menudo los modelo de predicción necesitan de los llamados
estimadores de primer orden, para esto los datos se dividen en dos conjuntos (Hyndman und Athanasopoulos, 2013). El primer conjunto sirve para estimar los parámetros del modelo. El segundo conjunto, se denomina conjunto de pruebas que contiene datos no vistos por el modelo utilizados para estimar las predicciones usando los parámetros antes calculados.
El conjunto de pruebas sirven para validar el modelo en datos que no estaban disponibles cuando se calcularon los parámetros por primera vez. A partir de esto, podemos ver el desempeño cuando el modelo realiza pronóstico de otros datos para los cuales sabemos el resultado real con el fin de comparar estos con el resultado previsto.
A continuación se presentan los estimadores de precisión de pronóstico que serán útiles para validar el modelo de esta tesis.
Las medidas más utilizadas son el Error Medio Cuadrático (MSE), el Error Medio Absoluto (MAE), Raíz del Error Medio Cuadrático (RMSE) y Error Porcentual Absoluto Medio (MAPE). En la Tabla 2.21 (Gooijer und Hyndman, 2006) se presenta una lista de las medidas de exactitud de uso común.
Todas las métricas anteriores pueden ser usadas sobre series temporales de distinta naturaleza, pero, en este trabajo necesitamos también evaluar el poder de predicción de un modelo hidrológico, para esto, decidimos utilizar el índice de eficiencia de Nash-Sutcliffe, ampliamente usado en el campo de la hidrología(Xu, 2002). Esta medida es definida como:
E = 1− ∑n t=1 (yt − yt)2∑n t=1 (yt − yt)
2 (2.21)
Donde, ytes la media de las observaciones, e yt, es el valor producido por el modelo, yt, es el valor real observado en el tiempo t.
La eficiencia de Nash-Sutcliffe puede variar de −∞ a 1. Una eficiencia de 1 (E = 1) corresponde a una correspondencia perfecta modelada con los datos observados. Una eficiencia de 0 (E = 0) indica que las predicciones del modelo son tan precisas como la media de los datos observados, mientras que una eficiencia menor que cero (E < 0) ocurre cuando la media observada es un mejor predictor que el modelo ó en otras palabras, cuando la varianza residual (descrita por el numerador en la expresión anterior) es mayor que la varianza de datos (descrita por el denominador). Esencialmente, cuanto más cerca la eficiencia del modelo es 1, más preciso es el modelo. Este método se puede utilizar para describir la precisión predictiva de otros modelos. Por ejemplo, la eficiencia de Nash-Sutcliffe ha sido reportada en la literatura para modelos de simulaciones de descarga, y simulación de los constituyentes de la calidad del agua como sedimento, nitrógeno y carga de fósforo(Moriasi et al., 2007).
1El error de predicción es definido como et = yt − yt, y pt = ∑n
t=1 |yt − yt/yt| · 100
17
Efectores Respuesta
Figura 2.2: El sistema nervioso humano donde los receptores recogen información del medio ambiente(los fotones en la retina). Seguidamente, los efectores generan interacciones con el medio ambiente(activar los músculos).
2.5. Modelos De Aprendizaje De Maquina
2.5.1. Redes Neuronales Según Haykin en (Campos et al., 2011), son modelos computacionales no-lineales, inspirados en la estructura
paralela del cerebro humano. Desde un punto de vista práctico, son sólo un sistema paralelo computacional que consiste en muchos elementos de procesamiento conectados entre sí de una manera específica con el fin de realizar una tarea particular(Vasighi, 2016). A continuación se describen conceptos que vale la pena diferenciar:
Las Redes Neuronales(NNs), son redes de neuronas, por ejemplo, como los encontrados en los cerebros reales.
Las Neuronas Artificiales, son aproximaciones en bruto de las neuronas encontradas en el cerebro. Pueden ser dispositivos físicos, o construcciones puramente matemáticas.
Las Redes Neuronales Artificiales(RNAs), son redes de neuronas y, por lo tanto, constituyen aproximaciones a algunas partes del cerebro. Pueden ser dispositivos físicos, o simulados en ordenadores.
Inspiración Biológica
El sistema nervioso humano se puede dividir en tres etapas que pueden representarse en forma de diagrama de bloques como en la Figura 2.2.
Naturalmente, en este trabajo nos ocuparemos principalmente de la red neuronal que se encuentra en el medio del diagrama (Figura 2.2).
El cerebro contiene estructuras anatómicas a gran y pequeña escala y diferentes funciones que tienen lugar en niveles superiores e inferiores. Hay una jerarquía de niveles de organización:
1. Moléculas e Iones
8. Sistema nervioso central
Las RNAs que estudiamos son aproximaciones de los niveles 5 y 6. Las neuronas artificiales están inspirados en las neuronas biológicas, cuyo esquemas es representado de manera simplificada en la Figura 2.3. Como se puede observar, una neurona biológica está formada por: un cuerpo celular o soma que contiene el núcleo de la célula; diversas dendritas, a través de las cuales se reciben los impulsos eléctricos; y un axón, a través del cual se envían esos impulsos eléctricos. Las interconexiones entre neuronas se efectúan a través de sinapsis, puntos de contacto (controlados por impulsos eléctricos y por reacciones químicas debidas a las sustancias llamadas neurotransmisores) entre dendritas y axones, formando una red de transmisión de información (Campos et al., 2011).
18
Sinapsis
axón
SalidaEntradas
Figura 2.4: Esquema básico de una Neurona Artificial
Se considera que el aprendizaje ocurre justamente en las sinapsis, en las conexiones axón-sinapsis-dendritas, donde ocurre la traducción de la señal que pasa por el axón de una neurona y que puede excitar (o inhibir) la neurona siguiente. El cerebro humano posee cerca de 1011 neuronas y el número de sinapsis y es de más de 1014, posibilitando la formación de interconexiones muy complejas que permiten un procesamiento altamente paralelo.
La Figura 2.4 presenta una neurona artificial que tiene un conjunto de entradas representadas por, x1, x2, . . . , xm−1, xm, que simulan las dendritas, y una salida yi, que simula el axón. Las entradas a la neura son ponderadas por los pesos sinápticos representados por wi1, wi2, wi3, . . . , wim−1, wim, que son sumadas por
∑ (que simula el cuerpo
celular), la unidad de bias, es representado por θi, que es un termino de polarización cuyo valor siempre es 1, su objetivo es aumentar o disminuir la influencia del valor de la combinación linear de las entradas(Campos et al., 2011). La salida de la neurona se obtiene aplicando una función de activación, representada por , como se puede ver en la ecuación 2.22.
yi = (Neti) =
(2.22)
La función de activación es utilizada para limitar la amplitud de salida de una neurona, y algunas veces introducir no linealidad al modelo. Son cuatro tipos de funciones de activación que son muy utilizadas en RNA (para mas detalle vea (Barron, 1993)).
Tres características básicas identifican a los diversos tipos de RNAs(Campos et al., 2011):
1. La función de activación de la Neurona Artificial.
2. La topología de la red neural(interconexión entre neuronas)
3. Regla de aprendizaje.
Básicamente existen dos tipos de topologías de RNAs que son ampliamente usados en la literatura:
19
Capa oculta
Figura 2.5: Red Neuronal Feedforward, donde la primera capa recibe sus entradas del entorno, se activa y su salida sirve como entrada para la siguiente capa. Este proceso se repite hasta alcanzar la capa final (capa de salida).
Figura 2.6: Red Neuronal Recurrente(RNAR), este tipo de redes resultan ser muy eficientes en las tareas de predicción de secuencia, aunque no pueden recordar la información relevante para muchos pasos en el pasado.
Redes Neuronales No Recurrentes(sin memoria o Feedforward):
Son aquellas redes sin conexiones entre neuronas de una misma capa, no presentan realimentación de sus salidas para sus entradas. La Figura 2.5, ilustra una red feedforward. Donde la red posee un conjunto de nodos de entrada, que solamente distribuyen los patrones de entrada para la red; una o varias capas intermedias ocultas, cuyas salidas son las entradas de la capa de neuronas siguientes; y una capa de salida con neuronas que procesan el resultado final de la red.
Redes Neuronales Recurrentes:
Son aquellas redes que contienen conexiones de realimentación. En su estructura las redes neuronales recurrentes pueden presentar interconexiones entre neuronas de la misma capa y entre neuronas de capas no consecutivasAwchi und Srivastava (2004). Como se puede ver en la Figura 2.6, su arquitectura presenta interconexiones mas complejas que las redes feedforward.
Determinar la arquitectura(número de: neuronas, capas; tipo de activación) de una RNA es una elección decisiva para obtener un aprendizaje ideal, esto depende de la necesidad y la tarea a cumplir en su aplica- ción(Sutskever, 2013a). Un punto crucial es el numero de neuronas por capa, aunque un mayor número pueda ser beneficioso, esto puede llevar a problemas de overffiting(Hallac et al., 2017). Por otra parte, un número muy pequeño de neuronas puede no ser suficiente para modelar el problema adecuadamente. Por lo tanto para que una red neuronal tenga un buen desempeño, ella debe ser lo suficientemente grande para aprender el problema pero también lo bastante pequeña para generalizar bien(Campos et al., 2011).
Una red neuronal necesita pasar por un proceso de entrenamiento, esto con el fin de producir una salida consistente. El entrenamiento de una RNA básicamente es un algoritmo que ajusta los pesos sinápticos wi1, wi2, . . . wim, de forma que estos pesos almacenen conocimiento.
Los procedimientos de entrenamiento pueden ser clasificados en 3 tipos(da Silva et al., 2017):
20
Entrenamiento Supervisado:
Los patrones de entrada contienen salidas deseadas, durante este proceso las entradas son presentadas a la RNA y el valor de salida que generan es comparado con la salida deseada respectiva, generando así señales de error(diferencia entre las dos salidas). El algoritmo de entrenamiento ajusta los pesos sinápticos con el objetivo de minimizar ese error. Este proceso es repetido hasta obtener un error con valor mínimo aceptable.
Entrenamiento No Supervisado:
Los patrones de entrada no contienen salidas deseadas, no existe señales de error, este proceso extrae las propiedades estadísticas del conjunto de patrones de entrada, formando finalmente agrupaciones con patrones similares.
Entrenamiento Reforzado:
Los métodos basados en el aprendizaje de refuerzo se consideran una variación de las técnicas de aprendizaje supervisado, ya que analizan continuamente la diferencia entre la respuesta producida por la red y la salida deseada correspondiente. Los algoritmos de aprendizaje utilizados en el aprendizaje de refuerzo ajustan los pesos neuronales internos basándose en cualquier información cualitativa o cuantitativa adquirida a través de la interacción con el sistema (entorno) que se mapea.
El proceso de aprendizaje de una red suele hacerse por ensayo y error, debido a que la única respuesta disponible para una entrada dada es si, este fue satisfactorio o insatisfactorio. Si es satisfactorio, los pesos y umbrales sinápticos se incrementan gradualmente para reforzar (recompensar) esta condición de comportamiento involucrada con el sistema. Varios algoritmos de aprendizaje utilizados por el aprendizaje de refuerzo se basan en métodos estocásticos que seleccionan probabilísticamente las acciones de ajuste, considerando un conjunto finito de posibles soluciones que pueden ser recompensadas si tienen posibilidades de resultados satisfactorios. Esta estrategia de ajuste tiene algunas similitudes con algunas técnicas de programación dinámica (da Silva et al., 2017).
Después del entrenamiento de la red neuronal, es presentada a la misma un conjunto de patrones que nunca fueron presentadas a la red, si el aprendizaje fue bien realizado, la RNA tiene que ser capaz generar una salida correcta para esos patrones de Test. Por lo tanto se dice que una red neuronal tiene una buena capacidad de generalización cuando permite hacer un mapeo entrada-salida correcto.
El desempeño de entrenamiento de una RNA también depende de la cantidad de datos disponibles para el entrenamiento, por lo que una cantidad pequeña de datos puede comprometer su desempeño.
2.5.2. Redes Neuronales Recurrentes La topología de red utilizada en este trabajo es Recurrente. Las redes neuronales recurrentes(RNARs) son una
subclase de RNAs caracterizada por presentar grafos cíclicos en su estructura. Estos ciclos acumulan actividades previas y permiten que la red almacene estados internos. Estos estados evitan la necesidad de alimentar la red con el historial de entradas y salidas anteriores como la Red Neuronal con Retardo de Tiempo (Kuna, 2015). Y puede utilizar las secuencias de entrada para realizar tareas temporales como previsión. La salida de una RNAR se puede describir mediante:
Outputt+1 ∼= Pronostico (RNNstate, Inputt, Outputt)
La figura 2.7 b) y a) muestran los dos tipos de modelos recurrentes tradicionales de RNA, la red recurrente Elman (Elman, 1990) y la red completamente recurrente Willians-Zipser (Williams und Zipser, 1989). Estas redes neuronales tienen conexiones cíclicas en su estructura. Por ejemplo, la red Elman conecta su entrada a todas las neuronas, incluyendo las de salida, las neuronas ocultas y de salida están completamente interconectadas.
2.5.3. Entrenamiento de una Red Neuronal Recurrente Un método de entrenamiento ampliamente usado es el algoritmo estándar de Backpropagation(BP) (Ru-
melhart et al., 1986). La retropropagación es un método para calcular el gradiente de la función de error con respecto a los pesos de la red W . Esta técnica se aproxima al mínimo local cambiando estos pesos a lo largo de
21
Ent r adas
Sal i da
a) b)
Figura 2.7: (b) Red Neuronal Artificial Recurrente de Elman . a) Red Neuronal Artificial Recurrente totalmente conectada de William-zipser.
la dirección del gradiente de error negativo. La función objetivo E(W ) se calcula después de que BP aplique una actualización a los pesos en la red:
4ωji = −η ∂E ∂ωji
(2.23)
Donde η es un valor positivo constante llamado tasa de aprendizaje. La velocidad de movimiento β se puede agregar al cambio de peso actual, esto a menudo acelera el proceso de aprendizaje (Sutskever, 2013a):
4ω ′
∂ωji (2.24)
El ajuste de pesos se puede realizar en modo online o en base al error medio sobre todos los datos de entrenamiento (que se denomina modo bach). Además, se han encontrado alternativas más sofisticadas al algoritmo BP, como el método Levenberg-Marquardt(LM), para encontrar un algoritmo de convergencia más rápido (de Vos und Rientjes, 2005). En este algoritmo la actualización de pesos se obtiene mediante la siguiente ecuación:
ω = − [H + µI] −1 JT ρ (2.25)
Donde µ es una tasa de aprendizaje, J la matriz jacobiana, que es la primera derivada del error de red con respecto a los pesos y bias, y ρ es un vector de errores de red. Finalmente, H es una aproximación de la matriz Hessiana.
En la práctica el algoritmo BP estándar no es adecuado para redes con ciclos en su estructura. Sin embargo, podemos aplicar algunos artificios y ver una RNAR como una red feedforward, desplegándola en el tiempo como se muestra en la Figura 2.8. La RNAR se interpreta como una red en capas que mantiene los mismos pesos a reutilizar, asumimos el retardo de tiempo de 1 en cada conexión para crear una red feedforward equivalente (Williams und Peng, 1990).
Esta extensión del método BP se llama Backpropagation Through Time(BPTT). En BPTT el número de copias de la red es igual al paso de tiempo T . Este método no sería práctico en el entrenamiento online ya que la memoria crece linealmente con el tiempo. Por lo tanto, el despliegue de la red se limita a una profundidad de truncamiento elegida para mantener el método factible (de Vos, 2013).
En la literatura se desarrollaron métodos más sofisticados para superar las limitaciones de BPTT, por ejemplo Real-Time Recurrent Learning(CW-RNAR), que divide la capa oculta en M módulos ejecutándose en diferentes tiempos (Kuna, 2015), el método extendido de filtro de Kalman (EKF), que estima pesos óptimos, cada vez dada una serie de resultados observados, para más detalles ver (Sum et al., 1998). Sin embargo, estos métodos sufren deficiencias relacionadas con la complejidad de modelado y optimización(gradiente) (Lukoševiius und Jaeger, 2009). Esto significa que muchas actualizaciones pueden ser necesarias y podría ser costoso desde el punto de vista computacional, la información del gradiente puede llegar a ser inútil por el procedimiento de actualizaciones de pesos (Doya, 1992).
22
Tiempo
Figura 2.8: .La Red Neural Recurrente se desplegó en el tiempo, las unidades ocultas agrupadas en el tiempo T reciben entradas de otras neuronas de tiempo anteriores(T − 1, T − 2, . . . T ).
Recientemente, con el fin de abordar las dificultades para entrenar redes RNAR, un modelo de cálculo de ”reservorio” fue introducido por Jaeger en (Lukoševiius und Jaeger, 2009) denominado Echo State Network(ESN). Básicamente ESN es una forma inteligente de entrenar a una RNAR donde, un "reservorio" de unidades ocultas están escasamente(esparsa) conectados entre sí y las entradas están conectadas a este ”reservorio”, los pesos internos no se actualizan en todo el proceso de aprendizaje, estos se inicializan al azar.
En la siguiente sección abordaremos y comprenderemos el paradigma de Reservoir Computing al cual pertenece el modelo ESN, describiendo como logra manejar la complejidad de entrenar redes RNAR.
2.6. Reservoir Computing y Redes Echo State
El aprendizaje de máquina fue dominado en buena parte de su historia por los modelos feedforward y las redes bayesianas. Sin embargo, cuando se trata de una dinámica temporal intrínseca, es necesario realizar una adaptación, una simplificación o una elección de modelo específico de modo que el tiempo se represente de alguna manera esos modelos no-temporales. Algunos enfoques temporales de las redes neuronales incluyen: redes neuronales con retrasos(Waibel et al., 1990) y redes neuronales recurrentes(RNAR)(Millea, 2014)(entre las que también se incluyen las redes con memoria a largo plazo(LSTM) (Hochreiter und Schmidhuber, 1997)).
En general los más poderosos han demostrado ser las redes neuronales recurrentes(RNAR), aún cuando posean un tipo de problema diferente, a saber, como su enfoque de aprendizaje. Hasta hace poco, el entrenamiento de RNAR se realizaba mediante retro-propagación(BPTT). Sin embargo, además del hecho de que este proceso es muy lento, no siempre garantiza una buena solución, debido al problema de la desaparición del gradiente (Vanishing gradient problem)(Hammer und Steil, 2002). Un enfoque relativamente nuevo para entrenar redes neuronales recurrentes es el enfoque de Reservoir Computing(Millea, 2014).
2.6.1. Reservoir Computing(RC)
Reservoir Computing(RC) es un framework novedoso para diseñar y entrenar redes neuronales recurrentes(Lukoševiius und Jaeger, 2009). Su arquitectura y diseño relativamente simple, hace que esta clase de redes neuronales sea particularmente atractiva en comparación con otros tipos de redes, especialmente teniendo en cuenta la fase de entrenamiento que casi siempre consiste en algún enfoque lineal, como regresión lineal, matriz pseudo inversa u otros métodos simples. Se utiliza una metodología de ensayo y error para encontrar una buena red que se inicializa de manera aleatoria, para una serie temporal o conjunto de datos específicos. En general, estas redes y las máquinas de estado líquido o Liquid State Machines(Maass et al., 2002) se utilizan para la cla- sificación de patrones, la extracción de características dinámicas, la predicción de series de tiempo, etc. (Klampfl und Maass, 2010).
2.6.2. Liquid State Machines(LSM)
Son un tipo de RNAR que forman parte del paradigma de Reservoir Computing, desarrollados por Maass en (Maass et al., 2002). Este es el enfoque computacional de la neurociencia para RC. Liquid State Machines
23
E
Figura 2.9: La arquitectura de red ESN básica utilizada en este trabajo. Las flechas sombreadas indican las conexiones que están entrenadas con el enfoque de "echo state network" (en otros enfoques, todas las conexiones pueden ser entrenadas). Las conexiones internas recurrentes dentro del reservorio(zona gris) permanecen fijas durante todo el proceso de entrenamiento y validación. Fuente:(Jaeger, 2001)
transforma las entradas variables en el tiempo(las series de tiempo) en patrones espacio-temporales. LSM se formuló al principio como una micro-columna cortical y desde entonces, se ha estudiado extensamente tanto en el campo de la Inteligencia Artificial como también en el campo de la Neurociencia Computacional. Este sencillo esquema de aprendizaje se ha combinado muy recientemente con un nuevo y muy interesante enfoque de (aprendizaje por refuerzo) que impulsa el aprendizaje local de las neuronas internas, siendo así cada vez más biológicamente plausible (Legenstein et al., 2008).
2.6.3. Redes Echo State(RNAR-esn)
Como se mencionó anteriormente, la red ESN fue desarrollada por Jaeger en (Jaeger, 2001; Jaeger und Haas, 2004), independiente del modelo LSMs propuesto por Maass. Se podría decir que se trata de un enfoque de RC. La red ESN utiliza neuronas de valor real (normalmente con valores entre -1 y 1). De lo contrario, el procedimiento de entrenamiento sería similar a los LSM.
2.6.4. Dinámica una Red ESN La red ESN es un tipo de red recurrente que tiene un coste computacional muy bajo para la fase de entre-
namiento. Sus pesos internos se fijan aleatoriamente al comienzo del experimento y luego se entrena solamente los pesos de salida (read-out), usando algún tipo de técnica de ajuste lineal (también se puede usar una técnica no lineal que generalmente mejora el rendimiento) de manera que la suma de todas las neuronas, multiplicada cada una por su peso de salida, coincida con el valor de la serie de tiempo deseado. La Figura 2.9 muestra la arquitectura de una red ESN simple.
A primera vista puede parecer sorprendente que una RNAR con conexiones aleatorias pueda ser efectiva, pero los parámetros aleatorios han sido exitosos en varios dominios. Por ejemplo, se han utilizado proyecciones aleatorias en el aprendizaje mecánico y la reducción de la dimensionalidad (Datar et al., 2004), y más recientemente, se ha demostrado que los pesos aleatorios son eficaces para redes neuronales convolucionales en problemas con datos de entrenamiento muy limitados (Jarrett et al., 2009; Saxe et al., 2011). Por lo tanto, no debería sorprender que las conexiones al azar sean efectivas al menos en algunas situaciones.
Aunque ESN no resuelve el problema de entrenar RNAR en su totalidad, su funcionamiento impresionante sugiere que una inicialización basada en ESN podría ser acertada. Esto es confirmado por los resultados de (Sutskever, 2013b) en su trabajo de tesis.
Ahora procederemos a dar la descripción formal de la red ESN.
24
Figura 2.10: A) Los métodos tradicionales de entrenamiento de RNAR basados en gradientes, estos adaptan todos los pesos de conexión (flechas sombreadas), incluidos los pesos de entrada para el Reservorio, conexiones internas y del Reservorio para salida. B) En el paradigma RC, sólo se adaptan los pesos entre el Reservorio y la salida. Fuente: (Lukoševiius und Jaeger, 2009).
2.6.4.1. Entrenamiento De Una Red ESN
El paradigma RC evita las deficiencias de entrenamiento (gradiente descendente) en RNAR, creando una RNAR aleatoria que permanece sin cambios durante todo el entrenamiento. Esta RNAR se llama ”Reservorio”, que se excita pasivamente por la señal de entrada y mantiene en su estado una transformación no lineal del historial de entrada. La Figura 2.10 contrasta gráficamente los métodos previos de entrenamiento RNAR con el enfoque ESN.
La ecuación principal de ESN, donde no usamos ninguna entrada, sino sólo la realimentación de salida, es:
x(t+ 1) = f(W ·x(t) +W fb·y(t)) (2.26)
O alternativamente, con entradas:
x(t+ 1) = f(W in·u(t) +W ·x(t) +W fb·y(t)) (2.27)
Donde x(t) es el vector que contiene todos los estados del reservorio en el tiempo t, W es la matriz del reservorio, donde cada entrada Wij corresponde a la conexión entre la neurona i y j, W fb es la matriz del vector de realimentación, y(t) es la salida en el tiempo t. En la segunda versión de la ecuación vemos u(t) multiplicada por el vector de entrada W in. Esta ecuación representa la fase inicial de la red, donde la salida realmente funciona como entrada, impulsando la dinámica de la red. La función f se elige generalmente para ser la tangente hiperbólica para las neuronas internas (tanh) y la función de identidad para la neurona de salida. En el algoritmo 2.2 se resume como es realizado el entrenamiento de una red ESN.
Algorithm 2.2 Algoritmo estándar de entrenamiento de una red ESN, los estados se recogen en una matriz M que tiene en cada fila el vector de estado x(t) y en cada columna las neuronas del reservorio. Por lo tanto, M es una matriz de: dimensión de ejemplos(filas) por la dimensión del reservorio(columnas). 1: i← historicalSequencesize 2: j ← reservoirsize 3: M ← array(i, j) . Matriz de estado 4: Forgetpoints← Z . numero de pasos iniciales a descartar 5: while t ≤ ejemplossize do 6: if t ≤ Forgetpoints then 7: continue; 8: else 9: M(t, :)← x(t)
10: end if 11: end while
Cabe mencionar que los estados iniciales de la red se descartan al construir la matriz M con el propósito de limpiar los estados iniciales, que son usualmente [0, 0..,0]Nx
, con Nx = reservoirsize.
2.6.4.2. Aprendizaje De Una Red ESN
La capa de salida lineal de una red ESN se define como:
y (n) = Wout [1;u (n) ;x (n)] (2.28)
Donde, y (n) ∈ RNy , es el vector de salida con dimensión Nyde la red,Wout ∈ RNy×(1+Nu+Nx),es la matriz de pesos de salida y [.; .; .] significa una concatenación de vector vertical (o matriz). Ahora obtener la matriz Wout, cuya i-ésima columna contiene los pesos de salida de todas las unidades de red a la i-ésima unidad de salida. Para esto podemos usar procedimientos de álgebra lineal como la pseudo-inversa o regresion Ridge(Jaeger, 2001).
Moore-Penrose pseudo-inversa
Después de obtener los estados x (t) en todos los intervalos de tiempo, el procedimiento de aprendizaje usual se realiza mediante una operación pseudo-inversa simple:
Wout = pinv(M) ∗ T (2.29)
Donde,Wout, es el vector de pesos de salida, y T , es el vector de valores esperados (Un vector 1×m, donde m es el tamaño de la secuencia de entrenamiento, la secuencia donde se conoce la entrada, pero no se calcula). Por lo tanto, tenemos un conjunto de m ecuaciones con n incógnitas, donde n es el número de neuronas el tamaño y las entradas de Wout son las respectivas ponderaciones de los estados de las neuronas. La Pseudo-inversa, o Pseudo-inversa de Moore-Penrose, es una generalización de una matriz inversa, pero para matrices que no son rectangulares. Sea A una matriz m× n, entonces la inversa de Moore-Penrose es única, denotamos A∗, tiene el tamaño n×m y satisface las cuatro condiciones siguientes:
1. AA ∗A = A
2. A ∗AA∗ = A∗
Regresión Ridge
En este método la ecuación 2.28 se puede escribir en una notación matricial como:
Y = WoutX (2.30)
Donde, Y ∈ RNy×T , es y (n), y X ∈ R(1+Nu+Nx)×T es [1 : u (n) : x (n)], todas estas matrices fueron produ- cidas presentando al reservorio las u (n) entradas, ambas matrices son la concatenación de los vectores columna horizontalmente durante el período de entrenamiento n = 1, . . . , T .
Encontrar los pesos óptimos, que minimizan el error al cuadrado entre y (n) y ytarget (n), equivale a resolver un sistema de ecuaciones lineales típicamente sobre-determinado. El sistema está sobre-determinado, porque típicamente T 1 +Nu +Nx .
Existen maneras estándar bien conocidas de resolver la ecuación 2.30, probablemente la solución más universal y estable para 2.30 en este contexto es la regresión Ridge, también conocida como regresión con regularización de Tikhonov:
Wout = Y targetXT ( XXT + βI
)−1 (2.31)
Donde, β es un coeficiente de regularización , e I es la matriz de identidad. Nosotros mostramos sólo dos de los métodos que pueden ser usados para resolver la ecuación 2.30, aunque
el último no sea muy trivial es preferido de usar. A continuación, se validarán los valores de salida de la red, usando la matriz ajustada Wout.
26
2.6.4.3. Validaciones De Una Red ESN
En esta etapa, la red se ejecuta sobre los datos de prueba, donde los estados de las neuronas en el tiempo t = 0 en la fase de validación son estados de las neuronas en el tiempo t = m en la fase de aprendizaje. La diferencia ahora es que la salida es calculada por la red usando los pesos de Wout, por lo que no se conoce anteriormente estos valores. Las ecuaciones para la fase de validación son:
y(t) = fout ( x (t) ∗W out
) (2.32)
x (t+ 1) = f ( W · x (t) +W fb · y (t)
) (2.33)
Donde, y es la salida después del cálculo pseudo-inverso. Es común usar una función de salida de identidad, sin embargo en la ecuación 2.29, se puede aplicar alguna transformación no lineal, como por ejemplo tanh. También al calcular los pesos de lectura (Wout) podríamos usar una técnica no lineal, como un perceptron, o una SVM, o regresión Ridge, pero discutiremos sobre esto en más detalle más adelante. Finalmente, para evaluar la red ESN, usualmente calculamos el Error Cuadrado Medio Normalizado (NRMSE) que es:
NRMSE =
(2.34)
Donde, σ2 y es la varianza de la salida deseada y, m es la secuencia de validación, y, es la salida esperada, y
es la salida calculada por la red ESN después del proceso de aprendizaje.
2.7. Consideraciones Finales Este capítulo presentó un resumen de los fundamentos teóricos de los modelos utilizados en este trabajo,
con un enfoque al uso de estos sobre series temporales hidrológicas. Primero fueron descritos los conceptos puramente estadísticos, posteriormente fueron descritos métodos de aprendizaje de maquina para pronóstico, dentro de los cuales resaltan las redes neuronales recurrentes y el paradigma reservoir computing como alternativa de entrenamiento de RNARs. El próximo capítulo presenta el estado del arte para el modelo propuesto en esta tesis, que consiste en un proceso de mapeo sistemático sobre la literatura.
27
Estado del Arte
En esta sección presentamos el proceso de mapeo sistemático usado en la planificación de la revisión y la estrategia para investigar, catalogar y clasificar los trabajos recientes relacionados con predicción de series temporales.
3.1. Planificación Y Ejecución De Mapeo Sistemático El enfoque de este mapeo sistemático identifica, cataloga y clasifica los trabajos recientes en la literatura en
el área, con el fin de contribuir sustancialmente en la comprensión de los mismos. Las palabras clave utilizadas como strings de búsqueda fueron los siguientes : "Water Inflow" , " Forecas-
ting " , “echo state network” El método utilizado para la recolección de fuentes primarias incluye la realización de búsquedas en bi-
bliotecas digitales como ACM Digital Library 1, IEEE Xplore Digital 2, SciELO(Scientific Electronic Library Online) 3, DBLP(Computer Science Bibliography)4, BDBComp (Biblioteca Digital Brasileña de Computación) 5, Google Academy( Académicos), Springer 6, Hydrology and Earth System Sciences 7, American Geophysical Union(AGU)8.
Los criterios de inclusión de los estudios se presentan a continuación:
Los estudios deben haber sido publicados en las conferencias, workshops y revistas.
Los estudios deben ser escritos en Inglés, portugués o español.
Los estudios deben estar disponibles en la web.
Los estudios deben tener algunas de las cadenas de búsqueda en su título, resumen/abstract o palabras clave.
Los estudios deben presentar la propuesta de uno o más modelos de predicción.
En base a los criterios mencionados el proceso de búsqueda encontró 50 estudios publicados entre 2005 y 2016. Estos estudios fueron seleccionados para su posterior análisis. Después de leer el resumen y las conclusiones fueron preseleccionados 13 estudios a través de los criterios de inclusión ya mencionados. De los 13 estudios preseleccionados, 6 cumplen con los criterios de calidad previstos en el protocolo de revisión.
En la siguiente sección, se describirán los elementos seleccionados y serán comparados con nuestra propuesta. 1http://dl.acm.org/ 2http://ieeexplore.ieee.org/ 3http://www.scielo.org/ 4http://dblp.uni-trier.de/ 5http://www.lbd.dcc.ufmg.br/bdbcomp/ 6http://www.springer.com/gp/ 7http://www.hydrology-and-earth-system-sciences.net/ 8http://onlinelibrary.wiley.com/
28
3.2. Enfoques Clásicos Actualmente en la literatura existen muchos modelos para la generación y previsión de variables hidrológicas
(caudales, precipitación y evaporación) en una determinada zona. Estas variables son usadas en el planeamiento de los sistemas de gestión de recursos hídricos.
Estos modelos usan las siguientes técnicas:
Regresión lineal simple
Regresión lineal múltiple
Modelos Autorregresivos (AR)
Modelos de Medias Móviles (ARMA)
Modelos de Medias Móviles con variable exógena ARMA y ARMAX con parámetros periódicos
En todos estos modelos, la relación lineal entre las variables hidrológicas relevantes es asumida pero no siempre da los mejores resultados, y en algunos casos es inadecuado(Raman und Sunilkumar, 1995). Muchos estudios emplean los modelos autorregresivos para la generación y previsión de caudales, mostrando de esta forma que los modelos de bajo orden reproducen satisfactoriamente las características analizadas.
Por otro lado, los resultados de los modelos estocásticos pueden mejorar la precisión de la estimación del diseño de la capacidad de los embalses. Un trabajo destacado es el de Peng und Buras (2000), que muestra que no hay evidencia que los modelos AR(1) sean inadecuados.
Estudios iniciales como ((Singh, 1968), THOMAS (1962)) describen secuencias de caudales con modelos matemáticos, los cuales pueden reproducir características especiales como la periodicidad y considerar los efectos de la correlación lineal. La más importante contribución fue hecha por THOMAS (1962).
Todos estos estudios proponen que las series temporales pueden ser simuladas mediante una relación lineal simple de sus valores previos.
3.3. Enfoques De Aprendizaje Automático (Machine learning) El problema con los modelos anteriores es que tareas como predicción son tareas de naturaleza dinámica.
Por esta razón se buscaron alternativas en la literatura como los métodos de Inteligencia artificial, entre ellos destacan las Redes Neuronales Artificiales (RNA) que han ido creciendo como alternativas y presentando un buen desempeño en la predicción de series temporales de variables hidrológicas(Jain und Srinivasulu (2004), de Vos und Rientjes (2008), Campos et al. (2011), Awchi und Srivastava (2004), Sun et al. (2016)). La mayoría de investigaciones que usan RNA’s como modelos de predicción, han prestado mayor atención en las denominadas RNA’s feedforward.
Por otra parte, las RNA’s Recurrentes que se caracterizan por tener conexiones cíclicas en su estructura, permiten un modelado más parsimonioso de propiedades dinámicas (de Vos, 2013), es por esa razón que su capacidad de representación temporal puede ser mejor que el de las RNA’s feedforwad. Sin embargo, la recurrencia presente en su estructura puede ocasionar incremento en la complejidad de entrenamiento y posteriormente ocasionar problemas de convergenci

Tesis profesional - UNSA

Documents

Transcript of Tesis profesional - UNSA