Transcript of Tesis profesional - UNSA
Universidad Nacional De San Agustín de Arequipa Facultad De
Ingeniería De Producción Y Servicios
Ingeniería De Sistemas
Tesis profesional
MODELO ESTOCÁSTICO BASADO EN REDES NEURONALES NO TRADICIONALES
APLICADA A LA GENERACIÓN DE CAUDALES MENSUALES CASO: CUENCA DEL RIO
CHILI,
AREQUIPA
supervisado por: Phd. Jose Alfredo Herrera Quispe
23 de mayo de 2018
A mis padres, José y Dina por su capacidad de creer en mi
Resumen
Las investigaciones en recursos hídricos pueden involucrar la
generación de datos y/o pronóstico no sólo de variables
hidrológicas sino de otras variables derivadas que permitan reducir
pérdidas de tipo económicas y sociales, dimensionando y
escenificando el impacto de una sequía, inundación y principalmente
la demanda poblacional. Por lo tanto, la búsqueda de un diseño
óptimo en un proyecto de gestión del agua frecuentemente involucra
encontrar un método o técnica que genere largas secuencias de las
características de los flujos(caudales) en este caso de un río en
cuestión. Estas secuencias consideradas como series temporales
pueden ser usadas para analizar y optimizar el desempeño del
proyecto diseñado. Con el fin de cubrir esos requerimientos, este
trabajo tiene como objetivo la elaboración de un nuevo modelo de
proceso estocástico para ser aplicado en problemas que envuelven
fenómenos de comportamiento estocástico y de características
periódicas en sus propiedades probabilísticas como media y
varianza. Para esto fueron usados dos componentes, el primero, un
tipo de red neuronal recurrente introducido en la literatura
denominado Echo State Network(ESN), siendo el componente
determinista. Una característica interesante de ESN es que a partir
de ciertas propiedades algebraicas, entrenar solamente la capa de
salida de la red es a menudo suficiente para alcanzar un desempeño
excelente en aplicaciones prácticas. La segunda parte del modelo,
es un componente aleatorio que incorpora al modelo la incertidumbre
asociada a los procesos hidrológicos. El modelo finalmente es
llamado MEESN. Este fue calibrado y validado en series temporales
mensuales de cuatro cuencas hidrográficas de MOPEX, así como en el
ámbito local en series de la cuenca del Chili. El nuevo modelo fue
comparado con modelos presentes en la literatura como el modelo;
PEN, Thomas & Fiering y ANFIS. Los resultados muestran que
MEESN y su versión modificada MEESN+TSM (que considera una variable
exógena) ofrecen una alternativa prometedora para propósitos de
simulación, con potencial interesante en el contexto de los
recursos hidrometeorológicos.
Palabras Clave: Hidrológicas, Caudal, ESN, Optimización,
Determinista, Series Temporales,Redes Neuro- nales, Estocástico,
Sistema Dinámico.
2
BP BackPropagation
MAE Error Medio Absoluto
MEESN Modelo Estocástico ESN
MEESN Modelo Estocástico ESN
MSE Error Medio Cuadrático
RNA Redes Neuronales Artificiales
3
Índice general
Resumen 2
1. Introducción 6 1.1. Definición del problema . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Justificación . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 6 1.3. Objetivos . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 7 1.4. Objetivos Específicos . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . 7
1.4.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 8 1.4.2. Organización de
Capítulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . 8
2. Marco Teórico 10 2.1. Procesos estocásticos . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.1.1. Serie Temporal . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 10 2.1.2. Proceso
Estrictamente Estacionario . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 11 2.1.3. Proceso Débilmente Estacionario . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Ruido Blanco . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 12 2.3. Modelos
Estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . 12
2.3.1. Modelos Auto-Regresivos(AR) . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . 12 2.3.2. Modelo de Medias
Móviles(MA) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . 13 2.3.3. Modelo Autorregresivo de Media Móvil ARMA(p,q) .
. . . . . . . . . . . . . . . . . . . . 13 2.3.4. Modelo
Autorregresivo Integrado de Media Móvil(ARIMA) . . . . . . . . . .
. . . . . . . 14 2.3.5. Modelo SARIMA(ARIMA estacional) . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 14
2.4. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1. Pruebas de
bondad de Ajuste(adherencia) . . . . . . . . . . . . . . . . . . .
. . . . . . . . 15
2.4.1.1. Test t . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . 15 2.4.1.2. Test de Levene . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.4.2. Estimadores de Primer Orden . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . 17 2.5. Modelos De Aprendizaje
De Maquina . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . 18
2.5.1. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 18 2.5.2. Redes Neuronales
Recurrentes . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . 21 2.5.3. Entrenamiento de una Red Neuronal Recurrente .
. . . . . . . . . . . . . . . . . . . . . . 21
2.6. Reservoir Computing y Redes Echo State . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 23 2.6.1. Reservoir
Computing(RC) . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . 23 2.6.2. Liquid State Machines(LSM) . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6.3.
Redes Echo State(RNAR-esn) . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 24 2.6.4. Dinámica una Red ESN . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.6.4.1. Entrenamiento De Una Red ESN . . . . . . . . . . . . . . .
. . . . . . . . . . . . 25 2.6.4.2. Aprendizaje De Una Red ESN . .
. . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.6.4.3.
Validaciones De Una Red ESN . . . . . . . . . . . . . . . . . . . .
. . . . . . . . 27
2.7. Consideraciones Finales . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 27
3. Estado del Arte 28 3.1. Planificación Y Ejecución De Mapeo
Sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4
3.2. Enfoques Clásicos . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 29 3.3. Enfoques De
Aprendizaje Automático (Machine learning) . . . . . . . . . . . . .
. . . . . . . . . 29 3.4. Consideraciones Finales . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
4. Propuesta 31 4.1. Descripción del Modelo MEESN . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.2.
Componente Estocástico . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 32
4.2.1. Proceso de Márkov de primer orden: modelo de Thomas &
Fiering . . . . . . . . . . . . . 32 4.3. Componente Determinista .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . 34
4.3.1. Formalización de los parámetros . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . 35 4.3.2. Parámetros de ESN . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 35
4.3.2.1. Tamaño del reservorio . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 35 4.3.2.2. Radio Espectral . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3.2.3. Conectividad y Topología . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 36 4.3.2.4. Optimización aleatoria . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.4. Generación de Escenarios . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . 37 4.5. Consideraciones
Finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . 37
5. Experimentos 39 5.1. Usando Bases Ortonormales como Matriz de
Conectividad . . . . . . . . . . . . . . . . . . . . . . 39 5.2.
Estimación de parámetros para generar escenarios Hidrológicos . . .
. . . . . . . . . . . . . . . . 42
5.2.1. Pre-procesamiento de datos, entradas y salidas . . . . . . .
. . . . . . . . . . . . . . . . . 42 5.2.2. Datos de prueba . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 42 5.2.3. Configuración de aprendizaje de la red RNAR-echo .
. . . . . . . . . . . . . . . . . . . . . 43
5.3. Generación de escenarios sintéticos . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 45 5.3.1. Caso de
Estudio: MOPEX . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . 45 5.3.2. Análisis de escenarios sintéticos . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.3. Análisis de Adherencia . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 45 5.3.4. Análisis visual . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 47 5.3.5. Caso de Estudio: Cuenca del Rio Chili,
Arequipa . . . . . . . . . . . . . . . . . . . . . . 47 5.3.6.
Caracterización del área de estudio . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 56 5.3.7. Contexto del caso de estudio
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
5.3.7.1. Generador de escenarios . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . 56 5.3.8. Estaciones de Medición . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
5.3.8.1. Estación El Pañe . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . 56 5.3.8.2. Estación el Frayle . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.8.3. Estación Aguada Blanca . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . 57
5.3.9. Experimentos . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 57 5.3.9.1. Análisis de
Adherencia . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . 57
5.3.10. Inspección Visual de los Escenarios . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 57 5.4. Incorporando
información adicional, variable exógena . . . . . . . . . . . . . .
. . . . . . . . . . . 67
5.4.1. Re-formulación del modelo . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . 67 5.5. Experimentos . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . 67
5.5.1. Inspección Visual de los Escenarios . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . 67 5.5.2. Consideraciones
finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . 75
6. Conclusión y trabajos futuros 76 6.0.1. Limitaciones del modelo
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . 77 6.0.2. Trabajos Futuros . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . 77 6.0.3.
Publicaciones Generadas . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . 78
5
Introducción
1.1. Definición del problema Según Autodema 2002; ANA 2013, 2017,
dentro de los problemas identificados en la región de Arequipa
se
encontraron una ineficiente y desintegrada gestión del recurso
hídrico en la Cuenca del Río Chili, generando baja disponibilidad
del recurso. Se atribuyen estos problemas de gestión como causantes
de pérdidas físicas, económicas, sociales y ambientales.
Existen limitaciones por el uso de modelos tradicionales en la
operación de la oferta de agua. Según (Concytec- UNSA, 2012)
podemos definir los siguientes problemas:
La operación y control en el manejo de la oferta del agua.
La operación de embalses con métodos tradicionales.
La Pérdida de agua de riego hasta en un 50% por ineficiencia en uso
y distribución 3.80% de terrenos productivos tiene rendimiento
bajo, debido a una mala distribución del recurso hídrico.
Por lo tanto cada vez es más difícil ignorar la necesidad de
modelos eficientes y efectivos en la generación de esce- narios de
predicción basados en variables hidrológicas. Actualmente se
proponen modelos basados en conceptos de inteligencia artificial
como las Redes Neuronales Artificiales que permiten representar
tareas de naturaleza dinámica (predicción de variables
hidrológicas) con mejor desempeño que los modelos lineales. El tipo
de redes neuronales que presenta un notable desempeño en el área de
hidrología según (Lukoševiius und Jaeger (2009), Coulibaly (2010),
Chang et al. (2002), Chiang et al. (2004)) son las llamadas Redes
Neuronales Recurrentes, que debido a su estructura de conexiones
cíclicas permite un modelado más parsimonioso de propiedades diná-
micas. Sin embargo, la recurrencia presente en su estructura puede
ocasionar incremento en la complejidad de aprendizaje y
posteriormente ocasionar problemas de convergencia(Lukoševiius und
Jaeger, 2009). Debido a lo anterior mencionado, esta investigación
representa un intento de responder a la siguiente pregunta: ¿Puede
ser considerada como alternativa válida un modelo de generación de
escenarios para predicción de variables hidroló- gicas basado en
Redes Neuronales Recurrentes, usando nuevos métodos como ESN para
reducir la complejidad en su construcción?.
1.2. Justificación El desarrollo de modelos de pronóstico de series
temporales para el uso de los estudios hidrológicos, que
sean precisos y fiables sigue siendo una de las tareas más
importantes y difíciles en la hidrología (de Vos, 2013). Problemas
reales como pronóstico presentan características complejas de tipo
no lineal y algunas veces de com- portamiento caótico, a fin de
modelar el comportamiento de este tipo de fenómenos, realizar una
aproximación lineal (BOX, 1970) puede generar un modelo poco
eficiente (Luna et al., 2006).
Estas series hidrológicas mensuales tienen como característica un
comportamiento periódico que se manifiesta en sus propiedades como
la media, varianza, asimetría y estructura de auto-correlación
(THOMAS (1962),
6
MACEIRA (Rio de Janeiro, RJ, 1989.)). Su análisis puede llevarse
acabo mediante el uso de modelos auto- regresivos dentro de los
cuales destaca el modelo PAR(p)(Maceira, 2005.). Sin embargo, estos
modelos son estadísticos y lineales, eso implica que su aplicación
en series hidrológicas (de comportamiento caótico) puede no
capturar sus características reales, y por lo tanto generar
resultados inconsistentes.
Entre las metodologías que intentar modelar problemas complejos no
lineales actualmente, las Redes Neuro- nales Artificiales (RNA)(de
Vos und Rientjes, 2008) destacan como métodos de aprendizaje de
maquina. Aunque muchos investigadores de RNA demostraron el buen
desempeño de estas técnicas. Su comportamiento de ”caja negra”
tiene observaciones planteadas con respecto a su fiabilidad y
validez como modelos hidrológicos(Cunge (2003), de Vos und Rientjes
(2005)).
De hecho, en muchos trabajos sobre modelos de
pronóstico(hidrológico) en la literatura lasRNA’s en especial del
tipo feedforward han sido ampliamente usadas, en contraste con las
RNA’s de tipo Recurrente (de Vos, 2013). Las RNA’s recurrentes son
capaces de representar mapas dinámicos no lineales comúnmente
encontradas en las tareas de pronóstico de series temporales(Sun et
al., 2016). Estudios sobre su desempeño muestran un desempeño
superior que sus similares feedforward(Brezak et al., 2012). Pero,
la principal razón de la preferencia en uso de RNA’s feedforward
sobre RNA’s recurrentes es la recurrencia que ocasiona mayor
complejidad sobre todo en el proceso de aprendizaje de la
RNA.
Lo anterior mencionado motivó en este proyecto la elaboración de un
nuevo modelo de proceso estocástico utilizando Redes Neuronales
Artificiales Recurrentes (RNAR) a fin de aprovechar sus ventajas
sobre las RNA’s feedforward. Para esto, se aplicó un paradigma
típico de RNAR introducido denominado Reservoir Computing
(RC)(Lukoševiius und Jaeger, 2009). RC es un enfoque de aprendizaje
que se perfila como simple y rápido en comparación a otros enfoques
usados en RNAR, todo esto con el fin de reducir su complejidad de
construcción y aprovechar su capacidad comprobada de representar
mejor las características de las series temporales. Además, como
parte de nuestra propuesta se considerará un componente no
determinista que representa un ruido aleatorio con distribución
normal, esto con el fin de tener en cuenta la incertidumbre que
afecta típicamente los procesos hidrológico (Awchi und Srivastava,
2004). En consecuencia, nuestro modelo es una propuesta novedosa en
la literatura.
Finalmente, este modelo puede ser aplicado en la solución de
problemas de la región de Arequipa que invo- lucran fenómenos
climatológicos como caudales, precipitación, temperatura e incluso
de tipo económico como fluctuaciones de precios entre otros.
1.3. Objetivos Proponer un modelo de Proceso Estocástico para la
generación de series temporales hidrológicas mediante
el uso de técnicas de inteligencia artificial relativamente
novedosas, como ESN y un ruido aleatorio basado en la incertidumbre
que afecta típicamente procesos hidrológicos.
1.4. Objetivos Específicos Estudiar los modelos lineales, entre los
cuales destacamos el modelo de Thomas & Fiering (THOMAS,
1962).
Revisar en la literatura los distintos modelos basados en
aprendizaje de maquina como: Redes Neuronales feedforward, Redes
Neuronales Recurrentes, el enfoque de Reservoir Computing y redes
ANFIS.
Aplicar el modelo propuesto en la generación y pronóstico de series
temporales para 2 casos de estudio basados en variables
hidrológicas(Caudales, Precipitación): El primero usando series
temporales de MO- PEX, en 4 cuencas seleccionadas de manera
aleatoria. El segundo, usando series temporales de la cuenca del
Chili, en tres estaciones de medición: el Pañe, Aguada blanca y el
Frayle.
Evaluar el modelo propuesto en comparación con los modelos:
Estocásticos Neuronal(PEN) de (Campos et al., 2011), (THOMAS, 1962)
y ANFIS (Jang, 1993a).
Analizar la media, desviación estándar, asimetría como parámetros
utilizados para evaluar el modelo propuesto y su habilidad para
representar series sintéticas igualmente probables a la población
histórica. A fin de contrastar nuestra propuesta con los modelos en
la literatura anteriormente mencionados.
7
Comprobar si nuestro modelo basado en ESN puede ser considerado
como una alternativa válida a las redes neuronales feedforward y
recurrentes tradicionales.
Establecer las conclusiones, contribuciones, limitaciones, y
trabajo futuro del modelo.
1.4.1. Contribuciones Las principales contribuciones de esta tesis
son:
El desarrollo de un nuevo modelo de proceso estocástico MEESN
basado en redes neuronales recurrentes y un componente aleatorio,
usando técnicas de aprendizaje ESN, como una alternativa válida
capaz de simular series sintéticas igualmente probables a la serie
histórica.
Este nuevo modelo puede ser aplicado para modelar series temporales
que presentan características perió- dicas.
Nuestro modelo aprovecha virtudes de sus dos componentes para
realizar la estimación de un proceso estocástico: en primer lugar,
la capacidad de aprendizaje y generalización mediante ejemplos, por
parte de la RNA Recurrente (componente determinista) y en segundo
lugar, la incertidumbre de un valor aleatorio(componente no
determinista) que afecta típicamente procesos hidrológicos.
El proceso de aprendizaje de una RNAR es realizado usando el
enfoque ESN, donde solamente es necesario ajustar los pesos de
salida para poder capturar el comportamiento de una serie temporal,
los pesos de entrada y del reservorio son establecidos
aleatoriamente. De esa manera se logra reducir el costo
computacional de aprendizaje.
Para entrenar nuestro modelo es necesario solamente la serie
temporal histórica. La única transformación necesaria es una
normalización de esos datos en un intervalo pre-establecido. No es
necesario suponer ningún comportamiento de la serie histórica para
utilizarlo en nuestro modelo. Todo el comportamiento de la serie es
capturado por las RNA Recurrentes en sus estados internos. Esta
característica permite a nuestro modelo descartar el uso de
técnicas de «ventana» y términos auto regresivos.
1.4.2. Organización de Capítulos Este trabajo esta organizado de la
siguiente forma: En el Capítulo 2, se presenta un breve resumen
sobre conceptos fundamentales del modelo propuesto en
esta tesis, como son; la teoría de procesos estocásticos, redes
neuronales artificiales, recurrentes y enfoques de aprendizaje (se
destaca ESN). Además, se presenta una breve descripción sobre
métodos de muestra aleatoria y los test de hipótesis utilizados en
la validación del desempeño de nuestro modelo.
En el Capítulo 3, Se utiliza el método estándar de revisión
sistemática de literatura (RSL) basada en las directrices
originales propuestas por Kitchenham (2004). Se emplea una búsqueda
manual de revistas y publicaciones en congresos que cumplen los
criterios de exclusión e inclusión establecidos en el protocolo de
revisión.
En el Capítulo 4, se describe detalladamente los 2 componentes
principales del modelado completo del nuevo proceso estocástico
MEESN, con el fin de procesar series temporales hidrológicas
mensuales. El ajuste del modelo consiste en: estimar sus
parámetros, configuración de la red neuronal recurrente ESN
(RNAR-esn), mediante métodos de optimización aleatoria. El objetivo
principal es generar escenarios sintéticos en el contexto de una
arquitectura para la planificación de Recursos Hídricos, vinculada
a un sistema de soporte de decisiones, con miras a la planificación
a medio plazo que permitirán proyectar posibles escenarios de
condiciones climáticas y de demanda de agua.
En el Capítulo 5, se muestran los resultados obtenidos en cada caso
de estudio en este trabajo. Primero, se presenta la validación
(test de adherencia, RMSE, NRMSE, CE, MAD) de los escenarios
generados por nuestro modelo comparado con los escenarios generados
por los modelos presentes en la literatura como PEN (Campos et al.,
2011), (THOMAS, 1962) y ANFIS (Jang, 1993a), para tratar series
temporales mensuales de MOPEX en 4 cuencas elegidas aleatoriamente.
En segundo lugar, se evalúa la propuesta en la generación
escenarios de variables hidrológicas (caudales, precipitación) en
la cuenca del Chili-Arequipa, en tres estaciones de medición(el
Pañe, Aguada blanca y el Frayle, en periodos mensuales), siguiendo
el mismo procedimiento de validación.
8
El Capítulo 6, finaliza este trabajo presentando las conclusiones
generales y las propuestas de trabajos futuros.
9
Capítulo 2
Marco Teórico
Este capítulo ofrece un resumen de los fundamentos teóricos
necesarios para entender nuestro nuevo modelo. el capítulo inicia
con la Sección 2.1, donde se comenta sobre procesos estocásticos y
sus propiedades. La sección 2.2 presenta el concepto de Ruido
blanco, que es utilizado en la generación de series temporales
sintéticas por parte de nuestro modelo. La sección 2.3 cubre
algunos de los mas conocidos modelos estadísticos para la
predicción de series temporales. En la Sección 2.4 son presentados
algunos Test de hipótesis, utilizados para la validación de la
bondad de ajuste (test de adherencia) de los escenarios generados
por nuestro modelo en comparación con la serie histórica. Se
encuentra en la Sección 2.5 los conceptos principales de Redes
Neuronales, que es considerada la base del modelo de esta tesis.
Para finalizar la Sección 2.6 ofrece los conceptos básicos sobre
reservoir computing y echo state networks, paradigmas que son
usados para entrenar de manera simple e igualmente efectiva una Red
Neuronal Recurrente, que es el componente mas importante en nuestro
modelo.
2.1. Procesos estocásticos Por lo general, se representa un Proceso
Estocástico(PE) como {Z (t) : t ∈ T}, donde t representa el
instante
de tiempo, Z (t) es una variable aleatoria llamada estado del
proceso en el instante t y T es el conjunto de índices denominado
espacio paramétrico de PE.
Por lo tanto, un PE es un modelo matemático caracterizado por una
colección de variables aleatorias orde- nadas, en el tiempo y en el
espacio, y definidas en un conjunto, continuo o discreto, que
describe la evolución de algún fenómeno con características
aleatorias (Muller, 2007).
Si el conjunto T es un intervalo finito o infinito de números
reales, se dice que {Z (t) : t ∈ T} es un proceso continuo. Por
otra parte, si T es un conjunto finito o contable, como por ejemplo
T = {1, 2, 3, . . .}o T = {1, 9, 43, 279}, se dice que PE es un
proceso discreto (Barros, 2009). El espacio de estados de un PE es
el conjunto de todos los posibles valores de variables Z (t), que
también puede ser discreto o continuo. La combinación de los
posibles valores de T y Z (t) conduce a cuatro clases de proceso
estocástico (para mas información véase (Barros, 2009)).
2.1.1. Serie Temporal El concepto de proceso estocástico
proporciona el análisis probabilístico de series temporales. Así,
una serie
temporal puede ser considerada una realización de un PE, esto es,
una posible trayectoria del proceso. Por lo tanto, un PE es un
proceso generador de datos cuya serie temporal es una realización
muestral entre todas las series posibles a ser generadas por este
modelo. Por ejemplo, nosotros podemos considerar el siguiente
proceso estocástico definido como:
Zt = Zt−1 + at (2.1)
) .
Este proceso es conocido como camino aleatorio (vea Figura 2.1).
Con el fin de obtener un modelo adecuado para una serie temporal,
se necesita de una secuencia de estudio
de la misma. Donde dado un PE (fenómeno real) se obtiene una serie
temporal (muestra finita de observaciones
10
Figura 2.1: Proceso estocástico de camino aleatorio, se muestra 200
realizaciones de este proceso.
equidistantes en el tiempo) y a través del análisis de series
temporales (estudio de la muestra) se identifica un modelo cuyo
objetivo es inferir sobre el comportamiento de la realidad. A
partir de la expresión matemática de ese modelo, se pueden obtener
las fórmulas para sus momentos como media, varianza, entre otros.
Por lo tanto, una manera de describir un PE es a través de los
momentos de las variables aleatorias, en especial, la media, la
varianza y autocovarianza del proceso (Barros, 2009). La media y la
varianza de un PE discreto son funciones de instante de tiempo t,
definidas, respectivamente, por las ecuaciones 2.2 y 2.3.
µ (t) = E [Z (t)] (2.2)
σ2 (t) = V ar [Z (t)] = E {
[Z (t)− µ (t)] 2 }
(2.3)
Siendo E [•], el valor esperado y Z (t)el estado del proceso en el
instante t. La autocovarianza de un PE discreto es una función
definida, entre los instantes t1 y t2 por:
γ (t1, t2) = Cov [Z (t1) , Z (t2)] = E {[Z (t1)− µ (t1)] · [Z (t2)−
µ (t2)]} (2.4)
Esto es, la autocovarancia de un PE discreto es sólo la covarianza
entre instantes de tiempo diferentes. Por lo tanto, la varianza del
PE es sólo un caso particular de la autocovariancia, donde t1 =
t2.
Los momentos de orden más alto se pueden definir de manera similar,
pero son poco usados en la práctica. Las definiciones de los
momentos para un PE continuo son análogas a las de un PE
discreto.
Estas características de procesos estocásticos están íntimamente
ligadas a la noción de estacionariedad de un proceso (Barros,
2009). Se dice que un proceso es estacionario si no hay cambios en
sus características, es decir, si es invariante en relación al
tiempo. Según la estacionariedad, un proceso puede clasificarse
en:
2.1.2. Proceso Estrictamente Estacionario Cuando sus estadísticas
no son afectadas por variaciones debido a la selección del origen
del tiempo, osea, la
distribución de probabilidad conjunta no cambia al desplazar el
tiempo o el espacio. De esta forma, la distribución de probabilidad
conjunta P {Z (t1) = z1, Z (t2) = z2, . . . , Z (tn) = zn} es la
misma que P {Z (t1 + k) = z1, Z (t2 + k) = z2, . . . , Z (tn + k) =
zn}, para cualquier ti, k y n. La media y la varianza son
constantes para todo instante de tiempo t ∈ T y la función de
autocovarianza solo depende del desplazamiento ti+k− ti. La media
del proceso esta dada por la ecuación 2.5 y la autocovarianza de
retraso k puede ser escrita como la ecuación 2.6.
µ (t) = E [Z (t)] = E [Z (t+ k)] (2.5)
11
γ (k) = E {[Z (t)− µ] · [Z (t+ k)− µ]} (2.6)
Por lo tanto cuando k = 0, se tiene la varianza constante del
proceso:
σ2 = γ (0) = E {
[Z (t)− µ] 2 }
2.1.3. Proceso Débilmente Estacionario La condición de
estacionariedad es mas débil porque se impone condiciones solamente
sobre los dos primeros
momentos, que no garantizan condiciones sobre la estacionariedad de
la función de probabilidad. Por lo tanto, la media del proceso es
constante y su autocovarianza depende sólo de k = ti+k − ti.
En la práctica, son 3 los tipos de series temporales: aquellas con
propiedades de estacionariedad en periodos largos(estrictamente
estacionarias); las que poseen estacionariedad en periodos
cortos(débilmente estaciona- rias) y finalmente aquellas que no son
estacionarias(sus propiedades están cambiando con el tiempo).
Algunos métodos estadísticos tratan la no-estacionariedad de series
temporales, mediante técnicas que filtran la parte no-estacionaria,
trabajando solamente con la parte estacionaria (Muller,
2007).
Existen algunos procesos estocásticos que son muy usados en la
especificación de modelos para series tem- porales, y son usados en
la construcción de procesos mas complicados, un ejemplo de esos PE
básicos es el ruido blanco o secuencia aleatoria.
2.2. Ruido Blanco Un PE discreto es llamado ruido blanco si es un
proceso puramente aleatorio, es decir, si los Z (t)
constituyen
una secuencia de variables aleatorias independientes e
idénticamente distribuidas. Un ruido blanco tiene la media,
varianza constante y la función de auto-correlación nula en todos
los retrasos
k, es decir son totalmente descorrelacionadas. Presentan
distribución normal de media cero y de desviación 1, Z (t) ∼ N (0,
1).
Los procesos de ruido blanco aparecen en la construcción de otros
procesos mas complejos, como, por ejemplo los modelos de Box y
Jenkins (BOX, 1970). Estos modelos tienen como propósito que los
datos de series de tiempo puedan usarse en pronóstico(tarea a
realizar en esta tesis). Es decir, el uso de las observaciones de
una serie de tiempo disponible en el momento t Para predecir su
valor en el tiempo t+ l; Donde l se denomina horizonte de previsión
o tiempo de avance (Douglas C. Montgomery, 2008). El horizonte de
previsión es el número de etapas de tiempo en el futuro para las
cuales las previsiones deben producirse.
Un método de pronóstico es un procedimiento que calcula Z (t), para
el tiempo t a partir de valores pasados( Z (t− 1) , Z (t− 2) , Z
(t− 3) , . . .). Se han propuesto numerosos algoritmos de
aprendizaje de máquina y esta- dísticos. Los modelos estadísticos
estándar son los más predominantes en la literatura seguida por los
modelos de redes neuronales artificiales de aprendizaje
automático.
2.3. Modelos Estadísticos Esta sección cubre algunos algoritmos
comunes utilizados para la predicción de series temporales en
esta-
dística. El campo de predicción ha sido influenciado, durante mucho
tiempo, por métodos estadísticos lineales tales como el modelo
auto-regresivo (AR), el modelo de media móvil (MA) y los modelos
híbridos que derivan de ellos como ARMA (media móvil
auto-regresiva), ARIMA (Media móvil integrada auto-regresiva) y
SARIMA (ARIMA estacional).
2.3.1. Modelos Auto-Regresivos(AR) En el proceso auto-regresivo,
una variable de salida Z (t), depende linealmente de sus propios
valores ante-
riores (Z (t− 1) , Z (t− 2) , . . . , Z (t− p)), y algún ruido
blanco εt(Casella und Berger, 2002). Por definición, se dice que un
proceso {Z (t)}, es un proceso auto-regresivo de orden p denotado
como AR(p) si Z (t), puede ser descrito por:
12
Z (t) = φ1 · Z (t− 1) + φ2 · Z (t− 2) + . . .+ φp · Z (t− p) + εt
(2.8)
Dónde εt, es el ruido blanco con media cero y varianza finita fija
σ2, y φ1, . . . φp, son los parámetros del modelo. El orden p del
modelo determina el número de observaciones pasadas utilizadas para
predecir el valor actual. El ejemplo más simple de un proceso AR es
el caso de primer orden, denotado como AR(1), dado por:
Z (t) = φ1 · Z (t− 1) + εt (2.9)
En el caso multivariable donde hay múltiples observaciones para
cada paso de tiempo, podemos considerar un modelo auto-regresivo
multivariante o un vector auto-regresivo (VAR). Considere M series
temporales generadas a partir de M variables, un modelo VAR (p) se
define por la siguiente ecuación:
Z (t) =
Donde Z (t) = [ Z(1) (t) , Z(2) (t) , . . . , Z(M) (t)
]T , es un vector columna M-dimensional de serie temporal con
índice t. Cada Ak, es una matriz M-por-M de parámetros donde φki,j
, es el elemento en la posición (i, j) en la
matriz Ak, y εt = [ ε (1) t , . . . ε
(M) t
...
(2.11)
2.3.2. Modelo de Medias Móviles(MA) Supongamos que {εt} es un
proceso puramente aleatorio con una media de cero y una varianza
σ2, entonces
se dice que un proceso {Z (t)}, es un proceso de media móvil de
orden q denotado MA(q), si Z (t), puede ser expresado por:
Z (t) = εt + θ1 · εt−1 + θ2 · εt−2 + . . .+ θq · εt−q (2.12)
Donde θ1, θ2, . . . θq, son parámetros del modelo (Casella und
Berger, 2002). La media móvil también describe un método en el que
la siguiente muestra depende de la suma ponderada
de las entradas pasadas o presentes de una serie temporal exógena
{X (t)}, de N dimensiones descritas en la ecuación2.13.
Z (t) = θ0 ·X (t) + θ1 ·X (t− 1) + θ2 ·X (t− 2) + . . .+ θq ·X (t−
q) (2.13)
Similar al modelo AR(p), en el caso de series temporales múltiples,
un modelo multivariado de MA(q) de dimensión M puede escribirse
como:
Z (t) =
Bk ·X (t− k) (2.14)
Donde Xt es una serie de tiempo exógena N-dimensional y Bk, es una
M-por-N matriz de parámetros.
2.3.3. Modelo Autorregresivo de Media Móvil ARMA(p,q) El modelo
ARMA es uno de los más utilizados ya que combina las ventajas de
los modelos AR(p) auto-
regresivo y MA(q). El modelo ARMA fue originalmente propuesto en
1951 por Peter Whittle en su tesis "Hy- pothesis testing in time
series analysis" y fue adaptado por George E. P. Box y Gwilym
Jenkins en 1971 (BOX, 1970). Un modelo ARMA (p, q) de orden (p, q)
se define por:
13
Z (t) = φ1 · Z (t− 1) + . . .+ φp · Z (t− p) + εt + θ1 · εt−1 + . .
.+ θq · εt−q (2.15)
Donde Z (t) es la serie original y εt, es una serie de errores
aleatorios desconocidos que se supone siguen una distribución de
probabilidad normal. La versión multivariable del modelo ARMA se
llama auto-regresivo vectorial de media móvil (VARMA) que es dada
por:
Z (t) =
Bk ·X (t− k) (2.16)
Donde Z (t) es la salida, Z (t− k) y X (t− k), son respectivamente
las variables de salidas pasadas y las variables pasadas de
variables exógenas. Ak y Bk, son M-por-M y M-por-N las matrices de
parámetros respec- tivamente.
2.3.4. Modelo Autorregresivo Integrado de Media Móvil(ARIMA) Los
modelos definidos anteriormente como AR, MA, y ARMA se utilizan en
el análisis de series de tiempo
estacionarias (Campos et al., 2011). En la práctica, la mayoría de
las series de tiempo son no estacionarias, por lo que para
adaptarse a los modelos estacionarios, es indispensable deshacerse
de las fuentes no estacionarias de variación (De Almeida, 2008).
Una solución a esto, fue introducida por Box y Jenkins (BOX, 1970),
el modelo ARIMA que generalmente supera esta limitación mediante la
introducción de un proceso de diferenciación que transforma
efectivamente los datos no estacionarios en estacionarios (Conover
und Conover, 1980). Esto se hace restando la observación en el
periodo actual de la observación anterior. Por ejemplo, una
diferenciación de primer orden se realiza reemplazando Z (t) por
Z
′ (t) = Z (t)− Z (t− 1). Por lo tanto, el modelo ARIMA se
denomina
ARMA "Integrado" debido al modelo estacionario que se ajusta a los
datos diferenciados que tienen que sumarse o integrarse para
proporcionar un modelo para los datos originales no estacionarios.
La forma general del proceso ARIMA(p,d,q) se describe como:
Z ′ (t) = ∇kZ (t) = φ1 · Z
′ (t− 1) + . . .+ φp · Z
′ (t− p) + εt + θ1 · εt−1 + . . .+ θq · εt−q (2.17)
Donde los parámetros p, d y q son números enteros no negativos que
se refieren al orden de la parte autorre- gresiva, el grado de
primera diferenciación implicada y el orden de la parte media móvil
respectivamente. Esta capacidad para hacer frente al proceso no
estacionario ha convertido el modelo ARIMA en uno de los enfoques
más populares y ampliamente utilizados en la predicción de series
temporales.
2.3.5. Modelo SARIMA(ARIMA estacional) SARIMA(De Almeida, 2008) es
una extensión del modelo ARIMA. Se utiliza cuando los datos
presentan
una característica periódica que se debe conocer de antemano. Por
ejemplo, el componente estacional que repite todas las
observaciones s puede ser mensual S = 12,(12 en 1 año) o trimestral
S = 4, (4 en 1 año). El modelo SARIMA se denomina normalmente ARIMA
(p, d, q)X(P,D,Q)s, donde P = número de términos estacionales
autorregresivos (SAR), D = número de diferencias estacionales, Q =
número de términos de media móvil estacional (SMA).
En general la metodología para el ajuste de modelos estocásticos de
la familia ARIMA a series temporales, sugerida por BOX &
Jenkis, puede ser extendida para otros modelos como los de la
familia PAR(p). Esta metodología esta compuesta por 3 etapas:
Identificación del modelo: Escoger el orden del modelo, en el
modelo autorregresivo consiste en determinar el vector p.
Estimación del modelo: Obtener estimativas para los parámetros del
modelo.
Verificación del modelo: Verificar mediante test estadísticos si el
modelo seleccionado es adecuado. Si es capaz de generar ruidos
blancos después de la aplicación del filtro auto-regresivo.
Si el modelo estimado se considera adecuado, esto significa que es
capaz de generar series sintéticas, igualmente probables a la serie
histórica (Maceira, 2005.).
14
Verdadero Correcto Error Tipo I, Falso Positivo
Falso Error Tipo II, Falso Negativo Correcto
Cuadro 2.1: Resultados de un Test de hipótesis, los dos errores que
pueden ser cometidos al realizar un Test de hipótesis son: Rechazar
la hipótesis H0, cuando tal hipótesis es verdadera(error tipo I),
No rechazar la hipótesis H0, cuando tal hipótesis es falsa(error
tipo II).
2.4. Test de Hipótesis Esta hipótesis estadística corresponde a una
suposición que se hace en relación con un valor de un
parámetro
poblacional o una afirmación dada sobre la naturaleza de la
población (Campos et al., 2011). En la prueba se consideran dos
hipótesis:
H0: Hipótesis Nula - es la hipótesis a ser probada.
Ha: Hipótesis Alternativa - es la hipótesis que rechaza H0.
La realización de la prueba consiste en aceptar una de las
hipótesis. Los posibles resultados de una prueba de hipótesis
son:
Una parte importante de la prueba de hipótesis es controlar la
probabilidad de cometer los errores:
α = p (rechazarH0 | H0 es verdadero)− probabilidad de error tipo
I
β = p (no rechazarH0 | H0 es falso)− probabilidad de error tipo
II
Una situación ideal es aquella donde ambas probabilidades α y β son
próximas a cero, entre tanto, a medida que disminuye α, la
probabilidad de β tiende a aumentar.
Se da el nombre de nivel de significación del test, a la
probabilidad α del error del tipo I. Por convención, se acostumbra
utilizar un nivel de significación del 5 % ó 1 %, pero cualquier
valor entre 0 y 1 puede ser utilizado. Normalmente, los métodos
emplean un Test estadístico de prueba y una distribución de
muestreo. El Test puede ser una media, una proporción, diferencia
entre las medias, z-score, entre otros, calculada a partir de los
datos de la muestra. La elección de Test depende del modelo de
probabilidad elegido y de las hipótesis de la prueba. Si la
probabilidad estadística del Test es inferior al nivel de
significación α, la hipótesis nula H0 es rechazada. Se calcula
también la probabilidad de obtener un test estadístico, como mínimo
tan significativo en cuanto a lo que fue efectivamente observado en
la muestra, suponiendo que la hipótesis nula es verdadera. A esta
probabilidad se le da el nombre de p-valor. La interpretación
directa es que si el p-valor es inferior al nivel de significación
exigido, entonces se dice que la hipótesis nula es rechazada al
nivel de significación determinado.
2.4.1. Pruebas de bondad de Ajuste(adherencia) Las pruebas de
ajuste son instrumentos de la matemática estadística (corresponden
a una clase de Test de
hipótesis) para determinar si una muestra se adhiere o no a un
determinado modelo distributivo, es decir, para saber cuál es el
modelo que describe el comportamiento probabilístico de la muestra
dada(Montgomery und Runger, 1971).
A continuación se presentan las pruebas de bondad de ajuste
elegidas para ser utilizadas en ese trabajo. Estas pruebas son muy
utilizadas en la comparación de muestras y sus modelos
distributivos, que serán útiles para validar nuestro modelo.
2.4.1.1. Test t
Para saber si una muestra es diferente de otra, se debe comparar
varianzas y medias de las muestras. estas deben ser
estadísticamente iguales, no se deben diferenciar
significativamente. La comparación directa de las
15
muestras no es adecuada, pues es necesario considerar la dispersión
de estas medidas(Casella und Berger, 2002). Por lo tanto, es
preciso establecer si existe desvío significativo entre las
varianzas y medias de las dos muestras.
Dada dos muestras X1 y X2, la primera con n1 y la segunda con n2
observaciones, el test trabaja con las siguientes hipótesis:
H0 : X1 −X2 = 0
Ha : X1 −X2 6= 0
Donde, X1es la media de la muestra X1 y X2 la media de la muestra.
Considerando s21 y s22, como las varianzas de las muestras X1 y X2,
el parámetro t es determinado por la ecuación 2.18.
t =
(2.18)
Para el uso del test de significación, la distribución de la
estadística del test es aproximada por una distribución
t-Student(Campos et al., 2011).
El análisis de este test puede basarse en el p-valor, que impide
rechazar H0 en el caso que su valor este encima del nivel de
significación α (probabilidad de cometer el error de tipo I).
2.4.1.2. Test de Levene
Este test verifica la homogeneidad de varianzas(Conover und
Conover, 1980). Sean consideradas K ≥ 2 muestras aleatorias
independientes entre si. La muestra i representa una colección de
nivariables aleatorias independientes e idénticamente distribuidas,
con distribución Gi, media µi y varianza σ2
i , siendo Gi, µi, σ 2 i
desconocidos. El test trabaja con las hipótesis:
H0 : σi = ... = σk
Ha : σq 6= σr, para algun q 6= r, q = 1, ..., k y r = 1, ...,
k
La ecuación 2.19 presenta los desvíos absolutos de las variables
Xi,j con relación a la media muestral del grupo Xi, denotado por
Xi:
Xi =
∑ni
Zi,,j =| Xi,j −Xi | (2.19)
con j = 1, ..., ni e i = 1, ..., k. La estadística del test de
levene es denotado por W0 y es calculada por la ecuación
2.20.
W0 =
n =
RMSE Raíz del Error Medio Cuadrático = √ MSE
MAPE Error Porcentual Absoluto Medio = media (|pt|)
Cuadro 2.2: Los estimadores de precisión utilizados con frecuencia
de acuerdo a (Gooijer und Hyndman, 2006). No pueden ser usadas para
hacer comparaciones entre series que están en diferentes
escalas.
El test de Levene rechaza la hipótesis Hosi la estadística del test
Wo es mayor que el cuartil de orden 1-α de la distribución
F(k−1,n−k), siendo α la probabilidad de cometer un error de tipo
I.
2.4.2. Estimadores de Primer Orden Además de los Test de hipótesis
estadísticos a menudo los modelo de predicción necesitan de los
llamados
estimadores de primer orden, para esto los datos se dividen en dos
conjuntos (Hyndman und Athanasopoulos, 2013). El primer conjunto
sirve para estimar los parámetros del modelo. El segundo conjunto,
se denomina conjunto de pruebas que contiene datos no vistos por el
modelo utilizados para estimar las predicciones usando los
parámetros antes calculados.
El conjunto de pruebas sirven para validar el modelo en datos que
no estaban disponibles cuando se calcularon los parámetros por
primera vez. A partir de esto, podemos ver el desempeño cuando el
modelo realiza pronóstico de otros datos para los cuales sabemos el
resultado real con el fin de comparar estos con el resultado
previsto.
A continuación se presentan los estimadores de precisión de
pronóstico que serán útiles para validar el modelo de esta
tesis.
Las medidas más utilizadas son el Error Medio Cuadrático (MSE), el
Error Medio Absoluto (MAE), Raíz del Error Medio Cuadrático (RMSE)
y Error Porcentual Absoluto Medio (MAPE). En la Tabla 2.21 (Gooijer
und Hyndman, 2006) se presenta una lista de las medidas de
exactitud de uso común.
Todas las métricas anteriores pueden ser usadas sobre series
temporales de distinta naturaleza, pero, en este trabajo
necesitamos también evaluar el poder de predicción de un modelo
hidrológico, para esto, decidimos utilizar el índice de eficiencia
de Nash-Sutcliffe, ampliamente usado en el campo de la
hidrología(Xu, 2002). Esta medida es definida como:
E = 1− ∑n t=1 (yt − yt)2∑n t=1 (yt − yt)
2 (2.21)
Donde, ytes la media de las observaciones, e yt, es el valor
producido por el modelo, yt, es el valor real observado en el
tiempo t.
La eficiencia de Nash-Sutcliffe puede variar de −∞ a 1. Una
eficiencia de 1 (E = 1) corresponde a una correspondencia perfecta
modelada con los datos observados. Una eficiencia de 0 (E = 0)
indica que las predicciones del modelo son tan precisas como la
media de los datos observados, mientras que una eficiencia menor
que cero (E < 0) ocurre cuando la media observada es un mejor
predictor que el modelo ó en otras palabras, cuando la varianza
residual (descrita por el numerador en la expresión anterior) es
mayor que la varianza de datos (descrita por el denominador).
Esencialmente, cuanto más cerca la eficiencia del modelo es 1, más
preciso es el modelo. Este método se puede utilizar para describir
la precisión predictiva de otros modelos. Por ejemplo, la
eficiencia de Nash-Sutcliffe ha sido reportada en la literatura
para modelos de simulaciones de descarga, y simulación de los
constituyentes de la calidad del agua como sedimento, nitrógeno y
carga de fósforo(Moriasi et al., 2007).
1El error de predicción es definido como et = yt − yt, y pt =
∑n
t=1 |yt − yt/yt| · 100
17
Efectores Respuesta
Figura 2.2: El sistema nervioso humano donde los receptores recogen
información del medio ambiente(los fotones en la retina).
Seguidamente, los efectores generan interacciones con el medio
ambiente(activar los músculos).
2.5. Modelos De Aprendizaje De Maquina
2.5.1. Redes Neuronales Según Haykin en (Campos et al., 2011), son
modelos computacionales no-lineales, inspirados en la
estructura
paralela del cerebro humano. Desde un punto de vista práctico, son
sólo un sistema paralelo computacional que consiste en muchos
elementos de procesamiento conectados entre sí de una manera
específica con el fin de realizar una tarea particular(Vasighi,
2016). A continuación se describen conceptos que vale la pena
diferenciar:
Las Redes Neuronales(NNs), son redes de neuronas, por ejemplo, como
los encontrados en los cerebros reales.
Las Neuronas Artificiales, son aproximaciones en bruto de las
neuronas encontradas en el cerebro. Pueden ser dispositivos
físicos, o construcciones puramente matemáticas.
Las Redes Neuronales Artificiales(RNAs), son redes de neuronas y,
por lo tanto, constituyen apro- ximaciones a algunas partes del
cerebro. Pueden ser dispositivos físicos, o simulados en
ordenadores.
Inspiración Biológica
El sistema nervioso humano se puede dividir en tres etapas que
pueden representarse en forma de diagrama de bloques como en la
Figura 2.2.
Naturalmente, en este trabajo nos ocuparemos principalmente de la
red neuronal que se encuentra en el medio del diagrama (Figura
2.2).
El cerebro contiene estructuras anatómicas a gran y pequeña escala
y diferentes funciones que tienen lugar en niveles superiores e
inferiores. Hay una jerarquía de niveles de organización:
1. Moléculas e Iones
8. Sistema nervioso central
Las RNAs que estudiamos son aproximaciones de los niveles 5 y 6.
Las neuronas artificiales están inspirados en las neuronas
biológicas, cuyo esquemas es representado de manera simplificada en
la Figura 2.3. Como se puede observar, una neurona biológica está
formada por: un cuerpo celular o soma que contiene el núcleo de la
célula; diversas dendritas, a través de las cuales se reciben los
impulsos eléctricos; y un axón, a través del cual se envían esos
impulsos eléctricos. Las interconexiones entre neuronas se efectúan
a través de sinapsis, puntos de contacto (controlados por impulsos
eléctricos y por reacciones químicas debidas a las sustancias
llamadas neurotransmisores) entre dendritas y axones, formando una
red de transmisión de información (Campos et al., 2011).
18
Sinapsis
axón
SalidaEntradas
Figura 2.4: Esquema básico de una Neurona Artificial
Se considera que el aprendizaje ocurre justamente en las sinapsis,
en las conexiones axón-sinapsis-dendritas, donde ocurre la
traducción de la señal que pasa por el axón de una neurona y que
puede excitar (o inhibir) la neurona siguiente. El cerebro humano
posee cerca de 1011 neuronas y el número de sinapsis y es de más de
1014, posibilitando la formación de interconexiones muy complejas
que permiten un procesamiento altamente paralelo.
La Figura 2.4 presenta una neurona artificial que tiene un conjunto
de entradas representadas por, x1, x2, . . . , xm−1, xm, que
simulan las dendritas, y una salida yi, que simula el axón. Las
entradas a la neura son ponderadas por los pesos sinápticos
representados por wi1, wi2, wi3, . . . , wim−1, wim, que son
sumadas por
∑ (que simula el cuerpo
celular), la unidad de bias, es representado por θi, que es un
termino de polarización cuyo valor siempre es 1, su objetivo es
aumentar o disminuir la influencia del valor de la combinación
linear de las entradas(Campos et al., 2011). La salida de la
neurona se obtiene aplicando una función de activación,
representada por , como se puede ver en la ecuación 2.22.
yi = (Neti) =
(2.22)
La función de activación es utilizada para limitar la amplitud de
salida de una neurona, y algunas veces introducir no linealidad al
modelo. Son cuatro tipos de funciones de activación que son muy
utilizadas en RNA (para mas detalle vea (Barron, 1993)).
Tres características básicas identifican a los diversos tipos de
RNAs(Campos et al., 2011):
1. La función de activación de la Neurona Artificial.
2. La topología de la red neural(interconexión entre
neuronas)
3. Regla de aprendizaje.
Básicamente existen dos tipos de topologías de RNAs que son
ampliamente usados en la literatura:
19
Capa oculta
Figura 2.5: Red Neuronal Feedforward, donde la primera capa recibe
sus entradas del entorno, se activa y su salida sirve como entrada
para la siguiente capa. Este proceso se repite hasta alcanzar la
capa final (capa de salida).
Figura 2.6: Red Neuronal Recurrente(RNAR), este tipo de redes
resultan ser muy eficientes en las tareas de predicción de
secuencia, aunque no pueden recordar la información relevante para
muchos pasos en el pasado.
Redes Neuronales No Recurrentes(sin memoria o Feedforward):
Son aquellas redes sin conexiones entre neuronas de una misma capa,
no presentan realimentación de sus salidas para sus entradas. La
Figura 2.5, ilustra una red feedforward. Donde la red posee un
conjunto de nodos de entrada, que solamente distribuyen los
patrones de entrada para la red; una o varias capas intermedias
ocultas, cuyas salidas son las entradas de la capa de neuronas
siguientes; y una capa de salida con neuronas que procesan el
resultado final de la red.
Redes Neuronales Recurrentes:
Son aquellas redes que contienen conexiones de realimentación. En
su estructura las redes neuronales re- currentes pueden presentar
interconexiones entre neuronas de la misma capa y entre neuronas de
capas no consecutivasAwchi und Srivastava (2004). Como se puede ver
en la Figura 2.6, su arquitectura presenta interco- nexiones mas
complejas que las redes feedforward.
Determinar la arquitectura(número de: neuronas, capas; tipo de
activación) de una RNA es una elección decisiva para obtener un
aprendizaje ideal, esto depende de la necesidad y la tarea a
cumplir en su aplica- ción(Sutskever, 2013a). Un punto crucial es
el numero de neuronas por capa, aunque un mayor número pueda ser
beneficioso, esto puede llevar a problemas de overffiting(Hallac et
al., 2017). Por otra parte, un número muy pequeño de neuronas puede
no ser suficiente para modelar el problema adecuadamente. Por lo
tanto para que una red neuronal tenga un buen desempeño, ella debe
ser lo suficientemente grande para aprender el problema pero
también lo bastante pequeña para generalizar bien(Campos et al.,
2011).
Una red neuronal necesita pasar por un proceso de entrenamiento,
esto con el fin de producir una sali- da consistente. El
entrenamiento de una RNA básicamente es un algoritmo que ajusta los
pesos sinápticos wi1, wi2, . . . wim, de forma que estos pesos
almacenen conocimiento.
Los procedimientos de entrenamiento pueden ser clasificados en 3
tipos(da Silva et al., 2017):
20
Entrenamiento Supervisado:
Los patrones de entrada contienen salidas deseadas, durante este
proceso las entradas son presentadas a la RNA y el valor de salida
que generan es comparado con la salida deseada respectiva,
generando así señales de error(diferencia entre las dos salidas).
El algoritmo de entrenamiento ajusta los pesos sinápticos con el
objetivo de minimizar ese error. Este proceso es repetido hasta
obtener un error con valor mínimo aceptable.
Entrenamiento No Supervisado:
Los patrones de entrada no contienen salidas deseadas, no existe
señales de error, este proceso extrae las propiedades estadísticas
del conjunto de patrones de entrada, formando finalmente
agrupaciones con patrones similares.
Entrenamiento Reforzado:
Los métodos basados en el aprendizaje de refuerzo se consideran una
variación de las técnicas de aprendizaje supervisado, ya que
analizan continuamente la diferencia entre la respuesta producida
por la red y la salida deseada correspondiente. Los algoritmos de
aprendizaje utilizados en el aprendizaje de refuerzo ajustan los
pesos neuronales internos basándose en cualquier información
cualitativa o cuantitativa adquirida a través de la interacción con
el sistema (entorno) que se mapea.
El proceso de aprendizaje de una red suele hacerse por ensayo y
error, debido a que la única respuesta disponible para una entrada
dada es si, este fue satisfactorio o insatisfactorio. Si es
satisfactorio, los pesos y umbrales sinápticos se incrementan
gradualmente para reforzar (recompensar) esta condición de
comportamiento involucrada con el sistema. Varios algoritmos de
aprendizaje utilizados por el aprendizaje de refuerzo se basan en
métodos estocásticos que seleccionan probabilísticamente las
acciones de ajuste, considerando un conjunto finito de posibles
soluciones que pueden ser recompensadas si tienen posibilidades de
resultados satisfactorios. Esta estrategia de ajuste tiene algunas
similitudes con algunas técnicas de programación dinámica (da Silva
et al., 2017).
Después del entrenamiento de la red neuronal, es presentada a la
misma un conjunto de patrones que nunca fueron presentadas a la
red, si el aprendizaje fue bien realizado, la RNA tiene que ser
capaz generar una salida correcta para esos patrones de Test. Por
lo tanto se dice que una red neuronal tiene una buena capacidad de
generalización cuando permite hacer un mapeo entrada-salida
correcto.
El desempeño de entrenamiento de una RNA también depende de la
cantidad de datos disponibles para el entrenamiento, por lo que una
cantidad pequeña de datos puede comprometer su desempeño.
2.5.2. Redes Neuronales Recurrentes La topología de red utilizada
en este trabajo es Recurrente. Las redes neuronales
recurrentes(RNARs) son una
subclase de RNAs caracterizada por presentar grafos cíclicos en su
estructura. Estos ciclos acumulan actividades previas y permiten
que la red almacene estados internos. Estos estados evitan la
necesidad de alimentar la red con el historial de entradas y
salidas anteriores como la Red Neuronal con Retardo de Tiempo
(Kuna, 2015). Y puede utilizar las secuencias de entrada para
realizar tareas temporales como previsión. La salida de una RNAR se
puede describir mediante:
Outputt+1 ∼= Pronostico (RNNstate, Inputt, Outputt)
La figura 2.7 b) y a) muestran los dos tipos de modelos recurrentes
tradicionales de RNA, la red recurrente Elman (Elman, 1990) y la
red completamente recurrente Willians-Zipser (Williams und Zipser,
1989). Estas redes neuronales tienen conexiones cíclicas en su
estructura. Por ejemplo, la red Elman conecta su entrada a todas
las neuronas, incluyendo las de salida, las neuronas ocultas y de
salida están completamente interconectadas.
2.5.3. Entrenamiento de una Red Neuronal Recurrente Un método de
entrenamiento ampliamente usado es el algoritmo estándar de
Backpropagation(BP) (Ru-
melhart et al., 1986). La retropropagación es un método para
calcular el gradiente de la función de error con respecto a los
pesos de la red W . Esta técnica se aproxima al mínimo local
cambiando estos pesos a lo largo de
21
Ent r adas
Sal i da
a) b)
Figura 2.7: (b) Red Neuronal Artificial Recurrente de Elman . a)
Red Neuronal Artificial Recurrente totalmente conectada de
William-zipser.
la dirección del gradiente de error negativo. La función objetivo
E(W ) se calcula después de que BP aplique una actualización a los
pesos en la red:
4ωji = −η ∂E ∂ωji
(2.23)
Donde η es un valor positivo constante llamado tasa de aprendizaje.
La velocidad de movimiento β se puede agregar al cambio de peso
actual, esto a menudo acelera el proceso de aprendizaje (Sutskever,
2013a):
4ω ′
∂ωji (2.24)
El ajuste de pesos se puede realizar en modo online o en base al
error medio sobre todos los datos de entrena- miento (que se
denomina modo bach). Además, se han encontrado alternativas más
sofisticadas al algoritmo BP, como el método
Levenberg-Marquardt(LM), para encontrar un algoritmo de
convergencia más rápido (de Vos und Rientjes, 2005). En este
algoritmo la actualización de pesos se obtiene mediante la
siguiente ecuación:
ω = − [H + µI] −1 JT ρ (2.25)
Donde µ es una tasa de aprendizaje, J la matriz jacobiana, que es
la primera derivada del error de red con respecto a los pesos y
bias, y ρ es un vector de errores de red. Finalmente, H es una
aproximación de la matriz Hessiana.
En la práctica el algoritmo BP estándar no es adecuado para redes
con ciclos en su estructura. Sin embargo, podemos aplicar algunos
artificios y ver una RNAR como una red feedforward, desplegándola
en el tiempo como se muestra en la Figura 2.8. La RNAR se
interpreta como una red en capas que mantiene los mismos pesos a
reutilizar, asumimos el retardo de tiempo de 1 en cada conexión
para crear una red feedforward equivalente (Williams und Peng,
1990).
Esta extensión del método BP se llama Backpropagation Through
Time(BPTT). En BPTT el número de copias de la red es igual al paso
de tiempo T . Este método no sería práctico en el entrenamiento
online ya que la memoria crece linealmente con el tiempo. Por lo
tanto, el despliegue de la red se limita a una profundidad de
truncamiento elegida para mantener el método factible (de Vos,
2013).
En la literatura se desarrollaron métodos más sofisticados para
superar las limitaciones de BPTT, por ejemplo Real-Time Recurrent
Learning(CW-RNAR), que divide la capa oculta en M módulos
ejecutándose en diferentes tiempos (Kuna, 2015), el método
extendido de filtro de Kalman (EKF), que estima pesos óptimos, cada
vez dada una serie de resultados observados, para más detalles ver
(Sum et al., 1998). Sin embargo, estos métodos sufren deficiencias
relacionadas con la complejidad de modelado y
optimización(gradiente) (Lukoševiius und Jaeger, 2009). Esto
significa que muchas actualizaciones pueden ser necesarias y podría
ser costoso desde el punto de vista computacional, la información
del gradiente puede llegar a ser inútil por el procedimiento de
actualizaciones de pesos (Doya, 1992).
22
Tiempo
Figura 2.8: .La Red Neural Recurrente se desplegó en el tiempo, las
unidades ocultas agrupadas en el tiempo T reciben entradas de otras
neuronas de tiempo anteriores(T − 1, T − 2, . . . T ).
Recientemente, con el fin de abordar las dificultades para entrenar
redes RNAR, un modelo de cálculo de ”re- servorio” fue introducido
por Jaeger en (Lukoševiius und Jaeger, 2009) denominado Echo State
Network(ESN). Básicamente ESN es una forma inteligente de entrenar
a una RNAR donde, un "reservorio" de unidades ocultas están
escasamente(esparsa) conectados entre sí y las entradas están
conectadas a este ”reservorio”, los pesos internos no se actualizan
en todo el proceso de aprendizaje, estos se inicializan al
azar.
En la siguiente sección abordaremos y comprenderemos el paradigma
de Reservoir Computing al cual pertenece el modelo ESN,
describiendo como logra manejar la complejidad de entrenar redes
RNAR.
2.6. Reservoir Computing y Redes Echo State
El aprendizaje de máquina fue dominado en buena parte de su
historia por los modelos feedforward y las redes bayesianas. Sin
embargo, cuando se trata de una dinámica temporal intrínseca, es
necesario realizar una adaptación, una simplificación o una
elección de modelo específico de modo que el tiempo se represente
de alguna manera esos modelos no-temporales. Algunos enfoques
temporales de las redes neuronales incluyen: redes neuronales con
retrasos(Waibel et al., 1990) y redes neuronales
recurrentes(RNAR)(Millea, 2014)(entre las que también se incluyen
las redes con memoria a largo plazo(LSTM) (Hochreiter und
Schmidhuber, 1997)).
En general los más poderosos han demostrado ser las redes
neuronales recurrentes(RNAR), aún cuando posean un tipo de problema
diferente, a saber, como su enfoque de aprendizaje. Hasta hace
poco, el entrenamiento de RNAR se realizaba mediante
retro-propagación(BPTT). Sin embargo, además del hecho de que este
proceso es muy lento, no siempre garantiza una buena solución,
debido al problema de la desaparición del gradiente (Vanishing
gradient problem)(Hammer und Steil, 2002). Un enfoque relativamente
nuevo para entrenar redes neuronales recurrentes es el enfoque de
Reservoir Computing(Millea, 2014).
2.6.1. Reservoir Computing(RC)
Reservoir Computing(RC) es un framework novedoso para diseñar y
entrenar redes neuronales recurren- tes(Lukoševiius und Jaeger,
2009). Su arquitectura y diseño relativamente simple, hace que esta
clase de redes neuronales sea particularmente atractiva en
comparación con otros tipos de redes, especialmente teniendo en
cuenta la fase de entrenamiento que casi siempre consiste en algún
enfoque lineal, como regresión lineal, matriz pseudo inversa u
otros métodos simples. Se utiliza una metodología de ensayo y error
para encontrar una buena red que se inicializa de manera aleatoria,
para una serie temporal o conjunto de datos específicos. En
general, estas redes y las máquinas de estado líquido o Liquid
State Machines(Maass et al., 2002) se utilizan para la cla-
sificación de patrones, la extracción de características dinámicas,
la predicción de series de tiempo, etc. (Klampfl und Maass,
2010).
2.6.2. Liquid State Machines(LSM)
Son un tipo de RNAR que forman parte del paradigma de Reservoir
Computing, desarrollados por Maass en (Maass et al., 2002). Este es
el enfoque computacional de la neurociencia para RC. Liquid State
Machines
23
E
Figura 2.9: La arquitectura de red ESN básica utilizada en este
trabajo. Las flechas sombreadas indican las cone- xiones que están
entrenadas con el enfoque de "echo state network" (en otros
enfoques, todas las conexiones pueden ser entrenadas). Las
conexiones internas recurrentes dentro del reservorio(zona gris)
permanecen fijas durante todo el proceso de entrenamiento y
validación. Fuente:(Jaeger, 2001)
transforma las entradas variables en el tiempo(las series de
tiempo) en patrones espacio-temporales. LSM se formuló al principio
como una micro-columna cortical y desde entonces, se ha estudiado
extensamente tanto en el campo de la Inteligencia Artificial como
también en el campo de la Neurociencia Computacional. Este sencillo
esquema de aprendizaje se ha combinado muy recientemente con un
nuevo y muy interesante enfoque de (aprendizaje por refuerzo) que
impulsa el aprendizaje local de las neuronas internas, siendo así
cada vez más biológicamente plausible (Legenstein et al.,
2008).
2.6.3. Redes Echo State(RNAR-esn)
Como se mencionó anteriormente, la red ESN fue desarrollada por
Jaeger en (Jaeger, 2001; Jaeger und Haas, 2004), independiente del
modelo LSMs propuesto por Maass. Se podría decir que se trata de un
enfoque de RC. La red ESN utiliza neuronas de valor real
(normalmente con valores entre -1 y 1). De lo contrario, el
procedimiento de entrenamiento sería similar a los LSM.
2.6.4. Dinámica una Red ESN La red ESN es un tipo de red recurrente
que tiene un coste computacional muy bajo para la fase de
entre-
namiento. Sus pesos internos se fijan aleatoriamente al comienzo
del experimento y luego se entrena solamente los pesos de salida
(read-out), usando algún tipo de técnica de ajuste lineal (también
se puede usar una técnica no lineal que generalmente mejora el
rendimiento) de manera que la suma de todas las neuronas,
multiplicada cada una por su peso de salida, coincida con el valor
de la serie de tiempo deseado. La Figura 2.9 muestra la
arquitectura de una red ESN simple.
A primera vista puede parecer sorprendente que una RNAR con
conexiones aleatorias pueda ser efectiva, pero los parámetros
aleatorios han sido exitosos en varios dominios. Por ejemplo, se
han utilizado proyecciones alea- torias en el aprendizaje mecánico
y la reducción de la dimensionalidad (Datar et al., 2004), y más
recientemente, se ha demostrado que los pesos aleatorios son
eficaces para redes neuronales convolucionales en problemas con
datos de entrenamiento muy limitados (Jarrett et al., 2009; Saxe et
al., 2011). Por lo tanto, no debería sorprender que las conexiones
al azar sean efectivas al menos en algunas situaciones.
Aunque ESN no resuelve el problema de entrenar RNAR en su
totalidad, su funcionamiento impresionante sugiere que una
inicialización basada en ESN podría ser acertada. Esto es
confirmado por los resultados de (Sutskever, 2013b) en su trabajo
de tesis.
Ahora procederemos a dar la descripción formal de la red ESN.
24
Figura 2.10: A) Los métodos tradicionales de entrenamiento de RNAR
basados en gradientes, estos adaptan todos los pesos de conexión
(flechas sombreadas), incluidos los pesos de entrada para el
Reservorio, conexiones internas y del Reservorio para salida. B) En
el paradigma RC, sólo se adaptan los pesos entre el Reservorio y la
salida. Fuente: (Lukoševiius und Jaeger, 2009).
2.6.4.1. Entrenamiento De Una Red ESN
El paradigma RC evita las deficiencias de entrenamiento (gradiente
descendente) en RNAR, creando una RNAR aleatoria que permanece sin
cambios durante todo el entrenamiento. Esta RNAR se llama
”Reservorio”, que se excita pasivamente por la señal de entrada y
mantiene en su estado una transformación no lineal del historial de
entrada. La Figura 2.10 contrasta gráficamente los métodos previos
de entrenamiento RNAR con el enfoque ESN.
La ecuación principal de ESN, donde no usamos ninguna entrada, sino
sólo la realimentación de salida, es:
x(t+ 1) = f(W ·x(t) +W fb·y(t)) (2.26)
O alternativamente, con entradas:
x(t+ 1) = f(W in·u(t) +W ·x(t) +W fb·y(t)) (2.27)
Donde x(t) es el vector que contiene todos los estados del
reservorio en el tiempo t, W es la matriz del reservorio, donde
cada entrada Wij corresponde a la conexión entre la neurona i y j,
W fb es la matriz del vector de realimentación, y(t) es la salida
en el tiempo t. En la segunda versión de la ecuación vemos u(t)
multiplicada por el vector de entrada W in. Esta ecuación
representa la fase inicial de la red, donde la salida realmente
funciona como entrada, impulsando la dinámica de la red. La función
f se elige generalmente para ser la tangente hiperbólica para las
neuronas internas (tanh) y la función de identidad para la neurona
de salida. En el algoritmo 2.2 se resume como es realizado el
entrenamiento de una red ESN.
Algorithm 2.2 Algoritmo estándar de entrenamiento de una red ESN,
los estados se recogen en una matriz M que tiene en cada fila el
vector de estado x(t) y en cada columna las neuronas del
reservorio. Por lo tanto, M es una matriz de: dimensión de
ejemplos(filas) por la dimensión del reservorio(columnas). 1: i←
historicalSequencesize 2: j ← reservoirsize 3: M ← array(i, j) .
Matriz de estado 4: Forgetpoints← Z . numero de pasos iniciales a
descartar 5: while t ≤ ejemplossize do 6: if t ≤ Forgetpoints then
7: continue; 8: else 9: M(t, :)← x(t)
10: end if 11: end while
Cabe mencionar que los estados iniciales de la red se descartan al
construir la matriz M con el propósito de limpiar los estados
iniciales, que son usualmente [0, 0..,0]Nx
, con Nx = reservoirsize.
2.6.4.2. Aprendizaje De Una Red ESN
La capa de salida lineal de una red ESN se define como:
y (n) = Wout [1;u (n) ;x (n)] (2.28)
Donde, y (n) ∈ RNy , es el vector de salida con dimensión Nyde la
red,Wout ∈ RNy×(1+Nu+Nx),es la matriz de pesos de salida y [.; .;
.] significa una concatenación de vector vertical (o matriz). Ahora
obtener la matriz Wout, cuya i-ésima columna contiene los pesos de
salida de todas las unidades de red a la i-ésima unidad de salida.
Para esto podemos usar procedimientos de álgebra lineal como la
pseudo-inversa o regresion Ridge(Jaeger, 2001).
Moore-Penrose pseudo-inversa
Después de obtener los estados x (t) en todos los intervalos de
tiempo, el procedimiento de aprendizaje usual se realiza mediante
una operación pseudo-inversa simple:
Wout = pinv(M) ∗ T (2.29)
Donde,Wout, es el vector de pesos de salida, y T , es el vector de
valores esperados (Un vector 1×m, donde m es el tamaño de la
secuencia de entrenamiento, la secuencia donde se conoce la
entrada, pero no se calcula). Por lo tanto, tenemos un conjunto de
m ecuaciones con n incógnitas, donde n es el número de neuronas el
tamaño y las entradas de Wout son las respectivas ponderaciones de
los estados de las neuronas. La Pseudo-inversa, o Pseudo-inversa de
Moore-Penrose, es una generalización de una matriz inversa, pero
para matrices que no son rectangulares. Sea A una matriz m× n,
entonces la inversa de Moore-Penrose es única, denotamos A∗, tiene
el tamaño n×m y satisface las cuatro condiciones siguientes:
1. AA ∗A = A
2. A ∗AA∗ = A∗
Regresión Ridge
En este método la ecuación 2.28 se puede escribir en una notación
matricial como:
Y = WoutX (2.30)
Donde, Y ∈ RNy×T , es y (n), y X ∈ R(1+Nu+Nx)×T es [1 : u (n) : x
(n)], todas estas matrices fueron produ- cidas presentando al
reservorio las u (n) entradas, ambas matrices son la concatenación
de los vectores columna horizontalmente durante el período de
entrenamiento n = 1, . . . , T .
Encontrar los pesos óptimos, que minimizan el error al cuadrado
entre y (n) y ytarget (n), equivale a resolver un sistema de
ecuaciones lineales típicamente sobre-determinado. El sistema está
sobre-determinado, porque típicamente T 1 +Nu +Nx .
Existen maneras estándar bien conocidas de resolver la ecuación
2.30, probablemente la solución más universal y estable para 2.30
en este contexto es la regresión Ridge, también conocida como
regresión con regularización de Tikhonov:
Wout = Y targetXT ( XXT + βI
)−1 (2.31)
Donde, β es un coeficiente de regularización , e I es la matriz de
identidad. Nosotros mostramos sólo dos de los métodos que pueden
ser usados para resolver la ecuación 2.30, aunque
el último no sea muy trivial es preferido de usar. A continuación,
se validarán los valores de salida de la red, usando la matriz
ajustada Wout.
26
2.6.4.3. Validaciones De Una Red ESN
En esta etapa, la red se ejecuta sobre los datos de prueba, donde
los estados de las neuronas en el tiempo t = 0 en la fase de
validación son estados de las neuronas en el tiempo t = m en la
fase de aprendizaje. La diferencia ahora es que la salida es
calculada por la red usando los pesos de Wout, por lo que no se
conoce anteriormente estos valores. Las ecuaciones para la fase de
validación son:
y(t) = fout ( x (t) ∗W out
) (2.32)
x (t+ 1) = f ( W · x (t) +W fb · y (t)
) (2.33)
Donde, y es la salida después del cálculo pseudo-inverso. Es común
usar una función de salida de identidad, sin embargo en la ecuación
2.29, se puede aplicar alguna transformación no lineal, como por
ejemplo tanh. También al calcular los pesos de lectura (Wout)
podríamos usar una técnica no lineal, como un perceptron, o una
SVM, o regresión Ridge, pero discutiremos sobre esto en más detalle
más adelante. Finalmente, para evaluar la red ESN, usualmente
calculamos el Error Cuadrado Medio Normalizado (NRMSE) que
es:
NRMSE =
(2.34)
Donde, σ2 y es la varianza de la salida deseada y, m es la
secuencia de validación, y, es la salida esperada, y
es la salida calculada por la red ESN después del proceso de
aprendizaje.
2.7. Consideraciones Finales Este capítulo presentó un resumen de
los fundamentos teóricos de los modelos utilizados en este
trabajo,
con un enfoque al uso de estos sobre series temporales
hidrológicas. Primero fueron descritos los conceptos puramente
estadísticos, posteriormente fueron descritos métodos de
aprendizaje de maquina para pronóstico, dentro de los cuales
resaltan las redes neuronales recurrentes y el paradigma reservoir
computing como alternativa de entrenamiento de RNARs. El próximo
capítulo presenta el estado del arte para el modelo propuesto en
esta tesis, que consiste en un proceso de mapeo sistemático sobre
la literatura.
27
Estado del Arte
En esta sección presentamos el proceso de mapeo sistemático usado
en la planificación de la revisión y la estrategia para investigar,
catalogar y clasificar los trabajos recientes relacionados con
predicción de series temporales.
3.1. Planificación Y Ejecución De Mapeo Sistemático El enfoque de
este mapeo sistemático identifica, cataloga y clasifica los
trabajos recientes en la literatura en
el área, con el fin de contribuir sustancialmente en la comprensión
de los mismos. Las palabras clave utilizadas como strings de
búsqueda fueron los siguientes : "Water Inflow" , " Forecas-
ting " , “echo state network” El método utilizado para la
recolección de fuentes primarias incluye la realización de
búsquedas en bi-
bliotecas digitales como ACM Digital Library 1, IEEE Xplore Digital
2, SciELO(Scientific Electronic Library Online) 3, DBLP(Computer
Science Bibliography)4, BDBComp (Biblioteca Digital Brasileña de
Computación) 5, Google Academy( Académicos), Springer 6, Hydrology
and Earth System Sciences 7, American Geophysical
Union(AGU)8.
Los criterios de inclusión de los estudios se presentan a
continuación:
Los estudios deben haber sido publicados en las conferencias,
workshops y revistas.
Los estudios deben ser escritos en Inglés, portugués o
español.
Los estudios deben estar disponibles en la web.
Los estudios deben tener algunas de las cadenas de búsqueda en su
título, resumen/abstract o palabras clave.
Los estudios deben presentar la propuesta de uno o más modelos de
predicción.
En base a los criterios mencionados el proceso de búsqueda encontró
50 estudios publicados entre 2005 y 2016. Estos estudios fueron
seleccionados para su posterior análisis. Después de leer el
resumen y las conclusiones fueron preseleccionados 13 estudios a
través de los criterios de inclusión ya mencionados. De los 13
estudios preseleccionados, 6 cumplen con los criterios de calidad
previstos en el protocolo de revisión.
En la siguiente sección, se describirán los elementos seleccionados
y serán comparados con nuestra propuesta. 1http://dl.acm.org/
2http://ieeexplore.ieee.org/ 3http://www.scielo.org/
4http://dblp.uni-trier.de/ 5http://www.lbd.dcc.ufmg.br/bdbcomp/
6http://www.springer.com/gp/
7http://www.hydrology-and-earth-system-sciences.net/
8http://onlinelibrary.wiley.com/
28
3.2. Enfoques Clásicos Actualmente en la literatura existen muchos
modelos para la generación y previsión de variables
hidrológicas
(caudales, precipitación y evaporación) en una determinada zona.
Estas variables son usadas en el planeamiento de los sistemas de
gestión de recursos hídricos.
Estos modelos usan las siguientes técnicas:
Regresión lineal simple
Regresión lineal múltiple
Modelos Autorregresivos (AR)
Modelos de Medias Móviles (ARMA)
Modelos de Medias Móviles con variable exógena ARMA y ARMAX con
parámetros periódicos
En todos estos modelos, la relación lineal entre las variables
hidrológicas relevantes es asumida pero no siempre da los mejores
resultados, y en algunos casos es inadecuado(Raman und Sunilkumar,
1995). Muchos estudios emplean los modelos autorregresivos para la
generación y previsión de caudales, mostrando de esta forma que los
modelos de bajo orden reproducen satisfactoriamente las
características analizadas.
Por otro lado, los resultados de los modelos estocásticos pueden
mejorar la precisión de la estimación del diseño de la capacidad de
los embalses. Un trabajo destacado es el de Peng und Buras (2000),
que muestra que no hay evidencia que los modelos AR(1) sean
inadecuados.
Estudios iniciales como ((Singh, 1968), THOMAS (1962)) describen
secuencias de caudales con modelos matemáticos, los cuales pueden
reproducir características especiales como la periodicidad y
considerar los efectos de la correlación lineal. La más importante
contribución fue hecha por THOMAS (1962).
Todos estos estudios proponen que las series temporales pueden ser
simuladas mediante una relación lineal simple de sus valores
previos.
3.3. Enfoques De Aprendizaje Automático (Machine learning) El
problema con los modelos anteriores es que tareas como predicción
son tareas de naturaleza dinámica.
Por esta razón se buscaron alternativas en la literatura como los
métodos de Inteligencia artificial, entre ellos destacan las Redes
Neuronales Artificiales (RNA) que han ido creciendo como
alternativas y presentando un buen desempeño en la predicción de
series temporales de variables hidrológicas(Jain und Srinivasulu
(2004), de Vos und Rientjes (2008), Campos et al. (2011), Awchi und
Srivastava (2004), Sun et al. (2016)). La mayoría de
investigaciones que usan RNA’s como modelos de predicción, han
prestado mayor atención en las denominadas RNA’s feedforward.
Por otra parte, las RNA’s Recurrentes que se caracterizan por tener
conexiones cíclicas en su estructura, permiten un modelado más
parsimonioso de propiedades dinámicas (de Vos, 2013), es por esa
razón que su capa- cidad de representación temporal puede ser mejor
que el de las RNA’s feedforwad. Sin embargo, la recurrencia
presente en su estructura puede ocasionar incremento en la
complejidad de entrenamiento y posteriormente ocasionar problemas
de convergenci