ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática...

87

Transcript of ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática...

Page 1: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019
Page 2: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019
Page 3: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

Actas del IV Machine Learning Workshop

Galicia

Facultad de Informática Universidade da Coruña 17 de octubre de 2019

Page 4: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019
Page 5: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

IV Machine Learning Workshop Galicia 2019

Organiza: Facultad de Informática y CITIC, Universidade da Coruña

Entidades patrocinadoras: Universidade da Coruña

CITIC-Centro de Investigación en Tecnologías de la Información y las Comunicaciones

Red de Tecnoloxías Cloud e Big Data-Xunta de Galicia

MODES-Grupo de Modelización, Optimización en Inferencia Estadística

Entidades colaboradoras:

Page 6: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019
Page 7: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

COMITÉ CIENTÍFICO

Ricardo Cao Abad CITIC (UDC), ITMATI

Milagros Fernández Gavilanes UVIGO, Centro Universitario da Defensa de Marín

Andrés Gómez Tato CESGA

Bertha Guijarro Berdiñas CITIC (UDC)

David Mera Pérez CITIUS (USC)

Antonio Rodríguez del Corral CINFO / Tiivii

COMITÉ ORGANIZADOR

Ana Almécija Grupo MODES, Universidade da Coruña

Germán Aneiros Grupo MODES, CITIC, Universidade da Coruña

Ricardo Cao Grupo MODES, CITIC, Universidade da Coruña

Rubén Fernández Casal Grupo MODES, CITIC, Universidade da Coruña

Mario Francisco Grupo MODES, CITIC, Universidade da Coruña

Bertha Guijarro Grupo LIDIA, CITIC, Universidade da Coruña

Alejandro Mosteiro CITIC, Universidade da Coruña

Beatriz Pérez Sánchez Grupo LIDIA, CITIC, Universidade da Coruña

Luis F. Rodríguez Fraguela Grupo MODES, Universidade da Coruña

Noelia Sánchez Maroño Grupo LIDIA, CITIC, Universidade da Coruña

Page 8: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019
Page 9: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

ÍNDICE

PONENCIAS INVITADAS ................................................................................................... 1Iniciativas integradas de ML en Finsa ........................................................................................... 3Instead of just teaching Data Science, let’s understand how and why people do it ...................... 4

SESIÓN DE COMUNICACIONES I ..................................................................................... 5Transfer Learning con imágenes online para clasificar nubes de puntos de objetos urbanos ..... 7Reconstrucción precisa de imágenes tomográficas en tiempo real con redes neuronales .......... 8Background/Foreground Classification using Two Nested Networks ......................................... 10An Approach to Motivation and Long-Term Memory in order to allow for Developmental Learning

.................................................................................................................................................... 11Aprendizaje por refuerzo en sistemas microscópicos ................................................................. 12

SESIÓN DE COMUNICACIONES II Y RETOS ................................................................. 13Método escalable basado en árboles para explicar interacciones de datos diádicos ................ 15Evaluating Recurrent Neural Networks for Anomaly Detection .................................................. 16Método adaptativo en tiempo real para la detección de anomalías mediante aprendizaje

automático .................................................................................................................................. 17Diabetic Retinopathy Screening Through Image Anomaly Detection ......................................... 18Ejemplos de selección de variables funcionales en regresión y clasificación ............................ 19Diseño de Agrupación Estratégica en Inteligencia Artificial ........................................................ 21Clasificador de jugadas de fútbol ................................................................................................ 22Challenge in Machine Learning: No more OCR for data entry in accounts payable process ..... 23

SESIÓN DE COMUNICACIONES III ................................................................................. 27Arquitectura, casos de uso, e historias de éxito de un sistema data analytics en automoción: el

caso PSA Groupe Vigo ............................................................................................................... 29Behavioral authentication system based on AI for touch-screen devices ................................... 30Deep Anomaly Detection for Generalized Face Anti-Spoofing ................................................... 31Sistema Deep Learning de predicción de movimiento de buques .............................................. 32Mejorando word embeddings multilingüe mediante representaciones promedio ....................... 34Análisis de sentimiento aplicado a un chatbot conversacional ................................................... 36inVerbis: Minería de datos aplicada a la mejora de procesos .................................................... 38

SESION PÓSTERES I ....................................................................................................... 39Detección temprana de depresión: Análisis de redes sociales y técnicas de aprendizaje

máquina ...................................................................................................................................... 41

Page 10: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

N-gramas de sentidos para el análisis de sentimientos en Twitter ............................................. 42Análisis de temporalidad de noticias financieras ........................................................................ 43Estimación no paramétrica de la probabilidad de mora en riesgo de crédito ............................. 45Comparing The Performance of Unsupervised Techniques for Intrusion Detection ................... 46Medida indirecta en un sistema “Bag in Tank” aplicando técnicas de Machine Learning .......... 48Variable selection in bi-functional semiparametric regression .................................................... 50Bootstrap bandwidth selection for prediction in regression ......................................................... 51Una aproximación basada en Machine Learning para evaluar la influencia del tamaño del

proyecto en la detección de God Class. ..................................................................................... 52Desarrollo de un clasificador global para la detección de fallos en una planta real de laboratorio

.................................................................................................................................................... 53Industrialización de flujos de trabajo para modelos de aprendizaje automático ......................... 55

SESION PÓSTERES II ...................................................................................................... 57Nonparametric estimation for big-but-biased data ...................................................................... 59Dealing with the LASSO adjustment problems as a variable selector ........................................ 60Ball and player detection and trajectory prediction in sports scenes .......................................... 62Aprendizaje de Árboles de Decisión para Predicción de Utilidad en Trasplantes de Hígado ..... 63Detección de fallos en el nivel de anestesia en operaciones quirúrgicas ................................... 65Observación y modelado de la calidad del aire: Retos de Aprendizaje Automático en el proyecto

TRAFAIR ..................................................................................................................................... 67Predicción de generación de energía eólica basada en el análisis de direcciones del viento .... 68Aplicación de algoritmos de machine learning para peritaje vehicular ....................................... 70Exploring Differential Distributed Embodied Evolution ................................................................ 72Sistema de Control Inteligente de la energía térmica ................................................................. 73Learning to segment the retinal vasculature using automatically generated labels from

multimodal images ...................................................................................................................... 75Machine Teaching Iterativo para la Mejora del Entrenamiento en Machine Learning ................ 76Automatic Nonparametric Geostatistical Inference ..................................................................... 77

Page 11: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

1

PONENCIAS INVITADAS

Page 12: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

2

Page 13: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

3

Iniciativas integradas de ML en Finsa

Antonio Vidal Product Owner Analítica, FINSA, Santiago de Compostela

e-mail: [email protected]

El principal negocio de Finsa es la transformación de la madera y, aunque este sector es un sector primario caracterizado por ser muy atómico y tradicional, en Finsa se está realizando en los últimos años un importante esfuerzo de transformación digital con el objetivo de mejorar los procesos, la competitividad de la empresa y la operativa diaria de sus trabajadores. Dentro de esta transformación digital, se están desarrollando diferentes iniciativas que van desde la digitalización de procesos, la automatización de tareas, el uso de servicios cloud o el desarrollo de nuevos productos y servicios, muchos de los cuales se basan en el uso de analítica avanzada. En esta presentación se hará un repaso de algunas de las iniciativas que se están desarrollando en Finsa para facilitar que la empresa sea una empresa centrada en los datos, donde cada usuario tenga acceso a los datos adecuados a sus necesidades de la forma más sencilla posible. También se presentarán diferentes aplicaciones donde se están usando aproximaciones basadas en la inteligencia artificial que facilitan el trabajo diario, mejoran los procesos productivos y acompañan a la empresa en la toma de decisiones.

Page 14: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

4

Instead of just teaching Data Science, let’s understand how and why people do it

Rebecca Nugent1 1Associate Department Head

Co-Director of Undergraduate Studies Carnegie Mellon Statistics & Data Science Department of Statistics & Data Science

Baker Hall 132, Carnegie Mellon University Pittsburgh, PA 15213

e-mail: [email protected]

With the growing ubiquity and popularity of data science as a field, the emphasis in education has largely been on developing programs, courses, and tools that address the demand; however, far less attention has been paid to assessment, the heterogeneity of the population, and the effect of human decision-making. To gauge whether a set of final results indicate true insights or actionable steps to take, it’s not enough to think only about reproducibility (for example); we need to model and understand the distribution of possible experiments, data analysis workflows, all the way through the final communication mode of results. We need to think about the Science of Data Science. Over the last three years at Carnegie Mellon Statistics & Data Science, we have developed and launched ISLE (Integrated Statistics Learning Environment), an interactive platform that removes the computing cognitive load and lets students explore Statistics & Data Science concepts in both structured and unstructured ways. The platform also supports student-driven inquiry and case studies. We track and model every click, word used, and decision made throughout the data analysis pipeline from loading the data to the final written report. The platform is flexible enough to allow adaptation, providing different modes of data analysis instruction, active learning opportunities, and exercises for different subsets of the population. Students are also able to build their own case studies with little restriction or faculty intervention. The resulting data sets are invaluable in capturing behavioral data science information and generate interesting statistical and machine learning methodological questions about how to model the learning processes using data of mixed modality (clicks, text, audio, video, etc). In particular, we’re interested in clustering user patterns to help us identify how different population subgroups approach data science and how those differences might impact their final results. Today, we will present some initial methodological work with an emphasis on building variable selection methods when clustering high-dimensional, noisy circular data (e.g., text). In short, teaching Data Science while simultaneously learning how we do it.

Page 15: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

5

SESIÓN DE COMUNICACIONES I

Page 16: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

6

Page 17: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

7

Transfer Learning con imágenes online para clasificar nubes de puntos de objetos urbanos

Jesús Balado Frías1, Ricardo Sousa2, Lucía Díaz Vilariño1, Pedro Arias1

1Applied Geotechnologies Group, Escuela de Ingeniería de Minas y Energía, Universidad de Vigo, Campus Lagoas-Marcosende, CP 36310 Vigo, España

2LIAAD, INESC TEC, Campus da Faculdade de Engenharia da Universidade do Porto, Rua Dr. Roberto Frias, 4200-465 Porto, Portugal

e-mail: [email protected], [email protected], [email protected], [email protected]

La clasificación de objetos es un campo de investigación muy activo. El reconocimiento de objetos urbanos en nubes de puntos es clave para conducción autónoma e inventariado del mobiliario urbano. La aplicación de técnicas Deep Learning a nubes de puntos para la clasificación de objetos urbanos se ve limitada por la gran cantidad de muestras necesarias para el entrenamiento de las redes neuronales. Adquirir y etiquetar nubes de puntos es un trabajo mucho más costoso y tedioso que su equivalente en imágenes. Este trabajo se centra en minimizar el uso de muestras obtenidas de nubes de puntos para el entrenamiento de Convolutional Neural Networks (CNNs). La conversión de nubes de puntos a imágenes permite el uso de CNN y la combinación con muestras en imágenes obtenidas de datasets online (ImageNet y Google Images). El estudio se ha realizado con diez clases de objetos extraídos de dos nubes de puntos correspondientes a las avenidas de Camelias en Vigo y Rodrigues de Freitas en Oporto. De cada clase se han seleccionado 10 objetos y, aplicando multi-view, se han proyectado desde distintas perspectivas, generando 12 muestras por objeto. De las fuentes online se han extraído 5000 imágenes. El conjunto de entrenamiento se compone de 500 imágenes por clase, de las cuales entre un 0 y un 10% se corresponden con imágenes de nubes de puntos (Figura 1). Aunque el uso exclusivo de imágenes online en el conjunto de entrenamiento no ha alcanzado un buen resultado, la inclusión de un pequeño porcentaje de imágenes obtenidas de nubes de puntos mejora notablemente las tasas de acierto (Tabla 1) y permite reducir el trabajo necesario de adquirir y etiquetar muestras en nubes de puntos.

Figura 1. Distribución de los tipos de muestras. Porcentajedenubesenelconjuntodeentrenamiento 0% 2% 4% 6% 8% 10% TestAccuracy 0.47 0.93 0.98 0.995 0.995 0.995

Tabla 1. Resultados sobre el conjunto de testeo. Elementos clave:

• Clasificación de objetos urbanos en nubes de puntos. • Conversión de nubes de puntos a imágenes. • Conjunto de entrenamiento formado por imágenes obtenidas de datasets online.

Page 18: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

8

Reconstrucción precisa de imágenes tomográficas en tiempo real con redes neuronales

Xosé Fernández-Fuentes1, David Mera1, Andrés Gómez2

1Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS), Universidade de Santiago de Compostela, Rúa de Jenaro de la Fuente Domínguez, 15782 Santiago de Compostela, España

2Centro de Supercomputacición de Galicia (CESGA), Avda de Vigo, 15705 Santiago de Compostela, España

e-mail: [email protected]

Diferentesproblemastantomédicoscomoindustrialesrequierenextraerinformacióndel interiordeun cuerpo de forma no invasiva. Para este cometido se suelen emplear técnicas tomográficas quegeneran imágenes del interior del objeto de estudio en base a sus propiedades internas. Lareconstrucciónprecisadedichasimágenesimplicalaresolucióndeunproblemamatemáticoinversodegrancomplejidadquedemandatantotiempocomopotenciacomputacionalloquelimitasuusoenentornosindustriales.Enestetrabajo[1]desarrollamosunametodologíabasadaenRedesNeuronales(ANN)paralareconstruccióndeimágenesTomográficasdeImpedanciaElectrica(IET)entiemporealy comparamos los resultados obtenidos con dos algoritmos claves en el estado del arte (IterativeGauss-NewtonyPrimalDualInteriorPointMethod).Losresultadossobresimulacionesmuestranquenuestraalternativasuperaa lasotrasaproximacionestantodesdeelpuntodevistacualitativocomocuantitativoloqueindicaquepodríasustituiralassolucionestradicionalesmáslentasycomplejas.

La Figura 1muestra un ejemplo de reconstrucción de una imagen tomográfica (EIT) empleando lametodologíadesarrolladabasadaenANNsy lassolucionesobtenidasatravésde lasaproximacionestradicionales.

Figura 1: ejemplo de reconstrucción de una imagen tomográfica EIT. En la esquina superior izquierda se presenta el interior del cuerpo de estudio mientras que la esquina superior derecha muestra la reconstrucción a traves de Redes

Neuronales. En la parte inferior se observa la reconstrucción generada por el algoritmo Primal Dual Interior Point Method (izquierda) e Iterative Gauss-Newton (derecha)

Elementos clave: • Reconstrucción precisa de imágenes tomografias en tiempo real • Aplicaciones industriales y médicas

Page 19: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

9

• Metodología desplegable en entornos industriales Referencias [1] Fernández-Fuentes, X.; Mera, D.; Gómez, A.; Vidal-Franco, I. Towards a Fast and Accurate EIT Inverse Problem Solver: A Machine Learning Approach. Electronics 2018, 7, 422.

Page 20: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

10

Background/Foreground Classification using Two Nested Networks

Víctor Mondéjar-Guerra1,2, Lucía Ramos1,2, José Rouco1,2, Jorge Novo1,2, Marcos Ortega1,2 1Department of Computer Science, University of A Coruña, A Coruña, Spain

2CITIC-Research Center of Information and Communication Technologies, University of A Coruñna, A Coruña, Spain e-mail: [email protected]

Background subtraction has been an active research topic for more than 20 years due to its great utility on many video analysis applications. Considering a video captured by a static camera, background subtraction methods perform the segmentation between the moving objects (foreground) and the static context (background) at pixel level. In this work, an approach for background subtraction employing an end-to-end deep learning architecture is presented [1]. The architecture is made up of two nested networks. The first one, Background Modeling Network (BMN), receives a sequence of images from one particular scenario and extracts some background model features, which are represented as a group of feature maps of the same size of the input images. The second network, Background Subtractor Network (BSN), receives the output of the first network and a target frame and computes the binary segmented map. The inclusion of the background modeling step allows to our architecture be non scene-specific, i.e., once our networks are trained they can be directly used on any new scene without the need of being retrained. The network cascade is trained end-to-end with a supervised segmentation loss over the output map from the BSN and the ground truth for the target frame. Therefore, the desired background model for the scene is not explicitly showed to the BMN. Instead, the background modeling is learnt as a byproduct of the end-to-end training with multiple scenes, and with the only restriction that the input frames of both networks (reference and target frames) belong to the same scene. The method has been trained and evaluated using the public CDnet2014 database [2] following a scene-wise cross-validation approach. The proposed architecture shows to be able to extract background model features from a small group of frames that may contain foreground, or be affected by adverse conditions like snowing or water motion. The obtained results for background subtraction demonstrate the capabilities of the network to handle unseen scenes under a wide variety of situations.

Highlights: • Background subtraction problem is tackled with deep learning techniques. • The presented architecture is form by two nested networks. • The proposed method is non scene-specific, it can be employed on any unseen scene.

Referencias [1] V. Mondéjar-Guerra, J. Rouco, J. Novo, M. Ortega. An end-to-end deep learning approach for simultaneous background modeling and subtraction, In British Machine Vision Conference (BMVC), Cardiff, 2019. [2] Y. Wang, P. Jodoin, F. Porikli, J. Konrad, Y. Benezeth and P. Ishwar, "CDnet 2014: An Expanded Change Detection Benchmark Dataset," 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops, Columbus, OH, 2014, pp. 393-400.

Page 21: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

11

An Approach to Motivation and Long-Term Memory in order to allow for Developmental Learning

Francisco Bellas, José Antonio Becerra, Alejandro Romero and Richard J. Duro 1

1Integrated Group for Engineering Research, CITIC Research Center Universidade da Coruña

Spain e-mail: [email protected]

In this work we consider a cognitive architecture that revolves around a network memory based Long-Term Memory [1] and how it can lead to a working lifelong learning system that can deal with open-ended learning. It focuses on the mutual interaction between the Motivational Engine and the Long-Term Memory components and, in particular, on autonomously producing high-level utility representations in order to allow for development. Thus, the main point is to study how this architecture allows to start from primitive policies and models operating over continuous and large state/action spaces and progressively move towards higher level structures defined over smaller and discrete state/action spaces. This progression is demonstrated in a series of experiments carried out on a real robotic setup (Figura 1) that involves different contexts, both in terms of domains (worlds) and tasks (goals). In particular, we concentrate on the initial stages of knowledge acquisition by a naive robot and on the requirements and structures that are needed in order to reuse and combine these knowledge nuggets to address more complex scenarios and tasks

Figura 1. Baxter robot during the learning phase

Elementos clave:

• Open-ended learning in robots • Goal discovery and model learning in a developmental way • Motivational System and Long-Term Memory interaction

Referencias [1] Duro, R. J., Becerra, J.A., Monroy, J., Bellas, F. Perceptual generalization and context in a network memory inspired long term memory for artificial cognition, International Journal of Neural Systems, Vol. 29, No. 06, (2019)

Page 22: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

12

Aprendizaje por refuerzo en sistemas microscópicos

Santiago Muiños Landin1 2 , Frank Cichos 2 1AIMEN Centro tecnológico. Polígono Industrial de Cataboi 36418 - O Porriño, Pontevedra,

España 2Universidad de Leipzig, Dpto. Nanofotónica Molecular , Linnestrasse 5, 04103 Leipzig Alemania

e-mail: [email protected]

Los sistemas vivos son capaces de detectar y procesar información acerca del entorno en el que habitan. Asimismo éstos son capaces de actualizar esta información con el fin de resolver tareas básicas de supervivencia tales como la búsqueda de alimento o la detección de una amenaza. Esta habilidad, que es el resultado de un proceso adaptativo, y que puede asociarse con la idea de aprendizaje [1], se viene implementando con éxito en sistemas artificiales en los últimos años. Sin embargo, en procesos a escala micrométrica, una hipotética tarea de aprendizaje se vuelve compleja dado que el ruido estocástico intrínseco a estos regímenes, hace crítica la definición de bucles retroalimentados por estímulos y acciones. Lo cual es básico para la adquisición y la actualización de información. La combinación de diferentes materiales a escala micro o nanométrica ha abierto recientemente la puerta hacia el diseño de micro y nanorobots [2] controlados por la respuesta de estos objetos a distintos estímulos físicos. En este trabajo presentamos cómo mediante la aplicación de luz, un sistema microscópico puede ser controlado con precisión suficiente como para establecer una relación entre estados y acciones. Lo que posibilita la aplicación de algoritmos de aprendizaje por refuerzo para optimizar el comportamiento en tareas básicas de navegación a esta escala, así como la adaptación autónoma del sistema a variaciones en el entorno[3]. El mecanismo expuesto es extensible a sistemas multiagente. De este modo la aplicación de técnicas de aprendizaje automático a escala micrométrica, junto con el desarrollo de materiales en este régimen, se muestran como una potencial herramienta a tener en cuenta para el desarrollo tecnologías como la médica o los materiales inteligentes. Donde la autoadaptación y el autoensamblaje juegan un papel fundamental.

Elementos clave:

• Reinforcement Learning. • Microscopic systems.

Referencias [1] Dayan, P. & Niv, Y. Choice values. Nat Neurosci 9, (2006), 987–988 [2] Wu, Z. Troll, J., Jeong, H. H., Wei, Q., Stang, M., Ziemssen, F., Wang, Z., Dong, M., Schnichels, S., Qiu ,T., Fisher, P. A swarm of slippery micropropellers penetrates the vitreous body of the eye (2018), Science Advances, 4(11):eaat4388. [3] Muiños-Landin, S., Ghazi-Zahedi, K., Cichos, F., Reinforcement learning of artificial microswimmers. arXiv 1803.06425v2 (2018)

Page 23: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

13

SESIÓN DE COMUNICACIONES II Y RETOS

Page 24: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

14

Page 25: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

15

Método escalable basado en árboles para explicar interacciones de datos diádicos

Carlos Eiras-Franco1, Bertha Guijarro-Berdiñas1, Amparo Alonso-Betanzos1 y Antonio

Bahamonde2 1Universidade da Coruña. CITIC. Campus de Elviña, 15071 A Coruña.

2Universidad de Oviedo. Gijón. e-mail: [email protected]

Obtener hallazgos relevantes a partir de un conjunto de datos diádicos, que describe interacciones entre dos entidades, es un problema abierto de gran interés para la industria y el mundo académico [1]. Sin embargo, las técnicas actuales tienen poca explicabilidad, cualidad que se está convirtiendo en esencial en muchos ámbitos [2,3]. Presentamos [4] un método escalable y explicable que obtiene, a partir de un conjunto de datos diádico, un resumen global fácilmente interpretable de la relación reflejada en los datos. Para ello proponemos una medida de calidad configurable por el usuario que tiene en cuenta la explicabilidad del modelo. Experimentos realizados sobre conjuntos de datos reales demuestran que este método ofrece resultados no solo más explicables sino también más precisos que los métodos alternativos. Exploramos también la utilidad de la información obtenida. Por último, presentamos una implementación del método en Apache Spark capaz de manejar grandes conjuntos de datos en un entorno distribuido. Elementos clave:

• Nueva medida de calidad para clustering que tiene en cuenta la explicabilidad. • Aproximación basada en la entropía de la función de utilidad aprendida. • Algoritmo escalable que obtiene agrupamiento explicable con árbol de decisión.

Referencias [1] Y. Koren, R. Bell, C. Volinsky. Matrix factorization techniques for recommender systems. Computer, 42 (8) (2009) [2] Z.C. Lipton. The Mythos of Model Interpretability. arXiv preprint http://arXiv:1606.03490 (2016) [3] R. Guidotti, A. Monreale, S. Ruggieri, F. Turini, F. Giannotti, D. Pedreschi. A survey of methods for explaining black box models. ACM Comput. Surv, 51 (5) (2018), p. 93 [4] Eiras-Franco, C., Guijarro-Berdiñas, B., Alonso-Betanzos, A. and Bahamonde, A. A scalable decision-tree-based method to explain interactions in dyadic data. Decision Support Systems, (En prensa) https://doi.org/10.1016/j.dss.2019.113141

Page 26: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

16

Evaluating Recurrent Neural Networks for Anomaly Detection Javier López Cacheiro1 , César Manuel Paz Guzmán

1CESGA, Avda de Vigo s/n, Campus Vida, Santiago de Compostela e-mail: [email protected]

At CESGA we constantly monitor all our systems generating millions of time-series that are stored in real-time in our Big Data platform based on Hadoop. These time-series are analyzed using Spark to detect anomalous behavior. Up to now all the anomaly detection algorithms that we have developed are based on simple statistical machine learning methods. New methods for detecting anomalies in time-series based on Recurrent Neural Networks (RNNs) are now available. The main advantage of these methods is that you no longer need to focus on feature extraction because this can be done automatically done by the network. There are several RNNs available but the most common for this type of problem are Long Short- Term Memory (LSTM) and the most recent Grated Recurrent Units (GRU). Both prevent the problem of the vanishing gradient, but the later one is especially suited for cases where you have few data, but in our case this is no problem. So for our analysis we selected both LSTMs and GRUs and we evaluated the performance of different network architectures going from simple architectures to more complex ones including dropout layers and autoencoders. The evaluation has proved to be more difficult than anticipated, and even if the results were not as successful as expected and RNNs did not outperform our statistical approach, in the process there has been a lot of lessons learned that we believe other companies can benefit from, so they can gain a more clear knowledge of what RNNs can actually do for them

Page 27: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

17

Método adaptativo en tiempo real para la detección de anomalías mediante aprendizaje automático

David Novoa-Paradela, Óscar Fontenla-Romero, Bertha Guijarro-Berdiñas

CITIC. Universidade da Coruña Campus de Elviña s/n, 15071 A Coruña, Spain

e-mail: [email protected]

La detección de anomalías es la subrama del aprendizaje automático encargada de construir modelos capaces de diferenciar entre datos normales y anómalos. Debido a que los datos normales son los que prevalecen en estos escenarios, y sus características suelen ser bien conocidas, el entrenamiento de los sistemas se realiza mayormente mediante el uso de datos normales, lo que diferencia a la detección de anomalías de otros problemas de clasificación estándar. Debido al habitual uso de estos sistemas en monitorización y a la inexistencia de métodos capaces de aprender en tiempo real, en este proyecto de investigación se presenta un nuevo método que proporciona dicha capacidad de adaptación online. El método desarrollado recibe el nombre de OnlineS-DSCH (Online and Subdivisible Distributed Scaled Convex Hull). Al igual que otros previos [1,2], basa su funcionamiento en la proyección de los datos de entrada a un espacio bidimensional donde se buscan cierres convexos que rodeen los datos normales y así permitan distinguirlos de los datos anómalos. La novedad es que estos cierres convexos van cambiando de forma a lo largo de tiempo, subdividiéndose, congelándose y podándose a medida que llegan más datos del sistema a evaluar y, por tanto, se tiene más conocimiento sobre él. La comparación de su rendimiento con otros algoritmos representativos del campo sobre varios conjuntos de datos demuestra que se ha obtenido un algoritmo que, frente a ellos, añade la capacidad de aprendizaje en tiempo real, una configuración más fácil (al implicar apenas hiperparámetros), produce modelos ligeros (solo necesita almacenar una ínfima fracción de los datos de entrenamiento), es capaz de adaptarse a proyecciones no convexas y, todo ello, sin que suponga una merma significativa en su eficacia en relación a las otras soluciones disponibles. Por último, su ejecución se puede llevar a cabo de manera distribuida y en paralelo, lo que supone una ventaja interesante en el tratamiento de conjuntos de datos de alta dimensionalidad. Elementos clave:

• Nuevo método para detección de anomalías adaptable en tiempo real. • Permite monitorizar sistemas y aprendizaje casi autónomo en entornos con data streaming. • Precisión similar a la de algoritmos relevantes con aprendizaje batch

Referencias [1] D. Fernández-Francos, O. Fontenla-Romero, A. Alonso-Betanzos, “One-class convex hull-based algorithm for classification in distributed environments,” IEEE Trans. Syst. Man Cybern., pp. 1–11, 2018. [2] P. Casale, O. Pujol, P. Radeva, “Approximate polytope ensemble for one-class classification”, Pattern Recognition, vol. 47, no. 2, pp. 854 – 864, 2014.

Page 28: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

18

Diabetic Retinopathy Screening Through Image Anomaly Detection

Shaon Sutradhar1,2, José Rouco1,2, Noelia Barreira1,2, Manuel G. Penedo1,2, Marcos Ortega1,2 1CITIC Research Center of Information and Communication Technology, University of A Coruña,

Spain 2Department of Computer Science, University of A Coruña, Spain

e-mail: {shaon.sutradhar, jrouco, nbarreira, mgpenedo, mortega}@udc.es

Early diagnosis of diabetic retinopathy (DR) disease through the regular screening programs is significantly important in order to prevent the further progression of the disease. Since manual assessment of retinal images in the screening programs is very arduous work, many computer-aided screening (CAS) systems have been developed to automate this image analysis process. Data driven supervised machine learning based methods, that are extensively used in the development of CAS systems, require large manually annotated datasets, which is a major challenge to acquire in the field of medical imaging. To address this issue, in this paper we propose the use of unsupervised methods for DR screening that exploits abundantly available healthy cases. Our method employs reconstruction based anomaly detection techniques, which are generally approached with autoencoders (AEs). We propose a new model architecture, the Blind-Spot Network (BSNet), designed with deep learning methodologies and trained on healthy image patches, that considerably improves the performance of autoencoders in the detection of pathological samples. The BSNet achieves a higher separability score of 0.8665 in contrast to 0.1636 of AEs, evaluated in Mahalanobis distance metric, in the reconstruction error distribution of unseen healthy and pathological cases.

Key elements:

• Diabetic retinopathy diagnosis • Pathological sample classification employing an anomaly detection technique • A new unsupervised image reconstruction based technique for anomaly detection

Page 29: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

19

Ejemplos de selección de variables funcionales en regresión y clasificación

Manuel Oviedo de la Fuente1*, Manuel Febrero-Bande1 1Departamento de Estadística, Análisis Matemático y Optimización,

Universidade de Santiago de Compostela e-mail: [email protected], [email protected]

En los últimos años la estadística y la informática aplicada a diversos campos ha producido importantes cambios tecnológicos; los cuales consisten en equipos dotados de mayor rapidez que consecuentemente proporcionan mediciones más precisas y rápidas. Esta evolución tecnológica ha modificado algunos de los paradigmas en los que se basa la estadística clásica, por ejemplo, aquellos en los que el número de observaciones en un conjunto de datos es mayor que el número de variables. Además, en muchas áreas se ha comenzado a trabajar con grandes bases de datos en las cuales es cada vez más común registrar las observaciones de una variable aleatoria en un intervalo continuo. Por ejemplo, en campos como la espectrometría, el resultado de la medición es una curva que se ha evaluado en al menos un centenar de puntos [1]. En este trabajo estudiamos la utilidad de la correlación de distancia (DC en sus siglas en inglés) [2] como un método para seleccionar puntos de impacto de un predictor funcional. El procedimiento propuesto consiste en calcular la DC entre los puntos de la curva (ver Figura 1) y la respuesta. El algoritmo busca los máximos locales de la función de DC y ajusta un modelo de regresión estándar (lineal o no) seleccionando los puntos de impacto relevantes. El procedimiento se ha comparado con un método no-paramétrico basado en técnicas de suavizado tipo Kernel [3] y un método paramétrico que consiste en la representación en una base Wavelet y la aplicación del procedimiento LASSO a los coeficientes de la base [4]. Finalmente, se compararon los métodos en datos simulados y en un ejemplo aplicado.

Figura 1: Curvas de reflectancia de la hoja de vino en la variedad de tempranillo.

Como extensión del trabajo previo, se considera el problema de la selección de variables en el caso de diferentes tipos de predictores (escalares, multivariantes, funcionales, direccionales, etc.). Nuestra propuesta comienza con un modelo nulo y selecciona de manera secuencial si una nueva variable se incorpora al modelo en función de la correlación de distancia que tenga con el residuo del modelo [6]. El procedimiento se aplicó a un problema real relacionado con el Mercado Energético Ibérico (Precio y Demanda) donde el número de posibles predictores es realmente grande (véase Figura 2).

Page 30: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

20

Figura 2: Curvas diarias de la cantidad de energía generada (izquierda) y precio contratado (derecha) por día de la

semana (laborables en rojo y festivos en verde). Los trabajos anteriores se han extendido a un contexto de clasificación supervisada de datos complejos como son las imágenes hiperespectrales (véase Figura 3). En este contexto el procedimiento utiliza información espacial (posiciones de los píxeles) e información del espectro observado en diferentes longitudes de onda.

Figura 3. Imagen de la teledetección obtenida por el sensor ROSIS con dimensión espacial de 610 X 340 píxeles

(izquierda), distribución espacial de las clases (centro) y evolución de las 103 bandas medidas en cada píxel (derecha). Elementos clave:

• Tratamiento estadístico de datos complejos: multivariantes, funcionales o de alta dimensión. • Selección de las variables o características de interés en regresión y clasificación. • Implementación reproducible en el software R a través de la librería fda.usc [7].

Referencias [1] Ramsay, J. and Silverman, B. (2005). Functional Data Analysis. Springer. [2] Székely, G., Rizzo, M., and Bakirov, N. (2007). Measuring and testing dependence by correlation of distances. The Annals of Statistics, 35(6):2769–2794. [3] Ferraty, F., Hall, P., and Vieu, P. (2010). Most predictive design points for functional data predictors. Biometrika, 94(4):807–824. [4] Zhao, Yihong, Huaihou Chen, and R Todd Ogden (2015). “Wavelet-based weighted LASSO and screening approaches in functional linear regression”. In: Journal of Computational and Graphical Statistics 24.3, pp. 655–675. [5] Ordóñez, C., de la Fuente, M. O., Roca-Pardiñas, J., & Rodríguez-Pérez, J. R. (2018). Determining optimum wavelengths for leaf water content estimation from reflectance: A distance correlation approach. Chemometrics and Intelligent Laboratory Systems, 173, 41-50. [6] Febrero-Bande, M., González-Manteiga, W., & de la Fuente, M. O. (2019). Variable selection in functional additive regression models. Computational Statistics, 34(2), 469-487. [7] Febrero–Bande M, Oviedo de la Fuente M (2012) Statistical computing in functional data analysis: the R package fda.usc. Journal of Statistical Software. 51(4):1-28.

Page 31: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

21

Diseño de Agrupación Estratégica en Inteligencia Artificial

Roberto Pérez Rodríguez, Antonio Rodríguez Del Corral CLUSTER TIC GALICIA, Edificio CEM,

Cidade da Cultura, Monte Gaiás s/n, 15707 Santiago de Compostela e-mail: [email protected]

Nombre de la empresa CLUSTER TIC GALICIA Nombre y correo electrónico de los responsables del reto Roberto Pérez Rodríguez, Gerente, [email protected] Antonio Rodríguez Del Corral, [email protected] Definición del problema a solucionar Se propone como reto realizar un diseño conceptual de una agrupación estratégica de inteligencia artificial que tenga los siguientes objetivos generales:

a) Creación de un roadmap de componentes tecnológicos de Inteligencia Artificial (IA) que puedan ser reusados por las empresas del Cluster TIC Galicia en diferentes dominios de negocio. El principal requisito es que toda la producción será software libre para enriquecer y hacer crecer la comunidad.

b) Será necesario realizar la selección de 3 áreas científicas en IA en las que Galicia podría y debería

apostar para alcanzar un nivel de excelencia tecnológica global y competitivo a nivel regional, nacional e internacional. Para alcanzar esta meta será necesario - Definición de posibles áreas científicas en las que se dividiría la agrupación estratégica - Definición de posibles objetivos científicos cuantificables y realistas a alcanzar - Definición de posibles objetivos tecnológicos (roadmap) para poder aplicar en las estrategias del

sector tecnológico gallego a los niveles necesarios - Creación de un mapa de alto nivel de grupos I+D en IA en Galicia de tal forma que el

conocimiento esté catalogado y a disposición de las necesidades detectadas Medidas de evaluación que se utilizarán para comparar el rendimiento de las soluciones aportadas por los participantes A juicio del CLUSTER TIC, se definirán al comenzar el reto al no haber un punto de partida inicial y tratarse de un reto estratégico. Premio que se oferta al equipo ganador Premio en metálico de 2.000 euros Fechas para la resolución del reto - La fecha de resolución del reto debe ser el 15 de diciembre de 2019 - Fecha de provisión de un conjunto de datos adecuado y representativo del problema, dividido en

conjunto de entrenamiento y validación: 30-10-2019 - Fecha límite para que los equipos investigadores se inscriban al reto: 25-10-2019 - Fecha límite para el envío de soluciones para el reto: 15-12-2019 - Fecha de comunicación de resultados y ganadores a los equipos participantes: 22-12-2019

Page 32: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

22

Clasificador de jugadas de fútbol

Antonio Rodríguez Del Corral CINFO, Edificio CITIC,

Campus de Elviña, 15071 A Coruña e-mail: [email protected]

Nombre de la empresa CINFO Nombre y correo electrónico de los responsables del reto Antonio Rodríguez Del Corral, CEO (Chief Executive Officer), [email protected] Definición del problema a solucionar El reto empresarial planteado consiste en crear un clasificador de jugadas deportivas, en concreto centradas en el fútbol, para el reconocimiento de una lista acotada de jugadas que se detalla a continuación:

- Penalti - Señalización de falta por el árbitro - Lanzamiento de Falta con barrera - Lanzamiento de Falta sin barrera - Saque de centro - Saque de banda - Saque de portería - Saque de esquina - Ataque estático - Contraataque - Posesión de cada equipo

Según las anteriores jugadas y su caracterización, el clasificador siempre debe tener al menos una jugada identificada en todo momento del juego. Descripción de los datos que se proporcionarán CINFO suministrará una cantidad suficiente de archivos de video de fútbol, completamente etiquetados, lo que incluye

- posición de los jugadores - posición de la pelota - jugada en curso.

Medidas de evaluación que se utilizarán para comparar el rendimiento de las soluciones aportadas por los participantes A juicio de la empresa, se definirán al comenzar el reto Premio que se oferta al equipo ganador Premio en metálico de 3.500 Fechas para la resolución del reto - La fecha de resolución del reto debe ser el 15 de diciembre de 2019 - Fecha de provisión de un conjunto de datos adecuado y representativo del problema, dividido en

conjunto de entrenamiento y validación: 30-10-2019 - Fecha límite para que los equipos investigadores se inscriban al reto: 25-10-2019 - Fecha límite para el envío de soluciones para el reto: 15-12-2019 - Fecha de comunicación de resultados y ganadores a los equipos participantes: 22-12-2019

Page 33: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

23

Challenge in Machine Learning: No more OCR for data entry in accounts payable process

Victor Fariña Infante

Queres Tecnologías S.L. (Parque Alvedro F,34 15180 Culleredo, España) e-mail: [email protected]

Definición del problema a solucionar Este documento explora los factores potenciales responsables de un gran consumo de recursos por parte de las empresas y organizaciones. La información ha sido recogida de empresas de la industria gallega con las que llevamos trabajando más de 10 años. El proceso de extracción de información de los documentos de tipo factura es, en estos momentos, total y absolutamente manual. Aunque el proceso ha sido abordado por varias compañías con múltiples soluciones, el nivel de automatización nunca supera el 80% en el mejor de los casos. Uno de los procesos que emplean todas las compañías es la compra de servicios y productos a otras compañías u organizaciones y el consecuente intercambio económico entre ambas empresas con sus obligaciones legales entre las que incluimos el documento de tipo factura. Esta actividad genera numerosos procesos que involucran por lo general a numerosas personas y sistemas informáticos. En este análisis no abordaremos el resto de procesos, nos centraremos en el proceso que genera más gastos a la compañía, el proceso de Facturación de Proveedores. Según el Real Decreto 1619/2012, de 30 de noviembre en su capítulo II una factura ha de contener al menos la información siguiente:

- Número y serie (correlativo). - La fecha de expedición. - Razón social o Nombre y apellidos del obligado a expedir factura y del destinatario. - Numero de identificación fiscal del obligado a expedir la factura y del destinatario. - Domicilio, del obligado y del destinatario - Descripción de las operaciones - La fecha de la operación - Tipo impositivo - Cuota tributaria que se repercute - Importe de la factura

Existen variaciones en los campos y diferentes restricciones para otros tantos, pero para el caso que nos consta estos son los principales atributos que debe poseer un documento de tipo factura. El proceso de facturación de proveedores lo podemos simplificar mucho, pero básicamente es el siguiente

Page 34: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

24

Todo comienza con una compra o servicio por parte de una empresa que llamaremos ACME, lo cual es genérico a todas las compañías. A partir de ahí todo es específico de cada empresa, en el caso analizado tras la recepción del producto o servicio el proveedor emite una factura y la envía a la empresa ACME. El formato y mecanismo de envío es dispar entre los proveedores y puede ser electrónico o en papel, en el caso de ser electrónico la factura puede llegar en varios formatos, PDF, PDF firmado digitalmente, Factura-e, EDI, etc … En el caso del papel es necesario digitalizar el documento y convertirlo en PDF, con lo que ya estamos en el caso . Una vez que el documento está en el sistema de ACME, hay que introducir los datos mínimos que debe tener una factura y realizar un proceso de comprobación de que ACME ha solicitado un pedido por dicho importe con dicho proveedor y demás. El siguiente paso es opcional, aunque bastante común en empresas grandes suele haber una fase de aprobación manual de las facturas para que finalmente y tras pasar todos los filtros de la compañía la factura se pague finalmente al proveedor. El caso que genera más trabajo sin lugar a dudas es el de mecanizado de las facturas una vez recibido el documento. Este subproceso trata de reflejar una relación entre los datos obligatorios indicados en la Tabla 1 y los que figuran en la factura.

Este subproceso consiste básicamente en asociar de cada uno de los datos mínimos de una factura a un atributo de la misma. La tipología de las facturas es muy diversa, pero habitualmente en una compañía el 90% de las facturas de sus proveedores provienen siempre del mismo proveedor, siendo el restante 10% facturas de proveedores nuevos o proveedores antiguos que hayan cambiado el formato de las facturas. Datos a tener en cuenta Para ello disponemos de un conjunto aproximado de 1.000.000 facturas en formato PDF con texto incrustado con sus atributos asociados (mencionados en la tabla 1) y correctamente verificados. Las medidas de evaluación para comparar soluciones corresponden a la cantidad de información que es capaz de extraer de una serie de facturas nuevas que se introducen en el sistema tras su entrenamiento. Se considerará tanto el nivel de acierto de los atributos dentro de una factura como el nivel de acierto en el número de facturas completadas con éxito.

Page 35: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

25

Definiendo éxito en el acierto de una factura como el reconocimiento de un 100% de los atributos de la factura. Por lo tanto la unidad de medida es el numero de aciertos en una factura y el numero de facturas reconocidas de una muestra de 100 unidades. De estas 100 facturas 80 serán facturas ya existentes en el conjunto muestral inicial y cambiando lógicamente los datos y las 20 restantes corresponderán a facturas completamente nuevas con estructura diferente. El premio ofertado para el equipo ganador es de 2.000€ Fechas para la resolución del reto - Podemos proporcionar los datos necesarios para comenzar a trabajar en el problema en el próximo 8 de

enero del 2020 dividido correctamente el conjunto de datos. - La fecha límite para que los equipos se inscriban al reto sería el 26 de noviembre de 2019 - Las soluciones debería estar enviadas antes del 8 de julio del 2020, aunque esta fecha es negociable. - La fecha de comunicación de los resultados del reto será el 4 de septiembre de 2020 Referencias [1] https://www.boe.es/buscar/act.php?id=BOE-A-2012-14696

Page 36: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

26

Page 37: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

27

SESIÓN DE COMUNICACIONES III

Page 38: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

28

Page 39: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

29

Arquitectura, casos de uso, e historias de éxito de un sistema data analytics en

automoción: el caso PSA Groupe Vigo

Angel Dacal-Nieto1, Elena Rodriguez-Cardoso1, Victor Alonso-Ramos1, Marcos Lluch2, Juan José Areal2

1Dpto. de Procesos y FoF, CTAG – Centro Tecnológico de Automoción de Galicia, Pol. Ind. A Granxa, 36475 O Porriño, España

2PCAE – Peugeot Citroën Automóviles España S.A., Avda. Citroën 1, 36213 Vigo, España e-mail: [email protected]

Las empresas de fabricación están actualmente inmersas en la transformación de sus procesos, desde el paradigma 3.0, basado en automatización, robótica y el Lean Manufacturing, hacia el enfoque 4.0, basado en la digitalización de la producción y la explotación de datos. En este contexto, PSA Groupe [1] y CTAG [2] están colaborando en los últimos años en un proyecto de transformación de la fábrica de Vigo, que incluye actividades específicas de analítica de datos. Para ello, se comenzó con la definición de un roadmap, una arquitectura provisional en una zona de la fábrica (Pintura), y la realización de los primeros análisis de calidad, fiabilidad y mantenimiento predictivo. Algunas de las historias de éxito incluyen:

• reducción en el ratio de defectos por el descubrimiento de relaciones causa-efecto con parámetros de fabricación previos

• optimización de procesos • detección de desviaciones de parámetros

Todas han supuesto ahorros para la fábrica, y el registro, visualización y alertas implementados abren nuevas posibilidades para una mejora de productividad y eficiencia. El proyecto está actualmente trasladándose al resto de la fábrica, y a otras fábricas del grupo. Los próximos pasos son el despliegue de una arquitectura definitiva y la utilización extensiva de la solución. Los autores quieren agradecer la contribución del proyecto F4.0 Automoción para la realización de este trabajo. Referencias [1] PSA Groupe: http://www.groupe-psa.com [2] CTAG – Centro Tecnológico de Automoción de Galicia: http://ctag.com/

Page 40: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

30

Behavioral authentication system based on AI for touch-screen devices

Arturo Silvelo, Daniel Garabato, Minia Manteiga, Carlos Dafonte CentrodeinvestigaciónCITIC,UniversidadedaCoruña,CampusdeElviñas/n,15071ACoruña,

Españae-mail: [email protected]

Since the beginning of Information Technologies, authentication models have been an essential component for information security. These mechanisms [1] have adapted to the new devices and technologies that have appeared over the years and nowadays mobile phones are an indispensable tool to perform any daily operation. However, the authentication mechanisms commonly used present certain issues that can lead to security incidents related to unsecure and lost passwords. For these reasons, new and more secure authentication systems [2] such as the biometric ones have been implemented, making use of unique human traits as passwords. Even so, these authentication systems continue to present a common problem, since they only verify the legitimacy of the user at the beginning of the session and not during it. In this work, a continuous authentication model based on user behavior [3] regarding the use of the mobile device was proposed. This model is presented as a second authentication factor, which verifies the legitimacy of the user in a transparent manner, being able to detect if the user who is making use of the session is the one that was originally authenticated. For this purpose, it was necessary to create a multiplatform application that collects any information necessary to generate a profile for of each user, using the motion sensors available on the device (mainly, accelerometer and gyroscope) and the touch-screen to capture the events associated with the session. The events obtained through the motion sensors were grouped in time window, whereas the events provided by the touch-screen were grouped into gestures (swipe, rotate, tap, press, pinch, pan) in order to obtain patterns to identify the user. With this objective, an important effort was made in order to achieve an appropriate set of features, minimizing the network traffic between server and client, as well as the training time and the response time of the authentication process. Additionally, several Artificial Intelligence techniques were compared and also combined in order to create such profiles, obtaining a set of hybrid techniques for user identification. All these techniques were integrated in a client-server environment that allows a continuous user authentication process, enhancing the security level. This streaming scheme increases even more the overall security, since the authentication process is repeated over the user’s session, decreasing the misclassification rate. Key points:

• Second phase biometric authentication system based on behavior analysis for touch-screen devices • Features extraction for user identification using touch screen and movement sensors • Real-time streaming for online behavior analysis

References [1] Stallings, W.; Brown, L. Computer Security: Principles and Practice, 2nd ed.; Pearson Education Limited: London, UK, 2012. [2] Barkadehi, M.H.; et al. Samad, S. Authentication systems: A literature review and classification. Telemat. Inform. 2018, 35, 1491–1511. [3] M. E. Haq; et al. Continuous authentication of smartphone users based on activity pattern recognition using passive mobile sensing,' Journal of Network and Computer Applications

Page 41: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

31

Deep Anomaly Detection for Generalized Face Anti-Spoofing

David Jiménez-Cabello1, Daniel Pérez-Cabo1 1GRADIANT – Centro Tecnolóxico de Telecomunicacións de Galicia

Edificio CITEXVI, local 14, Vigo, Pontevedra 36310, SPA e-mail: [email protected], [email protected]

Face recognition has achieved unprecedented results, surpassing human capabilities in certain scenarios. However, these automatic solutions are not ready for production because they can be easily fooled by simple identity impersonation attacks. And although much effort has been devoted to develop face anti-spoofing models, their generalization capacity still remains a challenge in real scenarios. In this paper1, we introduce a novel approach that reformulates the Generalized Presentation Attack Detection (GPAD) problem from an anomaly detection perspective. Technically, a deep metric learning model is proposed, where a triplet focal loss is used as a regularization for a novel loss coined “metric-softmax”, which is in charge of guiding the learning process towards more discriminative feature representations in an embedding space. Finally, we demonstrate the benefits of our deep anomaly detection architecture, by introducing a few-shot a posteriori probability estimation that does not need any classifier to be trained on the learned features. We conduct extensive experiments using the GRAD-GPAD framework that provides the largest aggregated dataset for face GPAD. Results using just still images confirm that our approach is able to outperform all the state-of-the-art methods2,3 by a considerable margin. Key Elements:

• Face anti-spoofing is a fundamental step to provide security on face recognition systems. • We propose a novel deep anomaly detection approach based on metric learning for face GPAD. • Extensive experiments demonstrate that our method outperforms state-of-the-art approaches.

Figure 1: We propose a deep metric learning approach, using a set of Siamese CNNs, in conjunction with the combination of a triplet focal loss and a novel “metric softmax” loss. The latter accumulates the probability distribution of each pair within the triplet. Our aim is to learn a feature representation that allows us to detect impostor samples as anomalies.

References: [1] Pérez-Cabo, D., et al. Deep Anomaly Detection for Generalized Face Anti-Spoofing. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPR 2019), pp. 0-0. [2] Liu, Y., et al. Learning deep models for face anti-spoofing: Binary or auxiliary supervision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018), pp 389-398. [3] Z. Boulkenafet, et al. Face spoofing detection using colour texture analysis. IEEE Transactions on Information Forensics and Security (TIFS 2016), pp 1818–1830. This paper was accepted as an oral presentation during CVPRW2019 (Computer Vision and Pattern Recognition Workshops).

Page 42: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

32

Sistema Deep Learning de predicción de movimiento de buques

Alberto Alvarellos 1, Juan Rabuñal 2 1 Universidad de A Coruña, grupo RNASA, Departamento de Computación, CITIC, Elviña, 15071

A Coruña, España. 2 Universidad de A Coruña, grupo RNASA, Departamento de Computación, CITEEC, Elviña,

15071 A Coruña, España. e-mail: [email protected]

En este trabajo presentamos un sistema de predicción de movimiento de buques basado en un modelo Deep Learning. Hemos registrado durante varios años el movimiento de múltiples buques de carga en el Puerto Exterior de Punta Langosteira (A Coruña, España) y hemos creado un modelo Deep Learning que clasifica el movimiento del barco dadas sus dimensiones, el estado del mar y las condiciones meteorológicas. Su estructura puede observarse en la Figura 1 donde las entradas del modelo son:

− H0≡niveldelmar,respectoalcerodelpuerto.− Hs≡alturadeolasignificante:alturamediadelterciosuperiordelasolasconmayoraltura.− Tp≡períodopicodelaola:períododelasolasconmayorenergíaenunanálisisespectral.− θm≡direcciónmediadepropagacióndelasolas.− Ws≡velocidadmediadelviento.− Wd≡direcciónmediadelviento.− L:longituddelbuque.− B:anchodelbuque.

La salida del modelo indica si el movimiento del barco sobrepasará los límites legales [1].

Para explotar el modelo hemos creado un sistema que permite gestionar modelos de aprendizaje automático y mostrar sus salidas en una aplicación web. El frontend del sistema se implementó utilizando Node-RED y el backend usa una arquitectura basada en microservicios y está dividido en dos microservicios: uno responsable de obtener los datos de entrada del modelo y otro responsable de manejar el ciclo de vida del modelo y proporcionar las salidas de este en forma de un servicio REST. La arquitectura del sistema y las tecnologías que usa pueden observarse en la Figura 2 y el frontend en la Figura 3.

Figura1:Estructuradelaredneuronalprofunda

Page 43: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

33

Monitorizar el movimiento de un buque atracado es una tarea difícil y costosa y los operadores portuarios no tienen medios para predecir si el buque va a exceder los límites establecidos para los diferentes movimientos. Usando nuestro modelo en el sistema que hemos creado obtenemos una herramienta que, haciendo uso del sistema de predicción meteorológico de Portus [2], es capaz de predecir el comportamiento de un buque amarrado con 72 horas de antelación. Esto ayudará a coordinar las operaciones del buque, minimizando el impacto económico y físico que la olas, mareas y viento tienen sobre los buques. Elementos clave:

– Creación de un sistema de predicción basado en Deep Learning – Creación de un sistema para predicción de movimientos de buques atracados – Herramienta open source basada en Node-RED y el ecosistema de Anaconda

Referencias [1] Llorca, J., Gonzalez Herrero, J.M., Ametller, S. Rom 2.0-11: Recomendaciones para el proyecto y ejecución en obras de atraque y amarre. Puertos del Estado, Madrid (2012). [2] Web de Puertos del Estado, http://www.puertos.es/en-us/nosotrospuertos/Pages/Nosotros.aspx, accedido el 19/09/2019.

Figura2:Arquitecturadelsistema

Figura3:Frontend

Page 44: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

34

Mejorando word embeddings multilingüe mediante representaciones promedio

Yerai Doval1 Jose Camacho-Collados, Luis Espinosa-Anke, Steven Schockaert2

1Grupo COLE, Escola Superior de Enxeñaría Informática, Universidade de Vigo, Spain e-mail: [email protected]

2School of Computer Science and Information, Cardiff University, UK e-mails: {camachocolladosj,espinosa-ankel,schockaerts1}@cardiff.ac.uk

Presentamos Meemi, un método de postprocesamiento de word embeddings multilingüe obtenidas mediante alineamientos bilingües. Nuestros resultados muestran una mejora del rendimiento en múltiples tareas con respecto al alineamiento inicial. Además, nuestro método ofrece la posibilidad de obtener espacios verdaderamente multilingües.

Nuestro método de postprocesamiento, que hemos denominado Meemi (por “Meeting in the Middle”), mejora la integración de espacios de word embedding monolingües inicialmente aislados (1) y posteriormente alineados mediante herramientas del estado del arte (2) como VecMap [1] y MUSE [2]. Para mejorar dicha integración, aplicamos sobre estos alineamientos una transformación lineal no restringida que se aprende haciendo corresponder las traducciones de palabras con sus representaciones promedio (3). En nuestro caso, vamos más allá de la configuración bilingüe habitual en estas herramientas ya que Meemi puede extenderse naturalmente a un número arbitrario de idiomas que acaban integrados en un único espacio vectorial compartido. Para la evaluación hemos considerado no solo la integración de idiomas indoeuropeos habituales, tales como inglés, español, italiano y alemán, sino también otros idiomas más distantes, como el finlandés, el farsi o el ruso. Además, hemos considerado no solo las tareas intrínsecas habituales tales como traducción automática de palabras o similitud de palabras, sino también dos extrínsecas como son el descubrimiento de hiperónimos y la inferencia de lenguaje natural. Los resultados obtenidos muestran que Meemi es capaz de mejorar los resultados logrados por los métodos de alineamiento básicos, con ganancias significativas cuando se aplica sobre variantes ortogonales y también cuando se consideran idiomas distantes (hasta 9.1% de mejora absoluta respecto a las alineaciones iniciales). Por otro lado, los buenos resultados obtenidos con los modelos multilingües son quizás los más esperanzadores de todos ellos, dado que demuestran que integrar más de dos idiomas en un espacio vectorial compartido es altamente beneficioso en muchas ocasiones (hasta 1.7% de mejora absoluta respecto al caso bilingüe). Puntos clave:

• Procesamiento del lenguaje natural

Page 45: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

35

• Word embeddings • Word embeddings multilingüe

Referencias [1] Artetxe, M., Labaka, G., and Agirre, E. Generalizing and improving bilingual word embedding mappings with a multi-step framework of linear transformations. In Proc. of the 32th AAAI Conf. on Artificial Intelligence (2018) 5012 – 5019. [2] Conneau, A., Lample, G., Ranzato, M., Denoyer, L., and Jegou, H. Word translation without parallel data. In Proc. of the 6th Int. Conf. on Learning Representations (2018).

Page 46: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

36

Análisis de sentimiento aplicado a un chatbot conversacional

José Ángel Regueiro Janeiro, Francisco de Arriba Pérez, Silvia García Méndez, Francisco J. González Castaño

GTI Research Group, atlanTTic, Telematics Engineering Department, University of Vigo, Telecommunication Engineering School, 36310 Vigo, Spain

e-mail: [email protected]

Según el INE, el índice de envejecimiento se ha disparado al 121%. Esto es especialmente preocupante ya que más del 54% de los mayores se encuentran en situación de dependencia [1]. Muchos de ellos combaten la soledad recurriendo a la televisión o la radio [2,3]. Investigamos soluciones para acompañarlos en su día a día y acercar el mundo de la información digital a través de tecnologías innovadoras, ayudando a salvar la brecha de accesibilidad tecnológica.

En el marco del proyecto CADELA se ha planteado un chatbot para entretener e informar a los mayores y les invita a participar a través de un diálogo enriquecido con inteligencia empática aplicando técnicas de Análisis de Sentimiento (AS).

Para el AS se emplean algoritmos propios y de terceros (en concreto los recogidos en la librería Scikit-learn para Python). Detectamos el estado del ánimo del usuario mediante un sistema supervisado de AS. Esto hace la conversación más realista, ya que las respuestas del bot se ajustan al estado de ánimo del usuario posibilitando la variación del diálogo en función del sentimiento (positivo o negativo).

Figura 1. Diagrama de flujo del módulo de AS Los Listados 1 y 2 presentan ejemplos de entrada y salida del chatbot conversacional. En este ejemplo el chatbot detecta que “Hoy es un día genial” es una interacción positiva y responde de forma empática.

Listado 1. JSON de entrada

Page 47: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

37

{ "id": "1556261", "screenName": "fran", "rawText": "Hoy es un día genial", "language": "es" }

Listado 2. JSON de salida

{ "id": "1556261", "screenName": "fran", "rawText": "Me gusta que veas las cosas así. ¿Quieres contarme algo más?", "language": "es" "polarity": 1 }

El sistema supervisado de AS presenta una precisión del 70%. Elementos clave:

● Desarrollo de un sistema supervisado de AS usando Machine Learning ● Detección del estado del ánimo del usuario ● Generación de diálogos ajustados al estado de ánimo de los usuarios

Referencias [1] Disponible en https://www.ine.es/. [2] Blaakilde, A. L. (2018). The becoming of radio bodies. European Journal of Cultural Studies, 21(3), 290-304. [3] Rodríguez Martín, Marta. (2009). La soledad en el anciano. Gerokomos, 20(4), 159-166.

Page 48: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

38

inVerbis: Minería de datos aplicada a la mejora de procesos

Alejandro Ramos Soto, Gonzalo Martín Alcrudo, Senén Barro Ameneiro, Alberto Bugarín Diz, Manuel Lama Penín, Manuel Mucientes Molina

Centro Singular en Investigación en Tecnoloxías Intelixentes (CiTIUS), Universidade de Santiago de Compostela

e-mail: [email protected], [email protected], [email protected], [email protected], [email protected], [email protected]

Las metodologías científicas para la optimización y mejora de procesos han sido unaconstante en la gestión empresarial desde la irrupción del taylorismohasta las técnicas degestión japonesas. Desde finales de los noventa, se transformó el enfoque evolucionandodesdeelanálisisbasadoeneldiseñodemodelosidealesalaexplotacióndelosdatosrealesque generan los sistemas de información, técnica denominada Business Process Analytics(BPA).

En el último lustro, la mejora de las capacidades tecnológicas ha permitido acelerar esteenfoquemetodológicoporelque,graciasalamineríadedatos,ahoraesposiblesaberquéhasucedidorealmenteenlaproduccióndebienesyserviciosyactuarsobreeldesempeñoreal:losflujogramasyprocedimientosquerepresentanlosprocesossólomuestranel“deberíaser”en vez de lo que realmente sucede. Bucles, repeticiones, procedimientos alternativos ycircunstancias no procedimentadas son más frecuentes que el proceso teórico en muchoscasos.

La utilidad del BPA se traduce en el conocimiento de las operaciones reales que ejecuta laempresa,contrastarelgradodeconformidadconlanormaoprocedimientoyladeteccióndesideterminadasactividadescríticasonormativasseejecutanenlarealidad.

Desde el CiTIUS de la USC estamos sentando las bases de la futura spin-off inVerbis, quedispondrá de una potente plataforma cloud de Business Process Analytics, dotada decapacidadesBigData,analíticasavanzadasdedescubrimientoyconformidaddeprocesos,yvisualizaciónyexplicaciónautomáticadelosmismosenlenguajenatural.Ytodoelloatravésde una sencilla y cómoda interfaz de usuario. Gracias a sus algoritmos a la vanguardia delestadodel arte, conocer el comportamiento real deunproceso y su impacto en el negocio,contrastarlo con el proceso ideal, o consultar situaciones concretas quedarán al alcance deescasosclics.

Page 49: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

39

SESION PÓSTERES I

Page 50: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

40

Page 51: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

41

Detección temprana de depresión: Análisis de redes sociales y técnicas de aprendizaje máquina

Fidel Cacheda1, Diego Fernández1, Francisco J. Novoa1, Víctor Carneiro1

1CITIC – Centro de Investigación TIC Departamento de Ciencias de la Computación y Tecnologías de la Información

Facultad de Informática, Campus de Elviña s/n 15071, A Coruña

e-mail: {fidel.cacheda, diego.fernandez, francisco.javier.novoa, victor.carneiro}@udc.es

La depresión se encuentra entre los desórdenes psiquiátricos más prevanlentes hoy en día, afectando a más de 300 millones de personas a nivel mundial [1, 2]. La detección temprana se considera crítica para poder realizar una rápida intervención que pueda, potencialmente, reducir el avance del desorden. En este estudio hemos utilizado datos de redes sociales para explorar distintos métodos de detección temprana de depresión basados en aprendizaje máquina. Hemos realizado un análisis detallado del dataset para caracterizar el comportamiento de los sujetos basado en diferentes aspectos de sus comentarios: la extensión de los textos, el lapso temporal y la extensión temporal. Realizamos dos propuestas diferentes basadas en aprendizaje máquina simple y dual. El primero se caracteriza por emplear un único clasificador Random Forest (RF) con dos funciones umbral, mientras que el segundo emplea dos clasificadores RF independientes, uno para detectar sujetos deprimidos y otro para identificar individuos no deprimidos. En ambos casos, las características empleadas han sido definidas a partir de similitudes textuales, semánticas y de escritura. La evaluación realizada sigue una aproximación basada en el tiempo que premia la detección temprana y penaliza detección tardías, aunque sean correctas. Los resultados demuestran como el modelo dual se comporta significativamente mejor que el modelo simple y es capaz de mejorar los modelos del estado del arte en más de 10%. En base a estos resultados, consideramos que este estudio puede servir de ayuda en el desarrollo de nuevas soluciones abordar la detección temprana de la depresión en redes sociales [3]. Referencias [1] Kessler R.C., Aguilar-Gaxiola S., Alonso J., Chatterji S., Lee S., Ormel J., et al. The global burden of mental disorders: an update from the WHO World Mental Health (WMH) surveys. Epidemiology and Psychiatric Sciences, 18(1) (2009) 23-33. [2] Le H.N., Boyd R.C. Prevention of major depression: early detection and early intervention in the general population. Clinical Neuropsychiatry: Journal of Treatment Evaluation, 3(1) (2006) 6-22. [3] Cacheda F., Fernandez D., Novoa F.J., Carneiro V. Early Detection of Depression: Social Network Analysis and Random Forest Techniques. Journal of Medical Internet Research, 21(6) (2019) e12554.

Page 52: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

42

N-gramas de sentidos para el análisis de sentimientos en Twitter

José Abreu1,2, Iván Castro1, Claudia Martínez1, Sebastián Oliva1, Yoan Gutiérrez3 1 Universidad Católica de la Santísima Concepción

2 Universidade da Coruña 3 Universidad de Alicante

e-mail: [email protected]

El trabajo estudia la aplicación de n-gramas de sentidos (coocurrencias de sentidos de WordNet), SentiWordNet como lexicón de polaridad junto a otros rasgos de superficie, léxicos y semánticos a la detección de la polaridad (positivo, negativo, neutro) en Twitter. Además, se realiza un estudio de selección de rasgos para evaluar el efecto de excluir diferentes tipos de variables ampliamente utilizadas en el dominio [1, 2] basadas en n-gramas a nivel de palabra y carácter. La principal motivación es que el número de estos atributos depende del corpus pudiendo generar más de un millón de rasgos en el caso de los n-gramas a nivel de palabra. En total, se evaluaron 160 modelos diferentes en el corpus de la Tarea 4 Semeval 2017. Los principales hallazgos de estos experimentos pueden resumirse en:

– Excluir n-gramas a nivel de carácter degrada el resultado, siendo esto coherente con [1]. Sin embargo, si se incluyen algunos de los nuevos rasgos propuestos (polaridad de palabras alargadas y del último emoticono, n-gramas de sentidos) entonces descartarlos es conveniente.

– Los n-gramas a nivel de palabra tienen un mayor poder predictivo que aquellos a nivel de carácter. Sin embargo, excluyendo ambos tipos pueden conseguirse reducciones importantes del número de rasgos (de aproximadamente 2.999.189 a 822.650). Aunque también se degrada el rendimiento, en algunos casos lo hace ligeramente, F1 de 0.654 a 0.652. De acuerdo con este criterio, dicho modelo quedaría sexto de treinta y ocho sistemas participantes en el Semeval 2017. Esto abre posibles líneas de trabajo futuro sobre la identificación de un conjunto reducido de rasgos independientes del corpus.

– Descartar los rasgos basados en clúster (CMU pos-tagging + Brown) condujo a un peor rendimiento en el 91.25% de los casos. Como quiera, este tipo de rasgos no depende del tamaño del corpus (solo se emplean 1000).

– Al desambiguar utilizando Lesk (en vez del sentido más frecuente), en el 52.73% de los casos se obtuvieron resultados superiores (estadísticamente significativos)

Referencias [1] Mohammad, S., Kiritchenko, S., Zhu, X. Nrc-canada: Building the state-of-the-art in sentiment analysis of tweets. Proc. Second Joint Conf. on Lexical and Computational Semantics, 2 (2013) 321-327. [2] Baziotis, C., Pelekis, N., S., Doulkeridis, C. Nrc-canada: DataStories at SemEval-2017 Task 4: Deep LSTM with Attention for Message-level and Topic-based Sentiment Analysis. 11th International Workshop on Semantic Evaluation. (2017) 747-754.

Page 53: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

43

Análisis de temporalidad de noticias financieras

Ana Barros Vila, Silvia García Méndez, Francisco J. González Castaño GTI Research Group, atlanTTic, Telematics Engineering Department, University of Vigo,

Telecommunication Engineering School, 36310 Vigo, Spain e-mail: [email protected]

Partiendo de un dataset anotado en términos de temporalidad de noticias financieras, se han aplicado técnicas de aprendizaje automático para obtener un sistema capaz de predecir cuál es el foco temporal de la noticia, aislándolo para ello de toda su contextualización.

El dataset consta de 518 noticias extraídas de fuentes económicas (Bloomberg News, El Economista, etc.). Dichas noticias también están etiquetadas en base al activo al que hacen referencia (Intel, Amazon, etc.). Existen 249 noticias que hacen referencia al pasado, 141 en el futuro y 128 que justifican en base a hechos pasados situaciones futuras. Además, cada noticia se encuentra dentro de una de las categorías recogidas en la Tabla 1.

Tabla 1. Tipos de noticias en función del estado del mercado

Tipo Descripción

Subida B Bajada C Variable D Indecisión E Bajada-subida

El proceso se lleva a cabo generando un resumen extractivo [1] de cada noticia teniendo en cuenta la importancia de cada frase dentro del conjunto de la misma en base al cálculo del TF-IDF [2]. El sistema es capaz de extraer el “umbral de relevancia” de cada frase de forma automática.

El análisis de temporalidad se centra en verbos ya que son los elementos con mayor información temporal; a diferencia de los adverbios que actúan como complementos de las oraciones y por tanto son prescindibles.

La Figura 1 representa el diagrama de flujo del sistema.

Page 54: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

44

Figura 1. Diagrama de flujo del sistema de detección de temporalidad

El Listado 1 presenta un ejemplo de entrada (noticia financiera) y salida (resumen extractivo en negrita).

Listado 1. Noticia de entrada y su resumen extractivo

[...] Among chipmakers, Microchip Technology (MCHP) lost more than 3% to slide well below its 50-day line. ON Semiconductor (ON), Texas Instruments (TXN) and Analog Devices (ADI) shed 2% or more apiece. In the chip designer (fabless) group, Semtech (SMTC) and Advanced Micro Devices (AMD) gave up a respective 4% and 3%. Semtech closed below its 200-day line for the first time since late January. [...]

Resultados preliminares sostienen que el sistema propuesto acierta en torno al 81.66% de los casos. Elementos clave:

● Desarrollo de un sistema no supervisado de detección temporal ● Generación de resúmenes extractivos a partir de noticias financieras ● Detección del estado del mercado

Referencias [1] Alcón, Ó., & Lloret, E. (2015). Estudio de la influencia de incorporar conocimiento léxico-semántico a la técnica de Análisis de Componentes Principales para la generación de resúmenes multilingües. Linguamatica. ISSN: 16470818. [2] Ramos, J. (2003). Using TF-IDF to determine word relevance in document queries. In Proceedings of the First Instructional Conference on Machine Learning, vol. 242, pp. 133-142.

Page 55: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

45

Estimación no paramétrica de la probabilidad de mora en riesgo de crédito

Rebeca Peláez Suárez, Ricardo Cao Abad, Juan M. Vilar Fernández Grupo MODES, Departamento de Matemáticas, CITIC Universidade da Coruña e ITMATI, A

Coruña, España. e-mail: [email protected], [email protected], [email protected]

El principal objetivo de este trabajo es proponer modelos para estimar la denominada probabilidad de mora (PD) definida como la probabilidad de que un cliente, cuya puntuación crediticia es conocida, se declare incapaz de continuar pagando un crédito al cabo de cierto tiempo de la concesión del mismo. La PD condicionada a la puntuación crediticia puede ser escrita como una transformación de la función de supervivencia condicional de la variable "tiempo hasta la mora" y dicha variable está censurada. Por ello, los estimadores se proponen desde la perspectiva de los datos censurados y el análisis de supervivencia. Se consideraron tres estimadores de la supervivencia condicional: el estimador de Beran [1], el estimador WLL [2], el estimador WNW (una modificación del estimador WLL) y el estimador de Van Keilegom-Akritas [3]. Estos estimadores se transformaron para obtener los correspondientes estimadores de la PD y se encontraron las expresiones asintóticas de su sesgo y varianza. Se analizó su comportamiento mediante estudios de simulación. Las conclusiones extraídas de dichas simulaciones permitieron descartar el estimador WLL como estimador de la probabilidad de mora y concluir que la opción más razonable en cuanto al error de estimación y el tiempo de computación es el estimador de Beran. Además, se propone una suavización en la variable tiempo de los estimadores de la función de supervivencia condicional, la cual reduce el error cuadrático medio integrado que se comete en la estimación de la PD. Elementos clave:

• Kernel method • Risk analysis • Survival analysis for probability of default estimation

Referencias [1] Beran, R. Nonparametric regression with randomly censored survival data. Technical report, University of California (1981). [2] Cai, Z. Weighted local linear approach to censored nonparametric regression. Recent Advances and Trends in Nonparametric Statistics, Michael G. Akritas and Dimitris N. Politis (2003), pp. 217--231. [3] Van Keilegom, I. and Akritas, M.G. Transfer of tail information in censored regression models. The Annals of Statistics (1999), 27:5, pp. 1745--1784.

Page 56: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

46

Comparing The Performance of Unsupervised Techniques for Intrusion Detection

Jorge Meira1, Rui Andrade2, Isabel Praça2, João Carneiro2, Verónica Bolón-Canedo1, Amparo

Alonso-Betanzos1, Goreti Marreiros2 1CITIC, University of Coruña, Coruña 15071, Spain

e-mail: {j.a.meira, veronica.bolon, ciamparo}@udc.es 2GECAD, ISEP/IPP, Porto 4200-072, Portugal

e-mail: {rfaar, icp, jomrc, mgt}@isep.ipp.pt In this study we evaluated and compared the performance of different types of anomaly detection techniques in two public available datasets: the NSL-KDD and the ISCX. The aim of this evaluation allows us to understand the behavior of these techniques and understand how they could be fitted in an Intrusion Detection System (IDS). Observing Figure 1, we have employed some pre-processing methods to prepare the data such as: the holdout method to split the datasets in train and test set; discretization using the equal frequency technique; and data normalization with Z-Score and Min-max. After the data cleaning and transformation, we applied six unsupervised algorithms, namely Autoencoder, Nearest Neighbor, K-Means, Scaled-Convex Hull, One-Class Support Vector Machine (OC SVM), Isolation Forest and evaluate their performance in NSL-KDD [1] and ISCX [2] datasets.

Figure 1 - Anomaly detection methodology [3]

We present the results of the best techniques applied to each algorithm for NSL-KDD and ISCX datasets in Figure 2 using the metrics Precision, Recall and F1-Score. As we can see, all algorithms could detect most of the intrusions and also showed that they have managed to separate adequately the data between classes even though they were unbalanced.

Page 57: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

47

a) b) Figure 2 - Anomaly detection results in a) ISCX and b) NSL-KDD datasets [3]

Analysing the performance, we conclude that the 1-Nearest Neighbor, SCH and 𝜈-SVM presented the highest results in both datasets but the SCH and 𝜈-SVM generated more false negatives than false positives errors in the NSL-KDD dataset. We suggest the implementation of the 1-Nearest Neighbor in an IDS since it is capable of detecting most of the anomalies and moreover it was also one of the fastest unsupervised techniques in the computing process of anomaly detection.

Key Elements: • Unsupervised learning • Intrusion detection • Anomaly detection.

References [1] M. Tavallaee, E. Bagheri, W. Lu, and A. A. Ghorbani, “A detailed analysis of the KDD CUP 99 data set,” IEEE Symp. Comput. Intell. Secur. Def. Appl. CISDA 2009, no. Cisda, pp. 1–6, 2009. [2] A. Shiravi, H. Shiravi, M. Tavallaee, and A. A. Ghorbani, “Toward developing a systematic approach to generate benchmark datasets for intrusion detection,” Comput. Secur., vol. 31, no. 3, pp. 357–374, 2012. [3] J. Meira et al., “Performance evaluation of unsupervised techniques in cyber-attack anomaly detection,” J. Ambient Intell. Humaniz. Comput., pp. 1–13, Aug. 2019.

Page 58: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

48

Medida indirecta en un sistema “Bag in Tank” aplicando técnicas de Machine Learning

Gonzalo Ferro Costas

Data Scientist de EcoMT e-mail: [email protected]

OTEA es una plataforma IoT que desde el año 2010 ha sido desarrollada para el control y seguimiento de diferentes máquinas y equipos especialmente los dedicados a climatización del sector retail. La versatilidad de la plataforma OTEA permite extender su funcionamiento a otros sectores donde se necesite la monitorización continua de dispositivos. En este trabajo se presenta un proyecto piloto OTEA MOIO donde se utilizan las capacidades de la plataforma para la monitorización de tanques de cerveza. En este piloto se monitoriza diferentes variables del tanque tales como: presión y volumen de aire comprimido inyectado en el tanque, temperatura de retorno del agua de refrigeración del tanque… Las únicas condiciones impuestas por el fabricante de cerveza fueron:

1. Ningún sensor puede entrar en contacto directo con la cerveza. 2. No se puede colocar ningún sensor dentro del tanque de cerveza.

Figura 1. Monitorización de tanques en tiempo real

Los objetivos principales del sistema de monitorización eran:

1. Conocer constantemente el volumen de cerveza dentro de cada tanque sin contacto directo con el producto.

2. Monitorizar los valores de funcionamiento del sistema del tanque (temperaturas, presión…) 3. Predecir patrones de consumo. Utilizar estos datos para predecir y optimizar la logística de rellenado

de los tanques. 4. Detección precoz de averías para optimizar la solución de incidencias.

El principal reto del piloto fue el primer punto ya que solo con las medidas indirectas registradas por OTEA, la plataforma debería proporcionar una estimación del volumen de cerveza en el interior del tanque. Utilizando las medidas de diferentes ciclos de carga y descarga se entrenaron diferentes algoritmos de Deep Learning. Finalmente se obtuvo un modelo que nos permite estimar, en tiempo real, el volumen de cerveza en el interior del tanque utilizando los datos continuamente registrados por la plataforma OTEA.

Page 59: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

49

Figura 2. Módulo OTEA PREDICTIONS La puesta en producción de dicho algoritmo se realizó a través de una API-Rest. La plataforma OTEA envía históricos de las variables monitorizadas y la API devuelve una estimación del volumen de cerveza en el interior del tanque y del tiempo para que el tanque se agote. Así pues, el sistema así diseñado recibe feedback continuo y cambia sus predicciones en función de los consumos de cerveza que se realicen. Sin duda, términos como eficiencia o automatización de procesos son determinantes para encontrar cada vez más líneas de negocio en un mercado cada vez más competitivo. Gracias al alcance de los puntos anteriores, el cliente tendrá, entre otra, las siguientes ventajas:

1. Conexión multisite con la nube mediante tecnología IoT. Se consigue una gran flexibilidad de acceso a la información implementando los requisitos de seguridad necesarios.

2. Optimización del plan de rutas trazado para el llenado de tanques. 3. Gestión de alarmas y mantenimiento predictivo. 4. Conocimiento de patrones de consumo y anticipación de eventos.

Elementos clave:

• Plataforma de telegestión • Deep Learning • OTEA MOIO

Referencias [1] Mayer-Schönberger,V.,Cukier,K. Big data. La revolución de los datos masivo. Turner, (2013). [2] Ballesteros, F. La Estrategia Predictiva en el mantenimiento industrial. Predictécnico,(2017).

Page 60: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

50

Variable selection in bi-functional semiparametric regression

Silvia Novo1, Germán Aneiros12, Philippe Vieu 3 1Grupo MODES, CITIC, Departamento de Matemáticas, Universidade da Coruña,

A Coruña, Spain 2ITMATI

3Institut de Mathématiques, Université Paul Sabatier, Toulouse, France e-mail: [email protected]

A new regression model is proposed in the functional data context (data are curves, images…), which incorporates the influence of two functional random variables in a scalar response in a flexible and interpretable way. One of the functional covariates is included semiparametrically, trough a single-index structure, and the other one linearly, but trough the high-dimensional vector formed by its discretized observations. In this model, it is assumed that from the big number of linear covariates only a few of them have a real influence in the response (sparse context). The problem is that classical variable selection methods (adapted from the multivariate context) can not provide results in reasonable time for big number of linear covariates and they are not adapted for dealing with very strong dependence between covariates.

Accordingly, two new algorithms for selecting relevant variables in the linear component and for estimating the model are presented. Both procedures take advantage of the functional origin of the linear covariates. Finite sample experiments will show the scope of application of both algorithms: the first algorithm provides a solution to the big computational time needed by standard variable selection methods, without loss in predictive power; the second algorithm completes the set of relevant linear covariates provided by the first, improving the predictive efficiency in case of sufficient sample size. Some asymptotic results will support theoretically both procedures. A real data application will show the great applicability of the presented methodology.

Elementos clave:

• Functional data analysis. • Variable selection. • Semiparametric regression.

Page 61: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

51

Bootstrap bandwidth selection for prediction in regression

I. Barbeito1, R. Cao1 and S. Sperlich2 1Research group MODES, CITIC, Faculty of Computer Science, Universidade da Coruña, Campus

de Elviña 2 Geneva School of Economics and Management,

Université de Genève, Bd du Pont d'Arve 40, CH-1211 Genève. e-mail: [email protected], [email protected], [email protected]

The smoothed bootstrap method has been used in the context of prediction, in which the response variable of the target population remains unknown. Specifically, this bootstrap procedure is used for the purpose of bandwidth selection in regression estimation. The aim is to establish a new bootstrap bandwidth selector based on the exact expression of the bootstrap version of the mean average squared error of some approximation of the kernel regression estimator. This is very useful since Monte Carlo approximation is avoided for the implementation of the bootstrap selector. Furthermore, the distribution of the target population no longer needs to be estimated. The key idea is to consider a theoretical approximation of the regression estimator, so as to get rid of the randomness of the denominator and, therefore, compute the bootstrap version of some error criteria, such as the mean average squared error. The fact of using the target sample to compute this error criteria leads to a prediction error. By means of minimizing it, we can define a global bandwidth selector, which is the first one proposed in terms of prediction. Elementos clave

• Bandwidth choice • Prediction • Smoothed bootstrap

Referencias [1] Barbeito, I., Cao, R. and Sperlich, S. Bandwidth selection for nonparametric kernel prediction. In preparation. [2] Cao, R. and González-Manteiga, W. Bootstrap mehods in regression smoothing. Journal of Nonparametric Statistics, 2:4 (1993) 379-388. [3] Galdo, J.C., Smith, J. and Black, D. Bandwidth selection and the estimation of treatment effects with unbalanced data. Annales d'Economie et de Statistique, 91:92 (2008) 189-216. [4] De Waal, T.; Pannekoek, J.; Scholtus, S. Handbook of Statistical Data Editing and Imputation; John Wiley: New~York, NY, USA, 2011. [5] Rässler, S. Data Fusion: Identification Problems, Validity, and Multiple Imputation. Aust. J. Stat. 2004, 33, 153--171. [6] Horton, N.J.; Lipsitz, S.R. Multiple Imputation in Practice: Comparison of Software Packages for Regression Models With Missing Variables. Am. Stat.

Page 62: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

52

Una aproximación basada en Machine Learning para evaluar la influencia del tamaño del proyecto en la detección de God Class.

Khalid Alkharabsheh, Yania Crespo1, Manuel Fernández-Delgado, José M. Cotos, José A. Taboada

CiTIUS, Universidad de Santiago de Compostela, Santiago de Compostela, Spain. 1Departamento de Informática, Universidad de Valladolid, Valladolid, Spain

e-mail: [email protected]

En este documento abordamos la detección de problemas en el software, que no impiden su compilación ni ejecución, y a los que nos referiremos como Design Smells. La detección de Design Smells ha demostrado ser una estrategia eficaz para mejorar la calidad del software y, en consecuencia, reducir los gastos de mantenimiento. En este trabajo, exploramos la influencia del tamaño del proyecto de software, expresado como una categoría textual, en la detección automática de Desing Smell, en particular del denominado God Class mediante diferentes técnicas de aprendizaje automático. Se realizó un conjunto de experimentos con ocho clasificadores diferentes en un conjunto de datos formado por 12.588 clases de 24 proyectos software diferentes. Los resultados fueron evaluados usando como indicadores el área ROC y Kappa. El estudio confirma que los clasificadores se adaptan para tener en cuenta la información sobre el tamaño de los proyectos y se concluye que es posible mejorar el resultado de la clasificación realizada para establecer si una determinada clase es una God Class o no cuando los algoritmos utilizados disponen de la información sobre el tamaño del proyecto al que pertenece la clase. Elementos clave:

• Design Smell como problema del software que no genera errores de compilación. • Vinculación de los Desing Smell con la calidad y el esfuerzo de mantenimiento del software. • Existe gran dificultad en la detección de los Design Smell.

Referencias [1] Alkharabsheh, Khalid. Crespo, Yania. Manso, Esperanza. Taboada, José A. Software Design Smell detection: a systematic mapping study, Software Quality Journal (2018)

Page 63: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

53

Desarrollo de un clasificador global para la detección de fallos en una planta real de laboratorio

Esteban Jove, José Luis Casteleiro-Roca, Héctor Quintián, José Luis Calvo-Rolle

Universidade da Coruña, Dpto de Ingeniería Industrial, Avda 19de febrero, s/n, 15405, Ferrol, España

e-mail: [email protected]

En la actualidad se tiende a una optimización en la inmensa mayoría de los procesos industriales, tanto en cuanto al producto o servicio que se realiza, como de los sistemas que conlleva. Es por ese motivo que se están invirtiendo ingentes esfuerzos para conseguirlo. Uno de los aspectos que se ha de cuidar en especial para conseguir ser más competitivo, es detectar y anticiparse a cualquier tipo de fallo o anomalía que se produzca en el proceso sobre el que se esté trabajando. En este trabajo se presenta como se ha llevado a cabo la detección de anomalías en una planta industrial (fig 1), empleando para ello varias técnicas de tipo oneclass. Para ello, en una primera fase se realiza una recopilación de datos durante la operación de la planta, teniendo la certeza que está funcionando correctamente. Estos datos son empleados para el entrenamiento de los clasificadores. Posteriormente, se crean anomalías reales sobre el sistema que se está trabajando, para comprobar y validar de forma correcta el funcionamiento del modelo creado para la detección de anomalías.

Figura 1. Planta real usada para el desarrollo del sistema de detección de anomalías

Elementos clave:

• Fault detection • One-Class • ACH • Autoencoder • SVM

Referencias [1] Baruque, B., Porras, S., Jove, E., Calvo-Rolle, J.L.: Geothermal heat exchanger energy prediction based on time series and monitoring sensors optimization. Energy 171, 49–60 (2019) [2] Bradley, A.P.: The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognit. 30(7), 1145–1159 (1997) [3] Calvo-Rolle, J.L., Quintian-Pardo, H., Corchado, E., del Carmen Meizoso-López, M., García, R.F.: Simplified method based on an intelligent model to obtain the extinction angle of the current for a single-phase half wave controlled rectifier with resistive and inductive load. J. Appl. Logic 13(1), 37–47 (2015)

Page 64: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

54

[4] Casale, P., Pujol, O., Radeva, P.: Approximate convex hulls family for one-class classification. In: International Workshop on Multiple Classifier Systems, pp. 106–115. Springer (2011) [5] Casale, P., Pujol, O., Radeva, P.: Approximate convex hulls family for one-class classification. In: Sansone, C., Kittler, J., Roli, F. (eds.) Multiple Classifier Systems, pp. 106–115. Springer, Heidelberg (2011) [6] Casteleiro-Roca, J.L., Jove, E., Gonzalez-Cava, J.M., Méndez Pérez, J.A., Calvo-Rolle, J.L., Blanco Alvarez, F.: Hybrid model for the ani index prediction using remifentanil drug and emg signal. Neural Comput. Appl. (2018). https://doi.org/10.1007/s00521-018-3605-z [7] Chandola, V., Banerjee, A., Kumar, V.: Anomaly detection: a survey. ACM Comput. Surv. (CSUR) 41(3), 15 (2009)

Page 65: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

55

Industrialización de flujos de trabajo para modelos de aprendizaje automático

Pau Sempere, Antonio Soto, Juan Ignacio Bagnato SolidQ Global S.A. – Av. del Calvario, 42, Bajo, 03340 Albatera, Alicante e-mail: [email protected], [email protected], [email protected]

La aplicación industrial de modelos de Machine Learning sigue siendo un campo de batalla en un ámbito en el que priman los artículos de investigación y los estudios conceptuales. Llevar modelos de aprendizaje automático a entornos productivos es un reto, así como su integración en sistemas de análisis de información corporativos. SolidQ provee de soluciones tecnológicas y de analítica de datos a empresas a nivel mundial, y ha desarrollado un framework de trabajo que lleva las técnicas más actuales de análisis, procesado, patronaje, codificación y entrenamiento de modelos de aprendizaje automático al mundo del análisis de datos empresarial. Así, los científicos de datos pueden centrarse en los casos de negocio, aportando valor realmente a las empresas y grupos de investigación que requieran de modelos de aprendizaje automático. Llevando a dicho flujo automático las mejores prácticas aprendidas en la implementación de modelos combinadas con las técnicas de analítica y entrenamiento de modelos más avanzadas de la industria se consiguen soluciones robustas, creíbles y precisas. El SolidQ ML Framework pretende atacar diferentes problemas encontrados habitualmente en la industria: clasificación, regresión y sistemas de recomendación. Para todos ellos los elementos fundamentales del flujo (preparación de datos e interpretabilidad de los modelos) se ejecutan de manera automática pero personalizable a través de configuraciones para ajustar el comportamiento y los parámetros de entrenamientos. La inclusión de motores de interpretación de modelos es la última pieza incluida en el SolidQ ML Framework, y una de las más demandadas en la industria hoy día. Huir de las cajas negras es uno de los principales objetivos de las empresas que implementan modelos de aprendizaje automático, tanto por necesidades estratégicas (entender el modelo es clave para tomar acciones que mejoren los procesos de negocio) como legales y éticos (ser capaces de justificar por qué se toma una acción es casi tan importante que tomarla). Por último, la industria siempre ha tratado de abordar la problemática de la puesta en producción de los modelos, pues de nada sirve tener resultados concluyentes si no son usables, es decir, si finalmente estos modelos no pueden ser consumidos por las personas de la organización destinadas a ello. SolidQ ML Framework responde a estas necesidades proveyendo la facilidad para su puesta en producción y posterior consumo.

Elementos clave • AutomatizacióndelasfasesmáspesadasdelosproyectosdeMLconflujospersonalizables• Documentaciónautomatizada,incluyendorendimientoeinterpretabilidaddelmodelo• Facilidadparasupuestaenproducciónyconsumo

Page 66: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

56

Page 67: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

57

SESION PÓSTERES II

Page 68: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

58

Page 69: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

59

Nonparametric estimation for big-but-biased data

Laura Borrajo1 and Ricardo Cao2 1Research Group MODES, CITIC, Department of Mathematics, University of A Coruña, 15071 A

Coruña, Spain 2Research Group MODES, CITIC and ITMATI, Department of Mathematics, University of A

Coruña, 15071 A Coruña, Spain e-mail: [email protected], [email protected]

Crawford [3] has recently warned about the risks of the sentence with enough data, the numbers speak for themselves. Some of the problems coming from ignoring sampling bias in big data statistical analysis have been recently reported by Cao [2]. The problem of nonparametric estimation for large-sized samples subject to sampling bias is studied in this work. The general parameter considered is the mean of a transformation of the random variable of interest. The unrealistic case of known biasing weight function is considered by Cao and Borrajo [1]. When ignoring that function, a small-sized simple random sample of the real population is assumed to be additionally observed. A new nonparametric estimator that incorporates kernel density estimation is proposed. Asymptotic properties for this estimator are obtained under suitable limit conditions on the two samples sizes and standard and non-standard asymptotic conditions on the two bandwidths. Explicit formulas are shown for the particular case of mean estimation. Simulation results show that the new mean estimator outperforms two classical ones. The influence of two smoothing parameters on the performance of the final estimator is also studied, exhibiting a striking behavior. The new method is applied to a real data set concerning airline on-time performance of US flights. Referencias [1] Cao, R. and Borrajo, L. Nonparametric Mean Estimation for Big-But-Biased Data. The Mathematics of the Uncertain, Springer, (2018) 55-65. [2] Cao, R. Inferencia estadística con datos de gran volumen. La Gaceta de la RSME, 18 (2015) 393-417. [3] Crawford, K. The hidden biases in big data. Harvard Business Review, (2013), April 1st. Available at https://hbr.org/2013/04/the-hidden-biases-in-big-data

Page 70: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

60

Dealing with the LASSO adjustment problems as a variable selector

L. Freijeiro González1, M. Febrero-Bande1 and W. González-Manteiga1 1 Departamento de Estatística, Análise Matemática e Optimización.

Universidade de Santiago de Compostela, España e-mail: [email protected]

In a Big Data context where the number of covariates p is large and greater than the number of samples n (p >> n), it takes special importance the necessity of synthesizing this big amount of information in simple models. Furthermore, these models should be able to select the important covariates and avoid unnecessary noise. The penalized linear regression models face these problems and provide useful solutions, specially those of the LASSO family. The LASSO regression (see [5]), due to the sparse nature of their estimators and its capability of reducing the dimension of the problem, is widely used for adjusting linear regression models. This method is based on imposing a L1 penalty in the residual sum of squares minimization problem of the form

Nevertheless, this algorithm exhibits some drawbacks related to the correct selection of important covariates and the exclusion of redundant information. It is owing to the fact that exists a trade-off between the false discovery proportion (FDP) and the true positive proportion (TPP), which are defined as

where the term given by 𝑉 𝜆 = |{𝑗:𝛽! 𝜆 ≠ 0 𝑎𝑛𝑑 𝛽! = 0}| denotes the number of LASSO false discoveries, 𝑇 𝜆 = |{𝑗:𝛽! 𝜆 ≠ 0 𝑎𝑛𝑑 𝛽! ≠ 0}| is the number of LASSO positive discoveries, 𝑘 =| 𝑗: 𝛽! ≠ 0 | and 𝑎 ∨ 𝑏 = max 𝑎, 𝑏 . This means that it is impossible to include all the important covariates without adding bias in the model (see [4] ). Thus, particular controlled scenarios are simulated with the purpose of analysing the drawbacks of this algorithm, giving an explanation of its behaviour and comparing with current approaches with the aim of achieving a better performance. Some of the proposed algorithms are the Stability Selection procedure (see [1] and [3]) and the Adaptive LASSO (see [2] and [6]).

Keywords: • Big Data • LASSO • Variable Selection.

References [1] Hofner, B., Boccuto, L., and Göeker, M. Controlling false discoveries in high-dimensional situations: Boosting with stability selection. BMC Bioinformatics, 16(1) (2015) 144. [2] Huang, J., Ma, S., and Zhang, C.-H. Adaptive LASSO for sparse high-dimensional regression. Statistica Sinica, 18 (2006). [3] Meinshausen, N., and Bühlmann, P. Stability selection. Journal of the Royal Statistical Society, Series B, 72(4) (2010) 417–473.

Page 71: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

61

[4] Su, W., Bogdan, M., and Candes, E. False discoveries occur early on the LASSO path. The Annals of statistics, 45(1) (2017) 2133–2150. [5] Tibshirani, R. Regression shrinkage and selection via the LASSO. Journal of the Royal Statistical Society: Series B (Methodological), 58(1) (1994) 267–288. [6] Zou, H. The adaptive LASSO and its oracle properties. Journal of the American Statistical Association, 101(476) (2006) 1418-1429.

Page 72: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

62

Ball and player detection and trajectory prediction in sports scenes

Luis Omar Alvarez Mures1 1Cinfo S.L. Edificio CITIC 2, A Coruña, Spain

e-mail: [email protected]

Detection of small elements in complex scenes is a challenging issue facing serveral fields nowadays. From aerial drone imagery to sports events, fine grained detection is necessary to obtain the maximum amount of information available. In order to keep costs low and democratize automatic broadcasts it is essential to use the cheapest cameras that our detection models allow us while conserving accuracy. Our technology allows our users to record any live event in an automatic fashion and without human intervention. Automatic production technology allows venue owners to record and stream live events with minimal effort and hardware, all that is needed is fibre or 4G connectivity. Several cameras with internet connectivity are installed on-site which will stream the event. The video is sent to our cloud where it will be transformed and analyzed. Keeping bitrates and resolutions low are essential to be able to deploy anywhere. Several Deep Learning object recognition methods have been tested for our use case that contains very small objects (e.g. 20px balls with very little detail). After testing R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN, SSD, RetinaNet, etc. A custom YOLOv3 model tuned for small object detection was chosen, that provides us with an accuracy of ~90% in small objects. Since even with the aforementioned accuracy some of the time the position of the ball is unknown, we have also developed a Machine Learning model that tries to predict the ball trajectory when it has been lost from the last detected position. We exploit LSTMs to achieve this objective.

Elementos clave:

• Automatic player and ball detection using Deep Learning. • Automatic ball trajectory prediction using Machine Learning.

Page 73: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

63

Aprendizaje de Árboles de Decisión para Predicción de Utilidad en Trasplantes de Hígado

Felicidad Aguado1, Pedro Cabalar1, Brais Muñiz1, Gilberto Pérez1, Francisco Suárez2,3 1CITIC, Universidade da Coruña

2Servicio Digestivo, Complexo Hospitalario Universitario de A Coruña (CHUAC) 3Instituto de Investigación Biomédica de A Coruña (INIBIC)

e-mail: {aguado, cabalar, brais.mcastro, gperez}@udc.es, [email protected]

El problema de emparejamiento donante-receptor consiste en establecer un criterio de selección de un paciente en lista de espera para recibir un trasplante de un órgano entrante. En trasplantes de hígado, el criterio más usado es el indicador MELD [1] que refleja la gravedad del receptor pero ignora, por ejemplo, la utilidad del trasplante, es decir, una predicción de la supervivencia del receptor en un plazo de 5 años. Las aproximaciones basadas en redes de neuronas [2] o en random forest [3] han obtenido buenos resultados, pero no aportan explicación de los mismos, algo crítico en un protocolo médico. En este trabajo abordamos la predicción de utilidad mediante aprendizaje de árboles de decisión dado que ofrecen explicaciones fácilmente entendibles por un humano y permiten la depuración y manipulación por parte del especialista. El conjunto de datos recopila 76 trasplantes entre los años 2009 y 2011 del Servicio Digestivo del CHUAC. Hemos empleado el paquete rpart de R [4] y probado con distintas configuraciones, obteniendo finalmente los siguientes resultados:

Supervivencia (meses) Precisión Recall < 6 0.78 0.88

[12 , 24) 1.0 1.0 > 24 0.98 0.97

Media 0.92 0.95 MAE global: 51.26 A pesar del reducido tamaño de la muestra y la falta de casos fallidos (el CHUAC tiene un elevado ratio de éxito) el análisis de los árboles realizado por el especialista ofrece algunas conclusiones muy interesantes. El experto ha valorado positivamente los caminos del árbol de mayor distancia hacia las hojas pero, cuando la decisión se toma sobre una o dos condiciones, considera que ofrecen todavía un resultado demasiado categórico con tan poca información. Se espera ampliar el estudio con una muestra mayor y probar nuevas configuraciones. Financiado: MINECO TIC2017-84453-P; Xunta de Galicia GPC ED431B 2019/03 y 2016-2019 ED431G/01. Elementos clave:

• Trasplantes de hígado • Árboles de decisión • Explicabilidad en machine learning

Referencias [1] M. Malinchoc et al. A model to predict poor survival in patients undergoing transjugular intrahepatic portosystemic shunts. Hepatology 31(4), pp. 864–871 (2000) [2] J. Briceño et al. (2014): Use of Artificial Intelligence as an Innovative Donor-Recipient Matching Model for Liver Transplantation: Results from a Multicenter Spanish Study. Journal of hepatology, pp. 1020–8 (2014)

Page 74: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

64

[3] L. Lau et al Machine-Learning Algorithms Predict Graft Failure Following Liver Transplantation. Transplantation 101, p. 1 (2016) [4] T. Therneau & E. Atkinson. An introduction to Recursive Partitioning Using the RPART Routines. Mayo Clinic. 61. (1997)

Page 75: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

65

Detección de fallos en el nivel de anestesia en operaciones quirúrgicas

José-Luis Casteleiro-Roca1, Esteban Jove1, Héctor Quintián1, José Luis Calvo-Rolle1 1 Universidade da Coruña, Dpto. de Ingeniería Industrial,

Avda 19de febrero, s/n, 15405, Ferrol, España e-mail: [email protected]

La supervisión del nivel de anestesia de un paciente es uno de los parámetros fundamentales que se tiene que controlar durante una operación quirúrgica [1, 2]. La medida de este parámetro se lleva a cabo con la señal BIS (índice biespectral) que nos indica el nivel de sedación del paciente con un valor entre 0 y 100 [3, 4]. Un nivel de BIS de 100 indica un paciente totalmente despierto, mientras que un nivel de 0 indica que no se tiene actividad cerebral. En la Figura 1 se puede ver la disposición de los equipos en el quirófano, a la izquierda los de control y adquisición de datos, y a la derecha el sensor BIS específico utilizado. La propuesta de este trabajo se basa en modelar la señal BIS a partir de la dosis del fármaco utilizado (Propofol) y el valor de EMG (electromiograma). Para realizar la predicción de la señal, se utiliza un modelo híbrido, cuyo esquema básico se puede ver en la figura 2 [5, 6]. En función del valor predicho con este modelo se detectan fallos en el sensor por medio de la comparación con el valor real medido.

Figura 1. Sistema de control de anestesia y adquisición de datos en el quirófano

Figura 2. Modelo híbrido creado para detección de fallos en el sensor BIS

Page 76: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

66

Elementos clave:

• Variables del sistema: EMG, BIS • Técnicas utilizadas: K-Means, MLP, SVM • Caso de estudio: Sistema de dosificación de la anestesia

Referencias [1] J. A. Méndez, A. Marrero, J. A. Reboso, and A. León. Adaptive fuzzy predictive controller for anesthesia delivery. Control Engineering Practice, 46 (2016)1-9. [2] J. Pérez, S. Torres, J. Reboso, and H. Reboso. Control strategies in anesthesia practice. RIAI - Revista Iberoamericana de Automatica e Informatica Industrial, 8-3 (2011) 241-249. [3] G. A. Orliaguet, F. B. Lambert, T. Chazot, P. Glasman, M. Fischler, and N. Liu. Feasibility of closed-loop titration of propofol and remifentanil guided by the bispectral monitor in pediatric and adolescent patients: A prospective randomized study. Anesthesiology, 122-4 (2015) 759–767 [4] A. L. Vanluchene, H. Vereecke, O. Thas, E. P. Mortier, S. L. Shafer, and M. M. Struys. Spectral entropy as an electroencephalographic measure of anesthetic drug effect: A comparison with bispectral index and processed midlatency auditory evoked response. Anesthesiology, 101-1 (2004) 34-42. [5] J. L. Casteleiro-Roca, J. A. M. Pérez, A. J. Piñón-Pazos, J. L. Calvo-Rolle, and E. Corchado. Modeling the electromyogram (EMG) of patients undergoing anesthesia during surgery. In 10th International Conference on Soft Computing Models in Industrial and Environmental Applications, (2015) 273-283. [6] J. L. Casteleiro-Roca, J. A. M. Pérez, J. A. Reboso-Morales, F. J. de Cos Juez, F. J. Pérez-Castelo, and J. L. Calvo-Rolle. An intelligent model for bispectral index (BIS) in patients undergoing general anesthesia. In International Joint Conference SOCO'16-CISIS'16-ICEUTE'16: San Sebastián, Spain, October 19th-21st, 2016 Proceedings, (2016) 290-300.

Page 77: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

67

Observación y modelado de la calidad del aire: Retos de Aprendizaje Automático en el proyecto TRAFAIR

David Martínez1, Xabier Diz Gerpe2, Cecilia Grela Llerena3, David Cartelle2,4, José R.R. Viqueira1,

José A. González2, Javier López Cacheiro3 1CiTIUS, Universidade de Santiago de Compostela e-mail: {david.martinez.casas, jrr.viqueira}@usc.es

2Departamento de Ingeniería Química, Universidade de Santiago de Compostela e-mail: {xabier.diz.gerpe, ja.souto}@usc.es

3Centro de Supercomputación de Galicia e-mail: {cecilia.grela.llerena, jlopez}@cesga.gal

4TROPOSFERA Soluciones Sostenibles, S.L. e-mail: [email protected]

La mala calidad del aire en las ciudades es un problema que está teniendo un impacto social creciente en los últimos años, siendo ya una de las principales causas ambientales de mortalidad prematura en la Unión Europea. Como consecuencia de esto, la Comisión Europea puso en marcha en 2013 un paquete de políticas específicas de Aire Limpio1, para que los estados miembros garanticen una buena calidad del aire para la ciudadanía a través del establecimiento de límites de emisión para compuestos como el NO2, procedente en gran medida del tráfico rodado. En este contexto, el objetivo general del proyecto europeo TRAFAIR (Understanding Traffic Flows to Improve Air Quality) es el desarrollo de un servicio de observación, modelado y publicación de datos sobre calidad del aire a escala urbana. Este servicio permitirá a la administración local conocer mejor el impacto que tienen distintas configuraciones del tráfico rodado sobre la calidad del aire en la ciudad, y mejorará el conocimiento que tiene la ciudadanía sobre la calidad del aire actual y su evolución en las próximas horas. TRAFAIR se está ejecutando desde noviembre de 2018 en 6 ciudades de distintos tamaños y configuraciones de Italia y España: Zaragoza, Florencia, Módena, Livorno, Santiago de Compostela y Pisa. Para alcanzar este objetivo general, las actividades del proyecto incluyen: i) La creación de una infraestructura de observación de la calidad del aire basada en sensores de bajo coste. ii) El desarrollo de una cadena de modelos (tráfico, emisiones, meteorología, calidad del aire) que permita estimar la calidad del aire a partir de las principales fuentes urbanas de polución, con especial interés en el tráfico rodado. iii) La creación de una base de datos relacional para el almacenamiento de las observaciones de los sensores y las entradas y salidas de los modelos. iv) La implementación de una infraestructura de publicación de datos en abierto (Open Data) a través de estándares OGC y W3C, que permita alcanzar el Portal de Datos Europeo a través de los portales locales, regionales y nacionales. v) El desarrollo de aplicaciones para teléfonos móviles y para entorno web de utilidad para las administraciones locales y para la ciudadanía. Tanto la observación como el modelado de la calidad del aire plantean retos en los que soluciones de Aprendizaje Automático pueden ser de gran utilidad. En concreto, estas tecnologías están siendo utilizadas ya para la calibración de los sensores de bajo coste (cuyo precio está en el orden de los miles de euros) a partir de las medidas obtenidas de las estaciones de observación de referencia (con un coste de cientos de miles de euros por estación) [2]. Adicionalmente se están utilizando modelos de Aprendizaje Automático para generar la distribución de tráfico en todas las calles de una ciudad a partir de las mediciones de unos pocos sensores. Por último, esperamos que las tecnologías de Aprendizaje Automático nos sirvan también para mejorar los resultados de los modelos de calidad del aire aplicados hoy en día basados en modelos lagrangianos [1]. Referencias [1] Berchet, A., Zink, K., Oettl, D., Brunner, J., Emmenegger, L., and Brunner, D., Evaluation of high-resolution GRAMM–GRAL (v15.12/v14.8) NOx simulations over the city of Zürich, Switzerland, Geosci. Model Dev., 10, 3441-3459, 2017. [2] Bigi, A. and Mueller, M. and Grange, S. K. and Ghermandi, G. and Hueglin, C., Performance of NO, NO2 low cost sensors and three calibration approaches within a real world application, Atmospheric Measurement Techniques 11(6), pp. 3717-3735, 2018.

1 https://www.consilium.europa.eu/es/policies/clean-air/

Page 78: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

68

Predicción de generación de energía eólica basada en el análisis de direcciones del viento

Icia Carro, Eduardo Ferro, Sonia González, Gonzalo Blázquez

Instituto tecnológico de Galicia, A Coruña e-mail: {icarro, eferro, sgonzalez, gblazquez}@itg.es

Este trabajo presenta un estudio de la aplicación de distintas técnicas de ML/DL para predecir la energía generada por un aerogenerador BORNAY Inclin 1500. Para ello se han utilizado los datos de la generación de energía entre enero de 2016 y mayo de 2019 con una temporalidad diez-minutal proporcionados por el aerogenerador situado en el Parque Eólico Experimental Sotavento [1], así como la información meteorológica proporcionada por los servicios Web de MeteoGalicia [2]. Concretamente se ha considerado para la realización de este estudio la siguiente información meteorológica: temperatura, presión, velocidad y dirección del viento, así como también la velocidad de la racha de viento. En primer lugar, se ha llevado a cabo un preprocesado de los datos eliminando aquellas muestras con valores nulos o ceros cuando el aerogenerador estaba desconectado o inactivo. Además, se han tenido en cuenta las propiedades del molino en cuanto a la velocidad del viento para frenado y arranque automático, eliminando aquellas muestras con velocidad de viento y de racha superior e inferior a dichos valores, respectivamente.

Figura 1: Matriz de Correlación a) Datos sin filtrar b) datos filtrados en velocidad.

Además, debido a la gran cantidad de datos espurios, se ha decidido realizar un filtrado por dirección del viento. Concretamente, se han seleccionado los dos percentiles centrados a la mediana de la distribución, concretamente los valores 2.5 y 97.5, que definen un intervalo de referencia del 95% por cada una de las direcciones, buscando un dataset que contenga el mayor número de muestras maximizando la correlación entre la energía generada y la velocidad y dirección del viento.

Page 79: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

69

Figura 2: Incremento de energía medio según la Dir. y velocidad del viento antes del filtrado de datos atípicos.

Figura 3: Energía generada por dirección después del filtrado de datos atípicos.

Una vez filtrados los datos, se ha realizado la evaluación del dataset mediante validación cruzada de diferentes modelos de ML/DL tales como KNN, SVR, RNN (GRU) y Random Forest Regresor (RFR). También, se han evaluado los datos de entrada entre los datos iniciales (sin procesar) y los datos del proceso de filtrado definido anteriormente.

Fig. 4: Resultados del estudio de predicción de generación de energía eólica basada en el análisis de direcciones del viento.

El modelo que proporcionó mejores resultados fue RFR utilizando los datos de entrada filtrados obteniendo un MSE menor a 2 en todas las direcciones del viento y un MAE de 0,7. Aunque esta técnica es la que mejores resultados ha obtenido también es la más lenta a la hora de entrenar. Por otro lado, podemos concluir que el filtrado de los datos ha mejorado el resultado de cada una de las técnicas utilizadas en los siguientes porcentajes para MSE:

KNN 45.71% RFR 45.58% RNN 28.03% SVR 27.51%

Referencias [1] http://www.sotaventogalicia.com/ [2] https://www.meteogalicia.gal

Page 80: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

70

Aplicación de algoritmos de machine learning para peritaje vehicular Marvin M. Agüero-Torales1, Laura V. Vigoya1, Elisa Fernández-Álvarez1, Susana Ladra1

1Universidade da Coruña, Facultad de Informática, Campus de Elviña, s/n, 15071, A Coruña, España

e-mail: [marvin.aguero, l.v.vigoya, e.falvarez, susana.ladra]@udc.es

Tras un siniestro, las aseguradoras o prestadoras de servicios de asistencia encargan peritaciones vehiculares con el propósito de calcular los costos de daños de los vehículos. Uno de los tipos de peritación más usada, es la fotoperitación, esta permite reducir los tiempos y el coste del servicio, puesto que, se realiza de forma telemática, mediante el envío de fotografías del siniestro, evitando el desplazamiento de los peritos al lugar del accidente. El objetivo de este trabajo es presentar las diferentes técnicas de aprendizaje automático aplicadas para predecir el cumplimiento de SLA (Service Level Agreement) en el ámbito de peritaje de vehículos. Un SLA es un acuerdo entre una empresa y sus clientes que, en este caso, define el tiempo máximo permitido para finalizar el peritaje [1]. En el conjunto de datos utilizado se incluyen foto peritaciones del último año. Dentro de los atributos que se tienen en cuenta se encuentran el costo, la cantidad de fotos y correos asociados a la peritación, la compañía a la que pertenece y otros elementos relevantes para el cumplimiento, como el personal asignado, entre otros.

Figura 1: Técnicas validadas.

Para determinar el modelo óptimo de acuerdo a los datos presentados, se aplicaron diez técnicas de Machine Learning [2]. La Figura 1 presenta las medidas de precisión obtenidas en cada una de las técnicas aplicadas, siendo la línea negra la desviación típica de error. En el eje “y” se encuentran los algoritmos aplicados y en el eje “x” el valor de precisión, comprendido entre 0 y 1. Las técnicas que presentan mayor precisión son:

Page 81: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

71

Random Forest, Gradient Boosting, Logistic Regression y Linear Discriminant Analysis. Adicionalmente se consideraron dos técnicas: Multilayer Perceptron y Extra Trees, con el objetivo de emplear tanto técnicas lineales como basadas en árboles y en redes neuronales. De esta manera, se mejora la generalización y rendimiento del modelo. Finalmente se tomaron las técnicas mencionadas y se combinaron para hacer un Ensemble basado en Soft Voting [3], obteniendo una precisión del 90%. Elementos clave:

• SLA • Peritaje de vehículos • Aprendizaje automático

Referencias [1] Leitner, P., et al. Runtime prediction of service level agreement violations for composite services. Service-oriented computing. ICSOC/ServiceWave 2009 workshops. Springer, Berlin, Heidelberg, 2009. [2] Pedregosa, F., et al. Scikit-learn: Machine learning in Python. Journal of machine learning research 12.Oct (2011): 2825-2830. [3] Zhou, Z. H. Ensemble methods: foundations and algorithms. Chapman and Hall/CRC, 2012.

Page 82: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

72

Exploring Differential Distributed Embodied Evolution

Pedro Trueba1, Geoff Nitschke2, Abraham Prieto1,3

1Universidade da Coruña, 2University of Cape Town, 3CITIC e-mail: [email protected]

This work extends previous research in Differential Evolution based distributed Embodied Evolution (EE) and demonstrates improved performance for various collective behaviour tasks over state of the art methods. EE deals with groups of agents that adapt on-line to a predefined evaluation criterion for the purpose of optimizing individual or collective behaviours. The canonical EE algorithm has been demonstrated as out-performing other evolutionary methods [1] in terms of effectiveness (performance) and efficiency (convergence). Later, in [2] we presented a differential distributed embodied evolution algorithm (DDEE) which easily outperformed the best version of EE known by the authors. In the present work, we have tested these algorithms in an experimental setup with a higher-dimension problem-space requiring more complex controller optimization than in [2]. The improvement offered by distributed DEE relies in its variation operators which concurrently process information from several individuals. In order to enable (genetic and behavioural) specialization, another variant of this method (distributed DEE with kin selection) is proposed which only recombines individual genotypes that are sufficiently close in terms of genotypic distance. The reader is referred [2] for full descriptions of these methods. The experimental setup is composed by 40 simulated Robobo robots. Each with three infrared sensors to detect obstacles, one downward-pointing infrared sensor for detecting floor colour and a compass measuring orientation. Each Robobo moves using two wheels where the controller changes orientation. Each experiment is run 25 times for statistical viability. The robots goal is to move as fast as possible along the scenario. Since the number of robots is high, collisions are frequent and consistently decrease fitness scores. The scenario is divided in two equal regions which can be activated or deactivated (moving on a deactivated region won’t increase the individual fitness) to create different experimental configurations. As shown in Figure 1, canonical DEE improves quickly during the first tens of steps but soon the best result is obtained by differential DEE based both in average performance and lower deviation for the configuration with indistinct zones. For the second configuration, complementary zones, which is more complex and requires specialization, differential DDE also produced best average performance although the three algorithms show high variability among runs.

Figure 1. Fitness function for two scenario configurations: Indistinct (left) and complementary (right) zones and for canonical, differential, and differential with kin selection embodied evolution algorithms.

References [1] Prieto, A., Bellas, F., Trueba, P., and Duro, R. J. Real-time optimization of dynamic problems through distributed embodied evolution. Integrated Computer-Aided Engineering, 23(3) (2016) 237–253. [2] Trueba, P. and Prieto, A. Improving performance in distributed embodied evolution: Distributed differential embodied evolution. In Artificial Life Conference Proceedings, (2018) 222–223. MIT Press.

Page 83: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

73

Sistema de Control Inteligente de la energía térmica

Pablo Álvarez1, Klaas Würzburg1, Rita Esperón1, Javier Vales2, Juan J.Alcaraz2 1Inova Labs

2Universidad Politécnica de Cartagena e-mail: {p.alvarez,k.wuerzburg,r.esperon}@inovalabs.es, {javier.vales, juan.alcaraz}@upct.es

En el panorama actual, orientado hacia la minimización de la huella de carbono, entre el auge de nuevas tecnologías y el aumento de la eficiencia energética, se encuentra la adaptación de sistemas energéticos tradicionales de instalaciones industriales y grandes superficies. Debido a su compleja no-linealidad, uno de los desafíos es igualar la producción de energía a la demanda de carga y, por lo tanto, detectar actuaciones de mejora continua que se traduzcan en un ahorro de combustible. En este proyecto se propuso un sistema de gestión basado en inteligencia artificial, para optimizar el control de los equipos. El sistema se aplicó en una central térmica industrial, centrándose en el ajuste del sistema de encendidos y apagados de 5 calderas de agua sobrecalentada, alimentadas por gas natural y utilizadas para climatización de espacios y calentamiento de procesos. El control, antiguamente, era efectuado manualmente por operarios en base a su experiencia y observaciones. El paso del control tradicional a un sistema integrado de recomendaciones de encendido y apagado, supuso un ahorro promedio de un 5% de combustible en prueba piloto, con máximos de hasta el 12% en determinadas épocas. Con una recolección previa de información de variables y sensores, que define el funcionamiento de cada una de las calderas, se creó una base de datos que recoge el funcionamiento y perfil de actividad en la central, con datos históricos para la calibración del algoritmo y datos en tiempo real para el funcionamiento final. El sistema inteligente aúna la aplicación de la combinación de un agente de pronóstico, que busca estados similares de las calderas en el pasado, en la base de datos, y realiza un pronóstico de las variables del sistema bajo diferentes secuencias de control; y un agente de control, que examina esas trayectorias térmicas en busca de la más eficiente. El controlador sigue un esquema Model predictive control (MPC), un tipo de controlador de Aprendizaje por Refuerzo, debido al uso de la base de datos para la búsqueda de trayectorias similares. Para asegurar esta actuación, mediante aprendizaje offline, se estima la evolución del sistema y lo entrena, y mediante aprendizaje online se incorpora la evolución del sistema actual a la base de datos, para dar más precisión a las decisiones de control. En la Fig. 1 se puede observar el esquema del sistema seguido. La comunicación con el usuario se realiza mediante una plataforma web y el envío de notificaciones a dispositivos móviles.

Page 84: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

74

Elementos clave: • Adaptación generación-demanda inteligente • Hasta 12 % más eficiente

Figura 1: Arquitectura del sistema

Figura 2: Interfaz multiplataforma de recepción de recomendaciones

Page 85: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

75

Learning to segment the retinal vasculature using automatically generated labels from multimodal images

Álvaro S. Hervella1,2,*, José Rouco1,2, Jorge Novo1,2 , Manuel G. Penedo1,2 , Marcos Ortega1,2 1CITIC-Research Center of Information and Communication Technologies, Universidade da

Coruña, A Coruña, Spain 2Department of Computer Science, Universidade da Coruña, A Coruña, Spain

*e-mail: [email protected]

In this work, we present a novel approach to segment the retinal vasculature in eye fundus images using deep neural networks. In particular, we propose a novel training strategy that avoids the use of manual labels. Instead, our training data is automatically generated from unlabeled multimodal images [1]. The common approach when applying deep learning methods to vision problems is to use a set of manually annotated images for training. In that sense, the annotation of the retinal vessels in eye fundus images is a tedious and error-prone task that must be performed by expert clinicians. This makes difficult to gather large annotated datasets. In order to alleviate this problem, we train the networks using unlabeled samples of two complementary eye fundus image modalities: retinography and angiography. While the retinography is a non-invasive and widespread image modality, the angiography is an invasive alternative where the blood vessels are highlighted due to an injected contrast dye. This property of the angiography facilitates the manual and automated analysis of the retinal vasculature. In our proposal, we exploit the availability of paired retinographies and angiographies depicting the same eye, which can be easily obtained from the clinical practice. Given that the blood vessels are already highlighted in the angiography, a vessel map can be easily derived from this imaging modality using simple image processing techniques. Then, a deep neural network is trained to predict the angiography-derived vessel maps from the corresponding retinographies. This strategy allows to automatically obtain the supervisory signal for training the networks, not requiring any human labeling effort. The presented approach is validated using public datasets containing retinographies and ground truth retinal vasculature segmentations. The obtained results show a competitive performance and a promising potential for including the presented approach in semi-supervised settings. Key elements:

• Deep neural networks are trained using unlabeled multimodal data. • The networks learn to segment the retinal vasculature without human labels.

References [1] Hervella, A.S.; Rouco, J.; Novo, J.; Ortega, M. Self-Supervised Deep Learning for Retinal Vessel Segmentation Using Automatically Generated Labels from Multimodal Data. International Joint Conference on Neural Networks (IJCNN), 2019.

Page 86: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

76

Machine Teaching Iterativo para la Mejora del Entrenamiento en Machine Learning

Andrés Baamonde-Lozano, Eduardo Mosqueira-Rey, David Alonso-Ríos

Universidade da Coruña. Departamento de Ciencias da Computación e Tecnoloxías da Información Facultade de Informática. Campus de Elviña, 15071, A Coruña

e-mail: [email protected], [email protected], [email protected]

La demanda de modelos de aprendizaje automático (machine learning) supera con creces la oferta de “profesores” que pueden construirlos. Una solución es crear estrategias de machine teaching que se centren en optimizar el proceso de aprendizaje más que en la mejora de los algoritmos en sí. De esta forma, el machine teaching se centra en la obtención del conjunto de datos óptimo para un algoritmo objetivo que ejerce el rol de “alumno” o learner. El machine teaching iterativo consiste en que, a partir de un conjunto de datos etiquetado, el profesor o teacher provee ejemplos al algoritmo obteniendo retroalimentación de él, que posteriormente usará en la siguiente iteración. Existen distintos tipos de profesores o algoritmos de enseñanza y el objetivo es reducir el número de ejemplos que se utilizan en el aprendizaje, seleccionando aquellos que sean más representativos y obteniendo tasas de convergencia más rápidas. En este trabajo creamos tres tipos diferentes de profesores (omnisciente, sustituto e imitador) y los aplicamos sobre diferentes problemas de ejemplo usando diferentes algoritmos de aprendizaje que ejercen el rol de alumnos. Los resultados (Fig. 1) muestran que los algoritmos convergen más rápido al ser entrenados por un profesor que selecciona los ejemplos a los alumnos, en vez de un profesor que se los provee de forma aleatoria. La estrategia consiste en seleccionar primero los ejemplos más sencillos e incrementar su dificultad según aumentan las iteraciones. Como inconveniente, podemos citar que el machine teaching iterativo tiene un coste computacional más elevado que el aprendizaje automático tradicional, ya que en cada iteración se tiene que recalcular la dificultad y la utilidad de los ejemplos. A cambio, el aprendizaje es mejor con menos datos, y no siempre vamos a tener muchos datos disponibles.

Figura 1. Precisión de un profesor omnisciente contra un muestreo aleatorio usando un clasificador lineal.

Elementos clave:

• Machine teaching iterativo como nuevo método de entrenamiento. • Distintos tipos de implementación del algoritmo de aprendizaje. • Contrastación de resultados con problemas de ejemplo.

Referencias [1] Liu, W., Dai, B., Humayun, A., Tay, C., Yu, C., Smith, L. B. & Song, L. Iterative machine teaching. In Proceedings of the 34th International Conference on Machine Learning. Volume 70 (2017, August) 2149-2158. [2] Simard, P. Y., Amershi, S., Chickering, D. M., Pelton, A. E., Ghorashi, S., Meek, C., & Wernsing, J. Machine teaching: A new paradigm for building machine learning systems. arXiv preprint. arXiv:1707.06742 (2017).

Page 87: ACTAS · 2019. 10. 16. · Actas del IV Machine Learning Workshop Galicia Facultad de Informática Universidade da Coruña 17 de octubre de 2019

77

Automatic Nonparametric Geostatistical Inference Rubén Fernández-Casal, Mario Francisco-Fernández

Research Group MODES. Departamento de Matemáticas, Facultade de Informática, CITIC. Universidade da Coruña, A Coruña, Spain

e-mail: [email protected], [email protected]

The first step in geostatistical inference is the modeling of the underlying process. This process typically consists in the estimation of the trend and variogram functions using the observed data. In this work, under a general spatial model and without assuming any parametric form for these functions, a general nonparametric procedure to model the geostatistical data is proposed. The approach consists in an iterative algorithm, combining a local linear estimator of the trend, considering a bandwidth selected by a method that takes the spatial dependence into account [6], and fitting a Shapiro-Botha variogram model [7] to a set of bias-corrected nonparametric pilot estimates [4]. This algorithm is implemented in the np.fitgeo function of the npsp R package [3]. The trend and variogram estimates could be employed for spatial prediction (for instance, using the function np.kriging of the npsp package) but they also allow performing inferences about other characteristics of interest of the process applying the bootstrap algorithm described in [1]. For instance, this algorithm could be used to approximate the (unconditional) probability that a regionalized variable exceeds a certain threshold value [5], i.e. to obtain risk map estimates. Additionally, it can be adapted to obtain estimates of the conditional exceedance risk in non-observed spatial locations, i.e. to obtain conditional risk map estimates. Elementos clave:

• Local polynomial estimation. • Bootstrap methods. • R software.

Referencias [1] Castillo-Páez, S., Fernández-Casal, R., García-Soidán, P., A nonparametric bootstrap method for spatial data. Comput. Stat. Data An., 137 (2019), 1-15. https://doi.org/10.1016/j.csda.2019.01.017. [2] Chu, C. K., Marron, J. S., Comparison of two bandwidth selectors with dependent errors. Ann. Statist., 19 (1991) 1906-1918. https://doi.org/10.1214/aos/1176348377. [3] Fernández-Casal, R., npsp: Nonparametric Spatial Statistics. R package version 0.8-0 (2019). URL http://github.com/rubenfcasal/npsp. [4] Fernández-Casal, R., Francisco-Fernández, M., Nonparametric bias-corrected variogram estimation under non-constant trend. Stoch. Environ. Res. Risk Assess., 28 (2014), 1247–1259. https://doi.org/10.1007/s00477-013-0817- 8. [5] Fernández-Casal, R., Castillo-Páez, S., Francisco-Fernández, M., Nonparametric geostatistical risk mapping. Stoch. Environ. Res. Risk Assess., 32 (2017), 675-684. https://doi.org/10.1007/s00477-017-1407-y. [6] Francisco-Fernández, M., Opsomer, J.D., Smoothing parameter selection methods for nonparametric regression with spatially correlated errors. Can. J. Stat., 33 (2005), 279–295. https://doi.org/10.1002/cjs.5550330208. [7] Shapiro, A., Botha, J.D., Variogram fitting with a general class of conditionally non-negative definite functions. Comput. Stat. Data An., 11 (1991), 87- 96. http://doi.org/10.1016/0167-9473(91)90055-7.