Técnicas del aprendizaje automático para la asistencia en la toma de...

SIINCO 2004 1

Técnicas del aprendizaje automático para la asistencia en la toma de

decisiones

Cèsar Ferri Ramírez

Chihuahua, 12 de octubre de 2004.

Departament de Sistemes Informàtics i ComputacióUniversitat Politècnica de València,Valencia, Spaincferri@dsic.upv.es

SIINCO 2004 2

Resumen

• Introducción• Aprendizaje Automático y Minería de

Datos• Caso Práctico• Análisis ROC• Ejemplo de Mailing• Conclusiones

SIINCO 2004 3

Introducción

• El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos ha crecido espectacularmente en las últimas décadas:– Ventas– Carga de urgencias– Evolución de los valores bursátiles– Número de estudiantes que abandonan la universidad– Accidentes automovilísticos

• Esta información es útil para explicar el pasado, entender el presente y predecir la información futura.

SIINCO 2004 4

Introducción

• La mayoría de decisiones de empresas, organizaciones e instituciones se basan en la información almacenada sobre experiencias pasadas– Cuántos productos se deben mantener en stock?– Cuántas camas se deben reservar para urgencias– Debo vender mis valores?– Cuántos aulas debo reservar para el próximo curso?– Que cuota debo cobrar a un cliente por su seguro del auto?

• Tradicionalmente, estas decisiones las tomaban personas expertas a partir de un análisis e interpretación de los datos realizados de forma manual– Método caro, lento y subjetivo.– Impracticable cuando el volumen de los datos es alto

SIINCO 2004 5

Aprendizaje Automático

• El área de aprendizaje automático aporta varias técnicas que pueden asistir a las personas en la toma de decisiones en estos contextos.

• El aprendizaje automático ha sido definido en [Mitchell1997] como el área de la informática que se centra en el problema de cómo construir programas que son capaces de mejorar su comportamiento automáticamente mediante la experiencia.

• La aplicación de técnicas de aprendizaje automático para la extracción de conocimiento desde bases de datos ha sido denominado como minería de datos [Hernández, Ramírez & Ferri 2004].

SIINCO 2004 6

Minería de Datos

• La minería de datos es el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos [Witten & Frank2000] .

• Otro término utilizado es el de extracción o “descubrimiento de conocimiento en bases de datos” (Knowledge Discovery in Databases, KDD).

• En [Fayyad et al. 1996] se define el KDD como “el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos”.

SIINCO 2004 7

Minería de datos

Sistema de información

Conocimiento Evaluación /

Interpretación / Visualización

Preparación de los datos

Patrones Minería

de datos

• Últimamente se ha usado el término KDD para referirse a un proceso que consta de una serie de fases, mientras que la minería de datos es sólo una de estas fases.

SIINCO 2004 8

Fases del Proceso de Extracción de Conocimiento

+ + + + - - -

conocimiento

decisiones

datos iniciales

datos seleccionados(vista minable)

5. difusión y uso

1. integración y recopilación

2. selección, limpieza y transformación

3. minería de datos

4. evaluación einterpretación

almacén de datos

patrones

SIINCO 2004 9

Tareas de la Minería de Datos

• Clasificación. Cada instancia pertenece a una clase (categórica), la cual se indica mediante el valor de un atributo que llamamos la clase de la instancia.– ¿El cliente X comprará el producto?

• Regresión. Consiste en aprender una función real que asigna a cada instancia un valor real.– ¿Cuántas camas tendrá libre el hospital la semana próxima?

• Agrupamiento. Consiste en obtener grupos “naturales” a partir de los datos.– Identificar grupos de clientes de una librería en base a sus

preferencias de compras que le permita dar un servicio más personalizado.

SIINCO 2004 10

• Correlaciones. son una tarea descriptiva que se usa para examinar el grado de similitud de los valores de dos variables numéricas.– Conocer la correlación entre los días de helada y la

producción de naranjas en un año.

• Reglas de asociación. Tiene como objetivo identificar relaciones no explícitas entre atributos categóricos.– Análisis de la cesta de la compra

SIINCO 2004 11

• Reglas de asociación secuenciales. Sirven para determinar patrones secuenciales en los datos.– El 30% de los clientes que compran un televisor compran

un reproductor de DVD dentro del mes siguiente.

SIINCO 2004 12

Técnicas de la Minería de Datos

• Métodos estadísticos. Regresión, funciones discriminantes...

• Métodos basados en núcleo. SVM...

• Métodos Bayesianos. Naive Bayes..

• Reglas y árboles de decisión. ILP..

• Técnicas de conteo y soporte mínimo. Apriori...

SIINCO 2004 13

Técnicas de la Minería de Datos

• Redes neuronales.

• Aprendizaje basado en casos.

• Algoritmos evolutivos.

SIINCO 2004 14

Aplicaciones de la Minería de Datos

– Aplicaciones financieras y bancarias– Análisis de mercado, distribución y, en general, comercio– Seguros y salud privada– Medicina– Educación– Procesos Industriales– Biología, bioingeniería y otras ciencias– Telecomunicaciones

SIINCO 2004 15

Caso Práctico

• Deseamos mejorar el rendimiento académico de unos alumnos de una determinada asignatura.

• ¿Cómo podemos utilizar el aprendizaje automático para ayudarnos en estos fines?– Utilizar las experiencias pasadas de estudiantes para guiar

a los alumnos en sus hábitos de estudio.

SIINCO 2004 16

Caso Práctico: Recopilación de datos

• Encuestas al alumnado que acaban de realizar el examen de la asignatura– Datos generales

• Sexo• Edad• ¿Trabajas?

– Datos académicos• Años de estudio• Nota de acceso

– Hábitos de estudio• Horas de dedicación• Material empleado: Exámenes anteriores, otras fuentes

– Resultados académicos• Nota del examen

SIINCO 2004 17

Caso Práctico: Recopilación de datos

• Pase de encuestas:

– Hoja de encuestas.• Permite una mejor recopilación de los datos• Requiere más trabajo: Recopilación y tratamiento manual de

los datos

– Formulario web (Servidor web + PHP).• Datos sesgados• Recopilación y tratamiento automático de los datos

SIINCO 2004 18

Caso Práctico: Selección, Limpieza y Transformación

• Selección: En este caso dado que el volumen de los datos (registros o atributos) es limitado no es necesario este paso.

• Limpieza: Tratamiento de valores desconocidos o anómalos. Eliminación de los registros que puedan parecer sospechosos de ser falsos o bien problemáticos.

• Transformación: Podemos decidir convertir algún atributo de numérico a categórico, o viceversa. Por ejemplo, convertir la nota del examen en valor categórico con dos valores: Aprobado (5<=X<=10) o suspendido (0<=X<5).

SIINCO 2004 19

Caso Práctico: Minería de datos

• Aprender un modelo predictivo que determine si un alumno aprueba o no de acuerdo a los atributos recopilados.

• Utilizamos árboles de decisión como técnica de aprendizaje:– Técnica de aprendizaje que construye modelos precisos de

manera eficiente.– Modelo fácilmente comprensible e implementable

SIINCO 2004 20

• Árbol de decisión para determinar recomendación o no de cirugía ocular:

¿Edad?≤25

>25 y ≤50 >50

≤1.5 >1.5 y ≤10 >10

NO SÍ

>6 ≤6

no sí

¿Miopía?

¿Astigmatismo?

SIINCO 2004 21

• Multi-clasificadores: Aumentan la precisión a costa de perder comprensibilidad

Árbol de decisión

Predicción CombinadaCombinación

Árbol de decisión

SIINCO 2004 22

• Weka,suite informática de minería de datos de libre distribución.

• Multitud de técnicas de aprendizaje

• Permite tratamiento previo de datos

• Visualización de modelos

• Experimentos de comparación de métodos de aprendizaje

SIINCO 2004 23

Caso Práctico: Evaluación de modelos

• Debemos medir la calidad de los modelos aprendidos.

• Se suele utilizar la precisión como métrica de calidad: – Precisión= Nº de casos acertados/ Nº de casos totales

• Técnicas de evaluación:– Evaluar sobre los datos de entrenamiento: Peligro de

sobreajuste.– Partir los datos en entrenamiento/test: Perdemos datos

para el aprendizaje– Validación cruzada.

SIINCO 2004 24

Caso Práctico: Difusión y Uso de Modelos

• Una vez comprobado la validez del modelo aprendido se puede utilizar

• Implementación del modelo en un formulario web.1. El alumno introduce sus datos en el formulario2. El modelo devuelve una predicción acerca del resultado

del examen de acuerdo con los datos introducidos3. Si la respuesta es negativa, incluso podemos utilizar el

árbol de decisión para averiguar qué aspectos debe el alumno modificar para aprobar el examen

• Necesidad de re-evaluar y re-entrenar el modelo de acuerdo a los cambios en el contexto

SIINCO 2004 25

Aprendizaje Sensible al Coste

• La precisión es una medida de evaluación de modelos de clasificación bastante utilizada.

• No es muy conveniente en contextos con diferentes costes asociados a los errores

• Matriz de coste de un modelo de detección de fraude en tarjetas de crédito

0100€No10€0SíNoSí

Predicho

SIINCO 2004 26

Aprendizaje Sensible al Coste

• Se han definido varios métodos específicos para contextos con costes de clasificación errónea asociados

• Existen varios métodos que permiten adaptar métodos de aprendizaje clásicos a estos contextos– Estratificación: (Sobremuestreo y submuestreo)

• Sin embargo, no siempre es posible conocer el contexto de costes en el momento del aprendizaje

SIINCO 2004 27

Análisis ROC

• Cuando no se conoce la matriz de coste, existen técnicas que permiten seleccionar un conjunto de modelos para un determinado contexto de coste.– Análisis ROC: Receiver Operating Characteristic

• Técnica utilizada en medicina para optimizar las decisiones cuando hay incertidumbre

• Ha sido adaptada recientemente en el área del aprendizaje automático

SIINCO 2004 28

Análisis ROC

• Dado un clasificador con la siguiente matriz de confusión:

• Normalizamos por columna

4010No2030SíNoSí

Predicho

0.670.25No0.330.75SíNoSí

PredichoTPR

Diagrama ROC

SIINCO 2004 29

Análisis ROC

• Dado un conjunto de modelos:

– Podemos construir la curva convexa con sus puntos (FPR,TPR) y los clasificadores triviales (0,0), (1,1), (1,0).

– Los clasificadores que se encuentran dentro de la curva ROC pueden ser descartados

– El mejor modelo (perteneciente a la curva) puede ser seleccionado cuando se conozca el contexto de aplicación

Diagrama ROC

ClasificadoresTriviales

SIINCO 2004 30

Análisis ROC

• Si deseáramos seleccionar sólo un clasificador sin conocer el contexto de aplicación:

– Calculamos el área bajo la curva ROC (AUC) de cada modelo y escogemos el de mayor área.

ROC diagram

Clasificador con mayor AUC

SIINCO 2004 31

Análisis ROC: Ejemplo

• Deseamos aprender un modelo para la detección automática de correos basura

• El coste de clasificar un correo como basura cuando realmente no lo es (FP) es mucho más alto que no detectar un correo basura (FN)

• Construimos un conjunto de modelos utilizando para ello diferentes técnicas de aprendizaje– Utilizamos el Análisis ROC para seleccionar el subconjunto

óptimo de modelos• Si conocemos el contexto de aplicación seleccionamos el

modelo con menor coste• En otro caso seleccionamos el modelo con mayor AUC

SIINCO 2004 32

Diseño de Campañas

• Utilización aprendizaje automático puede ayudar en el diseño de campañas de publicidad por correo

• Esta empresa desea promocionar la venta de un nuevo producto: un mando de piloto para ser utilizado en programas de simulación de vuelo.

• Supongamos que una empresa de venta de productos informáticos por catálogo posee una base de datos de clientes, con datos sobre estos clientes.

SIINCO 2004 33

• Podríamos enviar propaganda a todos sus clientes– Solución poco rentable

• Podemos utilizar técnicas de aprendizaje automático para poder predecir la respuesta de un determinado cliente al envío de la propaganda y utilizar esta información para optimizar el diseño de la campaña.

SIINCO 2004 34

1. Selección de una muestra aleatoria y suficientemente numerosa de clientes

2. Se realiza el envío de la propaganda a los clientes seleccionados

3. Una vez pasado un tiempo prudencial etiquetamos a los clientes de la muestra: 1 ha comprado el producto, 0 no ha comprado el producto

4. Con la muestra etiqueta aprendemos un clasificador probabilístico

• asigna a cada ejemplo (cliente) no la clase predicha, sino una estimación de la probabilidad de respuesta de ese cliente

SIINCO 2004 35

• Con el clasificador probablístico podemos ordenar a los clientes según su interés y dibujar un gráfico de respuesta acumulada

• Nos indican qué porcentaje de las posibles respuestas vamos a obtener dependiendo del porcentaje de envíos que realicemos sobre la población total

0%10%20%30%40%50%60%70%80%90%

0% 10%

Sin modelo

Modelo

SIINCO 2004 36

• Además si estimamos la matriz de coste, podemos conocer la configuración optima mediante los gráficos de beneficio

– Configuración 1: Coste inicial de la campaña 10.000€, coste de envío de cada folleto 1,5€. Por cada producto vendido ganamos 3€

– Configuración 2: Coste inicial de la campaña 20.000€, coste de envío de cada folleto 0,8€. Por cada producto vendido ganamos 2,5€

-60.000 €

-50.000 €

-40.000 €

-30.000 €

-20.000 €

-10.000 €

10.000 €

20.000 €

30.000 €

0% 10%

Configuración 1Configuración 2

SIINCO 2004 37

Conclusiones

• Hemos presentado el proceso de extracción de conocimiento desde bases de datos

• Se ha ilustrado con un caso práctico cómo podemos utilizar esta técnica para la asistencia en la toma de decisiones

• Análisis ROC para la selección de modelos de acuerdo con el contexto de aplicación

• Ilustrado un ejemplo de cómo utilizar los métodos para optimizar el diseño de campañas

SIINCO 2004 38

Bibliografía Básica

• “Introducción a la Minería de Datos”, José Hernández, Mª José Ramírez y Cèsar Ferri. Pearson, 2004

• “Machine Learning”, T.M. Mitchell. McGraw-Hill, 1997.

• “Data Mining: Concepts and Techniques”, J. Han y M. Kamber. Morgan Kaufmann Publishers, 2000.

• “Data Mining. Practical Machine Learning Tools andTechniques with Java Implementations”, I. Witten y E. Frank.Morgan Kaufmann Publishers, 2000.

SIINCO 2004 39

Agradecimientos

• El Instituto Tecnológico de Chihuahua II y en especial a Ricardo Blanco por su amable invitación

• José Hernández Orallo y María José Ramírez Quintana por la formación científica y personal que me han proporcionado

• Los asistentes a este acto por su enorme paciencia y atención

GRACIAS!!!

Técnicas del aprendizaje automático para la asistencia en la toma de...

Documents

Transcript of Técnicas del aprendizaje automático para la asistencia en la toma de...

Técnicas de aprendizaje automático para la predicción de ...

APLICACIÓN DEL APRENDIZAJE AUTOMÁTICO EN LA … · la posición en que se encuentra cada actor del conflicto basándose en sus publicaciones (Tweets), el aprendizaje automático

4 - Charla PyConUY2012 - GARRETA - Aprendizaje Automático con Python

Aprendizaje profundo: el poder del aprendizaje automático ...ccc.inaoep.mx/~pgomez/conferences/PggTSys16.pdf · APRENDIZAJE PROFUNDO El poder del aprendizaje automático unido al

Máquinas Pensantes: y Aprendizaje Automático ...

Un modelo de aprendizaje automático orientado a predecir ...

Análisis con aprendizaje automático en el proceso de ...

Aplicación de técnicas de aprendizaje automático para la ...

Aprendizaje automático aplicado a juegos de estrategia en ...

APRENDIZAJE AUTOMÁTICO PARA TOMA DECISIONES EN ...

APLICACIÓN DEL APRENDIZAJE AUTOMÁTICO A LA …

Aprendizaje por Refuerzo - cayetanoguerra.github.iocayetanoguerra.github.io/.../Aprendizaje...apuntes.pdf · Tema 6: Aprendizaje por refuerzo Aprendizaje automático 3 6.1 Introducción

Modelos de aprendizaje automático para clasificar ...

Aprendizaje automático de gestos manuales aplicado a la ...

Aprendizaje Automático de Modelos Gráficos II ...

EVALUACIÓN DE MODELOS DE APRENDIZAJE AUTOMÁTICO …

Los principales tipos de aprendizaje automático

Aprendizaje automático aplicado en física: Una revisión de ...

Aprendizaje automático profundo y sus aplicaciones

Clasificación vía aprendizaje automático de …dspace.ucuenca.edu.ec/bitstream/123456789/26342/1/TICEC...MASKANA, CEDIA 2016 TIC.EC 151 Clasificación vía aprendizaje automático