Post on 28-Aug-2020
SIINCO 2004 1
Técnicas del aprendizaje automático para la asistencia en la toma de
decisiones
Cèsar Ferri Ramírez
Chihuahua, 12 de octubre de 2004.
Departament de Sistemes Informàtics i ComputacióUniversitat Politècnica de València,Valencia, Spaincferri@dsic.upv.es
SIINCO 2004 2
Resumen
• Introducción• Aprendizaje Automático y Minería de
Datos• Caso Práctico• Análisis ROC• Ejemplo de Mailing• Conclusiones
SIINCO 2004 3
Introducción
• El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos ha crecido espectacularmente en las últimas décadas:– Ventas– Carga de urgencias– Evolución de los valores bursátiles– Número de estudiantes que abandonan la universidad– Accidentes automovilísticos
• Esta información es útil para explicar el pasado, entender el presente y predecir la información futura.
SIINCO 2004 4
Introducción
• La mayoría de decisiones de empresas, organizaciones e instituciones se basan en la información almacenada sobre experiencias pasadas– Cuántos productos se deben mantener en stock?– Cuántas camas se deben reservar para urgencias– Debo vender mis valores?– Cuántos aulas debo reservar para el próximo curso?– Que cuota debo cobrar a un cliente por su seguro del auto?
• Tradicionalmente, estas decisiones las tomaban personas expertas a partir de un análisis e interpretación de los datos realizados de forma manual– Método caro, lento y subjetivo.– Impracticable cuando el volumen de los datos es alto
SIINCO 2004 5
Aprendizaje Automático
• El área de aprendizaje automático aporta varias técnicas que pueden asistir a las personas en la toma de decisiones en estos contextos.
• El aprendizaje automático ha sido definido en [Mitchell1997] como el área de la informática que se centra en el problema de cómo construir programas que son capaces de mejorar su comportamiento automáticamente mediante la experiencia.
• La aplicación de técnicas de aprendizaje automático para la extracción de conocimiento desde bases de datos ha sido denominado como minería de datos [Hernández, Ramírez & Ferri 2004].
SIINCO 2004 6
Minería de Datos
• La minería de datos es el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos [Witten & Frank2000] .
• Otro término utilizado es el de extracción o “descubrimiento de conocimiento en bases de datos” (Knowledge Discovery in Databases, KDD).
• En [Fayyad et al. 1996] se define el KDD como “el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos”.
SIINCO 2004 7
Minería de datos
Sistema de información
KDD
Conocimiento Evaluación /
Interpretación / Visualización
Preparación de los datos
Patrones Minería
de datos
• Últimamente se ha usado el término KDD para referirse a un proceso que consta de una serie de fases, mientras que la minería de datos es sólo una de estas fases.
SIINCO 2004 8
Fases del Proceso de Extracción de Conocimiento
+ + + + - - -
conocimiento
decisiones
datos iniciales
datos seleccionados(vista minable)
5. difusión y uso
1. integración y recopilación
2. selección, limpieza y transformación
3. minería de datos
4. evaluación einterpretación
almacén de datos
patrones
SIINCO 2004 9
Tareas de la Minería de Datos
• Clasificación. Cada instancia pertenece a una clase (categórica), la cual se indica mediante el valor de un atributo que llamamos la clase de la instancia.– ¿El cliente X comprará el producto?
• Regresión. Consiste en aprender una función real que asigna a cada instancia un valor real.– ¿Cuántas camas tendrá libre el hospital la semana próxima?
• Agrupamiento. Consiste en obtener grupos “naturales” a partir de los datos.– Identificar grupos de clientes de una librería en base a sus
preferencias de compras que le permita dar un servicio más personalizado.
SIINCO 2004 10
Tareas de la Minería de Datos
• Correlaciones. son una tarea descriptiva que se usa para examinar el grado de similitud de los valores de dos variables numéricas.– Conocer la correlación entre los días de helada y la
producción de naranjas en un año.
• Reglas de asociación. Tiene como objetivo identificar relaciones no explícitas entre atributos categóricos.– Análisis de la cesta de la compra
SIINCO 2004 11
Tareas de la Minería de Datos
• Reglas de asociación secuenciales. Sirven para determinar patrones secuenciales en los datos.– El 30% de los clientes que compran un televisor compran
un reproductor de DVD dentro del mes siguiente.
SIINCO 2004 12
Técnicas de la Minería de Datos
• Métodos estadísticos. Regresión, funciones discriminantes...
• Métodos basados en núcleo. SVM...
• Métodos Bayesianos. Naive Bayes..
• Reglas y árboles de decisión. ILP..
• Técnicas de conteo y soporte mínimo. Apriori...
SIINCO 2004 13
Técnicas de la Minería de Datos
• Redes neuronales.
• Aprendizaje basado en casos.
• Algoritmos evolutivos.
SIINCO 2004 14
Aplicaciones de la Minería de Datos
– Aplicaciones financieras y bancarias– Análisis de mercado, distribución y, en general, comercio– Seguros y salud privada– Medicina– Educación– Procesos Industriales– Biología, bioingeniería y otras ciencias– Telecomunicaciones
SIINCO 2004 15
Caso Práctico
• Deseamos mejorar el rendimiento académico de unos alumnos de una determinada asignatura.
• ¿Cómo podemos utilizar el aprendizaje automático para ayudarnos en estos fines?– Utilizar las experiencias pasadas de estudiantes para guiar
a los alumnos en sus hábitos de estudio.
SIINCO 2004 16
Caso Práctico: Recopilación de datos
• Encuestas al alumnado que acaban de realizar el examen de la asignatura– Datos generales
• Sexo• Edad• ¿Trabajas?
– Datos académicos• Años de estudio• Nota de acceso
– Hábitos de estudio• Horas de dedicación• Material empleado: Exámenes anteriores, otras fuentes
– Resultados académicos• Nota del examen
SIINCO 2004 17
Caso Práctico: Recopilación de datos
• Pase de encuestas:
– Hoja de encuestas.• Permite una mejor recopilación de los datos• Requiere más trabajo: Recopilación y tratamiento manual de
los datos
– Formulario web (Servidor web + PHP).• Datos sesgados• Recopilación y tratamiento automático de los datos
SIINCO 2004 18
Caso Práctico: Selección, Limpieza y Transformación
• Selección: En este caso dado que el volumen de los datos (registros o atributos) es limitado no es necesario este paso.
• Limpieza: Tratamiento de valores desconocidos o anómalos. Eliminación de los registros que puedan parecer sospechosos de ser falsos o bien problemáticos.
• Transformación: Podemos decidir convertir algún atributo de numérico a categórico, o viceversa. Por ejemplo, convertir la nota del examen en valor categórico con dos valores: Aprobado (5<=X<=10) o suspendido (0<=X<5).
SIINCO 2004 19
Caso Práctico: Minería de datos
• Aprender un modelo predictivo que determine si un alumno aprueba o no de acuerdo a los atributos recopilados.
• Utilizamos árboles de decisión como técnica de aprendizaje:– Técnica de aprendizaje que construye modelos precisos de
manera eficiente.– Modelo fácilmente comprensible e implementable
SIINCO 2004 20
Caso Práctico: Minería de datos
• Árbol de decisión para determinar recomendación o no de cirugía ocular:
¿Edad?≤25
>25 y ≤50 >50
≤1.5 >1.5 y ≤10 >10
NO
NO
NO SÍ
NO SÍ
NO
>6 ≤6
no sí
¿Miopía?
¿Miopía?
¿Astigmatismo?
SIINCO 2004 21
Caso Práctico: Minería de datos
• Multi-clasificadores: Aumentan la precisión a costa de perder comprensibilidad
Datos
Árbol de decisión
Árbol de decisión
a1a2
c0
C1
a1a2
c0
a1a2
c0
C2
Cn
Predicción CombinadaCombinación
Árbol de decisión
SIINCO 2004 22
Caso Práctico: Minería de datos
• Weka,suite informática de minería de datos de libre distribución.
• Multitud de técnicas de aprendizaje
• Permite tratamiento previo de datos
• Visualización de modelos
• Experimentos de comparación de métodos de aprendizaje
SIINCO 2004 23
Caso Práctico: Evaluación de modelos
• Debemos medir la calidad de los modelos aprendidos.
• Se suele utilizar la precisión como métrica de calidad: – Precisión= Nº de casos acertados/ Nº de casos totales
• Técnicas de evaluación:– Evaluar sobre los datos de entrenamiento: Peligro de
sobreajuste.– Partir los datos en entrenamiento/test: Perdemos datos
para el aprendizaje– Validación cruzada.
SIINCO 2004 24
Caso Práctico: Difusión y Uso de Modelos
• Una vez comprobado la validez del modelo aprendido se puede utilizar
• Implementación del modelo en un formulario web.1. El alumno introduce sus datos en el formulario2. El modelo devuelve una predicción acerca del resultado
del examen de acuerdo con los datos introducidos3. Si la respuesta es negativa, incluso podemos utilizar el
árbol de decisión para averiguar qué aspectos debe el alumno modificar para aprobar el examen
• Necesidad de re-evaluar y re-entrenar el modelo de acuerdo a los cambios en el contexto
SIINCO 2004 25
Aprendizaje Sensible al Coste
• La precisión es una medida de evaluación de modelos de clasificación bastante utilizada.
• No es muy conveniente en contextos con diferentes costes asociados a los errores
• Matriz de coste de un modelo de detección de fraude en tarjetas de crédito
0100€No10€0SíNoSí
Real
Predicho
SIINCO 2004 26
Aprendizaje Sensible al Coste
• Se han definido varios métodos específicos para contextos con costes de clasificación errónea asociados
• Existen varios métodos que permiten adaptar métodos de aprendizaje clásicos a estos contextos– Estratificación: (Sobremuestreo y submuestreo)
• Sin embargo, no siempre es posible conocer el contexto de costes en el momento del aprendizaje
SIINCO 2004 27
Análisis ROC
• Cuando no se conoce la matriz de coste, existen técnicas que permiten seleccionar un conjunto de modelos para un determinado contexto de coste.– Análisis ROC: Receiver Operating Characteristic
• Técnica utilizada en medicina para optimizar las decisiones cuando hay incertidumbre
• Ha sido adaptada recientemente en el área del aprendizaje automático
SIINCO 2004 28
Análisis ROC
• Dado un clasificador con la siguiente matriz de confusión:
• Normalizamos por columna
4010No2030SíNoSí
Real
Predicho
0.670.25No0.330.75SíNoSí
Real
PredichoTPR
FPR
Diagrama ROC
0 1
1
0FPR
TPR
SIINCO 2004 29
Análisis ROC
• Dado un conjunto de modelos:
– Podemos construir la curva convexa con sus puntos (FPR,TPR) y los clasificadores triviales (0,0), (1,1), (1,0).
– Los clasificadores que se encuentran dentro de la curva ROC pueden ser descartados
– El mejor modelo (perteneciente a la curva) puede ser seleccionado cuando se conozca el contexto de aplicación
Diagrama ROC
0 1
1
0FPR
TPR
ClasificadoresTriviales
SIINCO 2004 30
Análisis ROC
• Si deseáramos seleccionar sólo un clasificador sin conocer el contexto de aplicación:
– Calculamos el área bajo la curva ROC (AUC) de cada modelo y escogemos el de mayor área.
ROC diagram
0 1
1
0FPR
TPR
Clasificador con mayor AUC
AUC
SIINCO 2004 31
Análisis ROC: Ejemplo
• Deseamos aprender un modelo para la detección automática de correos basura
• El coste de clasificar un correo como basura cuando realmente no lo es (FP) es mucho más alto que no detectar un correo basura (FN)
• Construimos un conjunto de modelos utilizando para ello diferentes técnicas de aprendizaje– Utilizamos el Análisis ROC para seleccionar el subconjunto
óptimo de modelos• Si conocemos el contexto de aplicación seleccionamos el
modelo con menor coste• En otro caso seleccionamos el modelo con mayor AUC
SIINCO 2004 32
Diseño de Campañas
• Utilización aprendizaje automático puede ayudar en el diseño de campañas de publicidad por correo
• Esta empresa desea promocionar la venta de un nuevo producto: un mando de piloto para ser utilizado en programas de simulación de vuelo.
• Supongamos que una empresa de venta de productos informáticos por catálogo posee una base de datos de clientes, con datos sobre estos clientes.
SIINCO 2004 33
Diseño de Campañas
• Podríamos enviar propaganda a todos sus clientes– Solución poco rentable
• Podemos utilizar técnicas de aprendizaje automático para poder predecir la respuesta de un determinado cliente al envío de la propaganda y utilizar esta información para optimizar el diseño de la campaña.
SIINCO 2004 34
Diseño de Campañas
1. Selección de una muestra aleatoria y suficientemente numerosa de clientes
2. Se realiza el envío de la propaganda a los clientes seleccionados
3. Una vez pasado un tiempo prudencial etiquetamos a los clientes de la muestra: 1 ha comprado el producto, 0 no ha comprado el producto
4. Con la muestra etiqueta aprendemos un clasificador probabilístico
• asigna a cada ejemplo (cliente) no la clase predicha, sino una estimación de la probabilidad de respuesta de ese cliente
SIINCO 2004 35
Diseño de Campañas
• Con el clasificador probablístico podemos ordenar a los clientes según su interés y dibujar un gráfico de respuesta acumulada
• Nos indican qué porcentaje de las posibles respuestas vamos a obtener dependiendo del porcentaje de envíos que realicemos sobre la población total
0%10%20%30%40%50%60%70%80%90%
100%
0% 10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Sin modelo
Modelo
SIINCO 2004 36
Diseño de Campañas
• Además si estimamos la matriz de coste, podemos conocer la configuración optima mediante los gráficos de beneficio
– Configuración 1: Coste inicial de la campaña 10.000€, coste de envío de cada folleto 1,5€. Por cada producto vendido ganamos 3€
– Configuración 2: Coste inicial de la campaña 20.000€, coste de envío de cada folleto 0,8€. Por cada producto vendido ganamos 2,5€
-60.000 €
-50.000 €
-40.000 €
-30.000 €
-20.000 €
-10.000 €
0 €
10.000 €
20.000 €
30.000 €
0% 10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Configuración 1Configuración 2
SIINCO 2004 37
Conclusiones
• Hemos presentado el proceso de extracción de conocimiento desde bases de datos
• Se ha ilustrado con un caso práctico cómo podemos utilizar esta técnica para la asistencia en la toma de decisiones
• Análisis ROC para la selección de modelos de acuerdo con el contexto de aplicación
• Ilustrado un ejemplo de cómo utilizar los métodos para optimizar el diseño de campañas
SIINCO 2004 38
Bibliografía Básica
• “Introducción a la Minería de Datos”, José Hernández, Mª José Ramírez y Cèsar Ferri. Pearson, 2004
• “Machine Learning”, T.M. Mitchell. McGraw-Hill, 1997.
• “Data Mining: Concepts and Techniques”, J. Han y M. Kamber. Morgan Kaufmann Publishers, 2000.
• “Data Mining. Practical Machine Learning Tools andTechniques with Java Implementations”, I. Witten y E. Frank.Morgan Kaufmann Publishers, 2000.
SIINCO 2004 39
Agradecimientos
• El Instituto Tecnológico de Chihuahua II y en especial a Ricardo Blanco por su amable invitación
• José Hernández Orallo y María José Ramírez Quintana por la formación científica y personal que me han proporcionado
• Los asistentes a este acto por su enorme paciencia y atención
GRACIAS!!!