Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.
-
Upload
blanca-orellana -
Category
Documents
-
view
15 -
download
4
Transcript of Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.
![Page 1: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/1.jpg)
Minería de datosDr. Francisco J. Mata
1
Análisis de asociación
Parte teórica
Tema 8
![Page 2: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/2.jpg)
Minería de datosDr. Francisco J. Mata
2
Análisis de asociación
Encuentra reglas de asociación las cuales especifican cuáles eventos pueden ocurrir simultáneamenteAnálisis de canasta de supermercado
Objetos que se consumen simultáneamente
Análisis de patrones secuencialesOrden en que las cosas ocurren
![Page 3: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/3.jpg)
Minería de datosDr. Francisco J. Mata
3
Análisis de canasta de supermercado
![Page 4: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/4.jpg)
Minería de datosDr. Francisco J. Mata
4
Aplicaciones de análisis de canasta de supermercado
Elementos comprados simultáneamenteCompras hechas con una misma tarjeta de
crédito (ej., hotel y carro de alquiler)Servicios optativos u opcionalesCombinaciones inusuales en reclamos de
seguros (pueden ser un indicador de fraude)Combinaciones de tratamiento e historia de
pacientes (pueden indicar complicaciones)
![Page 5: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/5.jpg)
Minería de datosDr. Francisco J. Mata
5
Asociación
Útil paraMinería indirecta
Utilizada como punto de arranque
Puede servir para plantear hipótesis de asociaciones en minería directaDiferencia entre almacenes nuevos y viejos
![Page 6: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/6.jpg)
Minería de datosDr. Francisco J. Mata
6
Tipos de reglas
ÚtilesLos días jueves los compradores de supermercados
frecuentemente compran pañales desechables y cerveza
TrivialesConsumidores que compran contratos de
mantenimiento son más propensos a comprar electrodomésticos grandes
InexplicablesAl abrir un almacén de ferretería nuevo, uno de los
productos más vendidos son sillas de inodoro
![Page 7: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/7.jpg)
Minería de datosDr. Francisco J. Mata
7
Datos para el análisis de canasta de supermercado
![Page 8: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/8.jpg)
Minería de datosDr. Francisco J. Mata
8
Preparación de datos para análisis de canasta de supermercado
![Page 9: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/9.jpg)
Minería de datosDr. Francisco J. Mata
9
Análisis de canasta de supermercadoCliente Productos adquiridos
1 jugo, soda
2 leche, jugo, limpiador ventanas
3 jugo, detergente
4 jugo, detergente, soda
5 limpiador ventanas, soda
Jugo Limpiador
ventanas
Leche Soda Detergente
Jugo 4 1 1 2 2
Limpiador ventanas
1 2 1 1 0
Leche 1 1 1 0 0
Soda 2 1 0 3 1
Detergente 2 0 0 1 2
Transacciones
Tabla de co-ocurrenciade ítems
![Page 10: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/10.jpg)
Minería de datosDr. Francisco J. Mata
10
Análisis de canasta de supermercado
Extensión de una tabla de co-ocurrencia a 3 dimensiones
![Page 11: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/11.jpg)
Minería de datosDr. Francisco J. Mata
11
Reglas de asociaciónJugo Limpiador
ventanasLeche Soda Detergente
Jugo 4 1 1 2 2
Limpiador ventanas
1 2 1 1 0
Lecha 1 1 1 0 0
Soda 2 1 0 3 1
Detergente 2 0 0 1 2
Patrones que se pueden observar1. Jugo y soda al igual que jugo y detergente son más propensos
a comprarse juntos que cualquiera otros dos productos2. Detergente nunca se compra con limpiador de ventanas o
leche3. Leche nunca se compra con soda o detergente
![Page 12: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/12.jpg)
Minería de datosDr. Francisco J. Mata
12
¿Qué tan buena es una regla de asociación?
ConfianzaNúmero de transacciones con todos los ítemes
mencionados en la regla dividido por el número de transacciones con los ítemes que aparecen en la parte si de la reglaProporción de transacciones en las cuales la
regla es verdadera• p(condición y resultado)/p(condición)
![Page 13: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/13.jpg)
Minería de datosDr. Francisco J. Mata
13
¿Qué tan buena es una regla de asociación?
¿Cuál es la confianza para la regla si un cliente compra soda entonces también compra jugo?: 2 de 3 compras de soda también incluyen jugo, por lo tanto 67%
p(soda y jugo)/p(soda)= 0.4/0.6=67%
¿Cuál es la confianza de la regla reversa: si un cliente compra jugo entonces también compra soda? 2 de 4 compras de jugo también incluyen soda, por lo tanto 50%
p(jugo y soda)/p(jugo)=0.4/0.8=50%
Cliente Productos adquiridos
1 jugo, soda
2 leche, jugo, limpiador ventanas
3 jugo, detergente
4 jugo, detergente, soda
5 limpiador ventanas, soda
Transacciones
![Page 14: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/14.jpg)
Minería de datosDr. Francisco J. Mata
14
¿Qué tan buena es una regla de asociación?
ApoyoNúmero de transacciones que contienen todos
los ítemes que aparecen en la regla dividido entre el número total de transaccionesPorcentaje de transacciones que contienen todos
los ítemes que aparecen en la regla• p(condición y resultado)
![Page 15: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/15.jpg)
Minería de datosDr. Francisco J. Mata
15
¿Qué tan buena es una regla de asociación?
¿Cuál es la apoyo para la regla si un cliente compra soda entonces también compra jugo?: 2 de 5 compras contienen de soda y jugo, por lo tanto 40%
p(soda y jugo)=2/5=40%
¿Cuál es el apoyo de la regla reversa: si un cliente compra jugo entonces también compra soda? La misma de la regla anterior, 40%
p(soda y jugo)=p(jugo y soda)
Cliente Productos adquiridos
1 jugo, soda
2 leche, JN, limpiador ventanas
3 jugo, detergente
4 jugo, detergente, soda
5 limpiador ventanas, soda
Transacciones
![Page 16: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/16.jpg)
Minería de datosDr. Francisco J. Mata
16
¿Qué tan buena es una regla de asociación?
“Lift” o mejoríaMide cuánto mejor es una regla para predicción que
una estimación hecha tomando un cliente al azarNúmero de transacciones que soportan la regla dividido
entre número de transacciones esperado asumiendo que no existe relación entre los ítemesp(condición y resultado)/(p(condición) * p(resultado))
Cuando el lift < 1 la regla es peor que una estimación educada y la negación de la regla produce una mejor regla que una estimación al azar
![Page 17: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/17.jpg)
Minería de datosDr. Francisco J. Mata
17
¿Qué tan buena es una regla de asociación?
¿Cuál es el “lift” para la regla si un cliente compra soda entonces también compra jugo?: p(soda y jugo)/(p(soda) * p(jugo))=0.4/(0.6 * 0.8)=0.83
¿Cuál es el “lift” de la regla negada: si un cliente compra soda entonces no compra jugo? p(soda y no jugo)/(p(soda) * p(no jugo))= 0.2/(0.6 * 0.2)=1.66
Cliente Productos adquiridos
1 jugo, soda
2 leche, jugo, limpiador ventanas
3 jugo, detergente
4 jugo, detergente, soda
5 limpiador ventanas, soda
Transacciones
![Page 18: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/18.jpg)
Minería de datosDr. Francisco J. Mata
18
EjercicioÍtemes Probabilidad
A 45%
B 42.5%
C 40%
A y B 25%
A y C 20%
B y C 15%
B y C y no A ?????
A y B y C 5%Calcular apoyo, confianza y “lift” para reglas si A y B entonces C, si A y C entonces B, si B y C entonces A, y si A entonces B
![Page 19: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/19.jpg)
Minería de datosDr. Francisco J. Mata
19
Respuesta
Regla Apoyo Confianza “Lift”
Si A y B entonces C
5% 20% 0.50
Si A y C entonces B
5% 25% 0.59
Si B y C entonces A
5% 33% 0.74
Si A entonces B 25% 59% 1.31
![Page 20: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/20.jpg)
Minería de datosDr. Francisco J. Mata
20
Pasos básicos para obtener reglas de asociacíón
![Page 21: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/21.jpg)
Minería de datosDr. Francisco J. Mata
21
Seleccionar conjunto adecuado de ítemesDebe considerarse necesidades del
negocioNivel de detalle debe ser adecuado
![Page 22: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/22.jpg)
Minería de datosDr. Francisco J. Mata
22
Seleccionar conjunto adecuado de ítemes
![Page 23: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/23.jpg)
Minería de datosDr. Francisco J. Mata
23
Seleccionar conjunto adecuado de ítemes
![Page 24: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/24.jpg)
Minería de datosDr. Francisco J. Mata
24
Seleccionar conjunto adecuado de ítemesTaxonomías de productos son de utilidadAnálisis de asociación produce mejores
resultados cuando los productos aparecen aproximadamente en el mismo número de transacciones (reglas no están dominadas por los productos más comunes)
Productos raros pueden ser subidos en la taxonomía para que aparezcan más frecuentemente
![Page 25: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/25.jpg)
Minería de datosDr. Francisco J. Mata
25
Ítemes virtuales
Ítemes virtuales no aparecen en la taxonomía
Pueden ser agregados para identificarLocalizaciónTiempo (día, mes)Almacenes nuevos vrs. viejosMarcas
![Page 26: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/26.jpg)
Minería de datosDr. Francisco J. Mata
26
Ítemes virtuales
Deben ser escogidos cuidadosamente para evitar reglas redundantes
![Page 27: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/27.jpg)
Minería de datosDr. Francisco J. Mata
27
Ítemes virtuales
Si reglas redundates aparecen entonces utilice elementos generalizados
![Page 28: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/28.jpg)
Minería de datosDr. Francisco J. Mata
28
Cálculo de probabilidades
![Page 29: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/29.jpg)
Minería de datosDr. Francisco J. Mata
29
Determinar reglas
![Page 30: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/30.jpg)
Minería de datosDr. Francisco J. Mata
30
Determinar reglas
Entre más “accionable” sea la regla mejorEn la práctica las reglas más accionables
tienen un ítem como resultadoMejor: Si pañales desechables y jueves entonces
cerveza Peor: Si jueves entonces pañales desechables y
cerveza
![Page 31: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/31.jpg)
Minería de datosDr. Francisco J. Mata
31
Determinar reglas
Cuando el “lift” para una regla es menor que 1, negar el resultado produce una mejor regla
![Page 32: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/32.jpg)
Minería de datosDr. Francisco J. Mata
32
El problema de reglas con muchos ítemes
Generar reglas de asociación requiere múltiples pasos: Generar matriz de co-ocurrencias para un ítem Generar matriz de co-ocurrencia para dos ítemes (sirve para
generar reglas con dos productos) Generar matriz de co-ocurrencia para tres ítemes (sirve para
generar reglas con tres productos) Se puede continuar hasta el número total de ítemes
Cada paso incrementa exponencialmente el tiempo
![Page 33: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/33.jpg)
Minería de datosDr. Francisco J. Mata
33
El problema de muchos ítemes
Fórmula binomial
Número de combinaciones para 100 ítemes
¡Un supermercado puede tener entre 10,000 y 30,000 productos!
![Page 34: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/34.jpg)
Minería de datosDr. Francisco J. Mata
34
El problema de muchas transacciones
El número de transacciones por lo general es muy grandeEn el transcurso de un año una cadena de
supermecados de tamaño mediano puede generar millones de transacciones
![Page 35: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/35.jpg)
Minería de datosDr. Francisco J. Mata
35
Superación de limitaciones prácticas
Soluciónes:Utilizar “prunning” considerando un apoyo mínimo
(mínimo número de transacciones conteniendo la combinación)Si existe 1 millón de transacciones y se utiliza unapoyo
mínimo del 1% entonces sólo las reglas apoyadas por 10,000 transacciones serán consideradas
Apoyo mínimo tiene un efecto de cascada• Si utilizamos el apoyo mínimo de 1% y la regla es si A, B
y C entonces D para que la combinación A, B, C y D aparezca por lo menos un 1% todos los elementos en la combinación deben aparecer por lo menos 1% y todas las combinaciones de dos y tres elementos deben aparecer por lo menos un 1%
![Page 36: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/36.jpg)
Minería de datosDr. Francisco J. Mata
36
Superación de limitaciones prácticas
Solución:Limitar el número de ítemes en una reglaUso de taxonomías para reducir el número de
ítemes
![Page 37: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/37.jpg)
Minería de datosDr. Francisco J. Mata
37
Algoritmo apriori
Mejora el rendimiento utilizando conocimiento a priori
Utiliza “prunning”Todos los subconjuntos de un conjunto
frecuente de elementos deben ser frecuentesapoyo (I) < min_apoyo entonces apoyo (I unión
{a}) < min_apoyo para todo elemento a
![Page 38: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/38.jpg)
Minería de datosDr. Francisco J. Mata
38
Algoritmo apriori
Pasos:Sea L-1 el conjunto de k-1 elementos que
satisfacen el criterio de apoyo mínimoJoin para k elementos: añadir un ítem diferente a
cada uno de los elementos en L-1Prune para k: eliminar todos los conjuntos de L con
k ítemes que no satisfacen el criterio de apoyo mínimo
![Page 39: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/39.jpg)
Minería de datosDr. Francisco J. Mata
39
Ejemplo algoritmo aprioriApoyo 2 o 2/9=22%
![Page 40: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/40.jpg)
Minería de datosDr. Francisco J. Mata
40
Ejemplo algoritmo aprioriApoyo 2 o 2/9=22%
![Page 41: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/41.jpg)
Minería de datosDr. Francisco J. Mata
41
Fortalezas del análisis de canasta de supermercado
Resultados se pueden entender claramente
De gran utilidad para minería indirectaComputacionalmente simple aunque con
crecimiento exponencial en tiempo
![Page 42: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/42.jpg)
Minería de datosDr. Francisco J. Mata
42
Debilidades del análisis de canasta de supermecadoComplejidad crece exponencialmente
conforme crece el tamaño del problemaDifícil determinar los elementos
apropiadosElementos raros pueden producir
problemas
![Page 43: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/43.jpg)
Minería de datosDr. Francisco J. Mata
43
Cuando aplicar análisis de asociaciónProblemas de minería indirecta que
consisten en elementos bien definidos los cuales se agrupan de maneras interesantes
Estos problemas ocurren usualmente en el comercio, donde transacciones de punto de venta son las bases del análisis
![Page 44: Minería de datos Dr. Francisco J. Mata 1 Análisis de asociación Parte teórica Tema 8.](https://reader034.fdocuments.co/reader034/viewer/2022051819/54f68b834a79595c208b4ab1/html5/thumbnails/44.jpg)
Minería de datosDr. Francisco J. Mata
44
Cuando aplicar análisis de asociaciónSe puede aplicar también en problemas
de minería directaComparar ventas en almacenes nuevos y
viejos
El algoritmo se puede modificar para considerar reglas que contienen un producto en particular (comprender sus patrones de venta)