Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 1

Árboles de decisión

Tema 9

Parte teórica



Conjunto de reglas representadas en forma de una estructura de árbol



Son muy útiles cuando hay más de una manera para convertirse en miembro de una clase meta Modelo para encontrar tarjeta habientes rentables

puede identificar tres tipos de clientes: Tarjeta habientes que mantienen saldos altos Tarjeta habientes que compran mucho Tarjeta habientes que ocasionalmente hacen compras

grandes y pagan sus balances a tiempo Cada uno de estos representa un paso diferente a través del

árbol.



El paso a través del árbol de decisión explica la clasificación

Envía hijosa escuela

pública



Cada hoja contiene información sobre el número de observaciones que caen en ella y la proporción para cada clase

La clase más densa se selecciona como la clasificación para el nodo



Se utilizan para Asignar “scores” a los datosExplorar datosHacer clasificaciones y prediccionesComprender que variables son más

importantes


Árboles de decisión y “scoring”

Se puede asignar un “score” a los datos de acuerdo a la hoja a la que fueron clasificados



ProblemasUsualmente hay muy pocas hojas por lo que

hay pocos valores de “scoring”


Árboles de decisión y exploración

Árboles de decisión son útiles para explorar un conjunto de datos y entender cómo ciertas variables (“input”) inciden sobre otra (“target”)


Árboles de decisión y exploración

Ciudadesproducto noestá bien

Ciudadesproductoestá bien

Penetración de unproducto en ciudades


Árboles de decisión y clasificaciones/predicciones Aplicación más común


Árboles de decisión y clasificaciones/predicciones

Predecirclientes quepondríanórdenes sise les envíacatálogo deNavidad, basado en aquellosque pusieron órdenes el año pasado


Árboles de decisión y variables más importantes Ayuda a eliminar variables para otros

modelos, por ejemplo regresión


Árboles de decisión y variables más importantes


Proceso para crear un árbol de decisión Se utiliza un conjunto de datos de

entrenamiento (“training”) para crear el árbol

Se utiliza un conjunto de datos de validación para reducir la complejidad del árbol y generalizarlo (proceso de poda o “pruning”)Eliminar el problema del “overfitting”


Proceso para crear un árbol de decisión Tres conjuntos de datos obtenidos de

particionar el conjunto de datos originalEntrenamiento: 40%Validación: 30%Prueba: 30%


Algoritmos más comunes para árboles de decisión CART (“classification and regression

trees”) C4.5 CHAID (“chi square automatic induction”)

Varían en Medida de pureza utilizada para los grupos Forma de poda


Creación de árboles de decisión

Proceso recursivo Se inicia con todos los datos del conjunto de adiestramiento en

la raíz Para cada variable “input” se decide la mejor forma para separar

los valores de la variable “target” Se selecciona la variable “input” y criterio de mejor separación

mediante ésta para los valores de la variable “target” Se divide el nodo en cuestión en dos o más hijos de acuerdo

con aquella variable que “mejor divide” la variable “target” Se repite proceso con los otros nodos hasta que no sea posible

más divisiones


Divisiones


Divisiones

Medida para evaluar la calidad de una división en un árbol de decisión se denomina pureza


Medidas de pureza

Depende de la variable “target” no de las variables “input” Variable “target” categórica

Gini (diversidad de población) Entropía (ganancia de información) Radio de ganancia de información Prueba chi cuadrado

Variable “target” intervalo o radio Reducción en varianza Prueba F


Pureza

Índice de Gini Utilizado en las ciencias sociales y la economía Probabilidad de que dos cosas escogidas al azar de

una población sean la misma Una población pura tiene un índice de Gini de 1 Si hay dos grupos igualmente representados en una

población el índice de Gini es 0.5 El índice de Gini es la suma de los cuadrados de las

proporciones de las poblaciones p1

2+ p22

El objetivo es maximizar el índice de Gini


Gini


Pureza

Entropía Utilizada en la teoría de la información para medir la

cantidad de información almacenada en un número de bits

Una población pura tiene una entropía de 0 Si existen dos grupos igualmente representados la

entropía es 1 Cálculo de entropía

-(p1 log p1 + p2 log p2) El objetivo es minimizar entropía


Entropía


Gini versus entropía

Entropía tiene preferencia por grupos más pequeños y puros

Gini tiene preferencia por grupos similares en tamaño


Pureza Chi cuadrado

Prueba importante en estadística para medir la probabilidad de que la frecuencia observada de una muestra sea debida sólo a la variación de la muestra

Es relativa a la proporción en la población original (nodo padre)

Si las proporciones en los hijos son las mismas que en el padre entonces el valor de chi cuadrado es 0

Si los hijos son puros, el valor de chi cuadrado es alto Para una población dividida 50%-50%, el valor es

igual al tamaño de la población


Pureza Chi cuadrado

Cálculo para el chi cuadrado para cada hijo: (observado (c1) – esperado (c1))2 / esperado (c1) +

(observado (c2) –esperado (c2))2/ esperado (c2) ci número de instancias de clase i en el hijo obsevado (ci ): número de instancias observadas de

clase i en el hijo esperado (ci ): número de instancias esperadas de clase

i en el hijo tamaño del hijo multiplicado por la proporción de la

clase en el padre

El objetivo es maximizar chi cuadrado


Chi cuadrado


Chi cuadrado

Coincidenen este caso


Algoritmos y pureza

CART: Gini C4.5: entropía CHAID: chi cuadrado


Valores perdidos

Tratamiento Ignorar registros con valores perdidos (puede

introducir sesgo)Tratar los valores perdidos como legítimos y

asignarlos a un nodo del árbol


Error en un árbol de decisión

Para una hoja:1-probabilidad de clase dominante para la

hoja Para un árbol:

Suma ponderada de error de hoja i multiplicada por probabilidad de que un registro pertenezca a esta hoja


Poda de árboles de decisión

Incrementa la estabilidad del modelo al reducir su complejidad


Poda


Poda

Con el conjunto de entrenamiento, cada división del árbol reduce el error Pero al aumentar el número de hojas, éstas

contienen menos registros o tuples y se reduce la posibilidad de que la distribución de resultados en una hoja sea similar de un conjunto de datos a otros (“overfitting”)

Los datos de prueba son utilizados para encontrar el punto donde la complejidad adicional empieza a dañar en lugar de ayudar


Poda


Algoritmo típico de poda

Identificar sub-árboles candidatos para poda Tasa de error ajustada:

AE(T) = E(T) + α leaf_count (T) Se inicia considerando todos los subárboles que

contienen la raíz α se incrementa

Si AE(Ti) <= E(T completo), Ti es un árbol candidato para conservar y aquellas ramas que no pertenecen a él son podadas

El proceso se repite de nuevo para los subárboles en Ti


Poda

Varía de acuerdo con los diferentes algoritmosCARTC4.5CHAID

Resultados clasificación




.. Es clasificada como Mala Buena Total Solicitud es realmente

Mala 313 140 453 Buena 122 1809 1931

Total 435 1949 2384

Error clasificar solicitud como buena siendo mala: 140/453= 31%Error clasificar solicitud como mala siendo buena: 122/1931= 6%Error de mala clasificación: (140+122)/2384=11%


Clasificado 1 Clasificado 0

Realmente 1 Verdadero positivo Falso negativo

Realmente 0 Falso positivo Verdadero negativo


Resultados de clasificación


Variable Adiestramiento Validaciónrespuesta

1=malo0=bueno

Resultado clasificación

Regla:IF 492238.5 <= VALUE

AND DEBTINC < 45.43897

THEN

NODE : 5

N : 12

1 : 83.3%

0 : 16.7%

Interpretación:


Condición Resultado esperado

Probabilidad (Error de

clasificación}*

N*

492238.5 <= VALUE AND DEBTINC < 45.43897

Solicitud mala 83% (17%)

12 (0.50%)


Ventajas de los árboles de decisiones Fácil de entender Resultados se adaptan bien a reglas de

negocios No se requieren suposiciones acerca de

los datos Variables “input” pueden ser continuas y

categóricas


Desventajas de los árboles de decisiones Algunos algoritmos sólo pueden tratar variables

“target” binarias Otros algoritmos pueden tratar variables “target”

con más de dos valores pero no funcionan bien cuando el número de casos de entrenamiento es pequeño por clase

Son costosos en términos computacionales

Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Documents

Transcript of Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.