K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada [email protected] ccobos Grupo...

28
K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada [email protected] http://www.unicauca.edu.co/~ccobos Grupo de I+D en Tecnologías de la Información Departamento de Sistemas Facultad de Ingeniería Electrónica y Telecomunicaciones Universidad del Cauca

Transcript of K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada [email protected] ccobos Grupo...

Page 1: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

K-NN: K vecinos más cercanos

MSc. Carlos Alberto Cobos Lozada

[email protected]

http://www.unicauca.edu.co/~ccobos

Grupo de I+D en Tecnologías de la Información

Departamento de Sistemas

Facultad de Ingeniería Electrónica y Telecomunicaciones

Universidad del Cauca

Page 2: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Resumen Previo

Enfoque estadístico para estimación y predicción

Métodos univariable

Métodos multivariable – Regresión Lineal Multivariable

Determinar la confianza de las estimaciones

Intervalos de predicción

Verificar los supuestos del modelo

Page 3: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Métodos supervisado vs. no supervisado Métodos no supervisados:

No hay variable objetivo Algoritmos buscan patrones. Por ejemplo: Clustering

Métodos supervisados Mayoría de métodos de minería de datos Variable objetivo pre clasificada Proceso de aprendizaje Por ejemplo: Árboles de decisión, redes neuronales y los k-

vecinos más cercanos. Mixtos (supervisados y no supervisados)

Reglas de Asociación ¿Cuáles ítems se compran juntos? – No supervisado Con cierta confianza y soporte ¿Cuáles ítems se compran juntos? -

Supervisado (apriori)

Page 4: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Metodología para modelos supervisados

Conjunto de entrenamiento

Generar el modelo de minería de datos

provisional

Aplicar el modelo provisional al conjunto

de prueba.Ajustar el modelo para

minimizar la rata de error en el conjunto de

prueba

Aplicar el modelo ajustado al conjunto de

validación. Ajustar el modelo para minimizar la rata de error en el

conjunto de validación

Modelo de minería

provisional

Conjunto de Prueba

Conjunto de Validación

Modelo de minería ajustado

Modelo de minería final

Adaptado de [1] para uso educativo

Page 5: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Nivel óptimo de complejidad

Sobre ajusteBajo ajuste

Tomado de [1] para uso educativo

Page 6: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Complejidad vs. Error

Alta complejidadAlta varianzaBajo sesgo (error)

Baja complejidad Baja varianzaAlto sesgo (error)

x

x

xx

x

x

x

Conocido como Bias-variance trade-offDilema de sobre/bajo ajusteUn modelo más complejo disminuye el sesgo (bias) en el conjunto de entrenamiento pero incrementa la varianza (dispersión de la variables con respecto a su esperanza)

Tomado de [1] para uso educativo

Pilas con la idiosincrasia de los datos

Page 7: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Complejidad vs. Error

El Error Cuadrado Medio (Mean-squared error, MSE) es una buena medida para evaluar dos modelos que compiten (debe minimizarse)

MSE contempla el sesgo y la varianza

P es el número de parámetros del modelo, en regresión lineal simple p=1 (y=m*x+b entonces y depende de 1 solo parámetro, x en este caso)

Tomado de [1] para uso educativo

Page 8: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Tareas de clasificación

Hay una variable categórica objetivo. Ejemplos de tareas de clasificación

Banca: Transacciones fraudulentas y riesgo crediticio Educación: Orden de cursos a tomar por un nuevo

estudiante Medicina: Diagnosticar si una enfermedad esta

presente Leyes: Determinar si un testamento es fraudulento Seguridad Nacional: Comportamiento financiero que

señale una amenaza de terrorismo

Page 9: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Tareas de clasificación

Tomado de [1] para uso educativo

Comprensión del negocio

Análisis de los datos

Preparación de los datos

ModelamientoEvaluación

Despliegue Datos

Page 10: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Algoritmo de los k vecinos más cercanos El más usado para

clasificación También es usado para

estimaciones y predicciones

Aprendizaje basado en instancias

Examina K tuplas cercanas a la tupla que se va a clasificar

O(n) para cada tupla a clasificar (n es el numero de tuplas en el data set de entrenamiento)

Page 11: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Algoritmo de los k vecinos más cercanos

Tomado de [2] para uso educativo

Page 12: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Algoritmo de los k vecinos más cercanos

Tomado de [1] para uso educativo

Page 13: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Algoritmo de los k vecinos más cercanos

New patient 1 tiene cerca drogas Y

NP1

Page 14: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Algoritmo de los k vecinos más cercanos

Tomado de [1] para uso educativo

New patient 2 con k=1 droga BCon k=2 droga B o A?

NP2

Page 15: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Algoritmo de los k vecinos más cercanos

Tomado de [1] para uso educativo

New patient 3 con k=1 droga BCon k=2 droga B o A?

Con k=3 droga B o A o X?

NP3

Page 16: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Problemas de los k vecinos más cercanos ¿Cuántos vecinos considerar? ¿Valor de k? ¿Cómo medir la distancia? ¿Cómo combinar la información de más de

una observación? ¿El peso de los vecinos debe ser igual?

¿algunos vecinos deben tener mayor influencia que otros?

Page 17: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Función de Distancia

Debe cumplir tres reglas (distancia o similitud) 1. d (x, y) >= 0, y d (x, y) = 0 si y sólo si x = y

(No ser negativa) 2. d (x, y) = d (y, x) (Conmutativa) 3. d (x, z) <= d (x, y) + d (y, z) (desigualdad

triangular)

Distancia Euclidiana

Tomado de [1] para uso educativo

2)(),(

iiiEuclidiana yxyxd

Page 18: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Función de Distancia

Distancia Euclidiana

Importantísimo Normalización Min-Max o Estandarización Z-score

Tomado de [1] para uso educativo

Page 19: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Función de Distancia

Para variables categóricas la Distancia Euclidiana no aplica. Para ello definimos una función “Diferente de” para comparar el i-ésimo atributo

Tomado de [1] para uso educativo

Page 20: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Función Combinación

Tomado de [1] para uso educativo

NP2

Page 21: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Función Combinación Simple

Tomado de [1] para uso educativo

NP2

Page 22: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Función Combinación Simple

Con K= 1 gana Droga del punto A Con K= 2 empate como decido? Con K= 3 gana Droga de puntos B y C

Tomado de [1] para uso educativo

Page 23: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Función Combinación Ponderada

Tomado de [1] para uso educativo

NP2

Page 24: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Función Combinación Ponderada Los votos son pesados de acuerdo al cuadrado inverso

de sus distancias

Para los registros B y C, Gris medio:

Con K= 3 gana Droga A (contrario a función de combinación simple)

Tomado de [1] para uso educativo

Page 25: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Validación Cruzada

Cross-Validation: Holdout validation: Separar el Training Set en

Validation y Traininng, normalmente hasta una tercera parte … realmente no es validación cruzada

K-fold cross-validation: Realizar k particiones del DataSet, tomar k-1 de ellas como Training Set y la otra (k) como Validation Set, y repetir el proceso rotando la partición que se toma como Validation Set

Leave-one-out cross-validation: Igual al anterior pero tomando cada fila como Validation set

Para K-nn la validación cruzada puede ayudar a encontrar el mejor valor de K.

Page 26: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Resumen

Aprendizaje supervisado y no supervisado Nivel optimo de complejidad (under fitting y over fitting) K-nn muy usado para clasificación, estimación y

predicción – Algoritmo basado en instancias – Lazy (perezoso)

Normalización y/o Estandarización de los datos, inicialmente igual peso, dependiendo de la aplicación o un experto los pesos se pueden cambiar

La medida de distancia es clave: distancias numéricas y categóricas

Función de combinación de k valores (Votación simple o ponderada)

Modelado con Validación cruzada (Cross-Validation: Holdout validation, K-fold cross-validation, Leave-one-out cross-validation)

Page 27: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Taller

Usar IBK (K-nn) de Weka para el data set de drogas y entender todos los parámetros y resultados entregados

Implementar K-nn en VS.NET o java y probarlo con un data set de la UCI Machine Learning Repository

Page 28: K-NN: K vecinos más cercanos MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de.

Referencias

1. Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2

2. Dunham, Margaret H. Data Mining: Introductory and Advanced Topics. Prentice Hall, 2003. 315 p. ISBN-10: 0130888923, ISBN-13: 9780130888921. Slides available on http://lyle.smu.edu/~mhd/book.

3. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM.