Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.
Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.
-
Upload
suelo-ayon -
Category
Documents
-
view
15 -
download
2
Transcript of Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.
Dr. Francisco J. MataDr. Francisco J. Mata 11
Metodologías para Metodologías para Minería de DatosMinería de Datos
Tema 4Tema 4
Temario Temario
► IntroducciónIntroducción►Metodología CRISPMetodología CRISP►Metodología de Berry y LinoffMetodología de Berry y Linoff►Metodología SEMMAMetodología SEMMA
Dr. Francisco J. Mata 2
IntroducciónIntroducción
►Minería de datos es una forma de Minería de datos es una forma de aprender del pasado para hacer aprender del pasado para hacer mejores decisiones en el futuromejores decisiones en el futuro
►Una metodología está basada en Una metodología está basada en mejores prácticasmejores prácticas
Dr. Francisco J. Mata 3
Metodologías de minería de Metodologías de minería de datosdatos
►Tratan de evitar dos resultados Tratan de evitar dos resultados indeseables en el proceso de indeseables en el proceso de aprendizajeaprendizaje Aprender cosas que no son ciertasAprender cosas que no son ciertas Aprender cosas que aunque ciertas no son Aprender cosas que aunque ciertas no son
útilesútiles
Dr. Francisco J. Mata 4
Aprender cosas que no son Aprender cosas que no son ciertasciertas
►Más peligroso que aprender cosas que Más peligroso que aprender cosas que no son útilesno son útiles Decisiones importantes pueden estar Decisiones importantes pueden estar
basadas en información o conocimiento basadas en información o conocimiento incorrectoincorrecto
Dr. Francisco J. Mata 5
Problemas que llevan a Problemas que llevan a conclusiones falsasconclusiones falsas
►Patrones en los datos pueden no Patrones en los datos pueden no representar reglasrepresentar reglas
►El modelo desarrollado puede no El modelo desarrollado puede no reflejar la población relevantereflejar la población relevante
►Los datos pueden estar en un nivel Los datos pueden estar en un nivel equivocado de detalleequivocado de detalle
Dr. Francisco J. Mata 6
Patrones en los datos pueden Patrones en los datos pueden no reflejar reglasno reflejar reglas
► Los seres humanos dependen tanto de Los seres humanos dependen tanto de patrones en sus vidas que tienden a verlos patrones en sus vidas que tienden a verlos aunque no existanaunque no existan Ejemplos de patronesEjemplos de patrones
► Alternancia de día y nocheAlternancia de día y noche► EstacionesEstaciones► Horas y días de programas en la TVHoras y días de programas en la TV
Dr. Francisco J. Mata 7
Patrones en los datos pueden Patrones en los datos pueden no reflejar reglasno reflejar reglas
► El desafío de la minería de datos es encontrar El desafío de la minería de datos es encontrar patrones que tengan valor predictivopatrones que tengan valor predictivo El partido que no tiene la presidencia tiende a ganar más El partido que no tiene la presidencia tiende a ganar más
puestos en el Congreso durante las elecciones de medio puestos en el Congreso durante las elecciones de medio periodoperiodo
► Razones políticasRazones políticas Cuando la Liga Americana gana la Serie Mundial, los Cuando la Liga Americana gana la Serie Mundial, los
Republicanos ganan la Casa BlancaRepublicanos ganan la Casa Blanca► No hay razón aparenteNo hay razón aparente
En las elecciones presidenciales, el hombre más alto ganaEn las elecciones presidenciales, el hombre más alto gana► Desde 1945Desde 1945
Carter versus FordCarter versus Ford Gore versus Bush Gore versus Bush
Dr. Francisco J. Mata 8
El modelo desarrollado El modelo desarrollado puede no reflejar la puede no reflejar la población relevantepoblación relevante
►Para hacer alguna predicción se crea Para hacer alguna predicción se crea un modelo de la situaciónun modelo de la situación
►Este modelo se desarrolla a partir de Este modelo se desarrolla a partir de una muestra de la poblaciónuna muestra de la población Muestras sesgadasMuestras sesgadas
Dr. Francisco J. Mata 9
Los datos pueden estar en un Los datos pueden estar en un nivel equivocado de detalle nivel equivocado de detalle
Dr. Francisco J. Mata 10
¿Cayeron las ventas en octubre?
Aprender cosas que aunque Aprender cosas que aunque ciertas no son útilesciertas no son útiles
►Aprender cosas que ya son conocidasAprender cosas que ya son conocidas►Aprender cosas que no pueden ser Aprender cosas que no pueden ser
utilizadasutilizadas
Dr. Francisco J. Mata 11
Aprender cosas que ya son Aprender cosas que ya son conocidasconocidas
►Muchos de los patrones en los datos Muchos de los patrones en los datos representan cosas que ya conocemosrepresentan cosas que ya conocemos Personas retiradas no responden a ofertas Personas retiradas no responden a ofertas
para planes de retiropara planes de retiro Personas que viven donde no hay torres Personas que viven donde no hay torres
de celular tienden a no comprar téléfonos de celular tienden a no comprar téléfonos celularescelulares
Dr. Francisco J. Mata 12
Aprender cosas que ya son Aprender cosas que ya son conocidasconocidas
►Aprender cosas que ya conocemos Aprender cosas que ya conocemos tiene sin embargo un propósito útiltiene sin embargo un propósito útil Demuestra que la minería de datos está Demuestra que la minería de datos está
funcionando y que los datos son funcionando y que los datos son razonablemente precisosrazonablemente precisos
Dr. Francisco J. Mata 13
Aprender cosas que no Aprender cosas que no pueden ser utilizadaspueden ser utilizadas
► La minería de datos puede descubrir La minería de datos puede descubrir relaciones que son tanto ciertas como relaciones que son tanto ciertas como desconocidas per difíciles de utilizardesconocidas per difíciles de utilizar Problemas regulatoriosProblemas regulatorios
► Historia de crédito de un cliente puede predecir futuros Historia de crédito de un cliente puede predecir futuros reclamos de seguro, pero la ley no permite discriminar a reclamos de seguro, pero la ley no permite discriminar a los clienteslos clientes
No se puede cambiar el ambiente en que se operaNo se puede cambiar el ambiente en que se opera► Un producto puede ser más apropiado para ciertos Un producto puede ser más apropiado para ciertos
climas que otros pero no se puede cambiar el climaclimas que otros pero no se puede cambiar el clima► Un servicio puede ser peor en ciertas condiciones Un servicio puede ser peor en ciertas condiciones
topografía pero no se puede cambiar estas condicionestopografía pero no se puede cambiar estas condiciones
Dr. Francisco J. Mata 14
Dr. Francisco J. Mata 15
CRISP-DMCRISP-DM
►Cross Industry Standard Process for Cross Industry Standard Process for Data MiningData Mining Desarrollada en 1996 porDesarrollada en 1996 por
► Daimler Benz (ahora Daimler Chrysler)Daimler Benz (ahora Daimler Chrysler)► ISL (ahora parte de SPSS), que lanzara en 1994 ISL (ahora parte de SPSS), que lanzara en 1994
Clementine (software para minería de datos)Clementine (software para minería de datos)► NCR creador de Teradata (software para bodega de datos)NCR creador de Teradata (software para bodega de datos)
Independiente de la herramientas de minería de Independiente de la herramientas de minería de datos utilizadosdatos utilizados
Guía CRISP-DM Versión 1.0 (Guía CRISP-DM Versión 1.0 (http://www.crisp-dm.org/CRISPWP-0800.pdf))
Dr. Francisco J. Mata 16
Divisiones de CRISP-DMDivisiones de CRISP-DM
Dr. Francisco J. Mata 17
Fases de CRISP-DMFases de CRISP-DM
Dr. Francisco J. Mata 18
Fases de CRISP-DMFases de CRISP-DM
►Entendimiento del negocioEntendimiento del negocio Comprender los objetivos y Comprender los objetivos y
requerimientos del proyecto desde la requerimientos del proyecto desde la perspectiva del negocioperspectiva del negocio
Este conocimiento es luego convertido en Este conocimiento es luego convertido en la definición de un problema de minería la definición de un problema de minería de datos y un plan preliminar es de datos y un plan preliminar es desarrollado para alcanzar estos objetivosdesarrollado para alcanzar estos objetivos
Dr. Francisco J. Mata 19
Fases de CRISP-DMFases de CRISP-DM
►Entendimiento de los datosEntendimiento de los datos Recolección inicial de datosRecolección inicial de datos Continúa con actividades paraContinúa con actividades para
►Familiarizarse con los datosFamiliarizarse con los datos►Identificar problemas con la calidad de los Identificar problemas con la calidad de los
datosdatos►Descubrir percepciones de su naturaleza Descubrir percepciones de su naturaleza
interna o detectar subconjuntos interesantes interna o detectar subconjuntos interesantes para formar hipótesispara formar hipótesis
Dr. Francisco J. Mata 20
Fases de CRISP-DMFases de CRISP-DM
►Preparación de datosPreparación de datos Actividades para construir el conjunto de Actividades para construir el conjunto de
datos final, el cual será utilizado como datos final, el cual será utilizado como entrada a las herramientas de modelajeentrada a las herramientas de modelaje
Las tareas se pueden aplicar múltiples Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecidoveces y sin un orden pre-establecido
►Incluyen extracción, transformación y carga Incluyen extracción, transformación y carga (ETL)(ETL)
Dr. Francisco J. Mata 21
Fases de CRISP-DMFases de CRISP-DM
►ModeladoModelado Varias técnicas de modelado son Varias técnicas de modelado son
seleccionadas y aplicadas y sus seleccionadas y aplicadas y sus parámetros calibrados a valores óptimosparámetros calibrados a valores óptimos
►Existen varias técnicas de minería de datos Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problemaque se pueden aplicar a un mismo problema
Dichas técnicas tienen diferentes requerimientos de Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datosvolver a la etapa de preparación de datos
Fases de CRISP-DMFases de CRISP-DMModeladoModelado
Dr. Francisco J. Mata 22
Dr. Francisco J. Mata 23
Fases de CRISP-DMFases de CRISP-DM
►EvaluaciónEvaluación Determina si el modelo construido Determina si el modelo construido
satisface los objetivos del negociosatisface los objetivos del negocio►¿Existen aspectos del negocio que no hayan
sido considerados suficientemente?
Evaluar resultados►Resultados=Modelos+Descrubimientos
Dr. Francisco J. Mata 24
Fases de CRISP-DMFases de CRISP-DM
►Aplicación del modelo o sus resultadosAplicación del modelo o sus resultados Tan simple como generar un reporte o tan Tan simple como generar un reporte o tan
complejo como implementar un proceso complejo como implementar un proceso continuo de minería de datos a través de continuo de minería de datos a través de la empresala empresa
Dr. Francisco J. Mata 25
Tareas genéricasTareas genéricas
Dr. Francisco J. Mata 26
Tareas genéricas y salidas para Tareas genéricas y salidas para entender el negocioentender el negocio
Dr. Francisco J. Mata 27
Tareas genéricas y salidas para Tareas genéricas y salidas para entender los datosentender los datos
Dr. Francisco J. Mata 28
Tareas genéricas y salidas para Tareas genéricas y salidas para preparación de datospreparación de datos
Dr. Francisco J. Mata 29
Tareas genéricas y salidas para Tareas genéricas y salidas para modeladomodelado
Dr. Francisco J. Mata 30
Tareas genéricas y salidas para Tareas genéricas y salidas para evaluaciónevaluación
Dr. Francisco J. Mata 31
Tareas genéricas y salidas para Tareas genéricas y salidas para aplicación del modelo o sus aplicación del modelo o sus
resultadosresultados
Dr. Francisco J. Mata 32
Fases, tareas, salidas, Fases, tareas, salidas, actividadesactividades
►Guía del usuario para CRISP-DM Guía del usuario para CRISP-DM (página 35)(página 35)
Metodología de Berry y LinoffMetodología de Berry y Linoff
Dr. Francisco J. Mata 33
Metodología SEMMAMetodología SEMMA
►Desarrollada por SASDesarrollada por SAS SSample: Muestreoample: Muestreo EExplore: Exploraciónxplore: Exploración MModify: Modificarodify: Modificar MModel: Modelajeodel: Modelaje AAssess: Evaluarssess: Evaluar
►Apoyada por el Enterprise Data MinerApoyada por el Enterprise Data Miner
Dr. Francisco J. Mata 34
Comparación metodologíasComparación metodologías
Dr. Francisco J. Mata 35
Entendimiento del negocio
Entendimiento de los datos
Preparación de datos
Modelaje
Evaluación (objetivos del
negocio)
Puesta en operación
Traducir probl. negocio en probl.
minería
Seleccionar datos
Arreglar problema datos
Transformar datos
Puesta en operación
Evaluar resultados
Construir modelo
Evaluar modelo
Muestro
Exploración
Modelaje
Evaluación
Modificación
Berry y Linoff
CRISP
SEMMA