Post on 03-Mar-2015
Minería de datosDr. Francisco J. Mata
1
Introducción a la Introducción a la minería de datosminería de datos
Tema 1Tema 1
2
Minería de datosDr. Francisco J. Mata
TemarioTemario
¿Qué es minería de datos?¿Qué es minería de datos? ¿Quién usa minería de datos?¿Quién usa minería de datos? ¿Por qué de la minería de datos?¿Por qué de la minería de datos? Ciclo virtuoso de la minería de datosCiclo virtuoso de la minería de datos Resumen de principales técnicas de Resumen de principales técnicas de
minería de datosminería de datos
3
Minería de datosDr. Francisco J. Mata
Definición de minería de Definición de minería de datosdatos
Minería de datos es la exploración y Minería de datos es la exploración y análisis de grandes cantidades de análisis de grandes cantidades de datos con el objeto de encontrar datos con el objeto de encontrar patrones y reglas significativas patrones y reglas significativas (conocimiento)(conocimiento)
4
Minería de datosDr. Francisco J. Mata
Metas de la minería de Metas de la minería de datosdatos
Permitir a una organización Permitir a una organización MEJORAR _____ a través de un MEJORAR _____ a través de un mejor CONOCIMIENTO de _______mejor CONOCIMIENTO de _______
Mejorar la ventaja competitivaMejorar la ventaja competitiva
5
Minería de datosDr. Francisco J. Mata
La minería de datos es un La minería de datos es un campo multidisciplinariocampo multidisciplinario
Minería de datos
InteligenciaArtificial
(“MachineLearning”)
Estadística
Bases deDatos
(VLDB)
Graficación yvisualización
Ciencias dela información
Otrasdisciplinas
6
Minería de datosDr. Francisco J. Mata
La minería de datos es un La minería de datos es un subconjunto de la inteligencia subconjunto de la inteligencia
de negociosde negocios
7
Minería de datosDr. Francisco J. Mata
Minería de datosMinería de datos Proceso de utilizar datos “crudos” para Proceso de utilizar datos “crudos” para
inferir importantes relaciones entre ellosinferir importantes relaciones entre ellos Colección de técnicas poderosas para Colección de técnicas poderosas para
analizar grandes volúmenes de datosanalizar grandes volúmenes de datos No existe un solo enfoque para minería de No existe un solo enfoque para minería de
datos sino un conjunto de técnicas que se datos sino un conjunto de técnicas que se pueden utilizar de manera independiente o pueden utilizar de manera independiente o en combinaciónen combinación
Existe una relación con la estadística, Existe una relación con la estadística, aunque frecuentemente se separan las aunque frecuentemente se separan las técnicas que no están basadas en métodos técnicas que no están basadas en métodos estadísticosestadísticos
8
Minería de datosDr. Francisco J. Mata
Tipos de aplicaciones de la Tipos de aplicaciones de la minería de datosminería de datos
Aplicaciones o problemas de minería Aplicaciones o problemas de minería de datos pueden clasificarse en las de datos pueden clasificarse en las siguientes categoríassiguientes categorías ClasificaciónClasificación EstimaciónEstimación PronósticoPronóstico AsociaciónAsociación Agrupación o segmentaciónAgrupación o segmentación
9
Minería de datosDr. Francisco J. Mata
ClasificaciónClasificación
Examinar las características de un Examinar las características de un nuevo objeto y asignarle una clase o nuevo objeto y asignarle una clase o categoría de acuerdo a un conjunto categoría de acuerdo a un conjunto de tales objetos previamente definidode tales objetos previamente definido
Ejemplos:Ejemplos: Clasificar aplicaciones a crédito como Clasificar aplicaciones a crédito como
bajo, medio y alto riesgobajo, medio y alto riesgo Detectar reclamos fraudulentos de Detectar reclamos fraudulentos de
segurosseguros
10
Minería de datosDr. Francisco J. Mata
EstimaciónEstimación
Relacionado con clasificaciónRelacionado con clasificación Mientras clasificación asigna un valor Mientras clasificación asigna un valor
discreto, estimación produce un valor discreto, estimación produce un valor continuocontinuo
Ejemplos:Ejemplos: Estimar el precio de una viviendaEstimar el precio de una vivienda Estimar el ingreso total de una familiaEstimar el ingreso total de una familia
11
Minería de datosDr. Francisco J. Mata
PronósticoPronóstico
Predecir un valor futuro con base a Predecir un valor futuro con base a valores pasadosvalores pasados
Ejemplos:Ejemplos: Predecir cuánto efectivo requerirá un Predecir cuánto efectivo requerirá un
cajero automático en un fin de semanacajero automático en un fin de semana
12
Minería de datosDr. Francisco J. Mata
AsociaciónAsociación
Determinar cosas u objetos que van Determinar cosas u objetos que van juntosjuntos
Ejemplo:Ejemplo: Determinar que productos se adquieren Determinar que productos se adquieren
conjuntamente en un supermercadoconjuntamente en un supermercado
13
Minería de datosDr. Francisco J. Mata
Agrupación o Agrupación o segmentaciónsegmentación
Dividir una población en un número Dividir una población en un número de grupos más homogéneosde grupos más homogéneos
No depende de clases pre-definidas No depende de clases pre-definidas a diferencia de clasificacióna diferencia de clasificación
Ejemplo:Ejemplo: Dividir la base de clientes de acuerdo Dividir la base de clientes de acuerdo
con los hábitos de consumocon los hábitos de consumo
14
Minería de datosDr. Francisco J. Mata
Usos de la minería de Usos de la minería de datosdatos
Administración de la relación con los Administración de la relación con los clientes:clientes: Identificar nuevos clientes potenciales Identificar nuevos clientes potenciales
para aumentar ventaspara aumentar ventas Ampliar la base de cliente con la mínima Ampliar la base de cliente con la mínima
inversión por parte de la empresainversión por parte de la empresa Retener clientes existentes evitando que se Retener clientes existentes evitando que se
vayan a la competencia (“attrition”)vayan a la competencia (“attrition”) Vender más a clientes existentes (“ventas Vender más a clientes existentes (“ventas
cruzadas”) cruzadas”)
15
Minería de datosDr. Francisco J. Mata
Usos de la minería de Usos de la minería de datosdatos
Detección de fraudes en el uso de Detección de fraudes en el uso de tarjetas de créditotarjetas de crédito
Determinar patrones que puedan Determinar patrones que puedan estar relacionados con lavado de estar relacionados con lavado de dinerodinero
Determinar el precio de una casa Determinar el precio de una casa con base en sus características y el con base en sus características y el precio de otras casas vendidasprecio de otras casas vendidas
16
Minería de datosDr. Francisco J. Mata
Ejercicio en gruposEjercicio en grupos
Equipos: 3 personas máximoEquipos: 3 personas máximo Objetivos: Objetivos:
Identificar situaciones concretas para Identificar situaciones concretas para utilizar la minería de datos (10 minutos)utilizar la minería de datos (10 minutos)
Reportar a la clase verbalmente (3 minutos)Reportar a la clase verbalmente (3 minutos) Las situaciones identificadasLas situaciones identificadas Tipo de aplicación o problema de minería de Tipo de aplicación o problema de minería de
datos relacionadodatos relacionado Los beneficios esperados de aplicar la minería de Los beneficios esperados de aplicar la minería de
datosdatos
17
Minería de datosDr. Francisco J. Mata
Usos de la minería de Usos de la minería de datosdatos
Usos de la minería de datos se han Usos de la minería de datos se han ampliado con el comercio ampliado con el comercio electrónicoelectrónico
18
Minería de datosDr. Francisco J. Mata
RecomendacionesRecomendaciones
19
Minería de datosDr. Francisco J. Mata
Disponibilidad de datos Disponibilidad de datos de transaccionesde transacciones
20
Minería de datosDr. Francisco J. Mata
¿Por qué de la minería de ¿Por qué de la minería de datos?datos?
Datos se encuentran disponiblesDatos se encuentran disponibles Poder computacional es cada vez Poder computacional es cada vez
menos costosomenos costoso Las presiones competitivas son Las presiones competitivas son
enormesenormes Software para minería de datos se Software para minería de datos se
encuentra disponibleencuentra disponible
21
Minería de datosDr. Francisco J. Mata
Ciclo virtuoso de la minería Ciclo virtuoso de la minería de datosde datos
22
Minería de datosDr. Francisco J. Mata
Principales técnicas de Principales técnicas de minería de datosminería de datos
Análisis de canasta de supermercadoAnálisis de canasta de supermercado K vecinos más cercanosK vecinos más cercanos Detección de gruposDetección de grupos Análisis de encadenamientoAnálisis de encadenamiento Árboles de decisiónÁrboles de decisión Redes neuronales artificialesRedes neuronales artificiales Algoritmos genéticosAlgoritmos genéticos
23
Minería de datosDr. Francisco J. Mata
Resumen técnicas de Resumen técnicas de minería de datosminería de datos
Análisis de canasta de supermercadoAnálisis de canasta de supermercado Agrupar objetos que aparecen juntosAgrupar objetos que aparecen juntos Ejemplos:Ejemplos:
Pañales y cervezas
24
Minería de datosDr. Francisco J. Mata
Resumen técnicas de Resumen técnicas de minería de datosminería de datos
K vecinos más cercanosK vecinos más cercanos Determinar los K vecinos más cercanos Determinar los K vecinos más cercanos
en instancias conocidos con el objeto de en instancias conocidos con el objeto de clasificar o hacer una predicción sobre clasificar o hacer una predicción sobre una instancia desconocidauna instancia desconocida
Ejemplo: Dado un reclamo para un Ejemplo: Dado un reclamo para un seguro determinar basado en reclamos seguro determinar basado en reclamos similares (vecinos) si se debe pagar o similares (vecinos) si se debe pagar o investigarinvestigar
25
Minería de datosDr. Francisco J. Mata
Resumen técnicas de Resumen técnicas de minería de datosminería de datos
Detección de gruposDetección de grupos Encontrar objetos similares entre síEncontrar objetos similares entre sí Ejemplos: tipificar clases de clientesEjemplos: tipificar clases de clientes
26
Minería de datosDr. Francisco J. Mata
Resumen técnicas de Resumen técnicas de minería de datosminería de datos
Análisis de encadenamientoAnálisis de encadenamiento Encuentra relaciones entre objetos de Encuentra relaciones entre objetos de
acuerdo con patronesacuerdo con patrones Relacionado con la teoría de grafosRelacionado con la teoría de grafos Ejemplos:Ejemplos:
Relaciones entre individuos basados en Relaciones entre individuos basados en llamadas telefónicasllamadas telefónicas
Relaciones entre casos criminales de Relaciones entre casos criminales de acuerdo con sus característicasacuerdo con sus características
27
Minería de datosDr. Francisco J. Mata
Resumen técnicas de Resumen técnicas de minería de datosminería de datos
Árboles de decisiónÁrboles de decisión Dividir objetos en grupos asociando Dividir objetos en grupos asociando
reglas para la asignación de los objetos reglas para la asignación de los objetos en su correspondiente grupoen su correspondiente grupo
Ejemplos: determinar el sexo o grupo Ejemplos: determinar el sexo o grupo de edad de una persona en función a de edad de una persona en función a una serie de preguntas contestadasuna serie de preguntas contestadas
28
Minería de datosDr. Francisco J. Mata
Resumen técnicas de Resumen técnicas de minería de datosminería de datos
Redes neuronales artificialesRedes neuronales artificiales Más común de las técnicas y para algunos Más común de las técnicas y para algunos
sinónimo de minería de datossinónimo de minería de datos Modelos simples de interconexiones Modelos simples de interconexiones
neuronales en el cerebro que aprenden de neuronales en el cerebro que aprenden de un conjunto de adiestramiento y generalizan un conjunto de adiestramiento y generalizan patrones dentro de él con el objeto de patrones dentro de él con el objeto de clasificar, estimar o predecirclasificar, estimar o predecir
Ejemplo: estimar el valor de una casa Ejemplo: estimar el valor de una casa tomando en cuenta el precio pagado por tomando en cuenta el precio pagado por casas similarescasas similares
29
Minería de datosDr. Francisco J. Mata
Resumen técnicas de Resumen técnicas de minería de datosminería de datos
Algoritmos genéticosAlgoritmos genéticos Aplican la mecánica de la genética y la Aplican la mecánica de la genética y la
selección natural para encontrar un selección natural para encontrar un conjunto de parámetros óptimos para conjunto de parámetros óptimos para una función predictivauna función predictiva
Utilizados para entrenar redes Utilizados para entrenar redes neuronales artificialesneuronales artificiales
30
Minería de datosDr. Francisco J. Mata
Resumen técnicas de Resumen técnicas de minería de datosminería de datos
Técnicas mencionadas pueden utilizarse en Técnicas mencionadas pueden utilizarse en varias aplicaciones o problemas de minería varias aplicaciones o problemas de minería de datosde datos Ejemplo: árboles de decisión sirven para Ejemplo: árboles de decisión sirven para
detectar grupos, clasificar y predecirdetectar grupos, clasificar y predecir Varias técnicas pueden ser utilizadas en Varias técnicas pueden ser utilizadas en
una misma aplicación o problema de una misma aplicación o problema de minería de datosminería de datos Ejemplo: K vecinos más próximos, árboles de Ejemplo: K vecinos más próximos, árboles de
decisión y redes neuronales artificiales pueden decisión y redes neuronales artificiales pueden utilizarse para clasificaciónutilizarse para clasificación