Minería de DatosUn caso práctico
Ania Cravero LealMaster en Tecnologías de la Información aplicadas a la Empresa
Doctor en Ciencias de la Computación y Sistemas de Información
Académico Depto. De Ingeniería de Sistemas
Investigadora en Proyecto CEIS
Universidad de La Frontera
2
Temario
Introducción
Análisis de Datos de la Organización
Minería de Datos
Caso Práctico
Conclusiones
3
Introducción
Introducción Sistemas de apoyo a la decisión
El Almacén de Datos (AD)
Diferencias Sistemas Transaccionales y AD
Arquitectura de Almacenes de Datos
Aproximaciones de Diseño
Análisis de Datos de la Organización
Minería de Datos
Caso Práctico
Conclusiones
4
IntroducciónSistemas de apoyo a la decisión
Empresas en la actualidad Sistemas orientados a los procesos diarios de la
empresa Sistemas de Procesamiento Transaccional en Línea
(On-Line Transactional Processing, OLTP)
Compras de productos, ventas, pedidos, gestión de clientes, ..
Optimizados para la edición e inserción de datos
Aproximadamente el 90% de SGBD son relacionales SGBD eficientes, robustos, etc.
Datos históricos almacenamientos externos
5
IntroducciónSistemas de apoyo a la decisión
Entornos económicos altamente competitivos Empresas necesitan adoptar decisiones
estratégicas ¿ Qué tipo de cliente me ha estado comprando el
Peugeot 206 durante los últimos 10 años ?
¿ Ha variado un cliente sus gustos de compra de vehículos?
¿Ha estado comprando el mismo vehiculo de soltero que de casado?
¿ Qué descuento deberíamos ofrecer para incrementar significativamente las ventas ?
Sistemas de apoyo a la decisión
6
IntroducciónSistemas de apoyo a la decisión
¿ Son válidos los sistemas OLTP para
tales entornos ?
Algunos problemas
Gran volumen de datos históricos no
disponibles en sistemas diarios OLTP
Normalmente en distintas fuentes de datos
Los directivos/analistas no saben manejar
tales sistemas
7
IntroducciónEl Almacén de Datos
El Almacén de datos (Data Warehouse, DW) Repositorio de datos históricos para ser
utilizados por los Sistemas de Apoyo a la Decisión
Son sistemas eminentemente de consultaenfocados a extraer conocimiento de los datos históricos almacenados
El análisis de los datos On-Line Analytical Processing (OLAP) Utilizan el modelado multidimensional (cubos,
hipercubos, etc)
8
IntroducciónEl Almacén de Datos
Definición según W. Inmon (1992)
“Una colección de datos orientados por
tema, variables en el tiempo y no
volátiles que se emplea como apoyo a la
toma de decisiones estratégicas”
9
IntroducciónEl Almacén de Datos
Orientados por tema
El diseño enfocado a responder eficientemente
a consultas estratégicas
Actividades de interés: compra, ventas, arriendos,…
Contexto de análisis: clientes, vendedores, productos,
etc…
El modelado Multidimensional (primera
aproximación)
Hechos actividades de interés
Dimensiones contexto de análisis
10
IntroducciónEl Almacén de Datos
Integrados Datos integrados de distintas fuentes de datos
operacionales
Variables en el tiempo Datos relativos a un periodo de tiempo y se
incrementan periódicamente
No volátiles Los datos almacenados normalmente no se
modifican ni actualizan nunca (casi nunca), sólo se insertan nuevos datos
11
IntroducciónDiferencias Sistemas Transaccionales y de AD
OLTP AD/OLAP
Usuario Personal del negocio Tomador de decisiones
Función Operaciones diarias Apoyo a la decisión
Diseño de BD Orientada a la aplicación
(ER)
Orientado al tema/negocio
(Multidimensional, ej.
Estrella)
Datos Actuales Históricos
Unidades de trabajo Transacciones simples Consultas complejas
Registros accedidos Decenas Millones
Tamaño de la BD 100 MB - GB 100 GB - TR
12
IntroducciónArquitectura de Almacenes de Datos
13
IntroducciónArquitectura de Almacenes de Datos
14
IntroducciónArquitectura de Almacenes de Datos
15
IntroducciónArquitectura de Almacenes de Datos
16
IntroducciónArquitectura de Almacenes de Datos
Almacenes de datos Desnormalización
Optimizadas para consultas complejas Reduce número de objetos y de relaciones entre éstos
Fácil interpretación por el tomador de decisiones
Diseño conceptual Modelado MD (intuitivo)
Diseño lógico Esquema estrella
Diseño físico Modelo físico (Indices,
particionamiento,…)
17
IntroducciónArquitectura de Almacenes de Datos
Ejemplo de desnormalización
18
IntroducciónArquitectura de Almacenes de Datos
Aproximaciones de Diseño
Diseño guiado por requerimientos de usuarios
(user requirement driven) Top-down
Análisis requerimientos Modelado MD
Diseño guiado por datos (data driven)
Bottom-up
A partir de fuentes de datos
Aproximación híbrida
Propuesta Grupo Lucentia
19
IntroducciónArquitectura de Almacenes de Datos
20
Temario
Introducción
Análisis de Datos de la Organización Consultas simples
Consultas complejas para apoyo a la toma de decisiones
Información Oculta
Minería de Datos
Caso Práctico
Conclusiones
21
Análisis de Datos de la OrganizaciónConsultas Simples
SQL
Select
Insert
Update
Delete
22
Análisis de Datos de la OrganizaciónConsultas Complejas
23
Análisis de Datos de la OrganizaciónInformación Oculta
¿Cuáles son las preferencias para mis clientes en
los próximos 10 años?
¿Tengo clientes que realicen fraude?
¿Qué grupo de clientes prefiere los productos
innovadores de la empresa? ¿Seguirán prefiriendo
nuestros productos en los próximos 2 años?
?
24
Temario
Introducción
Análisis de Datos de la Organización
Minería de Datos Generalidades
Métodos más conocidos
Técnicas- Algunos algoritmos
Herramientas para Minería de Datos
Caso Práctico
Conclusiones
25
Minería de DatosGeneralidades
La Minería de Datos es una de las
soluciones que nos ayuda a extraer
conocimiento a partir de los datos.
Este conocimiento puede obtenerse a partir
de la búsqueda de conceptos, ideas o
patrones estadísticamente confiables, que
no son evidentes a primera vista,
desconocidos anteriormente y que pueden
derivarse de los datos originales.
26
Minería de DatosGeneralidades
La minería de datos produce cinco
tipos de información:
Asociaciones.
Secuencias.
Clasificaciones.
Agrupamientos.
Pronósticos.
27
Minería de DatosGeneralidades
Aplicaciones:
Análisis de fidelización de clientes
Segmentación de mercados
Venta Cruzada
Optimización de la cadena de suministro
Detección y prevención de fraudes
Detección de intrusos en sistemas
computacionales
Detección de Anomalías
28
Minería de DatosMétodos más conocidos
Knowledge Discovery in Databases (KDD)
29
Minería de DatosMétodos más conocidos
Cross-Industry Standard Process for Data Mining (CRISP-DM)
Etapas:
1. Comprensión del negocio
2. Comprensión de los datos
3. Preparación de datos
4. Modelización
5. Evaluación
6. Implementación
30
Minería de DatosTécnicas- Algunos Algoritmos
¿Qué es un cluster?
Un conjunto de entidades que son “parecidas”Ejemplos: K-Means,
DBSCAN, Sequence,
Kohonen, TwoStep
31
Minería de DatosTécnicas- Algunos Algoritmos
Ejemplo árboles de decisión
Son estructuras que representan
conjuntos de decisiones, y estas
decisiones generan reglas para la
clasificación de un conjunto de
datos.
32
Minería de DatosTécnicas- Algunos Algoritmos
Ejemplo redes neuronales
Son modelos predecibles, no lineales que aprenden a través del
entrenamiento.
33
Minería de DatosTécnicas- Algunos Algoritmos
Redes Bayesianas
Buscan determinar relaciones causales que expliquen un fenómeno
según los datos contenidos en una base de datos.
Se han usado principalmente para realizar predicciones.
34
Minería de DatosHerramientas
35
Temario
Introducción
Análisis de Datos de la Organización
Minería de Datos
Caso Práctico
Introducción
Aplicación del Método: CRISP- DM
Resultados
Conclusiones
36
Caso PrácticoIntroducción
El caso de estudio fue desarrollado en en una empresa del sector de Servicios Sanitarios (agua potable, alcantarillado, tratamiento de aguas, etc.), y por lo tanto, la búsqueda de actitudes fraudulentas de los consumidores no forma parte de sus funciones activas.
Actualmente, la oficina de fraudes dispone de personal que revisa físicamente los medidores de los clientes caso a caso, con el fin de detectar posibles fraudes
37
Caso PrácticoIntroducción
Requerimientos para el proyecto: Debe ser capaz de analizar y entregar indicadores sobre los
siguientes datos: Consumo de servicios entregados (agua potable, alcantarillado,
etc.),
Tiempo (año, mes, semestre, etc.),
Ubicación (localidad, sector, ruta) donde se entrega el servicio y las Características del servicio
Debe proveer capacidad de análisis visual, matemático, y entrega de reportes.
Objetivo: realizar un estudio a través de técnicas de MD que permitan localizar y estudiar comportamientos anómalossobre conjuntos de datos, para poder así identificar posibles fraudes en clientes que hacen uso indebido de los servicios que ofrece la empresa
38
Caso PrácticoIntroducción
El problema de la detección de fraude, radica en el
análisis de perfiles de usuario que permitan
describir el comportamiento de un cliente con el fin
de detectar anomalías (DA).
La meta principal en la DA, es encontrar objetos
que sean diferentes de los demás. Frecuentemente
estos objetos son conocidos como Outlier
39
Caso PrácticoIntroducción
Clementine- client contiene múltiples algoritmos para la detección de fraudes, entre los cuales se encuentran los de Clusterización: K-Means, Sequence, TwoStep, Kohonen; y de Detección de Anomalías (Outlier).
El software analiza los resultados obtenidos con el set de datos introducidos y busca la mejor alternativa con el menor error posible al aplicar cada uno de los algoritmos.
40
Caso PrácticoMétodo CRISP- DM
Comprensión del Negocio
Reuniones con la Gerencia de Clientes
El equipo propone utilizar técnicas de
clustering para la detección de
anomalías con el fin de obtener un
listado de clientes que presenten datos
atípicos
41
Caso PrácticoMétodo CRISP- DM
Comprensión de los Datos
Fue necesario analizar el modelo de base de
datos relacional del sistema de información de
la empresa, específicamente aquellas entidades
que tienen relación con el proceso de
facturación.
Éste mantiene información del consumo
mensual de uso de agua potable y alcantarillado
de cada cliente que utiliza estos servicios
42
Caso PrácticoMétodo CRISP- DM
Preparación de los Datos
Debió diseñarse un Almacén de Datos
43
Caso PrácticoMétodo CRISP- DM
Modelado El modelo de detección de anomalías
de Clementine, entrega como resultado grupos de datos con características similares, los cuales son llamados grupos homólogos del modelo.
Cada grupo homólogo entrega información sobre la cantidad de registros procesados, la cantidad de anomalías encontradas, un resumen sobre los campos escogidos a estudiar, entre otros
44
Caso PrácticoMétodo CRISP- DM
Evaluación
Los registros anómalos deben ser
contrastados con la información histórica
de casos de fraude que almacena la
empresa.
Implementación
45
Caso PrácticoResultados
Resultados
Después de varios intentos, se obtuvo
información confiable.
Cerca del 73% de los registros detectados
como anómalos son posibles causas de
fraude
Baja de los costos
46
Conclusiones
Consultas simples SQL SGBD
Consultas complejas OLAP DW
Información oculta Técnicas de MD
La MD es una técnica eficiente para la detección de anomalías, siempre y cuando se disponga de un conjunto de datos suficientes para un correcto análisis y
una metodología que permita llevar un control de los resultados dando la posibilidad de reestructurar medidas como la: recolección de nuevos datos,
separación de datos en clases,
transformaciones de las variables,
eliminación de datos,
selección de otros algoritmos de MD,
cambio en los parámetros introducidos en los modelos,
delimitación del campo de búsqueda, etc
Top Related