Download - Minería de Datos

Minería de DatosUn caso práctico

Ania Cravero LealMaster en Tecnologías de la Información aplicadas a la Empresa

Doctor en Ciencias de la Computación y Sistemas de Información

Académico Depto. De Ingeniería de Sistemas

Investigadora en Proyecto CEIS

Universidad de La Frontera

2

Temario

Introducción

Análisis de Datos de la Organización

Minería de Datos

Caso Práctico

Conclusiones

3

Introducción

Introducción Sistemas de apoyo a la decisión

El Almacén de Datos (AD)

Diferencias Sistemas Transaccionales y AD

Arquitectura de Almacenes de Datos

Aproximaciones de Diseño


Minería de Datos

Caso Práctico

Conclusiones

4

IntroducciónSistemas de apoyo a la decisión

Empresas en la actualidad Sistemas orientados a los procesos diarios de la

empresa Sistemas de Procesamiento Transaccional en Línea

(On-Line Transactional Processing, OLTP)

Compras de productos, ventas, pedidos, gestión de clientes, ..

Optimizados para la edición e inserción de datos

Aproximadamente el 90% de SGBD son relacionales SGBD eficientes, robustos, etc.

Datos históricos almacenamientos externos

5


Entornos económicos altamente competitivos Empresas necesitan adoptar decisiones

estratégicas ¿ Qué tipo de cliente me ha estado comprando el

Peugeot 206 durante los últimos 10 años ?

¿ Ha variado un cliente sus gustos de compra de vehículos?

¿Ha estado comprando el mismo vehiculo de soltero que de casado?

¿ Qué descuento deberíamos ofrecer para incrementar significativamente las ventas ?

Sistemas de apoyo a la decisión

6


¿ Son válidos los sistemas OLTP para

tales entornos ?

Algunos problemas

Gran volumen de datos históricos no

disponibles en sistemas diarios OLTP

Normalmente en distintas fuentes de datos

Los directivos/analistas no saben manejar

tales sistemas

7

IntroducciónEl Almacén de Datos

El Almacén de datos (Data Warehouse, DW) Repositorio de datos históricos para ser

utilizados por los Sistemas de Apoyo a la Decisión

Son sistemas eminentemente de consultaenfocados a extraer conocimiento de los datos históricos almacenados

El análisis de los datos On-Line Analytical Processing (OLAP) Utilizan el modelado multidimensional (cubos,

hipercubos, etc)

8


Definición según W. Inmon (1992)

“Una colección de datos orientados por

tema, variables en el tiempo y no

volátiles que se emplea como apoyo a la

toma de decisiones estratégicas”

9


Orientados por tema

El diseño enfocado a responder eficientemente

a consultas estratégicas

Actividades de interés: compra, ventas, arriendos,…

Contexto de análisis: clientes, vendedores, productos,

etc…

El modelado Multidimensional (primera

aproximación)

Hechos actividades de interés

Dimensiones contexto de análisis

10


Integrados Datos integrados de distintas fuentes de datos

operacionales

Variables en el tiempo Datos relativos a un periodo de tiempo y se

incrementan periódicamente

No volátiles Los datos almacenados normalmente no se

modifican ni actualizan nunca (casi nunca), sólo se insertan nuevos datos

11

IntroducciónDiferencias Sistemas Transaccionales y de AD

OLTP AD/OLAP

Usuario Personal del negocio Tomador de decisiones

Función Operaciones diarias Apoyo a la decisión

Diseño de BD Orientada a la aplicación

(ER)

Orientado al tema/negocio

(Multidimensional, ej.

Estrella)

Datos Actuales Históricos

Unidades de trabajo Transacciones simples Consultas complejas

Registros accedidos Decenas Millones

Tamaño de la BD 100 MB - GB 100 GB - TR

12

IntroducciónArquitectura de Almacenes de Datos

13


14


15


16


Almacenes de datos Desnormalización

Optimizadas para consultas complejas Reduce número de objetos y de relaciones entre éstos

Fácil interpretación por el tomador de decisiones

Diseño conceptual Modelado MD (intuitivo)

Diseño lógico Esquema estrella

Diseño físico Modelo físico (Indices,

particionamiento,…)

17


Ejemplo de desnormalización

18


Aproximaciones de Diseño

Diseño guiado por requerimientos de usuarios

(user requirement driven) Top-down

Análisis requerimientos Modelado MD

Diseño guiado por datos (data driven)

Bottom-up

A partir de fuentes de datos

Aproximación híbrida

Propuesta Grupo Lucentia

19


20

Temario

Introducción

Análisis de Datos de la Organización Consultas simples

Consultas complejas para apoyo a la toma de decisiones

Información Oculta

Minería de Datos

Caso Práctico

Conclusiones

21

Análisis de Datos de la OrganizaciónConsultas Simples

SQL

Select

Insert

Update

Delete

22

Análisis de Datos de la OrganizaciónConsultas Complejas

23

Análisis de Datos de la OrganizaciónInformación Oculta

¿Cuáles son las preferencias para mis clientes en

los próximos 10 años?

¿Tengo clientes que realicen fraude?

¿Qué grupo de clientes prefiere los productos

innovadores de la empresa? ¿Seguirán prefiriendo

nuestros productos en los próximos 2 años?

?

24

Temario

Introducción


Minería de Datos Generalidades

Métodos más conocidos

Técnicas- Algunos algoritmos

Herramientas para Minería de Datos

Caso Práctico

Conclusiones

25

Minería de DatosGeneralidades

La Minería de Datos es una de las

soluciones que nos ayuda a extraer

conocimiento a partir de los datos.

Este conocimiento puede obtenerse a partir

de la búsqueda de conceptos, ideas o

patrones estadísticamente confiables, que

no son evidentes a primera vista,

desconocidos anteriormente y que pueden

derivarse de los datos originales.

26


La minería de datos produce cinco

tipos de información:

Asociaciones.

Secuencias.

Clasificaciones.

Agrupamientos.

Pronósticos.

27


Aplicaciones:

Análisis de fidelización de clientes

Segmentación de mercados

Venta Cruzada

Optimización de la cadena de suministro

Detección y prevención de fraudes

Detección de intrusos en sistemas

computacionales

Detección de Anomalías

28

Minería de DatosMétodos más conocidos

Knowledge Discovery in Databases (KDD)

29

Minería de DatosMétodos más conocidos

Cross-Industry Standard Process for Data Mining (CRISP-DM)

Etapas:

1. Comprensión del negocio

2. Comprensión de los datos

3. Preparación de datos

4. Modelización

5. Evaluación

6. Implementación

30

Minería de DatosTécnicas- Algunos Algoritmos

¿Qué es un cluster?

Un conjunto de entidades que son “parecidas”Ejemplos: K-Means,

DBSCAN, Sequence,

Kohonen, TwoStep

31


Ejemplo árboles de decisión

Son estructuras que representan

conjuntos de decisiones, y estas

decisiones generan reglas para la

clasificación de un conjunto de

datos.

32


Ejemplo redes neuronales

Son modelos predecibles, no lineales que aprenden a través del

entrenamiento.

33


Redes Bayesianas

Buscan determinar relaciones causales que expliquen un fenómeno

según los datos contenidos en una base de datos.

Se han usado principalmente para realizar predicciones.

34

Minería de DatosHerramientas

http://es.wikipedia.org/wiki/Archivo:Weka_(software)_logo.png

http://es.wikipedia.org/wiki/Archivo:Weka-3.5.5.png

http://www.prlog.org/10095170-rapid-logo.jpg

35

Temario

Introducción


Minería de Datos

Caso Práctico

Introducción

Aplicación del Método: CRISP- DM

Resultados

Conclusiones

36

Caso PrácticoIntroducción

El caso de estudio fue desarrollado en en una empresa del sector de Servicios Sanitarios (agua potable, alcantarillado, tratamiento de aguas, etc.), y por lo tanto, la búsqueda de actitudes fraudulentas de los consumidores no forma parte de sus funciones activas.

Actualmente, la oficina de fraudes dispone de personal que revisa físicamente los medidores de los clientes caso a caso, con el fin de detectar posibles fraudes

37


Requerimientos para el proyecto: Debe ser capaz de analizar y entregar indicadores sobre los

siguientes datos: Consumo de servicios entregados (agua potable, alcantarillado,

etc.),

Tiempo (año, mes, semestre, etc.),

Ubicación (localidad, sector, ruta) donde se entrega el servicio y las Características del servicio

Debe proveer capacidad de análisis visual, matemático, y entrega de reportes.

Objetivo: realizar un estudio a través de técnicas de MD que permitan localizar y estudiar comportamientos anómalossobre conjuntos de datos, para poder así identificar posibles fraudes en clientes que hacen uso indebido de los servicios que ofrece la empresa

38


El problema de la detección de fraude, radica en el

análisis de perfiles de usuario que permitan

describir el comportamiento de un cliente con el fin

de detectar anomalías (DA).

La meta principal en la DA, es encontrar objetos

que sean diferentes de los demás. Frecuentemente

estos objetos son conocidos como Outlier

http://www.google.cl/imgres?imgurl=http://www.outliermusic.com/graphiclogo.jpg&imgrefurl=http://www.outliermusic.com/whatisanoutlieranyway.htm&usg=__Zmol9Gv8WITv67V2ro-udhcJAiY=&h=239&w=534&sz=11&hl=es&start=33&zoom=1&itbs=1&tbnid=XfytAB5dzDcjlM:&tbnh=59&tbnw=132&prev=/images%3Fq%3Doutlier%26start%3D20%26hl%3Des%26sa%3DN%26gbv%3D2%26ndsp%3D20%26tbs%3Disch:1

39


Clementine- client contiene múltiples algoritmos para la detección de fraudes, entre los cuales se encuentran los de Clusterización: K-Means, Sequence, TwoStep, Kohonen; y de Detección de Anomalías (Outlier).

El software analiza los resultados obtenidos con el set de datos introducidos y busca la mejor alternativa con el menor error posible al aplicar cada uno de los algoritmos.

40

Caso PrácticoMétodo CRISP- DM

Comprensión del Negocio

Reuniones con la Gerencia de Clientes

El equipo propone utilizar técnicas de

clustering para la detección de

anomalías con el fin de obtener un

listado de clientes que presenten datos

atípicos

41


Comprensión de los Datos

Fue necesario analizar el modelo de base de

datos relacional del sistema de información de

la empresa, específicamente aquellas entidades

que tienen relación con el proceso de

facturación.

Éste mantiene información del consumo

mensual de uso de agua potable y alcantarillado

de cada cliente que utiliza estos servicios

42


Preparación de los Datos

Debió diseñarse un Almacén de Datos

43


Modelado El modelo de detección de anomalías

de Clementine, entrega como resultado grupos de datos con características similares, los cuales son llamados grupos homólogos del modelo.

Cada grupo homólogo entrega información sobre la cantidad de registros procesados, la cantidad de anomalías encontradas, un resumen sobre los campos escogidos a estudiar, entre otros

44


Evaluación

Los registros anómalos deben ser

contrastados con la información histórica

de casos de fraude que almacena la

empresa.

Implementación

45

Caso PrácticoResultados

Resultados

Después de varios intentos, se obtuvo

información confiable.

Cerca del 73% de los registros detectados

como anómalos son posibles causas de

fraude

Baja de los costos

46

Conclusiones

Consultas simples SQL SGBD

Consultas complejas OLAP DW

Información oculta Técnicas de MD

La MD es una técnica eficiente para la detección de anomalías, siempre y cuando se disponga de un conjunto de datos suficientes para un correcto análisis y

una metodología que permita llevar un control de los resultados dando la posibilidad de reestructurar medidas como la: recolección de nuevos datos,

separación de datos en clases,

transformaciones de las variables,

eliminación de datos,

selección de otros algoritmos de MD,

cambio en los parámetros introducidos en los modelos,

delimitación del campo de búsqueda, etc