Post on 06-Mar-2016
description
Problema Inicial
• ¿Cuáles fueron los volúmenes de venta, por región y por categoría deproducto, en el último año?.• ¿Qué tipos de órdenes se debieran favorecer para maximizar lasganancias?.• Un 10% de descuento, ¿incrementará el volumen de ventas de formasatisfactoria?.
• Alternativa tecnológica para manejar lainformación requerida por una organización paraapoyar la toma de decisiones estratégica.
Inteligencia de Negocios
• Comprende desde la extracción de los datos delos sistemas existentes hasta la explotación de lalos sistemas existentes hasta la explotación de lainformación por herramientas de análisis de datos.
Fuentes
InternasHerramientas de
consultas e
informes
BD de ERP
BDs Ope-
racional
Respaldos
Archivos
Planos
Inteligencia de Negocios
Fuentes
Externas
DWETLInterfaz y
Operadores
Herramientas
EIS y DSS
Herramientas
OLAP
Herramientas de
Minería de Datos
Fuente de
Datos
Fuente de
Datos 3
HTML
Fuente de
Datos 1
texto
Inteligencia de NegociosInteligencia de NegociosInteligencia de NegociosInteligencia de NegociosInteligencia de NegociosInteligencia de NegociosInteligencia de NegociosInteligencia de Negocios
Fuentes
InternasHerramientas de
consultas e
informes
BD de ERP
BDs Ope-
racional
Respaldos
Archivos
Planos
Primera Parte: Proceso ETL
Fuentes
Externas
DWETLInterfaz y
Operadores
Herramientas
EIS y DSS
Herramientas
OLAP
Herramientas de
Minería de Datos
Fuente de
Datos
Fuente de
Datos 3
HTML
Fuente de
Datos 1
texto
El encargado del mantenimiento del almacén dedatos es el sistema ETL (Extracción – Transforma-ción – Carga):• La construcción del sistema ETL es responsabilidad del
equipo de desarrollo del DW.
Primera Parte: Proceso ETL
equipo de desarrollo del DW.
• El sistema ETL es construido específicamente para cadaDW, aproximadamente, 50% del esfuerzo.
• En la construcción del ETL se pueden utilizar herramien-tas del mercado o programas diseñados específicamente.
Extracción: antes de llevarla a cabo, hay que iden-tificar los cambios, al determinar los datosoperacionales (relevantes) que han sufrido unamodificación desde el último refresh.
Primera Parte: Proceso ETL
C a ra c te r ís t ic a N iv e l N iv e l T á c t ic o N iv e l C a ra c te r ís t ic as
N iv e l E s tra té g ic o
N iv e l T á c t ic o N iv e l O p e ra c io n a l
D e c is ió n q u e a p o y a
P la n if ic a c ió n L a rg o P la z o
C o n tro l G e re n c ia l C o n tro l O p e ra c io n a l
T ip o d e D e c is ió n N o E s tru c tu ra d a S e m i E s tru c tu ra d a
E s tru c tu ra d a
M o d e lo m á s u s a d o P re d ic t iv o D e s c r ip t iv o N o rm a tiv o
C a ra c te r ís t ic a s d e la In fo rm a c ió n : � F u e n te � E x a c titu d � A m p litu d � F re c u e n c ia � R a n g o d e
T ie m p o � U s o
M e d io A m b ie n te R a z o n a b le R e s u m id a A S o lic itu d A ñ o s P re d ic c ió n
R e g is tro s In te rn o s B u e n a D e ta lla d a P e r ió d ic a A ñ o s C o n tro l
O p e ra c ió n In te rn a E x a c ta M u y D e ta lla d a T ie m p o R e a l M e s e s A c c ió n D ia r ia
Transformación:• Unificar estándares: unidades de medida, unidades de tiempo,
moneda,...
cmcm
Primera Parte: Proceso ETL
inchescm
DD/MM/YY
MM/DD/YYDD-Mon-YY
1,000 GBP
FF 9,990USD 600
Carga (transporte):• Consiste en mover los datos desde las fuentes
operacionales o el almacenamiento intermedio hasta elDW y cargar los datos en las correspondientesestructuras de datos.
Primera Parte: Proceso ETL
estructuras de datos.• La carga puede consumir mucho tiempo.
T1 T2 T3
Base de datos operacional
Fuentes
InternasHerramientas de
consultas e
informes
BD de ERP
BDs Ope-
racional
Respaldos
Archivos
Planos
Segunda Parte: Data Warehouse(Almacén de Datos)
Fuentes
Externas
DWETLInterfaz y
Operadores
Herramientas
EIS y DSS
Herramientas
OLAP
Herramientas de
Minería de Datos
Fuente de
Datos
Fuente de
Datos 3
HTML
Fuente de
Datos 1
texto
• Data Warehouse: colección de datos orientada atemas específicos, integrada, no volátil y varianteen el tiempo, organizada para apoyar lasnecesidades de la gestión
Segunda Parte: Data Warehouse(Almacén de Datos)
necesidades de la gestión
• Data Mart: corresponde a un pequeño datawarehouse, específico a un área de negocio odepartamento de la empresa.
Fuentes
InternasHerramientas de
consultas e
informes
BD de ERP
BDs Ope-
racional
Respaldos
Archivos
Planos
Tercera Parte: Análisis de Datos
Fuentes
Externas
DWETLInterfaz y
Operadores
Herramientas
EIS y DSS
Herramientas
OLAP
Herramientas de
Minería de Datos
Fuente de
Datos
Fuente de
Datos 3
HTML
Fuente de
Datos 1
texto
Consultas y Reportes
• Corresponde a un análisis dirigido por el analista, yrequiere tanto un conocimiento acabado de los datos comoun trabajo excesivo sobre éstos por parte de dicho analista.
• Este análisis considera la definición de las consultas, elacceso y recuperación de datos, la manipulación de
Tercera Parte: Análisis de Datos
acceso y recuperación de datos, la manipulación decálculos, y la preparación y entrega de los reportes.
Análisis Multidimensional (OLAP)
Se definen operaciones
Análisis asistido por el analista,consiste en un estudio basadoen las tablas presentes en undata warehouse.
Tercera Parte: Análisis de Datos
Se definen operacionesespeciales para el manejo delos datos de un cubo:
• Drill-down: obtención de mayordetalle de los datos, bajando poralguna dimensión.
• Roll-up: operación inversa a laanterior, para tener datos másagregados.
Minería de Datos
• Análisis dirigido por lo datos, permite moverse a través delos almacenes de datos para encontrar las tendencias,patrones y correlaciones que pueden guiar la toma dedecisiones estratégicas.
OLAP (Agregación) Data Mining (Influencias)
Tercera Parte: Análisis de Datos
OLAP (Agregación) Data Mining (Influencias)
¿Cuál es la tasa promedio de accidentes entre
fumadores y no fumadores?
¿Cuáles son los mejores predictores de
accidentes?
¿Cuál es la cuenta telefónica promedio de mis
clientes v/s la de quienes que han cancelado el
servicio?
¿Qué atributos están asociados con los
clientes que están cerca de cerrar sus
servicios?
¿Cuál es el monto de la compra diaria promedio entre
tarjetas de crédito robadas y aquéllas usadas por sus
dueños?
¿Qué patrones de compra están asociados
con fraudes de crédito?
Ejemplo Práctico con Clementine (SPSS): Ensayo deMedicamentos (http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_3.html)
• Un número de pacientes hospitalarios que sufren todosla misma enfermedad se tratan con un abanico demedicamentos.
Minería de Datos: un Breve EjemploTercera Parte: Análisis de Datos
medicamentos.• Cinco medicamentos diferentes están disponibles y los
pacientes han respondido de manera distinta a losdiferentes medicamentos.
• Problema: ¿qué medicamento es apropiado para unnuevo paciente.
Primer Paso: ACCEDIENDO LOS DATOS
• Se leen los datos, por ejemplo de un archivo condelimitadores.• Se nombran los campos
Minería de Datos: un Breve EjemploTercera Parte: Análisis de Datos
age edad
sex sexo
BP presión sanguínea (High, Normal, Low)
Cholesterol colesterol (Normal, High)
Na concentración de sodio en la sangre.
K concentración de potasio en la sangre.
drug medicamento al cual el paciente respondió
satisfactoriamente.
• Se pueden combinar los datos; por ejemplo añadiendo un nuevo atributo llamado Na/K.
Se trata de establecer asociaciones del estilo: “si compra X en T … ¿comprará Y en T+P?”
Ejemplo:
Minería de Datos: Técnica de Patrones SecuencialesTercera Parte: Análisis de Datos
Ejemplo:
a) Árboles de Clasificación: estructura similar a undiagrama de flujo, donde cada nodo interno denota unacondición sobre un atributo, cada enlace representa unasalida de la misma, y cada nodo hoja representa las clases.
Minería de Datos: Técnica de ClasificaciónTercera Parte: Análisis de Datos
b) Extracción de Reglas.
Predicción: mediante regresión lineal, los datos sonmodelados usando una recta.
que considera conceptos como variable de respuesta,
Minería de Datos: Técnica de Regresión LinealTercera Parte: Análisis de Datos
que considera conceptos como variable de respuesta,variable predictora, coeficientes de regresión, método demínimos cuadrados.
Área: Gobierno y Seguridad Nacional.A principios del mes de julio de 2002, el director del Federal Bureau ofInvestigation (FBI), John Aschcroft, anunció que el Departamento de Justiciacomenzó a introducirse en la vasta cantidad de datos comerciales referentes alos hábitos y preferencias de compra de los consumidores, con el fin dedescubrir potenciales terroristas antes de que ejecuten una acción. Algunosexpertos aseguran que, con esta información, el FBI unirá todas las bases de
Aplicaciones
expertos aseguran que, con esta información, el FBI unirá todas las bases dedatos probablemente mediante el número de la Seguridad Social y permitirásaber si una persona fuma, qué talla y tipo de ropa usa, su registro dearrestos, su salario, las revistas a las que está suscrito, su altura y peso, suscontribuciones a la Iglesia, grupos políticos u organizaciones nogubernamentales, sus enfermedades crónicas (como diabetes o asma), loslibros que lee, los productos de supermercado que compra, si tomó clases devuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicialronda los setenta millones de dólares estadounidenses para consolidar losalmacenes de datos, desarrollar redes de seguridad para compartirinformación e implementar nuevo software analítico y de visualización.
Área: Investigación Espacial.Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II)coleccionó tres terabytes de imágenes que contenían aproximadamente dosmillones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a unaresolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. Elobjetivo era formar un catálogo de todos esos objetos. El sistema Sky ImageCataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación
Aplicaciones
Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación(clustering) y árboles de decisión para poder clasificar los objetos en estrellas,planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros,1996). Los resultados han ayudado a los astrónomos a descubrir dieciséisnuevos quásars. Estos quásars son difíciles de encontrar y permiten saber másacerca de los orígenes del universo.
Área: Club Deportivo.En el 2003, el AC de Milán comenzó a usar redes neuronales (otra técnica declasificación) para prevenir lesiones y optimizar el acondicionamiento de cadaatleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertaral médico del equipo de una posible lesión. El sistema, creado por ComputerAssociates International, es alimentado por datos de cada jugador,relacionados con su rendimiento, alimentación y respuesta a estímulos
Aplicaciones
relacionados con su rendimiento, alimentación y respuesta a estímulosexternos, que se obtienen y analizan cada quince días. El jugador lleva a cabodeterminadas actividades que son monitoreadas por veinticuatro sensoresconectados al cuerpo y que transmiten señales de radio que posteriormenteson almacenadas en una base de datos. Actualmente el sistema dispone de5.000 casos registrados que permiten predecir alguna posible lesión. Con ello,el club intenta ahorrar dinero evitando comprar jugadores que presenten unaalta probabilidad de lesión, lo que haría incluso renegociar su contrato. Porotra parte, el sistema pretende encontrar las diferencias entre las lesiones deatletas de ambos sexos, así como saber si una determinada lesión se relacionacon el estilo de juego de un país concreto donde se practica el fútbol.