Post on 14-Apr-2020
Sistemas de Información Gerencial
Tema 6: Inteligencia de Negocios: Modelo Dimensional
1
Ing. Francisco Rodríguez Novoa
2
INDICE
• OLTP. OLAP
• Modelo Estrella. Modelo Copa de Nieve
• Modelo Dimensional
Mapa de Inteligencia de Negocios
Inteligencia
de Negocios
Metodología
Kimball
Planeamiento
del Proyecto
Modelo
del
Negocio
Modelado
Dimensional
Modelado
FísicoETL
Reportes
Minería de
Datos
MODELOS RELACIONALES Y DIMENSIONALES
Modelo E-R
– Entidades
– Atributos
– Relaciones
Modelo dimensional
– Hechos
– Dimensiones
– Medidas
Dos técnicas
OLTP (On Line Transactional Process)
• Son sistemas de información operacionales que tienen
transacciones en línea y de esa manera se van añadiendo
datos.
• Gran detalle de cada operación.
El Diseño Transaccional es:
• Orientado a aplicaciones con
movimientos constantes.
• Datos normalizados. Se
busca ahorrar espacio de
almacenamiento.
• Datos volátiles
• No existe sumarización de
datos.
• Grandes niveles de detalle.
Lógica
OLAP (Online Analytical Process)
• Tecnología que permite laexplotación de datos en
diferentes niveles
organizacionales yperiodos de tiempo
El Data Warehouse esta:
• Orientado a áreas de la
organización
• Integrado
• Los datos no son volátiles
• Diversos niveles de detalle
con sumarizaciónes.
• Se disminuye la cantidad de
ligas con modelos tipo
estrella o copo de nieve.
Lógica
10
Conceptos Generales
Transacciones
Fundamentos.
Registrar y Controlar (OLTP)
VentasInventarios
ContabilidadRecursos Humanos
Etc-
Velocidad de TransacciónIntegridad de Información
Evitar Redundancias“3ª Forma Normal”
On-Line TransactionProcessing
Analizar y Evaluar (OLAP)
Velocidad de ConsultasApoyo Toma de Decisiones
“Desnormalizado”
On-Line AnalyticalProcessing
Como operan las B.D. Relacionales
Los datos se almacenan en tablas
Cantidad
25000
15000
5000
27000
20000
6000
2700
8000
19000
54700
23000
6100
1800
7600
1200
2000
Variable
Sales
Expenses
Cost of goods
Sales
Expenses
Cost of goods
Sales
Expenses
Cost of goods
Sales
Sales
Expenses
Cost of goods
Sales
Expenses
Cost of goods
Meses
January
January
January
February
February
February
March
March
March
Qtr1
April
April
April
May
May
May
Productos
Large
Large
Large
Large
Large
Large
Large
Large
Large
Large
Medium
Medium
Medium
Medium
Medium
Medium
Amount
2500015000500027000200006000270080001900054700 2300061001800760012002000
Variable
SalesExpensesCost of goodsSalesExpensesCost of goodsSalesExpensesCost of goodsSalesSalesExpensesCost of goodsSalesExpensesCost of goods
Months
JanuaryJanuaryJanuaryFebruaryFebruaryFebruaryMarchMarch MarchQtr1AprilAprilAprilMayMayMay
Product
LargeLargeLargeLargeLarge LargeLargeLargeLargeLargeMediumMediumMediumMediumMediumMedium
Variable January February March April May June
Sales 25000 27000 24000 28000 30000 29000
Expenses 15000 20000 15000 17000 19000 14000
Cost of goods 5000 6000 5000 7000 7000 6000
de esta estructura
a esta
se necesita …
Lógica
Vista Multidimensional
Poder observar los datos desde distintas perspectivas.
Jan
Feb
Mar
Apr
TV
VCR
East
West
Total
South
East
West
Total
South
Actual BudgetSales SalesMargin Margin
position only
Cogs
Margin
Total Exp
Profit
TV
VCR
Jan
Feb
Qtr 1
Mar
East WestActual ActualBudget Budget
Jan
Feb
Qtr 1
Mar
Jan
Feb
Mar
Apr
East
West
Actual
Budget
Variance
Forecast
Sales MarginTV TVVCR VCR
Actual
Budget
Variance
Forecast
position only
West
SF
LA
Denver
Sales
Margin
Camera
TV
Audio
VCR
February MarchActual ActualBudget Budget
Camera
TV
Audio
VCR
Accounts by Product
Regions by ScenarioProducts by Region
Products by Time
OLAP
14
Conceptos Generales
Características de un DataWarehouse
Orientado a Temas
Integrado
Variantes en el Tiempo
Los datos se organizan y estructuran de acuerdo a las áreastemáticas que son de interés para los directivos de la empresa yno en función de procesos operacionales específicos. Todos losdatos relativos a una misma “entidad” quedarán en una tabla.
Debido a que la información procede desde distintos sistemas,es tarea del DW integrar las diversas fuentes y normalizar losdatos.
Un DW se organiza como una sucesión de “fotografías” de laorganización o empresa, cada una asociada a un periodo o puntoespecífico del tiempo, lo que permite realizar análisis en funcióndel tiempo, con la finalidad de realizar pronósticos y análisis detendencias.
No Volátil No se realizan actualización o eliminaciones de los datos, losdatos se insertan como nuevos registros y por tanto nosobrescriben los existentes.
Conceptos Generales
Componentes del Cubo
Tabla de Hechos
Tabla de Dimensiones
Almacena los indicadores del negocio (datos numéricos),tanto básicos como elementos calculados.
Almacena los datos descriptivos, por lo general son tablascon un porcentaje muy bajo de filas en relación a las tablasde Hechos, pero pueden contener muchas más columnas.
Una correcta y completa definición de campos en la tabla dedimensiones puede ayudar a realizar análisis robusto sobrelos datos.
16
Conceptos Generales
Topología
Estrella
Copo de Nieve
Las dimensiones se relacionan directamente con la tabla de hechos.
Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información y/o cuando existe un proceso robusto de administración de Información (por ejemplo EIAD).
Las dimensiones se pueden relacionar con las tablas de hechos, o con otras dimensiones.
Esta estrategia es mejor para la administración directa en el modelo de DW.
• Eficiencia
• Soportado por múltiples RDBMS
• Análisis de datos de menor complejidad, debido a la de-normalización
Modelo Estrella
• Mayor normalización, es decir, los niveles de las jerarquías se normalizan.
• Mayor flexibilidad
• Mayor dificultad de mantenimiento
• Joins más costosos
• Menos registros en las dimensiones.
Modelo Copo de Nieve
Modelado Dimensional
• Es una adaptación del modelo relacional.
• Consiste de tablas de hechos que se caracterizan usando
dimensiones y medidas.
• La información sobre un hecho (actividad) se representa
mediante indicadores (medidas o atributos de hecho).
• La información de cada dimensión se representa por un
conjunto de atributos (atributos de dimensión).
• Una dimensión es el contexto de un hecho, tienden a ser
discretas y jerárquicas.
• Un indicador es una cantidad que describe el hecho, debe ser
agregables.
Conceptos básicos
1. Hecho. Evento, actividad, item transacción del negocio.
2. Medida. Atributo o medida de hechos, métricas del negocio
3. Dimensión. Característica de un hecho.
4. Jerarquía. Relaciones padre-hijo dentro de una dimensión
5. Tabla de hechos: Almacena eventos y las métricas.
6. Tabla de dimensión. Almacenan las dimensiones.
Hechos
• Representan un evento o actividad específica, tiene
dimensiones y medidas.
• Representan un item de negocio, una transacción o un evento
que tiene significancia para el negocio.
• Corresponden a una colección de items de datos y datos de
contexto.
• Son aquellos datos que residen en una tabla de hechos y que
son utilizados para crear indicadores, a través de
sumarizaciones preestablecidas.
• Un hecho debe estar relacionado al menos con una
dimensión: “El tiempo”.
Medidas – Métricas - Hechos
• Es un atributo numérico de un hecho que representa laperformance o comportamiento del negocio relativo a ladimensión
• Ejemplos:– Ventas en $$– Cantidad de productos– Total de transacciones– Cantidad de pacientes admitidos– Llamadas efectuadas.– ImporteTotal = precioProducto * cantidadVendida– Rentabilidad = utilidad / PN– CantidadVentas = cantidad– PromedioGeneral = AVG(notasFinales)
Hechos o medidas
• Representan los valores que son analizados.
• Características de las medidas:– Deben ser numéricas. Porque estos valores son las bases de
las cuales el usuario puede realizar cálculos.– Cruzan todas las dimensiones en todos los niveles.
• Si la medida es no numérica debemos codificarla a un valor numérico y cuando tengamos que exponerla decodificarla para mostrarla con el valor original.
Hechos o medidas
• Las medidas pueden clasificarse en:Naturales. – Son aquellas que se obtiene por agregación de los datos
originales.• Suma: suma los valores de las columnas• Cuenta: conteo de los valores• Mínima: valor mínimo• Máxima: valor máximo• Cuenta de Distintos: valores diferentes
Calculadas– Si se derivan de una medida natural.
• Cálculos Matemáticos• Expresiones condicionales• Alertas
Dimensiones
• Es una característica de un hecho que permite su análisis posterior, en el proceso de toma de decisiones.
• Determina el contexto del hecho (quién participó, cuándo y donde pasó y su tipo).
• Es una entidad de negocios respecto de la cual se deben calcular las métricas (clientes, productos, tiempo)
• Tienden a ser discretas y jerárquicas <país, región, departamento, provincia, distrito>.
• Es una colección de miembros o unidades o individuos del mismo tipo que permite categorizar un hecho.
Dimensiones
• Se utilizan como parámetros para los análisis OLAP
• Las dimensiones habituales son:
Dimensión Miembro
Tiempo Meses, Trimestre, Años
Geografía País, Región, Ciudad
Cliente Id Cliente
Vendedor Id Vendedor
3
Ejemplo
Ejemplo
The Time Dimension
How and where should it be stored?
Timedimension
Sales fact
• Time is critical to the data warehouse.• A consistent representation of time is required for
extensibility.
Granularidad
• La granularidad es el nivel de detalle en que se almacena la información.
• Por ejemplo: – Datos de ventas o compras de una
empresa, pueden registrarse día a día– Datos pertinentes a pagos de sueldos o
cuotas de socios, podrán almacenarsea nivel de mes.
• A mayor nivel de detalle, mayor posibilidad analítica, ya quelos mismos podrán ser resumidos o sumarizados.
• Los datos con granularidad fina (nivel de detalle) podrán serresumidos hasta obtener una granularidad media o gruesa.No sucede lo mismo en sentido contrario.
Tablas de Hechos
• Las tablas de hechos contienenlas dimensiones y las medidasde los hechos.
• Los hechos o medidas son losvalores de datos que seanalizan (son numéricos).
• La tabla de hechos tiene unacompuesta por las clavesprimarias de las tablas dedimensiones relacionadas aeste.
Medidas o
hechos
Dimensiones
Clave primaria
Tabla de dimensiones
• Definen la organización lógica de los datos.
• Tiene una PK (única) y columnas de referencia:
– Clave principal (PK) o identificador único.
– Clave foráneas.
– Datos de referencia primarios (identifican la dimensión)
– Datos de referencia secundarios (complementan la descripción).
• No siempre la PK del OLTP, corresponde con la PK de la tabla
de dimensión relacionada.
6
Ejercicio
• Etapas en la construcción de un modelo dimensional:
Construcción
de las
Dimensiones
Armado de la
Tabla de
Hechos
Definición de
las Medidas
0
2
1
Requerimientos
del usuario
Decidir la
granularidad
3 4
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Requerimientos del usuario
Decidir la granularidad
• La granularidad:– Es el nivel de detalle al que se desea almacenar
información sobre la actividad a modelar.– Define el nivel atómico de datos en el almacén de datos.– Determina el significado de las tuplas de la tabla de
hechos.– Determina las dimensiones básicas del esquema.
• Por ejemplo en la dimensión Sucursal:
Decidir la granularidad
• Ejemplo de la dimensión fecha. Se desea los datos por:– Información anual– Información semestral– Información trimestral– Información mensual. ....– Información semanal– Información diaria– Transacción en el OLTP
+ granularidad
+ detalle
Construcción de las dimensiones
• Identificar las dimensiones que caracterizan el proceso al nivel de detalle (gránulo) que se ha elegido.
• De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad.
• Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año)
– Tiempo. Cuándo se produce la actividad– Sucursal.Donde está ubicado el almacén– Vendedor. Quién ha vendido– Cliente. Quién es el destinatario de la actividad– Producto. Cuál es el objeto de la actividad
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Dimensión Tiempo
* Año ** Semestre *** Trimestre **** Mes ***** Día
Dimensión Sucursal
* Sucursal
** Tipo Sucursal *** País **** Provincia ***** Ciudad
Dimensión Vendedor
* Sucursal
** Sección *** Vendedor
Dimensión Cliente
* País
** Provincia *** Ciudad **** Razón Social
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Fact_Ventas
ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal
Tabla de Hechos 3
Fact_Ventas
ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal
Medidas
Definición de las medidas
Fact_Ventas
ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal
Fact_Ventas
ID_Fecha ID_Producto ID_Cliente ID_Vendedor Ventas_Importe Ventas_Costo
Ventas_Unidades
42
FIN