www.EasyBI.cl 1
DataWarehouse e Inteligencia de Negocios
Introducción.
Sebastián Rodríguez [email protected]
www.EasyBI.cl 2
Conceptos Generales
www.EasyBI.cl 3
Conceptos GeneralesReferencia Bibliográfica
Ralph Kimball: The DataWarehouse ToolkitBill Inmon: Building the DataWarehouseSalvador Ramos: Microsoft Business Intelligence: Vea el cubo Medio LlenoSebastián Rodríguez R.: EIAD, Estrategia para la Implementación Inteligente de DWThomas Davenport: Analytics at work
www.EasyBI.cl 4
Conceptos Generales
Transacciones
Fundamentos.
Registrar y Controlar (OLTP)
VentasInventarios
ContabilidadRecursos Humanos
Etc-
Velocidad de TransacciónIntegridad de Información
Evitar Redundancias“3ª Forma Normal”
On-Line Transaction Processing
Analizar y Evaluar (OLAP)
Velocidad de ConsultasApoyo Toma de Decisiones
“Desnormalizado”
On-Line Analytical Processing
www.EasyBI.cl 5
Conceptos GeneralesDefinición DataWarehouse
Conjunto de herramientas y metodologías utilizadas para la administración de información con fines de análisis y gestión.
NO ES SOLO UNA TABLA DE HECHOS
NO ES SOLO UNA HERRAMIENTA
www.EasyBI.cl 6
Conceptos GeneralesDefinición DataWarehouse, objetivos
Automatizar los procesos de recopilación y generación de información usuarios utilizan la información, ya no la construyen.
Entregar autonomía a los usuarios
Normalizar el proceso de captura de información
Normalizar el proceso de entrega de información.
Fuente única de Información del Área / Empresa.
Información validada.
www.EasyBI.cl 7
Conceptos GeneralesModelo de Dato OLTP
Factura
Cliente
Det. Factura
Producto
Ciudad
Sexo
Est. Civil
Sucursal
www.EasyBI.cl 8
Conceptos GeneralesDefinición DataWarehouse e Inteligencia de Negocios.
Sistemas Origen OLAP
Reporting
ETL, ELT
Usuarios Avanzados
Minería de Datos
www.EasyBI.cl 9
Conceptos GeneralesDefinición DataWarehouse
DataWarehouse
Reporting
www.EasyBI.cl 10
Conceptos GeneralesCaracterísticas de un DataWarehouse
Orientado a Temas
Integrado
Histórico
Los datos son organizados por temas para facilitar el entendimiento a los usuarios.Todos los datos relativos a una misma “entidad” quedarán en una tabla.
Debido a que la información procede desde distintos sistemas, es tarea del DW integrar las diversas fuentes y normalizar los datos.
Los cambios en los datos relevantes deben quedar registrados, para luego poder consultarlos en diversos momentos en el tiempo
No Volátil Una vez introducida la información, debe quedar almacenada y disponible en formato solo lectura.
Conceptos GeneralesComponentes del Cubo
Tabla de Hechos
Tabla de Dimensiones
Almacena los indicadores del negocio (datos numéricos), tanto básicos como elementos calculados.
Almacena los datos descriptivos, por lo general son tablas con un porcentaje muy bajo de filas en relación a las tablas de Hechos, pero pueden contener muchas más columnas.
Una correcta y completa definición de campos en la tabla de dimensiones puede ayudar a realizar análisis robusto sobre los datos.
www.EasyBI.cl 12
Conceptos GeneralesTopología
Estrella
Copo de Nieve
Las dimensiones se relacionan directamente con la tabla de hechos.
Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información y/o cuando existe un proceso robusto de administración de Información (por ejemplo EIAD).
Las dimensiones se pueden relacionar con las tablas de hechos, o con otras dimensiones.
Esta estrategia es mejor para la administración directa en el modelo de DW.
www.EasyBI.cl 13
Conceptos GeneralesModelo de Datos OLAP – Copo de Nieve
Ventas
Cliente
Producto
Ciudad
Sexo
Est. Civil
Sucursal Tabla de Dimensiones
Tabla de Dimensiones
Tabla de Dimensiones
Tabla de Dimensiones
Tabla de Dimensiones
Tabla de Dimensiones
Tabla de Hechos
www.EasyBI.cl 14
Conceptos GeneralesModelo de Datos OLAP – Estrella
Ventas
Cliente, Ciudad, Sexo, Est. Civil
Producto
Sucursal
Tabla de Hechos
Tabla de Dimensiones
Tabla de Dimensiones
Tabla de Dimensiones
www.EasyBI.cl 15
Conceptos GeneralesTipos de Tablas de Hechos.
SnapShot
Incremental
Cada período se agrega un registro para la entidad, sin remplazar ni modificar la foto del período anterior. Ejemplo: Balances, Deudas en el sistema financiero.
Un registro por cada ocurrencia, pero la fila contiene múltiples fechas que indica el cambio de estados. A diferencia de los anteriores, en este tipo de estructuras se puede insertar y actualizar los registros. Ejemplo: WorkFlow, Juicios.
Transaccional Un registro por cada evento, que ocurre en una fecha determinada. Solo se pueden hacer inserciones.Ejemplo: Sistemas de Ventas.
www.EasyBI.cl 16
Conceptos GeneralesTipos de Dimensiones: Slow Changing Dimension
SCD N° 1
SCD N°2
SCD N° 3
Sobre escribir la información de la dimensión.No existe referencia histórica de los datos.
La clave de la dimensión es compuesta, registra, por cada cambio en la fila de la dimensión (o los campos que sean relevantes), un nuevo registro.
Agregar una columna adicional por cada columna cuyo valor queremos mantener en la historia.
www.EasyBI.cl 17
Conceptos GeneralesTipos de Dimensiones: Otros tipos de dimensiones
Dimensión Compuesta
Rol
Junta varias dimensiones en una sola, el objetivo principal es mejorar el rendimiento de la solución. Ejemplo: Tabla de clientes del modelo ejemplo.
Cuando hay mucha información repetida en una tabla de Hechos, es posible quitar esta información y “Factorizarla” en una tabla de dimensión. Esto minimiza el espacio utilizado por al tabla de Hechos y mejora el análisis sobre los datos.
www.EasyBI.cl 18
Conceptos GeneralesTipos de Dimensiones: Dimensión como Tabla de Hechos
Es posible encontrar tablas que cumplen la condición de ser Hechos en un modelo, y Dimensión en Otro.
Por ejemplo una tabla de hechos que agrupe información de ventas por clientes, puede ser una tabla de dimensiones en el modelo de ventas por Productos.
Estas son construcciones poco comunes, que surgen cuando el N° de iteraciones de revisión de los modelos de DW son mayores a 2.
www.EasyBI.cl 19
Conceptos GeneralesModelos de datos complejos: “Constelaciones”
Hechos 1
Dim 2
Dim 3
Dim 1
Hechos 2
Dim 5
Dim 4
Hechos 2
Dim 7
Dim 6
www.EasyBI.cl 20
Conceptos GeneralesEstrategias de Almacenamiento
MOLAP
ROLAP
HOLAP
Almacenamiento Multidimensional.Requiere alta utilización de disco.Optimizado para consultas rápidas.
Almacenamiento en Base Relacional.Alta escalabilidad.Rápida adaptabilidad a cambios en las definiciones
Mezcla de ambas estrategias.
www.EasyBI.cl 21
Conceptos GeneralesTecnología Disponible.
Bases de Datos Relacionales
Bases de Datos “Columnares”.
Permite la implementación de ROLAP, los proveedores de bases de datos están haciendo esfuerzos por mejorar esta tecnología para implementar proyectos de DW. (Ej. SQL Server 2008R2 incorpora optimización para consultas de tipo “Star Join”).
Diseñadas especialmente para implementar soluciones de tipo analíticas, a diferencia de la anterior, estas B.D. almacenan la información por Columnas y no por Filas, lo que otorga mayor velocidad de lectura y compresión de datos. (Ej. SyBase IQ).
www.EasyBI.cl 22
Conceptos GeneralesTecnología Disponible.
Bases de Datos Dimensionales.
Implementan la estrategia MOLAP y ROLAP, tienen la ventaja de precalcular las consultas que harán los usuarios, por lo cual los tiempos de respuesta serán muy bajos, sin embargo esto genera tiempos de preprocesamiento muy largos, lo que dificulta su utilización en ambientes muy dinámicos. Ej. SQL Server Analysis Services.
Bases de datos “NoSQL”
Todas las anteriores tienen la información estructurada. Estas bases de datos están diseñadas para buscar información sobre miles de millones de registros, ya sean fotos, textos, logs, etc. Los tiempos de respuesta son muy cortos para la gran cantidad de información que administra. Ejemplo: Hadoop (estrategia que utiliza Yahoo y Amazon para sus búsquedas).
www.EasyBI.cl 23
Conceptos GeneralesOptimización.
Índices
Compresión de Datos
Particionamiento
Administrar correctamente los índices puede mejorar el rendimiento en forma importante.Estadísticas de utilización entregada por herramientas puede ayudar a definir la estrategia de indexación.
La compresión de datos ayuda a mejorar el rendimiento de las consultas a la base, sin embargo los ETL pueden verse afectados.
Dividir tablas de hechos muy grandes ayuda a mejorar el rendimiento de acceso
Discos Optimizar los discos físicos, por ejemplo de Estado Sólido.
www.EasyBI.cl 24
Conceptos GeneralesOptimización.
Diseño Inicial
Surrogate Key
Un buen diseño desde el inicio del proyecto ayudará a disminuir las tareas de administración y corrección de datos.
Un buen diseño, según Kimball, debe tener entre 5 a 15 dimensiones.
Utilizar claves numéricas en todas las tablas mejora en forma importante el almacenamiento y rendimiento en búsquedas. En este sentido sustituir las claves provenientes de los sistemas origen proporciona mecanismos de independencia frente a cambios en dichos sistemas.
www.EasyBI.cl 25
Conceptos GeneralesDefinición Datamart
Datamart Es un almacén de datos con información referida a un área de estudio específica, algunas veces vinculada solamente a un área de la empresa.
Su estructura permite trabajar con millones de registros
En teoría, puede ser implementado en cualquier base de datos (incluso en Excel).
www.EasyBI.cl 26
Conceptos GeneralesEstrategias para la Implementación
Inmon
Kimball
Propone definir un Datawarehouse centralizado que considere el 100% de los requerimientos de la organización, para luego desarrollar Datamart departamentales que resuelvan las problemáticas locales de cada área.
Propone definir e implementar los datamart de cada área, para luego, a partir de estos datamarts, construir el Datawarehouse corporativo.
www.EasyBI.cl 27
Conceptos GeneralesTRIVIA: Mitos y Errores a Prevenir
Los Datawarehouse y/o Datamart solo pueden almacenar información agregada FALSO
Lo más importante es centrarse en la tecnología.FALSO, también en requerimientos del negocio.
Proyectos largos aseguran el éxito de la iniciativa.
FALSO, Proyectos interminables se diluyen.
La presentación de resultados es tan importante como el rendimiento.
VERDADERO
La tecnología y los requerimientos no cambian en el tiempo.
FALSO, hay que adaptar los datos a nuevos req.
Los usuarios deben adaptarse a las herramientas complejas
FALSO, no las usarán las personas no especialistas.
www.EasyBI.cl 28
Conceptos GeneralesModelos Complejos.
¿Cómo administrar múltiples cubos, con diferentes características y granularidad, que comparten algunas dimensiones?
www.EasyBI.cl 29
Business Intelligence
www.EasyBI.cl 30
Definiciones
Business Intelligence
Describe a la colección, preparación y distribución de datos para informes, control de gestión, análisis, supervisión y planificación del rendimiento
empresarial. Fuente: BI Survey.
Conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en
una organización o empresa. Fuente: Wikipedia.
www.EasyBI.cl 31
Administración de Entornos Complejos
BICC
SSBI
Business Intelligence Competency Center
Self-Service Business Intelligence
Business Intelligence
Analytic at Work Metodología Thomas Davenport
BICC
Business Intelligence
Problema que Resuelve.
Existen múltiples iniciativas de BI en una organización sin conexión alguna, lo que en ocasiones genera muchos problemas de coordinación y de “versión única de la verdad”.
Características Es una solución permanente, conformada interna y formalmente en una organización, que desarrolla y promueve el uso efectivo de herramientas de inteligencia de negocios, las cuales permiten dar apoyo y despliegue a la estrategia organizacional.
Beneficios • Explota de mejor forma la inversión existente de BI• Coordina y consolida las diversas iniciativas de BI• Permite reaccionar rápidamente a cambios del negocio.• Reduce los riesgos en la implementación de nuevas
iniciativas BI• Apoya a los usuarios en el entendimiento completo del
negocio a través de diversos análisis.
BICC
Business Intelligence
BICC
Business Intelligence
Data Stewardship Administración de Metadata. Estándar, Calidad y Arquitectura de los datos
Support Resolver dudas y problemas de usuarios técnicos y de negocio.
BI Delivery Desarrolladores de interfaz de usuario, reporting, pruebas y mantención de lógica de negocio en las aplicaciones.
Data Acquisition Desarrolladores de integración y almacenamiento de datos, realizando pruebas y mantención.
Advanced Analytics Minería de Datos, modelos estadísticos, optimización, text mining y presupuestación.
Training Entrenamiento y capacitación para miembros de proyectos y usuarios de negocios.
Vendor Contracts management
Administrador de licencias de aplicaciones y actualizaciones.
BICC
Business Intelligence
Fuente: SAS, Capitalize on Competence, Implement a Business Intelligence Competency Center (BICC)
Self-Service BI
Self Services BI se define como las facilidades dentro de un ambiente BI que permite a usuarios ser más independiente y menos dependiente de un área de TI.
Problema: Tiempo de respuesta de áreas de TI son un cuello de botella impide el desarrollo de BI como hoy lo conocemos.
La solución:Generar un ambiente en el cual los analistas puedan crear y acceder a un conjunto de reportes, consultas y análisis por ellos mismos, con mínima intervención de TI
Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI
Business Intelligence
Self-Service BI
Estas facilidades deben estar enfocadas en cuatro objetivos
1. Fácil acceso a fuentes de datos para reportes y análisis.2. Herramientas de BI fáciles de usar y soporte mejorado para análisis de datos.3. Rápido de implementar.4. Datamart Fácil de administrar.
Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI
Business Intelligence
Self-Service BI
Business Intelligence
SSBI
Project Manager
Data Gobernance
Reporting
Analytic
Analytic at Works
Business Intelligence
www.EasyBI.cl 40
Otros Conceptos de
BI
Áreas de BI: Administración del Tiempo.
Business Intelligence
Urgencias: Se destina 20% del tiempo. Si no hay
urgencias se trabaja en los proyectos
Proyectos: 60% del tiempo será destinado a proyectos. Se considera para planificar y comprometer fechas de
entrega
Mejoras: 20% del tiempo final del día se dedica a
mejoras y proyectos propuestos por las áreas.
La prioridad sobre el tiempo la tienen las urgencias, luego los proyectos y finalmente las
mejoras y proyectos internos del área
Las urgencias son parte importante del trabajo diario
Business IntelligenceModelos de Comparación
Nivel 1• Múltiples Herramientas
de reportes y BI• Ambiente caótico• No hay alineación o
consistencia• No hay Organización
Nivel 2• Algunos equipos
trabajan juntos• Siguen varios grupos de
BI, pero comienzan a trabajar colaborativamente
Nivel 3• Estándares elegidos• IT y BI trabaja en
conjunto• Equipos de BI
constituidos• Se genera consistencia
en enfoques y procesos
Nivel 4• Conectando Estrategia y
Ejecución• Organización formal del
Área• IT, Finanzas y BI trabajar
en conjunto• Tecnología, personas y
estándar de procesos para BI y PM en marcha
BI Maturity levels (IBM)
Fuente: Business Intelligence Strategy, a Practical Guide for Achieving BI Excellence (IBM)
Business IntelligenceModelos de Comparación
The BI Competency Center – Organizing for Success
Fuente: Gartner Research
Comprensión del Negocio
Optimizar Relación con StakeHolders
Administrar, Mejorar el Negocio
Dar Sentido al NegocioEntender el
Negocio
Mejorar el Negocio
Cambiar el Negocio
Entender
Retener y Apalancar
Nuevas fuentes de Ingresos
Meta Objetivo
Alinear el Negocio
Eficiencia, consistencia, Rentabilidad
Business IntelligenceModelos de Comparación: SAS, Business Analytics for the CIO
www.EasyBI.cl 45
Conclusiones
Top Related