Sistema Gestor de Datos de Un Datawarehouse

5
1. SISTEMA GESTOR DE DATOS DE UN DATAWAREHOUSE En un datawarehouse es posible utilizar tres tipos de sistemas de gestión de base de datos: Base de dato relacional tradicional Base de datos relacional, con un diseño en estrella y desnormalizacion de tablas. Base de datos multidimensional UNA BASE DE DATOS RELACIONAL Es una base de datos que cumple con el modelo relacional , el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya planificadas. Permiten establecer interconexiones (relaciones) entre los datos (que están guardados en tablas), y a través de dichas conexiones relacionar los datos de ambas tablas, de ahí proviene su nombre: "Modelo Relacional" . Tras ser postuladas sus bases en 1970 por Edgar Frank Codd , de los laboratorios IBM en San José (California), no tardó en consolidarse como un nuevo paradigma en los modelos de base de datos. Podemos utilizar una base de datos relacional convencional (acces. Server, Oracle, DB2…) para construir sobre ella un datawarehouse, sobre todo este es de un tamaño relativamente pequeño. Sin embargo, debemos tener en cuenta que un Datawarehouse no es válido los principios de diseños de las bases de datos relacionales. Un sistema relacional ha sido diseñado para poder gestionar un número elevado de transacciones elevado por segundo, pero en cada transacción se pretende acceder a un numero de dato pequeño (recuperación de un registro, actualización de un dato…) Al mismo tiempo, en los sistemas de gestión de bases de datos relacionales presta especial atención a la consistencia y la integridad de los datos y, por ese motivo se lleva a cabo durante la etapa de diseño de las estructuras de datos proceso de normalización, con relaciones de tipo padre-hijo entre las distintas entidades Características Una Base de Datos se compone de varias tablas o relaciones. No pueden existir dos tablas con el mismo nombre ni registro. Cada tabla es a su vez un conjunto de registros (filas y columnas). La relación entre una tabla padre y un hijo se lleva a cabo por medio de las claves primarias y ajenas (o foráneas). Las claves primarias son la clave principal de un registro dentro de una tabla y éstas deben cumplir con la integridad de datos. Las claves ajenas se colocan en la tabla hija, contienen el mismo valor que la clave primaria del registro padre; por medio de éstas se hacen las formas relacional. BASE DE DATOS RELACIONALES CON UN DISEÑO DE ESTRELLA En las bases de datos usadas para data warehousing , un esquema en estrella es un modelo de datos que tiene una tabla de hechos (o tabla

Transcript of Sistema Gestor de Datos de Un Datawarehouse

Page 1: Sistema Gestor de Datos de Un Datawarehouse

1. SISTEMA GESTOR DE DATOS DE UN DATAWAREHOUSE

En un datawarehouse es posible utilizar tres tipos de sistemas de gestión de base de datos:

Base de dato relacional tradicional Base de datos relacional, con un diseño en estrella y desnormalizacion de tablas. Base de datos multidimensional

UNA BASE DE DATOS RELACIONAL

Es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya planificadas. Permiten establecer interconexiones (relaciones) entre los datos (que están guardados en tablas), y a través de dichas conexiones relacionar los datos de ambas tablas, de ahí proviene su nombre: "Modelo Relacional". Tras ser postuladas sus bases en 1970 por Edgar Frank Codd, de los laboratorios IBM en San José (California), no tardó en consolidarse como un nuevo paradigma en los modelos de base de datos.

Podemos utilizar una base de datos relacional convencional (acces. Server, Oracle, DB2…) para construir sobre ella un datawarehouse, sobre todo este es de un tamaño relativamente pequeño.

Sin embargo, debemos tener en cuenta que un Datawarehouse no es válido los principios de diseños de las bases de datos relacionales. Un sistema relacional ha sido diseñado para poder gestionar un número elevado de transacciones elevado por segundo, pero en cada transacción se pretende acceder a un numero de dato pequeño (recuperación de un registro, actualización de un dato…)

Al mismo tiempo, en los sistemas de gestión de bases de datos relacionales presta especial atención a la consistencia y la integridad de los datos y, por ese motivo se lleva a cabo durante la etapa de diseño de las estructuras de datos proceso de normalización, con relaciones de tipo padre-hijo entre las distintas entidades

CaracterísticasUna Base de Datos se compone de varias tablas o relaciones.

No pueden existir dos tablas con el mismo nombre ni registro. Cada tabla es a su vez un conjunto de registros (filas y columnas). La relación entre una tabla padre y un hijo se lleva a cabo por medio de las claves primarias y ajenas (o

foráneas). Las claves primarias son la clave principal de un registro dentro de una tabla y éstas deben cumplir con

la integridad de datos. Las claves ajenas se colocan en la tabla hija, contienen el mismo valor que la clave primaria del registro padre;

por medio de éstas se hacen las formas relacional. BASE DE DATOS RELACIONALES CON UN DISEÑO DE ESTRELLA

En las bases de datos usadas para data warehousing, un esquema en estrella es un modelo de datos que tiene una tabla de hechos (o tabla fact ) que contiene los datos para el análisis, rodeada de las tablas de dimensiones. Este aspecto, de tabla de hechos (o central) más grande rodeada de radios o tablas más pequeñas es lo que asemeja a una estrella, dándole nombre a este tipo de construcciones.

Las tablas de dimensiones tendrán siempre una clave primaria simple, mientras que en la tabla de hechos, la clave principal estará compuesta por las claves principales de las tablas dimensionales.

Razones a favor del esquema en estrella

El diseño de esquemas en estrella permite implementar la funcionalidad de una base de datos multidimensional utilizando una clásica base de datos relacional (más extendidas que las multidimensionales).

Otra razón para utilizar los esquemas en estrella es su simplicidad desde el punto de vista del usuario final. Las consultas no son complicadas, ya que las condiciones y las uniones (JOIN) necesarias sólo involucran a la tabla de hechos y a las de dimensiones, no haciendo falta que se encadenen uniones y condiciones a dos o más niveles como ocurriría en un esquema en copo de nieve. En la mayoría de los casos son preferibles los de estrellas por su simplicidad respecto a los de copo de nieve por ser más fáciles de manejar.

Finalmente, es la opción con mejor rendimiento y velocidad pues permite indexar las dimensiones de forma individualizada sin que repercuta en el rendimiento de la base de datos en su conjunto.

BASE DE DATOS MULTIDIMENSIONALES

Page 2: Sistema Gestor de Datos de Un Datawarehouse

Son bases de datos ideadas para desarrollar aplicaciones muy concretas, como creación de Cubos OLAP. Básicamente no se diferencian demasiado de las bases de datos relacionales (una tabla en una base de datos relacional podría serlo también en una base de datos multidimensional), la diferencia está más bien a nivel conceptual; en las bases de datos multidimensionales los campos o atributos de una tabla pueden ser de dos tipos, o bien representan dimensiones de la tabla, o bien representan métricas que se desean estudiar.Base de datos multidimensional Las bases de datos multidimensionales se utilizan principalmente para crear aplicaciones OLAP y pueden verse como bases de datos de una sola tabla, su peculiaridad es que por cada dimensión tienen un campo (o columna), y otro campo por cada métrica o hecho, es decir estas tablas almacenan registros cuyos campos son de la forma: (d1,d2,d3,...,f1,f2,f3,...) Donde los campos 'di' hacen referencia a las dimensiones de la tabla, y los campos 'fi' a las métricas o hechos que se quiere almacenar, estudiar o analiza

4. HERRAMIENTAS PARA LA EXPLOTACION DEL DATAWAREHOUSING

Query & Reporting

Consulta y reporte es el término general para referirse a una técnica de explotación de bases de datos que ofrece a las organizaciones acceso a medida a los datos (query) y capacidades de construcción de informes (reporting) para los usuarios finales. Estos informes incluyen datos de detalle, de gran volumen y con un formato que soporta imágenes, varios tipos de gráficos, tablas, etc, que pueden ser consultados por herramientas de usuario final.Permite:

A los usuarios poco expertos solicitar la ejecución de informes o consultas según unos parámetros determinados. A los usuarios con cierta experiencia hacer consultas más flexibles mediante una aplicación que proporcione una

interfaz gráfica de ayuda. A los usuarios altamente experimentados puedan escribir, total o parcialmente la consulta en un lenguaje de

interrogación de datos.

Análisis multidimensional OLAPSe define OLAP como la consolidación, visualización y el análisis de datos de acuerdo con múltiples dimensiones. Se puede hablar de OLAP como de una tecnología de explotación de bases de datos que facilita la visualización y el análisis multidimensional de los datos.El análisis multidimensional consiste en analizar los datos que hacen referencia a hechos desde la perspectiva de sus componentes o dimensiones, abarcando también los diferentes niveles que puedan tener las respectivas dimensiones.

El análisis multidimensional se apoya en una visión conceptual multidimensional (cubo o hipercubo) de los datos para permitir a los sistemas OLAP:

Soportar requisitos complejos de análisis. Analizar datos desde diferentes perspectivas (dimensiones) Soportar análisis contra un volumen considerable de datos.

Representación de los datos mediante un cubo OLAP:

Data MiningEl término data mining o minería de datos se utiliza para hacer referencia a una técnica de análisis de datos cuyo objetio principal es el descubrimiento de conocimiento que se encuentra en los datos y que no es apreciable de manera directa. La minería de datos supone la búsqueda de similitudes, patrones generales y en general relaciones no obvias en los datos, con el objetivo de transformar la información disponible en conocimiento útil de negocio.El data mining en vez de basarse en métricas de negocio o en información altamente agregada, explota la información detallada del almacén de datos.No siempre es necesario disponer de un data warehouse para hacer data mining, pero aporta al data mining una fuente de datos de mayor calidad para poder trabajar.

5. ANALISIS MULTIDIMENSIONAL OLAP: ON-LINE ANALYTICAL PROCESSING

Los sistemas OLAP son bases de datos orientadas al procesamiento analítico. Este análisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algún tipo de información útil: tendencias de ventas, patrones de comportamiento de los consumidores, elaboración de informes complejos… etc.

Un cubo OLAP no es más que un vector de varias dimensiones. Desde un punto de vista relacional, puede verse como una tabla de hechos (fact table) que tiene dos tipos de columnas:

Indicadores: también denominados métricas o ratios, son los valores numéricos con los que se opera. Por ejemplo: nº de clientes, nº de proveedores, importe de las ventas, nº de ventas, importe de las compras, nº de compras… etc.

Page 3: Sistema Gestor de Datos de Un Datawarehouse

Dimensiones: son las características por las que se pueden filtrar y cruzar los indicadores. Por ejemplo: tiempo (fijando un determinado día, mes o año), geografía (fijando un determinado país, región o ciudad), proveedor, cliente, modo de pago… etc.

jerarquia de dimensiones: distintos niveles de agregacion dentro de una dimension TIPOS DE PERSISTENCIA OLAP

Sistemas MOLAP: Multidimensional Online Analytical Processing, es decir, 'procesamiento analítico multidimensional en línea' . La arquitectura MOLAP usa unas bases de datos multidimensionales para proporcionar el análisis, su principal premisa es que el OLAP está mejor implantado almacenando los datos multidimensionalmente. Por el contrario, la arquitectura ROLAP cree que las capacidades OLAP están perfectamente implantadas sobre bases de datos relacionales Un sistema MOLAP usa una base de datos propietaria multidimensional, en la que la información se almacena multidimensionalmente, para ser visualizada en varias dimensiones de análisis.

El sistema MOLAP utiliza una arquitectura de dos niveles: la bases de datos multidimensionales y el motor analítico. La base de datos multidimensional es la encargada del manejo, acceso y obtención del dato.

El nivel de aplicación es el responsable de la ejecución de los requerimientos OLAP. El nivel de presentación se integra con el de aplicación y proporciona un interfaz a través del cual los usuarios finales visualizan los análisis OLAP. Una arquitectura cliente/servidor permite a varios usuarios acceder a la misma base de datos multidimensional.

La arquitectura MOLAP requiere unos cálculos intensivos de compilación. Lee de datos precompilados, y tiene capacidades limitadas de crear agregaciones dinámicamente o de hallar ratios que no se hayan precalculados y almacenados previamente.

Sistemas ROLAP: Procesamiento Analítico OnLine Relacional La arquitectura ROLAP, accede a los datos almacenados en un datawarehouse para proporcionar los análisis OLAP. La premisa de los sistemas ROLAP es que las capacidades OLAP se soportan mejor contra las bases de datos relacionales.

El sistema ROLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja los requerimientos de almacenamiento de datos, y el motor ROLAP proporciona la funcionalidad analítica. El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y obtención del dato. El nivel de aplicación es el motor que ejecuta las consultas multidimensionales de los usuarios.

El motor ROLAP se integra con niveles de presentación, a través de los cuáles los usuarios realizan los análisis OLAP. Después de que el modelo de datos para el datawarehouse se ha definido, los datos se cargan desde el sistema operacional. Se ejecutan rutinas de bases de datos para agregar el dato, si así es requerido por los modelos de datos. Se crean entonces los índices para optimizar los tiempos de acceso a las consultas.

Los usuarios finales ejecutan sus análisis multidimensionales, a través del motor ROLAP, que transforma dinámicamente sus consultas a consultas SQL. Se ejecutan estas consultas SQL en las bases de datos relacionales, y sus resultados se relacionan mediante tablas cruzadas y conjuntos multidimensionales para devolver los resultados a los usuarios.

Sistemas HOLAP: un desarrollo un poco más reciente ha sido la solución OLAP híbrida (HOLAP), la cual combina las arquitecturas ROLAP y MOLAP para brindar una solución con las mejores características de ambas: desempeño superior y gran escalabilidad. Un tipo de HOLAP mantiene los registros de detalle (los volúmenes más grandes) en la base de datos relacional, mientras que mantiene las agregaciones en un almacén MOLAP separado.