DATA WAREHOUSE
-
Upload
ainsley-carpenter -
Category
Documents
-
view
43 -
download
0
description
Transcript of DATA WAREHOUSE
Eduardo López GuerreroJosé Alberto Soto
Omar Suárez Hernández
INTRODUCCIONDesde los inicios de la era de la computadora, las organizaciones ha usado los datos desde sus sistemas operacionales para entender sus necesidades de información.
El data warehouse, es el centro de las grandes instituciones, por que provee un ambiente para que las organizaciones hagan un mejor uso de la información que esta siendo administrada por diversas aplicaciones operacionales. Data warehouse es una colección de datos en la cual se encuentra integrada la información, no volátil de tiempo variante que se usa como soporte para la toma de decisiones.Al reunir los elementos de datos apropiados desde diversas fuentes, simplifica el proceso de análisis y consultas de esta información en menos tiempo.Un data warehouse se crea al extraer la información desde una o más bases de datos, esta información es transformada para eliminar inconsistencias y luego es cargada en la datawarehouse.
La innovación que se brinda dentro de un ambiente datawarehousing, puede permitir a cualquier organización hacer un uso optimo de los datos, y hacer la toma de decisiones mas efectiva.
El data warehouse es siempre un almacén de datos transformados y separados de la aplicación o base de donde se encontraron.
SISTEMAS DE INFORMACION
ESTATREGICO
TACTICO
TECNICO-OPERATIVO
INTERINSTUCIONAL
SISTEMAS DE INFORMACION
ESTRATEGICOOrientados a soportar la toma de decisiones, proporcionando un soporte básico.Se caracterizan por que son sistemas si carga periódica de trabajo, su utilización no es predecible.
TACTICOS.Diseñados para las actividades y manejo de la documentación, para consultas en el sistema, proporcionar informes, facilitar la gestión independiente por parte de los niveles intermedios de la organización.
SISTEMAS TECNICO-OPERATIVOS.Operaciones tradicionales de captura masiva de datos. Y servicios básicos de tratamiento de datos (contabilidad, presupuestos, almacenes, personal etc).
SISTEMAS INTERINSTITUCIONALESEs el ultimo nivel de sistemas de información, son como consecuencia del mercado global el cual obliga a implementar estructuras de comunicación entre la organización y el mercado. (Internet).
CARACTERISTICAS
Datos operacionales. Orientado a la aplicación. Actual. Detallada Cambia continuamente.
Datos del negocio para información.
Orientado al sujeto. Actual + histórico. Detallada + resumida. Estable.
Los datos de un Warehouse difieren de los datos operacionales usados por las aplicaciones de producción.
Base de datos Operacional
Data Warehouse
CARACTERISTICAS
ORIENTADO A TEMAS.
La información esta basada en los aspectos que son de interés para la empresa.en el ambiente operacional, una aplicación puede ser clientes, productos y cuentas, la base de datos combina estos elementos en una estructura que acomoda para las necesidades de la aplicación, en ambiente data warehouse, se organiza alrededor de sujetos, como cliente, vendedor, producto y actividad.
La diferencia entre orientación a procesos y la orientación a temas, radica en el contenido del data a escala, el data warehouse excluye la información que no será usada por el proceso de toma de desiciones.
INTEGRADA
Es el aspecto más importante del ambiente datawarehousing siempre esta integrada.
La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de las variables, atributos físicos de los datos consistentes, fuentes múltiples y otros.
DE TIEMPO VARIANTE.
Toda la información del data warehouse es requerida en algún momento.
ESTABLE
La información es útil solo cuando es estable.
ESTRUCTURA
Detalle histórico de los datos
Detalle histórico de los datos
Detalle actualDetalle actual
Ligeramente resumido
Ligeramente resumido
Altamente resumido
Altamente resumido
ARQUITECTURA DE UN DATAWAREHOUSENos sirve para comprender como se relacionan los componentes involucrados en una estrategia de Datawarehouse.
INTERFAZ
ADMINISTRADOR DE CONSULTAS
INTEGRADOR
DATAWAREHOUSE
EXTRACTOR / MONITOR
EXTRACTOR / MONITOR
FUENTE FUENTE
ELEMENTOS CONSTITUYENTES DE UNA ARQUITECTURA DATAWAREHOUSE
En la parte inferior de la figura se pueden ver las fuentes conectadas a un extractor / monitor. El extractor es el responsable de homogenizar la información. El monitor es el responsable de detectar los cambios que puedan ser realizados en las fuentes y reportarlos al integrador.
El integrador recibe los resultados de los extractores y después de integrarlos, los carga al DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los datos, el esquema multidimensional del DW.
El administrador de consultas se encarga de organizar las consultas y seleccionar los operadores para permitir su análisis. Para explicar la actividad de un DW podemos identificar dos grandes fases: construcción y explotación.
La fase de construcción se refiere al diseño e implementación de herramientas encargados de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe integrar y homogenizar la información previamente. Un proceso posterior pero asociad a esta mis fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos al DW.
En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del DW a través de técnicas que facilitan y hacen mas eficiente su consulta. Ya con el DW poblado lo ultimo es diseñar e implementar una interfaz que le permita al usuario final interactuar con el repositorio, brindándole todas las ventajas del análisis de la información.
MODELO MULTIDIMENSIONAL
El modelo multidimensional describe la organización de la información en un DW. Define los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones.
CONCEPTOS.
Dimensión.
Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el concepto de dimensión como el grado de libertad de movimiento en el espacio. Entenderemos esta libertad como el numero de direcciones ortogonales diferentes que podamos tomar.
Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona puede tener los siguientes niveles: ciudad, estado, región, país y continente.
Medida.
Una medida es un valor en un espacio multidimensional definido por dimensiones ortogonales. La medida es un dato numérico que representa la agregación de un conjunto de datos. Los datos son producidos como el resultado del funcionamiento de una empresa. Un DW comúnmente tiene tres tipos de medidas.
Snapshots: modelan entidades en un punto dado en el tiempo.
Eventos: modelan eventos del mundo real, con el grano mas fino.
Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo.
Dependiendo de sus propiedades podemos tener tres medidas:
Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo, “temperatura”, que puede estar dada por las dimensiones estación, región y fecha.
Semi-aditivas, pueden no ser combinadas a lo largo de una o mas dimensiones. Por ejemplo, “nomina” que puede estar dada por las dimensiones empleados y tiempo, pero no producto.
No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo, “cantidad de producto”, que únicamente puede estar dada por la dimensión producto.
Cubo.
Una instancia del modelo multidimensional, esquema multidimensional, es conocida como Cubo o hipercubo de n dimensiones. Cuando la gente observa los datos de un cubo de n dimensiones, es mas fácil interpretar la información que contiene dicho cubo, así como las distintas operaciones que se le pueden realizar.
Para ejemplificar consideramos la existencia de una aplicación que realiza la venta de juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones producto, tiempo y región. La figura presenta el esquema multidimensional de un DW para la venta de productos que organiza un conjunto de medidas según las dimensiones REGION, TIEMPO y PRODUCTO.
ESQUEMA MULTIDIMENSIONAL
Cada dimensión tiene asociada una jerarquía de niveles que denota la granularidad de observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión REGION se organiza por Ciudad-Estado-Región-País. Así se puede observar la cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla. ESQUEMA DE REPRESENTACION
Un esquema multidimensional puede instrumentarse usando un esquema relacional en estrella (Star Schema) o usando un esquema copo de nieve (Snow Flake Schema). Un esquema de estrella esta formado por una tabla para cada dimensión y una tabla principal de hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada tabla de dimensión como se puede apreciar en la sig. figura.Región
Id Ciudad
Nombre
Dirección
RegiónTiempo
Id Tiempo
Fecha
Producto
Id Producto
Descripción
Marca
Grupo
Familia
Tipo
Precio
Medida
Id Producto
Id Ciudad
Id Tiempo
unid vendidas
ESQUEMA EN ESTRELLA
En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones del ambiente de negocios, ya que tiene un acceso mas directos a los datos.
Medida
Id Producto
Id Ciudad
Id Tiempo
unid vendidas
Región
Id Ciudad
Nombre
Dirección
Tiempo
Id Tiempo
día
Producto
Id Producto
Descripción
Marca
Tipo
Precio
Id Región
Región
Id Tiempo
mesId Tiempo
año
Id Grupo
grupo
Id Familia
familia
CONSTRUCCION Y MANTENIMIENTO DE UN DW
CONSTRUCCIÓN.
Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los datos y se comunican con un integrados que integra los datos con respecto al esquema del DW.
La figura siguiente presenta la arquitecta del mecanismo de construcción de un DW que consiste en un conjunto de extractores asociados a las fuentes. Un extractor con la fuente para extraer la información y la transforma a una representación comprendida por un integrador. El extractor conoce el formato de las fuentes, el formato de representación de datos del DW, el protocolo de comunicación y la ubicación de ambos.
DATAWAREHOUSE
INTEGRADOR
EXTRACTOR / MONITOR
FUENTE
FUENTE
FUENTE
EXTRACTOR / MONITOR
EXTRACTOR / MONITOR
El integrador integra la información y calcula los valores agregados con respecto al esquema del DW. Las tareas principales del integrador son: combinar los datos obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW.
MANTENIMIENTO.
El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen dos formas de refrescar los datos:
La primera es llevar los datos al DW segundos después de que las fuentes fueron actualizadas.
La segunda es acumulando y almacenando los datos ya integrados y transformados, en un sitio intermedio para que de forma periódica pasar la información al DW.
El refrescado se puede realizar de manera incremental o recalculando todos los datos.
Primero, el volumen de datos almacenado en el DW es muy grande y crece cada vez mas.
Segundo, el refrescado deber ser accesible a los diferentes cambios de ejecución del DW.
Finalmente, el refrescado engloba transacciones que por lo regular acceden a múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos ya que producirían un alto nivel de agregación.
El refrescado de un DW esta considerado como un problema difícil debido a las siguientes razones:
EXPLOTACIÓN DE UN DW
La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas nos referimos a la manipulación, análisis y visualización de la información que realiza el usuario sobre la información del DW. Para el análisis de los datos almacenados en el QW se utiliza la tecnología OLAP (On Line Analytical Proccesing). Esta tecnología cuenta con operadores tales como: Slice´n dice roll-up y drill down.
Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW. En la sig. figura se observa un ejemplo en el que se restringe el resultado para analizar solo las ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla.
Roll up agrega medidas que van de un nivel Ni a un nivel mas general Nj de una dimensión. Permite analizar la información a través de diferentes niveles de granularidad de las dimensiones.
Drill down es la operación inversa. A partir de un nivel superior este operador permitir bajar de nivel. En la sig. figura se observa un claro ejemplo de cómo la dimensión tiempo cambia de nivel días a meses y viceversa.
CONSIDERACIONES ADICIONALES AL CONSTRUIR EL DWNiveles de Esquematización: Altos: Indexados libremente Fácilmente Reestructurados. Bajos: Indexados moderadamente Difícilmente Reestructurado.
• DBMS: Sistemas de Gestión de Base de Datos. (Data Base Management Systems)
Partición de las Aplicaciones: Partición DBMS: Automáticamente. Partición de Aplicaciones; Solo los programadores conocen, y la
responsabilidad de administrar es de ellos.
La Data Calculada Fuera del DW pero que es necesario para la corporación:
Ejemplo. Rentas, gastos, ganancias, parámetros de construcciones de aviones,
datos de seguridad. Etc.Este detalle en ocasiones debe ser guardado por razones Legales o Éticas. Conocidos en DW como Datos permanentes.• El medio debe ser seguro• Deben poder ser restaurados• Necesitan se indexados de manera especia.
Excepciones en el DW.
* Aplicación Piloto.- Una prueba limitada para medir el beneficio de manera
clara
ORGANIZACION DEL PROYECTO
1. Factores en la Planificación del DW. :* Asociación entre Usuarios, Gestores y Grupos.
- Información que satisfaga los requerimientos de la empresa.
- Selección de Herramientas.
* Prototipos .- Verificar la necesidades del usuario durante el proceso de implementación.
* Implementación Incremental.- Reduce riesgos y controla el tamaño del proyecto para que
sea manejable.
* Reportar y Publicar casos exitosos.- Publicidad interna de cómo le ayuda a la gente que ya lo
utiliza
* Primero.- Acceso fácil al directorio de datos y gestión del proceso.- Entrenamiento al usuario final.- Uso de las Instalaciones del DW.
2. Estrategias para el Desarrollo del DW. :Desarrollar un estrategia apropiada a las necesidades de los usuarios.
* Segundo.- Construir una copia de los datos operacionales. Esto por si los datos existente son de mala calidad.
* Tercero.- Seleccionar el numero de usuarios.- Construir prototipos para los usuarios final para poder experimentar o modificar su es necesario.- Cargar los datos de los sistemas existentes o de fuentes externas.
* Se requiere en ocasiones una Reingeniería de Proceso del Negocio.
3. Estrategias para el Diseño del DW. :
* Estrategia de diseño de afuera hacia adentro (outside-in).
* Los usuarios no conocen sus requerimientos, como los usuarios operacionales.
* Reconocer que el mantenimiento de la estructura del DW es critica.
4. Estrategias para la Gestión de un Diseño del DW. :
* Esto solo es una buena inversión si los usuarios finales consiguen información vital y rápida.
DESARROLLO DE UN PROYECTO.
* Puede contener toda la infamación de la empresa desde su inicio, o tan limitado a un gerente durante un año.
Almacenaje de un DW.
* Estos significa que los usuarios finales pueden acceder a bases operacionales directamente, usando cualquier herramienta (red de acceso de datos).
Virtual o Point to Point.
* Se seleccionan donde hay necesidades comunes de información y un gran numero de usuarios.
DW Centrales
* Los componentes de deposito se distribuyen en un numero de bases de datos físicas diferentes.
DW Distribuidos
* Ejecutivos y gerentes* “Power users” o “Buzo de Información”. Analistas financieros,
Ingenieros, * Usuarios de soporte. De oficinas, administrativos.
Tipo De Usuario
* Esta integrado por un servidor de Hardware* Los DBMS que conforman el dispositivo. (Sistemas de Gestión de Base de
Batos.)
1) Arquitectura total del deposito.Estructura física de la base de datos de deposito.
BLOQUES CLAVES DE CONSTRUCCIÓN.
ELEMENTOS CLAVES PARA EL DESARROLLO.
Financiero
Comercio
Manufactura
Distribución
MainframeUsuario
Final
Data Warehouse Corporativ
o
Servidor Local
a) DW Integrado o centralizado; Las bases de datos separados son todos integrados y físicamente almacenados en la misma plataforma.
b) Arquitectura Global; Los datos es consolidad lógicamente pero se almacena por separado sin las bases de datos físicamente relacionadas, en el mismo lugar físico.
Financiero
Comercio
Manufactura
DistribuciónCorporativo
Data Warehouse
Usuario Final
c) Arquitectura por Niveles; Datos altamente resumidos en la 1er estación de trabajo del usuario, con resúmenes mas detallaos en el 2do. servidor y mas detallada en el 3er servidor.
Financiero
Comercio
Manufactura
Distribución
Corporativo
Data Warehouse
Estación de TrabajoModelos
Complementarios de datos
Nivel 1 Nivel 2 Nivel 3
Financiero
Comercio
Manufactura
Distribución
2) Arquitectura del servidor.Estructura física de la base de datos de deposito.
BLOQUES CLAVES DE CONSTRUCCIÓN.
a) De un solo Servidor; Fácil de administrar pero con limitaciones de potencia de procesamiento y escalabilidad.
b) Multiprocesamiento Simétrico (SMP); Adición de procesadores que comparten la memoria interna de los servidores y de los dispositivos de almacenaje del disco.
c) Procesamiento en Paralelo Masivo (MMP); Conjunto de procesadores con un enlace de banda ancha y de alta velocidad. Cada modo es un servidor con su propio procesador SMP y memoria interna.
d) Acceso de memoria no uniforme (NUMA); Se crea con una sola gran maquina SMP al conectar múltiples nodos en uno solo, ventajas en la gestión y simplicidad de un ambiente SMP.
3) Sistema de Gestión de Base de Datos.Los Relational Data Base Managment Systems (RDBMS); son muy flexibles cuando se usan con una estructura de datos normalizada y tienen la capacidad para efectuar consultas con un único objetivo concreto.
BLOQUES CLAVES DE CONSTRUCCIÓN.
Base Normalizada, las estructura de datos son No Redundantes y que representan las entidades básicas.
Los modelos super relacionados soportan extensiones para almacenar formatos, operaciones y diagramas indexacion especializados.
BIBLIOGRAFIAData Wareahousing (http://porgramacion.com/bbdd/tutorial/warehouse/