Metodología de Almacén de Datos
-
Upload
pao-piedra -
Category
Documents
-
view
168 -
download
2
Transcript of Metodología de Almacén de Datos
UNIVERSIDAD POLITÉCNICA SALESIANA CARRERA DE INGEENEIRÍA EN SISTEMAS
BASE DE DATOS III NOMBRES: -Vinicio Galarza B.
-Víctor Flores A.
- David López P.
FECHA: 7 de octubre 2011 TEMA: Modelado de un Almacén de Datos Resumen Ejecutivo:
El modelado de un almacén de datos se basa en tener datos correctamente guardados, para
esto se sigue nueve pasos que dictan cómo desarrollar un almacén de datos que se coherente
con la realidad de los datos que se está modelando.
Antes de ello, se debe tener muy claro ciertos conceptos que ayudan para la elaboración de un
almacén de datos, como por ejemplo todo lo que tiene que ver tablas y relaciones. La
“topología” también es importante porque eso agilitará el poder de las consultas.
Desarrollo:
CONCEPTOS PREVIOS QUE SE DEBEN TENER EN CUENTA PARA LA ELABORACIÓN DE UN
ALMACEN DE DATOS
Para la construcción de un almacén de datos es necesario saber casi exactamente los
requerimientos de usuario y qué datos se van a obtener. Pues si bien la elaboración de un
almacén de datos es compleja, lo más consecuente es desarrollarlo mediante mercado de
datos, ya que esta solución es más factible por su sencillez. Después se recolecta los datos
desde OLTP u OLAP según sea el caso, para llenar el almacén de datos con datos coherentes,
limpios y válidos.
Modelado de la dimensionalidad.- Es una técnica utilizada en la elaboración de un almacén de
datos, que utiliza ciertos criterios del modelo E-R con ciertas restricciones. Pues bien, esta
técnica nos dice que debemos tener una tabla de hechos, que está formada por una clave
principal compuesta y tablas de dimensión, que están formadas por una clave principal simple.
Esto quiere decir que las claves principales de las tablas de dimensión forman la clave
compuesta de la tabla de hechos. También las tablas de dimensión tienen otro campo llamado
clave natural, que son independientes de la clave principal simple que se la llama clave
subrogada que es un tanto independiente de los campos que posee la tabla de dimensiones.
La tabla de hechos se conforma con datos factuales, es decir con datos que puedan quedar
constantes a través del tiempo y que se cambien la menor cantidad de veces posible.
A diferencia de la tabla de hechos, los atributos de las tablas de dimensión son datos textuales
descriptivos, que se usan como restricciones a las consultas que se hacen al almacén, es decir,
siempre habrá una comparación excluyente de datos en cada consulta.
Una vez visto cómo se integran las tablas, pues ahora viene la “topología” de la base de datos
que servirá como almacén de datos. Existen tres tipos de esquemas empleados: 1) Estrella: Es
aquel que desnormaliza a las tablas de dimensión para que las consultas sean más eficientes al
recorrer menor número de tablas. 2) Copo de Nieve: En este esquema se hace una
normalización de las tablas para que las dimensiones tengan dimensiones. 3) Copo de Estrella:
Es una combinación entre los dos esquemas antes mencionados.
Independientemente del esquema que se utilice, el modelo dimensional brinda las siguientes
ventajas:
� EFICIENCIA: Los esquemas propuestos ofrecen alta eficiencia en las consultas.
� POSIBILIDAD DE CAMBIAR REQUISITOS CAMBIANTES: Puede soportar consultas ad
hoc.
� AMPLIABILIDAD: Si no se afecta la coherencia de la granularidad, permite ser
ampliables tanto en la tabla de hechos como en la tabla de dimensiones.
� CAPACIDAD DE MODELAR SITUACIONES EMPRESARIALES COMUNES: Por esta razón
es la base del Datawarehousing.
� PROCESAMIENTO DE CONSULTAS PREDECIBLE: Por la esquemas anteriores, las
consultas son directas, ya que los atributos siguen una línea recta de
esquematización.
METODOLOGÍA DE DISEÑO DE DATOS PARA EL ALMACÉN DE DATOS
La metodología que se va a usar es la que planteó Kimball en 1996, que propone en
descomponer el almacén de datos en mercados de datos, para después integrarlos y así,
montar un almacén de alcance corporativo.
Son nueve los pasos a seguir para que el almacén de datos a más de ser coherente, cumpla
todo lo antes establecido.
Paso 1: Selección de Proceso: Se tiene que apuntar al centro de los requisitos
principales del cliente, es decir, a la esencia del almacén de datos.
Paso 2: Granularidad: Se refiere a cómo va estar conformada la tabla de hechos, es
decir, que todos los datos representativos confluyen en la tabla de hechos.
Paso 3: Identificación y conformación de las dimensiones: Se establecen los hechos
que están contenidos dentro de la tabla de hechos. Es referente a las descripciones
individuales que se pueden obtener desde las tablas de dimensión hacia la tabla de
hechos.
Paso 4: Selección de los hechos: Se seleccionan los hechos que van a intervenir en el
mercado de datos, o sea, que datos intervienen en la producción del DataWerehousing.
Paso 5: Almacenamiento de los valores pre-calculados en la tabla de hechos: Quiere
decir que hemos de registrar dentro del almacén de datos los valores que serán pre-
calculados, como por ejemplo, si queremos encontrar el cálculo de uno de los campos
registrados dentro de la tabla de hechos, debemos pre-calcular dicha operación para así
agilizar el tiempo de consulta.
Paso 6: Terminación de las tablas de dimensión: En este paso, se añaden descripciones
textuales para que las dichas tablas se vuelvan intuitivas y comprensibles para el
usuario.
Paso 7: Selección de la duración de la base de datos: Es la cualidad de hasta que
hechos puede retroceder el almacén, esto deriva en un alto grado de problemas ya que
pueden haber actualizaciones que cambien los datos y así, llevar a confusiones en el
momento de presentar reportes.
Paso 8: Control de las dimensiones lentamente cambiantes: Aquí, se pide identificar
cuáles son los valores antiguos y cuáles son los valores nuevos, porque los que más
importan son los valores antiguos en el momento de la toma de decisiones.
Paso 9: Selección de las prioridades de consulta y de los modos de consulta: Esto es
referente más al desarrollo físico del almacén de datos. De cómo este distribuido el
almacén en el disco y todos sus componentes para que sea de fácil interpretación.
CRITERIOS PARA EVALUAR LA DIMENSIONALIDAD DE UN ALMACÉN DE DATOS
GRUPO CRITERIO
Arquitectura Declaración explícita
Hechos y dimensiones conformadas
Integridad dimensional
Navegación Abierta de los agregados
Simetría dimensional
Escalabilidad dimensional
Tolerancia relativa a la densidad
Administración Modificación sencilla
Replicación dimensional
Notificación de cambio de dimensión
Administración de claves subrogadas
Coherencia internacional
Expresión Jerarquías multidimensión
Jerarquía de dimensiones intercaladas
Dimensiones multivaluadas
Dimensiones lentamente cambiantes
Papeles de una Dimensión
Dimensiones de rangos de hechos generales sobre la
marcha
Dimensiones de comportamiento de hechos generales
sobre la marcha
EJEMPLO DE MODELADO DE UN ALMACÉN DE DATOS
Siguiendo los pasos anteriormente descritos, se ha desarrollado un modelo de almacén de datos como el que sigue:
El siguiente modelo está basado en un modelo E-R.
Aplicando los criterios de un modelo dimensional quedaría de la siguiente manera:
CONCLUSIONES:
• El diseño multidimensional es un método de diseño de bases de datos basado en el
modelo relacional.
• Es necesario seleccionar un esquema adecuado que refleje el uso previsto.
• Los almacenes de datos existen para facilitar las consultas complejas, que involucran a
gran cantidad de datos y que son con frecuencia ad hoc.
RECOMENDACIONES:
� Cada vez que una base de datos fuente cambia, el administrador del almacén de datos
debe considerar las posibles interacciones con otros elementos del almacén
� Las fuentes y sus datos evolucionarán y el almacén debe contemplar dichos cambios.
BIBLIOGRAFÍA:
� http://informatica.uv.es/iiguia/DBD/Teoria/data-warehouses.pdf
� CONNOLLY, Thomas, BEGG, Carolyn, Sistemas de bases de datos: un enfoque práctico
para diseño, implementación y gestión, 4 Edison ilustrada, Pearson Educación, 2006.