Post on 24-Jul-2015
Ingeniería en Sistemas Computacionales
Trabajo:
Bases de datos multidimensionales (BDM).
Profesora:
SARAÌ ROJO RUIZ
Integrantes:
JESÚS PETRONIA CASTRO
Materia:
ADMINISTRACION DE BD
INSTITUTO TECNOLÓGICO SUPERIOR DE LA MONTAÑA
BASE DE DATOS MULTIDIMENSIONAL
Las bases de datos multidimensionales se utilizan principalmente para crear
aplicaciones OLAP y pueden verse como bases de datos de una sola tabla, su
peculiaridad es que por cada dimensión tienen un campo (o columna), y otro
campo por cada métrica o hecho.
DATOS MULTI-IMENSIONALES
En resumidas cuentas las bases de datos relacionales son muy buenas para
manejar consultas en las cuales el resultado es un listado de datos. En donde
presentan deficiencias estas bases de datos es en el manejo de consultas
interactivas diseñadas para el análisis profundo de datos en tiempo real. Es aquí
en donde entra lo que se conoce como OLAP (on-line analytical processing). Las
consultas de tipo OLAP examinan inmensas cantidades de datos para determinar
tendencias y áreas específicas en las que se presentan desviaciones apreciables.
Los servidores de bases de datos multidimensionales (MDDs) deben tener un
mecanismo para poder consultar cada nivel de desagregación y debe tener la
capacidad de excavar en estos niveles con el fin de poder analizar detalladamente
los datos. No implica esta tecnología que las bases de datos relacionales no sirvan
para consultas complejas ni que no soporten consultas OLAP. Lo hacen pero en
una forma ineficiente y su costo/efectividad y su facilidad de uso no son tan
buenos como en las bases de datos multidimensionales.
Cubos e hipercubos de datos.
Los cubos de información o cubos OLAP funcionan como los cubos de
rompecabezas en los juegos, en el juego se trata de armar los colores y en el data
warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el
juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de
dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo
OLAP contendrá datos de una determinada variable que se desea analizar,
proporcionando una vista lógica de los datos provistos por el sistema de
información hacia el data warehouse, esta vista estará dispuesta según unas
dimensiones y podrá contener información calculada. El análisis de los datos está
basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis
multidimensional
A la información de un cubo puede acceder el ejecutivo mediante “tablas
dinámicas” en una hoja de cálculo o a ravés de programas personalizados. Las
tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización,
totales) de la información con mucha facilidad. Las diferentes operaciones que se
pueden realizar con cubos de información se producen con mucha rapidez.
Llevando estos conceptos a un data warehouse, éste es una colección de datos
que está formada por «dimensiones» y «variables», entendiendo como
dimensiones a aquellos elementos que participan en el análisis y variables a los
valores que se desean analizar.
Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las
perspectivas de análisis de las variables (forman parte de la tabla de
dimensiones). Son catálogos de información complementaria necesaria para la
presentación de los datos a los usuarios, como por ejemplo: descripciones,
nombres, zonas, rangos de tiempo, etc. Es decir, la información general
complementaria a cada uno de los registros de la tabla de hechos.
Variables
También llamadas “indicadores de gestión”, son los datos que están siendo
analizados. Forman parte de la tabla de hechos. Más formalmente, las variables
representan algún aspecto cuantificable o medible de los objetos o eventos a
analizar. Normalmente, las variables son representadas por valores detallados y
numéricos para cada instancia del objeto o evento medido. En forma contraria, las
dimensiones son atributos relativos a la variables, y son utilizadas para indexar,
ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen
una granularidad menor, tomando como valores un conjunto de elementos menor
que el de las variables; ejemplos de dimensiones podrían ser: “productos”,
“localidades” (o zonas), “el tiempo” (medido en días, horas.
Estructuras no-jerárquicas y jerárquicas de los datos.
Una Base de datos jerárquica es un tipo de Sistema Gestor de Bases de Datos
que, como su nombre indica, almacenan la información en una estructura
jerárquica que enlaza los registros en forma de estructura de árbol (similar a un
árbol visto al revés), en donde un nodo padre de información puede tener varios
nodos hijo.
Esta relación jerárquica no es estrictamente obligatoria, de manera que pueden
establecerse relaciones entre nodos hermanos. En este caso la estructura en
forma de árbol se convierte en una estructura en forma de grafo dirigido. Esta
variante se denomina Bases de datos de red.
El modelo jerárquico facilita relaciones padre-hijo, es decir, relaciones 1:N (de uno
a varios) del modelo relacional. Pero a diferencia de éste último, las relaciones son
unidireccionales. En justicia, dichas relaciones son hijo-padre, pero no padre-hijo.
Por ejemplo, el registro de un empleado (nodo hijo) puede relacionarse con el
registro de su departamento (nodo padre), pero no al contrario. Esto implica que
solamente se puede consultar la base de datos desde los nodos hoja hacia el
nodo raíz. La consulta en el sentido contrario requiere una búsqueda secuencial
por todos los registros de la base de datos (por ejemplo, para consultar todos los
empleados de un departamento). En las bases de datos jerárquicas no existen
índices que faciliten esta tarea.
Obsérvese que, a priori, no existen relaciones N:M (de muchos a muchos) en el
modelo jerárquico. Salvo que se simulen mediante varias relaciones 1:N. No
obstante, esto puede provocar problemas de inconsistencia, ya que el gestor de
base de datos no controla estas relaciones.
Limitaciones del modelo jerárquico
A continuación se mencionan los problemas típicos de las bases de datos
jerárquicas y que no existen en las bases de datos relacionales. Todos estos
problemas derivan del hecho de que el sistema gestor de base de datos no
implementa ningún control sobre los propios datos, sino que queda en manos de
las aplicaciones garantizar que se cumplen las condiciones invariantes que se
requieran (por ejemplo, evitar la duplicidad de registros). Dado que todas las
aplicaciones están sujetas a errores y fallos, esto es imposible en la práctica.
Además dichas condiciones suelen romperse ex profeso por motivos operativos
(generalmente, ajustes debidos a cambios en el negocio) sin evaluarse sus
consecuencias.
Duplicidad de registros
No se garantiza la inexistencia de registros duplicados. Esto también es cierto
para los campos “clave”. Es decir, no se garantiza que dos registros cualesquiera
tengan diferentes valores en un subconjunto concreto de campos.
Integridad referencial
No existe garantía de que un registro hijo esté relacionado con un registro padre
válido. Por ejemplo, es posible borrar un nodo padre sin eliminar antes los nodos
hijo, de manera que éstos últimos están relacionados con un registro inválido o
inexistente..
Desnormalización
Este no es tanto un problema del modelo jerárquico como del uso que se hace de
él. Sin embargo, a diferencia del modelo relacional, las bases de datos jerárquicas
no tienen controles que impidan la desnormalización de una base de datos. Por
ejemplo, no existe el concepto de campos clave o campos únicos.
Operadores para datos agregados multidimensionales.
Operadores: sum, count, max, min, average
Claúsula “Having”
Usando Jerarquías de dimensión
Promedio por región (tienda -- store)
Máximo por mes (fecha -- date)
Operadores:
CUBE
ROLLUP
DRILLDOWN
GROUPING SETS
SLICE (Rebanada)
PIVOT
Dado
Ascenso
Descenso
Utilización de Herramientas
SQL Server 2005
Access
Oracle
Excel
Consultas multidimensionales de datos.una de las herramientas más utilizadas por las empresas son las aplicaciones
OLAP, ya que las misma han sido creadas en función a bases de datos
multidimensionales, que permiten procesar grandes volúmenes de información, en
campos bien definidos, y con un acceso inmediato a los datos para su consulta y
posterior análisis.
Las consultas en la base de datos constan de archivos que permiten realizar
muchas tareasdiferentes con los datos. Se pueden utilizar las consultas para
controlar los campos de datosque se pueden ver. También se pueden utilizar las
consultas para controlar los registros quevisualiza en la base de datos. Las
consultas pueden cambiar el orden de presentación dedatos y pueden incluso
actualizarlos. Las consultas no contienen información de la base dedatos, sino tan
solo las instrucciones necesarias para seleccionar los registros y
camposrequeridos de una base de datos.
Consulta de un campo para una entrada carácter:
Se pueden crear consultas simples para encontrar todos los registros que
contienen unaentrada de carácter específica. Se puede utilizar la coincidencia
exacta u operadoresrelacionales cuando se realiza la búsqueda. Puesto que se
deben encerrar las cadenas decaracteres entre comillas, se puede buscar una
coincidencia exacta colocando la cadena decaracteres que se necesite encontrar
entre comillas.
Almacenamiento y uso de consultas:
Puede almacenar una consulta como archivo. Esto ofrece la ventaja de reutilizar la
consulta posteriormente sin reentrar en ella. Para utilizar cualquier consulta
almacenada en disco seselecciona un archivo de consultas del panel de consultas
del centro de control con laapropiada base de datos en uso. Las condiciones que
también se denominan filtrosestablecidas por esta consulta se ponen en vigor
automáticamente para ocultar los registrosque presenta Dbase. Se puede utilizar
para afectar a la visualización de los registros sobre la pantalla o para restringir los
registros presentados en los informes que se crean.
Consulta de campos numéricos:
La búsqueda de valores numéricos permite operar con todos los registros de
empleado conun código de trabajo específico o todos los registros de un número
de cliente particular. Secontrolan los registros que cumplan la consulta en base a
los contenidos de un camponumérico en lugar de un campo carácter, pero la
mayor parte de las características de lasconsultas utilizadas para campos
numéricos son exactamente las mismas que se utilizan para campos de
carácter.Se pueden utilizar ejemplos de coincidencia exacta para localizar datos.
Puesto que estamostrabajando con datos numéricos, las comillas no se necesitan.
También se puede utilizar muchos de los operadores relacionales que utilizaron
con los campos de carácter.
Consulta de campo de fecha:
La consulta de los campos de fecha no es diferente del acceso a otros tipos de
campos.Dbase reconoce los campos de fecha y los trata como una entrada de
fecha si se incluyen delas llaves { }. Se utilizan los ejemplos bajo este tipo de
campos para encontrar unacoincidencia exacta o relacional. Se pueden utilizar
ejemplos relacionales para localizar todos los registros anteriores y posteriores a
una fecha dada. También se pueden encontrar registros dentro de un rango
especifico de fechas colocando en el ejemplo dos expresiones relacionadas
separadas por coma (,).
Consultas de campos lógicos:
Los campos lógicos contienen indicadores de verdadero o falso. Cuando se crea
un ejemplo de un campo lógico, se puede hacer que Dbase busque valores
verdaderos o falsos colocando .T. o .F. como un ejemplo debajo del tipo de
campo. Dbasetambién acepta .t., .f., ..f., .Y., .N., .y., y .n., como entradas para este
campo..