Data War House

download Data War House

of 90

Transcript of Data War House

INSTITUTO SUPERIOR POLITCNICO JOS ANTONIO ECHEVERRA

Arquitectura para la toma de decisiones de la Esfera Docente en la Educacin Superior en Cuba, basada en plataformas de software libre y de cdigo abierto

Tesis presentada en opcin al ttulo de Master en Informtica Aplicada

Autor: Ing. Alexis Cedeo Trujillo Tutores: Dra. Anaisa Hernndez Gonzlez Dr. Julio Pablo Martnez Prieto

Consultantes: Dr. Lucina Garca Hernndez MSc. Silvia Margarita Via Brito

Centro de Estudios de Ingeniera de Sistemas Ciudad de la Habana, Cuba

Abril 2007

Resumen

RESUMEN

El desarrollo de la Educacin Superior en Cuba, es de vital importancia para el desempeo socioeconmico del pas. Las universidades son fuente de formacin del personal cientfico de la sociedad.

El Ministerio de Educacin Superior, careca de un sistema informatizado para la organizacin de la esfera docente, dificultndose la existencia de un mecanismo de control de los procesos que en ella se realizan, as como la preparacin de datos e informes para la toma de decisiones. Por lo que surge el proyecto nacional Sistema de Informatizacin de la Nueva Universidad (SIGENU), compuesto por varios mdulos que tiene como propsito la solucin a los problemas antes mencionados.

Esta tesis forma parte del proyecto SIGENU y realiza una propuesta de arquitectura para la toma de decisiones en la esfera docente del MES, que permitir el procesamiento analtico de informacin histrica, actual, agregada y nominalizada en correspondencia con las necesidades de informacin de todos los niveles de direccin. Por primera vez se podr contar en el Organismo Central con la informacin de todos los estudiantes de los CES adscriptos al mismo. Se establecen las fuentes de datos para la realizacin de estudios futuros, que permitan el descubrimiento de conocimiento oculto para la toma de decisiones con niveles de objetividad muy superiores a los actuales.

Se desarrolla un proyecto completo de inteligencia de negocio con herramientas libres y de cdigo abierto, respondiendo a los intereses de la direccin del gobierno de nuestro pas. Esta ser una alternativa a considerar en el desarrollo de este tipo de proyecto, que implementado en herramientas propietarias es de un alto costo.

ndice

NDICE DE CONTENIDOINTRODUCCIN .............................................................................................................................1 CAPTULO I. FUNDAMENTOS TERICOS ...................................................................................7 INTRODUCCIN ..............................................................................................................................7 1.1 SISTEMAS DE APOYO A LA TOMA DE DECISIONES........................................................................7 1.1.1 Data Warehouse .............................................................................................................8 1.1.2 Datamart .......................................................................................................................11 1.1.3 Extraccin, Limpieza, Transformacin y Carga.............................................................12 1.1.4 Herramientas de Extraccin, Transformacin y Limpieza.............................................13 1.2 MODELO DIMENSIONAL...........................................................................................................16 1.2.1 Diferencias frente al modelo Entidad-Relacin .............................................................16 1.2.2 Tablas de Hechos .........................................................................................................17 1.2.3 Tablas de Dimensiones.................................................................................................18 1.2.4 Esquemas ms comunes para el modelo multidimensional .........................................19 1.2.4 UML para el Modelo Dimensional .................................................................................20 1.3 SISTEMAS DE GESTIN DE BASES DE DATOS ..........................................................................21 1.3.1 Servidores de Bases de Datos Libres ...........................................................................21 1.4 PROCESAMIENTO ANALTICO EN LNEA ....................................................................................24 1.4.1 Tipos de OLAP ..............................................................................................................24 1.4.2 Servidores OLAP ..........................................................................................................25 1.5 LA EDUCACIN SUPERIOR EN CUBA........................................................................................29 1.5.1 El papel que desempean las Tecnologas de la Informctica y las Comunicaciones .29 1.5.2 Sistema de Estudiante-GNU. Gestin de la Nueva Universidad...................................30 CONCLUSIONES ...........................................................................................................................32 CAPTULO II. ARQUITECTURA PARA LA TOMA DE DECISIONES .........................................33 INTRODUCCIN ............................................................................................................................33 2.1 OBTENCIN Y PUBLICACIN DE LA INFORMACIN ESTADSTICA .................................................33 2.2 PROBLEMTICA ACTUAL .........................................................................................................36 2.3 ARQUITECTURA PROPUESTA ..................................................................................................38 2.4 DESCRIPCIN DEL LOS COMPONENTES PRINCIPALES DE LA ARQUITECTURA .............................42 2.4.1 Seleccin del Enfoque Arquitectnico...........................................................................42 2.4.2 Caractersticas del diseo de los modelo de datos......................................................42 2.4.3 Caractersticas del proceso de extraccin de la informacin .......................................44 2.4.4 Requerimientos de reportes y de consulta....................................................................45 CONCLUSIONES ...........................................................................................................................46

ndice

CAPTULO III. COMPONENTES DE SOFTWARE .......................................................................47 INTRODUCCIN ............................................................................................................................47 3.1 MODELO DE DATOS PARA EL SOPORTE A LA TOMA DE DECISIONES. ..........................................47 3.1.1 Diagrama de paquetes de los esquemas multidimensionales. .....................................47 3.1.2 Diagrama de dimensiones y hechos del esquema Matrcula. ....................................49 3.1.3 Diagrama de clases del esquema Matrcula...............................................................51 3.2 FUENTES DE DATOS, INTEGRACIN Y CARGA. .........................................................................54 3.3 HERRAMIENTAS FINALES DE CONSULTA DE LA INFORMACIN....................................................56 3.3.1 Mdulos con reportes predefinidos. ..............................................................................56 3.3.2 Mdulo de Recuperacin Web de Informacin .............................................................61 3.4 VISTA DE DESPLIEGUE DE LA ARQUITECTURA ..........................................................................68 3.5 IMPLANTACIN. ......................................................................................................................70 CONCLUSIONES ...........................................................................................................................70 CONCLUSIONES ..........................................................................................................................71 RECOMENDACIONES..................................................................................................................72 REFERENCIAS BIBLIOGRFICAS .............................................................................................73 ANEXOS ........................................................................................................................................77

ndice

NDICE DE FIGURAS

Figura 1.1 Esquema Global de un Proyecto Data Warehousing...................................... 11 Figura 1.2 Esquema estrella que representa las ventas de una cadena de tiendas .... 16 Figura 1.3: Esquema copo de nieve donde se observa la relacin entre las dimensin Cliente y Provincia .......................................................................................................... 20 Figura 2.1: Diagrama de actividad del caso de uso de negocio Obtener modelo estadstico docente......................................................................................................... 35 Figura 2.2: Arquitectura propuesta para la toma de decisiones en la Educacin Superior ......................................................................................................................................... 41 Figura 3.1: Diagrama de paquetes de los esquemas multidimensionales ....................... 48 Figura 3.2: Diagrama de dimensiones y hechos del esquema Matrcula ...................... 50 Figura 3.3: Diagrama de Clases del esquema multidimensional Matrcula ................... 51 Figura 3.4: Dimensiones Facultad y SUM. Diagrama de Clases del esquema multidimensional Matrcula ............................................................................................ 52 Figura 3.5: Dimensin Estudiante. Diagrama de Clases del esquema multidimensional Matrcula3.2 Fuentes de datos, Integracin y Carga. .................................................... 53 Figura 3.6: Proceso de Extraccin, Transformacin y Carga de la informacin del CES 55 Figura 3.7: Proceso de Integracin, Transformacin y Carga de la informacin en el MES ......................................................................................................................................... 55 Figura 3.8: Diagrama de casos de uso del Mdulo de reportes predefinidos. Paquete Reportes .......................................................................................................................... 57 Figura 3.9: Diagrama de casos de uso del Mdulo de reportes predefinidos. Paquete Actualizaciones ................................................................................................................ 57 Figura 3.10: Diagrama de componentes del Mdulo de reportes predefinidos................ 60 Figura 3.11: Patrn de diseo MVC desplegado en el mdulo Web............................... 63 Figura 3.12: Capas de la arquitectura del componente Front-End OLAP ........................ 67 Figura 3.13: Diagrama de despliegue de la arquitectura en el CES ................................ 68 Figura 3.14: Diagrama de despliegue de la arquitectura en el MES ................................ 69

ndice

NDICE DE TABLAS

Tabla 1.1 Algunas diferencias entre los datos operacionales y los que almacena un Data Warehouse. ..................................................................................................................... 10 Tabla 1.2: Comparacin de los Gestores de Base de Datos Libres MySQL y PostgreSQL ......................................................................................................................................... 22 Tabla 1.3: Mdulos definidos para el SIGENU ................................................................ 31 Tabla 2.1: Especificacin textual del caso de uso de negocio Obtener modelo estadstico docente en formato expandido. ..................................................................................... 34 Tabla 2.2: Bases de datos para el soporte a la toma de decisiones del CES.................. 38 Tabla 2.3: Bases de datos para el soporte a la toma de decisiones del CES.................. 39 Tabla 3.1. Descripcin de los componentes del Mdulo de reportes predefinidos .......... 58

Introduccin

INTRODUCCIN

El Ministerio de Educacin Superior de Cuba (MES), careca en el ao 2005 de un sistema informatizado para la organizacin de los procesos docentes, dificultndose la existencia de un mecanismo de control de los estudiantes en los centros universitarios, as como en el Organismo Central. La entidad tiene gran atraso lo que afecta la preparacin de datos e informes tanto para el gobierno u otros organismos [49]. Por lo que surge el proyecto nacional Sistema de Informatizacin de la Nueva Universidad (SIGENU), compuesto por varios mdulos que daran solucin a los problemas antes mencionados. El MES ha destinado en los dos ltimos aos, parte de su presupuesto al desarrollo de este proyecto.

Entre los mdulos que se priorizaron, son de primordial importancia los vinculados con la estadstica, los cuales tiene como propsito, el acceso instantneo de nuestros directivos a informacin para una toma de decisiones gil y con eficiencia en los Centros de Educacin Superior (CES) as como en el MES. Esta tesis forma parte del proyecto antes mencionado y propone la creacin de una arquitectura para los sistemas de informacin de la estadstica docente, que organice y almacene un volumen extenso de datos histricos y actuales, para el procesamiento analtico en una amplia perspectiva de tiempo y la realizacin de estudios con niveles de objetividad muy superiores a los actuales.

Es difcil solapar en un mismo sistema, el procesamiento operacional de una empresa con la toma de decisiones de la misma. El diseo de los modelos de datos operacionales es ineficiente para la toma de decisiones debido a que el propsito fundamental de los mismos es registrar las transacciones diarias que se llevan a cabo en la empresa. Existen diferencias en rendimiento, planeacin del almacenamiento, administracin de recursos y utilizacin, que impiden el procesamiento instantneo de grandes volmenes de informacin de forma gil y con eficiencia para la toma de decisiones en un modelo de datos operacional.

Se hace necesario como parte de la arquitectura, el desarrollo de un modelo de datos informacional (de solo lectura), donde se publique la informacin integra, limpia y consistente para la toma de decisiones, a partir de los datos que son registrados mediante los mdulos del SIGENU con el mayor nivel de detalle. La informacin se almacena mediante cargas peridicas

1

Introduccin

de datos. Se registra el instante de tiempo del que data la informacin, se cuenta con informacin histrica, actual lo que permite el estudio y comparacin de las mismas as como la publicacin de la informacin estadstica dentro del CES y de este hacia el Organismo Central.

La arquitectura que se propone en el trabajo, al igual que el proyecto SIGENU, es desarrollada completamente con herramientas de software libre y de cdigo abierto, respondiendo a los intereses de la direccin del gobierno cubano, estimulado por la poltica que promueve el Ministerio de la Informtica y las Comunicaciones de Cuba, as como la Oficina Nacional de Informtica, que abogan por una poltica informtica independiente tanto en instituciones, como en entidades gubernamentales.

El Objeto de Estudio lo constituye:

-

El diseo de las bases de datos para el soporte en el proceso de la toma de decisiones. Las tcnicas y herramientas para la construccin y despliegue de una arquitectura Data Warehouse.

-

Los procesos de extraccin, transformacin y carga de datos desde los sistemas fuentes al Data Warehouse.

-

Los procesos de la gestin acadmica y la informacin estadstica docente de la Educacin Superior en Cuba.

El Campo de Accin de este trabajo se centrar en:

-

El Modelo Multidimensional como disciplina de diseo de las bases de datos para el procesamiento analtico.

-

La utilizacin de UML para etapas especficas en un proyecto Data Warehouse. Estudio y comparacin de herramientas propietarias y libres para el desarrollo de un Data Warehouse.

-

Integracin de herramientas libres que permitan el desarrollo completo de un proyecto Data Warehouse.

-

Anlisis de los modelos y tablas para el apoyo en el proceso de toma de decisiones en la esfera docente, en los Centros de Ecuacin Superior y en el Organismo Central.

2

Introduccin

-

Los procesos docentes de Matrcula, Evaluacin, Bajas y Graduados que se gestionan a travs del SIGENU.

La Situacin Problemtica se caracteriza por:

-

La informacin estadstica se recoge, se integra y se procesa de forma manual en la mayora de los CES as como en el MES, lo que hace que el proceso sea ms lento y propenso a errores desde las fuentes primarias [46].

-

Desgaste fsico de las secretarias docentes, estadsticos de los CES y estadsticos del MES debido a revisiones de datos exhaustivas.

-

Se emplea mucho tiempo en la recopilacin de la informacin, por lo que esta no se entrega a tiempo [46].

-

Las cifras reportadas no ofrecen total confiabilidad [49]. En los CES donde existe un sistema automatizado para la emisin de los reportes estadsticos docentes, se ofrecen la informacin actual, no se puede retomar a travs del sistema, estadsticas de instantes de tiempos anteriores ni establecer comparaciones entre datos de diferentes fechas; los reportes que se brindan no cumplen con el formato definido por el Organismo Central.

-

El anlisis de los datos a nivel ministerial es insuficiente, solo se cuenta con series histricas de la matrcula e informaciones totalizadas con alto niveles de agregacin, no se tiene informacin detallada del estudiante lo que impide la realizacin de tareas como estudios investigativos de tendencia de la matrcula, desempeo docente entre estudiantes de distintos aos, distintas carreras, CES etc. [49].

A partir de lo anterior se puede definir como Problema a Resolver que:

El MES no cuenta con una estructura para el apoyo en la toma de decisiones del rea docente que responda en tiempo a los intereses de los directivos.

3

Introduccin

Como Hiptesis se formula que:

El desarrollo de una arquitectura para la toma de decisiones en la esfera docente del MES, permitir el procesamiento analtico de informacin histrica, actual, agregada y nominalizada en correspondencia con las necesidades de informacin de todos los niveles de direccin.

El Objetivo General de esta tesis es:

Desarrollar una arquitectura para los sistemas de informacin de la estadstica docente, que facilite la toma de decisiones en la esfera docente del MES.

Para dar cumplimiento al Objetivo General enunciado se plantean como Objetivos Especficos:

-

Disear la arquitectura para la toma de decisiones en la esfera docente del MES. Disear los modelos de datos necesarios para la toma de decisiones. Extraer y transformar la informacin a partir de la base de datos de control docente de los CES a una base de datos para la toma de decisiones del mismo.

-

Integrar las bases de datos para la toma de decisiones de los CES en una nica base de datos en el MES.

-

Desarrollar el Mdulo de Estadstica del CES Desarrollar el Mdulo de Estadstica del MES Desarrollar una aplicacin Web que permita un rpido acceso y una amplia gama de informacin docente actual e histrica, a los directivos.

Para lograr los objetivos se llevaron a cabo las siguientes Tareas:

1. Realizar un estudio del estado de arte de las tecnologas para el desarrollo de sistemas para el soporte a la toma de decisiones. 2. Determinar los gestores de bases de datos libres adecuados, de acuerdo a las caractersticas del proyecto. 3. Estudiar los servidores y herramientas de consultas OLAP libres y de cdigo abierto.

4

Introduccin

4. Estudiar las propuestas de UML Warehouse.

para etapas especficas en un proyecto Data

5. Identificar los requerimientos de informacin de la estadstica docente en un CES. 6. Definir conjuntamente con el departamento de estadsticas del MES, los formatos de los reportes estadsticos-docentes oficiales que se emiten en un CES. 7. Identificar los requerimientos de informacin de la estadstica docente en el Organismo Central. 8. Definir los formatos de los reportes estadsticos-docentes oficiales que se emiten en el MES. 9. Disear los modelos de datos para el soporte a la toma de decisiones en el CES y en el MES para el proceso de matrcula. 10. Definir el proceso de extraccin, limpieza y transformacin para el proceso de matrcula. 11. Determinar las caractersticas de software (sistema operativo) y hardware ptimas para el despliegue de la arquitectura. 12. Implementar el Mdulo de Estadstica del CES 13. Implementar el Mdulo de Estadstica del MES 14. Desarrollar una aplicacin Web para el acceso instantneo a los reportes estadsticos docentes fundamentales y la realizacin de procesamiento analtico en lnea sobre los modelos de datos para el soporte a la toma decisiones.

Este trabajo tiene como Valor Prctico:Responde a los intereses del MES, de desarrollar un nuevo modelo de la estadstica y la informacin, sustentado en las nuevas tecnologas de la informtica y las

comunicaciones. Aporta la elaboracin de una herramienta capaz de brindar de una manera gil y confiable las estadsticas y las informaciones, con su correspondiente procesamiento automatizado de recopilacin, almacenamiento y presentacin a los niveles de direccin para la toma de decisiones. Brinda un marco de trabajo para la realizacin de un proyecto de Data Warehousing con herramienta libres y de cdigo abierto, por lo que ser una alternativa a considerar en el desarrollo de este tipo de proyecto, que implementado en herramientas propietarias es de un alto costo.

5

Introduccin

La Novedad Cientfica se expresa en los siguientes aportes:

1. Se desarrolla la arquitectura para el soporte a la toma de decisiones de la esfera docente, en la Educacin Superior de Cuba. 2. Se podr contar en el Organismo Central, con la informacin agregada y nominalizada de todos los estudiantes de los CES adscriptos al mismo. 3. Se establecen las fuentes de datos para la realizacin de estudios futuros, que permitan el descubrimiento de conocimiento oculto que servir de apoyo a la toma de decisiones con niveles de objetividad muy superiores a los actuales. 4. Se desarrolla un proyecto completo de Data Warehouse con herramientas libres y de cdigo abierto.

El presente trabajo se encuentra estructurado en tres captulos. En el primer captulo se hace un estudio del estado del arte acerca de los campos de investigacin, donde se explican los conceptos fundamentales vinculados a los sistemas para el soporte a la toma de decisiones de la empresa. En el segundo captulo se describe los antecedentes y se desarrolla la propuesta de arquitectura. En el tercer captulo, se documentan los componentes de software desarrollados y el despliegue de la arquitectura.

6

Captulo I. Fundamentos tericos.

CAPTULO I. FUNDAMENTOS TERICOSIntroduccinEste captulo presenta un estudio del estado actual de la tecnologa Data Warehousing como arquitectura base para los Sistemas de Soporte para la Toma de decisiones. Se describen las caractersticas del modelo dimensional como disciplina de diseo de bases de datos y sus diferencias con el modelo Entidad-Relacin. Se establece una comparacin entre gestores de bases de datos libre. Se expresan las ventajas de la utilizacin del procesamiento Analtico en Lnea. Se exponen el papel que desempean las nuevas tecnologas de la Informtica y las Comunicaciones para el desempeo de la Educacin Superior en Cuba.

1.1 Sistemas de apoyo a la toma de decisionesLos sistemas de apoyo para la toma de decisiones, son sistemas que ayudan en el anlisis de informacin de negocios [9], sirven a la direccin de la organizacin para la toma de decisiones semiestructuradas o no estructuradas, combinando datos y modelos de anlisis [15]. Su propsito es ayudar a la administracin para que marque tendencias, seale problemas y tome decisiones inteligentes [13]. La idea principal es la recoleccin de datos operacionales del negocio transformndolos a una estructura ms slida para analizar el comportamiento de los mismos.

Cuando una organizacin carece de Decision Support Systems (DSS), los tiempos dedicados a construir la informacin requerida se transforman en un problema en s mismo, obligando a que para cada requerimiento se deba obtener los datos brutos y transformarlos en informacin. Los DSS atacan este problema facilitando el acceso a la informacin a usuarios no tcnicos [14]. Consideramos que la tecnologa de un DSS es adecuada si permite [6]: Considerar ms facetas de una decisin. Generar mejores alternativas. Responder rpidamente ante determinadas situaciones. Resolver problemas complejos. Considerar ms opciones para resolver un problema. Inspirar soluciones. Utilizar mltiples anlisis para resolver un problema.

7

Captulo I. Fundamentos tericos.

-

Implementar variados estilos de decisin y estrategias.

Las base de datos para el apoyo a la toma de decisiones muestran caractersticas especiales, de las cuales sobresale, que la informacin que se registra es fundamentalmente de solo lectura [9]. Por lo general la actualizacin queda limitada a operaciones de cargas peridicas (insercciones), las eliminaciones de datos sea realizan espordicamente, cuando existe informacin histrica que ya no se utiliza, y, por lo general, no se elimina del todo se pasa a otro soporte de almacenamiento teniendo la posibilidad de volver a ser retomada . En algunas ocasiones se realizan actualizaciones en determinadas tablas de trabajo auxiliares, pero el proceso casi nunca actualiza la propia base de datos para el apoyo a la toma de decisiones.

El apoyo para la toma de decisiones, no es parte de la tecnologa de base datos por si misma, sino, la combinacin de varias aplicaciones de esta tcnica. Las aplicaciones reciben los nombres de Data Warehouse, Datamart, Almacn de datos operacionales, OLAP

(Procesamiento Analtico en Lnea) y Minera de Datos entre otros [9].

1.1.1 Data WarehouseLos datos del procesamiento diario de las empresas, se encuentran en sus sistemas operacionales. Estos sistemas se caracterizan por tener requerimientos de rendimientos estrictos, cargas de trabajo predecibles, alta utilizacin entre otras. Por otro lado, los sistemas de apoyo a la toma de decisiones tienen por lo general cargas de trabajo impredecibles, requerimientos de rendimientos variantes, grandes unidades de trabajo [9]. Adems, el diseo de las bases de datos operacionales es ineficiente para el procesamiento de los datos de forma rpida y sencilla. Estas divergencias hacen que sea imposible solapar en un mismo sistema el procesamiento operacional con la toma de decisiones de la empresa, fundamentalmente por restricciones de rendimiento, planeacin del almacenamiento y administracin de recursos; dando paso al surgimiento del Data Warehouse, un tipo de base de datos especial [9].

Un Data Warehouse (DW) es una base de datos corporativa cuya informacin en la mayora de los casos proviene de entornos operacionales. Estos datos se transforman y se almacenan en una estructura que permite realizar consultas en forma rpida y flexible y brinda grandes posibilidades para la toma de decisiones. Existen dos paradigmas en el campo del Data Warehousing, el paradigma de Bill Inmon y el paradigma de Ralph Kimball, ambos conocidos como los padres del Data Warehouse.

8

Captulo I. Fundamentos tericos.

El paradigma de Inmon: La tecnologa Data Warehouse, forma parte de los sistemas de inteligencia de negocio. Una empresa debe tener un Data Warehouse y varios Datamart que se nutran de la informacin del Data Warehouse. En un Data Warehouse la informacin puede estar almacenada en 3ra Forma Normal [16].

El paradigma de Kimballs: Un Data Warehouse es la unin de todos los Datamart de las diferentes reas de una empresa. La informacin en el mismo se almacena siguiendo un modelo dimensional [16].

Ambos paradigmas constituyen diferentes filosofas de las caractersticas y principios de diseo de un Data Warehouse. Se considera que el paradigma de Ralph Kimball, se ajusta ms a la evolucin y la tendencia en la forma de implementacin actual de esta tecnologa; son ms los proyectos que comienzan con Datamart y luego se convierten en Data Warehouse que los que empiezan directamente como Data Warehouse, el modelo dimensional, se ha convertido en disciplina de diseo para la elaboracin de las bases de datos para los sistemas de informacin.

De esta misma forma, existen muchas definiciones de Data Warehouse de distintos autores, una de las ms reconocida, es la definida por Inmon en 1992: "Un Data Warehouse es una coleccin de datos orientados a temas, integrados, no-voltiles y variante en el tiempo, organizados para soportar necesidades empresariales". Orientado a temas: la informacin se clasifica en base a los aspectos que son de inters para la organizacin. Integrados: la informacin debe formatearse y unificarse para llegar a un estado coherente. Variante en el tiempo: Representan un valor en un momento concreto. No voltil: En el Data Warehouse se realiza fundamentalmente dos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No se realiza actualizacin de datos en el depsito, como una parte normal de procesamiento. Se puede caracterizar un Data Warehouse a travs del contraste que existe entre los datos de un negocio que este almacena y los datos operacionales usados por las aplicaciones de produccin. En la tabla 1.1 se evidencia estas diferencias: [35]

9

Captulo I. Fundamentos tericos.

Tabla 1.1 Algunas diferencias entre los datos operacionales y los que almacena un Data Warehouse. Base de Datos Operacional Datos Operacionales Orientado a la aplicacin Actual Detallada Cambia continuamente Data Warehouse Datos del negocio para Informacin Orientado al sujeto Actual + histrico Detallada + ms resumida Estable

Se puede concluir que Data Warehousing es el centro de la arquitectura para los sistemas de informacin. Soporta el procesamiento informtico al proveer una plataforma slida que permite realizar anlisis a partir de los datos histricos. Facilita la integracin de sistemas de aplicacin no integrados. Organiza y almacena los datos que se necesitan para el procesamiento analtico sobre una amplia perspectiva de tiempo. Un proyecto Data Warehousing no es solamente el diseo de una base de datos con caractersticas especiales sino todo el conjunto de herramientas y procedimientos desde el poblado de la misma, a partir de los sistemas transaccionales, la transformacin y estandarizacin de los datos, la fijacin temporal del datos; as como toda la infraestructura para la consulta, el anlisis en lnea y el anlisis detallado de tendencias mediante el uso de tcnicas de minera de datos.

10

Captulo I. Fundamentos tericos.

Figura 1.1 Esquema Global de un Proyecto Data Warehousing

1.1.2 DatamartLos DW proporcionan fuentes de datos nicas para las actividades de apoyo de toma de decisiones. A veces, se necesitaba realizar amplias operaciones de anlisis e informes sobre un subconjunto de informacin especfico dentro del DW o de la empresa; la ejecucin de tales operaciones repetidas sobre el mismo subconjunto de todo el almacn no era muy eficiente, por lo que surge la idea de construir un tipo de almacn limitado de propsito especfico que proporcionara un acceso ms rpido a los datos que si tuvieran que ser sincronizados con todos los dems datos del DW. Estas consideraciones condujeron al trmino de Datamart [9].

Existen discrepancias en la definicin del trmino Datamart. Algunos autores lo definen como un almacn de datos especializados, orientado a un tema, integrado, voltil; donde el trmino voltil significa que los datos pueden ser actualizados e incluso borrados y especializado que los datos pertenecen a un rea especfica [9]. Otros autores mantienen el mismo concepto de la definicin de DW con la nica diferencia que se ajusta a un tema en particular, este enfoque plantea que un Datamart es un Data Warehouse departamental.

11

Captulo I. Fundamentos tericos.

En este trabajo se adopta la definicin de que se puede ver como un

Data Warehouse

departamental. Los Datamart se ajustan mejor a las necesidades que tiene una parte especfica de un departamento o rea, ms que a las de toda una empresa u organizacin. Optimizan la distribucin de informacin til para la toma de decisiones y se enfocan al manejo de datos resumidos o de muestras, ms que a la historia presentada con detalle. De igual forma, no necesitan ser administrados centralmente por el departamento de sistemas de una organizacin, sino que pueden estar a cargo de un grupo especfico dentro del rea de la organizacin o del que los utilice.

La creciente popularidad de los Datamart se basa en varias razones. Por un lado disminuyen significativamente el costo de creacin y de operacin. Adems se puede llegar a prototipos rpidamente y obtener sistemas completamente desarrollados e implementados en un perodo de tiempo razonable. Tienen un alcance ms limitado que el de un DW, ya que se concentran en un conjunto concreto de necesidades. Esto ltimo hace que los Datamart sean ideales para trabajar con objetivos y equipos de trabajo precisos. Estos son diseados para satisfacer las necesidades especficas de grupos comunes de usuarios la informacin que se almacena tiene un propsito ms especifico que la de un DW, ya sea por divisiones geogrficas, divisiones organizacionales, perodos de tiempo no muy grande etc.

1.1.3 Extraccin, Limpieza, Transformacin y CargaLos procesos que desencadenan y hacen posible la explotacin de un almacn de datos, son los de obtencin y preparacin de la informacin a partir de los diversos sistemas fuentes con los que cuenta la empresa. Estos sistemas, por lo general, son sistemas desarrollados en fuentes de datos heterogneas con diferentes tecnologas (ficheros textos, ficheros binarios, hojas de clculos, bases de datos relacionales, Datamart entre otras) [1]. Los datos se extraen, se limpian, se consolidan y son cargados al Data Warehouse Informacional de forma peridica este conjunto de tareas reciben el nombre de proceso ETL (Extraction, Load and Transformation). Cada una de estas operaciones tienen carcterticas particulares: La extraccin, es el primer paso, es la captura de la informacin a partir de los sistemas fuentes hacia el ambiente Data Warehouse. El programa de extraccin tiende a ser intensivo por lo que puede interferir en operaciones de misin crucial [9], por esta razn es necesario la realizacin de un programa de extraccin que tenga en cuenta esta problemtica, por lo general se realiza en los horarios que existe menos carga de trabajo en los sistemas transaccionales de la empresa.

12

Captulo I. Fundamentos tericos.

La limpieza es necesaria, debido a que pocas fuentes de datos controlan adecuadamente la calidad de la informacin por lo que es necesario la realizacin de este proceso antes de ser introduccidos en el Data Warehouse. Las operaciones de limpieza fundamentales abarcan el llenado de valores faltantes, la correcin de errores tipogrficos y otros de captura de datos, el establecimiento de abreviaturas y formatos estndares, el remplazo de sinnimos por identificadores estndares, etctera [9].

El proceso de limpieza de datos permite descubrir errores y las causas que los producen en los sistemas transaccionales, por consecuente ayuda a mejorar la calidad de los datos desde los orgenes siendo revisor de los procesos de negocios que ocurren en estos.

Aunque se halla realizado un proceso de limpieza de datos, puede que los datos no se encuentren en la forma ptima requerida, por lo que se debe llevar a cabo la transformacin de los mismos, este proceso se realiza con mayor frecuencia en los casos en que es necesario mezclar varias fuentes de datos y tiene el nombre de consolidacin . Como resultado, la transformacin, puede involucrar la divisin o combinacin de registros fuentes, el establecimiento de convenciones de nombres entre distintas fuentes, los vnculos de datos implcitos entre fuentes distintas deben volverse explcitos, las fechas y horas asociadas con el significado que tienen los datos en los negocios, deben ser mantenidas y correlacionadas entre fuentes, este proceso recibe el nombre de sincronizacin [9]

La carga es el proceso final, es el movimiento de los datos hacia el Data Warehouse informacional una vez que estos se encuentran transformados, consistentes e integros. Por lo general, en este momento el Data Warehouse debe dejar de funcionar para realizar la poblacin de forma eficiente, de otra forma, se puede poner en funcionamiento un Data Warehouse espejo en el momento en que la poblacin de datos se encuentra en progreso [36].

1.1.4 Herramientas de Extraccin, Transformacin y LimpiezaComo soporte para el desarrollo de los procesos ETL, existe una categora de herramientas de software, llamadas herramientas ETL que se utilizan con la finalidad de expandir las

13

Captulo I. Fundamentos tericos.

funcionalidades de estos procesos y proveer al equipo de desarrollo un marco de trabajo para este propsito. Normalmente los usuarios no tiene interaccin con estas herramientas. En cambio, ellos vern slo el producto final, datos depurados, consistentes, e integrados que son entregados en el momento en que los necesitan [17]

Entre las principales herramientas ETL que existen en el mercado se encuentran Microsoft SQL Server 2000 Data Transformation Services (DTS), Oracle Data Warehouse Builder y Cognos DecisinStream [17].

Microsoft DTS, provee un conjunto de herramientas con poderosas utilidades grficas y objetos programables que permite extraer, transformar y consolidar datos desde dismiles fuentes de datos a unos o varios destinos. Tareas, operaciones de flujos de trabajo y restricciones pueden ser encapsuladas dentro de un paquete DTS que puede ser programado para que se ejecute de forma peridica o dado la ocurrencia de ciertos eventos [20].

Los paquetes DTS pueden ser salvados como cdigo Visual Basic bsico, simplificando el desarrollo de los mismos a travs de interfaces programticas. Adems de poder usarse con el controlador de versiones Visual SourceSafe, este posee un mtodo alternativo de controlador de versiones y respaldo [21].

Oracle Data Warehouse Builder, permite la extraccin, transformacin y carga de datos de fuentes de datos heterogneas. Es una herramienta de diseo de inteligencia empresarial de negocios que maneja el ciclo de vida completo de datos y metadatos integrados para bases de datos Oracle, incluyendo diseo dimensional y reporte e integracin de la informacin con herramientas como Oracle 9iAS Discoverer, Oracle Workflow y Oracle Enterprise Manager [18].

Cognos DecisionStream, trabaja con datos en cualquiera de los formatos relacionales tradicionales, fuentes de datos ERP, formatos de archivo planos o datos accesibles por la interfase de protocolos. Como resultado de la integracin de datos de DecisionStream, el software puede entregar resultados en una variedad de formatos, tales como reas de trabajo dimensionales, tablas relacionales, o los usuarios pueden mover y copiar datos de un ambiente a otro. Simplifica las actividades de extraccin, transformacin y carga (ETL) de datos trabajando desde una simple interface con presentaciones grficas, posibilitando una fcil exploracin para mostrar y modificar propiedades [19].

14

Captulo I. Fundamentos tericos.

A continuacin se presentarn los proyectos principales de software libre de esta categoa estudiados:

Kettle, es la herramienta ETL desarrollada para la suite de inteligencia de negocio libre y de cdigo abierto Pentaho. Esta herramienta ha tenido gran aceptacin en la comunidades de desarrolladores de software libre. Sus principales caractersticas son [55].

Poblacin de Data Warehouse con soporte para slowly changing dimensions. Exportacin de bases de datos para ficheros y otras base de datos Importacin de datos desde bases de datos, ficheros Excel, CSV, XM. Migracin de datos entres gestores de bases de datos. Exploracin de datos en bases de datos existentes (tablas, vistas, etc.) Limpieza de datos aplicando condiciones complejas en las transformaciones de los datos Integracin de Aplicaciones Soporta las plataformas Windows, Linux, Apple, Solaris, AIX, HP-UX y FreeBSD

Clover.ETL, es un herramiente desarrollada en Java. Pemite la conexin a gestores de bases de datos y ficheros textos. Es independiente de plataforma de software. Puede ser utilizada como una aplicacin Stand-Alone ejecuntndose desde la lnea de comando aplicacin. [54]. o embebida en otra

Se considera que de las herramientas anteriores, la mejor alternativa para la implementacin del proceso ETL de un proyecto Data Warehouse es Kettle, no obstante, no se utilizar ninguna de las herramientas antes mencionadas. El equipo de desarrollo del proyecto SIGENU se encuentra desarrollando una herramienta denominada ETLDW programada en la plataforma java y describe mediante un fichero XML la transformacin y el mapeo de datos de base de datos origen a destino, esta tiene implementaciones a la medida de los requerimientos que se necesitan.

15

Captulo I. Fundamentos tericos.

1.2 Modelo DimensionalEl modelo multidimensional dentro del entorno de las bases de datos, es una disciplina de diseo que se sustenta en el modelo entidad relacin y en las realidades de la ingeniera de texto y datos numricos. [3]

Modela las particularidades de los procesos que ocurren en una organizacin, dividindolos en mediciones y entorno. Las medidas son, en su mayoras medidas numricas, y se le denomina hechos. Alrededor de estos hechos existe un contexto que describe bajo qu condiciones y en qu momento se registr este hecho. Aunque el entorno se ve como un todo, existen registros lgicos de diferentes caractersticas que describen un hecho, por ejemplo, si el hecho al que se hace referencia es la venta de un producto en una cadena de tiendas, se podra dividir el entorno que rodea al hecho de la cantidad vendida, en el producto vendido, el cliente que lo compr, la tienda y la fecha en que se realiz la venta. A estas divisiones se le denomina dimensiones y a diferencia de los hechos que son numricos, estos son fundamentalmente textos descriptivos.

Figura 1.2 Esquema estrella que representa las ventas de una cadena de tiendas Las medidas, como se expres anteriormente, se registran en las tablas de hechos, siendo la llave de esta tabla, la combinacin de las mltiples llaves forneas que hacen referencia a las

dimensiones que describen la ocurrencia de este hecho, en otras palabras, cada una de las llaves extranjeras en las tablas de hecho se corresponden con la llave primaria de una dimensin.

1.2.1 Diferencias frente al modelo Entidad-RelacinEl modelo Entidad-Relacin (MER) es una tcnica poderosa para el diseo de sistemas transaccionales en el entorno de las bases de datos relacionales. Permite la normalizacin de la

16

Captulo I. Fundamentos tericos.

estructura de datos fsica, obtenindose un diseo sin redundancias en lo datos y ocupndose el menor espacio de almacenamiento. Sin embargo, no contribuye en la habilidad del usuario en el momento de consultar la base de datos. Una tcnica mucho ms poderosa para la interrogacin de los datos, es el modelo dimensional o multidimensional (MMD) [2].

El MMD, es mucho menos riguroso en cuanto a organizacin, permitiendo a analistas y diseadores ms flexibilidad en el diseo, para lograr un mayor desempeo y optimizar la

recuperacin de la informacin, desde un punto de vista ms cercano al usuario final.

No es una tarea fcil transformar un modelo ER en un MMD an cuando los datos que se modelan son los mismos. Ambos enfoques tienen diferentes puntos de partida, se emplean tcnicas distintas y producen resultados de diseo de bases de datos desiguales.

El MMD produce una base de datos que es simple de navegar y encuestar. Existen menor cantidad de tablas y relaciones en este, que en el MER, el cual tiene cientos de tablas relacionadas entre s y existen diferentes caminos para obtener una misma informacin. Desde la perspectiva del usuario final un MER resulta prcticamente inusable. [2]

1.2.2 Tablas de HechosLas tablas de hechos, representan los procesos que ocurren en la organizacin, son independientes entre s (no se relacionan unas con otras). En estas, se almacenan las medidas numricas de la organizacin. Cada medida, se corresponde con una interseccin de valores de las dimensiones y generalmente se trata de cantidades numricas, continuamente evaluadas y aditivas. La razn de estas caractersticas, es que facilita que los miles de registros que involucran una consulta, sean comprimidos ms fcilmente y se pueda dar respuesta con rapidez, a una solicitud que abarque gran cantidad de informacin.

La llave de la tabla de hecho, es una llave compuesta, debido a que se forma de la composicin de las llaves primarias de las tablas dimensionales a las que est unida. Se pueden distinguir dos tipos de columnas en una tabla de hecho, columnas de hechos y columnas llaves. Las columnas de hecho almacenan las medidas del negocio que se quieren controlar y las columnas llaves, forman parte de la llave de la tabla.

17

Captulo I. Fundamentos tericos.

Existen tablas de hechos que no contienen medidas, a estas tablas se les denomina tablas de hechos sin hechos [8]. La semntica de la relacin entre las dimensiones que definen la llave de esta tabla de hecho implica por si sola la ocurrencia de un evento, por ejemplo, se quiere representar el hecho de que un estudiante matricul en una universidad, la combinacin de las siguientes dimensiones definira este suceso: el estudiante matriculado, la carrera en que

matricul, la fecha de matrcula, el tipo de curso que va a cursar entre otros atributos.

1.2.3 Tablas de DimensionesUna tabla de dimensin contiene por lo general, una llave simple y un conjunto de atributos que describen la dimensin. En dependencia del esquema multidimensional que se siga, pueden existir atributos que representen llaves forneas de otras tablas de dimensin, es decir, que establecen una relacin de esta tabla con otra dimensin. Las tablas de dimensin, son las que alimentan a las tablas de hechos, como se expres anteriormente, la llave de un hecho es la composicin de las llaves de las dimensiones que estn conectados a esta, por tanto los atributos que conforman las tablas de dimensiones tambin describen el hecho.

Los atributos dimensionales son fundamentalmente textos descriptivos, estos juegan un papel determinante porque son la fuente de gran parte de todas las necesidades que deben cubrirse, adems, sirven de restricciones en la mayora de las consultas que realizan los usuarios. Esto significa, que la calidad del modelo multidimensional, depender en gran parte de cuan descriptivos y manejables, sean los atributos dimensionales escogidos. [5]

Las tablas de dimensin, en general, son muchos ms pequeas que las tablas de hecho en cuanto a cantidad de registro. En cuanto a cantidad de atributos, una tabla de hecho bien descriptiva puede tener un gran nmero de estos.

Un Data Warehouse debe aceptar la responsabilidad de describir el pasado con precisin. En un sistema operacional normalmente si se produce un cambio, se sobrescribe el nuevo valor en el registro y se pierde el anterior. Cuando se quiere mantener las trazas de lo que ha ocurrido en el entorno multidimensional, por lo general, ocurren cambios en la dimensiones, se debe mantener almacenado el valor anterior y registrar el nuevo valor. A este fenmeno se le conoce como pequeos cambios en la dimensiones [5]. En estos casos se debe prestar especial atencin pues las tablas de dimensiones pueden crecer en el nmero de registros y afectar el rendimiento.

18

Captulo I. Fundamentos tericos.

La dimensin ms importante de un Data Warehouse, es la dimensin tiempo. Cada hecho que se registra en un tabla de hecho, tiene asociado una marca de tiempo, es decir, en que momento ocurri este hecho. Esto permite el almacenamiento y anlisis histrico de la informacin. La insercin de datos, en la base de datos multidimensional, se hace por intervalos de tiempo, lo cual asegura un orden implcito [6].

1.2.4 Esquemas ms comunes para el modelo multidimensionalExisten varios esquemas para el modelado de los datos en un Data Warehouse, los esquemas ms usados son:

Esquema estrella: Es un paradigma de modelado que tiene un solo objeto en el medio conectado con varios objetos de manera radial. El objeto en el centro de la estrella es la Tabla de Hechos y los objetos conectados a ella son las Tablas de Dimensiones. Las tablas de dimensiones solo

se relacionan con la tabla de hechos, es decir no existen relaciones entre estas [7].Esquema copo de nieve: El esquema copo de nieve es una extensin del esquema estrella en donde cada una de las puntas de la estrella puede dividirse en ms puntas. En esta forma de esquema, las tablas de dimensin pueden tener relacin con otras tablas de dimensin.

La ventaja fundamental que proporciona este esquema, es que se ocupa menor espacio de almacenamiento, sin embargo, aumenta el nmero de tablas con las que el usuario debe interactuar e incrementa la complejidad de las consultas a realizar. El esquema estrella nos proporciona mayor compresin, navegabilidad, es ms cercano a como el usuario final refleja la visin de una consulta empresarial. Consideramos que de ser posible, se emplee un esquema estrella antes que un copo de nieve, justificndose la utilizacin de mayor espacio de almacenamiento, en la disminucin del tiempo de obtencin de la informacin que se necesita.

19

Captulo I. Fundamentos tericos.

Figura 1.3: Esquema copo de nieve donde se observa la relacin entre las dimensin Cliente y Provincia

1.2.4 UML para el Modelo DimensionalEl Lenguaje de Modelado Unificado (UML) es un lenguaje para la visualizacin, especificacin, construccin y documentacin de los artefactos en los sistemas en que el software juega un papel importante [11]. UML es un lenguaje de modelado, no un mtodo, es la notacin grafica fundamental usadas en los mtodos para expresar diseo [12], es la llave para la comunicacin [12].

La combinacin de los conocimientos en el modelado estandar orientado a objetos con el modelado estandar dimensional permiten la descripcin semntica del modelado

dimensiona[38]l. UML para el modelo dimensional incluye extensiones de este lenguaje que nos permite de forma utl, representar las propiedades estructurales y dinmicas de estos sistemas a nivel conceptual [37][41] [10].

Cuando nos enfrentamos a un proyecto Data Warehouse, el uso de UML puede reportar grandes beneficios en:

La descripcin de los sistemas fuentes, o la parte de estos que ser empleada. Los procesos ETL que se llevarn a cabo. Los modelos de datos o esquemas multidimesionales que se definan. Las aplicaciones Front-End con las que interacta el usuario final.

20

Captulo I. Fundamentos tericos.

1.3 Sistemas de Gestin de Bases de DatosLa categora de software que permite el procesamiento de los datos almacenados en una o varias bases de datos, por uno o mltiples usuarios de forma concurrente, recibe el nombre de Sistema de Gestin de Bases de Datos (SGBD). Es un sistema computarizado cuya finalidad general es almacenar informacin y permitir a los usuarios recuperar y actualizar esa informacin con bases en peticiones. La informacin en cuestin puede ser cualquier cosa que sea de importancia para el individuo u organizacin; en otras palabras, todo lo que sea necesario para auxiliarse en el proceso general de su administracin [39].

El objetivo fundamental de un SGBD consiste en suministrar al usuario las herramientas que le permitan manipular, en trminos abstractos, los datos, o sea, de forma que no le sea necesario conocer el modo de almacenamiento de los datos ni el mtodo de acceso empleado [40].

Los sistemas transaccionales, operan sobre los datos almacenados en la bases de datos operacionales a travs de las funcionalidades que brindan los SGBD, los que, en la mayora de los casos, poseen lenguajes de manipulacin de la informacin que facilitan el trabajo de los usuarios [40]. Un estndar para la manipulacin de los datos almacenado en la bases de datos lo constituye el lenguaje estructurado de consulta SQL implementado en gran cantidad de gestores.

Tanto los sistemas de gestin que registran las transacciones diarias de la empresas, como los Data Warehouse que tienen como fuentes de datos fundamentales estos sistemas transaccionales, almacenan sus datos para ser procesados y brindar soporte a la toma de decisiones respectivamente en Gestores de Bases de Datos.

Este trabajo responde a una poltica de diseo de software con herramientas libres por lo que el gestor de bases de datos ha utilizar debe ser un gestor libre. El volumen de datos que almacena un Data Warehouse es considerablemente grande, los tiempos de respuesta a las consultas que realizan los usuarios deben de ser pequeos, la cantidad de usuarios que harn uso de esta informacin se incrementa con el tiempo, por lo que se necesita un gestor de bases de datos robusto que responda a estas necesidades.

1.3.1 Servidores de Bases de Datos Libres21

Captulo I. Fundamentos tericos.

Este epgrafe, se centrar en la comparacin de los dos gestores de bases de datos libres que resultan lderes en las comunidades de usuarios que desarrollan productos con este requisito. Se justificar el gestor escogido para el desarrollo del proyecto.

Se comenzar con una tabla comparativa donde se muestran semejanzas y diferencias en algunas de la carcteristicas que cumplen estos gestores de bases de datos.

Tabla 1.2: Comparacin de los Gestores de Base de Datos Libres MySQL y PostgreSQL Carcterstica Multiplataforma MySQL Linux, Solaris,Unix, FreeBSD, Windows [42] PostgreSQL Solaris, SunOS, HPUX, Linux, Iris, FreeBSD y Windows [42]

Objeto Relacional Vistas Procedemientos Almacenados Disparadores (Triggers) Transacciones Integridad Referencial (Relacin entre llaves extranjeras) Integridad Referencial (Reglas) Fuciones definidas por el usuario Dominios definidos por el usuarios Usuarios Concurrentes Velocidad en las consultas

Incluidas en la ltima versin [43] Incluidas en la ltima versin [43] Incluidas en la ltima versin [43]

Mayor velocidad en las consultas cuando la base de datos no es tan grande

Mayor velocidad en las consultas cuando la base de datos almacena grande volmenes de informacin [42] C API JDBC Pascal API PHP API TCL API C++ API ODBC Perl DBI API Python API Delphi API

Interfaces y Clientes

[42]

LIBPQ, LIBPQEASY ECPG and LIBPQ++ for C++ ODBC TCL Python Ruby JDBC Perl PHP Delphi

22

Captulo I. Fundamentos tericos.

Consumo de recursos (microprocesador, memoria)

Menor (es un gestor ms ligero)

mayor

Ambos gestores de bases de datos son estables y con respaldo en comunidades de programadores para su posterior desarrollo. Las nuevas versiones de los mismos, han establecidos niveles de prestaciones muy similares, aunque existe diferencias que permiten considerar a PostgreSQL el ms adecuado para el propsito de este trabajo: Ofrece ms funcionalidades y tiene mayor experiencia en mdulos que fueron incluidos en MySQL recientemente. Es ms adecuado para la compilacin de complejos modelos de datos [42]. Debido a que es un servidor Objeto-Relacional permite el desarrollo de: Un proceso de Ingeniera de software con herramientas CASE mucho ms adecuado. Bases de datos objeto-relacionales y orientadas a objetos en el entorno libre.

Manipula mayor cantidad de usuarios concurrentes . Agregacin en memoria usando tablas de hashing para hacer que las consultas de data-warehousing y OLAP sean ms rpidas [44]. Implementa mdulos adicionales para el trabajo con cubos en el entorno multidimensional. Soluciones de bsqueda e indexado de textos similares a gestores propietarios [44]. Mayor soporte de los estndares SQL 92 y SQL 99 que MySQL.

23

Captulo I. Fundamentos tericos.

1.4 Procesamiento Analtico en LneaEl Procesamiento Analtico en Lnea (OLAP) introducido por Edgar F. Codd, puede ser definido como el proceso interactivo de crear, mantener, analizar y elaborar informes sobre datos y los datos son manejados y percibidos como si estuvieran en un arreglo multidimensional [9], es una categora de las tecnologas de software, que permite que analistas, directores y ejecutivos adquieran la habilidad de comprender, sacar provecho de los datos de la organizacin de forma rpida, consistente, con un acceso interactivo a gran cantidad de posibles vistas de informacin que han sido transformadas a partir de datos detallados a datos que reflejan las dimensiones reales de la empresa y que son claramente entendidos por el usuario[22].

OLAP es implementado en un modelo cliente-servidor multiusuario que ofrece respuestas rpidas y consistentes a consultas, ayuda a los usuarios a resumir, sintetizar, predecir informacin de la empresa a travs de comparaciones, vistas personalizadas, as como, el anlisis de datos histricos y de proyecciones en escenarios de modelos de datos de qu suceder [22]. Las bases de datos utilizadas por los servidores OLAP siguen un diseo de datos dimensional, lo que permite procesamiento analtico complejo, consultas ad-hoc en rpidos instantes de tiempos. Es la tecnologa que hace posible que las aplicaciones clientes de los DW acceden a datos almacenados en el mismo eficientemente, almacenndolos en estructuras especializadas y con algoritmos diseados para optimizar el tiempo de respuesta de las consultas.

Las funcionalidades de OLAP estn caracterizadas por anlisis multidimensionales dinmicos de consolidacin de datos empresariales, usuarios finales y actividades de navegacin que son realizados a partir de imgenes instantneas a bases de datos relacionales reestructuradas en bases de datos dimensionales que se conocen como Data Warehouse.

Una alternativa descriptiva para el trmino OLAP, fue la dada por Nigel Pendse en 1995: OLAP is Fast Analysis of Shared Multidimensional Information (FASMI) [23].

1.4.1 Tipos de OLAP24

Captulo I. Fundamentos tericos.

Existen tres tipos de OLAP, Relational OLAP (ROLAP), Multidimensional OLAP (MOLAP) y Hbrido OLAP (HOLAP).

ROLAP trabaja directamente sobre un gestor de bases de datos relacional, los datos bases (las tablas de hechos y las tablas de dimensiones) son almacenados en tablas relacionales y se crean nuevas tablas para el mantenimiento de la informacin agregada [23] [50].

MOLAP es la forma ms difundida para el procesamieto OLAP. En este se almacenan las agregaciones y una copia de los datos bases que se encuentran en el gestor de base de datos relacional en un arreglo multidimensinal[24][50], una vez que se realiza la carga de datos hacia una servidor MOLAP, el motor de este es el encargado de crear los esquemas multidimensionales requeridos[23] y brindar la informacin detallada y agregada, a partir de este momento, el servidor de bases de datos queda libre hasta que se vuelvan a procesar los datos.

HOLAP combina atributos de los dos anteriores, las tablas con la informacin base las mantiene en el servidor de bases de datos relacional[23] y las agregaciones son almacenadas en una estructura multidimensional en el servidor OLAP[24] [25].

Las tres formas de almacenamiento anteriores tienen ventajas y desventajas, la utilizacin de una u otra debe ser en dependecia del problema en cuestin. La arquitectura ROLAP permite que sea ms fcil la integracin con otros sistemas de informacin relacionales [26] y con tecnologas existentes y estndares [27], es ms escalable, por lo general las respuestas a las consultas son mucho ms lentas que los otros dos, resulta eficiente cuando se emplea en grandes cantidades de datos que son poco encuestados[24] . MOLAP es mejor cuando existe menor cantidad de datos, es muy rpido calculando agregaciones y retornando peticiones. La arquitectura HOLAP ocupa menor espacio de almacenamiento que MOLAP, las respuestas que incluyen datos sumarizados son ms rpidas que ROLAP, es idone para cubo con gran cantidad de datos y que requieren de respuestas rpidas pero es ms lento que MOLAP cuando el volumen de datos no es tan grande.

1.4.2 Servidores OLAP

25

Captulo I. Fundamentos tericos.

Existen gran cantidad de fabricantes de servidores OLAP, comentaremos dos de los que se consideran lderes en el mercado en esta tecnologa que abarcan la mayora de las funcionalidades que bridan los mismos.

Microsoft Analysis Services, es un componente de SQL-Server que provee gran variedad de objetos que ayudan a implementar procesamiento analtico en lnea y soluciones de minera de datos. El objeto principal es el cubo, el cual contiene los datos analticos de inters para los usuarios finales. Para soportar las consultas que realizan los usuarios, los cubos siguen una estructura multidimensional [31].

Permite el diseo del almacenamiento de los datos y agregaciones con cualquiera de las tres variantes antes mencionada (MOLAP, HOLAP, ROLAP) brindado flexibilidad para que el desarrollador escoja la estrategia ms adecuada segn el problema en cuestin. Incorpora algoritmos sofisticados que precalculan agregaciones y permite que las respuestas a las peticiones sean mucho ms rpidas, se puede disear la estrategia de agregacin definiendo el mayor espacio en disco a utilizar, el porciento de rendimiento de las consultas contra almacenamiento. Adems, permite el ajuste del diseo de las agregaciones para dar respuesta con mayor velocidad a las consultas que ms se solicitan [31].

Hyperion Essbase, es una plataforma analtica estratgica lder en este tipo de tecnologa en el mercado por su rapidez, escalabilidad y capacidad para transformar volmenes masivos de datos en informacin intuitiva y preparada para ser utilizada instantneamente [32].

Est disponible para un gran nmero de sistemas operativos entre los que se encuentran Windows, HP-UX, IBM-AIX, Macintosh, UNIX y servidores Sun Solaris [33].

Tiene la capacidad de escalar grandes volmenes de datos habilitando el procesamiento analtico detallado a miles de usuarios concurrentes. Soporta cargas paralelas y clculos de datos. Brinda respuestas consistentes en intervalos de tiempos pequeos a las peticiones realizadas para lo cual implementa tres opciones de clculos [34]: Clculo precalculado, se utiliza para consultas futuras y minimiza el tiempo de respuestas y permite mayor nmero de concurrencia.

26

Captulo I. Fundamentos tericos.

-

Clculo instantneo, se realiza en el instante que el usuario realiza la consulta, si estos no fueron previamente precalculados.

-

Clculo instantneo y almacenamiento, en el momento que se realiza por primera vez una consulta, los datos son calculados y almacenados. Esta estrategia permite un alto rendimiento para las comunidades de gran cantidad de usuarios con los mismos intereses de datos.

Se logra alta integracin del servidor OLAP con el Data Warehouse relacional a travs de metadatos lo que acelera el proceso de actualizacin y carga de datos hacia el servidor OLAP y la presentacin al usuario de una data altamente confiable y actualizada [34]. En las comunidades de software libre, este tipo de tecnologa recientemente ha comenzado su desarrollo. Se presentarn los proyectos principales que en estos momentos se encuentran a disposicin.

JRubik, proyecto que publica su primera versin en diciembre del 2006. Es un cliente OLAP realizado en Java/Swing sobre componentes del proyecto JPivot. Este cliente es capaz de conectarse a fuentes OLAP basadas en el motor relacional Mondrian [52].

Sus componentes principales son un navegador OLAP, un gestor de consultas MDX, visor de tablas, visualizador de grficos, visor de mapas, mens, marcadores y datos estadsticos.

JMagallanes, este proyecto public su versin 1.0 en mayo del 2006. Es una aplicacin para el anlisis de informacin basada en OLAP y reportes dinmicos. Programado ntegramente en Java tiene como principales caractersticas [53].

Capacidad de ejecucin en J2SE y J2EE Visualizadores de reportes tablas, reportes estticos con JasperReport y grficos. Alta capacidad de integracin. Integra datos va JDBC. Capacidad de consolidar mltiples orgenes de datos en un solo reporte. Capacidad de definir columnas calculadas. Capacidad de cacheo de reportes y asignacin de vigencia a los reportes para usar como pre clculo. Posibilidad de exportar un cubo y trabajarlo Off-Line.

27

Captulo I. Fundamentos tericos.

Generacin de PDF y Excel como salida. Clculo programado de reportes. Entrega automtica por correo electrnico. Herramienta integrada para la generacin de las definiciones a partir de un SQL. Herramienta integrada para generar salidas de reportes estticos formateadas para usar IReport.

Mondrian, es un servidor OLAP libre que fue registrado en el ao 2001, primero de esta categora de software en surgir. Tiene como entorno de desarrollo la plataforma java, permite el acceso a un conjunto de base de datos relacionales y emplea como lenguaje de consulta

fundamental el MDX [30]. Sigue una arquitectura ROLAP y tiene la siguiente estrategia de agregacin: Los hechos se almacenan en el gestor de base de datos relacional, el equipo de desarrollo considera que no es necesario desarrollar un manejador de almacenamiento, si se puede emplear el del servidor de bases de datos [45]. Carga datos agregados en la memoria cach lanzando consultas utilizando la clusula GROUP BY. Una vez ms alegan que no es necesario generar mtodos de agregacin cuando el servidor de bases de datos cuenta con uno [45]. Si el gestor de bases de datos soporta vistas materializadas, y se decide crear vistas materializadas para algunas agregaciones, entonces el servidor OLAP las utilizar implcitamente. Idealmente, el manejador de agregaciones debe ser capaz de darse cuenta de que esas vistas materializadas existen y que esas agregaciones son ms simples de calcular [45].

La idea fundamental es delegar a la base de datos las funciones que le correspondan. Esto le impone un peso adicional al diseo de la base de datos y a la configuracin del gestor.

Como herramienta de soporte a este servidor OLAP, se desarrolla en paralelo el proyecto libre y de cdigo abierto JPivot, el cual fue registrado en el ao 2002. Est basado en tecnologa JSP, permite la visualizacin de los datos en forma de tablas y grficos [28], mediante esta herramienta el usuario puede realizar operaciones tpicas de la navegacin OLAP [29]. Bsicamente es una librera de tag JSP que permite interactuar con los modelos de datos del servidor OLAP.

28

Captulo I. Fundamentos tericos.

Es de destacar que la gran mayora de los proyectos antes mencionados se desarrollan en la plataforma Java. De estos se escogi para el desarrollo de este proyecto, Mondrian. Es el proyecto de mayor madurez, al iniciarse este trabajo era el nico que se conoca como registrado. Recientemente surgi el proyecto de software libre Pentaho [referencia], consiste en la integracin de los mejores productos de software libre para la creacin de una suite de inteligencia de negocios. El equipo de desarrollo de este proyecto escogi a Mondrian como servidor OLAP para su capa de anlisis.

1.5 La Educacin Superior en CubaEn Cuba existe una red de instituciones de Educacin Superior compuesta por 11 universidades, 2 institutos superiores y 4 centros adscriptos al Ministerio de Educacin Superior (MES), 15 institutos superiores pedaggicos y 1 filial adscriptos al Ministerio de Educacin (MINED); 4 institutos superiores de ciencias mdicas, la Escuela Latinoamericana de Medicina y 9 facultades independientes adscriptas al Ministerio de Salud Pblica (MINSAP); la Escuela Internacional de Cultura Fsica y otros 16 institutos adscriptos a otros Organismos de la Administracin Central del Estado (OACE); en total son 64 instituciones de Educacin Superior de las cuales 54 son

centros de educacin independientes [46][47]. Adems de 938 Sedes Universitarias Municipales (SUM)[47] creadas recientemente por los nuevos programas de la revolucin cubana.

1.5.1 El papel que desempean las Tecnologas de la Informctica y las ComunicacionesLas condiciones del sistema MES, por sus caractersticas especficas de gestin estatal con determinado grado de centralizacin, as como incluir actividades tan dismiles como: docencia, investigacin, produccin, comercializacin de servicios y otras, necesita de metdos y herramientas para elaborar e integrar la informacin de dichos procesos con vista a la toma de decisiones [48].

Las actividades relacionadas con la gestin universitaria requieren de la introduccin de las tecnologas de la informtica y las comunicaciones. La integracin de los procesos universitarios, as como la gestin del conocimiento de la organizacin no puede concebirse sin una amplia utilizacin de la tecnologa [48] lo que garantiza: Fiabilidad de los datos. Agilidad en el proceso de obtencin de la informacin y de los indicadores necesarios.

29

Captulo I. Fundamentos tericos.

Calidad en el proceso de toma de decisiones. Un trabajo ms integrado con los eslabones del ara econmica. Seguridad y proteccin del acceso a la informacin. Promocin del producto Educacin Superior empleando tecnologas de punta.

En estos momentos Cuba cuenta con un volumen de 380 000 estudiantes de pregrado [47] y un crecimiento anual que hace necesario el empleo de sistemas automatizados para el control docente y el apoyo en la toma de decisiones que aseguren el desempeo futuro de esta actividad.

1.5.2 Sistema de Estudiante-GNU. Gestin de la Nueva UniversidadEn el mes de marzo del ao 2004, la direccin de Informatizacin del Ministerio de Educacin Superior (MES), organiz el Taller Nacional Automatizacin de la Gestin Universitaria, donde participaron especialistas de las principales universidades de nuestro pas y del MES.

Durante la primera sesin de trabajo, los viceministros Dr. Rodolfo Alarcn, Dr. Eduardo Cruz y Dr. Jos Luis Garca, expusieron la urgencia de la automatizacin de la gestin universitaria en todos nuestros CES y en el organismo central, alegando que en estos momentos El MES carece de un sistema informatizado de la organizacin de la Educacin Superior, la entidad posee un gran atraso, cosa que dificulta la preparacin de datos e informes, tanto para el Gobierno, como para su uso interno [49].

Se conform un equipo de desarrollo integrado por profesores y estudiantes de varias de las universidades presentes definindose como prioridad, el trabajo de automatizacin sobre el proceso de matrcula y la gestin docente, se trazaron como objetivos: Lograr el desarrollo integrado de la automatizacin de los procesos fundamentales de la Educacin Superior, de manera tal que se garantice la elevacin de la calidad de la gestin de direccin a todos los niveles, incluyendo la transformacin de los procesos que lo requieran [49]. Crear un equipo de trabajo conformado por profesores y estudiantes de los CES, y especialistas del MES, que garantice el desarrollo y mantenimiento de la estrategia de automatizacin y a su vez, se sienta estimulado para hacer de este mbito, su entorno de investigacin [49].

30

Captulo I. Fundamentos tericos.

Se definieron como mdulos fundamentales a automatizar y con el siguiente orden de prioridad. Tabla 1.3: Mdulos definidos para el SIGENU No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Mdulo Matrcula Estadsticas Versin 1.0 Secretara Docente Plan de Estudio Profesor Recuperacin de Informacin Web Estadsticas Versin 2.0 Alumno Ayudante Estipendio Estudiantes Extranjeros Planificacin Docente Archivo Histrico Becas Extracurricular Guardia

La implantacin de los mdulos del Sistema traer consigo un conjunto de beneficios entre los que se pueden destacar los siguientes: La direccin de cada SUM, Facultad y CES podr disponer de informacin detallada y actualizada, tanto del quehacer de cada estudiante, como de sus datos personales. De la misma manera podr obtener toda la informacin estadstica oficial [49]. La direccin del MES y del Gobierno Revolucionario tendr a su disposicin la informacin fundamental, tanto de la actividad de cada estudiante de cualquier centro del pas, como de sus datos personales, as como la informacin estadstica oficial de cierre de curso, e informacin estadstica operativa de los CES y SUM [49]. La secretara docente de cada facultad y SUM podr obtener de forma impresa un amplio conjunto de documentos que rigen la vida acadmica universitaria. La gestin acadmica universitaria lograr un nivel de estandarizacin mayor que el que tiene en la actualidad. El proyecto GNU se encuentra en desarrollo en estos momentos, varios de los mdulos antes mencionados estn en fase de implantacin. Este trabajo forma parte del mismo y tiene como

31

Captulo I. Fundamentos tericos.

objetivo el desarrollo de una propuesta de arquitectura que posibilite la toma de decisiones con niveles de objetividad muy superiores a los actuales.

Conclusiones Es difcil solapar en un mismo sistema, el procesamiento operacional con la toma de decisiones. El diseo de las bases de datos operacionales es ineficiente para este propsito. La utilizacin de la tecnologa Data Warehousing es adecuada cuando se quiere almacenar un volumen de informacin histrica y actual grande, en una amplia perspectiva de tiempo para el anlisis de la informacin de la empresa. El modelado multidimensional, es una tcnica de diseo de bases de datos que responde a las necesidades analticas que impone la tecnologa Data Warehousing. En dependencia de los datos que se necesiten modelar, se debe escoger el esquema multidimensional ms adecuado. La utilizacin de OLAP en un proyecto Data Warehouse, incrementa el rendimiento de la toma de decisiones. Ayuda a los usuarios a resumir, sintetizar, predecir informacin de la empresa, a travs de comparaciones, vistas personalizadas as como a el anlisis de datos histricos y de proyecciones en escenarios de modelos de datos de qu suceder. La utilizacin de PostgreSQL o MySQL, como gestor de bases de datos para sustentar el almacenamiento de los datos de un Data Warehouse, la utilizacin de Kettle como herramienta ETL para las cargas peridicas de informacin y la consulta de los datos a travs del servidor OLAP Mondrian, brindan un marco de trabajo para la realizacin de un proyecto de Data Warehouse en un entorno de cdigo abierto y con herramientas libres.

32

Captulo II. Arquitectura para la toma de decisiones.

CAPTULO II. ARQUITECTURA PARA LA TOMA DE DECISIONESIntroduccinEste captulo describe como se realizan actualmente los procesos de obtencin y publicacin de la informacin estadstica para la toma de decisiones en los Centros e Instituciones de Educacin Superior de Cuba. Se expone el flujo de esta informacin hacia el Organismo Central para la conformacin de los reportes estadsticos oficiales que son emitidos para las publicaciones nacionales e internacionales. Se plantean los problemas y limitaciones actuales. Se realiza una nueva propuesta de arquitectura que permita desarrollar un nuevo modelo de la estadstica y la informacin en la Educacin Superior; capaz de brindar de una manera gil y confiable las estadsticas y las informaciones, con su correspondiente procesamiento automatizado de recopilacin, almacenamiento y presentacin, a todos los niveles de direccin para el soporte de la toma de decisiones.

2.1 Obtencin y publicacin de la informacin estadsticaLa Oficina Nacional de Estadstica (ONE), el Ministerio de Educacin Superior (MES), as como los directivos de los centros e instituciones de Educacin Superior, necesitan del conocimiento y control de la estadstica docente de los mismos para la evaluacin de indicadores como

matrcula, promocin, bajas y graduados que permitan la toma de decisiones y la solucin a los problemas encontrados.

El departamento de Estadstica de cada CES es el encargado de todo el procesamiento estadstico del mismo y por tanto de la esfera docente, indicador decisivo en la evolucin y desempeo de un CES.

Actualmente slo tres universidades han desarrollado su propio sistema automatizado de gestin de la informacin docente, el Instituto Superior Politcnico Jos Antonio Echeverra, la Universidad Central de Las Villas y la Universidad de Matanzas Camilo Cienfuegos. El resto de los centros universitarios no posee ninguna aplicacin. El flujo de informacin desde la base hacia las capas de direccin se hace lento y propenso a errores. Para describir como se obtiene

33

Captulo II. Arquitectura para la toma de decisiones.

la informacin estadstica en los centros que no poseen un sistema automatizado se utilizar la descripcin en formato expandido del caso de uso de negocio Obtener modelo estadstico docente y su correspondiente diagrama de actividad.

Tabla 2.1: Especificacin textual del caso de uso de negocio Obtener modelo estadstico docente en formato expandido. Caso de uso del negocio: Obtener modelo estadstico docente Actores del negocio: Directivos Propsito: Que los directivos obtengan el reporte estadstico-docente solicitado para la toma de decisiones Resumen: El caso de uso comienza cuando los directivos comunican al departamento de estadstica que necesitan un reporte estadstico-docente determinado. El estadstico del centro solicita los datos necesarios a las secretarias docentes de cada facultad y conforma el reporte. Accin del actor Respuesta del proceso de negocio 1- El Directivo comunica al departamento de estadstica que necesita un reporte determinado. 2- El departamento de estadstica a partir de los parmetros del reporte, conforma un modelo el cual se enva a las secretaras docentes de cada facultad para que sea llenado. 3- Las secretarias docentes extraen de sus registros los datos solicitados, conforman el reporte y envan el modelo lleno al Departamento de Estadstica. 4- Estadstica recibe el modelo de las facultades y conforma el reporte del centro solicitado por los directivos.

5- El directivo recibe el informe pedido al departamento de estadstica.

34

Captulo II. Arquitectura para la toma de decisiones.

A continuacin se brinda el diagrama de actividad correspondiente el caso de uso de negocio expuesto anteriormente.

Directiv o

Estadstico

Secretaria

Solicitar Informe

Conformar Modelo de Solicitud

Modelo de Solicitud [vacio]

Recibir Modelo para llenar

LLenar Modelo de Solicitud

Recibir Modelo de Solicitud

Modelo de Solicitud [lleno]

Conformar Informe General

Recibir Informe General

Informe General [lleno]

Figura 2.1: Diagrama de actividad del caso de uso de negocio Obtener modelo estadstico docente Una vez que se conforma el modelo si este fue solicitado por el MES se enva y el Estadstico del MES conforma manualmente un reporte central con la informacin de todos los CES del pas.

35

Captulo II. Arquitectura para la toma de decisiones.

2.2 Problemtica actualEl departamento de estadstica del MES es el encargado de brindar la informacin estadstica docente de todos los centros e instituciones de Educacin Superior de Cuba. En estos momentos el MES carece de un sistema informatizado de la organizacin de la Educacin Superior, la entidad posee un gran atraso, cosa que dificulta la preparacin de datos e informes, tanto para el Gobierno, como para uso interno [49].

Los siguientes problemas provocan que los datos para la toma de decisiones no se tengan en tiempo y con la calidad requerida:

La informacin estadstica se recoge, se integra y se procesa de forma manual en la mayora de los CES as como en el MES, lo que hace que el proceso sea ms lento y propenso a errores desde las fuentes primarias [46].

Existe un desgaste fsico de las secretarias docentes, estadsticos de los CES y estadsticos del MES debido a revisiones de datos exhaustivas para lograr la confiabilidad de la informacin brindada.

Se emplea mucho tiempo en la recopilacin de la informacin, por lo que esta no se entrega en los plazo establecidos [46]. Las cifras reportadas no ofrecen total confiabilidad [49]. En los CES donde existe un sistema automatizado para la emisin de los reportes estadsticos docentes, se ofrecen solo la informacin actual. No se puede retomar a travs del sistema, estadsticas de instantes de tiempos anteriores ni establecer comparaciones entre datos de diferentes fechas. Los reportes que se brindan, no cumplen con los formatos oficiales definidos por el Organismo Central.

El anlisis de los datos a nivel Ministerial es insuficiente, solo se cuenta con series histricas de la matrcula e informaciones totalizadas con alto niveles de agregacin. No se tiene informacin detallada del estudiante, lo que impide la realizacin de tareas como estudios investigativos de tendencia de la matrcula, desempeo docente entre estudiantes de distintos aos, distintas carreras, CES etc. [49].

Los informes provenientes de los CES se reciben en fechas posteriores a las requeridas para realizar los procesos de cierres estadsticos.

36

Captulo II. Arquitectura para la toma de decisiones.

La informacin se compila en grandes volmenes de papel, lo que puede provocar su deterioro con el transcurso del tiempo, provocndose as prdidas irrecuperables de la misma.

Por lo antes expuesto, se cre el proyecto SIGENU

Sistema de Gestin de la Nueva

Universidad para gestionar y controlar, de manera eficaz la informacin que se debe procesar y centralizar en los CES as como en el Organismo Central. Este trabajo forma parte de este proyecto y tiene como propsito el desarrollo de la arquitectura para la toma de decisiones en la Educacin Superior de Cuba.

37

Captulo II. Arquitectura para la toma de decisiones.

2.3 Arquitectura PropuestaPara la compresin de la arquitectura que se propone, se dividir en dos entornos, en el ambiente del CES y la integracin de la informacin para la toma de decisiones a partir de todos los estudiantes de Cuba en el Organismo Central.

Arquitectura propuesta para el CES Cada Institucin o Centro de Educacin Superior adscrito al MES en el cual se implanten los mdulos para la automatizacin de la gestin docente del proyecto GNU Gestin de la Nueva Universidad, debe contar con las siguientes bases de datos para el soporte en el proceso de la toma de decisiones.

Tabla 2.2: Bases de datos para el soporte a la toma de decisiones del CES. Bases de datos para la toma de decisiones del CES Base de Datos Descripcin Base de datos operacional, donde se almacenan las transacciones ces que ocurren en la informacin de los estudiantes desde que matriculan hasta que causan baja definitiva. Registra el trabajo diario que se realiza en las Secretaras Docentes en los expedientes, las evaluaciones, las bajas, los graduados, etc. Brinda informacin estadstica y nominal actual (del instante de tiempo en que se consulta la base de datos). stg_ces Base de datos intermedia que se utiliza para realizar las operaciones de Extraccin, Limpieza y Transformacin, a partir de los datos de una imagen en un instante de tiempo de la base de datos operacional del CES para luego ser publicados como informacin integra. Base de datos informacional (de solo lectura), donde se publica la informacin integra, limpia y consistente para la toma de decisiones, la publicacin de la informacin estadstica dentro del centro y de este hacia el MES. La informacin en esta base de datos tiene un orden implcito, las fecha de las distintas lminas extradas de la base intermedia stg_ces.

dm_ces

38

Captulo II. Arquitectura para la toma de decisiones.

Para explotar la riqueza de informacin que se encuentran en la base de datos operacional y la base de datos informacional se propone el diseo de las siguientes aplicaciones para el soporte a la toma de decisiones:

Mdulo de Estadstica del CES: Esta aplicacin se implantar en el Departamento de Estadstica y tiene como propsito la emisin de los reportes estadsticos oficiales que establece el MES.

Mdulo Web de Recuperacin de informacin: Aplicacin Web que se puede consultar desde cualquier lugar del centro. Tiene como objetivo brindar a los directivos un rpido acceso y una amplia gama de informacin docente actual e histrica. Esta aplicacin encuesta las bases de datos ces y dm_ces.

Arquitectura propuesta para el MES Para la toma de decisiones en el ministerio, se propone el diseo de una estructura que permita la integracin de las bases de datos para la toma de decisiones de todos los centros de Educacin Superior en una nica base de datos. Esta base permitir el acceso a la Informacin personal y docente de cualquier estudiante de un CES adscripto al MES en el momento que se necesite, as como la generacin de reportes nominalizados y totalizados a partir de toda la matrcula de la Educacin Superior de Cuba.

A continuacin se exponen los modelos de datos necesarios para la integracin de la informacin. Tabla 2.3: Bases de datos para el soporte a la toma de decisiones del CES. Bases de datos para la toma de decisiones del MES Base de Datos Descripcin Base de datos intermedia que se utiliza para la integracin de las stg_mes imgenes instantneas de informacin que son enviadas por los distintos CES y que se extraen en los mismos de la base de datos informacional dm_ces. dm_mes Esta base de datos tiene la misma estructura y propsito que la base de datos informacional del CES dm_ces, con la diferencia de que en esta, se integra lminas de informacin de todos los CES al mismo tiempo.

39

Captulo II. Arquitectura para la toma de decisiones.

Permitiendo a la alta direccin del MES y de nuestro gobierno la toma de decisiones a partir de informacin nominalizada y agregada de todos los estudiantes de los CES de Cuba integrados en una nica base de datos.

Para los centros de Educacin Superior que pertenecen a Organismos no adscritos al MES como el MINSAP, el MINED, el INDER, el MIC etc, la informacin estadstica se registrar en los departamentos de estadstica de estos centros a travs de una aplicacin para la recepcin y envo que el MES brindar la cual recoge la informacin que se necesita de manera resumida (no se solicita informacin detallada del estudiante como nombre y apellidos a diferencia de los centros adscritos). El diseo de este mdulo no forma parte de este trabajo.

Para consultar la informacin que se encuentran en la base de datos informacional del MES se utilizarn:

Mdulo de Estadstica del MES: Esta aplicacin se implantar en el Departamento de Estadstica MES y tiene como propsito la emisin de los reportes estadsticos oficiales de la informacin docente de la Educacin Superior en Cuba.

Mdulo Web de Recuperacin de informacin del MES: Aplicacin Web

que se puede

consultar desde cualquier lugar del pas. Tiene como objetivo brindar a los directivos un rpido acceso y una amplia gama de informacin docente. Esta aplicacin a diferencia de su homloga en el CES solo consultar la base de datos informacional del MES dm_mes.

La siguiente figura muestra la arquitectura para la toma de decisiones desde el nivel CES hasta la integracin de la informacin para la toma de decisiones en el MES. Se muestran las bases de datos y las aplicaciones necesarias para consultar la informacin en ambos entornos. Se

muestra el intercambio de informacin desde los centros no adscriptos.

40

Captulo II. Arquitectura para la toma de decisiones.

Bases de Datos de Gestin del CES facultad x facultad y facultad z

ces

http://recuperador.ces.edu.cu stg_cesDM_CES

Bases de datos para la toma de decisiones del CES

Formato Fijo

stg_mesMINSAP MINED INDER MIC MINCUL MEP

DM_MES

http://recuperador.mes.edu.cu

No Adscritos

Bases de datos para la toma de decisiones del MES

Formato Fijo

Figura 2.2: Arquitectura propuesta para la toma de decisiones en la Educacin Superior

41

Captulo II. Arquitectura para la toma de decisiones.

2.4 Descripcin del los componentes principales de la ArquitecturaEn este epgrafe, se abordarn los componentes principales de la arquitectura y se justificar la necesidad y el diseo de los mismos.

2.4.1 Seleccin del Enfoque ArquitectnicoLa tcnica que se propone para el desarrollo de los modelos de datos para la toma de decisiones del CES y del MES es la de Data Warehousing como centro de la arquitectura.

La flexibilidad arquitectnica de un Data Warehouse permite que sea implementado siguiendo varios enfoques arquitectnicos como son: [Gill & Rao, 1996]

Solo Data Warehouse. Solo Datamart: Cada departamento funcional en la organizacin tiene sus propias necesidades y un solo Data