UNIVERSIDAD CENTRAL DEL ECUADOR - … · 5.3 Modelo Lógico ... (ENES) como requisito para acceder...
Transcript of UNIVERSIDAD CENTRAL DEL ECUADOR - … · 5.3 Modelo Lógico ... (ENES) como requisito para acceder...
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERÍA CIENCIAS FÍSICAS Y MATEMÁTICA
CARRERA DE INGENIERÍA INFORMÁTICA
ANÁLISIS PARA LA ASIGNACIÓN DE CUPOS A CARRERAS
UNIVERSITARIAS A ESTUDIANTES MEDIANTE UN SOFTWARE DE
BUSINESS INTELLIGENCE
TRABAJO DE GRADUACIÓN, PREVIO A LA OBTENCIÓN DEL TITULO DE
INGENIERA INFORMÁTICA
AUTOR: CARMEN VANESSA CASTILLO VILLAREAL
TUTOR: ING. MARIO RAÚL MORALES MORALES
QUITO – 03 DE AGOSTO
2016
ii
DEDICATORIA
A Dios, por haberme dado salud para cumplir mis objetivos y fuerza para no desmayar
ante los problemas que se me presentaron.
A mis padres, a quienes les debo todo lo que soy, siempre estuvieron a mi lado
brindándome su amor, apoyo, comprensión y consejos para hacer de mí una mejor
persona.
A mis hermanas y hermano, por sus palabras de aliento en momentos difíciles.
iii
AGRADECIMIENTO
A mi familia por brindarme el apoyo necesario en cada uno de los momentos difíciles
de mi vida.
A mis ingenieros por los conocimientos inculcados durante toda mi etapa universitaria.
A mis amigas y amigos que me acompañaron durante toda mi carrera universitaria.
A mi tutor Mario Morales por la paciencia y guía durante el desarrollo de este proyecto.
iv
AUTORIZACIÓN DE LA AUTORÍA INTELECTUAL
Yo, Carmen Vanessa Castillo Villareal, en calidad de autora del Trabajo de
Investigación: “Análisis para la asignación de cupos a carreras universitarias a
estudiantes mediante un software de Business Intelligence”, autorizo a la
UNIVERSIDAD CENTRAL DEL ECUADOR, hacer uso de todos los contenidos que
me pertenecen o parte de los que contiene esta obra, con fines estrictamente académicos
o de investigación.
Los derechos que como autora me corresponden, con excepción de la presente
autorización, seguirán vigentes a mi favor, de conformidad con lo establecido en los
artículos 5, 6, 8, 19 y demás pertinentes de la Ley de Propiedad Intelectual y su
Reglamento.
Asimismo, autorizo a la Universidad Central del Ecuador para que realice la
digitalización y publicación de este trabajo de investigación en el repositorio virtual, de
conformidad a lo dispuesto en el Art. 144 de la Ley Orgánica de Educación Superior.
Quito, 28 de Julio de 2016
Carmen Vanessa Castillo Villareal
CI: 1722869805
Telf: 0982535424
Email: [email protected]
v
CERTIFICACIÓN DEL TUTOR
Yo, Mario Morales Morales en calidad de tutor del trabajo de titulación Análisis para la
asignación de cupos a carreras universitarias a estudiantes mediante un software de
Business Intelligence, elaborado por la estudiante Carmen Vanessa Castillo Villareal de
la Carrera de Ingeniería Informática, Facultad de Ingeniería, Ciencias Físicas y
Matemática de la Universidad Central del Ecuador, considero que el mismo reúne los
requisitos y méritos necesarios en el campo metodológico y en el campo
epistemológico, para ser sometido a la evaluación por parte del jurado examinador que
se designe, por lo que APRUEBO, a fin de que el trabajo investigativo sea habilitado
para continuar con el proceso de titulación determinado por la Universidad Central del
Ecuador.
En la ciudad de Quito, a los 8 días de Abril del 2016.
MARIO RAÚL MORALES MORALES
CC: 170902657-7
vi
vii
viii
CONTENIDO
pág.
RESUMEN ................................................................................................................ xiii
ABSTRACT .............................................................................................................. xiv
INTRODUCCIÓN ........................................................................................................ 1
1. OBJETIVOS .......................................................................................................... 3
1.1 Objetivo general .................................................................................................... 3
1.2 Objetivos específicos.............................................................................................. 3
2. ALCANCE DEL PROYECTO ............................................................................. 3
3. LIMITACIONES .................................................................................................. 5
4. MARCO TEÓRICO.............................................................................................. 6
4.1 La deserción y el carácter de las metas individuales ............................................ 6
4.2 Extracción, Transformación y Carga (ETL) ........................................................ 7
4.2.1 Proceso de Extracción.................................................................................... 7
4.2.2 Proceso de Transformación ........................................................................... 8
4.2.3 Proceso de Carga ........................................................................................... 8
4.3 Sistema de Gestión de Base de Datos MySQL ...................................................... 9
4.3.1 Prestaciones MySQL ...................................................................................... 9
4.4 Procedimientos Almacenados (SP) ..................................................................... 10
4.4.1 Ventajas De Usar Procedimientos En MySQL ............................................. 10
4.4.2 Parámetros De Entrada Y Salida En Un Procedimiento ............................. 11
4.5 Esquema de Estrella ............................................................................................ 11
4.6 Esquema de Copo de Nieve ................................................................................. 12
4.6.1 Tabla de hechos ........................................................................................... 13
4.6.2 Tabla de dimensiones ................................................................................... 14
4.7 Data Warehouse: Almacén de Datos .................................................................. 15
ix
4.7.1 Características.............................................................................................. 16
4.7.2 Aportaciones ................................................................................................ 18
4.8 Business Intelligence: Inteligencia de Negocios .................................................. 19
4.9 Qlik Sense: Innovación en el manejo de datos ................................................... 20
4.9.1 Prestaciones ................................................................................................. 21
5. DESARROLLO DEL PROYECTO ................................................................... 23
5.1 Análisis Cualitativo ............................................................................................. 23
5.2 Archivos fuente .................................................................................................... 24
5.2.1 Aspirantes.xlsx ............................................................................................. 24
5.2.2 Facultades.xlsx ............................................................................................ 24
5.2.3 Carreras.xlsx ................................................................................................ 25
5.2.4 Provincias.xlsx ............................................................................................. 25
5.3 Modelo Lógico ..................................................................................................... 26
5.3.1 Descripción del modelo lógico ..................................................................... 26
5.4 Modelo Físico ....................................................................................................... 28
5.5 Diseño del Data Warehouse ................................................................................ 29
5.6 Modelo conceptual (Esquema Copo de nieve) .................................................... 29
5.6.1 Fac_aspirante .............................................................................................. 30
5.6.2 Dim_persona ................................................................................................ 31
5.6.3 Dim_estado .................................................................................................. 31
5.6.4 Dim_provincia.............................................................................................. 31
5.6.5 Dim_carrera ................................................................................................. 31
5.7 Procesos ETL ....................................................................................................... 31
5.7.1 Extracción .................................................................................................... 32
5.7.2 Transformación ........................................................................................... 32
5.7.3 Carga ........................................................................................................... 33
5.8 Algoritmo ............................................................................................................. 33
6. RESULTADOS.................................................................................................... 39
6.1 Resultados en Qlik Sense .................................................................................... 39
7. CONCLUSIONES ............................................................................................... 43
x
8. RECOMENDACIONES ..................................................................................... 45
BIBLIOGRAFÍA ...................................................................................................... 46
ANEXOS ................................................................................................................... 49
Anexo A ..................................................................................................................... 50
Script para la Extracción, Transformación y Carga de los datos. .......................... 50
Anexo B ..................................................................................................................... 54
Descarga e instalación de las herramientas utilizadas ............................................. 54
xi
LISTA DE FIGURAS
pág.
Figura 1. Proceso ETL ................................................................................................ 7
Figura 2. Esquema copo de nieve ............................................................................. 13
Figura 3. Tabla de hechos “ventas” .......................................................................... 14
Figura 4. Tablas de dimensiones .............................................................................. 14
Figura 5. Procesos del Data Warehouse ................................................................... 17
Figura 6. Business Intelligence ................................................................................. 19
Figura 7. Archivo Aspirantes ................................................................................... 24
Figura 8. Archivo Facultades ................................................................................... 25
Figura 9. Archivo Carreras ...................................................................................... 25
Figura 10. Archivo Provincias .................................................................................. 26
Figura 11. Modelo lógico de la base de datos ........................................................... 26
Figura 12. Modelo físico............................................................................................ 28
Figura 13. Modelo copo de nieve empleado ............................................................. 30
Figura 14. Diagrama de flujo.................................................................................... 36
Figura 15. Estudiantes con los mayores puntajes .................................................... 37
Figura 16. Dashboard de Resultados ........................................................................ 39
Figura 17. Cantidad de aspirantes por Carrera ...................................................... 39
Figura 18. Total de aspirantes por provincias ......................................................... 40
Figura 19. Total de estudiantes Asignados por Carreras ........................................ 41
Figura 20. Total de estudiantes por estado .............................................................. 41
xii
LISTA DE TABLAS
pág.
Tabla 1. Diferencias Data Warehouse vs Sistema tradicional ................................. 18
Tabla 2. Tabla Aspirante .......................................................................................... 27
Tabla 3. Tabla Provincia .......................................................................................... 27
Tabla 4. Tabla Carrera ............................................................................................. 28
Tabla 5. Tabla Facultad ............................................................................................ 28
Tabla 6. Código del estado del aspirante .................................................................. 31
xiii
RESUMEN
ANÁLISIS PARA LA ASIGNACIÓN DE CUPOS DE CARRERAS
UNIVERSITARIAS A ESTUDIANTES MEDIANTE UN SOFTWARE DE
BUSINESS INTELLIGENCE, MODALIDAD PROYECTO INTEGRADOR
Autora: Carmen Vanessa Castillo Villareal
Tutor: Mario Raúl Morales Morales
La deserción universitaria es uno de los principales problemas que enfrentan las
instituciones de Educación Superior Pública en Ecuador, debido a que el proceso de
asignación de cupos a carreras universitarias involucra factores complejos que hacen
difícil la implementación de planes estratégicos que disminuyan los índices de deserción
universitaria en el país. En este proyecto se busca la explotación eficaz de la
información de estudiantes de la Universidad Central del Ecuador con la finalidad de
mejorar la toma de decisiones durante el proceso de asignación y distribución de cupos
según la demanda de cada una de las carreras ofertadas. Se realizó el proceso de
Extracción, Transformación y Carga (ETL) para facilitar el movimiento y
transformación de los datos con el objetivo de consolidarlos en un Data Warehouse,
Qlik Sense como herramienta de Business Intelligence para la mejor visualización de la
información para realizar el análisis.
PALABRAS CLAVES: DESERCIÓN UNIVERSITARIA/ ASIGNACIÓN DE
CUPOS/ CARRERAS UNIVERSITARIAS/ ETL/ DATA WAREHOUSE/ BUSINESS
INTELLIGENCE/ QLIK SENSE
xiv
ABSTRACT
ANALYSIS FOR THE ALLOCATION OF QUOTAS A CAREER COLLEGE
STUDENTS THROUGH A SOFTWARE BUSINESS INTELLIGENCE,
INTEGRATOR PROJECT MODE
Author: Carmen Vanessa Castillo Villareal
Tutor: Mario Raúl Morales Morales
The university desertion is one of the main problems that Public Higher Education
institutions face because the assignment process quotas to university careers involves
complex factors that make it difficult the implementation of strategic plans that reduce
university desertion indices in the country. This project seeks the effective exploitation
of the information of students from the Central University of Ecuador with the purpose
of improve decision-making during the process of assignment and distribution of quotas
according to the demand of each of the careers offered. It was performed the process of
extraction, transformation and loading (ETL) for easy movement and transformation of
data with the objective of consolidate them into a Data Warehouse, Qlik Sense as
Business Intelligence tool for better visualization of the information to perform the
analysis.
KEYWORDS: UNIVERSITY DESERTION/ ASSIGNMENT QUOTAS/
UNIVERSITY CAREERS/ DATA WAREHOUSE/ ETL/ SNOWFLAKE/
DATABASE / QLIK SENSE
1
INTRODUCCIÓN
La Deserción Universitaria es un fenómeno que afecta a todas las instituciones
educativas, según el INEC, la tasa de matriculación en la educación superior cayó de
30,1% en el 2011, año en que se estableció la prueba de admisión, a 26,6% en el 2013.
(Universo, 2014)
Es por esta razón, que se requiere realizar estudios que permitan conocer las causas que
provocan el retiro voluntario de los estudios universitarios, para que de esa manera las
Instituciones de Educación Superior puedan implementar planes estratégicos que
disminuyan la frecuencia de deserción que involucren los factores personales,
académicos y económicos, que influyen en esta decisión. (Viteri & Castro, 2011)
En la actualidad, un estudiante que abandona la educación superior, crea una vacante
que pudo ser ocupada por otro alumno que persistiera en sus estudios universitarios. Por
consiguiente, esta pérdida causa serios problemas financieros a las instituciones al
producir inestabilidad en la fuente de recursos, incumplimiento de metas establecidas,
pérdidas financieras y de capital humano (Yacelga & Yépez, 2009).
En el 2010, la Ley de Educación Superior dispuso que el ingreso a las instituciones de
educación superior públicas estaría regulado a través del Sistema de Nivelación y
Admisión, que desde el 2011 estableció el Examen Nacional para la Educación Superior
(ENES) como requisito para acceder a la educación superior y obtener un título de
tercer nivel (El Universo, 2014). Adicionalmente, la Secretaría de Educación Superior,
Ciencia, Tecnología e Innovación (Senescyt) realiza cada seis meses el proceso de
asignación de cupos para el ingreso a las Instituciones de Educación Superior (IES), a
través de un sistema informático automatizado.
2
Este proceso responde al artículo 27 del Reglamento del Sistema Nacional de
Nivelación y Admisión (SNNA), el cual menciona que: “la asignación de cupos se
realizará ante un notario público quien dará fe de la asignación de los cupos de
carrera para el ingreso a las instituciones de educación superior públicas del país”, lo
cual garantiza una asignación de cupos transparente, y meritocrática, y ofrece la
posibilidad a todos los jóvenes para ingresar a la educación superior en igualdad de
oportunidades (Zapata, 2015).
Aunque en la actualidad, no se han realizado estudios sobre deficiencias en el proceso
automatizado de la asignación de cupos que realiza la Senescyt, este proyecto busca
optimizar el proceso actual de asignación de cupos a carreras universitarias mediante el
análisis de una base de datos proporcionada por la Comisión de Evaluación Interna de la
Universidad Central del Ecuador. Dicho análisis será realizado a través de una
herramienta de Business Intelligence (BI) que permitirá contemplar datos relevantes del
estudiante tales como: la ubicación, nota del examen, carrera principal y carrera
opcional.
3
1. OBJETIVOS
1.1 Objetivo general
Analizar una base de datos de estudiantes mediante un software de Business Intelligence
para asignar cupos a carreras universitarias.
1.2 Objetivos específicos
Identificar los datos más relevantes de la base de datos.
Efectuar la extracción, transformación y carga de los datos.
Construir el modelo copo de nieve con la tabla de hechos y sus dimensiones.
Consolidar los datos limpios en un Data Warehouse.
Expresar la información analizada mediante gráficos de fácil interpretación visual.
2. ALCANCE DEL PROYECTO
El análisis de la base de datos de estudiantes de la Universidad Central del Ecuador
mediante un Software de Business Intelligence (BI) pretende optimizar el proceso de
asignación de cupos a carreras universitarias con la finalidad de disminuir los índices de
deserción estudiantil causada por la insatisfacción en el cupo asignado después de rendir
el Examen Nacional de Educación Superior (ENES).
De hecho, se considera que el factor más importante en la asignación de los cupos es la
nota de examen de manera concomitante con la carrera principal y las opcionales; sin
embargo, hay otros factores que son requeridos durante el proceso de inscripción como:
ubicación geográfica, universidad, disponibilidad de cupos y horarios, datos que en la
actualidad se considera que el Senescyt no toma en cuenta al momento de realizar la
oferta académica semestral. (SNNA, 2014)
4
En la actualidad, se considera que en el proceso de asignación de cupos debe tomar en
cuenta cada uno de los parámetros solicitados en el momento de la inscripción para que
el aspirante no sea afectado por haber sido asignado a una carrera que no está entre las
de su preferencia, la dificultad de trasladarse por la ubicación geográfica de la
Universidad a la cual ha sido referido, la mayoría elige universidades a las que ellos
consideran que podrán acceder según sus recursos económicos, opción que es
minimizada al momento de realizar la asignación de los cupos. (SNNA, 2014)
Durante el proceso de postulación y repostulación se ha reportado que si el estudiante
no está conforme con el cupo asignado puede rechazarlo y repostularse; sin embargo, la
repostulación no garantiza que el aspirante se encuentre en la situación inicial o tome la
asignación de manera insatisfactoria por inseguridad de no volver a obtener un cupo,
motivos con llevan con el pasar del tiempo a la deserción estudiantil. (SNNA, 2014)
Tales motivos son los que incentivan a realizar un análisis para la asignación de cupos
a carreras universitarias a estudiantes empleando un software de Business Intelligence
(BI), el cual oferta una reducción en el número de carreras que puedan elegir los
aspirantes, una carrera principal y una carrera opcional para asegurar que la elección del
aspirante sea consiente y considere las carreras que verdaderamente desea seguir.
El análisis de la base de datos contempla:
El proceso de Extracción, Transformación y Carga (ETL) de la base de datos.
Presentación de un análisis consolidando datos relevantes de estudiantes tales
como el número de cupos ofertados, la ubicación, nota del examen, carrera
principal y carrera opcional.
Visualización de los datos con gráficos atractivos y tecnológicamente
avanzados.
5
3. LIMITACIONES
Dentro de las limitaciones del proyecto se contemplan:
No contempla modelos de minería de datos.
Las carreras a asignarse solo son las existentes en la Universidad Central del
Ecuador.
No permite la apertura de más cupos que los ofertados desde el inicio.
La obtención de los datos fuentes no se realiza de forma automática.
La fidelidad de los resultados se asegura si los datos fuentes cargados cumplen
los requisitos preestablecidos.
El Data Warehouse no está disponible en un servidor.
6
4. MARCO TEÓRICO
4.1 La deserción y el carácter de las metas individuales
La definición de deserción, desde una perspectiva individual, debe referirse a las metas
y propósitos que tienen las personas al incorporarse al sistema de educación superior, ya
que la gran diversidad de fines y proyectos caracteriza las intenciones de los estudiantes
que ingresan a una institución, y algunos de ellos no se identifican con la graduación ni
son necesariamente compatibles con los de la institución en que ingresaron por primera
vez. Más aún, las metas pueden no ser perfectamente claras para la persona que se
inscribe en la universidad y cambiar durante la trayectoria académica. (Vicent, 1989)
Siempre habrá en una institución algunos estudiantes cuyas metas educativas son más
limitadas o más amplias que las de la universidad a la que han ingresado. Para los
alumnos con metas educativas restringidas, su actuación en la educación superior a
menudo sólo implica acumular una cantidad determinada de créditos necesarios para
certificaciones con fines profesionales, ascensos en el trabajo. (Vicent, 1989)
Para estudiantes que trabajan medio tiempo, asistir a la universidad puede implicar el
propósito de adquirir un conjunto de habilidades específicas (más bien que generales)
requeridas por las tareas que desempeñan. Para estos estudiantes, como para otros,
completar un programa de estudios puede no constituir un fin deseable; una corta
asistencia a la universidad, en vez de la prolongada necesaria para terminar una carrera,
puede resultar suficiente para lograr sus metas. Es posible encontrar la misma situación
en aquellos alumnos cuyas metas educativas superan a las de la institución. (Vicent,
1989)
7
4.2 Extracción, Transformación y Carga (ETL)
ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and
Load) es un término estándar que se utiliza para referirse al movimiento y
transformación de datos. Se trata del proceso que permite a las organizaciones mover
datos desde múltiples fuentes, reformatearlos y cargarlos en otra base de datos
(denominada Datamart o Data Warehouse), con el objeto de analizarlos. También
pueden ser enviados a otro sistema operacional para apoyar un proceso de negocio.
Figura 1. Proceso ETL
En la Figura 1, el Data Warehouse se alimenta de los datos operacionales mediante
diversas herramientas ETL. (Inacap, 2014)
4.2.1 Proceso de Extracción
Consiste en obtener los datos del sistema origen, realizando volcados completos o
incrementales. En ocasiones esta etapa suele apoyarse en un almacén intermedio,
llamado ODS (Operational Data Store), que actúa como pasarela entre los sistemas
fuente y los sistemas destino, y cuyo principal objetivo consiste en evitar la saturación
de los servidores funcionales de la organización. (Classora, 2013)
Es necesario extremar la cautela en esta fase del proceso de ETL que es la extracción,
por lo que se debe tener en cuenta que:
8
En el momento de la extracción, análisis e interpretación: los formatos en que se
presenten los datos o los modos como éstos estén organizados pueden ser
distintos en cada sistema separado, ya que la mayoría de los proyectos de
almacenamiento de datos fusionan datos provenientes de diferentes sistemas de
origen.
En el momento de la conversión de datos: conviene recordar que los formatos de
las fuentes normalmente se encuentran en bases de datos relacionales o ficheros
planos, pero pueden incluir bases de datos no relacionales u otras estructuras
diferentes. (Powerdata, 2013)
4.2.2 Proceso de Transformación
La fase de transformación de un proceso de ETL aplica una serie de reglas de negocio o
funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Estas
directrices pueden ser declarativas, pueden basarse en excepciones o restricciones pero,
para potenciar su pragmatismo y eficacia, hay que asegurarse de que sean:
Declarativas.
Independientes.
Claras.
Inteligibles.
4.2.3 Proceso de Carga
En esta fase, los datos procedentes de la fase anterior (fase de transformación) son
cargados en el sistema de destino. Dependiendo de los requerimientos de la
organización, este proceso puede abarcar una amplia variedad de acciones diferentes.
(Powerdata, 2013)
Existen dos formas básicas de desarrollar el proceso de carga:
9
Acumulación simple: esta manera de cargar los datos consiste en realizar un
resumen de todas las transacciones comprendidas en el período de tiempo
seleccionado y transportar el resultado como una única transacción hacia el
Data Warehouse. Es la forma más sencilla y común de llevar a cabo el proceso
de carga.
Rolling: este proceso sería el más recomendable en los casos en que se busque
mantener varios niveles de granularidad. Para ello se almacena información
resumida a distintos niveles, correspondientes a distintas agrupaciones de la
unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las
dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales
semanales, totales mensuales, etc.). (Powerdata, 2013)
4.3 Sistema de Gestión de Base de Datos MySQL
MySQL es un sistema gestor de bases de datos (SGBD, DBMS por sus siglas en inglés)
muy conocido y ampliamente usado por su simplicidad y notable rendimiento.
Las diferencias de MySQL con cualquier otra plataforma son prácticamente nulas, ya
que la herramienta utilizada en este caso es el cliente mysql-client, que permite
interactuar con un servidor MySQL (local o remoto) en modo texto. (Preciado, 2012)
4.3.1 Prestaciones MySQL
Es un SGBD que ha ganado popularidad por una serie de atractivas características
(Casillas Santillán, Ginestá, & Pérez Mora):
Está desarrollado en C/C++.
Se distribuyen ejecutables para cerca de diecinueve plataformas diferentes.
La API se encuentra disponible en C, C++, Eiffel, Java, Perl, PHP, Python,
Ruby y TCL.
10
Está optimizado para equipos de múltiples procesadores.
Es muy destacable su velocidad de respuesta.
Se puede utilizar como cliente-servidor o incrustado en aplicaciones.
Cuenta con un rico conjunto de tipos de datos.
Soporta múltiples métodos de almacenamiento de las tablas, con prestaciones y
rendimiento diferentes para poder optimizar el SGBD a cada caso concreto.
Su administración se basa en usuarios y privilegios.
Se tiene constancia de casos en los que maneja cincuenta millones de registros,
sesenta mil tablas y cinco millones de columnas.
Sus opciones de conectividad abarcan TCP/IP, sockets UNIX y sockets NT,
además de soportar completamente ODBC.
Los mensajes de error pueden estar en español y hacer ordenaciones correctas
con palabras acentuadas o con la letra ’ñ’.
Es altamente confiable en cuanto a estabilidad se refiere.
4.4 Procedimientos Almacenados (SP)
Un procedimiento es un conjunto de instrucciones que se guardan en el servidor para un
posterior uso, ya que se ejecutarán frecuentemente. En MySQL se nombran con la
cláusula ”PROCEDURE”.
A diferencia de las funciones, los procedimientos son rutinas que no retornan en ningún
tipo de valor. Simplemente se llaman desde el cliente con un comando y las
instrucciones dentro del procedimiento se ejecutarán. (James, 2014)
4.4.1 Ventajas De Usar Procedimientos En MySQL
Seguridad: Los procedimientos ocultan el nombre de las tablas a usuarios que
no tengan los privilegios para manipular datos. Simplemente llaman los
procedimientos sin conocer la estructura de la base de datos.
11
Estándares de código: En un equipo de desarrollo usar el mismo
procedimiento permite crear sinergia en las fases de construcción. Si cada
programador crea su propio procedimiento para realizar la misma tarea,
entonces podrían existir problemas de integridad y pérdida de tiempo
Velocidad: Es mucho más fácil ejecutar un programa ya definido mediante
ciertos parámetros, que reescribir de nuevo las instrucciones.
4.4.2 Parámetros De Entrada Y Salida En Un Procedimiento
Un parámetro es un dato necesario para el funcionamiento del procedimiento, ya que
contribuyen al correcto desarrollo de las instrucciones del bloque de instrucciones.
Los parámetros pueden ser de entrada (IN), salida (OUT) o entrada/salida (INOUT) y
deben tener definido un tipo. Un parámetro de entrada en un dato que debe ser
introducido en la llamada del procedimiento para definir alguna acción del bloque de
instrucciones. (James, 2014)
Un parámetro de salida es un espacio de memoria en el cual el procedimiento devolverá
almacenado su resultado. Y un parámetro de entrada/salida contribuye tanto como a
ingresar información útil como para almacenar los resultados del procedimiento. Por
defecto, si no indicas el tipo de parámetro MySQL asigna IN. (James, 2014)
4.5 Esquema de Estrella
Esquema de la estrella es la arquitectura de almacén de datos más simple. En este diseño
del almacén de datos la tabla de Variables (Hechos) esta rodeada por Dimensiones y
juntos forman una estructura que permite implementar mecanismos básicos para poder
utilizarla con una herramienta de consultas OLAP. (Fabrizzio, 2011)
12
Lo característico de la arquitectura de estrella es que sólo existe una tabla de
dimensiones para cada dimensión.
Esto quiere decir que la única tabla que tiene relación con otra es la de hechos, lo que
significa que toda la información relacionada con una dimensión debe estar en una sola
tabla. (Fabrizzio, 2011)
Esquema estrella del Almacén de Datos implementa un diseño lógico relacional de base
de datos que resulta en que las tablas de hechos representan la Tercera Forma Normal
(3FN) y las dimensiones representan la Segunda Forma Normal (2FN).
4.6 Esquema de Copo de Nieve
El esquema en copo de nieve (snowflake schema) es un esquema de representación
derivado del esquema en estrella, en el que las tablas de dimensión se normalizan en
múltiples tablas como se puede ver en a Figura 2. Por esta razón, la tabla de hechos deja
de ser la única tabla del esquema que se relaciona con otras tablas, y aparecen nuevos
joins gracias a que las dimensiones de análisis se representan ahora en tablas de
dimensión normalizadas. (jcesar, 2011)
13
Figura 2. Esquema copo de nieve
En la estructura dimensional normalizada, la tabla que representa el nivel base de la
dimensión es la que hace join directamente con la tabla de hechos. La diferencia entre
ambos esquemas (star y snowflake) reside entonces en la estructura de las tablas de
dimensión.
Para conseguir un esquema en copo de nieve se ha de tomar un esquema en estrella y
conservar la tabla de hechos, centrándose únicamente en el modelado de las tablas de
dimensión, que si bien en el esquema en estrella se encontraban totalmente
desnormalizadas, ahora se dividen en subtablas tras un proceso de normalización.
(jcesar, 2011).
4.6.1 Tabla de hechos
Denominamos “hechos” a los indicadores de negocio. Por ejemplo, son “hechos” las
ventas, los pedidos, los envíos, las reclamaciones, las compras, etc. Es decir, son todas
aquellas medidas numéricas que incluiremos en nuestro sistema Business Intelligence.
Técnicamente, una tabla de hecho es la tabla central de un modelo en estrella. En la
Figura 3, la tabla de ventas es la tabla de hechos. (Crono, 2010)
14
Figura 3. Tabla de hechos “ventas”
Una característica importante de las tablas de hecho es el “nivel de detalle” de la
información que se almacena. En el anterior ejemplo, las ventas están guardadas a nivel
de cliente, producto, almacén, promoción y fecha.
La tabla de hechos contiene las claves subrogadas de aquellas dimensiones que definen
su nivel de detalle, y los indicadores, nada más. Por lo tanto, antes de crear la tabla de
hechos debe entenderse perfectamente la información que se guardará. (Crono, 2010)
4.6.2 Tabla de dimensiones
Las tablas de dimensiones definen como están los datos organizados lógicamente y
proveen el medio para analizar el contexto del negocio. Contienen datos cualitativos.
Representan los aspectos de interés, mediante los cuales los usuarios podrán filtrar y
manipular la información almacenada en la tabla de hechos. En la Figura 4 se pueden
apreciar algunos ejemplos:
Figura 4. Tablas de dimensiones
Más detalladamente, cada tabla de dimensión podrá contener los siguientes campos:
Clave principal o identificador único.
Clave foráneas.
15
Datos de referencia primarios: datos que identifican la dimensión. Por ejemplo:
nombre del cliente.
Datos de referencia secundarios: datos que complementan la descripción de la
dimensión. Por ejemplo: e-mail del cliente, fax del cliente, etc.
Usualmente la cantidad de tablas de dimensiones, aplicadas a un tema de interés en
particular, varían entre tres y quince (Bernabeu, 2009).
4.7 Data Warehouse: Almacén de Datos
Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades
informacionales, surge el concepto de Data Warehouse, como solución a las
necesidades informacionales globales de la empresa. Este término acuñado por Bill
Inmon, se traduce literalmente como Almacén de Datos. No obstante si el Data
Warehouse fuese exclusivamente un almacén de datos, los problemas seguirían siendo
los mismos que en los Centros de Información. (DATAPRIX)
La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la
estructura de la información. Este concepto significa el almacenamiento de información
homogénea y fiable, en una estructura basada en la consulta y el tratamiento
jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales.
Según definió Bill Inmon, el Data Warehouse se caracteriza por ser:
Integrado: los datos almacenados en el Data Warehouse deben integrarse en
una estructura consistente, por lo que las inconsistencias existentes entre los
diversos sistemas operacionales deben ser eliminadas. La información suele
estructurarse también en distintos niveles de detalle para adecuarse a las
distintas necesidades de los usuarios.
16
Temático: sólo los datos necesarios para el proceso de generación del
conocimiento del negocio se integran desde el entorno operacional. Los datos se
organizan por temas para facilitar su acceso y entendimiento por parte de los
usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser
consolidados en una única tabla del Data Warehouse.
Histórico: el tiempo es parte implícita de la información contenida en un Data
Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado
de la actividad del negocio en el momento presente. Por el contrario, la
información almacenada en el Data Warehouse sirve, entre otras cosas, para
realizar análisis de tendencias.
No volátil: el almacén de información de un Data Warehouse existe para ser
leído, y no modificado. La información es por tanto permanente, significando la
actualización del Data Warehouse la incorporación de los últimos valores que
tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre
lo que ya existía.
4.7.1 Características
Los Data Warehouse contienen datos relativos a los datos, concepto que se ha venido
asociando al término de metadatos. Los metadatos permiten mantener información de la
procedencia de la información, la periodicidad de refresco, su fiabilidad, forma de
cálculo, etc., relativa a los datos de nuestro almacén (DATAPRIX).
Estos metadatos serán los que permitan simplificar y automatizar la obtención de la
información desde los sistemas operacionales a los sistemas informacionales. Los
objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, serían:
17
Soportar al usuario final, ayudándole a acceder al Data Warehouse con su
propio lenguaje de negocio, indicando qué información hay y qué significado
tiene. Ayudar a construir consultas, informes y análisis, mediante herramientas
de navegación.
Soportar a los responsables técnicos del Data Warehouse en aspectos de
auditoría, gestión de la información histórica, administración del Data
Warehouse, elaboración de programas de extracción de la información,
especificación de las interfaces para la realimentación a los sistemas
operacionales de los resultados obtenidos, etc.
Para comprender el concepto de Data Warehouse, es importante considerar los procesos
que lo conforman. En la Figura 5 se describen dichos procesos clave en la gestión de un
Data Warehouse.
Figura 5. Procesos del Data Warehouse
Las diferencias de un Data Warehouse con un sistema tradicional las podríamos resumir
en la Tabla 1:
SISTEMA TRADICIONAL DATA WAREHOUSE
Predomina la actualización Predomina la consulta
La actividad más importante es de tipo operativo (día a
día)
La actividad más importante es el análisis y la decisión
estratégica
Predomina el proceso puntual Predomina el proceso masivo
18
Mayor importancia a la estabilidad Mayor importancia al dinamismo
Datos en general desagregados Datos en distintos niveles de detalle y agregación
Importancia del dato actual Importancia del dato histórico
Importante del tiempo de respuesta de la transacción
instantánea
Importancia de la respuesta masiva
Estructura relacional Visión multidimensional
Usuarios de perfiles medios o bajos Usuarios de perfiles altos
Explotación de la información relacionada con la
operativa de cada aplicación
Explotación de toda la información interna y externa
relacionada con el negocio
Tabla 1. Diferencias Data Warehouse vs Sistema tradicional
4.7.2 Aportaciones
Proporciona una herramienta para la toma de decisiones en cualquier área
funcional, basándose en información integrada y global del negocio.
Facilita la aplicación de técnicas estadísticas de análisis y modelización para
encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor
añadido para el negocio de dicha información.
Proporciona la capacidad de aprender de los datos del pasado y de predecir
situaciones futuras en diversos escenarios.
Simplifica dentro de la empresa la implantación de sistemas de gestión integral
de la relación con el cliente.
Supone una optimización tecnológica y económica en entornos de Centro de
Información, estadística o de generación de informes con retornos de la
inversión espectaculares.
19
4.8 Business Intelligence: Inteligencia de Negocios
Business Intelligence es la habilidad para transformar los datos en información, y la
información en conocimiento como se muestra en la Figura 6, de forma que se pueda
optimizar el proceso de toma de decisiones en los negocios.
Figura 6. Business Intelligence
Desde un punto de vista más pragmático, se relaciona directamente con las tecnologías
de la información, Business Intelligence es un conjunto de metodologías, aplicaciones y
tecnologías que permiten reunir, depurar y transformar datos de los sistemas
transaccionales e información desestructurada en información estructurada, para su
explotación directa (reportes, análisis OLTP / OLAP) o para su análisis y conversión en
conocimiento, dando así soporte a la toma de decisiones sobre el negocio (Sinnexus,
2007).
Los principales productos de Business Intelligence que existen hoy en día son
(Sinnexus, 2007):
Cuadros de Mando Integrales (CMI)
Sistemas de Soporte a la Decisión (DSS)
Sistemas de Información Ejecutiva (EIS)
Los sistemas y componentes de BI se diferencian de los sistemas operacionales en que
están optimizados para preguntar y divulgar sobre datos. Esto significa que, en un Data
Warehouse, los datos están desnormalizados para apoyar consultas de alto rendimiento,
20
mientras que en los sistemas operacionales suelen encontrarse normalizados para apoyar
operaciones continuas de inserción, modificación y borrado de datos lo que permite:
Observar ¿qué está ocurriendo?
Comprender ¿por qué ocurre?
Predecir ¿qué ocurriría?
Colaborar ¿qué debería hacer el equipo?
Decidir ¿qué camino se debe seguir?
4.9 Qlik Sense: Innovación en el manejo de datos
Qlik Sense Desktop marca registrada de Qlik Inc., proporciona a los usuarios que
tengan instalado Windows Client una experiencia muy intuitiva a través de la
funcionalidad de “arrastrar y soltar” para explorar y visualizar datos, además de
beneficiarse del storytelling que ofrece la posibilidad de crear presentaciones
personalizadas sobre los hallazgos descubiertos al explorar la información.
Adicionalmente, es posible guardar como archivos locales las visualizaciones de datos
obtenidas en cada navegación, para que puedan compartirse con otros usuarios. Los
usuarios pueden comenzar a utilizar Qlik Sense arrastrando un documento de Excel a la
aplicación, o conectando las múltiples fuentes de datos de las que disponga su
organización. Qlik Sense Desktop es gratuito para el uso personal y empresarial, sin
límites ni restricciones a la hora de crear aplicaciones o compartir archivos. (Qlik Q,
2014)
La oferta completa de Qlik Sense está basada en servidor, permitiendo el desarrollo
desde cualquier dispositivo, el uso flexible desde dispositivos móviles, colaboración, así
como el desarrollo e integración personalizada de los datos. Además incluye
importantes características empresariales, seguridad de datos y gobernanza. Todas las
21
soluciones Qlik Sense indexan los datos para permitir a los usuarios comenzar a
explorar y visualizar los datos de forma inmediata.
“Qlik Sense Desktop es el mejor modo de mostrar a los usuarios que no conozcan Qlik
el poder y el control que pueden ejercer manejando sus propios datos para hacerlos
comprensibles, visuales e incluso divertirse con ellos. Mantenemos nuestro compromiso
de simplificar y facilitar el acceso y control a los datos directamente por el usuario
final, proporcionando un verdadero BI de auto-servicio”, comenta Anthony Deighton,
Qlik CTO y vicepresidente de productos. (Qlik Q, 2014)
4.9.1 Prestaciones
Integración de datos desde múltiples fuentes, desde archivos Excel a bases de
datos abiertas (ODBC) que se pueden incorporar a la aplicación Qlik Sense.
Desarrollo de cuadros de mando dinámicos con solo arrastrar y soltar para crear
o ampliar un análisis visual en pocos minutos.
Explorar, asociar y combinar información de nuevas formas que no eran
posibles en otros productos sin tener que empezar desde cero a crear nuevas
visualizaciones. Gracias al uso del motor de indexación de Qlik y su
experiencia asociativa, los usuarios pueden explorar y hacer cualquier pregunta
de forma dinámica.
Búsquedas inteligentes simplemente escribiendo una palabra o número para
comenzar el análisis de datos.
Visualización inteligente e intuitiva que ofrece pistas a los usuarios
principiantes para ayudarles a explorar la información, con actualizaciones
dinámicas, destacando las asociaciones y la nueva información.
Funcionalidad de narración de datos (Data Storytelling), que facilita compartir
los análisis de forma visual, comunicar hallazgos a los equipos y colaborar con
mayor eficacia en formato de presentación.
22
Los usuarios pueden añadir comentarios y desglosar los datos directamente desde los
análisis visuales de Qlik Sense para responder cuestiones sobre la marcha.
Además de ofrecer Qlik Sense para la visualización interactiva, Qlik continuará
ofreciendo QlikView, su plataforma de larga trayectoria en el mercado, para ofrecer la
capacidad de desarrollo de aplicaciones a los analistas, que con una mínima experiencia
en desarrollo podrán desarrollar y publicar potentes aplicaciones analíticas (Qlik Q,
2014).
23
5. DESARROLLO DEL PROYECTO
5.1 Análisis Cualitativo
Para este proyecto se realizó un análisis de datos a partir de un enfoque cualitativo
debido a que este tipo de análisis permite realizar interpretaciones de la realidad y de los
datos, así se logró identificar la naturaleza profunda en la deserción universitaria.
La técnica empleada para la obtención de datos en el análisis de datos fue la revisión de
documentos o análisis documental la misma que consiste en la agrupación de la mayor
cantidad de datos. Dichos datos fueron proporcionados por la Comisión de Evaluación
Interna de Universidad Central del Ecuador.
El proceso general para este análisis de datos puede describirse en tres tareas:
Reducción de los datos: Se eligieron los datos más relevantes tales como: la
cédula de aspirante, apellidos y nombres, edad, sexo, nota del examen,
ubicación geográfica, carrera principal y secundaria, entre otras.
Disposición y transformación de los datos: los datos fueron dispuestos en un
archivo Excel y luego fueron sometidos al proceso de extracción,
transformación y carga (ETL) para facilitar la compresión y el análisis de los
mismos.
Obtención y verificación de las conclusiones: la construcción de gráficos
dinámicos facilitaron la presentación de resultados y la compresión de los
mismos permitiendo elaborar conclusiones.
24
5.2 Archivos fuente
La fuente que alimenta el Data Warehouse proviene de archivos de Excel descritos a
continuación:
5.2.1 Aspirantes.xlsx
Este es el archivo fuente principal que alimenta el Data Warehouse , contiene
información de los aspirantes como cédula, apellidos, nombres, edad, sexo, fecha de
nacimiento, fecha de inscripción, país de origen, entre otras, como se muestra en la
Figura 7.
5.2.2 Facultades.xlsx
Este archivo fuente contiene información de cada una de las facultades de la
Universidad Central del Ecuador, tales como el código de la facultad, código de la
universidad y el nombre de la facultad, como se puede ver en la Figura 8.
Figura 7. Archivo Aspirantes
25
5.2.3 Carreras.xlsx
Este archivo fuente como se muestra en la Figura 9, contiene información de cada una
de las carreras de la Universidad Central del Ecuador, tales como el código de la
carrera, código de la facultad y el nombre de la carrera, modalidad, jornada, ciclo, cupos
disponibles y nota mínima.
5.2.4 P
rovincias.
xlsx
Figura 8. Archivo Facultades
Figura 9. Archivo Carreras
26
Este archivo fuente contiene información de las provincias del Ecuador como se puede
ver en la Figura 10, tales como el código de la provincia, el nombre de la provincia,
latitud y longitud.
5.3 Modelo Lógico
En la Figura 11 muestra una descripción de la estructura de la base de datos antes de
procesarla en un Sistema de Gestión de Bases de Datos, en este caso fue para MySQL.
5.3.1 Descripción del
modelo lógico
Figura 10. Archivo Provincias
Figura 11. Modelo lógico de la base de datos
27
El modelo lógico está compuesto por cuatro tablas cuyas estructuras se detallan a
continuación en las Tablas 2, 3, 4 y 5:
Estructura de la tabla Aspirante
Nombre Tipo de dato Clave Primaria Clave Foránea
Id_aspirante Integer Si No
Id_provincia Integer No Si
Id_carrera_pri Integer No Si
Id_carrera_op Integer No Si
Cedula Characters(45) No No
Apellidos Characters(100) No No
Nombres Characters(100) No No
Sexo Characters(45) No No
Edad Integer No No
Provincia Characters(75) No No
Nota Integer No No
Tabla 2. Tabla Aspirante
Estructura de la tabla Provincia
Nombre Tipo de dato Clave Primaria Clave Foránea
Id_provincia Integer Si No
Nombre Characters(100) No No
Latitud Float No No
Longitud Float No No
Tabla 3. Tabla Provincia
Estructura de la tabla Carrera
Nombre Tipo de dato Clave Primaria Clave Foránea
Id_carrera Integer Si No
Id_facultad Integer No Si
Nombre Characters(100) No No
Modalidad Characters(45) No No
Jornada Characters(45) No No
Ciclo Characters(45) No No
Cupos_disponibles Integer No No
Nota_mínima Integer No No
28
Tabla 4. Tabla Carrera
Estructura de la tabla Facultad
Nombre Tipo de dato Clave Primaria Clave Foránea
Id_facultad Integer Si No
Nombre Characters(100) No No
Tabla 5. Tabla Facultad
5.4 Modelo Físico
El paso de un modelo lógico a uno físico requiere un profundo entendimiento del
manejador de bases de datos que se desea emplear, en la Figura 12 se muestra el modelo
físico construído para MySQL.
Figura 12. Modelo físico
29
En la construcción del modelo físico se consideró ciertas características como:
Conocimiento a fondo de los tipos de objetos (elementos) soportados
Detalles acerca del indexamiento, integridad referencial, restricciones, tipos de
datos, etc
Detalles y variaciones de las versiones
Parámetros de configuración
Data Definition Language (DDL)
En el modelado lógico el paso de convertir el modelo a tablas hace que las entidades
pasen a ser tablas (más las derivadas de las relaciones) y los atributos se convierten en
las columnas de dichas tablas. Físicamente esta metáfora de una tabla se mapea al
medio físico, con algunas consideraciones como se menciona en las siguientes
secciones.
5.5 Diseño del Data Warehouse
Para poder realizar el análisis de la asignación de cupos se construyó un almacén de
datos o Data Warehouse cuyo acceso a la información debe estar caracterizado por un
alto rendimiento en el que el tiempo de espera para acceder a ella es nulo. La
información contenida en el Data Warehouse es:
Entendible: los niveles de información son correctos y obvios, es decir, la
información está correctamente etiquetada.
Navegable: reconocer el destino deseado dentro de una pantalla y acceder a él
con un click.
Adaptable y elástica: porque soporta cambios continuos.
5.6 Modelo conceptual (Esquema Copo de nieve)
30
El esquema de copo de nieve consta de una tabla de hechos que está conectada a
algunas tablas de dimensiones a través de una relación de muchos a uno, cada tabla de
dimensiones representa exactamente un nivel en una jerarquía.
La tabla de hechos (Fac_aspirante) es la única relacionada con otras tablas llamadas
dimensiones (dim_persona, dim_estado, dim_carrera, dim_provincia). Existe otra tabla
que se relacionan con la dimensión Carrera a través de una relación de muchos a uno,
cuyo nombre es facultad y que no tienen relación directa con la tabla de hechos, es
decir, el esquema presentado en la Figura 13 presenta un cierto grado de detalle
permitiendo mayor grado de dependencia de los datos. El modelo fue concebido para
facilitar el mantenimiento de las dimensiones, haciendo la extracción de datos más
sencilla.
5.6.1 Fac_aspirante
Esta es la tabla de hechos, es la tabla principal del modelo copo de nieve. Aquí se
almacenan datos relevantes del aspirante como el código del aspirante, el código de la
provincia, el código de la carrera, el código del estado y la nota. Siendo la nota la
métrica principal en el análisis.
Figura 13. Modelo copo de nieve empleado
31
5.6.2 Dim_persona
Esta tabla va a guardar información básica del aspirante, es decir, la cédula, los
apellidos, los nombres, la edad y el sexo.
5.6.3 Dim_estado
Esta tabla almacena el estado del aspirante, es decir, Asignado, No Asignado o
Repostulado. A todos se les va a asignar un código como se muestra en la Tabla 6:
Codigo _estado Nombre_estado
1 Asignado
2 No_asignado
3 Repostulado
Tabla 6. Código del estado del aspirante
5.6.4 Dim_provincia
Aquí se almacena la información de las provincias como el código de la provincia, la
latitud y la longitud.
5.6.5 Dim_carrera
Permite almacenar toda la información de las carreras como el código de la carrera, el
nombre, la modalidad, la jornada, el ciclo, los cupos disponibles y la nota mínima.
5.7 Procesos ETL
Los procesos ETL son el componente más importante en una infraestructura que
implique la integración de información desde diferentes fuentes, para facilitar el
movimiento y transformación de los datos desde el archivo origen hasta ser
consolidados en el Data Warehouse intervinieron tres pasos que son:
32
5.7.1 Extracción
En esta fase se realizó la extracción de toda la información de los archivos fuentes
Carreras.xlsx, Provincias.xlsx, Facultades.xlsx y Aspirantes.xlsx. Para el análisis se
tomó en cuenta los datos con mayor relevancia como cédula, apellidos, nombres, sexo,
edad, provincia, nota, carrera principal y carrera secundaria de Aspirantes.xlsx, así se
descartó información irrelevante para el análisis como el email, discapacidad, país de
origen y fecha de nacimiento.
Previamente a la extracción de los datos se guardaron los archivos fuentes Carreras.xlsx,
Provincias.xlsx, Facultades.xlsx y Aspirantes.xlsx con la extensión .csv para poder
realizar la migración de la información. La extracción se la realizó mediante un script
especificado en el Anexo A.
Con el fin de optimizar el proceso de extracción se buscó apoyo en un almacén de datos
intermedio (Figura 12) que opere como pasarela entre el sistema fuente y el sistema
destino, con el objetivo de evitar la congestión de datos.
5.7.2 Transformación
En esta etapa se trabajó en la adaptación de los datos fuente al formato destino definido
en el Data Warehouse. Los datos procedentes de los archivos fuentes no coincidían con
el formato destino por lo tanto para su integración resultó imprescindible realizar
operaciones de transformación, con el fin de evitar duplicidades innecesarias y asegurar
la consistencia de los datos, se definieron reglas de negocio que permitieron que los
datos sean más fáciles de digerir. Por ejemplo se unificó las columnas
“PRIMER_APELLIDO” y “SEGUNDO_APELLIDO” en una sola columna cuyo
nombre es “APELLIDOS”, estas y otras transformaciones están detalladas en el
ANEXO B.
33
5.7.3 Carga
En el desarrollo de esta etapa se empleó una forma más sencilla y común de llevar a
cabo el proceso de carga, la acumulación simple. Esta consistió en realizar el resumen
de todas las transformaciones realizadas en la etapa anterior y transportar el resultado
hacia el Data Warehouse.
Para el desarrollo de la fase de carga de datos se dispuso de un procedimiento
almacenado descrito en el Anexo B cuya ejecución realiza automáticamente la carga de
los datos garantizando la calidad de los datos mediante aplicación de ciertas
restricciones como:
Valores únicos
Integridad referencial
Campos obligatorios
Rangos de valores
5.8 Algoritmo
En el desarrollo de este proyecto se elaboró una serie de pasos o instrucciones para la
resolución del problema de asignación. Dentro de las variables empleadas en el análisis
para la efectuar la asignación de los cupos universitarios son:
La nota lograda por el estudiante en el Examen Nacional de Educación Superior
(ENES).
El número de cupos ofertados por las Instituciones de Educación Superior (IES)
Las carreras de neta preferencia del aspirante
34
Cabe enfatizar que para realizar este proceso la nota obtenida en el examen y el número
de cupos disponibles en las diferentes carreras ya es de pleno conocimiento del
estudiante.
Así, el aspirante elegirá dos opciones de carrera, la primera de estas es la de mayor
importancia para él y la segunda (opcional) les brindará la oportunidad de cambiar su
primera opción si obtuvieron una nota inferior al de la carrera seleccionada
inicialmente. Para escoger dichas opciones el estudiante debe tomar en cuenta aspectos
importantes como:
El sitio físico en donde se encuentra el campus en el que se imparte la carrera
escogida.
La modalidad en la que sus recursos le permiten estudiar ya sea presencial,
semipresencial o a distancia.
La jornada que hace referencia al horario a ser escogido, esta puede ser
matutino, vespertino o nocturno.
Otro aspecto de suma importancia es elegir el nivel de formación, estos niveles
comprenden Técnico Superior, Tecnológico o de Tercer Nivel. Para este proyecto solo
se tomó en cuenta el Tercer Nivel debido a que los datos corresponden a estudiantes que
postularon únicamente para las carreras ofertadas en la Universidad Central del Ecuador
(UCE).
En todas la Instituciones de Educación Superior (IES) la nota base para acceder a la
mayoría de las carreras ofertas es de 650 puntos obtenidos en el Examen Nacional de
Educación Superior (ENES), las carreras vinculadas directamente con Medicina y
Educación estipulan un puntaje mínimo de 950 puntos. Esta información es de
conocimiento de cada uno de los aspirantes que participan en el proceso de asignación
de cupos universitarios.
35
Aplicamos un mecanismo meritocrático, es decir, el aspirante debe sacar el mayor
puntaje en el Examen Nacional de Educación Superior (ENES) para tener mayor
posibilidad de acceder a un cupo en la carrera de su preferencia. (SNNA, 2014)
En el caso de que varios postulantes de una carrera tienen la misma nota, Senescyt
gestiona con las diferentes universidades para que todos los aspirantes obtengan el cupo.
Así se puede lograr hasta el 5% más de cupos para cubrirlos. (Comercio, 2014)
Los estudiantes que aprueben en el Examen Nacional para la Educación Superior
(ENES) con un puntaje comprendido entre 900 y 950/1.000 puntos, formarán parte del
Grupo de Alto Rendimiento de Institutos Técnicos y Tecnológicos (GAR-ITT).
(SNNA, Noticias, 2014)
Estos tienen la posibilidad de acceder al programa de becas dentro o fuera del país
según sea su elección, son aproximadamente 175 universidades de excelencia que se
encuentran a nivel mundial, apuntando a una educación de calidad. (SNNA, Noticias,
2014)
Quienes acepten tomar el curso de Nivelación Especial recibirán una formación
intensiva durante aproximadamente 9 meses, en los cuales se les prepara para el proceso
de admisión a las instituciones de excelencia a nivel mundial reconocidas por la
Secretaria de Educación Superior, Ciencia, Tecnología e Innovación. (SNNA, Noticias,
2014)
36
La asignación de los estudiantes se realiza de la siguiente manera como se puede ver en
la Figura 14:
Primero se compara la nota que el estudiante obtuvo en el examen con la nota base, si la
nota del estudiante es menor a 650 puntos (nota base) este deberá volver a rendir el
examen en la próxima convocatoria. Por otro lado, si la nota es mayor a 650 puntos se
procederá a contrastarla con la nota del examen del aspirante que posee el último cupo
asignado en la carrera principal de su preferencia, si es mayor se guarda en el listado
ordenado (de mayor a menor) de esa carrera en el campus elegido caso contrario se
procede a realizar la comparación de la carrera opcional.
Figura 14. Diagrama de flujo
37
Si la nota obtenida es mayor a la nota del último cupo asignado en la carrera opcional se
procederá a almacenar la información del estudiante en el listado ordenado de dicha
carrera en su respectivo campus.
Una vez almacenados los datos de los estudiantes en un listado ordenado de manera
descendente se procederá a realizar la asignación meritocráticamente, es decir, como se
muestra en la Figura 15, si en una carrera existen once cupos disponibles estos serán
para los once estudiantes con mejor nota así, los estudiantes que hayan obtenido mayor
puntaje serán los primeros en recibir un cupo en esa carrera.
Caso contrario, el aspirante debe realizar la repostulación, en esta etapa se lleva a cabo
una semana después de terminar el proceso de asignación de cupos, en ella el estudiante
recibirá sugerencias de Instituciones de Educación Superior (IES) en donde aún existan
cupos disponibles en las carreras que elegidas (carrera inicial y carrera opcional).
Comprensiblemente para realizar dicha sugerencia se tomará en cuenta la ubicación
geográfica del estudiante ya que no todos los aspirantes que participan en el proceso de
asignación cuentan con los recursos necesarios para estudiar en lugares lejanos a su
domicilio, además de las carreras elegidas inicialmente, es aquí donde se marca la
Figura 15. Estudiantes con los mayores puntajes
38
diferencia en la sugerencia que realiza actualmente el Senescyt (Secretaría de Educación
Superior, Ciencia, Tecnología e Innovación), en la que se le recomienda al estudiante
carreras sin importar su ubicación geográfica y diferentes a las carreras de su
preferencia.
En este punto el estudiante se encuentra en un estado vulnerable al no obtener un cupo
para estudiar en la universidad y es allí donde la frustración y desesperación lo domina
y decide estudiar una carrera que no es de su preferencia pero que se le sugirió, esto
conlleva a la deserción estudiantil durante el tiempo que dura dicha carrera.
39
6. RESULTADOS
6.1 Resultados en Qlik Sense
Usando la herramienta de Business Intelligence, Qlik Sense se construyó un cuadro de
mando para controlar la visualización de los resultados de la asignación de cupos.
Se puede acceder a varios indicadores representados por los siguientes gráficos:
Número de aspirantes por carreras
Figura 17. Cantidad de aspirantes por Carrera
Figura 16. Dashboard de Resultados
40
En la figura 17 el eje x representa el número de aspirantes mientras que el eje y las
carreras universitarias, la barra de color marrón representa la mayor cantidad de
aspirantes en una carrera en este es Enfermería con 260 aspirantes. Las barras de color
azul muestran las carreras con menos aspirantes con respecto a Enfermería como es el
caso de Administración Pública con 92 aspirantes. Así muestra la cantidad de aspirantes
por cada una de las carreras universitarias.
Total de aspirantes por provincias
Figura 18. Total de aspirantes por provincias
En la figura 18 el eje x representa las provincias del ecuador mientras que el eje y el
número de aspirantes, los picos de color marrón representan las provincias con mayor
cantidad de aspirantes como es el caso de Pichincha con 457, Imbabura con 423,
Manabí con 397, Cotopaxi con 395, Carchi con 390 y Esmeraldas con 385 aspirantes
Las provincias con picos de color claro representan las provincias con menor cantidad
de aspirantes como Zamora Chinchipe con 16 y Orellana con 24. Así muestra la
cantidad de aspirantes por cada una de las provincias del Ecuador.
Total de aspirantes asignados por carreras (en porcentaje)
41
En la figura 19 se muestra el porcentaje de aspirantes asignados en las diferentes
carreras, la carrera con mayor porcentaje es Enfermería con 19% seguida de
Administración Pública con 15,1 %. Dentro de las carreras con menor número de
aspirantes asignados de muestra a Atención Pre-hospitalaria con 7% y Radiología con
7,1%.
Total de aspirantes asignados, no asignados y repostulados
En la figura
20 el eje x
Figura 19. Total de estudiantes Asignados por Carreras
Figura 20. Total de estudiantes por estado
42
representa los estados de los aspirantes mientras que el eje y la cantidad de aspirantes en
cada estado, la barra de color oscuro representa la mayor cantidad de aspirantes a
repostularse para obtener un cupo, la barra de color celeste representa los aspirantes que
no han obtenido cupo en ninguna carrera mientras que la barra color beige muestra la
cantidad de aspirantes asignados a alguna carrera. Así Asignados con aproximadamente
1000 estudiantes, No Asignados con menos de 200 estudiantes y Repostulados
alrededor de 2000 estudiantes.
43
7. CONCLUSIONES
El análisis de la base de datos de estudiantes mediante el software de Business
Intelligence Qlik Sense permite identificar las carreras de mayor demanda, estas
son: Medicina (24%), Enfermería (19%), Administración de Pública (16%),
Contabilidad y Auditoría (13%), Derecho (11%), Administración de
Empresas (8%), Odontología (6%), Bioquímica Clínica (3%).
Los datos más relevantes para realizar el análisis son: la nota obtenida en el
Examen Nacional de Educación Superior (ENES), la ubicación geográfica del
aspirante, la carrera elegida y el número de cupos disponibles.
Los procesos ETL organizan el flujo de información mediante el movimiento y
transformación de los datos, permitiendo crear reglas de negocios para
reformatearlos para su posterior carga en el Data Warehouse.
Es crucial asegurar la calidad de los datos mediante procesos ETL bien
diseñados para asegurar la veracidad de la información de los aspirantes.
El modelo copo de nieve diseñado con cuatro tablas de dimensiones (estado,
provincia, carrera y persona) normalizadas minimiza el número de valores nulos
y la posibilidad de generar incoherencias en la información de los aspirantes
economizando espacio en memoria.
La consolidación de los datos limpios en el Data Warehouse permite que la
información consultada sea fiable y homogénea mejorando el acceso a variedad
de datos de los estudiantes, entre esos: apellidos, nombres, cédula, nota,
provincia de origen entre otros.
44
La presentación de la información en Qlik Sense de forma dinámica ofrece al
usuario algunas opciones para personalizar el análisis de manera interactiva
mediante la filtración de campos determinados según su necesidad.
Mediante gráficos interactivos diseñados con la ayuda de Qlik Sense se
distinguen indicadores clave como: máximo número de cupos ofertados por
carreras, cantidad de estudiantes postulados en las diferentes carreras, número
de estudiantes asignados y repostulados, cantidad de aspirantes no asignados
por provincias, número de estudiantes pertenecientes al Grupo de Alto
Rendimiento (GAR).
45
8. RECOMENDACIONES
Las carreras de mayor demanda son Medicina y Administración, motivo por el
cual se considera que el Sistema Nacional de Nivelación y Admisión (SNNA)
disponga de la mayor cantidad de cupos en estas carreras.
Analizar los tiempos de ejecución de las consultas para asegurar el buen
rendimiento de la base de datos.
Apoyarse en el modelo copo de nieve por su nivel de granularidad para acceder
a los datos a un nivel más detallado.
Establecer un solo formato para el conjunto de datos limpios que van a ser
cargados en el Data Warehouse.
46
BIBLIOGRAFÍA
1. BERNABUE, D. (6 de Mayo de 2009). DATAPRIX. Obtenido de
http://www.dataprix.com/Data Warehouse -manager
2. CASILLAS SANTILLÁN, L. A., GINESTÁ, M. G., & PÉREZ MORA, Ó.
(s.f.). Obtenido de Bases de datos en MySQL:
http://ocw.uoc.edu/computer-science-technology-and-multimedia/bases-de-datos
/bases-de-datos/P06_M2109_02151.pdf
3. CHURA, R., & ANDONY, P. (Septiembre de 2015). Tecnologías de
Información y Comunicación II. INFORME: ETL y Modelo Estrella. Obtenido
de Inacap: http://inacap.serveftp.com/tic2/Presentaciones-N1/expo.pdf
4. Cit development. (19 de Mayo de 2014). Por qué elegir QlikView frente a otros
Business Intelligence. Obtenido de Cit development web site:
http://citdev.com/noticias/por-que-elegir-qlikview-frente-a-otros-business-intelli
gence/839
5. CRONO. (23 de Septiembre de 2010). DATAPRIX. Obtenido de
http://www.dataprix.com/blogs/bi-facil/tablas-hecho
6. DWH, S. (16 de Junio de 2009). Business Intelligence fácil. Obtenido de
http://www.businessintelligence.info/serie-dwh/tablas-de-hecho-fact-tables.html
7. JCESAR. (6 de Septiembre de 2011). Obtenido de Informática blog:
http://jcesar-27.blogspot.com/2011/09/DataWarehouse-esquemas-de-estrella-y.h
tml
47
8. MARTÍNEZ, I. (s.f.). Inform@tica. Obtenido de
http://indira-informatica.blogspot.com/2007/09/qu-es-mysql.html
9. PRECIADO, M. (22 de Noviembre de 2012). Base de datos mysql. Obtenido de
Base de datos mysql web site: http://tecnoparquelossistemas.blogspot.com/
10. QlikTech. (20 de Diciembre de 2010). DATAPRIX. Obtenido de
http://www.dataprix.com/empresa/recursos/ventajas-tecnologia-in-memory-qlik
view
11. Sinnexus. (2007). Sinnexus Business Intelligence Informática Estratégica.
Obtenido de Sinnexus web site: http://www.sinnexus.com/business_intelligence/
12. COMERCIO, E. (2 de Mayo de 2014). 19 cosas que usted debe saber para
escoger una carrera desde este lunes 5 de mayo, págs.
http://www.elcomercio.com/tendencias/19-cosas-que-usted-debe.html.
13. VITERI CASTRO, D. & M. A. (2011). Estudio sobre la deserción estudiantil en
la Pontificia Universidad Católica del Ecuador - Matriz, en los niveles 1ro, 2do
y 3ero de todas las Facultades y Escuelas del primer semestre del año
académico 2007-2008. Quito.
14. JAMES, R. (12 de Junio de 2014). Hermosa Programación. Obtenido de
Hermosa Programación:
http://www.hermosaprogramacion.com/2014/06/mysql-procedure-show-create/
15. Powerdata. (13 de Junio de 2013). Blog Powerdata. Obtenido de
http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288859/Procesos-E
TL-Extracci-n-Transformaci-n-Carga
48
16. SNNA. (2014). Noticias. Obtenido de
http://www.snna.gob.ec/wp-content/themes/institucion/comunicamos_noticias42
.php
17. SNNA. (2014). Sistema Nacional de Nivelación y Admisión. Obtenido de
Sistema Nacional de Nivelación y Admisión:
http://www.snna.gob.ec/wp-content/themes/institucion/comunicamos_noticias51
.php
18. UNIVERSO, D. E. (30 de Noviembre de 2014). En dos años disminuyó el
ingreso a la universidad en Ecuador.
19. VICENT, T. (1989). ANALISIS DE LA DESERCION ESTUDIANTIL EN LA
UNIVERSIDAD AUTONOMA METROPOLITANA. Jossey Bass Inc.
49
ANEXOS
50
Anexo A
Script para la Extracción, Transformación y Carga de los datos.
Extracción de datos desde los archivos fuentes en formato .csv.
Script para extraer los datos de los aspirantes
Script para extraer las carreras
Script para extraer las provincias
Script para extraer las facultades
Transformación de los datos
Script para concatenar las columnas “primer_apellido” y “segundo_apellido”
Script para convertir de mayúsculas a minúsculas
51
Script para obtener los aspirantes que han sido asignados a alguna carrera.
Script para obtener los aspirantes no asignados.
Script para obtener los aspirantes que deben repostularse para obtener un cupo.
52
Carga de los datos en el Data Warehouse
Script para cargar las dimensiones del Data Warehouse
53
Script para la carga de datos en la tabla de hechos fac_aspirante
54
Anexo B
Descarga e instalación de las herramientas utilizadas
Descarga e Instalación de MySQL
1. Ingrese a la página web https://dev.mysql.com/downloads/ , seleccione MySQL
Workbench, luego elija el sistema operativo y la versión que desea descargar.
2. Comenzará la descarga del archivo
mysql-workbench-community-6.3.6-winx64.msi, una vez completa la descarga
presione click derecho e Instalar, le aparecerá la ventana de inicio del instalador.
Seleccione “Next” para continuar.
55
3. Seleccione el tipo de instalación “Complete”, luego presione “Next”.
4. En esta venta le aparecerá la dirección en la que se instalará C:\Program
Files\MySQL\MySQL Workbench 6.3 CE y presione “Next”.
56
5. En esta ventana se visualizará el proceso de instalación
6. Esta ventana aparece cuando se a completa la instalación, presione finalizar y
empiece a usar MySQL.
57
Descarga e instalación de Qlik Sense
1. Ingrese a la página http://global.qlik.com/es/explore/products/free-download y
descargue Qlik Sense Desktop
2. Comenzará la descarga del archivo Qlik_Sense_Desktop_setup.exe, una vez
completa la descarga presione click derecho e Instalar, le aparecerá la ventana de
inicio del instalador. Seleccione “INSTALL” para continuar.
58
3. Acepte lo términos de la licencia y presione “Next” para continuar.
4. Luego aparecerá la siguiente ventana, presione “Install” para continuar.
59
5. Esta ventana aparecerá cuando la instalación culmine, presione “Finish” y empiece
a utilizar Qlik Sense Desktop.
60
Descarga e instalación del Conector ODBC
1. Ingrese a la página web https://dev.mysql.com/downloads/connector/odbc/5.3.html,
seleccione Connector/ODBC 5.3.6, luego elija el sistema operativo y la versión que
desea descargar.
2. Comenzará la descarga del archivo
mysql-workbench-community-6.3.6-winx64.MSI, una vez completa la descarga
presione click derecho e Instalar, le aparecerá la ventana de inicio del instalador.
Seleccione “Next” para continuar.
61
3. Seleccione la opción “Modify” y presione “Next” para continuar.
4. En esta ventana presione “Next” para continuar.
5. En esta ventana se despliega la dirección en la que se va a instalar C:\Program
Files\MySQL\MySQL Workbench 6.3 CE.
62
6. En esta ventana se visualizará el proceso de instalación.
7. Esta ventana aparece cuando se a completa la instalación, presione finalizar y
empiece a usar el Conector ODBC.
63