UNIVERSIDAD CENTRAL DEL ECUADOR - … · 5.3 Modelo Lógico ... (ENES) como requisito para acceder...

UNIVERSIDAD CENTRAL DEL ECUADOR

FACULTAD DE INGENIERÍA CIENCIAS FÍSICAS Y MATEMÁTICA

CARRERA DE INGENIERÍA INFORMÁTICA

ANÁLISIS PARA LA ASIGNACIÓN DE CUPOS A CARRERAS

UNIVERSITARIAS A ESTUDIANTES MEDIANTE UN SOFTWARE DE

BUSINESS INTELLIGENCE

TRABAJO DE GRADUACIÓN, PREVIO A LA OBTENCIÓN DEL TITULO DE

INGENIERA INFORMÁTICA

AUTOR: CARMEN VANESSA CASTILLO VILLAREAL

TUTOR: ING. MARIO RAÚL MORALES MORALES

QUITO – 03 DE AGOSTO

2016

ii

DEDICATORIA

A Dios, por haberme dado salud para cumplir mis objetivos y fuerza para no desmayar

ante los problemas que se me presentaron.

A mis padres, a quienes les debo todo lo que soy, siempre estuvieron a mi lado

brindándome su amor, apoyo, comprensión y consejos para hacer de mí una mejor

persona.

A mis hermanas y hermano, por sus palabras de aliento en momentos difíciles.

iii

AGRADECIMIENTO

A mi familia por brindarme el apoyo necesario en cada uno de los momentos difíciles

de mi vida.

A mis ingenieros por los conocimientos inculcados durante toda mi etapa universitaria.

A mis amigas y amigos que me acompañaron durante toda mi carrera universitaria.

A mi tutor Mario Morales por la paciencia y guía durante el desarrollo de este proyecto.

iv

AUTORIZACIÓN DE LA AUTORÍA INTELECTUAL

Yo, Carmen Vanessa Castillo Villareal, en calidad de autora del Trabajo de

Investigación: “Análisis para la asignación de cupos a carreras universitarias a

estudiantes mediante un software de Business Intelligence”, autorizo a la

UNIVERSIDAD CENTRAL DEL ECUADOR, hacer uso de todos los contenidos que

me pertenecen o parte de los que contiene esta obra, con fines estrictamente académicos

o de investigación.

Los derechos que como autora me corresponden, con excepción de la presente

autorización, seguirán vigentes a mi favor, de conformidad con lo establecido en los

artículos 5, 6, 8, 19 y demás pertinentes de la Ley de Propiedad Intelectual y su

Reglamento.

Asimismo, autorizo a la Universidad Central del Ecuador para que realice la

digitalización y publicación de este trabajo de investigación en el repositorio virtual, de

conformidad a lo dispuesto en el Art. 144 de la Ley Orgánica de Educación Superior.

Quito, 28 de Julio de 2016

Carmen Vanessa Castillo Villareal

CI: 1722869805

Telf: 0982535424

Email: [email protected]

v

CERTIFICACIÓN DEL TUTOR

Yo, Mario Morales Morales en calidad de tutor del trabajo de titulación Análisis para la

asignación de cupos a carreras universitarias a estudiantes mediante un software de

Business Intelligence, elaborado por la estudiante Carmen Vanessa Castillo Villareal de

la Carrera de Ingeniería Informática, Facultad de Ingeniería, Ciencias Físicas y

Matemática de la Universidad Central del Ecuador, considero que el mismo reúne los

requisitos y méritos necesarios en el campo metodológico y en el campo

epistemológico, para ser sometido a la evaluación por parte del jurado examinador que

se designe, por lo que APRUEBO, a fin de que el trabajo investigativo sea habilitado

para continuar con el proceso de titulación determinado por la Universidad Central del

Ecuador.

En la ciudad de Quito, a los 8 días de Abril del 2016.

MARIO RAÚL MORALES MORALES

CC: 170902657-7

viii

CONTENIDO

pág.

RESUMEN ................................................................................................................ xiii

ABSTRACT .............................................................................................................. xiv

INTRODUCCIÓN ........................................................................................................ 1

1. OBJETIVOS .......................................................................................................... 3

1.1 Objetivo general .................................................................................................... 3

1.2 Objetivos específicos.............................................................................................. 3

2. ALCANCE DEL PROYECTO ............................................................................. 3

3. LIMITACIONES .................................................................................................. 5

4. MARCO TEÓRICO.............................................................................................. 6

4.1 La deserción y el carácter de las metas individuales ............................................ 6

4.2 Extracción, Transformación y Carga (ETL) ........................................................ 7

4.2.1 Proceso de Extracción.................................................................................... 7

4.2.2 Proceso de Transformación ........................................................................... 8

4.2.3 Proceso de Carga ........................................................................................... 8

4.3 Sistema de Gestión de Base de Datos MySQL ...................................................... 9

4.3.1 Prestaciones MySQL ...................................................................................... 9

4.4 Procedimientos Almacenados (SP) ..................................................................... 10

4.4.1 Ventajas De Usar Procedimientos En MySQL ............................................. 10

4.4.2 Parámetros De Entrada Y Salida En Un Procedimiento ............................. 11

4.5 Esquema de Estrella ............................................................................................ 11

4.6 Esquema de Copo de Nieve ................................................................................. 12

4.6.1 Tabla de hechos ........................................................................................... 13

4.6.2 Tabla de dimensiones ................................................................................... 14

4.7 Data Warehouse: Almacén de Datos .................................................................. 15

ix

4.7.1 Características.............................................................................................. 16

4.7.2 Aportaciones ................................................................................................ 18

4.8 Business Intelligence: Inteligencia de Negocios .................................................. 19

4.9 Qlik Sense: Innovación en el manejo de datos ................................................... 20

4.9.1 Prestaciones ................................................................................................. 21

5. DESARROLLO DEL PROYECTO ................................................................... 23

5.1 Análisis Cualitativo ............................................................................................. 23

5.2 Archivos fuente .................................................................................................... 24

5.2.1 Aspirantes.xlsx ............................................................................................. 24

5.2.2 Facultades.xlsx ............................................................................................ 24

5.2.3 Carreras.xlsx ................................................................................................ 25

5.2.4 Provincias.xlsx ............................................................................................. 25

5.3 Modelo Lógico ..................................................................................................... 26

5.3.1 Descripción del modelo lógico ..................................................................... 26

5.4 Modelo Físico ....................................................................................................... 28

5.5 Diseño del Data Warehouse ................................................................................ 29

5.6 Modelo conceptual (Esquema Copo de nieve) .................................................... 29

5.6.1 Fac_aspirante .............................................................................................. 30

5.6.2 Dim_persona ................................................................................................ 31

5.6.3 Dim_estado .................................................................................................. 31

5.6.4 Dim_provincia.............................................................................................. 31

5.6.5 Dim_carrera ................................................................................................. 31

5.7 Procesos ETL ....................................................................................................... 31

5.7.1 Extracción .................................................................................................... 32

5.7.2 Transformación ........................................................................................... 32

5.7.3 Carga ........................................................................................................... 33

5.8 Algoritmo ............................................................................................................. 33

6. RESULTADOS.................................................................................................... 39

6.1 Resultados en Qlik Sense .................................................................................... 39

7. CONCLUSIONES ............................................................................................... 43

x

8. RECOMENDACIONES ..................................................................................... 45

BIBLIOGRAFÍA ...................................................................................................... 46

ANEXOS ................................................................................................................... 49

Anexo A ..................................................................................................................... 50

Script para la Extracción, Transformación y Carga de los datos. .......................... 50

Anexo B ..................................................................................................................... 54

Descarga e instalación de las herramientas utilizadas ............................................. 54

xi

LISTA DE FIGURAS

pág.

Figura 1. Proceso ETL ................................................................................................ 7

Figura 2. Esquema copo de nieve ............................................................................. 13

Figura 3. Tabla de hechos “ventas” .......................................................................... 14

Figura 4. Tablas de dimensiones .............................................................................. 14

Figura 5. Procesos del Data Warehouse ................................................................... 17

Figura 6. Business Intelligence ................................................................................. 19

Figura 7. Archivo Aspirantes ................................................................................... 24

Figura 8. Archivo Facultades ................................................................................... 25

Figura 9. Archivo Carreras ...................................................................................... 25

Figura 10. Archivo Provincias .................................................................................. 26

Figura 11. Modelo lógico de la base de datos ........................................................... 26

Figura 12. Modelo físico............................................................................................ 28

Figura 13. Modelo copo de nieve empleado ............................................................. 30

Figura 14. Diagrama de flujo.................................................................................... 36

Figura 15. Estudiantes con los mayores puntajes .................................................... 37

Figura 16. Dashboard de Resultados ........................................................................ 39

Figura 17. Cantidad de aspirantes por Carrera ...................................................... 39

Figura 18. Total de aspirantes por provincias ......................................................... 40

Figura 19. Total de estudiantes Asignados por Carreras ........................................ 41

Figura 20. Total de estudiantes por estado .............................................................. 41

xii

LISTA DE TABLAS

pág.

Tabla 1. Diferencias Data Warehouse vs Sistema tradicional ................................. 18

Tabla 2. Tabla Aspirante .......................................................................................... 27

Tabla 3. Tabla Provincia .......................................................................................... 27

Tabla 4. Tabla Carrera ............................................................................................. 28

Tabla 5. Tabla Facultad ............................................................................................ 28

Tabla 6. Código del estado del aspirante .................................................................. 31

xiii

RESUMEN

ANÁLISIS PARA LA ASIGNACIÓN DE CUPOS DE CARRERAS

UNIVERSITARIAS A ESTUDIANTES MEDIANTE UN SOFTWARE DE

BUSINESS INTELLIGENCE, MODALIDAD PROYECTO INTEGRADOR

Autora: Carmen Vanessa Castillo Villareal

Tutor: Mario Raúl Morales Morales

La deserción universitaria es uno de los principales problemas que enfrentan las

instituciones de Educación Superior Pública en Ecuador, debido a que el proceso de

asignación de cupos a carreras universitarias involucra factores complejos que hacen

difícil la implementación de planes estratégicos que disminuyan los índices de deserción

universitaria en el país. En este proyecto se busca la explotación eficaz de la

información de estudiantes de la Universidad Central del Ecuador con la finalidad de

mejorar la toma de decisiones durante el proceso de asignación y distribución de cupos

según la demanda de cada una de las carreras ofertadas. Se realizó el proceso de

Extracción, Transformación y Carga (ETL) para facilitar el movimiento y

transformación de los datos con el objetivo de consolidarlos en un Data Warehouse,

Qlik Sense como herramienta de Business Intelligence para la mejor visualización de la

información para realizar el análisis.

PALABRAS CLAVES: DESERCIÓN UNIVERSITARIA/ ASIGNACIÓN DE

CUPOS/ CARRERAS UNIVERSITARIAS/ ETL/ DATA WAREHOUSE/ BUSINESS

INTELLIGENCE/ QLIK SENSE

xiv

ABSTRACT

ANALYSIS FOR THE ALLOCATION OF QUOTAS A CAREER COLLEGE

STUDENTS THROUGH A SOFTWARE BUSINESS INTELLIGENCE,

INTEGRATOR PROJECT MODE

Author: Carmen Vanessa Castillo Villareal

Tutor: Mario Raúl Morales Morales

The university desertion is one of the main problems that Public Higher Education

institutions face because the assignment process quotas to university careers involves

complex factors that make it difficult the implementation of strategic plans that reduce

university desertion indices in the country. This project seeks the effective exploitation

of the information of students from the Central University of Ecuador with the purpose

of improve decision-making during the process of assignment and distribution of quotas

according to the demand of each of the careers offered. It was performed the process of

extraction, transformation and loading (ETL) for easy movement and transformation of

data with the objective of consolidate them into a Data Warehouse, Qlik Sense as

Business Intelligence tool for better visualization of the information to perform the

analysis.

KEYWORDS: UNIVERSITY DESERTION/ ASSIGNMENT QUOTAS/

UNIVERSITY CAREERS/ DATA WAREHOUSE/ ETL/ SNOWFLAKE/

DATABASE / QLIK SENSE

1

INTRODUCCIÓN

La Deserción Universitaria es un fenómeno que afecta a todas las instituciones

educativas, según el INEC, la tasa de matriculación en la educación superior cayó de

30,1% en el 2011, año en que se estableció la prueba de admisión, a 26,6% en el 2013.

(Universo, 2014)

Es por esta razón, que se requiere realizar estudios que permitan conocer las causas que

provocan el retiro voluntario de los estudios universitarios, para que de esa manera las

Instituciones de Educación Superior puedan implementar planes estratégicos que

disminuyan la frecuencia de deserción que involucren los factores personales,

académicos y económicos, que influyen en esta decisión. (Viteri & Castro, 2011)

En la actualidad, un estudiante que abandona la educación superior, crea una vacante

que pudo ser ocupada por otro alumno que persistiera en sus estudios universitarios. Por

consiguiente, esta pérdida causa serios problemas financieros a las instituciones al

producir inestabilidad en la fuente de recursos, incumplimiento de metas establecidas,

pérdidas financieras y de capital humano (Yacelga & Yépez, 2009).

En el 2010, la Ley de Educación Superior dispuso que el ingreso a las instituciones de

educación superior públicas estaría regulado a través del Sistema de Nivelación y

Admisión, que desde el 2011 estableció el Examen Nacional para la Educación Superior

(ENES) como requisito para acceder a la educación superior y obtener un título de

tercer nivel (El Universo, 2014). Adicionalmente, la Secretaría de Educación Superior,

Ciencia, Tecnología e Innovación (Senescyt) realiza cada seis meses el proceso de

asignación de cupos para el ingreso a las Instituciones de Educación Superior (IES), a

través de un sistema informático automatizado.

2

Este proceso responde al artículo 27 del Reglamento del Sistema Nacional de

Nivelación y Admisión (SNNA), el cual menciona que: “la asignación de cupos se

realizará ante un notario público quien dará fe de la asignación de los cupos de

carrera para el ingreso a las instituciones de educación superior públicas del país”, lo

cual garantiza una asignación de cupos transparente, y meritocrática, y ofrece la

posibilidad a todos los jóvenes para ingresar a la educación superior en igualdad de

oportunidades (Zapata, 2015).

Aunque en la actualidad, no se han realizado estudios sobre deficiencias en el proceso

automatizado de la asignación de cupos que realiza la Senescyt, este proyecto busca

optimizar el proceso actual de asignación de cupos a carreras universitarias mediante el

análisis de una base de datos proporcionada por la Comisión de Evaluación Interna de la

Universidad Central del Ecuador. Dicho análisis será realizado a través de una

herramienta de Business Intelligence (BI) que permitirá contemplar datos relevantes del

estudiante tales como: la ubicación, nota del examen, carrera principal y carrera

opcional.

3

1. OBJETIVOS

1.1 Objetivo general

Analizar una base de datos de estudiantes mediante un software de Business Intelligence

para asignar cupos a carreras universitarias.

1.2 Objetivos específicos

Identificar los datos más relevantes de la base de datos.

Efectuar la extracción, transformación y carga de los datos.

Construir el modelo copo de nieve con la tabla de hechos y sus dimensiones.

Consolidar los datos limpios en un Data Warehouse.

Expresar la información analizada mediante gráficos de fácil interpretación visual.

2. ALCANCE DEL PROYECTO

El análisis de la base de datos de estudiantes de la Universidad Central del Ecuador

mediante un Software de Business Intelligence (BI) pretende optimizar el proceso de

asignación de cupos a carreras universitarias con la finalidad de disminuir los índices de

deserción estudiantil causada por la insatisfacción en el cupo asignado después de rendir

el Examen Nacional de Educación Superior (ENES).

De hecho, se considera que el factor más importante en la asignación de los cupos es la

nota de examen de manera concomitante con la carrera principal y las opcionales; sin

embargo, hay otros factores que son requeridos durante el proceso de inscripción como:

ubicación geográfica, universidad, disponibilidad de cupos y horarios, datos que en la

actualidad se considera que el Senescyt no toma en cuenta al momento de realizar la

oferta académica semestral. (SNNA, 2014)

4

En la actualidad, se considera que en el proceso de asignación de cupos debe tomar en

cuenta cada uno de los parámetros solicitados en el momento de la inscripción para que

el aspirante no sea afectado por haber sido asignado a una carrera que no está entre las

de su preferencia, la dificultad de trasladarse por la ubicación geográfica de la

Universidad a la cual ha sido referido, la mayoría elige universidades a las que ellos

consideran que podrán acceder según sus recursos económicos, opción que es

minimizada al momento de realizar la asignación de los cupos. (SNNA, 2014)

Durante el proceso de postulación y repostulación se ha reportado que si el estudiante

no está conforme con el cupo asignado puede rechazarlo y repostularse; sin embargo, la

repostulación no garantiza que el aspirante se encuentre en la situación inicial o tome la

asignación de manera insatisfactoria por inseguridad de no volver a obtener un cupo,

motivos con llevan con el pasar del tiempo a la deserción estudiantil. (SNNA, 2014)

Tales motivos son los que incentivan a realizar un análisis para la asignación de cupos

a carreras universitarias a estudiantes empleando un software de Business Intelligence

(BI), el cual oferta una reducción en el número de carreras que puedan elegir los

aspirantes, una carrera principal y una carrera opcional para asegurar que la elección del

aspirante sea consiente y considere las carreras que verdaderamente desea seguir.

El análisis de la base de datos contempla:

El proceso de Extracción, Transformación y Carga (ETL) de la base de datos.

Presentación de un análisis consolidando datos relevantes de estudiantes tales

como el número de cupos ofertados, la ubicación, nota del examen, carrera

principal y carrera opcional.

Visualización de los datos con gráficos atractivos y tecnológicamente

avanzados.

5

3. LIMITACIONES

Dentro de las limitaciones del proyecto se contemplan:

No contempla modelos de minería de datos.

Las carreras a asignarse solo son las existentes en la Universidad Central del

Ecuador.

No permite la apertura de más cupos que los ofertados desde el inicio.

La obtención de los datos fuentes no se realiza de forma automática.

La fidelidad de los resultados se asegura si los datos fuentes cargados cumplen

los requisitos preestablecidos.

El Data Warehouse no está disponible en un servidor.

6

4. MARCO TEÓRICO

4.1 La deserción y el carácter de las metas individuales

La definición de deserción, desde una perspectiva individual, debe referirse a las metas

y propósitos que tienen las personas al incorporarse al sistema de educación superior, ya

que la gran diversidad de fines y proyectos caracteriza las intenciones de los estudiantes

que ingresan a una institución, y algunos de ellos no se identifican con la graduación ni

son necesariamente compatibles con los de la institución en que ingresaron por primera

vez. Más aún, las metas pueden no ser perfectamente claras para la persona que se

inscribe en la universidad y cambiar durante la trayectoria académica. (Vicent, 1989)

Siempre habrá en una institución algunos estudiantes cuyas metas educativas son más

limitadas o más amplias que las de la universidad a la que han ingresado. Para los

alumnos con metas educativas restringidas, su actuación en la educación superior a

menudo sólo implica acumular una cantidad determinada de créditos necesarios para

certificaciones con fines profesionales, ascensos en el trabajo. (Vicent, 1989)

Para estudiantes que trabajan medio tiempo, asistir a la universidad puede implicar el

propósito de adquirir un conjunto de habilidades específicas (más bien que generales)

requeridas por las tareas que desempeñan. Para estos estudiantes, como para otros,

completar un programa de estudios puede no constituir un fin deseable; una corta

asistencia a la universidad, en vez de la prolongada necesaria para terminar una carrera,

puede resultar suficiente para lograr sus metas. Es posible encontrar la misma situación

en aquellos alumnos cuyas metas educativas superan a las de la institución. (Vicent,

1989)

7

4.2 Extracción, Transformación y Carga (ETL)

ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and

Load) es un término estándar que se utiliza para referirse al movimiento y

transformación de datos. Se trata del proceso que permite a las organizaciones mover

datos desde múltiples fuentes, reformatearlos y cargarlos en otra base de datos

(denominada Datamart o Data Warehouse), con el objeto de analizarlos. También

pueden ser enviados a otro sistema operacional para apoyar un proceso de negocio.

Figura 1. Proceso ETL

En la Figura 1, el Data Warehouse se alimenta de los datos operacionales mediante

diversas herramientas ETL. (Inacap, 2014)

4.2.1 Proceso de Extracción

Consiste en obtener los datos del sistema origen, realizando volcados completos o

incrementales. En ocasiones esta etapa suele apoyarse en un almacén intermedio,

llamado ODS (Operational Data Store), que actúa como pasarela entre los sistemas

fuente y los sistemas destino, y cuyo principal objetivo consiste en evitar la saturación

de los servidores funcionales de la organización. (Classora, 2013)

Es necesario extremar la cautela en esta fase del proceso de ETL que es la extracción,

por lo que se debe tener en cuenta que:

http://en.wikipedia.org/wiki/Operational_data_store

8

En el momento de la extracción, análisis e interpretación: los formatos en que se

presenten los datos o los modos como éstos estén organizados pueden ser

distintos en cada sistema separado, ya que la mayoría de los proyectos de

almacenamiento de datos fusionan datos provenientes de diferentes sistemas de

origen.

En el momento de la conversión de datos: conviene recordar que los formatos de

las fuentes normalmente se encuentran en bases de datos relacionales o ficheros

planos, pero pueden incluir bases de datos no relacionales u otras estructuras

diferentes. (Powerdata, 2013)

4.2.2 Proceso de Transformación

La fase de transformación de un proceso de ETL aplica una serie de reglas de negocio o

funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Estas

directrices pueden ser declarativas, pueden basarse en excepciones o restricciones pero,

para potenciar su pragmatismo y eficacia, hay que asegurarse de que sean:

Declarativas.

Independientes.

Claras.

Inteligibles.

4.2.3 Proceso de Carga

En esta fase, los datos procedentes de la fase anterior (fase de transformación) son

cargados en el sistema de destino. Dependiendo de los requerimientos de la

organización, este proceso puede abarcar una amplia variedad de acciones diferentes.

(Powerdata, 2013)

Existen dos formas básicas de desarrollar el proceso de carga:

9

Acumulación simple: esta manera de cargar los datos consiste en realizar un

resumen de todas las transacciones comprendidas en el período de tiempo

seleccionado y transportar el resultado como una única transacción hacia el

Data Warehouse. Es la forma más sencilla y común de llevar a cabo el proceso

de carga.

Rolling: este proceso sería el más recomendable en los casos en que se busque

mantener varios niveles de granularidad. Para ello se almacena información

resumida a distintos niveles, correspondientes a distintas agrupaciones de la

unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las

dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales

semanales, totales mensuales, etc.). (Powerdata, 2013)

4.3 Sistema de Gestión de Base de Datos MySQL

MySQL es un sistema gestor de bases de datos (SGBD, DBMS por sus siglas en inglés)

muy conocido y ampliamente usado por su simplicidad y notable rendimiento.

Las diferencias de MySQL con cualquier otra plataforma son prácticamente nulas, ya

que la herramienta utilizada en este caso es el cliente mysql-client, que permite

interactuar con un servidor MySQL (local o remoto) en modo texto. (Preciado, 2012)

4.3.1 Prestaciones MySQL

Es un SGBD que ha ganado popularidad por una serie de atractivas características

(Casillas Santillán, Ginestá, & Pérez Mora):

Está desarrollado en C/C++.

Se distribuyen ejecutables para cerca de diecinueve plataformas diferentes.

La API se encuentra disponible en C, C++, Eiffel, Java, Perl, PHP, Python,

Ruby y TCL.

10

Está optimizado para equipos de múltiples procesadores.

Es muy destacable su velocidad de respuesta.

Se puede utilizar como cliente-servidor o incrustado en aplicaciones.

Cuenta con un rico conjunto de tipos de datos.

Soporta múltiples métodos de almacenamiento de las tablas, con prestaciones y

rendimiento diferentes para poder optimizar el SGBD a cada caso concreto.

Su administración se basa en usuarios y privilegios.

Se tiene constancia de casos en los que maneja cincuenta millones de registros,

sesenta mil tablas y cinco millones de columnas.

Sus opciones de conectividad abarcan TCP/IP, sockets UNIX y sockets NT,

además de soportar completamente ODBC.

Los mensajes de error pueden estar en español y hacer ordenaciones correctas

con palabras acentuadas o con la letra ’ñ’.

Es altamente confiable en cuanto a estabilidad se refiere.

4.4 Procedimientos Almacenados (SP)

Un procedimiento es un conjunto de instrucciones que se guardan en el servidor para un

posterior uso, ya que se ejecutarán frecuentemente. En MySQL se nombran con la

cláusula ”PROCEDURE”.

A diferencia de las funciones, los procedimientos son rutinas que no retornan en ningún

tipo de valor. Simplemente se llaman desde el cliente con un comando y las

instrucciones dentro del procedimiento se ejecutarán. (James, 2014)

4.4.1 Ventajas De Usar Procedimientos En MySQL

Seguridad: Los procedimientos ocultan el nombre de las tablas a usuarios que

no tengan los privilegios para manipular datos. Simplemente llaman los

procedimientos sin conocer la estructura de la base de datos.

http://www.hermosaprogramacion.com/2014/05/bases-de-datos.html

11

Estándares de código: En un equipo de desarrollo usar el mismo

procedimiento permite crear sinergia en las fases de construcción. Si cada

programador crea su propio procedimiento para realizar la misma tarea,

entonces podrían existir problemas de integridad y pérdida de tiempo

Velocidad: Es mucho más fácil ejecutar un programa ya definido mediante

ciertos parámetros, que reescribir de nuevo las instrucciones.

4.4.2 Parámetros De Entrada Y Salida En Un Procedimiento

Un parámetro es un dato necesario para el funcionamiento del procedimiento, ya que

contribuyen al correcto desarrollo de las instrucciones del bloque de instrucciones.

Los parámetros pueden ser de entrada (IN), salida (OUT) o entrada/salida (INOUT) y

deben tener definido un tipo. Un parámetro de entrada en un dato que debe ser

introducido en la llamada del procedimiento para definir alguna acción del bloque de

instrucciones. (James, 2014)

Un parámetro de salida es un espacio de memoria en el cual el procedimiento devolverá

almacenado su resultado. Y un parámetro de entrada/salida contribuye tanto como a

ingresar información útil como para almacenar los resultados del procedimiento. Por

defecto, si no indicas el tipo de parámetro MySQL asigna IN. (James, 2014)

4.5 Esquema de Estrella

Esquema de la estrella es la arquitectura de almacén de datos más simple. En este diseño

del almacén de datos la tabla de Variables (Hechos) esta rodeada por Dimensiones y

juntos forman una estructura que permite implementar mecanismos básicos para poder

utilizarla con una herramienta de consultas OLAP. (Fabrizzio, 2011)

12

Lo característico de la arquitectura de estrella es que sólo existe una tabla de

dimensiones para cada dimensión.

Esto quiere decir que la única tabla que tiene relación con otra es la de hechos, lo que

significa que toda la información relacionada con una dimensión debe estar en una sola

tabla. (Fabrizzio, 2011)

Esquema estrella del Almacén de Datos implementa un diseño lógico relacional de base

de datos que resulta en que las tablas de hechos representan la Tercera Forma Normal

(3FN) y las dimensiones representan la Segunda Forma Normal (2FN).

4.6 Esquema de Copo de Nieve

El esquema en copo de nieve (snowflake schema) es un esquema de representación

derivado del esquema en estrella, en el que las tablas de dimensión se normalizan en

múltiples tablas como se puede ver en a Figura 2. Por esta razón, la tabla de hechos deja

de ser la única tabla del esquema que se relaciona con otras tablas, y aparecen nuevos

joins gracias a que las dimensiones de análisis se representan ahora en tablas de

dimensión normalizadas. (jcesar, 2011)

http://3.bp.blogspot.com/-dZrPX4p225M/Tmau_0o66nI/AAAAAAAAABQ/N7TSQmF3sdM/s1600/480px-Esquema_en_copo_de_nieve.png

13

Figura 2. Esquema copo de nieve

En la estructura dimensional normalizada, la tabla que representa el nivel base de la

dimensión es la que hace join directamente con la tabla de hechos. La diferencia entre

ambos esquemas (star y snowflake) reside entonces en la estructura de las tablas de

dimensión.

Para conseguir un esquema en copo de nieve se ha de tomar un esquema en estrella y

conservar la tabla de hechos, centrándose únicamente en el modelado de las tablas de

dimensión, que si bien en el esquema en estrella se encontraban totalmente

desnormalizadas, ahora se dividen en subtablas tras un proceso de normalización.

(jcesar, 2011).

4.6.1 Tabla de hechos

Denominamos “hechos” a los indicadores de negocio. Por ejemplo, son “hechos” las

ventas, los pedidos, los envíos, las reclamaciones, las compras, etc. Es decir, son todas

aquellas medidas numéricas que incluiremos en nuestro sistema Business Intelligence.

Técnicamente, una tabla de hecho es la tabla central de un modelo en estrella. En la

Figura 3, la tabla de ventas es la tabla de hechos. (Crono, 2010)

14

Figura 3. Tabla de hechos “ventas”

Una característica importante de las tablas de hecho es el “nivel de detalle” de la

información que se almacena. En el anterior ejemplo, las ventas están guardadas a nivel

de cliente, producto, almacén, promoción y fecha.

La tabla de hechos contiene las claves subrogadas de aquellas dimensiones que definen

su nivel de detalle, y los indicadores, nada más. Por lo tanto, antes de crear la tabla de

hechos debe entenderse perfectamente la información que se guardará. (Crono, 2010)

4.6.2 Tabla de dimensiones

Las tablas de dimensiones definen como están los datos organizados lógicamente y

proveen el medio para analizar el contexto del negocio. Contienen datos cualitativos.

Representan los aspectos de interés, mediante los cuales los usuarios podrán filtrar y

manipular la información almacenada en la tabla de hechos. En la Figura 4 se pueden

apreciar algunos ejemplos:

Figura 4. Tablas de dimensiones

Más detalladamente, cada tabla de dimensión podrá contener los siguientes campos:

Clave principal o identificador único.

Clave foráneas.

15

Datos de referencia primarios: datos que identifican la dimensión. Por ejemplo:

nombre del cliente.

Datos de referencia secundarios: datos que complementan la descripción de la

dimensión. Por ejemplo: e-mail del cliente, fax del cliente, etc.

Usualmente la cantidad de tablas de dimensiones, aplicadas a un tema de interés en

particular, varían entre tres y quince (Bernabeu, 2009).

4.7 Data Warehouse: Almacén de Datos

Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades

informacionales, surge el concepto de Data Warehouse, como solución a las

necesidades informacionales globales de la empresa. Este término acuñado por Bill

Inmon, se traduce literalmente como Almacén de Datos. No obstante si el Data

Warehouse fuese exclusivamente un almacén de datos, los problemas seguirían siendo

los mismos que en los Centros de Información. (DATAPRIX)

La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la

estructura de la información. Este concepto significa el almacenamiento de información

homogénea y fiable, en una estructura basada en la consulta y el tratamiento

jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales.

Según definió Bill Inmon, el Data Warehouse se caracteriza por ser:

Integrado: los datos almacenados en el Data Warehouse deben integrarse en

una estructura consistente, por lo que las inconsistencias existentes entre los

diversos sistemas operacionales deben ser eliminadas. La información suele

estructurarse también en distintos niveles de detalle para adecuarse a las

distintas necesidades de los usuarios.

16

Temático: sólo los datos necesarios para el proceso de generación del

conocimiento del negocio se integran desde el entorno operacional. Los datos se

organizan por temas para facilitar su acceso y entendimiento por parte de los

usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser

consolidados en una única tabla del Data Warehouse.

Histórico: el tiempo es parte implícita de la información contenida en un Data

Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado

de la actividad del negocio en el momento presente. Por el contrario, la

información almacenada en el Data Warehouse sirve, entre otras cosas, para

realizar análisis de tendencias.

No volátil: el almacén de información de un Data Warehouse existe para ser

leído, y no modificado. La información es por tanto permanente, significando la

actualización del Data Warehouse la incorporación de los últimos valores que

tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre

lo que ya existía.

4.7.1 Características

Los Data Warehouse contienen datos relativos a los datos, concepto que se ha venido

asociando al término de metadatos. Los metadatos permiten mantener información de la

procedencia de la información, la periodicidad de refresco, su fiabilidad, forma de

cálculo, etc., relativa a los datos de nuestro almacén (DATAPRIX).

Estos metadatos serán los que permitan simplificar y automatizar la obtención de la

información desde los sistemas operacionales a los sistemas informacionales. Los

objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, serían:

17

Soportar al usuario final, ayudándole a acceder al Data Warehouse con su

propio lenguaje de negocio, indicando qué información hay y qué significado

tiene. Ayudar a construir consultas, informes y análisis, mediante herramientas

de navegación.

Soportar a los responsables técnicos del Data Warehouse en aspectos de

auditoría, gestión de la información histórica, administración del Data

Warehouse, elaboración de programas de extracción de la información,

especificación de las interfaces para la realimentación a los sistemas

operacionales de los resultados obtenidos, etc.

Para comprender el concepto de Data Warehouse, es importante considerar los procesos

que lo conforman. En la Figura 5 se describen dichos procesos clave en la gestión de un

Data Warehouse.

Figura 5. Procesos del Data Warehouse

Las diferencias de un Data Warehouse con un sistema tradicional las podríamos resumir

en la Tabla 1:

SISTEMA TRADICIONAL DATA WAREHOUSE

Predomina la actualización Predomina la consulta

La actividad más importante es de tipo operativo (día a

día)

La actividad más importante es el análisis y la decisión

estratégica

Predomina el proceso puntual Predomina el proceso masivo

18

Mayor importancia a la estabilidad Mayor importancia al dinamismo

Datos en general desagregados Datos en distintos niveles de detalle y agregación

Importancia del dato actual Importancia del dato histórico

Importante del tiempo de respuesta de la transacción

instantánea

Importancia de la respuesta masiva

Estructura relacional Visión multidimensional

Usuarios de perfiles medios o bajos Usuarios de perfiles altos

Explotación de la información relacionada con la

operativa de cada aplicación

Explotación de toda la información interna y externa

relacionada con el negocio

Tabla 1. Diferencias Data Warehouse vs Sistema tradicional

4.7.2 Aportaciones

Proporciona una herramienta para la toma de decisiones en cualquier área

funcional, basándose en información integrada y global del negocio.

Facilita la aplicación de técnicas estadísticas de análisis y modelización para

encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor

añadido para el negocio de dicha información.

Proporciona la capacidad de aprender de los datos del pasado y de predecir

situaciones futuras en diversos escenarios.

Simplifica dentro de la empresa la implantación de sistemas de gestión integral

de la relación con el cliente.

Supone una optimización tecnológica y económica en entornos de Centro de

Información, estadística o de generación de informes con retornos de la

inversión espectaculares.

19

4.8 Business Intelligence: Inteligencia de Negocios

Business Intelligence es la habilidad para transformar los datos en información, y la

información en conocimiento como se muestra en la Figura 6, de forma que se pueda

optimizar el proceso de toma de decisiones en los negocios.

Figura 6. Business Intelligence

Desde un punto de vista más pragmático, se relaciona directamente con las tecnologías

de la información, Business Intelligence es un conjunto de metodologías, aplicaciones y

tecnologías que permiten reunir, depurar y transformar datos de los sistemas

transaccionales e información desestructurada en información estructurada, para su

explotación directa (reportes, análisis OLTP / OLAP) o para su análisis y conversión en

conocimiento, dando así soporte a la toma de decisiones sobre el negocio (Sinnexus,

2007).

Los principales productos de Business Intelligence que existen hoy en día son

(Sinnexus, 2007):

Cuadros de Mando Integrales (CMI)

Sistemas de Soporte a la Decisión (DSS)

Sistemas de Información Ejecutiva (EIS)

Los sistemas y componentes de BI se diferencian de los sistemas operacionales en que

están optimizados para preguntar y divulgar sobre datos. Esto significa que, en un Data

Warehouse, los datos están desnormalizados para apoyar consultas de alto rendimiento,

http://www.sinnexus.com/business_intelligence/cuadro_mando_integral.aspx

http://www.sinnexus.com/business_intelligence/sistemas_soporte_decisiones.aspx

http://www.sinnexus.com/business_intelligence/sistemas_informacion_ejecutiva.aspx

http://www.sinnexus.com/business_intelligence/piramide_negocio.aspx

20

mientras que en los sistemas operacionales suelen encontrarse normalizados para apoyar

operaciones continuas de inserción, modificación y borrado de datos lo que permite:

Observar ¿qué está ocurriendo?

Comprender ¿por qué ocurre?

Predecir ¿qué ocurriría?

Colaborar ¿qué debería hacer el equipo?

Decidir ¿qué camino se debe seguir?

4.9 Qlik Sense: Innovación en el manejo de datos

Qlik Sense Desktop marca registrada de Qlik Inc., proporciona a los usuarios que

tengan instalado Windows Client una experiencia muy intuitiva a través de la

funcionalidad de “arrastrar y soltar” para explorar y visualizar datos, además de

beneficiarse del storytelling que ofrece la posibilidad de crear presentaciones

personalizadas sobre los hallazgos descubiertos al explorar la información.

Adicionalmente, es posible guardar como archivos locales las visualizaciones de datos

obtenidas en cada navegación, para que puedan compartirse con otros usuarios. Los

usuarios pueden comenzar a utilizar Qlik Sense arrastrando un documento de Excel a la

aplicación, o conectando las múltiples fuentes de datos de las que disponga su

organización. Qlik Sense Desktop es gratuito para el uso personal y empresarial, sin

límites ni restricciones a la hora de crear aplicaciones o compartir archivos. (Qlik Q,

2014)

La oferta completa de Qlik Sense está basada en servidor, permitiendo el desarrollo

desde cualquier dispositivo, el uso flexible desde dispositivos móviles, colaboración, así

como el desarrollo e integración personalizada de los datos. Además incluye

importantes características empresariales, seguridad de datos y gobernanza. Todas las

21

soluciones Qlik Sense indexan los datos para permitir a los usuarios comenzar a

explorar y visualizar los datos de forma inmediata.

“Qlik Sense Desktop es el mejor modo de mostrar a los usuarios que no conozcan Qlik

el poder y el control que pueden ejercer manejando sus propios datos para hacerlos

comprensibles, visuales e incluso divertirse con ellos. Mantenemos nuestro compromiso

de simplificar y facilitar el acceso y control a los datos directamente por el usuario

final, proporcionando un verdadero BI de auto-servicio”, comenta Anthony Deighton,

Qlik CTO y vicepresidente de productos. (Qlik Q, 2014)

4.9.1 Prestaciones

Integración de datos desde múltiples fuentes, desde archivos Excel a bases de

datos abiertas (ODBC) que se pueden incorporar a la aplicación Qlik Sense.

Desarrollo de cuadros de mando dinámicos con solo arrastrar y soltar para crear

o ampliar un análisis visual en pocos minutos.

Explorar, asociar y combinar información de nuevas formas que no eran

posibles en otros productos sin tener que empezar desde cero a crear nuevas

visualizaciones. Gracias al uso del motor de indexación de Qlik y su

experiencia asociativa, los usuarios pueden explorar y hacer cualquier pregunta

de forma dinámica.

Búsquedas inteligentes simplemente escribiendo una palabra o número para

comenzar el análisis de datos.

Visualización inteligente e intuitiva que ofrece pistas a los usuarios

principiantes para ayudarles a explorar la información, con actualizaciones

dinámicas, destacando las asociaciones y la nueva información.

Funcionalidad de narración de datos (Data Storytelling), que facilita compartir

los análisis de forma visual, comunicar hallazgos a los equipos y colaborar con

mayor eficacia en formato de presentación.

22

Los usuarios pueden añadir comentarios y desglosar los datos directamente desde los

análisis visuales de Qlik Sense para responder cuestiones sobre la marcha.

Además de ofrecer Qlik Sense para la visualización interactiva, Qlik continuará

ofreciendo QlikView, su plataforma de larga trayectoria en el mercado, para ofrecer la

capacidad de desarrollo de aplicaciones a los analistas, que con una mínima experiencia

en desarrollo podrán desarrollar y publicar potentes aplicaciones analíticas (Qlik Q,

2014).

23

5. DESARROLLO DEL PROYECTO

5.1 Análisis Cualitativo

Para este proyecto se realizó un análisis de datos a partir de un enfoque cualitativo

debido a que este tipo de análisis permite realizar interpretaciones de la realidad y de los

datos, así se logró identificar la naturaleza profunda en la deserción universitaria.

La técnica empleada para la obtención de datos en el análisis de datos fue la revisión de

documentos o análisis documental la misma que consiste en la agrupación de la mayor

cantidad de datos. Dichos datos fueron proporcionados por la Comisión de Evaluación

Interna de Universidad Central del Ecuador.

El proceso general para este análisis de datos puede describirse en tres tareas:

Reducción de los datos: Se eligieron los datos más relevantes tales como: la

cédula de aspirante, apellidos y nombres, edad, sexo, nota del examen,

ubicación geográfica, carrera principal y secundaria, entre otras.

Disposición y transformación de los datos: los datos fueron dispuestos en un

archivo Excel y luego fueron sometidos al proceso de extracción,

transformación y carga (ETL) para facilitar la compresión y el análisis de los

mismos.

Obtención y verificación de las conclusiones: la construcción de gráficos

dinámicos facilitaron la presentación de resultados y la compresión de los

mismos permitiendo elaborar conclusiones.

24

5.2 Archivos fuente

La fuente que alimenta el Data Warehouse proviene de archivos de Excel descritos a

continuación:

5.2.1 Aspirantes.xlsx

Este es el archivo fuente principal que alimenta el Data Warehouse , contiene

información de los aspirantes como cédula, apellidos, nombres, edad, sexo, fecha de

nacimiento, fecha de inscripción, país de origen, entre otras, como se muestra en la

Figura 7.

5.2.2 Facultades.xlsx

Este archivo fuente contiene información de cada una de las facultades de la

Universidad Central del Ecuador, tales como el código de la facultad, código de la

universidad y el nombre de la facultad, como se puede ver en la Figura 8.

Figura 7. Archivo Aspirantes

25

5.2.3 Carreras.xlsx

Este archivo fuente como se muestra en la Figura 9, contiene información de cada una

de las carreras de la Universidad Central del Ecuador, tales como el código de la

carrera, código de la facultad y el nombre de la carrera, modalidad, jornada, ciclo, cupos

disponibles y nota mínima.

5.2.4 P

rovincias.

xlsx

Figura 8. Archivo Facultades

Figura 9. Archivo Carreras

26

Este archivo fuente contiene información de las provincias del Ecuador como se puede

ver en la Figura 10, tales como el código de la provincia, el nombre de la provincia,

latitud y longitud.

5.3 Modelo Lógico

En la Figura 11 muestra una descripción de la estructura de la base de datos antes de

procesarla en un Sistema de Gestión de Bases de Datos, en este caso fue para MySQL.

5.3.1 Descripción del

modelo lógico

Figura 10. Archivo Provincias

Figura 11. Modelo lógico de la base de datos

27

El modelo lógico está compuesto por cuatro tablas cuyas estructuras se detallan a

continuación en las Tablas 2, 3, 4 y 5:

Estructura de la tabla Aspirante

Nombre Tipo de dato Clave Primaria Clave Foránea

Id_aspirante Integer Si No

Id_provincia Integer No Si

Id_carrera_pri Integer No Si

Id_carrera_op Integer No Si

Cedula Characters(45) No No

Apellidos Characters(100) No No

Nombres Characters(100) No No

Sexo Characters(45) No No

Edad Integer No No

Provincia Characters(75) No No

Nota Integer No No

Tabla 2. Tabla Aspirante

Estructura de la tabla Provincia


Id_provincia Integer Si No

Nombre Characters(100) No No

Latitud Float No No

Longitud Float No No

Tabla 3. Tabla Provincia

Estructura de la tabla Carrera


Id_carrera Integer Si No

Id_facultad Integer No Si


Modalidad Characters(45) No No

Jornada Characters(45) No No

Ciclo Characters(45) No No

Cupos_disponibles Integer No No

Nota_mínima Integer No No

28

Tabla 4. Tabla Carrera

Estructura de la tabla Facultad


Id_facultad Integer Si No


Tabla 5. Tabla Facultad

5.4 Modelo Físico

El paso de un modelo lógico a uno físico requiere un profundo entendimiento del

manejador de bases de datos que se desea emplear, en la Figura 12 se muestra el modelo

físico construído para MySQL.

Figura 12. Modelo físico

29

En la construcción del modelo físico se consideró ciertas características como:

Conocimiento a fondo de los tipos de objetos (elementos) soportados

Detalles acerca del indexamiento, integridad referencial, restricciones, tipos de

datos, etc

Detalles y variaciones de las versiones

Parámetros de configuración

Data Definition Language (DDL)

En el modelado lógico el paso de convertir el modelo a tablas hace que las entidades

pasen a ser tablas (más las derivadas de las relaciones) y los atributos se convierten en

las columnas de dichas tablas. Físicamente esta metáfora de una tabla se mapea al

medio físico, con algunas consideraciones como se menciona en las siguientes

secciones.

5.5 Diseño del Data Warehouse

Para poder realizar el análisis de la asignación de cupos se construyó un almacén de

datos o Data Warehouse cuyo acceso a la información debe estar caracterizado por un

alto rendimiento en el que el tiempo de espera para acceder a ella es nulo. La

información contenida en el Data Warehouse es:

Entendible: los niveles de información son correctos y obvios, es decir, la

información está correctamente etiquetada.

Navegable: reconocer el destino deseado dentro de una pantalla y acceder a él

con un click.

Adaptable y elástica: porque soporta cambios continuos.

5.6 Modelo conceptual (Esquema Copo de nieve)

30

El esquema de copo de nieve consta de una tabla de hechos que está conectada a

algunas tablas de dimensiones a través de una relación de muchos a uno, cada tabla de

dimensiones representa exactamente un nivel en una jerarquía.

La tabla de hechos (Fac_aspirante) es la única relacionada con otras tablas llamadas

dimensiones (dim_persona, dim_estado, dim_carrera, dim_provincia). Existe otra tabla

que se relacionan con la dimensión Carrera a través de una relación de muchos a uno,

cuyo nombre es facultad y que no tienen relación directa con la tabla de hechos, es

decir, el esquema presentado en la Figura 13 presenta un cierto grado de detalle

permitiendo mayor grado de dependencia de los datos. El modelo fue concebido para

facilitar el mantenimiento de las dimensiones, haciendo la extracción de datos más

sencilla.

5.6.1 Fac_aspirante

Esta es la tabla de hechos, es la tabla principal del modelo copo de nieve. Aquí se

almacenan datos relevantes del aspirante como el código del aspirante, el código de la

provincia, el código de la carrera, el código del estado y la nota. Siendo la nota la

métrica principal en el análisis.

Figura 13. Modelo copo de nieve empleado

31

5.6.2 Dim_persona

Esta tabla va a guardar información básica del aspirante, es decir, la cédula, los

apellidos, los nombres, la edad y el sexo.

5.6.3 Dim_estado

Esta tabla almacena el estado del aspirante, es decir, Asignado, No Asignado o

Repostulado. A todos se les va a asignar un código como se muestra en la Tabla 6:

Codigo _estado Nombre_estado

1 Asignado

2 No_asignado

3 Repostulado

Tabla 6. Código del estado del aspirante

5.6.4 Dim_provincia

Aquí se almacena la información de las provincias como el código de la provincia, la

latitud y la longitud.

5.6.5 Dim_carrera

Permite almacenar toda la información de las carreras como el código de la carrera, el

nombre, la modalidad, la jornada, el ciclo, los cupos disponibles y la nota mínima.

5.7 Procesos ETL

Los procesos ETL son el componente más importante en una infraestructura que

implique la integración de información desde diferentes fuentes, para facilitar el

movimiento y transformación de los datos desde el archivo origen hasta ser

consolidados en el Data Warehouse intervinieron tres pasos que son:

32

5.7.1 Extracción

En esta fase se realizó la extracción de toda la información de los archivos fuentes

Carreras.xlsx, Provincias.xlsx, Facultades.xlsx y Aspirantes.xlsx. Para el análisis se

tomó en cuenta los datos con mayor relevancia como cédula, apellidos, nombres, sexo,

edad, provincia, nota, carrera principal y carrera secundaria de Aspirantes.xlsx, así se

descartó información irrelevante para el análisis como el email, discapacidad, país de

origen y fecha de nacimiento.

Previamente a la extracción de los datos se guardaron los archivos fuentes Carreras.xlsx,

Provincias.xlsx, Facultades.xlsx y Aspirantes.xlsx con la extensión .csv para poder

realizar la migración de la información. La extracción se la realizó mediante un script

especificado en el Anexo A.

Con el fin de optimizar el proceso de extracción se buscó apoyo en un almacén de datos

intermedio (Figura 12) que opere como pasarela entre el sistema fuente y el sistema

destino, con el objetivo de evitar la congestión de datos.

5.7.2 Transformación

En esta etapa se trabajó en la adaptación de los datos fuente al formato destino definido

en el Data Warehouse. Los datos procedentes de los archivos fuentes no coincidían con

el formato destino por lo tanto para su integración resultó imprescindible realizar

operaciones de transformación, con el fin de evitar duplicidades innecesarias y asegurar

la consistencia de los datos, se definieron reglas de negocio que permitieron que los

datos sean más fáciles de digerir. Por ejemplo se unificó las columnas

“PRIMER_APELLIDO” y “SEGUNDO_APELLIDO” en una sola columna cuyo

nombre es “APELLIDOS”, estas y otras transformaciones están detalladas en el

ANEXO B.

33

5.7.3 Carga

En el desarrollo de esta etapa se empleó una forma más sencilla y común de llevar a

cabo el proceso de carga, la acumulación simple. Esta consistió en realizar el resumen

de todas las transformaciones realizadas en la etapa anterior y transportar el resultado

hacia el Data Warehouse.

Para el desarrollo de la fase de carga de datos se dispuso de un procedimiento

almacenado descrito en el Anexo B cuya ejecución realiza automáticamente la carga de

los datos garantizando la calidad de los datos mediante aplicación de ciertas

restricciones como:

Valores únicos

Integridad referencial

Campos obligatorios

Rangos de valores

5.8 Algoritmo

En el desarrollo de este proyecto se elaboró una serie de pasos o instrucciones para la

resolución del problema de asignación. Dentro de las variables empleadas en el análisis

para la efectuar la asignación de los cupos universitarios son:

La nota lograda por el estudiante en el Examen Nacional de Educación Superior

(ENES).

El número de cupos ofertados por las Instituciones de Educación Superior (IES)

Las carreras de neta preferencia del aspirante

34

Cabe enfatizar que para realizar este proceso la nota obtenida en el examen y el número

de cupos disponibles en las diferentes carreras ya es de pleno conocimiento del

estudiante.

Así, el aspirante elegirá dos opciones de carrera, la primera de estas es la de mayor

importancia para él y la segunda (opcional) les brindará la oportunidad de cambiar su

primera opción si obtuvieron una nota inferior al de la carrera seleccionada

inicialmente. Para escoger dichas opciones el estudiante debe tomar en cuenta aspectos

importantes como:

El sitio físico en donde se encuentra el campus en el que se imparte la carrera

escogida.

La modalidad en la que sus recursos le permiten estudiar ya sea presencial,

semipresencial o a distancia.

La jornada que hace referencia al horario a ser escogido, esta puede ser

matutino, vespertino o nocturno.

Otro aspecto de suma importancia es elegir el nivel de formación, estos niveles

comprenden Técnico Superior, Tecnológico o de Tercer Nivel. Para este proyecto solo

se tomó en cuenta el Tercer Nivel debido a que los datos corresponden a estudiantes que

postularon únicamente para las carreras ofertadas en la Universidad Central del Ecuador

(UCE).

En todas la Instituciones de Educación Superior (IES) la nota base para acceder a la

mayoría de las carreras ofertas es de 650 puntos obtenidos en el Examen Nacional de

Educación Superior (ENES), las carreras vinculadas directamente con Medicina y

Educación estipulan un puntaje mínimo de 950 puntos. Esta información es de

conocimiento de cada uno de los aspirantes que participan en el proceso de asignación

de cupos universitarios.

35

Aplicamos un mecanismo meritocrático, es decir, el aspirante debe sacar el mayor

puntaje en el Examen Nacional de Educación Superior (ENES) para tener mayor

posibilidad de acceder a un cupo en la carrera de su preferencia. (SNNA, 2014)

En el caso de que varios postulantes de una carrera tienen la misma nota, Senescyt

gestiona con las diferentes universidades para que todos los aspirantes obtengan el cupo.

Así se puede lograr hasta el 5% más de cupos para cubrirlos. (Comercio, 2014)

Los estudiantes que aprueben en el Examen Nacional para la Educación Superior

(ENES) con un puntaje comprendido entre 900 y 950/1.000 puntos, formarán parte del

Grupo de Alto Rendimiento de Institutos Técnicos y Tecnológicos (GAR-ITT).

(SNNA, Noticias, 2014)

Estos tienen la posibilidad de acceder al programa de becas dentro o fuera del país

según sea su elección, son aproximadamente 175 universidades de excelencia que se

encuentran a nivel mundial, apuntando a una educación de calidad. (SNNA, Noticias,

2014)

Quienes acepten tomar el curso de Nivelación Especial recibirán una formación

intensiva durante aproximadamente 9 meses, en los cuales se les prepara para el proceso

de admisión a las instituciones de excelencia a nivel mundial reconocidas por la

Secretaria de Educación Superior, Ciencia, Tecnología e Innovación. (SNNA, Noticias,

2014)

36

La asignación de los estudiantes se realiza de la siguiente manera como se puede ver en

la Figura 14:

Primero se compara la nota que el estudiante obtuvo en el examen con la nota base, si la

nota del estudiante es menor a 650 puntos (nota base) este deberá volver a rendir el

examen en la próxima convocatoria. Por otro lado, si la nota es mayor a 650 puntos se

procederá a contrastarla con la nota del examen del aspirante que posee el último cupo

asignado en la carrera principal de su preferencia, si es mayor se guarda en el listado

ordenado (de mayor a menor) de esa carrera en el campus elegido caso contrario se

procede a realizar la comparación de la carrera opcional.

Figura 14. Diagrama de flujo

37

Si la nota obtenida es mayor a la nota del último cupo asignado en la carrera opcional se

procederá a almacenar la información del estudiante en el listado ordenado de dicha

carrera en su respectivo campus.

Una vez almacenados los datos de los estudiantes en un listado ordenado de manera

descendente se procederá a realizar la asignación meritocráticamente, es decir, como se

muestra en la Figura 15, si en una carrera existen once cupos disponibles estos serán

para los once estudiantes con mejor nota así, los estudiantes que hayan obtenido mayor

puntaje serán los primeros en recibir un cupo en esa carrera.

Caso contrario, el aspirante debe realizar la repostulación, en esta etapa se lleva a cabo

una semana después de terminar el proceso de asignación de cupos, en ella el estudiante

recibirá sugerencias de Instituciones de Educación Superior (IES) en donde aún existan

cupos disponibles en las carreras que elegidas (carrera inicial y carrera opcional).

Comprensiblemente para realizar dicha sugerencia se tomará en cuenta la ubicación

geográfica del estudiante ya que no todos los aspirantes que participan en el proceso de

asignación cuentan con los recursos necesarios para estudiar en lugares lejanos a su

domicilio, además de las carreras elegidas inicialmente, es aquí donde se marca la

Figura 15. Estudiantes con los mayores puntajes

38

diferencia en la sugerencia que realiza actualmente el Senescyt (Secretaría de Educación

Superior, Ciencia, Tecnología e Innovación), en la que se le recomienda al estudiante

carreras sin importar su ubicación geográfica y diferentes a las carreras de su

preferencia.

En este punto el estudiante se encuentra en un estado vulnerable al no obtener un cupo

para estudiar en la universidad y es allí donde la frustración y desesperación lo domina

y decide estudiar una carrera que no es de su preferencia pero que se le sugirió, esto

conlleva a la deserción estudiantil durante el tiempo que dura dicha carrera.

39

6. RESULTADOS

6.1 Resultados en Qlik Sense

Usando la herramienta de Business Intelligence, Qlik Sense se construyó un cuadro de

mando para controlar la visualización de los resultados de la asignación de cupos.

Se puede acceder a varios indicadores representados por los siguientes gráficos:

Número de aspirantes por carreras

Figura 17. Cantidad de aspirantes por Carrera

Figura 16. Dashboard de Resultados

40

En la figura 17 el eje x representa el número de aspirantes mientras que el eje y las

carreras universitarias, la barra de color marrón representa la mayor cantidad de

aspirantes en una carrera en este es Enfermería con 260 aspirantes. Las barras de color

azul muestran las carreras con menos aspirantes con respecto a Enfermería como es el

caso de Administración Pública con 92 aspirantes. Así muestra la cantidad de aspirantes

por cada una de las carreras universitarias.

Total de aspirantes por provincias

Figura 18. Total de aspirantes por provincias

En la figura 18 el eje x representa las provincias del ecuador mientras que el eje y el

número de aspirantes, los picos de color marrón representan las provincias con mayor

cantidad de aspirantes como es el caso de Pichincha con 457, Imbabura con 423,

Manabí con 397, Cotopaxi con 395, Carchi con 390 y Esmeraldas con 385 aspirantes

Las provincias con picos de color claro representan las provincias con menor cantidad

de aspirantes como Zamora Chinchipe con 16 y Orellana con 24. Así muestra la

cantidad de aspirantes por cada una de las provincias del Ecuador.

Total de aspirantes asignados por carreras (en porcentaje)

41

En la figura 19 se muestra el porcentaje de aspirantes asignados en las diferentes

carreras, la carrera con mayor porcentaje es Enfermería con 19% seguida de

Administración Pública con 15,1 %. Dentro de las carreras con menor número de

aspirantes asignados de muestra a Atención Pre-hospitalaria con 7% y Radiología con

7,1%.

Total de aspirantes asignados, no asignados y repostulados

En la figura

20 el eje x

Figura 19. Total de estudiantes Asignados por Carreras

Figura 20. Total de estudiantes por estado

42

representa los estados de los aspirantes mientras que el eje y la cantidad de aspirantes en

cada estado, la barra de color oscuro representa la mayor cantidad de aspirantes a

repostularse para obtener un cupo, la barra de color celeste representa los aspirantes que

no han obtenido cupo en ninguna carrera mientras que la barra color beige muestra la

cantidad de aspirantes asignados a alguna carrera. Así Asignados con aproximadamente

1000 estudiantes, No Asignados con menos de 200 estudiantes y Repostulados

alrededor de 2000 estudiantes.

43

7. CONCLUSIONES

El análisis de la base de datos de estudiantes mediante el software de Business

Intelligence Qlik Sense permite identificar las carreras de mayor demanda, estas

son: Medicina (24%), Enfermería (19%), Administración de Pública (16%),

Contabilidad y Auditoría (13%), Derecho (11%), Administración de

Empresas (8%), Odontología (6%), Bioquímica Clínica (3%).

Los datos más relevantes para realizar el análisis son: la nota obtenida en el

Examen Nacional de Educación Superior (ENES), la ubicación geográfica del

aspirante, la carrera elegida y el número de cupos disponibles.

Los procesos ETL organizan el flujo de información mediante el movimiento y

transformación de los datos, permitiendo crear reglas de negocios para

reformatearlos para su posterior carga en el Data Warehouse.

Es crucial asegurar la calidad de los datos mediante procesos ETL bien

diseñados para asegurar la veracidad de la información de los aspirantes.

El modelo copo de nieve diseñado con cuatro tablas de dimensiones (estado,

provincia, carrera y persona) normalizadas minimiza el número de valores nulos

y la posibilidad de generar incoherencias en la información de los aspirantes

economizando espacio en memoria.

La consolidación de los datos limpios en el Data Warehouse permite que la

información consultada sea fiable y homogénea mejorando el acceso a variedad

de datos de los estudiantes, entre esos: apellidos, nombres, cédula, nota,

provincia de origen entre otros.

44

La presentación de la información en Qlik Sense de forma dinámica ofrece al

usuario algunas opciones para personalizar el análisis de manera interactiva

mediante la filtración de campos determinados según su necesidad.

Mediante gráficos interactivos diseñados con la ayuda de Qlik Sense se

distinguen indicadores clave como: máximo número de cupos ofertados por

carreras, cantidad de estudiantes postulados en las diferentes carreras, número

de estudiantes asignados y repostulados, cantidad de aspirantes no asignados

por provincias, número de estudiantes pertenecientes al Grupo de Alto

Rendimiento (GAR).

45

8. RECOMENDACIONES

Las carreras de mayor demanda son Medicina y Administración, motivo por el

cual se considera que el Sistema Nacional de Nivelación y Admisión (SNNA)

disponga de la mayor cantidad de cupos en estas carreras.

Analizar los tiempos de ejecución de las consultas para asegurar el buen

rendimiento de la base de datos.

Apoyarse en el modelo copo de nieve por su nivel de granularidad para acceder

a los datos a un nivel más detallado.

Establecer un solo formato para el conjunto de datos limpios que van a ser

cargados en el Data Warehouse.

46

BIBLIOGRAFÍA

1. BERNABUE, D. (6 de Mayo de 2009). DATAPRIX. Obtenido de

http://www.dataprix.com/Data Warehouse -manager

2. CASILLAS SANTILLÁN, L. A., GINESTÁ, M. G., & PÉREZ MORA, Ó.

(s.f.). Obtenido de Bases de datos en MySQL:

http://ocw.uoc.edu/computer-science-technology-and-multimedia/bases-de-datos

/bases-de-datos/P06_M2109_02151.pdf

3. CHURA, R., & ANDONY, P. (Septiembre de 2015). Tecnologías de

Información y Comunicación II. INFORME: ETL y Modelo Estrella. Obtenido

de Inacap: http://inacap.serveftp.com/tic2/Presentaciones-N1/expo.pdf

4. Cit development. (19 de Mayo de 2014). Por qué elegir QlikView frente a otros

Business Intelligence. Obtenido de Cit development web site:

http://citdev.com/noticias/por-que-elegir-qlikview-frente-a-otros-business-intelli

gence/839

5. CRONO. (23 de Septiembre de 2010). DATAPRIX. Obtenido de

http://www.dataprix.com/blogs/bi-facil/tablas-hecho

6. DWH, S. (16 de Junio de 2009). Business Intelligence fácil. Obtenido de

http://www.businessintelligence.info/serie-dwh/tablas-de-hecho-fact-tables.html

7. JCESAR. (6 de Septiembre de 2011). Obtenido de Informática blog:

http://jcesar-27.blogspot.com/2011/09/DataWarehouse-esquemas-de-estrella-y.h

tml

47

8. MARTÍNEZ, I. (s.f.). Inform@tica. Obtenido de

http://indira-informatica.blogspot.com/2007/09/qu-es-mysql.html

9. PRECIADO, M. (22 de Noviembre de 2012). Base de datos mysql. Obtenido de

Base de datos mysql web site: http://tecnoparquelossistemas.blogspot.com/

10. QlikTech. (20 de Diciembre de 2010). DATAPRIX. Obtenido de

http://www.dataprix.com/empresa/recursos/ventajas-tecnologia-in-memory-qlik

view

11. Sinnexus. (2007). Sinnexus Business Intelligence Informática Estratégica.

Obtenido de Sinnexus web site: http://www.sinnexus.com/business_intelligence/

12. COMERCIO, E. (2 de Mayo de 2014). 19 cosas que usted debe saber para

escoger una carrera desde este lunes 5 de mayo, págs.

http://www.elcomercio.com/tendencias/19-cosas-que-usted-debe.html.

13. VITERI CASTRO, D. & M. A. (2011). Estudio sobre la deserción estudiantil en

la Pontificia Universidad Católica del Ecuador - Matriz, en los niveles 1ro, 2do

y 3ero de todas las Facultades y Escuelas del primer semestre del año

académico 2007-2008. Quito.

14. JAMES, R. (12 de Junio de 2014). Hermosa Programación. Obtenido de

Hermosa Programación:

http://www.hermosaprogramacion.com/2014/06/mysql-procedure-show-create/

15. Powerdata. (13 de Junio de 2013). Blog Powerdata. Obtenido de

http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288859/Procesos-E

TL-Extracci-n-Transformaci-n-Carga

48

16. SNNA. (2014). Noticias. Obtenido de

http://www.snna.gob.ec/wp-content/themes/institucion/comunicamos_noticias42

.php

17. SNNA. (2014). Sistema Nacional de Nivelación y Admisión. Obtenido de

Sistema Nacional de Nivelación y Admisión:

http://www.snna.gob.ec/wp-content/themes/institucion/comunicamos_noticias51

.php

18. UNIVERSO, D. E. (30 de Noviembre de 2014). En dos años disminuyó el

ingreso a la universidad en Ecuador.

19. VICENT, T. (1989). ANALISIS DE LA DESERCION ESTUDIANTIL EN LA

UNIVERSIDAD AUTONOMA METROPOLITANA. Jossey Bass Inc.

49

ANEXOS

50

Anexo A

Script para la Extracción, Transformación y Carga de los datos.

Extracción de datos desde los archivos fuentes en formato .csv.

Script para extraer los datos de los aspirantes

Script para extraer las carreras

Script para extraer las provincias

Script para extraer las facultades

Transformación de los datos

Script para concatenar las columnas “primer_apellido” y “segundo_apellido”

Script para convertir de mayúsculas a minúsculas

51

Script para obtener los aspirantes que han sido asignados a alguna carrera.

Script para obtener los aspirantes no asignados.

Script para obtener los aspirantes que deben repostularse para obtener un cupo.

52

Carga de los datos en el Data Warehouse

Script para cargar las dimensiones del Data Warehouse

53

Script para la carga de datos en la tabla de hechos fac_aspirante

54

Anexo B

Descarga e instalación de las herramientas utilizadas

Descarga e Instalación de MySQL

1. Ingrese a la página web https://dev.mysql.com/downloads/ , seleccione MySQL

Workbench, luego elija el sistema operativo y la versión que desea descargar.

2. Comenzará la descarga del archivo

mysql-workbench-community-6.3.6-winx64.msi, una vez completa la descarga

presione click derecho e Instalar, le aparecerá la ventana de inicio del instalador.

Seleccione “Next” para continuar.

https://dev.mysql.com/downloads/

55

3. Seleccione el tipo de instalación “Complete”, luego presione “Next”.

4. En esta venta le aparecerá la dirección en la que se instalará C:\Program

Files\MySQL\MySQL Workbench 6.3 CE y presione “Next”.

56

5. En esta ventana se visualizará el proceso de instalación

6. Esta ventana aparece cuando se a completa la instalación, presione finalizar y

empiece a usar MySQL.

57

Descarga e instalación de Qlik Sense

1. Ingrese a la página http://global.qlik.com/es/explore/products/free-download y

descargue Qlik Sense Desktop

2. Comenzará la descarga del archivo Qlik_Sense_Desktop_setup.exe, una vez

completa la descarga presione click derecho e Instalar, le aparecerá la ventana de

inicio del instalador. Seleccione “INSTALL” para continuar.

http://global.qlik.com/es/explore/products/free-download

58

3. Acepte lo términos de la licencia y presione “Next” para continuar.

4. Luego aparecerá la siguiente ventana, presione “Install” para continuar.

59

5. Esta ventana aparecerá cuando la instalación culmine, presione “Finish” y empiece

a utilizar Qlik Sense Desktop.

60

Descarga e instalación del Conector ODBC

1. Ingrese a la página web https://dev.mysql.com/downloads/connector/odbc/5.3.html,

seleccione Connector/ODBC 5.3.6, luego elija el sistema operativo y la versión que

desea descargar.

2. Comenzará la descarga del archivo

mysql-workbench-community-6.3.6-winx64.MSI, una vez completa la descarga

presione click derecho e Instalar, le aparecerá la ventana de inicio del instalador.

Seleccione “Next” para continuar.

https://dev.mysql.com/downloads/connector/odbc/5.3.html

61

3. Seleccione la opción “Modify” y presione “Next” para continuar.

4. En esta ventana presione “Next” para continuar.

5. En esta ventana se despliega la dirección en la que se va a instalar C:\Program

Files\MySQL\MySQL Workbench 6.3 CE.

62

6. En esta ventana se visualizará el proceso de instalación.

7. Esta ventana aparece cuando se a completa la instalación, presione finalizar y

empiece a usar el Conector ODBC.

UNIVERSIDAD CENTRAL DEL ECUADOR - … · 5.3 Modelo Lógico ... (ENES) como requisito para acceder...

Documents

Transcript of UNIVERSIDAD CENTRAL DEL ECUADOR - … · 5.3 Modelo Lógico ... (ENES) como requisito para acceder...