El Rendimiento Académico de los Alumnos de la Cátedra Sistemas ...
Transcript of El Rendimiento Académico de los Alumnos de la Cátedra Sistemas ...
UNIVERSIDAD NACIONAL DE PILAR
FACULTAD DE CIENCIAS APLICADAS
MAESTRÍA EN INFORMÁTICA Y COMPUTACIÓN
EL RENDIMIENTO ACADÉMICO DE LOS ALUMNOS DE LA
CÁTEDRA SISTEMAS OPERATIVOS EN LA TECNICATURA
SUPERIOR ANALISTA PROGRAMADOR DEL INSTITUTO SUPERIOR
DE CURUZÚ CUATIÁ
Carlos Podestá Gómez
Pilar, Paraguay
2013
EL RENDIMIENTO ACADÉMICO…ii
Carlos Podestá Gómez
EL RENDIMIENTO ACADÉMICO DE LOS ALUMNOS DE LA
CÁTEDRA SISTEMAS OPERATIVOS EN LA TECNICATURA
SUPERIOR ANALISTA PROGRAMADOR DEL INSTITUTO SUPERIOR
DE CURUZÚ CUATIÁ
Tesis presentada a la Universidad Nacional de Pilar como requisito parcial para la
obtención del título de Master en Informática y Computación
Tutor: Dr. David La Red Martínez
Pilar, Paraguay
2013
EL RENDIMIENTO ACADÉMICO…iii
Podestá Gómez, C. (2013). El rendimiento académico de los alumnos de la cátedra
Sistemas Operativos en la Tecnicatura Superior Analista Programador del Instituto
Superior de Curuzú Cuatiá.
Carlos Podestá Gómez. 233 páginas.
Tutor: Dr. David La Red Martínez
Tesis académica de maestría en Ciencias Aplicadas –
Universidad Nacional de Pilar, 2013.
EL RENDIMIENTO ACADÉMICO…iv
Carlos Podestá Gómez
EL RENDIMIENTO ACADÉMICO DE LOS ALUMNOS DE LA
CÁTEDRA SISTEMAS OPERATIVOS EN LA TECNICATURA
SUPERIOR ANALISTA PROGRAMADOR DEL INSTITUTO SUPERIOR
DE CURUZÚ CUATIÁ
Esta tesis fue evaluada y aprobada para la obtención del título de Master en Informática y
Computación por la Universidad Nacional de Pilar.
Mesa Examinadora:
---------------------------------------------------
---------------------------------------------------
---------------------------------------------------
EL RENDIMIENTO ACADÉMICO…v
Dedicatoria
Dedico esta tesis:
A mí querida madre por ser mi mejor ejemplo de esfuerzo y perseverancia.
A mí amada esposa Cristina, por regalarme su ternura, comprensión y alentar
permanentemente mis sueños.
A mis hijos Carlos Martín y María de los Ángeles.
EL RENDIMIENTO ACADÉMICO…vi
Agradecimiento
Agradezco a:
A mi tutor David por su enorme generosidad y comprensión, por brindarme
no sólo su tiempo y excelencia profesional, sino también honrarme con su amistad.
EL RENDIMIENTO ACADÉMICO…vii
La verdadera educación consiste en sacar a la luz lo mejor de
una persona.
Mahatma Gandhi
EL RENDIMIENTO ACADÉMICO…viii
ÍNDICE
Dedicatoria..................................................................................................................................... v
Agradecimiento ............................................................................................................................ vi
Lista de Tablas .............................................................................................................................. xii
Lista de Figuras ............................................................................................................................xiv
Resumen .................................................................................................................................... xviii
Abstract .........................................................................................................................................xx
CAPÍTULO I: INTRODUCCIÓN ...................................................................22
Resumen ...................................................................................................................................... 22
Abstract ........................................................................................................................................ 22
1. Introducción ............................................................................................................................. 23
2. Hipótesis y Objetivos ............................................................................................................... 27
2.1. Hipótesis ............................................................................................................................ 27
2.2. Objetivo General ............................................................................................................... 28
2.3. Objetivos Específicos ......................................................................................................... 28
3. Antecedentes ........................................................................................................................... 28
4. Marco teórico .......................................................................................................................... 31
5. Metodología ............................................................................................................................. 36
6. Estructura de la tesis ................................................................................................................ 38
7. Discusiones y Comentarios ...................................................................................................... 38
CAPÍTULO II: ESTRUCTURA DEL ALMACÉN DE DATOS ..................41
Resumen ...................................................................................................................................... 41
Abstract ........................................................................................................................................ 42
1. Introducción ............................................................................................................................. 43
1.1. Etapas de Diseño del Almacén de Datos ........................................................................... 48
1.2. Niveles por Etapa del Diseño del Almacén de Datos ......................................................... 48
2. Estructura del DW utilizado ..................................................................................................... 53
2.1. Introducción ...................................................................................................................... 53
2.2. Modelo Entidad – Relación vs. Multidimensional ............................................................. 53
3. Descripción de la estructura del DW utilizado ........................................................................ 62
3.1. Descripción del Software utilizado .................................................................................... 76
3.2. Definición del Data Warehouse Edition ............................................................................ 76
3.3. Construcción de un Almacén de Datos con DWE .............................................................. 79
EL RENDIMIENTO ACADÉMICO…ix
3.4. Minería de Datos en DWE Design Studio .......................................................................... 81
3.4. OLAP en DWE Design Studio ............................................................................................. 82
4. Metodología de Definición del DW Utilizado .......................................................................... 83
5. Discusiones y Comentarios ...................................................................................................... 87
5.1. Ventajas del Uso de Data Warehouse .............................................................................. 88
5.2. Desventajas del Uso de Data Warehouse ......................................................................... 89
CAPÍTULO III: PREPARACIÓN DE LOS DATOS .................................90
Resumen ...................................................................................................................................... 90
Abstract ........................................................................................................................................ 90
1. Introducción ............................................................................................................................. 90
2. Depuración y Preparación de los Datos ................................................................................... 91
2.1. Recolección de los Datos .................................................................................................. 91
3. Tratamiento y Depuración de los Datos ................................................................................ 103
3.1. Limpieza .......................................................................................................................... 103
3.2. Carga ............................................................................................................................... 105
4. Armado del Datawarehouse .................................................................................................. 105
4.1. Creación del Proyecto de Depósito de Datos .................................................................. 106
4.2. Creación del Proyecto de Almacén de Datos .................................................................. 106
4.3. Diseño de los Flujos de Datos .......................................................................................... 107
4.4 Tabla de Hechos ............................................................................................................... 108
4.5. Dimensiones .................................................................................................................... 109
5. Discusiones y Comentarios .................................................................................................... 121
CAPÍTULO IV: MINERÍA DE DATOS .......................................................122
Resumen .................................................................................................................................... 122
Abstract ...................................................................................................................................... 122
1. Introducción ........................................................................................................................... 123
1.1. Historia ............................................................................................................................ 124
1.2. Tipos de Conocimientos .................................................................................................. 125
1.3. Definición ........................................................................................................................ 127
1.4. Características y Objetivos .............................................................................................. 128
2. Arquitectura ........................................................................................................................... 130
2.1. Tipos de Modelos ............................................................................................................ 131
3. Etapas en la Minería de Datos ............................................................................................... 131
EL RENDIMIENTO ACADÉMICO…x
3.1. Selección de Datos .......................................................................................................... 132
3.2. Preprocesamiento de Datos ............................................................................................ 133
3.3. Extracción de Conocimiento ............................................................................................ 133
3.4. Evaluación e Interpretación de Patrones ........................................................................ 133
4. Algoritmos para la Extracción de Conocimiento ................................................................... 133
5. Metodologías ......................................................................................................................... 135
5.1. Metodología SEMMA ...................................................................................................... 135
5.2. Metodología CRISP-DM .................................................................................................. 137
5.3. Elección de la Metodología ............................................................................................. 137
6. Modelado del Flujo de Minería.............................................................................................. 139
6.1. Habilitación de la Base de Datos para la Minería ........................................................... 139
6.2. Selección de la Técnica de Modelado ............................................................................. 139
7. Construcción del Modelo ....................................................................................................... 142
7.1. Modelo de Generación de Clusters ................................................................................. 142
7.2. Modelo de Asociación ..................................................................................................... 145
7.3. Clasificación con Árboles de Decisión ............................................................................. 147
8. Discusiones y Comentarios .................................................................................................... 150
CAPÍTULO V: ANÁLISIS DE LOS RESULTADOS .................................152
Resumen .................................................................................................................................... 152
Abstract ...................................................................................................................................... 152
1. Evaluación de Resultados ...................................................................................................... 152
2. Resultados Obtenidos con Clusterización .............................................................................. 153
3. Resultados Obtenido con Generadores de Asociación ......................................................... 180
3.1. Modelo 1 ......................................................................................................................... 180
3.2. Modelo 2 ......................................................................................................................... 183
3.3. Modelo 3 ......................................................................................................................... 186
4. Resultados Obtenido con Árboles de Decisión ...................................................................... 191
5. Discusiones y Comentarios .................................................................................................... 218
CAPÍTULO VI: CONCLUSIONES Y FUTURAS LÍNEAS DE
INVESTIGACIÓN ...........................................................................................220
1. Conclusiones .......................................................................................................................... 220
1.1. Capítulo I ......................................................................................................................... 221
1.2. Capítulo II ........................................................................................................................ 221
EL RENDIMIENTO ACADÉMICO…xi
1.3. Capítulo III ....................................................................................................................... 223
1.4. Capítulo IV ....................................................................................................................... 223
1.5. Capítulo V ........................................................................................................................ 223
2. Futuras Líneas de Investigación ............................................................................................. 225
LISTA DE REFERENCIAS ...........................................................................226
EL RENDIMIENTO ACADÉMICO…xii
Lista de Tablas
Tabla 1: Diferencia entre OLTP y OLAP. .................................................................................. 62
Tabla 2: Variables y significados de la tabla de hechos. ........................................................ 65
Tabla 3: Variables y significados de la tabla de hechos (continuación). .............................. 66
Tabla 4: Variables y significados de la dimensión importancia otorgada al estudio. ......... 67
Tabla 5: Variables y significados de la dimensión procedencia del alumno. ...................... 68
Tabla 6: Dimensión utilización de las TICs. .............................................................................. 69
Tabla 7: Variables y significados de la dimensión estudios secundarios. ........................... 70
Tabla 8: Variables y significados de la dimensión residencia actual. ................................... 71
Tabla 9: Variables y significados de la dimensión horas dedicadas al estudio. ................. 72
Tabla 10: Variables y significados de la dimensión situación laboral de la madre. ............ 73
Tabla 11: Variables y significados de la dimensión situación laboral del alumno. ............. 74
Tabla 12: Variables y significados de la dimensión situación laboral del alumno
(continuación). ............................................................................................................................... 75
Tabla 13: Variables y significados de la dimensión situación laboral del padre. ................ 76
Tabla 14: Datos de ingreso formulario on line (primera parte). ............................................. 95
Tabla 15: Datos de ingreso formulario on line (segunda parte). ........................................... 96
Tabla 16: Datos ingreso formulario on line (tercera parte). .................................................... 97
Tabla 17: Datos de ingreso formulario on line (cuarta parte). ................................................ 98
Tabla 18: Datos de ingreso formulario on line (quinta parte). ................................................ 99
Tabla 19: Datos de ingreso formulario on line (sexta parte). ............................................... 100
Tabla 20: Datos de ingreso formulario on line (séptima parte). ........................................... 101
Tabla 21: Categoría ocupacional. ............................................................................................ 102
Tabla 22: Unificación de criterios. ............................................................................................ 104
Tabla 23: Clase 7 alumnos de alto rendimiento académico .............................................. 193
Tabla 24: Clase 7 alumnos de alto rendimiento académico ............................................... 194
Tabla 25: Clase 7 alumnos de alto rendimiento académico ............................................... 195
Tabla 26: Clase 8 alumnos de alto rendimiento académico ............................................... 196
Tabla 27: Clase 8 alumnos de alto rendimiento académico ............................................... 197
Tabla 28: Clase 9 alumnos de alto rendimiento académico ............................................... 198
Tabla 29: Clase 9 alumnos de alto rendimiento académico ............................................... 199
Tabla 30: Clase 10 alumnos de alto rendimiento académico ............................................. 200
Tabla 31: Clase 10 alumnos de alto rendimiento académico ............................................. 201
Tabla 32: Clase 6 alumnos con un rendimiento académico medio. ................................... 201
Tabla 33: Clase 6 alumnos con un rendimiento académico medio. ................................... 202
Tabla 34: Clase 3 alumnos con un bajo rendimiento académico. ....................................... 203
Tabla 35: Clase 3 alumnos con un bajo rendimiento académico. ....................................... 204
Tabla 36: Clase 4 alumnos con un bajo rendimiento académico. ....................................... 205
Tabla 37: Clase 4 alumnos con un bajo rendimiento académico. ....................................... 206
Tabla 38: Clase 5 alumnos con un bajo rendimiento académico. ....................................... 207
Tabla 39: Clase 5 alumnos con un bajo rendimiento académico. ....................................... 208
Tabla 40: Características de los alumnos con la nota mínima de aprobación. ................. 212
EL RENDIMIENTO ACADÉMICO…xiii
Tabla 41: Características distintivas de los alumnos considerados de alto rendimiento
académico. ................................................................................................................................... 213
Tabla 42: Características distintivas de los alumnos considerados de bajo rendimiento
académico. ................................................................................................................................... 214
Tabla 43: Correlación e importancia de campo. .................................................................... 218
EL RENDIMIENTO ACADÉMICO…xiv
Lista de Figuras
Figura 1: El almacén de datos y su contexto (García Martínez et al., 2005). ..................... 49
Figura 2: Proceso ETL del DW (García Martínez et al., 2005). ............................................. 50
Figura 3: Visión global de la operatoria con DW (García Martínez et al., 2005). .............. 50
Figura 4: Proceso de ETL (La Red Martínez, 2009). .............................................................. 51
Figura 5: Ejemplo de proceso de transformación (DataPrix, 2009). ..................................... 52
Figura 6: Esquema estrella (Gill & Rao, 1996). ........................................................................ 57
Figura 7: Esquema copo de nieve (La Red Martínez, 2009). ................................................ 58
Figura 8: Estructura multidimensional (La Red Martínez, 2009). .......................................... 60
Figura 9: Modelo ROLAP y MOLAP (La Red Martínez, 2009). ............................................. 61
Figura 10: Esquema básico del almacén de datos (fuente propia). .................................... 63
Figura 11: Fuente y almacén de datos (fuente propia). .......................................................... 64
Figura 12: Tabla de hechos (fuente propia). ............................................................................. 65
Figura 13: Dimensión importancia otorgada al estudio (fuente propia). .............................. 67
Figura 14: Dimensión procedencia del alumno (fuente propia). ............................................ 68
Figura 15: Dimensión utilización de las TICs (fuente propia). ............................................... 69
Figura 16: Dimensión estudios secundarios (fuente propia). ................................................. 70
Figura 17: Dimensión residencia actual (fuente propia). ........................................................ 71
Figura 18: Dimensión horas dedicadas al estudio (fuente propia). ....................................... 72
Figura 19: Dimensión situación laboral de la madre (fuente propia). ................................... 73
Figura 20: Dimensión situación laboral (fuente propia). ......................................................... 74
Figura 21: Dimensión situación laboral del padre (fuente propia). ........................................ 75
Figura 22: Arquitectura DWE DB2 (IBM Corp., 2005)............................................................. 77
Figura 23: Componentes del DWE (IBM Corp., 2005) ............................................................ 78
Figura 24: Componentes del DWE (IBM Corp., 2005). ........................................................... 78
Figura 25: Rational Data Architect (IBM Corp., 2005)............................................................. 79
Figura 26: IBM Arquitectura de la Capa de Datos (IBM Corp., 2005). ................................. 80
Figura 27: SQL Herramienta para Almacenamiento (IBM Corp., 2005). ............................. 81
Figura 28: Minería de datos en DWE Design Studio (IBM Corp., 2004). ............................. 82
Figura 29: OLAP en DWE Design Studio (IBM Corp., 2004). ................................................ 83
Figura 30: Metodología Big Bang (Harinarayan, Rajaraman y Ullman, 1996). ................... 85
Figura 31: Metodología Rapid Warehousing (Widom, 1995). ................................................ 86
Figura 32: Estructura de la base de datos ENCUESTA en el DB2 (fuente propia)............ 92
Figura 33: Primera parte formulario on line (fuente propia). .................................................. 93
Figura 34: Segunda parte formulario on line (fuente propia). ................................................ 93
Figura 35: Tercera parte formulario On Line (fuente propia). ................................................ 94
Figura 36: Formulario on Line para ingreso de notas (fuente propia). ................................. 94
Figura 37: Mayor nivel de estudio alcanzado por los padres (fuente propia).................... 102
Figura 38: Rama Actividad Económica (fuente propia). ....................................................... 103
Figura 39: Datos contenidos en la BD Encuesta (fuente propia). ....................................... 105
Figura 40: Proyecto de Depósito de Datos (fuente propia). ................................................. 106
Figura 41: Proyecto Almacén de Datos (fuente propia). ....................................................... 107
Figura 42: Flujos de Datos desde la tabla fuente (fuente propia). ...................................... 107
EL RENDIMIENTO ACADÉMICO…xv
Figura 43: Ejecución y registro de los flujos de datos (fuente propia). ............................... 108
Figura 44: Estructura de la Tabla de Hechos: ALUMNOS (fuente propia). ....................... 109
Figura 45: Contenido de la Tabla ALUMNO (fuente propia). ............................................... 109
Figura 46: Estructura de la Tabla Estudios_Secundarios (fuente propia). ........................ 110
Figura 47: Contenido de la tabla Estudios_Secundarios (fuente propia). .......................... 110
Figura 48: Estructura de la tabla Horas_Est (fuente propia). ............................................... 111
Figura 49: Contenido de la tabla Horas_Est (fuente propia). ............................................... 112
Figura 50: Estructura de la tabla IMPORT_EST (fuente propia). ........................................ 113
Figura 51: Contenido de la tabla IMPORT_EST (fuente propia). ........................................ 113
Figura 52: Estructura de la tabla PROCEDENCIA (fuente propia). .................................... 114
Figura 53: Contenido de la tabla PROCEDENCIA (fuente propia). .................................... 114
Figura 54: Estructura de la tabla RESIDENCIA_ACTUAL (fuente propia). ....................... 115
Figura 55: Contenido de la tabla RESIDENCIA_ACTUAL (fuente propia). ....................... 115
Figura 56: Estructura de la tabla SITUACION_LABORAL (fuente propia) . ...................... 116
Figura 57: Contenido de la tabla SITUACION_LABORAL (fuente propia). ....................... 117
Figura 58: Estructura SITUACION_LABORAL_MADRE (fuente propia). .......................... 118
Figura 59: Contenido SITUACION_LABORAL_MADRE (fuente propia). .......................... 118
Figura 60: Estructura SITUACION_LABORAL_PADRE (fuente propia). .......................... 119
Figura 61: Contenido SITUACION_LABORAL_PADRE (fuente propia). .......................... 120
Figura 62: Estructura de la tabla UTIL_TICS (fuente propia). ............................................. 120
Figura 63: Contenido de la tabla UTIL_TICS (fuente propia). ............................................. 121
Figura 64: Información no evidente. (Pautsch, La Red Martínez, Cutro, 2010). ............. 126
Figura 65: Análisis versus complejidad (Pautsch, La Red Martínez, Cutro, 2010). ........ 127
Figura 66: Etapas en el KDD (Fayyad, Piatesky-Shapiro y Smyth, 1996). ........................ 130
Figura 67: Etapas en un proyecto de MD (García Martínez et al., 2005). ......................... 132
Figura 68: Fases de la metodología SEMMA (SAS Institute, 2013). .................................. 136
Figura 69: Ciclo de desarrollar en la metodología SEMMA (SAS Institute, 2013). .......... 136
Figura 70: Fases de la metodología CRISP-DM (Chapman et al., 1999). ......................... 137
Figura 71: Habilitación de la BD (fuente propia). ................................................................... 139
Figura 72: Selección de la fuente de datos (fuente propia). ................................................ 142
Figura 73: Elemento generador de clusters (fuente propia)................................................. 143
Figura 74: Extractor de calidad (fuente propia). ..................................................................... 143
Figura 75: Parámetros de minería para la generación de clusters (fuente propia). ......... 144
Figura 76: Atributos para la generación de clusters (fuente propia). .................................. 145
Figura 77: Elemento generador de asociaciones (fuente propia). ...................................... 146
Figura 78: Parámetros para la generación de asociaciones (fuente propia). .................... 146
Figura 79: Modelo de clasificación (fuente propia). ............................................................... 148
Figura 80: Parámetros de minería para la clasificación (fuente propia). ............................ 148
Figura 81: Propiedades de los atributos para la clasificación (fuente propia). .................. 150
Figura 82: Flujo de minería de cluster en Design Studio (fuente propia). .......................... 153
Figura 83: Vista gráfica de los clusters (fuente propia)......................................................... 154
Figura 84: Vista textual de cluster (fuente propia). ................................................................ 155
Figura 85: Calidad global del modelo (fuente propia). .......................................................... 155
Figura 86: Vista de detalle para cada cluster (fuente propia). ............................................. 156
EL RENDIMIENTO ACADÉMICO…xvi
Figura 87: Vista gráfica cluster 3, género del alumno (fuente propia). ............................... 156
Figura 88: Vista gráfica cluster 3, situación final del alumno (fuente propia). ................... 157
Figura 89: Vista gráfica cluster 3, estado civil alumno (fuente propia). .............................. 157
Figura 90: Vista gráfica cluster 3, ciudad de nacimiento del alumno (fuente propia). ..... 158
Figura 91 Vista gráfica cluster 3, provincia de nacimiento del alumno (fuente propia). .. 158
Figura 92: Vista gráfica cluster 3, utilización de las TIC (fuente propia). ........................... 159
Figura 93: Vista gráfica cluster 7, género del alumno (fuente propia). ............................... 159
Figura 94: Vista gráfica cluster 7, situación final del alumno (fuente propia). ................... 160
Figura 95: Vista gráfica cluster 7, estado civil del alumno (fuente propia). ....................... 160
Figura 96: Vista gráfica cluster 7, ciudad de nacimiento del alumno (fuente propia). ..... 161
Figura 97: Vista gráfica cluster 7, provincia de nacimiento del alumno (fuente propia). . 161
Figura 98: Vista gráfica cluster 7, utilización de las TIC (fuente propia). ........................... 162
Figura 99: Flujo de minería de cluster en Design Studio (fuente propia). .......................... 163
Figura 100: Vista gráfica de los cluster hallados (fuente propia). ....................................... 163
Figura 101: Detalles para clusters (fuente propia)................................................................. 164
Figura 102: Vista gráfica de escolarización de los padres (fuente propia). ....................... 164
Figura 103: Vista gráfica de la utilización de las TICs (fuente propia). .............................. 165
Figura 104: Vista gráfica cluster 3, escolarización de los padres (fuente propia). ........... 165
Figura 105: Vista gráfica cluster 3, utilización de las TICs (fuente propia). ....................... 166
Figura 106: Vista gráfica cluster 2, escolarización de los padres (fuente propia). ........... 166
Figura 107: Vista gráfica utilización de las TICs (fuente propia). ........................................ 167
Figura 108: Flujo de minería de cluster en Design Studio (fuente propia). ....................... 167
Figura 109: Modelo de clusters generado con el visualizador (fuente propia).................. 168
Figura 110: Vista gráfica cluster 6, titulación del alumno (fuente propia). ......................... 168
Figura 111: Vista grafica cluster 6, utilización de las TIC (fuente propia). ......................... 169
Figura 112: Vista gráfica de los cluster hallados (fuente propia). ....................................... 170
Figura 113: Vista gráfica cluster 2, situación laboral del alumno (fuente propia). ............ 170
Figura 114: Vista gráfica de la utilización de las TICs (fuente propia). .............................. 171
Figura 115: Vista gráfica relación horas trabajada por el alumno (fuente propia). ........... 171
Figura 116: Vista gráfica cluster 9, de la utilización de las TICs (fuente propia). ............. 172
Figura 117: Flujo de minería de cluster en Design Studio (fuente propia). ....................... 173
Figura 118: Vista gráfica de los cluster hallados (fuente propia). ....................................... 173
Figura 119: Vista textual de cluster (fuente propia). .............................................................. 174
Figura 120: Calidad global del modelo (fuente propia). ........................................................ 174
Figura 121: Vista de detalle para cluster (fuente propia). ..................................................... 174
Figura 122: Vista gráfica cluster 9, horas dedicadas al estudio (fuente propia). .............. 175
Figura 123: Vista gráfica cluster 9, importancia asignada al estudio (fuente propia). ..... 176
Figura 124: Vista gráfica cluster 9, utilización de las TICs (fuente propia). ....................... 176
Figura 125: Vista gráfica cluster 4, horas dedicadas al estudio (fuente propia). .............. 177
Figura 126: Vista gráfica cluster 4, importancia asignada al estudio (fuente propia). ..... 177
Figura 127: Vista gráfica cluster 4, utilización de las TICs (fuente propia). ....................... 178
Figura 128: Vista gráfica cluster 1, horas dedicadas al estudio (fuente propia). .............. 178
Figura 129: Vista gráfica cluster 1, importancia asignada al estudio (fuente propia). ..... 179
Figura 130: Vista gráfica cluster 1, utilización de las TICs (fuente propia). ....................... 179
EL RENDIMIENTO ACADÉMICO…xvii
Figura 131: Flujo de minería de asociaciones en Design Studio (fuente propia). ............ 181
Figura 132: Visualización de las reglas del modelo (fuente propia). .................................. 182
Figura 133: Visualización de las reglas del modelo (fuente propia). .................................. 183
Figura 134: Flujo de minería de asociaciones en Design Studio (fuente propia). ............ 184
Figura 135: Visualización de las reglas del modelo (fuente propia). .................................. 184
Figura 136: Visualización de las reglas del modelo (fuente propia). .................................. 185
Figura 137: Flujo de minería de asociaciones en Design Studio (fuente propia). ............ 187
Figura 138: Visualización de las reglas del modelo (fuente propia). .................................. 187
Figura 139: Visualización de las reglas del modelo (fuente propia). .................................. 189
Figura 140: Visualización de las reglas del modelo (fuente propia). .................................. 190
Figura 141: Visualización de las reglas del modelo (fuente propia). .................................. 191
Figura 142: Flujo de minería de clasificación en Design Studio (fuente propia). .............. 191
Figura 143: Clases predichas por el algoritmo árbol (fuente propia). ................................. 192
Figura 144: Visualizador de calidad del modelo (fuente propia). ........................................ 215
Figura 145: Matriz de confusión obtenida con el algoritmo de Árbol (fuente propia). ...... 215
Figura 146: Árbol de decisión (fuente propia). ....................................................................... 216
Figura 147: Gráfico de importancia de campo del modelo (fuente propia). ...................... 217
Figura 148: Tabla de correlación e importancia de campo (fuente propia). ...................... 217
EL RENDIMIENTO ACADÉMICO…xviii
Resumen
La presencia de las tecnologías en la educación ya no es una novedad sino una
realidad; los contextos de enseñanza-aprendizaje han cambiado con su sola aparición en el
aula, al menos materialmente.
Esta realidad también se ha puesto de manifiesto en el Instituto Superior de Curuzú
Cuatiá, especialmente en la Tecnicatura Superior Analista Programador y particularmente
en la cátedra de Sistemas Operativos.
Al efecto se ha realizado un trabajo de investigación mediante el cual se ha puesto
de manifiesto las variables que explican la relevancia de la utilización de estas
herramientas basadas en las TICs (Tecnologías de la Información y las comunicaciones).
De esta manera se determina cómo influyen en los alumnos, variables vinculadas
específicamente a características académicas, factores sociales y demográficos, al efecto
de clasificar y agrupar a los mismos.
Se ha considerado de gran importancia identificar los perfiles de alumnos exitosos
(los que promocionan o regularizan la asignatura), como así también los perfiles de
alumnos que no lo logran (los que quedan en la condición de libres). Una vez
determinados los perfiles de alumnos con bajo rendimiento académico, se podrán encarar
acciones tendientes a evitar potenciales fracasos académicos. Para la determinación de los
perfiles de alumnos se consideró apropiado utilizar técnicas de Almacenes de Datos (Data
Warehouse: DW).
Se aborda específicamente todas las acciones vinculadas con la recolección de los
datos, explicando los criterios que se siguieron para lograr la depuración y preparación de
los mismos, el armado del DW y posteriormente los flujos destinados a cargar los datos en
el mismo.
EL RENDIMIENTO ACADÉMICO…xix
A los efectos de obtener el conocimiento buscado a partir de la información
cargada en el DW, se ha utilizado el proceso de KDD (Knowledge Discovery from
Databases), en el cual uno de los pasos más relevantes es el de utilización de técnicas de
minería de datos, que han permitido construir modelos predictivos basados en datos
históricos.
Se han determinado los patrones de éxito y de fracaso académico de los alumnos,
de esta manera, utilizando las técnicas que ofrece la minería, se puede predecir, con un
porcentaje muy alto de credibilidad, la probabilidad de desertar de cualquier alumno con la
ventaja de que se puede pronosticar en los primeros cuatrimestres.
Palabras claves: rendimiento académico, almacenes de datos, minería de datos, perfiles de
alumnos.
EL RENDIMIENTO ACADÉMICO…xx
Abstract
The presence of technology in education is no longer a novelty but a reality; the
teaching-learning contexts have changed with his single appearance in the classroom, at
least materially.
This reality has also been shown at the Institute of Curuzú Cuatiá, especially in the
Superior Technical Analyst and particularly in the Chair of Operating Systems.
To this effect has been made by research that has shown the variables that explain
the relevance of the use of these tools based on ICT (Information and Communications
Technologies).
This will determine how they affect students, specifically related variables
academic characteristics, social and demographic factors, the effect of classifying and
grouping them.
It was considered of great importance to identify the profiles of successful students
(those who promote or regularize the subject), as well as profiles of students who do not
succeed (the remaining free status). Having identified the profiles of students with poor
academic performance, may face action to avoid potential academic failure. To determine
the profiles of students were considered appropriate techniques of Data Warehouses (Data
Warehouse: DW).
It specifically addresses all actions related to data collection, explaining the criteria
followed to achieve purification and preparation thereof, the assembly of the DW and then
flows to load the data into it.
For the purpose of obtaining the knowledge sought from the information loaded in
the DW was used KDD process (Knowledge Discovery from Databases), in which one of
EL RENDIMIENTO ACADÉMICO…xxi
the most important steps is the use of mining techniques data, which have allowed to build
predictive models based on historical data.
They have determined the patterns of success and academic failure of students, in
this way, using mining techniques offered, you can predict, with a high percentage of
credibility, the probability of dropping any student with the advantage of that can be
predicted in the first semesters.
Keywords: academic performance, data warehouses, data mining, student profiles.
EL RENDIMIENTO ACADÉMICO…22
CAPÍTULO I: INTRODUCCIÓN
Resumen
El propósito de este trabajo de investigación es el de determinar, mediante una
investigación científica, las variables que explican la relevancia de la utilización de las
herramientas de enseñanza – aprendizaje basadas en las NTICs (Nuevas Tecnologías de la
Información y las Comunicaciones), por parte de los alumnos de Sistemas Operativos de
la TSAP (Tecnicatura Superior Analista Programador) del Instituto Superior de Curuzú
Cuatiá (ISCC).
Se espera poder determinar cómo influyen en los alumnos, variables tales como el
nivel educacional de los padres, el tipo de formación obtenido en la escuela secundaria, el
nivel socio-económico, la edad, el sexo, la posesión de una PC (Personal Computer:
Computadora Personal), el acceso que se tenga a una PC, el ámbito en el cual los alumnos
acceden a las NTICs (Instituto, domicilio familiar, domicilio propio, domicilio de un
amigo, cyber, etc.), el trabajo en grupo, el tipo de conexión para acceso a la Internet (dial-
up, ADSL, cable-módem, etc.), el hecho de que los alumnos trabajen además de estudiar,
el rendimiento logrado en asignaturas previas (anteriores) del Plan de Estudios, la actitud
general hacia el estudio.
Abstract
The purpose of this research is to determine, through scientific research, the
variables that explain the relevance in using the tools of teaching - learning based on ICTs
(Information Technology and Communication), by students TSAP Operating Systems
(Superior Technical Analyst) Higher Institute of Curuzú Cuatiá.
He hopes to determine how they affect students, variables such as the educational
level of the parents, the type of training received in high school, socioeconomic level, age,
EL RENDIMIENTO ACADÉMICO…23
sex, possession of a PC (Personal Computer : PC), which has access to a PC, the area in
which students have access to ICT (Institute family home, own home, a friend's home,
internet, etc..), group work, connection type to access the Internet (dial-up, DSL, cable
modem, etc.), the fact that students work besides studying, the performance achieved in
previous courses (above) Curriculum, the general attitude towards the study.
1. Introducción
A lo largo de los diferentes módulos desarrollados en la Maestría en Informática y
Computación, especialmente en los módulos correspondientes a Gestión del
Conocimiento, Gobierno Electrónico, Educación a Distancia y Epistemología y
Metodología de la Investigación Científica, ha aparecido recurrentemente el problema de
la masividad ante la falta de recursos materiales y humanos, donde además se ha planteado
la utilización de las nuevas tecnologías de la información y de las comunicaciones
(NTICs) aplicadas al proceso de enseñanza – aprendizaje, como un posible paliativo al
mencionado problema de la masividad y del rendimiento académico.
La carrera de Técnico Superior Analista Programador (TSAP) del Instituto
Superior de Curuzú Cuatiá (ISCC) ha sido reiteradamente la primera en número de
alumnos, considerando la totalidad del ISCC: 36.71%, y la que más egresados produce:
51,57% de dicha institución, porcentajes correspondientes a los respectivos informes
elaborados para los años: 2006, 2007, 2008, 2009, 2010 por el Departamento de Alumnos
del ISCC; se destaca que dichos porcentajes a la fecha año 2012, siguen mostrando una
mayor tendencia con relación a la inscripción de alumnos en la TSAP de acuerdo a los
datos aportados por el mencionado departamento.
Tomando como referencia la información oficial del Departamento de Alumnos del
ISCC, la carrera de Técnico Superior Analista Programador ha registrado una matrícula
EL RENDIMIENTO ACADÉMICO…24
considerable de alumnos del ISCC (2006: 20,5%; 2007: 22,42%; 2008: 23,53%; 2009:
24,34% ; 2010: 25,79%); ha sido la carrera de mayor número de alumnos en el ISCC
(2006: 35,77%; 2007: 35,23%; 2008: 38,32%; 2009: 36,47%; 2010: 37,80%), la de mayor
cantidad de nuevos inscriptos en el ISCC (2006: 29,89%; 2007: 29,71%; 2008: 38,74%;
2009: 23,70%; 2010: 23,30%) y la que más egresados ha producido en el ISCC (2006:
45%; 2007: 49.55%; 2008: 52.89%; 2009: 54.78%; 2010: 55.67%). Estos datos
demuestran de manera elocuente la importancia de la carrera de Técnico Superior Analista
Programador del ISCC.
Un análisis más detallado permite observar los relativamente bajos porcentajes de
egresados respecto de nuevos inscriptos en la TSAP; estos porcentajes varían si se
considera solamente el título terminal de (Técnico Superior Analista Programador) o si
además se considera el título intermedio (Operador en Sistemas de Computación).
Sin considerar el título intermedio los datos son: 2006: 10.25%, 2007: 11.55%,
2008: 10.75%, 2009: 11.45%, 2010: 10.45%
Considerando el título intermedio: 2006: 21,81%, 2007: 23,22%, 2008: 21%, 2009:
23%, 2010: 22%.
Lo señalado en los párrafos precedentes permite afirmar que la relación entre
egresados y nuevos inscriptos es en general relativamente baja, y especialmente baja si se
considera a la TSAP sin los egresados con título intermedio.
Las relativamente bajas tasas de egresados respecto de nuevos inscriptos
mencionadas en el apartado anterior, que podríamos considerar el “rendimiento académico
global” de una carrera, se observan también en numerosas asignaturas de la TSAP,
considerando “rendimiento académico particular” o simplemente “rendimiento
académico”, a los resultados de las evaluaciones de los alumnos durante el cursado de una
asignatura, y la condición final lograda por los mismos en el marco de la Res. N° 1551/01
EL RENDIMIENTO ACADÉMICO…25
Reglamento Orgánico Marco (RAM) para los Institutos Superiores (régimen de evaluación
y promoción: Art. 85 y 86): promocionado, regular o libre.
Para la asignatura Sistemas Operativos los valores de los últimos años son los
siguientes:
Alumnos promocionados y regularizados respecto de los que rindieron algún
examen parcial: 2006: 16.25%, 2007: 27.45%, 2008: 30.55%, 2009: 28.50%, 2010:
30,39%.
Además se ha observado que un considerable porcentaje de alumnos se inscriben
para cursar la asignatura, pero luego no completan el cursado (55,39% en el 2010).
Ante la situación mencionada se consideró de gran importancia efectuar una
investigación que permita determinar las variables que inciden en el relativamente bajo
rendimiento académico de los alumnos de Sistemas Operativos de la TSAP del ISCC
perteneciente a la Dirección General de Educación Superior (DGES), identificar los
perfiles de alumnos exitosos (los que promocionan o regularizan la asignatura), como así
también los perfiles de alumnos que no lo logran (los que quedan en la condición de
libres). Una vez determinados los perfiles de alumnos con bajo rendimiento académico, se
podrán encarar acciones tendientes a evitar potenciales fracasos académicos. Para la
determinación de los perfiles de alumnos se consideró apropiado utilizar técnicas de
Almacenes de Datos (Data Warehouse: DW) y Minería de Datos (Data Mining: DM).
Dado también que las experiencias a nivel nacional (Acosta & La Red Martínez,
2012; La Red Martínez & Acosta, 2012; La Red Martínez, Agostini, Uribe y Rambo,
2011) e internacional (Bolaños Calvo, 2001; Peiró, 2001; Wallace & Young, 2010; IEEE,
2012) dan cuenta de beneficios que los sistemas educativos virtuales brindan, acortando y
mejorando los ciclos de aprendizajes, favoreciendo con nuevas formas de comunicación
docente-alumno, minimizando los problemas de espacio físico, enfatizando la
EL RENDIMIENTO ACADÉMICO…26
responsabilidad del alumno, en cuanto a independizarlo con relación al tiempo y lugar de
estudio, se entendió que nuestra solución pasaba por la incorporación de las nuevas
NTICs.
Ante esta situación, caracterizada por la masividad, falta de recursos en las
proporciones adecuadas, bajo rendimiento académico, la aplicación de las NTICs sería un
importante complemento del proceso tradicional de enseñanza – aprendizaje,
constituyéndose en una herramienta efectiva para intentar solucionar la situación antes
mencionada.
De acuerdo a la problemática planteada, surge la siguiente pregunta principal:
¿Cuáles son las variables que explican la incidencia en la utilización de las herramientas
de enseñanza – aprendizaje basadas en las NTICs por parte de los alumnos de Sistemas
Operativos de la TSAP del ISCC de la Dirección General de Educación Superior DGES?
Además surgen varias preguntas específicas tales como:
¿Influye el nivel educacional de los padres en el uso de las NTICs por parte de los
alumnos?
¿Influye el tipo de formación obtenido en la escuela secundaria en el uso de las NTICs por
parte de los alumnos?
¿Influye el nivel socio-económico en el uso de las NTICs por parte de los alumnos?
¿Influye la edad en el uso de las NTICs por parte de los alumnos?
¿Influye el sexo en el uso de las NTICs por parte de los alumnos?
¿Influye la posesión de una PC en el uso de las NTICs por parte de los alumnos?
¿Influye el acceso que se tenga a una PC en el uso de las TICs por parte de los alumnos?
¿Influye el ámbito en el cual los alumnos acceden a las NTICs (Instituto, domicilio
familiar, domicilio propio, domicilio de un amigo, cyber, etc.) en el uso de las NTICs por
parte de los alumnos?
EL RENDIMIENTO ACADÉMICO…27
¿Influye el trabajo en grupo en el uso de las NTICs por parte de los alumnos?
¿Influye el tipo de conexión para acceso a la Internet (dial-up, ADSL, cable-módem, etc.)
en el uso de las NTICs por parte de los alumnos?
¿Influye el hecho de que los alumnos trabajen además de estudiar en el uso de las NTICs
por parte de los alumnos?
¿Influye el buen rendimiento logrado en Asignaturas previas (anteriores) del Plan de
Estudios en el uso de las NTICs por parte de los alumnos?
¿Influye el buen rendimiento logrado en Asignaturas correlativas previas del Plan de
Estudios en el uso de las NTICs por parte de los alumnos?
¿Influye la actitud general hacia el estudio en el uso de las NTICs por parte de los
alumnos?
Como consecuencia de lo antes indicado, este capítulo se ha estructurado de la
siguiente manera: en la Sección 2 se indicarán la hipótesis y los objetivos, en la Sección 3
se mencionarán los antecedentes considerados más relevantes, en la Sección 4 se
describirá el marco teórico que sustenta esta tesis, en la Sección 5 se expondrá la
metodología utilizada, en la Sección 6 se presentará la estructura de la tesis, que se
desarrollará en los siguientes capítulos, finalizándose este capítulo con la Sección 7
destinada a presentar algunas discusiones y comentarios, en tanto que la bibliografía se
indicará al final, luego del último capítulo.
2. Hipótesis y Objetivos
2.1. Hipótesis
La utilización de las herramientas de enseñanza-aprendizaje basadas en las NTICs,
inciden en el rendimiento académico de los alumnos de Sistemas Operativos en la
Tecnicatura Superior Analista Programador del ISCC, pero esta utilización de las NTICs
está influenciada por diversas variables socio-económicas y actitudinales.
EL RENDIMIENTO ACADÉMICO…28
2.2. Objetivo General
Conocer las variables que inciden en el rendimiento académico de los alumnos de
Sistemas Operativos con respecto al uso de las NTICs en la Tecnicatura Superior Analista
Programador del Instituto Superior de Curuzú Cuatiá.
2.3. Objetivos Específicos
Determinar cómo influyen las siguientes variables en el uso académico de las
NTICs y en el rendimiento académico de los alumnos:
a) El nivel educacional de los padres.
b) El nivel socio-económico.
c) La posesión de una PC.
d) El ámbito en el cual los alumnos acceden a las TICs (Facultad,
domicilio familiar, domicilio propio, domicilio de un amigo, cyber,
etc.).
e) La actitud general hacia el estudio.
3. Antecedentes
El estado actual del conocimiento sobre el tema de investigación es muy diverso,
ya que se ha abordado sobre esta problemática, pero en otros contextos, pero no desde la
perspectiva de describir y determinar las variables que inciden en el rendimiento
académico de los alumnos de Sistemas Operativos con respecto al uso de las NTICs en el
ISCC.
Entre los antecedentes, se encuentran los siguientes trabajos:
En el contexto internacional:
En (Sáez López, 2010) se muestra que el uso efectivo de las Tecnologías de la
Información y la Comunicación (TIC) en las prácticas educativas, requiere que los
docentes mantengan una actitud positiva hacia estas actividades, al mismo tiempo que
sean capaces de desarrollarlas en dichos contextos.
EL RENDIMIENTO ACADÉMICO…29
En (Montero Rojas, Villalobos Palma y Valverde Bermúdez, 2007) se puede
observar que las instituciones públicas de educación superior enfrentan actualmente el reto
de mejorar su calidad académica con recursos cada vez más escasos, y a la vez, hacer
frente a las demandas de los nuevos contextos sociales y económicos de una sociedad
globalizada.
En (Bolaños Calvo, 2001) se contextualiza el desarrollo de las tecnologías de
información y comunicación y la repercusión que tienen en los sistemas de educación a
distancia, las implicaciones, los retos, así como aquellos aspectos en los cuales ha tenido
éxito y ha fracasado, con el fin de enfrentar con nuevas estrategias didácticas, curriculares
y metodológicas el uso de la tecnología para que se convierta en el soporte válido y en una
forma nueva de llevar a cabo la mediación pedagógica.
En (Peiró, 2001) se estudian las competencias en la sociedad de la información y se
presentan nuevos modelos formativos, estudiándose el diseño de una propuesta didáctica
caracterizada por el desarrollo de las competencias del estudiante, la asunción de una
metodología de trabajo que sitúa al estudiante en el centro del proceso de enseñanza con el
fin de propiciar el desarrollo de su autonomía y de su capacidad de aprender a aprender, y
por último, reflexionar sobre los mecanismos que permitan al profesorado diseñar de
forma colaborativa pautas y estrategias pertinentes.
En (Sancho Gil, 2004) se trata de responder acerca de si los observatorios de la
Sociedad de la Información tienen como principal finalidad llevar a cabo una evaluación
acerca del impacto de las TIC, o si constituyen una promoción de su uso en la educación.
Se ha realizado, una aproximación al concepto de observatorio y a su función en el ámbito
de las Ciencias Sociales, así como al concepto de Sociedad de la Información. Se
menciona que la educación es una necesidad fundamental en el desarrollo de la Sociedad
EL RENDIMIENTO ACADÉMICO…30
de la Información que algunos comienzan a convertir en Sociedad del Conocimiento;
también se estudia la evolución del uso de las TIC en la mejora de la calidad educativa.
En (Carrasco Pradas, Gracia Esposito y De La Iglesia Villasol, 2005) se estudia la
incorporación de las nuevas tecnologías de información y comunicación (TIC) a la
metodología docente universitaria. Se afirma que la generalización en el uso de las TIC no
garantiza por sí sola la consecución de los objetivos perseguidos y es, por tanto, una
condición necesaria pero no suficiente.
En el contexto nacional:
En (Acosta, Macías y La Red Martínez, 2005) se estudia la utilización multimedia
destinado a la enseñanza del álgebra a distancia.
En (Acosta & La Red Martínez, 2012) se relata la experiencia realizada por los
autores en la utilización de un Aula Virtual no convencional de Álgebra en la FaCENA –
UNNE, donde se concluye que el enfoque utilizando b-learning y multimedia, ha sido
exitoso.
En (La Red Martínez et al., 2011) se ha podido comprobar las grandes ventajas de
la utilización de las tecnologías y software de última generación que soportan sistemas
multiplataforma, se estudia el rendimiento académico con técnicas de DW y DM,
considerándose la importancia concedida al estudio y su influencia en el rendimiento
académico.
En (Ferrante, 2000) se señala que la educación a distancia, como propuesta
alternativa, significa pensar en un nuevo modelo de comunicación que fundamente e
instrumente la estrategia didáctica.
En (La Red Martínez, 2003) se estudió el problema de la masividad ante la falta de
recursos suficientes y las posibilidades de las TICs para enfrentar este problema.
EL RENDIMIENTO ACADÉMICO…31
En (Taquini (h.), 2001) se estudia la educación virtual o e-learning y la generación de
contenidos específicos para la educación digital, considerando que ello significa un gran
esfuerzo de los educadores a la hora de preparar los mismos.
Teniendo en cuenta la diversidad de antecedentes relacionados a la temática de la
educación a distancia con la utilización de las TICs y la inexistencia de estudios locales, se
considera a este trabajo de tesis una contribución original, entendiéndose que sus
resultados serán un riquísimo aporte para la toma de decisiones y el mejoramiento del
rendimiento académico de los alumnos de la asignatura objeto de estudio y de otras de la
institución.
4. Marco teórico
Algunos fundamentos teóricos que sustentan la investigación se describen a
continuación:
Según (Joyanes Aguilar, 1997) a medida que la sociedad va siendo dominada por
la tecnología, y más en particular por las tecnologías de la información y de la
comunicación (TIC), una constante sociológica a tener siempre presente es el cambio. Las
personas sienten el poder de la nueva tecnología. Saben que las computadoras tendrán un
efecto profundo en sus modos de vida y en su trabajo, pero todavía no existe una idea clara
de cómo les afectará directamente. ¿Cómo cambiará su trabajo, su empresa y su hogar,
debido al uso cada vez mayor de la nueva tecnología?. Pero de lo que no hay dudas es que
la información es hoy el recurso clave de la economía, de las organizaciones, del mundo
cultural y de la política.
En la década de los sesenta, en (McLuhan & Powers, 1964), se predice el
advenimiento de la aldea global, que el fenómeno Intranet/Internet, junto con las otras
Tecnologías de la Información y de las Comunicaciones (TICs), están haciendo posible.
EL RENDIMIENTO ACADÉMICO…32
El nacimiento y difusión masiva de la computadora personal (PC) en los años
ochenta aceleró la creciente implantación de las redes de computadoras así como la
proliferación de programas de software muy populares y de gran aplicación personal o
empresarial.
Las publicaciones (Broad, 1992; Gore, 1993) se pueden considerar como el
comienzo de un intenso debate cultural, tecnológico e intelectual, sobre la actual sociedad
de la información. En este informe se acuñó el término de autopistas de la información
(information superhighway).
En (European Communities, 1993), se indican las medidas que se deben tornar
para aprovechar el cambio social que se está produciendo con la introducción de las TICs
en todos los ámbitos de actividad.
En (Negroponte, 1995), se describe la aparición del nuevo mundo digital, mediante
la operación de digitalización, con la cual la partícula elemental del nuevo mundo es el bit
en lugar del átomo, es decir, la presencia o ausencia de una señal, y su representación
denominada numérica o digital mediante un código llamado binario, ha constituido el
primer punto de arranque o despegue de la nueva sociedad de la información apoyada en
las TICs.
Según (Joyanes Aguilar, 1997) esta revolución de la información se irá plasmando
en la configuración de una nueva sociedad de la información o cibersociedad, que plantea
un gran número de interrogantes de orden técnico, económico, sociológico, cultural y
político.
En este contexto, se destaca que las TICs permiten el desarrollo de entornos
virtuales de enseñanza – aprendizaje a los que se puede acceder globalmente; sin embargo
se coincide con (Bolaños Calvo, 2001) en que la educación a distancia debe
EL RENDIMIENTO ACADÉMICO…33
fundamentarse en una concepción constructivista del conocimiento, no en la reproducción
memorística de éste.
Se considera que el nuevo paradigma educativo para el desarrollo del proceso de
enseñanza - aprendizaje tanto presencial, no-presencial o bimodal, se basa en un cambio
del perfil del profesor y del alumno, en la eliminación de las barreras espacio-temporales y
en la integración de los contenidos tratados con métodos pedagógicos asociados a cada
área temática.
Asimismo es evidente que la sociedad de la información y del conocimiento (SIC),
con todo su potencial, pone a prueba a los sistemas educativos y a sus protagonistas, en
especial a los docentes, que tienen la responsabilidad de sacar el mayor provecho posible
de las nuevas oportunidades que se brindan a la educación y a la sociedad toda.
En (Telefónica de Argentina S.A., 2004) se indica que el eje del debate es el
individuo y su desarrollo, y en ese sentido la educación que se le brinde adquiere un
protagonismo esencial entre las acciones que se proyecten.
En (Silvio, 1998) la educación virtual se identifica plenamente con la educación a
distancia, la educación a distancia puede no ser entregada de manera virtual, pero la
educación virtual es entregada a distancia por definición.
Además, los modelos comunicacionales de uso de la enseñanza telepresencial
comprenden: comunicación síncrona (aula virtual y tutorías) y comunicación asíncrona
(tutorías, centro de recursos, cursos en la red), los servicios adicionales incluyen: portales
wap, ciberlibrerías, ciberbibliotecas, acceso a clases grabadas, etc., siendo las principales
tendencias las siguientes: superar el modelo de aula virtual logrando mayor interacción, el
empleo de la web como instrumento, la utilización de servidores multimedia, la
realización de videoconferencias sobre Internet, etc.
EL RENDIMIENTO ACADÉMICO…34
Se señala que hay que tener presente que informar no es lo mismo que formar.
Internet no enseña lo más importante, que es aprender a aprender, a evaluar y a discutir
racionalmente, es decir que el papel tradicional del educador y formador sigue vigente.
En el contexto de este trabajo la enseñanza a distancia significará aprendizaje
electrónico, pero el aprendizaje electrónico podrá darse localmente (con un apoyo cercano
del docente), sin el componente de distancia.
En (Taquini (h.), 2001) se señala que la educación virtual o e-learning consiste en
los programas que los docentes y las instituciones organizan como plataforma educativa
digital y que suministra conocimientos generales o carreras. Esta definición conlleva el
concepto de la generación de contenidos específicos para la educación digital, lo que
significa un gran esfuerzo de los educadores a la hora de preparar los mismos.
Con el vocablo e-learning se define la enseñanza y aprendizaje, individual o
colectiva, haciendo uso de las nuevas TICs (video conferencia, satelital, Internet; etc.) y
abarcando las diversas modalidades y opciones de aprendizaje conocidas y usadas hasta
ahora. Es decir que esta modalidad de enseñanza integra los programas que los docentes y
las instituciones organizan como plataforma educativa digital y que suministra
conocimientos generales o carreras. Este nuevo modelo educativo extiende la educación a
distancia convencional mediante el uso de la Internet.
En (Tiffin y Rajasingham, 1997) se señala lo que pueden llegar a ser la educación y
el aprendizaje a medida que avanza la tecnología informática. Se analiza además cómo
debe ser la preparación de las personas para poder vivir en una sociedad altamente
informatizada. Se examina la naturaleza de la educación como sistema de comunicación
de notable poder, señalando además, que con Internet la enseñanza a distancia, puede
beneficiarse por lo menos de dos grandes ventajas con respecto a los medios tradicionales,
como medio de comunicación y como contenedor de recursos para el aprendizaje. A esta
EL RENDIMIENTO ACADÉMICO…35
modalidad educativa en la que la utilización de Internet es el eje tecnológico utilizado por
el proceso de enseñanza-aprendizaje, se la denomina paradigma educativo mediante
Internet.
Asimismo (Ferrante, 2000) señala que la educación a distancia, como propuesta
alternativa, significa pensar en un nuevo modelo de comunicación que fundamente e
instrumente la estrategia didáctica. Este concepto, expresado de distintas formas, muestra
que los cursos a distancia pueden ser generados y entregados en diferentes formatos y por
otra parte, dicho material puede ser accedido en forma sincrónica (en tiempo real) o
asincrónica (en diferentes momentos entre quien emite y quien recibe).
La educación virtual, también denominada e-learning, se relaciona principalmente
con la estrategia, metodología, soporte, y/o plataforma que sustenta al Campus, es decir,
en donde sea posible hablar de un proceso de enseñanza-aprendizaje.
Un Campus Virtual abarca un aspecto muy amplio de las TICs, centrándose
especialmente en las consideraciones referentes al espacio físico, tecnológico,
administrativo, educativo, virtual, en donde se lleva a cabo la experiencia de enseñanza-
aprendizaje. En (Ferrante, 2000) se expresa que un Campus Virtual constituye una réplica
de todas las actividades académicas de una institución educativa determinada. En este
contexto se establecen relaciones diferidas, es decir que quien se comunica puede acceder
a información previamente preparada e incluida en el mencionado Campus y además
puede establecer relaciones en tiempo real, por medio de charlas (chats) con docentes,
colegas, autoridades de la institución, etcétera. Se indica que un Campus Virtual contiene
diversas aulas virtuales en las cuales se desarrolla la vida del estudiante, el cual sin la
necesidad de que existan espacios físicos, sin desplazarse o asistir a clase a determinada
hora, puede realizar sus actividades.
EL RENDIMIENTO ACADÉMICO…36
En (La Red Martínez & Acosta, 2012) se muestran la problemática de integrar la
perspectiva tecnológica con la pedagógica, brindando una arquitectura para sistemas de b-
learning. Didácticamente, se adoptan principios educativos comprobados del enfoque
centrado en la persona (person-centered approach) para impulsar procesos educativos, con
utilización de las TICs de manera segura. Técnicamente, se propone un entorno de trabajo
(framework) en capas capaz de brindar soporte basado en Web para estos principios
educativos.
En (Hernández Requena, 2008) se sostiene que el constructivismo ofrece un nuevo
paradigma para sustentar el uso de las TICs en los procesos de formación, donde se
cambia el papel y el lápiz y se pone como protagonista las aplicaciones de las nuevas
tecnologías, como aporte a una nueva manera de aprender; esto permitiría al estudiante
crear experiencias para su propio aprendizaje. El constructivismo en su paradigma,
consiste en que el estudiante construye y reconoce el conocimiento a partir de sus
experiencias anteriores. El principal objetivo es poder brindarle al estudiante los elementos
para nombrar, hablar, manejar e interpretar el mundo; dotar de saberes preparando para la
vida y propiciando el desarrollo integral especialmente su capacidad de pensar.
En (Tournon, 1984) se sostiene que el concepto de rendimiento académico es un
resultado del aprendizaje, suscitado por la intervención pedagógica del profesor o la
profesora, y producido en el alumno. No es el producto analítico de una única aptitud, sino
más bien el resultado sintético de una suma (nunca bien conocida) de elementos que
actúan en, y desde la persona que aprende, tales como factores institucionales,
pedagógicos y socio demográficos.
5. Metodología
El enfoque de este trabajo de investigación será desde la lógica cuantitativa,
trabajando con medición de variables, verificación de hipótesis mediante análisis
EL RENDIMIENTO ACADÉMICO…37
multivariado, producción de hipótesis y utilización de técnicas de minería de datos
inteligente, a los efectos de la extracción de conocimiento oculto en los datos.
Se intentará determinar en qué medida la desigual utilización de las herramientas de
enseñanza – aprendizaje basadas en las TICs por parte de los alumnos de Sistemas
Operativos de la TSAP del ISCC (variable dependiente), es influenciada por las siguientes
variables independientes:
a) El nivel educacional de los padres.
b) El nivel socio-económico.
c) La posesión de una PC.
d) El ámbito en el cual los alumnos acceden a las TICs (Facultad, domicilio
familiar, domicilio propio, domicilio de un amigo, cyber, etc.).
e) La actitud general hacia el estudio.
El universo estará constituido por los alumnos en condiciones de cursar la Asignatura
Sistemas Operativos de la Carrera Tecnicatura Superior Analista Programador del Instituto
Superior de Curuzú Cuatiá.
La unidad de análisis estará integrada por cada alumno en condiciones de cursar la
Asignatura Sistemas Operativos de la Carrera Tecnicatura Superior Analista Programador
del Instituto Superior de Curuzú Cuatiá, durante un cuatrimestre. Los casos seleccionados
serán los alumnos en condiciones de cursar la Asignatura Sistemas Operativos de la
Carrera Tecnicatura Superior Analista Programador (unos 200 alumnos).
Se analizarán los datos cuantitativos que se obtengan (integrados en un almacén de
datos) con las herramientas de la minería de datos, que incluyen elementos de la
inteligencia artificial (redes neuronales, sistemas expertos), con el propósito de investigar
relaciones entre las variables con métodos no estadísticos.
EL RENDIMIENTO ACADÉMICO…38
6. Estructura de la tesis
Habiéndose indicado precedentemente la situación problemática motivadora de
este trabajo de investigación, así como los principales antecedentes y los más destacados
conceptos teóricos que constituyen su marco conceptual, y habiéndose mencionado los
principales aspectos de la metodología a utilizar, se indicará a continuación los restantes
capítulos en que se ha estructurado esta tesis.
Capítulo II – Estructura del almacén de datos utilizado: se describirán los
principales conceptos referidos a almacenes de datos y de detallarán las estructuras
de datos que se utilizarán en el mismo.
Capítulo III – Preparación de los datos: se indicarán las acciones desarrolladas para
la obtención y depuración de los datos que se incorporarán al almacén de datos,
indicándose detalladamente los flujos de datos que se utilizarán.
Capítulo IV - Minería de datos: se detallarán los principales conceptos referidos a
la minería de datos y su correspondiente sustento matemático, presentándose los
flujos de minería que se utilizarán para la extracción de conocimiento del almacén
de datos.
Capítulo V – Análisis de resultados: se realizará la evaluación de los resultados
analizándose el cumplimiento de los objetivos planteados y la verificación de la
hipótesis indicada.
Capítulo VI - Conclusiones y futuras líneas de investigación: se comentarán las
principales conclusiones y se indicarán las posibles líneas futuras de investigación.
7. Discusiones y Comentarios
Como se ha señalado anteriormente y a modo de reseñar la situación problemática
que ha dado origen al desarrollo de esta investigación, se puede destacar puntualmente que
EL RENDIMIENTO ACADÉMICO…39
se ha encontrado recurrentemente el problema de la masividad y el del rendimiento
académico.
También se ha encontrado numerosos antecedentes acerca de la utilización de las
NTICs aplicadas al proceso de enseñanza – aprendizaje, lo que ha llevado a estudiar las
variables que inciden en el relativamente bajo rendimiento académico de los alumnos de
Sistemas Operativos de la TSAP del ISCC perteneciente a la Dirección General de
Educación Superior (DGES).
Para la realización del estudio antes mencionado se ha considerado que la
utilización de técnicas de DW y de DM serían las herramientas adecuadas, esperándose
que los resultados obtenidos permitan determinar perfiles de alumnos con alto riesgo de
fracaso académico, a los efectos de encarar acciones tendientes a evitar el mismo,
contribuyendo así a la solución de los problemas de la masividad ante la falta de recursos
suficientes y del relativamente bajo rendimiento académico.
Se debe considerar además que los retos que enfrentan los sistemas educativos
convencionales se ven exacerbados por la rápida evolución de las competencias asociadas
con la globalización del mercado laboral.
Al mismo tiempo, surgen nuevos modelos de prestación de servicios educativos
caracterizados por ocuparse menos de la enseñanza y más del aprendizaje (por ej., a través
de iniciativas autodidactas y el uso de habilidades individuales de búsqueda de
información).
La educación se ve cada vez menos limitada por la ubicación geográfica del
alumno (un país) o menos dependiente del espacio físico (un aula que debe congregar una
masa crítica de alumnos). Se requiere mayor flexibilidad a objeto de poder adaptarse al
tiempo disponible del alumno y un currículo modular no sujeto a una trayectoria escolar
rígida o a metas predeterminadas de certificación.
EL RENDIMIENTO ACADÉMICO…40
Bajo condiciones favorables, se estima que las NTICs pueden contribuir
importantemente a: extender las oportunidades de aprendizaje hacia poblaciones más
amplias y diversas; trascender barreras culturales; y derribar las restricciones físicas
impuestas por los establecimientos educativos y las fronteras geográficas.
Las tecnologías pueden perfeccionar el proceso de enseñanza y aprendizaje
reformando los sistemas convencionales de atención educativa, reforzando la calidad de
los logros de aprendizaje, facilitando la adquisición de competencias de última generación,
promoviendo el aprendizaje a lo largo de la vida y mejorando la gestión institucional.
EL RENDIMIENTO ACADÉMICO…41
CAPÍTULO II: ESTRUCTURA DEL ALMACÉN DE DATOS
Resumen
En la actualidad, las tecnologías de los sistemas de información, se han utilizado
principalmente para automatizar los procesos de tipo repetitivo, generándose con esto, los
sistemas operacionales. Entendemos por sistemas operacionales, aquellos programas que
resuelven las necesidades respecto al procesamiento de datos de alguna organización. En
los sistemas operacionales, los conceptos más importantes son la actualización, el
procesamiento y el tiempo de respuesta. Sin embargo, además de las necesidades
operacionales, las corporaciones también tienen necesidades informacionales.
Estas tienen por objetivo obtener la información necesaria, que sirva de base para
la toma de decisiones dentro de una organización. Las necesidades informacionales, se
basan en gran medida en el análisis de una enorme cantidad de datos. El dar solución a las
necesidades de tipo informacional, utilizando las bases de datos de los sistemas
operacionales, presenta ciertos problemas, debido a que para realizar consultas con alto
grado de dificultad, existen diversas desventajas como la falta de visión global en la
información, ya que las bases de datos no contienen datos históricos, es decir que no
especifican periodos de tiempo. Esta es una de las razones por las que surge la necesidad
de una nueva tecnología, tal es el caso de los Data Warehouse (DW), considerada la
tecnología que puede solucionar la deficiencia mencionada.
Como se ha señalado en el capítulo precedente, se ha considerado de gran
importancia efectuar una investigación que permita determinar las variables que inciden en
el relativamente bajo rendimiento académico de los alumnos de Sistemas Operativos de la
TSAP del ISCC perteneciente a la Dirección General de Educación Superior (DGES),
identificar los perfiles de alumnos exitosos (los que promocionan o regularizan la
asignatura), como así también los perfiles de alumnos que no lo logran (los que quedan en
EL RENDIMIENTO ACADÉMICO…42
la condición de libres). Una vez determinados los perfiles de alumnos con bajo
rendimiento académico, se podrán encarar acciones tendientes a evitar potenciales fracasos
académicos. Para la determinación de los perfiles de alumnos se consideró apropiado
utilizar técnicas de Almacenes de Datos (Data Warehouse: DW). En tal sentido se describe
la estructura del DW utilizado.
Abstract
Nowadays, technologies of information systems have been used primarily to
automate repetitive type processes, generating with this, the operational systems. We
understand operating systems, programs that meet the needs regarding any data processing
organization. In operating systems, the most important concepts are updating, processing
and response time. However, in addition to the operational requirements, corporations also
have informational needs. These are designed to obtain the necessary information to
provide a basis for decision-making within an organization. Informational needs, rely
heavily on the analysis of a huge amount of data. The solution to such informational
needs, using the databases operational systems, presents certain problems, because for
queries with a high degree of difficulty, there are several disadvantages such as lack of
overview in information, and databases that contain no historical data is not specified
periods. This is one of the reasons why there is a need of a new technology, as in the case
of the Data Warehouse (DW), considered the technology that can solve the deficiency
described.
As noted in the previous chapter, it was considered of great importance to make an
investigation to determine the variables that affect the relatively poor academic
performance of students in the TSAP Operating Systems ISCC from Directorate General
of Higher Education (DGES), identify the profiles of successful students (those who
promote or regularize the subject), as well as profiles of students who do not succeed (the
EL RENDIMIENTO ACADÉMICO…43
remaining free status). Having identified the profiles of students with poor academic
performance, may face action to avoid potential academic failure. To determine the profile
of students was considered appropriate techniques of Data Warehouses (Data Warehouse:
DW). In this sense describes the used DW structure.
1. Introducción
En la Sociedad de la Información y el Conocimiento (SIC) es imprescindible la
aplicación de técnicas de Almacenes de Datos (Data Warehouses: DW) y de Minería de
Datos (Data Mining: DM) basadas en clustering, entre otras, para la búsqueda de perfiles
de los alumnos de la Asignatura Sistemas Operativos (SO) de la Tecnicatura Superior
Analista Programador (TSAP) del Instituto Superior de Curuzú Cuatiá (ISCC) según su
rendimiento académico, situación demográfica y socio económica, con el propósito de
determinar a priori situaciones potenciales de éxito o de fracaso académico, lo cual
permitiría encarar las medidas tendientes a minimizar los fracasos.
En el contexto de la SIC (Joyanes Aguilar, 1997), (Bolaños Calvo, 2001), (Taquini
(h.), 2001), (Peiró, 2001) y a los efectos de la determinación de los perfiles característicos
de los alumnos de SO de la TSAP del ISCC, se ha construido un DW con información
personal, académica, demográfica y socio económica de los alumnos y de su núcleo
familiar, el cual se ha explorado con técnicas de DM.
En (Inmon, 1992) se puede ver en una breve reseña cómo se ha ido gestando la
evolución de los sistemas para dar soporte a la toma de decisiones, por ejemplo los
jeroglíficos en Egipto muestran principalmente el trabajo de un contador, al declarar
cuánto granos se debían al Faraón. Algunas de las calles en Roma fueron diseñadas por
ingenieros civiles hace más de 2.000 años. El examen de los huesos encontrados en las
excavaciones arqueológicas demuestra que la medicina, ya en una forma rudimentaria, se
EL RENDIMIENTO ACADÉMICO…44
practicaba todo el tiempo hace más de 10.000 años. Otras profesiones tienen raíces que se
remontan a la antigüedad.
Desde esta perspectiva, la profesión y la práctica de los sistemas para el
procesamiento de información, es ciertamente inmadura, porque sólo existe desde
principios de 1960. El tratamiento de la información muestra esta inmadurez en muchos
aspectos, como su tendencia a detenerse en los detalles. Existe la idea de que si
conseguimos los detalles, el resultado final de alguna manera se hará cargo de sí mismo y
se logrará el éxito. Es como decir que si se sabe cómo poner el concreto, la forma de
perforar, y cómo instalar los tornillos y tuercas, no hay porqué preocuparse acerca de la
forma o el uso del puente que se está construyendo. Obtener todos los detalles no trae
necesariamente más éxito. El almacén de datos requiere una arquitectura que comienza a
ver el todo y luego trabaja hasta los detalles. Ciertamente, los detalles son importantes en
todo el almacén de datos, pero los detalles son importantes sólo cuando se los considera en
un contexto más amplio.
La historia del almacén de datos se inicia con la evolución de la información y de
los sistemas de soporte de decisiones. Esta visión amplia debe ayudar a poner el
almacenamiento de datos en una perspectiva más clara (Inmon, 1992).
En (Inmon, 1992) se puede comprender que la arquitectura de un almacén de datos
es el corazón del entorno y la base fundamental de todo procesamiento del Sistema de
Soporte a las Decisiones (Decision Support System: DSS), como así también que el
trabajo del analista dentro del ambiente del almacén de datos es inmensamente más fácil
que en al ambiente o entorno clásico, porque hay una sola fuente integrada de datos y
porque estos resultan fácilmente accesibles.
EL RENDIMIENTO ACADÉMICO…45
El almacén de datos se construye a partir de los datos de las aplicaciones que se
encuentran en el entorno operativo. Los datos de aplicaciones se integran cuando pasan al
almacén de datos. El acto de integración de datos es siempre una tarea compleja y tediosa.
Data Warehouse es una tecnología para el manejo de la información, que soporta el
procesamiento informático y provee una plataforma sólida que permite realizar análisis a
partir de datos históricos actuales. Su función esencial es ser la base de un sistema de
información. Facilita la integración de sistemas de aplicación no integrados proveniente,
de fuentes de datos heterogéneas (bases corporativas, bases propias, de sistemas externos,
ficheros, etc.), brinda una visión integrada de dicha información, especialmente enfocada
hacia la toma de decisiones por parte del personal de la organización. Organiza y almacena
los datos que se necesitan para el procesamiento analítico sobre una amplia perspectiva de
tiempo.
Es un sitio donde se almacena fundamentalmente la información que se extrae de
los sistemas de gestión que registran la operatoria diaria de la organización. Además, se
almacenan datos estratégicos y tácticos que pueden ser de gran ayuda al aplicar sobre los
mismos técnicas de análisis de datos encaminadas a obtener información oculta (minería
de datos) (Méndez & Mártire, 2004).
Un DW es una colección de datos orientado a temas, integrado, no volátil, de
tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales
(Kubski, 2005), (Cutro, 2008). Es también un conjunto de datos integrados orientados a
una materia, que varían con el tiempo, y que no son transitorios, los cuales soportan el
proceso de toma de decisiones de una administración (Inmon, 1992), (Inmon, 1996),
(Simon, 1997), (Trujillo, Palomar y Gómez, 2000).
En (Chaudhuri & Dayal, 1997) se menciona que DW es una combinación de
hardware de alta performance y capacidad de almacenamiento que combinado con varios
EL RENDIMIENTO ACADÉMICO…46
software especializados, consolida, integra y analiza datos provenientes de distintas
fuentes, con el objetivo de apoyar y mejorar la toma de decisiones de los administradores
en los niveles estratégicos de las empresas u organizaciones.
Así también en (Chaudhuri & Dayal, 1997) se estudia que un DW es un proceso de
construcción, y no un producto, que utiliza técnicas para consolidar y administrar datos de
variadas fuentes, eliminando gran cantidad de datos inútiles o no deseados, con el objetivo
de responder consultas a los administradores de las organizaciones, y tomar decisiones de
una forma que antes no era posible.
En (Inmon, 1992) se expresa que un DW es un conjunto de datos integrado
orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales
soportan el proceso de toma de decisiones de una administración.
En (Vassiliadis, 2000) se señala que los almacenes de datos se definen como
sujetos orientados, integrados, variantes en el tiempo, colección de datos no volátiles, que
su uso primario en las organizaciones es para la toma de decisiones, razón por la cual, se
espera que presenten información correcta en el lugar correcto en un tiempo exacto y un
costo adecuado para una fácil, rápida y correcta decisión (Matthias Jarke, 1997),
(Vassiliadis, Yannis y Matthias Jarke, 2001).
Los almacenes de datos han llegado a ser una estrategia importante de negocios
donde se integra información heterogénea de las diferentes fuentes de la organización, lo
cual permite realizar Proceso Analítico en Línea (OLAP), sobre la información que
realmente necesitan los tomadores de decisiones.
En (Trujillo, Mazón y Pardillo, 2011) se reseña de manera general todos los
componentes fundamentales de una arquitectura básica de almacenes de datos y cómo
interactúan entre ellos.
EL RENDIMIENTO ACADÉMICO…47
En (Inmon, 1992) se describen con mayor profundidad las siguientes características de
un DW:
Integrado: en un DW, los datos son tomados de los diferentes sistemas de la
organización y/o fuentes externas, son recopilados y almacenados de forma
coherente. En una aplicación el género de una persona podría codificarse como
“M” (masculino) y “F” (femenino) y en otra simplemente como “0” y “1”.
Cuando los datos fluyen de un entorno OLTP a un DW, asumen una
codificación consistente. Por ejemplo, sexo siempre será almacenado como
“M” y “F”.
Orientado: los datos contenidos por un DW están orientados para consultar, de
modo eficiente, la información relevante relacionada a la operatoria de la
organización. Los sistemas OLTP sólo poseen información de las áreas para la
cual fueron creados (contaduría, stock, facturación, etc.).
Variables en el tiempo (no volátil): en un DW, los datos siempre son agregados
y nunca removidos. Tampoco son actualizados. Esto permite analizar los temas
y ver a la organización a través del tiempo.
Se puede decir que el objetivo de un DW es convertir datos en información. En ese
proceso de conversión, se toman datos provenientes de distintas fuentes, se los consolida y
almacena en un DW. A partir de aquí se crean subconjuntos del DW para permitir su
utilización a los usuarios finales y así satisfacer sus necesidades.
Un DW debe tener un entorno amigable para el usuario, debe ser fácil de utilizar y
permitir exportar e imprimir datos del sistema.
Una habilidad muy interesante es la generación de cubos de modo desconectado. Esto
permite realizar copias de los cubos y trabajar sin consumir recursos del servidor del DW.
EL RENDIMIENTO ACADÉMICO…48
La utilización de una DW exige a los usuarios la necesidad de disponer de la información
al momento de la toma de decisión.
Esta base de información debe generar una demanda atractiva y los usuarios deben
percibir su utilidad.
1.1. Etapas de Diseño del Almacén de Datos
Las etapas de diseño son las siguientes:
Origen (Source): Define los orígenes de datos del Almacén de Datos, como
los sistemas de Procesamiento de Transacciones en Línea (On-Line
Transaction Processing, OLTP), las fuentes de datos externas (datos
sindicados, datos censales), etc.
Integración (Integration): Define el mapeo entre los orígenes de datos y el
propio Almacén de Datos.
Almacén de Datos (Data Warehouse): Define la estructura del Almacén de
Datos.
Adaptación (Customization): Define el mapeo entre el Almacén de Datos y
las estructuras empleadas por el cliente.
Cliente (Client): Define las estructuras concretas que son empleadas por los
clientes para acceder al Almacén de Datos, como Data Marts o aplicaciones
OLAP.
1.2. Niveles por Etapa del Diseño del Almacén de Datos
Cada etapa se analiza desde tres niveles o perspectivas que se crean en el siguiente
orden:
Conceptual: Define el Almacén de Datos desde un punto de vista
conceptual, es decir, desde el mayor nivel de abstracción y contiene
únicamente los objetos y relaciones más importantes.
EL RENDIMIENTO ACADÉMICO…49
Lógico: Abarca aspectos lógicos del diseño del Almacén de Datos, como la
definición de las tablas y claves, la definición de los procesos ETL
(Extracción, Transformación y Carga), etc.
Físico: Define los aspectos físicos del Almacén de Datos, como el
almacenamiento de las estructuras lógicas en diferentes discos o la
configuración de los servidores de bases de datos que mantienen al almacén
de datos.
Como se muestra en (García Martínez, Britos, Hossian y Sierra, 2005) la
arquitectura de un DW está integrada por varios componentes (Figura 1), (Figura 2),
(Figura 3).
Figura 1: El almacén de datos y su contexto (García Martínez et al., 2005).
EL RENDIMIENTO ACADÉMICO…50
Figura 2: Proceso ETL del DW (García Martínez et al., 2005).
Figura 3: Visión global de la operatoria con DW (García Martínez et al., 2005).
EL RENDIMIENTO ACADÉMICO…51
Fuentes internas (OLTP): Está compuesta por las BD de los distintos sistemas de
gestión que operan en la organización, en las cuales se reflejan las transacciones día a día.
Fuentes externas: Son los datos que deben ser obtenidos fuera de la organización.
Las fuentes externas podrían estar conformadas, por ejemplo, por los datos sobre los
diferentes competidores o encuestas realizadas a los clientes.
Consolidación (ETL): Es el proceso que se encarga de producir la transformación
de los sistemas OLTP al DW. Consolida, sumariza, disgrega y transforma los datos de las
aplicaciones que no están integradas. Este procedimiento se compone de tres etapas:
Extracción, Transformación y Carga o Transporte (Load) (Figura 2), (Figura 4) (La Red
Martínez, 2009).
Figura 4: Proceso de ETL (La Red Martínez, 2009).
Extracción: De los datos de las distintas BD operacionales.
Transformación: De los datos a un formato consistente de forma que se puedan
insertar en el DW (Figura 5) (DataPrix, 2009).
Carga o Transporte: Toma la masa de datos transformados y los transfiere a la DW
(proceso Batch). Esto se repite frecuentemente a medida que los sistemas OLPT y las
EL RENDIMIENTO ACADÉMICO…52
fuentes externas van incrementando su volumen (refresca la DW con la nueva
información).
Figura 5: Ejemplo de proceso de transformación (DataPrix, 2009).
Middleware: Es un software que se encuentra entre el cliente y en el servidor de
comunicaciones. Su función es la de actuar como traductor entre las distintas tecnologías,
permitiendo que los sistemas trabajen juntos aunque no estén preparados para hacerlo
(García Martínez et al., 2005).
Algunas características son: Soportar diferentes entornos de desarrollo, gestionar la
comunicación con la DW, controlar los procesos por lotes (batch) y la concurrencia,
contener una biblioteca de controladores de BD para acceder a las distintas fuentes, como
por ejemplo: Oracle, Sybase, Informix, etc.
Data Mart: Son subconjuntos de datos que se crean una vez que el DW se
encuentra totalmente integrado. El objetivo de un Data Mart es satisfacer la necesidad de
información a un grupo, sección o área específica dentro de la organización. Se
caracterizan por poseer menos datos detallados y más información agregada.
Entre algunas de las aplicaciones más conocidas podemos nombrar (La Red
Martínez, 2009):
EIS (Executive Information System): Son herramientas que proveen
información estratégica para la toma de decisión a los directivos de las
EL RENDIMIENTO ACADÉMICO…53
organizaciones. Generan reportes gráficos y tableros de control
multidimensionales.
DDS (Decisión Support System): Añade a las posibilidades del EIS reglas de
decisión y análisis.
Es posible encontrar también aplicaciones como sistemas expertos o sistemas de
simulación.
Como consecuencia de lo antes indicado, y luego de esta Introducción, este capítulo se
ha estructurado de la siguiente manera: en la Sección 2 se presentará la estructura del DW
utilizado, en la Sección 3 se hará una breve descripción del software usado, en la Sección
4 se expondrá la metodología de definición y carga del DW utilizado, en la Sección 5 se
presentarán algunas discusiones y comentarios, en tanto que la bibliografía se indicará al
final.
2. Estructura del DW utilizado
2.1. Introducción
Antes de describir la estructura del DW utilizado se hará una breve revisión de las
principales características del MER y del Modelo Multidimensional.
2.2. Modelo Entidad – Relación vs. Multidimensional
El modelo entidad-relación (MER) es una técnica poderosa para el diseño de
sistemas transaccionales en el entorno de las bases de datos relacionales. Permite la
normalización de la estructura de datos física, obteniéndose un diseño sin redundancias en
los datos y ocupándose el menor espacio de almacenamiento. Sin embargo, no contribuye
en la habilidad del usuario en el momento de consultar la base de datos. Una técnica
mucho más poderosa para la interrogación de los datos es el modelo dimensional o
multidimensional (Kimball, 2005).
EL RENDIMIENTO ACADÉMICO…54
El modelo multidimensional, es mucho menos riguroso en cuanto a organización,
le permite a analistas y diseñadores más flexibilidad en el diseño, para lograr un mayor
desempeño y optimizar la recuperación de la información, desde un punto de vista más
cercano al usuario final. No es una tarea fácil transformar un modelo entidad –relación en
un modelo multidimensional aun cuando los datos que se modelan sean los mismos;
ambos enfoques tienen diferentes puntos de partida, se emplean técnicas distintas y
producen resultados de diseño de bases de datos desiguales. El modelo multidimensional
produce una base de datos que es simple de navegar y encuestar. Existen menor cantidad
de tablas y relaciones en éste, que en el modelo entidad-relación, el cual tiene cientos de
tablas relacionadas entre sí y hay diferentes caminos para obtener una misma información;
desde la perspectiva del usuario final resulta prácticamente inusable (Kimball, 2005).
El modelo multidimensional dentro del entorno de las bases de datos, es una
disciplina de diseño que se sustenta en el modelo entidad-relación y en las realidades de la
ingeniería de texto y datos numéricos (Kimball, 2005).
Modela las particularidades de los procesos que ocurren en una organización,
dividiéndolos en mediciones y entorno. Las medidas son en su mayoría, medidas
numéricas, y se les denomina hechos. Alrededor de estos hechos existe un contexto que
describe en qué condiciones y en qué momento se registró este hecho. Aunque el entorno
se ve como un todo, existen registros lógicos de diferentes características que describen un
hecho, por ejemplo, si el hecho referido, es la venta de un producto en una cadena de
tiendas, se podría dividir el entorno que rodea al hecho de la cantidad vendida, en el
producto vendido, el cliente que lo compró, la tienda y la fecha en que se realizó la venta.
A estas divisiones se las denomina dimensiones y a diferencia de los hechos que son
numéricos, éstas son fundamentalmente textos descriptivos.
EL RENDIMIENTO ACADÉMICO…55
Las medidas, como se expresó anteriormente, se registran en las tablas de hechos,
siendo la llave de esta tabla, la combinación de las múltiples llaves foráneas que hacen
referencia a las dimensiones que describen la ocurrencia de este hecho, en otras palabras,
cada una de las llaves extranjeras en las tablas de hecho se corresponden con la llave
primaria de una dimensión.
2.2.1. Tablas de Hechos
Las tablas de hechos, representan los procesos que ocurren en la organización, son
independientes entre sí (no se relacionan unas con otras). En éstas, se almacenan las
medidas numéricas de la organización. Cada medida, se corresponde con una intersección
de valores de las dimensiones y generalmente se trata de cantidades numéricas,
continuamente evaluadas y aditivas. La razón de estas características, es que facilita que
los miles de registros que involucran una consulta, sean comprimidos más fácilmente y se
pueda dar respuesta con rapidez, a una solicitud que abarque gran cantidad de
información. La llave de la tabla de hechos, es una llave compuesta, debido a que se forma
de la composición de las llaves primarias de las tablas dimensionales a las que está unida;
se pueden distinguir dos tipos de columnas en una tabla de hechos, columnas de hechos y
columnas llaves. Las columnas de hechos almacenan las medidas del negocio que se
quieren controlar y las columnas llaves, forman parte de la llave de la tabla.
La semántica de la relación entre las dimensiones que definen la llave de esta tabla
de hechos, implica por sí sola la ocurrencia de un evento, por ejemplo, si se quiere
representar el hecho de que un estudiante se matriculó en una universidad, la combinación
EL RENDIMIENTO ACADÉMICO…56
de las siguientes dimensiones definiría este suceso: el estudiante matriculado, la carrera en
que se matriculó, la fecha de matrícula, el tipo de curso que realizara, etc.
2.2.2. Tablas de Dimensiones
Una tabla de dimensión contiene, por lo general, una llave simple y un conjunto de
atributos que describen la dimensión. En dependencia del esquema multidimensional que
se siga, pueden existir atributos que representen llaves foráneas de otras tablas de
dimensión, es decir, que establecen una relación de esta tabla con otra dimensión. Las
tablas de dimensión, son las que alimentan a las tablas de hechos, como se expresó
anteriormente, la llave de un hecho es la composición de las llaves de las dimensiones que
están conectados a ésta, por tanto, los atributos que conforman las tablas de dimensiones
también describen el hecho.
Los atributos dimensionales son fundamentalmente textos descriptivos, estos
desempeñan un papel determinante, son la fuente de gran parte de todas las necesidades
que deben cubrirse, además, sirven de restricciones en la mayoría de las consultas que
realizan los usuarios. Esto significa, que la calidad del modelo multidimensional,
dependerá en gran parte de cuán descriptivos y manejables sean los atributos
dimensionales escogidos (Wolf, 2002).
Las tablas de dimensión en general, son mucho más pequeñas que las tablas de
hechos en cuanto a cantidad de registros. En cuanto a cantidad de atributos, una tabla de
hechos bien descriptiva puede tener un gran número de éstos. Un DW debe aceptar la
responsabilidad de describir el pasado con precisión. En un sistema operacional
normalmente si se produce un cambio, se sobrescribe el nuevo valor en el registro y se
pierde el anterior. Cuando se quieren mantener las trazas de lo que ha ocurrido en el
entorno multidimensional, por lo general ocurren cambios en la dimensiones, esto implica
EL RENDIMIENTO ACADÉMICO…57
que se debe mantener almacenado el valor anterior y registrar el nuevo valor; a este
fenómeno se le conoce como pequeños cambios en la dimensiones (Kimball, 1996). En
estos casos se debe prestar especial atención pues las tablas de dimensiones pueden crecer
en el número de registros y afectar el rendimiento.
2.2.3. Dimensión Tiempo
La dimensión más importante de un DW es la dimensión tiempo. Cada hecho que
se registra en una tabla de hechos, tiene asociada una marca de tiempo, es decir, en qué
momento ocurrió este hecho. Esto permite el almacenamiento y análisis histórico de la
información. La inserción de datos, en la base de datos multidimensional, se hace por
intervalos de tiempo, lo cual asegura un orden implícito (Wolff, 2002).
2.2.4. Esquemas más Comunes para el Modelo Multidimensional
Existen varios esquemas para el modelado de los datos en un DW; los esquemas
más usados son:
Esquema estrella: Es un paradigma de modelado que tiene un solo objeto en el
medio conectado con varios objetos de manera radial (Figura 6). El objeto en el centro de
la estrella es la tabla de hechos y los objetos conectados a ella son las tablas de
dimensiones. Las tablas de dimensiones sólo se relacionan con la tabla de hechos, es decir,
no existen relaciones entre éstas (Gill & Rao, 1996).
Figura 6: Esquema estrella (Gill & Rao, 1996).
EL RENDIMIENTO ACADÉMICO…58
Esquema copo de nieve: El esquema copo de nieve es una extensión del esquema
estrella en donde cada una de las puntas de la estrella puede dividirse en más puntas; en
esta forma de esquema, las tablas de dimensión pueden tener relación con otras tablas de
dimensión. La ventaja fundamental que proporciona este esquema, es que se ocupa menor
espacio de almacenamiento, sin embargo, aumenta el número de tablas con las que el
usuario debe interactuar e incrementa la complejidad de las consultas a realizar.
Figura 7: Esquema copo de nieve (La Red Martínez, 2009).
El esquema estrella proporciona mayor compresión, navegabilidad, cercano a cómo
el usuario final refleja la visión de una consulta empresarial. Se recomienda, de ser
posible, que se emplee un esquema estrella antes que un copo de nieve (Figura 7),
justificándose la utilización de mayor espacio de almacenamiento, en la disminución del
tiempo de obtención de la información que se necesita.
2.2.5. Jerarquías y Niveles
Un nivel se corresponde con un atributo dentro de una dimensión, este representa
un nivel particular de agregación. Una jerarquía, es una estructura arbórea lógica, que está
compuesta por uno o varios niveles e implica una organización de estos dentro de una
dimensión (Microsoft Corp., 2000).
Cada nivel consta de un nivel superior y cero o varios niveles inferiores. Se tiene
una relación de uno a mucho entre objetos de nivel superior e inferior (un objeto de un
EL RENDIMIENTO ACADÉMICO…59
nivel superior agrupa uno o muchos objetos del nivel inferior). Las jerarquías definen
cómo los datos son agregados desde los niveles más bajos hacia los más altos. A partir de
una dimensión se puede definir varias jerarquías.
Cada nivel sobre el nivel base, representa el total de los datos desde el nivel
inferior, por ejemplo: si se considera una dimensión tiempo donde se ha definido una
jerarquía de tres niveles: mes, semestre y año, el nivel mes representa el nivel base de la
jerarquía, el nivel semestre representa la suma de los totales por mes y el nivel año
representa la suma de los totales para los semestres. Los niveles de agregación otorgan
flexibilidad adicional a usuarios finales de aplicaciones para el análisis de los datos y se
logra mayor velocidad de respuesta en las consultas (Wolff, 2002).
2.2.6. Sistema OLAP
Son aplicaciones que generan información táctica y estratégica que sirven a la
organización como soporte para la toma de decisiones. A diferencia de los sistemas OLTP,
que utilizan BD relacionales u otros archivos, OLAP (On Line Analytical Process:
Procesamiento Analítico en Línea) logra su máximo rendimiento y flexibilidad trabajando
sobre un DW. Presentan al usuario un esquema multidimensional en el cual se pueden
realizar consultas seleccionando atributos sobre el tema en particular que se trate,
desconociendo totalmente la estructura interna del DW. La aplicación OLAP se encarga de
generar la consulta y enviarla al gestor, por ejemplo, a través de una sentencia Select. La
estructura multidimensional consta de una tabla de sucesos o hechos, cuyos atributos
describen la actividad que es el objeto del análisis (por ejemplo ventas), y varias tablas
llamadas dimensiones. Los atributos de cada dimensión tienen el objetivo de aportar
información particular sobre cada tupla de la tabla de hechos, por ejemplo, lugar donde se
realizan las ventas, fecha o período en que fueron realizadas, sucursal, etc. (Figura 8) (La
Red Martínez, 2009).
EL RENDIMIENTO ACADÉMICO…60
Figura 8: Estructura multidimensional (La Red Martínez, 2009).
Estas vistas multidimensionales son llamadas “Cubos” y pueden ser construidos de
distintas formas, que se comentarán a continuación.
2.2.7. Sistema ROLAP
Se implementa sobre tecnología relacional. Utiliza un esquema en estrella cuyo
nodo central representa a la tabla de hechos y los extremos a las dimensiones (Kimball,
1996). Con esta metodología, cuando la consulta es realizada se genera el cubo
correspondiente. Esta alternativa de generación de cubos se utiliza cuando no se posee
gran capacidad de almacenamiento. Al generarse los cubos en tiempo de ejecución su
rendimiento no es óptimo.
2.2.8. Sistema MOLAP
Tiene la estructura de arreglos multidimensionales. Los cubos son generados y
almacenados antes de ser consultados. Los datos son tomados de la tabla de hechos y las
EL RENDIMIENTO ACADÉMICO…61
dimensiones son calculadas y almacenadas. Si se dispone de suficiente espacio en disco,
esta alternativa aumenta el rendimiento y mejora los tiempos de respuesta (Figura 9) (La
Red Martínez, 2009).
2.2.9. Sistema HOLAP
Es una combinación de las técnicas ROLAP y MOLAP. Los cubos frecuentemente
consultados son generados y almacenados. Cualquier otra consulta debe generarse en
tiempo de ejecución.
Figura 9: Modelo ROLAP y MOLAP (La Red Martínez, 2009).
2.2.10. Diferencias entre OLTP y OLAP
Las principales diferencias entre un sistema OLTP y OLAP se expresan en la Tabla
1.
EL RENDIMIENTO ACADÉMICO…62
Tabla 1: Diferencia entre OLTP y OLAP.
Habiéndose realizado en las páginas precedentes una breve reseña acerca de los
principales conceptos relacionados con los DW y su implementación, se describirá a
continuación el DW utilizado en este trabajo de investigación.
3. Descripción de la estructura del DW utilizado
A continuación se describirá el esquema básico resumido del DW con su tabla de
hechos y sus tablas de dimensiones (Figura 10), (Figura 11), para luego continuar con la
descripción detallada de cada una de las tablas mencionadas.
EL RENDIMIENTO ACADÉMICO…63
Figura 10: Esquema básico del almacén de datos (fuente propia).
EL RENDIMIENTO ACADÉMICO…64
Figura 11: Fuente y almacén de datos (fuente propia).
EL RENDIMIENTO ACADÉMICO…65
Figura 12: Tabla de hechos (fuente propia).
En la Figura 12 se puede observar las variables más significativas de la tabla de
hechos, las que serán detalladas y explicadas en las Tabla 2 y Tabla 3.
Nombre de Variable Significado
LU_ALUM Número de libreta del alumno.
DNI_ALUM Documento Nacional de Identidad.
CARRERA_ALUM Carrera.
SEXO_ALUM Sexo (Género).
Tabla 2: Variables y significados de la tabla de hechos.
EL RENDIMIENTO ACADÉMICO…66
Nombre de Variable Significado
EDAD Edad.
ESTCIVIL_ALUM Estado civil.
FECHA_NACIM Fecha de nacimiento.
PAIS_NACIM País.
PROV_NACIM Provincia.
CIUDAD_NACIM Ciudad.
FECHA_ENCUESTA Fecha de la encuesta.
GRUPO_SANGUINEO Grupo sanguíneo.
NOTA_PP_ALUM Primer Parcial.
NOTA_PR_ALUM Primer Recuperatorio.
NOTA_SP_ALUM Segundo Parcial.
NOTA_SR_ALUM Segundo Recuperatorio.
NOTA_EXT_ALUM Extraordinario.
SF Situación Final del alumno luego del cursado.
ANIO Año lectivo.
Tabla 3: Variables y significados de la tabla de hechos (continuación).
En la Figura 13 se observan las variables que conforman la Dimensión Importancia
Otorgada al Estudio, las que se detallan y explican en la Tabla 4.
EL RENDIMIENTO ACADÉMICO…67
Figura 13: Dimensión importancia otorgada al estudio (fuente propia).
NOMBRE DE VARIABLE SIGNIFICADO
LU_IES Libreta del Estudiante.
DNI_IES Documento del Estudiante.
IMPORTANCIA_IES Importancia que le da al estudio.
Tabla 4: Variables y significados de la dimensión importancia otorgada al estudio.
En la Figura 14 se puede observar las variables que conforman la dimensión de la
Procedencia del Alumno, las que serán detalladas y explicadas en la Tabla 5.
EL RENDIMIENTO ACADÉMICO…68
Figura 14: Dimensión procedencia del alumno (fuente propia).
NOMBRE DE VARIABLE SIGNIFICADO
LU_P Libreta del Estudiante.
DNI_P Documento del Estudiante.
PROVINCIA_P Provincia de residencia.
CIUDAD_P Ciudad de residencia.
Tabla 5: Variables y significados de la dimensión procedencia del alumno.
En la Figura 15 se puede observar las variables que conforman la dimensión de la
Utilización de las TICs en la consideración del alumno, las que se detallan y explican en la
Tabla 6.
EL RENDIMIENTO ACADÉMICO…69
Figura 15: Dimensión utilización de las TICs (fuente propia).
NOMBRE DE VARIABLE SIGNIFICADO
LU_TIC Libreta del Estudiante.
DNI_TIC Documento del Estudiante.
UTIL_TIC Provincia de residencia.
Tabla 6: Dimensión utilización de las TICs.
En la Figura 16 se puede observar las variables que conforman la Dimensión
Estudios Secundarios del Alumno, las que se muestran en la Tabla 7.
EL RENDIMIENTO ACADÉMICO…70
Figura 16: Dimensión estudios secundarios (fuente propia).
NOMBRE DE VARIABLE SIGNIFICADO
LU_ES Libreta del Estudiante.
DNI_ES Documento del Estudiante.
COLEGIO_ES Nombre del Colegio.
DEPENDENCIA_ES Dependencia del Colegio.
PROVINCIA_ES Provincia a la que pertenece el Colegio.
CIUDAD_ES Ciudad a la que pertenece el Colegio.
TITULO_ES Titulo otorgado por el Colegio.
FEGRESO_ES Fecha de egreso del alumno.
Tabla 7: Variables y significados de la dimensión estudios secundarios.
En la Figura 17 se observa las variables que conforman la Dimensión Residencia
Actual del Alumno, las que se detallan y explican en la Tabla 8.
EL RENDIMIENTO ACADÉMICO…71
Figura 17: Dimensión residencia actual (fuente propia).
NOMBRE DE VARIABLE SIGNIFICADO
LU_RA Libreta del Estudiante.
DNI_RA Documento del Estudiante.
TIPO_RA Tipo de residencia del Estudiante.
CALLE_RA Dirección de la residencia actual.
PROVINCIA_ES Provincia de residencia.
CIUDAD_ES Ciudad de residencia.
Tabla 8: Variables y significados de la dimensión residencia actual.
En la Figura 18 se observa las variables que conforman la Dimensión Horas
Dedicadas al Estudio en la apreciación del alumno, las que se muestran en la Tabla 9.
EL RENDIMIENTO ACADÉMICO…72
Figura 18: Dimensión horas dedicadas al estudio (fuente propia).
NOMBRE DE VARIABLE SIGNIFICADO
LU_ES Libreta del Estudiante.
DNI_ES Documento del Estudiante.
HORAS_ES Horas dedicadas al estudio.
Tabla 9: Variables y significados de la dimensión horas dedicadas al estudio.
En la Figura 19 se describen las variables que conforman la Dimensión Situación
Laboral de la Madre del Alumno, las que se detallan y explican en la Tabla 10.
EL RENDIMIENTO ACADÉMICO…73
Figura 19: Dimensión situación laboral de la madre (fuente propia).
NOMBRE DE VARIABLE SIGNIFICADO
LU_SLM Libreta del Estudiante.
DNI_SLM Documento del Estudiante.
ULT_EST_SLM Grado de escolaridad de la madre.
SIT_LAB_SLM Situación Laboral de la madre.
HS_TRAB_SLM Horas Semanales Trabajadas.
REL_EST_SLM Rama de la Actividad Laboral de la madre.
CATOCUP_SLM Categoría Ocupacional de la madre.
Tabla 10: Variables y significados de la dimensión situación laboral de la madre.
En la Figura 20 se puede observar las variables que conforman la Dimensión
Situación Laboral del Alumno, las que se muestra en las Tabla 11 y Tabla 12.
EL RENDIMIENTO ACADÉMICO…74
Figura 20: Dimensión situación laboral (fuente propia).
NOMBRE DE VARIABLE SIGNIFICADO
LU_SL Libreta del Estudiante.
DNI_SL Documento del Estudiante.
TIPO_SL Categoría Ocupacional.
Tabla 11: Variables y significados de la dimensión situación laboral del alumno.
EL RENDIMIENTO ACADÉMICO…75
NOMBRE DE VARIABLE SIGNIFICADO
ACTIV_ECONOM_SL Rama Actividad Económica.
HS_TRAB_SL Horas Semanales Trabajadas.
REL_EST_SL Relación del Trabajo con la carrera elegida.
OBRA_SOCIAL_SL Tiene Obra Social.
CATOCUP_SL Categoría ocupacional.
SIT_LAB_SL Situación Laboral
Tabla 12: Variables y significados de la dimensión situación laboral del alumno (continuación).
En la Figura 21 podemos observar las variables que conforman la dimensión
Situación Laboral del Padre del alumno, las que se detallan y explican en la Tabla 13.
Figura 21: Dimensión situación laboral del padre (fuente propia).
EL RENDIMIENTO ACADÉMICO…76
NOMBRE DE VARIABLE SIGNIFICADO
LU_SLP Libreta del Estudiante.
DNI_SLP Documento del Estudiante.
ULT_EST_SLP Grado de escolaridad del padre.
SIT_LAB_SLP Situación Laboral del padre.
HS_TRAB_SLP Horas Semanales Trabajadas.
REL_EST_SLP Rama de la Actividad Laboral de Padre.
CATOCUP_SLP Categoría Ocupacional del Padre.
Tabla 13: Variables y significados de la dimensión situación laboral del padre.
3.1. Descripción del Software utilizado
Habiéndose concluido la descripción del DW utilizado, se procederá a describir
brevemente el software utilizado para dar soporte a dicho DW. Se ha utilizado el IBM
Data Warehouse Edition (DWE) V.9.5, cuya arquitectura y componentes se pueden ver en
las Figura 22 , Figura 23 y Figura 24, que incluyen al DB2 Enterprise Server Edition
(DB2 ESE), al Design Studio (DS) y al Intelligent Miner (IM), que se han obtenido de la
empresa IBM Argentina S.A. en el marco de la Iniciativa Académica de dicha empresa y
de los Acuerdos realizados entre la misma y la FaCENA de la UNNE (Acuerdo del
18/06/04 D, Res. N° 1417/04 D, Res. N° 858/06 CD).
3.2. Definición del Data Warehouse Edition
IBM DB2 Universal (Data Warehouse Edition: DWE) es un paquete de productos
que combina la potencia de DB2 Universal Database (DB2 UDB) con la robusta
infraestructura de inteligencia empresarial de IBM. DWE proporciona una plataforma de
inteligencia empresarial completa con las herramientas que la empresa y sus asociados
EL RENDIMIENTO ACADÉMICO…77
necesitan para desplegar y crear soluciones de análisis de última generación. Utilizando
DWE, se puede crear una completa solución de depósito de datos que incluya una base de
datos relacional altamente escalable, funciones de acceso a datos, analítica de inteligencia
empresarial y herramientas de análisis financiero de usuario. (IBM Corp., 2005).
Figura 22: Arquitectura DWE DB2 (IBM Corp., 2005).
EL RENDIMIENTO ACADÉMICO…78
Figura 23: Componentes del DWE (IBM Corp., 2005)
Figura 24: Componentes del DWE (IBM Corp., 2005).
EL RENDIMIENTO ACADÉMICO…79
3.3. Construcción de un Almacén de Datos con DWE
Los administradores del almacén de datos pueden realizar diferentes tareas que se
describen a continuación.
Utilizar la herramienta de modelado visual para optimizar el diseño del esquema de
depósito de múltiples capas como se puede observar en la Figura 25.
Figura 25: Rational Data Architect (IBM Corp., 2005).
Utilizar el ETL preferido para cargas masivas de la capa de datos del almacén con
la escala, la velocidad y las muchas transformaciones de innumerables fuentes de datos
empresariales como se puede ver en la Figura 26.
EL RENDIMIENTO ACADÉMICO…80
Figura 26: IBM Arquitectura de la Capa de Datos (IBM Corp., 2005).
Utilizar SQW para mantener el rendimiento de las estructuras analíticas y el acceso
a las capas de negocio o para sustituir la operación manual de generación de código SQL
dentro del almacén de datos, como se puede ver en la Figura 27.
EL RENDIMIENTO ACADÉMICO…81
Figura 27: SQL Herramienta para Almacenamiento (IBM Corp., 2005).
3.4. Minería de Datos en DWE Design Studio
Como se puede observar en la Figura 28, el editor de minería de datos amplía el
marco del flujo de datos común para los caudales de diseño interactivo y visual de minería
de prueba. Operadores específicos de minería se utilizan para construir, probar y usar
modelos de minería altamente interactivos con el almacén de datos; además se puede
generar SQL, Java Beans y flujos de datos; también un subconjunto de los operadores de
minería pueden ser embebidos en el editor de SQW. Las herramientas de exploración de
datos basadas en las herramientas de minería, permiten mostrar las estadísticas y la
distribución de los datos (IBM Corp., 2004).
EL RENDIMIENTO ACADÉMICO…82
Figura 28: Minería de datos en DWE Design Studio (IBM Corp., 2004).
3.4. OLAP en DWE Design Studio
La ampliación del modelo físico de datos mediante los cubos OLAP se muestran
en la Figura 29. Permite el modelado y visualización de cubos y la utilización del MQTs
(Materialized Query Tables) (IBM Corp., 2004).
Incluye un explorador de servidores para mostrar objetos multidimensionales
existentes en las tablas de catálogo CV (Cube View).
También incluye un explorador de proyectos donde se definen objetos CV e
ingeniería no inversa (crear un script DDL que carga metadatos XML de CV en tablas de
catálogo de CV) (IBM Corp., 2004).
EL RENDIMIENTO ACADÉMICO…83
Figura 29: OLAP en DWE Design Studio (IBM Corp., 2004).
Habiéndose realizado una breve reseña de las herramientas utilizadas se procederá
a describir la metodología seguida para el armado del DW utilizado.
4. Metodología de Definición del DW Utilizado
Una metodología es un proceso detallado, a menudo especificado en secuencia de
pasos que se deben seguir para lograr una meta (en nuestro caso, la creación de un Data
Warehouse). Es importante recordar que un Data Warehouse no se puede adquirir, se tiene
que construir siguiendo determinada metodología. En la actualidad, las metodologías de
desarrollo de un DW están aún en proceso de maduración, en contraste con las
metodologías existentes para el desarrollo de sistemas tradicionales.
EL RENDIMIENTO ACADÉMICO…84
Antes de describir las metodologías existentes, se mencionan los modelos de
desarrollo que algunos autores consideran son importantes para la aplicación de cierta
metodología en el proceso de creación del DW.
Los desarrolladores que proponen estos modelos, consideran que la técnica a
utilizar en la creación del DW depende de hacia quién se enfoca como punto principal el
desarrollo del mismo, puede ser hacia el manejo de datos, de metas o de usuarios (Gutting,
1994). Los modelos propuestos son: “Data-Driven”, “Goal-Driven” y “User-Driven”. A
continuación se describe en forma general en qué consiste cada uno.
Data-Driven: Este modelo considera que en un DW lo que se manejan son datos, a
diferencia de los sistemas clásicos, en los que se manejan requerimientos, los cuales son el
último aspecto a ser considerado en la toma de decisiones, considerando las necesidades
de los usuarios en segundo término (Poe, 1996). El modelo de datos consiste de pocas
dimensiones y de grupos de hechos. La dimensión representa la estructura básica del
diseño. Los hechos son basados en el tiempo y tienen poco nivel de granularidad.
Goal Driven: Este modelo considera que el proceso de desarrollo gira en tomo a los
objetivos y metas establecidas en un principio. Al contrario del modelo anterior, este
contiene más dimensiones y pocos hechos, los cuales son basados en el tiempo y tienen un
bajo nivel de granularidad.
User Driven: Considera que el factor principal a tener en cuenta son las
necesidades de los usuarios, pues son quienes utilizarán finalmente el sistema. El modelo
consta de pocos hechos, los cuales tienen un nivel moderado de granularidad.
Independientemente de los modelos de desarrollo mencionados, las metodologías a
seguir para el desarrollo del DW dependen en gran parte del tamaño del DW a crear y de
la prontitud con que se requiera el DW.
EL RENDIMIENTO ACADÉMICO…85
A continuación se hace una descripción general de las dos principales
metodologías para el desarrollo de un DW, a saber la “Big Bang” y la “Rapid
Warehousing”.
Big Bang: Esta metodología trata de resolver todos los problemas conocidos para
crear un Data Warehouse de gran tamaño, antes de liberarlo para su evaluación y prueba
(Harinarayan, Rajaraman y Ullman, 1996). El proceso de desarrollo consiste en crear en
forma paralela los diversos data marts que componen el DW, como se muestra en la
Figura 30. Esto tiene como consecuencia que los desarrolladores requieren de toda la
información que involucra los diversos departamentos desde el inicio de la construcción
del DW y que el periodo para obtener resultados sea mayor.
Figura 30: Metodología Big Bang (Harinarayan, Rajaraman y Ullman, 1996).
Las características principales de la metodología Big Bang son las siguientes:
Se requiere de más personal de desarrollo, debido a que se deben
satisfacer los objetivos en cada departamento.
Los resultados requeridos por lo regular tardan, este tiempo depende
del número de data marts a desarrollar.
EL RENDIMIENTO ACADÉMICO…86
Se tienen que homologar en un principio las estructuras de datos de
los distintos departamentos.
Rapid Warehousing: Esta es también conocida como metodología evolutiva o
incremental y considera que la construcción e implantación de un DW es un proceso
evolutivo, el cual consiste en crear rápidamente una parte de un DW con la integración
de data marts Figura 31. Ésta metodología implica que cada vez que un data mart sea
integrado, se debe operar simultáneamente en el DW (Widom, 1995). Así, con la
integración en forma periódica de cada componente data mart, se integra la estructura
final del DW.
Figura 31: Metodología Rapid Warehousing (Widom, 1995).
Las características principales de ésta metodología son las siguientes:
La solución de la parte del DW necesaria, requiere de poco tiempo.
EL RENDIMIENTO ACADÉMICO…87
Permite adquirir experiencia en el proceso de creación. Con la
implementación de los primeros data marts, se va adquiriendo experiencia
para creaciones posteriores (Peterson & Pinkelman, 1999). Permite
estandarizar las estructuras de los datos, respecto a los primeros data marts
creados.
Reduce la cantidad de errores en el proceso de desarrollo, debido a que
involucra menos personal.
Este tipo de metodología es la más usual pues requiere que las corporaciones
inviertan menos recursos que con la metodología Big Bang.
En este trabajo de investigación se ha seguido el modelo User driven y la
metodología Big Bang, conforme se detallará en el capítulo siguiente.
Habiendo concluido con la descripción del DW utilizado y de las herramientas
empleadas para su construcción, se procederá a realizar algunas discusiones y comentarios
considerados relevantes.
5. Discusiones y Comentarios
En general, el buen desempeño de cualquier institución educativa depende, en gran
parte, de las constantes decisiones, que se tomen a nivel directivo para corregir o mejorar
los aspectos que están afectando su buen funcionamiento, principalmente en sus áreas más
importantes como por ejemplo el área académica.
Actualmente los DW se aplican en mayor porcentaje en los negocios, sin embargo,
toda organización que controla grandes volúmenes de información o requiere de un
soporte para la toma de decisiones, puede hacer uso de la tecnología DW.
En la actualidad, la mayoría de las instituciones educativas que requieren de un DW,
no lo han implementado debido a las siguientes razones:
EL RENDIMIENTO ACADÉMICO…88
Por tener una arquitectura que les exige la tecnología de hardware más
actualizada, debido a los grandes volúmenes de información que manipula
o el tiempo de respuesta requerido.
Debido a que los beneficios de la inversión realizada al implementar el DW
no se obtienen a corto plazo, únicamente las instituciones con posibilidades
económicas, consideran la necesidad de su implantación.
Para algunas instituciones la tecnología DW es un nuevo concepto de
manipulación de datos.
5.1. Ventajas del Uso de Data Warehouse
La inversión que realiza una organización para una correcta
implantación de un sistema de Almacén de Datos conlleva un coste
muy elevado, sin embargo el retorno de la inversión es garantizado
en gran medida.
Como consecuencia de la ventaja anterior se pueden conseguir una
ventaja competitiva debido a una buena toma de decisiones gracias
al Almacén de Datos implantado.
Mejoran la productividad de los responsables en la toma de
decisiones de la organización debido a que:
Los Almacenes de Datos hacen más fácil el acceso a una gran
variedad de datos.
Se obtiene una base de datos clasificada por temas e histórica.
Se integra información procedente de múltiples sistemas externos.
EL RENDIMIENTO ACADÉMICO…89
5.2. Desventajas del Uso de Data Warehouse
La subestimación del tiempo requerido para extraer, limpiar
y cargar los datos en el Almacén.
Problemas con los sistemas de origen de los datos.
Los datos obtenidos no son suficientes.
Pueden suponer altos gastos, además de los gastos de
mantenimiento que son muy elevados.
Pueden quedarse obsoletos relativamente pronto si los
usuarios incrementan sus necesidades.
En Almacenes de Datos de considerable tamaño puede que
la homogeneización de los datos disminuya su valor.
La construcción de un Almacén de Datos puede requerir de
mucho tiempo.
EL RENDIMIENTO ACADÉMICO…90
CAPÍTULO III: PREPARACIÓN DE LOS DATOS
Resumen
En el presente capítulo, se abordan específicamente todas las acciones vinculadas
con la recolección de los datos, explicando los criterios que se siguieron para lograr la
depuración y preparación de los mismos, el armado del DW y posteriormente los flujos
destinados a cargar los datos desde la base de datos ENCUESTA a las tablas
correspondiente del almacén de datos.
Abstract
In this chapter, specifically address all actions related to data collection, explaining
the criteria followed to achieve purification and preparation thereof, the assembly of the
DW and then flows to load the data from the SURVEY database tables to store data
corresponding.
1. Introducción
En este capítulo, referido a la preparación de los datos, se indicarán las acciones
desarrolladas para la obtención y depuración de los datos que se incorporaron al almacén
de datos, indicándose detalladamente los flujos de datos que se utilizaron. En tal sentido se
describirá la metodología seguida para el logro de estos objetivos.
El capítulo se ha organizado de la siguiente manera: en la sección 2 se describirá la
depuración y preparación de los datos, en la sección 3 se describirá el armado del DW, en
la sección 4 se indicarán comentarios y discusiones, en tanto que la bibliografía se indicará
al final del último capítulo.
EL RENDIMIENTO ACADÉMICO…91
2. Depuración y Preparación de los Datos
El estudio se realizó sobre datos obtenidos mediante encuestas realizadas al
alumnado de la cátedra Sistemas Operativos (SO), considerando además los resultados de
las distintas instancias de evaluación previstas durante el cursado de dicha asignatura. Se
utilizó un entorno integrado de gestión de bases de datos y DW (DB2 versión 9.5),
obtenido de la empresa IBM mediante los acuerdos firmados entre dicha empresa y la
UNNE. Los pasos realizados han sido los siguientes: a) recolección de los datos; b)
tratamiento y depuración de los datos. Muchas de las cuestiones que rodean a los sistemas
de apoyo para la toma de decisiones, se refieren en primer lugar a las tareas de obtener y
preparar los datos. Los datos deben ser extraídos de diversas fuentes, limpiados,
transformados y consolidados en la base de datos de apoyo para la toma de decisiones.
Posteriormente, debe ser actualizados periódicamente Cada una de estas operaciones
involucra sus propias consideraciones especiales.
2.1. Recolección de los Datos
Los datos utilizados fueron obtenidos mediante la realización de una encuesta on
line que permitió lograr las respuestas de los alumnos de las cohortes 2008, 2009 y 2010
inclusive. La estructura de la base de datos ENCUESTA, situada en el servidor DB2
Warehouse V9.5, se visualiza en la Figura 32.
EL RENDIMIENTO ACADÉMICO…92
Figura 32: Estructura de la base de datos ENCUESTA en el DB2 (fuente propia).
En la Figura 33, Figura 34 y Figura 35 se puede observar la página desarrollada al
efecto del ingreso de los datos por parte de los alumnos de la TSAP del ISCC, a través de
la página web se continuó posteriormente con la carga de la base de datos ENCUESTA.
También en la Figura 36 se presenta la página para el ingreso de las notas de los alumnos,
correspondientes a los parciales recuperatorios y la nota final.
EL RENDIMIENTO ACADÉMICO…93
Figura 33: Primera parte formulario on line (fuente propia).
Figura 34: Segunda parte formulario on line (fuente propia).
EL RENDIMIENTO ACADÉMICO…94
Figura 35: Tercera parte formulario On Line (fuente propia).
Figura 36: Formulario on Line para ingreso de notas (fuente propia).
EL RENDIMIENTO ACADÉMICO…95
En el presente trabajo se analizaron los datos referentes a la historia académica de
los alumnos, así como también, los factores sociales (nivel de estudio de los padres) y la
procedencia de los mismos. En la Tabla 14, Tabla 15, Tabla 16, Tabla 17, Tabla 18, Tabla
19 y Tabla 20 se describe el conjunto de datos correspondientes al formulario de ingreso.
Campo Descripción Opciones
Facultad - institución Facultad o institución a la cual
accede el aspirante.
Cs. Exactas y Naturales y de
Agrimensura.
Instituto Superior de Curuzú
Cuatiá.
Carrera – Año Académico Carrera seleccionada por el
ingresante y año de ingreso,
en que se evalúa la actividad
del alumno.
Lic. en Sistemas de
información.
Técnico Superior Analista
Programador.
Apellidos Apellidos del ingresante. Ingresar.
Nombres Nombres del ingresante. Ingresar.
Nacionalidad Nacionalidad del ingresante. Argentina.
Extranjera.
Naturalizado.
Por opción.
Sexo Género de la persona. Masculino.
Femenino.
Tipo de documento Descripción del tipo de
documento del ingresante.
D.N.I.
L.C.
L.E.
Pasaporte.
Número Número de documento del
ingresante.
Ingresar.
Tabla 14: Datos de ingreso formulario on line (primera parte).
EL RENDIMIENTO ACADÉMICO…96
Campo Descripción Opciones
Estado Civil Situación civil del ingresante. Soltero.
Casado.
Viudo.
Divorciado legalmente.
Unión de hecho.
Datos sanguíneos Del ingresante. Seleccionar.
Email Del ingresante. Ingresar.
Orientación Vocacional Del ingresante. Ninguna.
Entidad Oficial.
Entidad Privada.
Profesional Especializado.
DATOS DE NACIMIENTO
Fecha de Nacimiento Del ingresante. Ingresar.
País Del ingresante. Seleccionar.
Provincia Del ingresante. Seleccionar.
Departamento Del ingresante. Ingresar.
Localidad Del ingresante. Ingresar.
Código Postal Del ingresante. Ingresar.
DATOS DEL SECUNDARIO
Nombre del Establecimiento Colegio secundario del que
egreso el estudiante.
Ingresar.
Titulo Obtenido Del ingresante. Ingresar.
Dependencia Del Establecimiento. Seleccionar dependencia.
Tabla 15: Datos de ingreso formulario on line (segunda parte).
EL RENDIMIENTO ACADÉMICO…97
Campo Descripción Opciones
Calle Del Establecimiento. Ingresar.
País Del Establecimiento. Seleccionar.
Provincia Del Establecimiento. Seleccionar.
Departamento Del Establecimiento. Ingresar.
Localidad Del Establecimiento. Ingresar.
Código Postal Del Establecimiento. Ingresar.
Año de Egreso Del Ingresante. Seleccionar.
DATOS FAMILIARES
Apellido/s del Padre Del Ingresante. Ingresar.
Nombre/s del Padre Del Ingresante. Ingresar.
Apellido/s de la Madre Del Ingresante. Ingresar.
Nombre/s de la Madre Del Ingresante. Ingresar.
DOMICILIO PERIODO LECTIVO (ACTUAL)
Tipo de Residencia Del Ingresante. Con Familiares.
En Forma Independiente.
Residencia Universitaria.
Otra Situación.
Calle Domicilio periodo Lectivo del
ingresante.
Ingresar.
País Domicilio periodo Lectivo del
ingresante.
Seleccionar.
Provincia Domicilio periodo Lectivo del
ingresante.
Seleccionar.
Código Postal Domicilio periodo Lectivo del
ingresante.
Ingresar.
Tabla 16: Datos ingreso formulario on line (tercera parte).
EL RENDIMIENTO ACADÉMICO…98
DOMICILIO DE PROCEDENCIA FAMILIAR
Campo Descripción Opciones
Calle Residencia Familiar del
ingresante.
Ingresar.
País Residencia Familiar del
ingresante.
Seleccionar.
Provincia Residencia Familiar del
ingresante.
Seleccionar.
Departamento Residencia Familiar del
ingresante.
Ingresar.
Localidad Residencia Familiar del
ingresante.
Ingresar.
Código Postal Residencia Familiar del
ingresante.
Ingresar.
Teléfono Residencia Familiar del
ingresante.
Ingresar.
SITUACIÓN DEL ALUMNO
Vive alguno de los padres Sí.
No.
Cantidad de Familiares a
cargo.
Ingresar.
Situación Laboral. No trabaja.
Ocupado.
Sub-Ocupado.
Desocupado.
Jubilado.
Categoría Ocupacional Ver Figura 38.
Rama Actividad Económica Ver Tabla 21.
Tabla 17: Datos de ingreso formulario on line (cuarta parte).
EL RENDIMIENTO ACADÉMICO…99
SITUACIÓN DEL ALUMNO
Campo Descripción Opciones
Horas Semanales Trabajadas No trabaja.
Hasta 20.
De 21 a 35.
De 36 o más.
Relación del trabajo con la
carrera elegida:
Total.
Parcial.
No Relacionada.
¿Tiene Obra Social? Ninguna.
De los Padres.
Del cónyuge.
Propia.
De Otros.
SITUACIÓN DEL PADRE
Último Nivel de Estudios
Cursados:
Último nivel de estudios cursados, con las siguientes opciones:
Ver Figura 37.
Situación Laboral Indica la situación actual
laboral de los padres del
ingresante.
No trabaja.
Ocupado.
Sub-Ocupado.
Desocupado.
Jubilado.
Categoría Ocupacional Indica la categoría
ocupacional de los padres del
ingresante.
Ver Figura 38.
Rama Actividad Económica Ver Tabla 21
Tabla 18: Datos de ingreso formulario on line (quinta parte).
EL RENDIMIENTO ACADÉMICO…100
SITUACIÓN DEL PADRE
Campo Descripción Opciones
Horas Semanales Trabajadas Horas semanales dedicadas
según la categoría ocupacional
y la rama de actividad
económica de los padres del
ingresante.
No trabaja.
Hasta 20.
De 21 a 35.
De 36 o más.
SITUACIÓN DE LA MADRE
Último Nivel de Estudios
Cursados:
Indica el mayor nivel de
estudio alcanzado por sus
padres.
Ver Figura 37.
Situación Laboral Indica la situación actual
laboral de los padres del
ingresante.
No trabaja.
Ocupado.
Sub-Ocupado.
Desocupado.
Jubilado.
Categoría Ocupacional Indica la categoría
ocupacional de los padres del
ingresante.
Ver Figura 38.
Rama Actividad Económica Ver Tabla 21
Horas Semanales Trabajadas No trabaja.
Hasta 20.
De 21 a 35.
De 36 o más.
Tabla 19: Datos de ingreso formulario on line (sexta parte).
EL RENDIMIENTO ACADÉMICO…101
Actitud General Hacia el Estudio
Campo Descripción Opciones
Prioridad Otorgada al Estudio: La actitud general hacia el
estudio del ingresante se
evaluara según lo siguiente:
Más que al trabajo.
Más que a la Familia.
Más que a la Diversión.
Número de Horas Semanales
Dedicadas al Estudio:
Número de horas semanales dedicadas al estudio (sin considerar las horas de clase):
Hasta 10 inclusive.
Más de 10 y hasta 20
inclusive.
Más de 20.
Estudia para: Indica el grado de compromiso
del estudiante con relación a la
asignatura.
Aprobar las asignaturas.
Aprender Integralmente y
Aprobar.
Aprender a Aprender acerca
de los contenidos.
Otras motivaciones.
Utiliza las TICS en el Estudio
porque:
Indica el grado de utilización
del estudiante con relación a
las TICS.
Facilitan el proceso de
Enseñanza.
Están de Moda.
Son una realidad en la
actualidad.
Sera imprescindible su
dominio para el ejercicio de la
actividad profesional.
Tabla 20: Datos de ingreso formulario on line (séptima parte).
EL RENDIMIENTO ACADÉMICO…102
Figura 37: Mayor nivel de estudio alcanzado por los padres (fuente propia).
CODIGO DESCRIPCION
101 a 109 Miembros de nivel directivo los poderes ejecutivo, legislativos y Judiciales y personal directivo de la Administración Pública y de empresas, pequeños y medianos propietarios.
201 a 213 Profesionales Científicos e Intelectuales.
301 a 316 Técnicos de Nivel Medio
401 a 412 Empleados de Oficina
501 a 510 Trabajadores de los servicios y Vendedores de Comercio y de Mercado
601 a 605 Agricultores y Trabajadores Calificados, Agropecuarios y Pesqueros
701 a 709 Oficiales, Operarios y Artesanos de Arte Mecánica y de Otros Oficios
801 a 805 Operadores de Máquinas, Montadores y Conductores
901 a 908 Trabajadores no Calificados
950 a 953 Fuerzas Armadas (Ejército, Marina, Aviación, Gendarmería) y de Seguridad
(Policía, Prefectura, Bomberos, Guardabosques)
999 Otra ocupación no especificada.
Tabla 21: Categoría ocupacional.
EL RENDIMIENTO ACADÉMICO…103
Figura 38: Rama Actividad Económica (fuente propia).
3. Tratamiento y Depuración de los Datos
3.1. Limpieza
Pocas fuentes de datos controlan adecuadamente la calidad de los datos. Los datos
requieren frecuentemente de una limpieza antes de que puedan ser introducidos en el DW.
Las operaciones de limpieza típicas incluyen, el llenado de valores ausentes, la corrección
de errores tipográficos y otros de captura de datos, el establecimiento de abreviaturas y
formatos estándares, el reemplazo de sinónimos por identificadores estándares, etcétera.
Los datos erróneos y que no pudieron ser limpiados, fueron reemplazados. La unificación
de criterios se muestra en la Tabla 22.
EL RENDIMIENTO ACADÉMICO…104
Av.
Av.
Av. Av
Avenida
Bo.
Bo.
Bo. Bo
Barrio
Viv.
Viv.
Viv. Viv
Vivienda
C. Ctia.
Curuzú Cuatiá
Curuzú Cuatiá Curuzu Cuatia
Curuzú Cuatiá
Esc.
Escuela
Escuela Esc.
Escuela
Col.
Colegio
Colegio Col
Colegio
MMO
Maestro Mayor de Obra
Maestro Mayor de Obra M.M.O.
Maestro Mayor de Obra
EGO
Economía y Gestión de las
Organizaciones.
Economía y Gestión de las
Organizaciones.
E.G.O.
Economía y Gestión de las
Organizaciones.
BOD
Bachiller con Orientación
Docente.
Bachiller con Orientación
Docente.
B.O.D.
Bachiller con Orientación
Docente.
Tabla 22: Unificación de criterios.
EL RENDIMIENTO ACADÉMICO…105
3.2. Carga
Las operaciones de carga incluyen el movimiento de los datos hacia el DW para la
toma de decisiones, la verificación de su consistencia (es decir, verificación de integridad)
y la construcción de cualquier índice necesario.
4. Armado del Datawarehouse
Luego de haber cargado los datos a la BD ENCUESTA se puede observar la
existencia de 160 registros, visualizados parcialmente en la Figura 39.
Figura 39: Datos contenidos en la BD Encuesta (fuente propia).
Los pasos realizados han sido los siguientes: a) creación del proyecto de depósito
de datos; b) creación del proyecto de almacén de datos; c) diseño de los flujos de datos
.
EL RENDIMIENTO ACADÉMICO…106
4.1. Creación del Proyecto de Depósito de Datos
Para realizar el proyecto del almacén de datos son requisitos previos la creación de
un proyecto de depósito de datos, que contiene un modelo físico de datos, en nuestro caso
el archivo modelo de base de datos1.dbm (Figura 40), para lo cual se ha utilizado el
software de IBM DB2 WareHouse Desing Studio, como puede verse en la Figura 41.
Figura 40: Proyecto de Depósito de Datos (fuente propia).
4.2. Creación del Proyecto de Almacén de Datos
Este proyecto se utilizará como contenedor para el modelo de datos físico y los
flujos de DW que se creen en este proyecto de investigación. Cuando se abra el proyecto
DW_ENCUESTA, se podrá ver subcarpetas en el árbol, como carpetas de flujos de datos,
carpetas de flujos de control y carpetas de modelos de datos, conteniendo los flujos de
datos y los flujos de control. Este proyecto contiene todos los objetos necesarios para
compilar una aplicación de almacén de datos, incluidos los flujos, modelos de datos
físicos, variables y perfiles de aplicación.
EL RENDIMIENTO ACADÉMICO…107
Figura 41: Proyecto Almacén de Datos (fuente propia).
4.3. Diseño de los Flujos de Datos
Una vez creado el DW se procedió a la realización de los flujos de datos desde la
tabla fuente (ENCUESTA) a las tablas de destino (Figura 42). También se puede observar
en Figura 43 la ejecución y registro de los flujos de datos con su correspondiente script.
Figura 42: Flujos de Datos desde la tabla fuente (fuente propia).
EL RENDIMIENTO ACADÉMICO…108
Figura 43: Ejecución y registro de los flujos de datos (fuente propia).
El DW finalmente presenta la siguiente estructura de datos:
4.4 Tabla de Hechos
ALUMNOS: contiene los datos principales de los alumnos y las claves foráneas de
las dimensiones.
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla de hechos ALUMNOS de manera detallada y explicada, en la Figura 44 se
puede visualizar la estructura de la tabla y en la Figura 45 el contenido de la misma.
EL RENDIMIENTO ACADÉMICO…109
Figura 44: Estructura de la Tabla de Hechos: ALUMNOS (fuente propia).
Figura 45: Contenido de la Tabla ALUMNO (fuente propia).
4.5. Dimensiones
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla Estudios_Secundarios de manera detallada y explicada, en la Figura 46 se
EL RENDIMIENTO ACADÉMICO…110
puede observar la Estructura de la Tabla Estudios_Secundarios y en la Figura 47 el
contenido de la misma.
Figura 46: Estructura de la Tabla Estudios_Secundarios (fuente propia).
Figura 47: Contenido de la tabla Estudios_Secundarios (fuente propia).
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla HORAS_EST de manera detallada y explicada, en la Figura 48 se puede
EL RENDIMIENTO ACADÉMICO…111
observar la Estructura de la Tabla Estudios_Secundarios y en la Figura 49 el contenido de
la misma.
Figura 48: Estructura de la tabla Horas_Est (fuente propia).
EL RENDIMIENTO ACADÉMICO…112
Figura 49: Contenido de la tabla Horas_Est (fuente propia).
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla IMPORT_EST de manera detallada y explicada, en la Figura 50 se puede
observar la Estructura de la Tabla IMPORT_EST y en la Figura 51 el contenido de la
misma.
EL RENDIMIENTO ACADÉMICO…113
Figura 50: Estructura de la tabla IMPORT_EST (fuente propia).
Figura 51: Contenido de la tabla IMPORT_EST (fuente propia).
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla PROCEDENCIA de manera detallada y explicada, en la Figura 52 se puede
EL RENDIMIENTO ACADÉMICO…114
observar la Estructura de la Tabla PROCEDENCIA y en la Figura 53 el contenido de la
misma.
Figura 52: Estructura de la tabla PROCEDENCIA (fuente propia).
Figura 53: Contenido de la tabla PROCEDENCIA (fuente propia).
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla RESIDENCIA_ACTUAL de manera detallada y explicada, en la Figura 54 se
EL RENDIMIENTO ACADÉMICO…115
puede observar la Estructura de la Tabla RESIDENCIA_ACTUAL y en la Figura 55 el
contenido de la misma.
Figura 54: Estructura de la tabla RESIDENCIA_ACTUAL (fuente propia).
Figura 55: Contenido de la tabla RESIDENCIA_ACTUAL (fuente propia).
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla SITUACION_LABORAL de manera detallada y explicada, en la Figura 56 se
EL RENDIMIENTO ACADÉMICO…116
puede observar la Estructura de la Tabla SITUACION_LABORAL y en la Figura 57 el
contenido de la misma.
Figura 56: Estructura de la tabla SITUACION_LABORAL (fuente propia) .
EL RENDIMIENTO ACADÉMICO…117
Figura 57: Contenido de la tabla SITUACION_LABORAL (fuente propia).
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla SITUACION_LABORAL_MADRE de manera detallada y explicada, en la
Figura 58 se puede observar la Estructura de la Tabla SITUACION_LABORAL_MADRE
y en la Figura 59 el contenido de la misma.
EL RENDIMIENTO ACADÉMICO…118
Figura 58: Estructura SITUACION_LABORAL_MADRE (fuente propia).
Figura 59: Contenido SITUACION_LABORAL_MADRE (fuente propia).
EL RENDIMIENTO ACADÉMICO…119
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla SITUACION_LABORAL_PADRE de manera detallada y explicada, en la
Figura 60 se puede observar la Estructura de la Tabla SITUACION_LABORAL_PADRE
y en la Figura 61 el contenido de la misma.
Figura 60: Estructura SITUACION_LABORAL_PADRE (fuente propia).
EL RENDIMIENTO ACADÉMICO…120
Figura 61: Contenido SITUACION_LABORAL_PADRE (fuente propia).
Así como en el capítulo anterior se pudo observar las variables más significativas
de la tabla UTIL_TICS de manera detallada y explicada, en la Figura 62 se puede observar
la Estructura de la Tabla UTIL_TICS y en la Figura 63 el contenido de la misma.
Figura 62: Estructura de la tabla UTIL_TICS (fuente propia).
EL RENDIMIENTO ACADÉMICO…121
Figura 63: Contenido de la tabla UTIL_TICS (fuente propia).
5. Discusiones y Comentarios
También se pudo detectar, que el proceso más laborioso es el de la transformación
de los datos. La dificultad de este proceso varía de una organización a otra, dependiendo
de la cantidad de información que maneje y que tan heterogéneas sean las diversas bases
de datos fuente. Sin embargo, en el caso de estudio disminuyó la dificultad de este
proceso, debido a que existía un estándar en plataformas y manejadores de bases de datos.
EL RENDIMIENTO ACADÉMICO…122
CAPÍTULO IV: MINERÍA DE DATOS
Resumen
La existencia de voluminosas bases de datos conteniendo grandes cantidades de
datos, que exceden en mucho las capacidades humanas de reducción y análisis a fin de
obtener información útil, actualmente son una realidad en muchas organizaciones. Debido
a esto, frecuentemente las decisiones importantes se toman en base a la intuición y
experiencia en lugar de tomar como referencia la riqueza de estos datos almacenados,
provocando que seamos vistos como ricos en datos, pero pobres en información (Han &
Kamber, 2006), debido a la problemática planteada anteriormente. Esta situación se
intenta solucionar a través del proceso de KDD (Knowledge Discovery from Databases).
En síntesis, las técnicas de minería de datos van a permitir construir modelos predictivos,
basados en datos históricos almacenados en distintas fuentes: bases de datos, archivos de
texto plano, documentos impresos, reportes, entre otros. Usando todos estos datos es
posible predecir un fenómeno dado, a partir de las herramientas que la minería ofrece,
obteniendo conocimiento que ayuda en la toma de decisiones.
Abstract
The existences of voluminous databases containing large amounts of data, far
exceeding human capacity reduction and analysis in order to obtain useful information, are
now a reality in many organizations. Because of this, important decisions are often made
based on intuition and experience rather than to refer the richness of the data stored,
causing us to be seen as data rich but information poor (Han and Kamber, 2006) due to the
problems mentioned above. This situation is trying to solve through the process of KDD
(Knowledge Discovery from Databases). In summary, the data mining techniques, will
allow us to build predictive models based on historical data stored in different sources,
databases, flat files, printouts, reports, among others. Using all these data, it is possible to
EL RENDIMIENTO ACADÉMICO…123
predict a given phenomenon, from mining tools it offers, gaining knowledge that helps us
in making decisions.
1. Introducción
La deserción, el rezago estudiantil y los bajos índices de eficiencia terminal se
encuentran entre los problemas más complejos y frecuentes que enfrentan las Instituciones
de Educación Superior del país. La deserción escolar es un problema que caracteriza a la
mayoría de las instituciones argentinas de educación superior. La mayoría de las mismas
han hecho algún tipo de esfuerzos por disminuir estos índices realizando y estableciendo
programas de tutorías, asesorías, congresos, talleres, eventos para que los alumnos se
involucren directamente y aumente su compromiso y una serie de actividades más. Sin
embargo, muchos de estos esfuerzos no han sido suficientes y el fenómeno se sigue
repitiendo constantemente. En ese sentido, el estudio de los factores e índices que afectan
a la deserción ha cobrado mayor importancia en los últimos años.
La necesidad de identificar y predecir la deserción de los estudiantes en los
primeros cuatrimestres es indispensable para tomar las acciones pertinentes y poder
disminuir este índice, y no menos importante, predecir su deserción en cualquier momento
para su correcto seguimiento tutorial. La minería de datos orientada a la educación permite
predecir cualquier tipo de factor o característica de un caso, fenómeno o situación. De esta
forma, utilizando las técnicas que nos ofrece la minería, se puede predecir, con un
porcentaje muy alto de credibilidad, la probabilidad de desertar de cualquier alumno con la
ventaja de que se puede pronosticar en los primeros cuatrimestres.
Se han realizado estudios sobre minería de datos en sistemas educativos basados en
tecnologías web, como educación a distancia o asistida por computadora. Agathe
Merceron y Kalina Yacef, de la Universidad Leonardo Da Vinci en Francia y la
EL RENDIMIENTO ACADÉMICO…124
Universidad de Sydney en Australia (Merceron & Yacef, 2004) respectivamente,
mostraron cómo utilizar los algoritmos de minería de datos para descubrir conocimiento
pedagógico relevante que se almacenaba en bases de datos.
En Chile, Eduardo Quiroga realizó un modelo de alerta académica (Quiroga,
2008), aplicado a la educación superior utilizando técnicas de minería de datos para
identificar problemas dentro del ámbito educativo. En los Estados Unidos, Jing Luan
desarrolló un modelo predictivo de minería de datos para predecir la posibilidad de regreso
a clases de cada alumno que se encontraba matriculado en Silicon Valley (Luan, 2002).
En el mismo país, William Veitch (Veitch, 2004) utilizó técnicas de minería de datos para
identificar patrones que permitan relacionar los factores y variables que afectan a la
deserción de los alumnos, entre ellas las económicas, sociales y psicológicas.
Los ejemplos anteriores solo son una pequeña muestra de lo que se puede hacer
con la minería de datos enfocados a la docencia y educación: desde el descubrimiento
pedagógico, los sistemas de enseñanza basada en Web hasta análisis predictivo para
determinar el porcentaje de probabilidad de desertar que tiene un alumno, este último es
una tema de gran interés abordado en esta tesis.
En este capítulo, se detallarán los principales conceptos referidos a la minería de
datos y su correspondiente sustento matemático.
1.1. Historia
El concepto de Minería de Datos (MD) (Data Mining: DM) no es nuevo. Desde
los años 60, los estadísticos, manejaban términos como Data Fishing, Data Mining o
Data Archaeology. La idea principal era encontrar correlaciones sin una hipótesis previa
en BD con ruido. Tampoco ninguno de los modelos estadísticos presentes en la MD es
nuevo. Los árboles de decisión y de regresión (classification and regression trees: CART)
EL RENDIMIENTO ACADÉMICO…125
son utilizados desde los años 60. Las bases de reglas fueron popularizadas durante el auge
de los sistemas expertos en los 80 y las redes neuronales se conocen desde los años 40,
pero han sido necesarios varios años de desarrollo para que fueran utilizables de manera
sencilla.
Fue a principios de la década del 80 que Rakesh Agrawal, Gio Wiederhold, Robert
Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de
DM y KDD.
Actualmente existen más de 100 empresas en el mundo que ofrecen alrededor de
300 soluciones. Los foros de discusión están integrados por investigadores de más de 80
países, y han sido un punto de encuentro entre personas pertenecientes al ámbito
académico y al de los negocios.
1.2. Tipos de Conocimientos
Antes de comenzar a describir el tema de MD o dar alguna definición al respecto,
debemos comprender e identificar los tipos de conocimientos que podemos extraer de una
BD.
Podríamos clasificar a este conocimiento según las siguientes categorías:
Evidente: esta información se puede obtener de las BD a través de consultas
SQL.
Multidimensional: modela una tabla con n atributos como un espacio de n
dimensiones, lo que nos permite detectar varias situaciones difíciles de
observar. Este tipo de análisis se logra utilizando herramientas OLAP.
Oculto: es la información no evidente, desconocida hasta el momento, pero
potencialmente útil, que puede obtenerse a través de técnicas de MD. Esta
información tiene un gran valor, ya que hasta el momento no se conocía, y
EL RENDIMIENTO ACADÉMICO…126
descubrirla permite tener una nueva visión del problema y de su solución
(Figura 64).
Figura 64: Información no evidente. (Pautsch, La Red Martínez, Cutro, 2010).
Se estima que un 80% de la información contenida en una BD corresponde al
conocimiento evidente (fácilmente recuperable). El otro 20% requiere de técnicas más
complejas para su obtención (Figura 65).
Puede que esta cifra parezca despreciable, pero la información oculta en ese
pequeño porcentaje puede ser de vital importancia para el éxito de la empresa u
organización.
EL RENDIMIENTO ACADÉMICO…127
Figura 65: Análisis versus complejidad (Pautsch, La Red Martínez, Cutro, 2010).
1.3. Definición
La MD se define formalmente como un conjunto de técnicas y herramientas
aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente
desconocido, potencialmente útil y humanamente comprensible, a partir de grandes
conjuntos de datos, con objeto de predecir, de forma automatizada, tendencias o
comportamientos y descubrir modelos previamente desconocidos (Frawley, Piatetsky-
Shapiro y Matheus, 1992).
Desde el punto de vista empresarial los términos DM y Extracción del
Conocimiento son tratados como sinónimos, y se lo define como: La integración de un
conjunto de áreas que tienen como propósito la identificación de conocimiento obtenido a
partir de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina Félix,
2001).
La DM es la etapa de descubrimiento en el proceso de KDD (Knowledge
Discovery from Databases), es el paso consistente en el uso de algoritmos concretos que
generan una enumeración de patrones a partir de los datos preprocesados (Fayyad,
EL RENDIMIENTO ACADÉMICO…128
Grinstein y Wierse, 2001), (Fayyad, Piatetskiy-Shapiro, Smith, y Uthurusamy, 1996),
(Han & Kamber, 2001), (Hand, Mannila y Smyth, 2000).
Es también un mecanismo de explotación, consistente en la búsqueda de
información valiosa en grandes volúmenes de datos. Está muy ligada a los DW ya que los
mismos proporcionan la información histórica con la cual los algoritmos de minería
obtienen la información necesaria para la toma de decisiones (Gutiérrez, 2001), (IBM
Software Group., 2003).
La DM es un conjunto de técnicas de análisis de datos que permiten extraer
patrones, tendencias y regularidades para describir y comprender mejor los datos, para
intentar predecir comportamientos futuros (Simon, 1997), (Berson & Smith, 1997),
(Frawley, Piatetsky-Shapiro y Matheus, 1992), (White, 2001).
1.4. Características y Objetivos
En la actualidad, para realizar una investigación con el método científico
tradicional, generalmente, primero se formula la hipótesis y luego el experimento, para
posteriormente coleccionar los datos necesarios que confirmen o refuten la hipótesis. De
esta manera se obtiene el nuevo conocimiento. Una de las características principales de la
MD es que invierte la dinámica del método científico. Es decir, primero se coleccionan los
datos y luego se los “escucha” para que de ellos emerjan las hipótesis. Luego se validan
esas hipótesis en los datos mismos. Por lo antes expuesto es que la MD debe presentar un
enfoque exploratorio, y no confirmador. Usar la MD para confirmar las hipótesis no sería
correcto, ya que se está haciendo una inferencia poco válida y acotando el análisis sólo a la
hipótesis elaborada. No se debe confundir a la MD con un gran software ya que durante el
desarrollo de un proyecto de este tipo, deben utilizarse diferentes aplicaciones para cada
etapa. Las mismas pueden ser aplicaciones estadísticas, de visualización de datos o de
EL RENDIMIENTO ACADÉMICO…129
inteligencia artificial. Actualmente existen aplicaciones comerciales muy poderosas que
facilitan el desarrollo de un proyecto, pero es muy probable que deban complementarse
con otras herramientas. El objetivo de la MD es extraer la información oculta en las
profundidades de las BD para luego intentar predecir futuras tendencias y
comportamientos. De esta forma permiten a las organizaciones tomar decisiones
proactivas y así adaptarse a un entorno permanentemente cambiante y sumamente
competitivo. Las técnicas utilizadas en la MD son el resultado de un largo proceso de
investigación y desarrollo de productos que comenzó cuando los datos de negocio fueron
almacenados por primera vez en computadoras y luego, con tecnologías generadas para
permitir que los usuarios naveguen entre los datos en tiempo real. La MD engloba todas
estas técnicas para brindar información prospectiva y proactiva. La MD está lista para su
aplicación ya que está sostenida por cuatro tecnologías que ya se encuentran
suficientemente maduras:
Recolección masiva de datos.
Potentes computadoras con multiprocesadores.
Data warehouse.
Algoritmos de Data Mining.
En términos estrictamente académicos, los términos MD y KDD no deben
utilizarse de manera indistinta. La MD es un paso esencial en el KDD que utiliza
algoritmos para generar patrones a partir de los datos pre procesado (Fayyad, Piatesky-
Shapiro y Smyth, 1996) (Figura 66).
EL RENDIMIENTO ACADÉMICO…130
Figura 66: Etapas en el KDD (Fayyad, Piatesky-Shapiro y Smyth, 1996).
Como se describirá más adelante en este trabajo, la MD produce cinco tipos de
información:
Asociaciones.
Secuencias.
Clasificaciones.
Agrupamientos.
Pronósticos.
2. Arquitectura
Para que el proceso de MD sea óptimo, se recomienda que la fuente de información
de los algoritmos provenga de un DW. El contar con un DW simplifica considerablemente
la etapa de pre proceso. Existen herramientas de DM que operan fuera del ámbito de un
DW, pero esto requiere varios pasos extras para unificar fuentes, extraer, importar y
analizar los datos. Por otra parte, cuando se introducen nuevos conceptos en los sistemas
OLTP, la integración con el DW simplifica la aplicación de los resultados de la MD. Otra
EL RENDIMIENTO ACADÉMICO…131
ventaja de incluir en la arquitectura un DW, es que éste permite que a medida que las BD
operacionales de los distintos sistemas crece, los datos sean integrados al DW. Luego de
este proceso la organización puede realizar la MD, obtener patrones y conocimiento de los
mismos y aplicarlos en el futuro.
Podríamos decir que un DW constituye la fuente de información o la “memoria”
de la organización, y que la MD dota a esta de inteligencia (García Martínez et al., 2005).
2.1. Tipos de Modelos
La MD genera modelos que pueden ser descriptivos o predictivos (Agrawal & Shafer,
1996).
Descriptivos o No Supervisados: este modelo aspira a descubrir patrones y
tendencias sobre el conjunto de datos sin tener ningún tipo de conocimiento
previo de la situación a la cual se quiere llegar. Descubre patrones en los
datos analizados. Proporciona información sobre las relaciones entre los
mismos.
Predictivos o Supervisados: crean un modelo de una situación donde las
respuestas son conocidas y luego, lo aplica en otra situación de la cual se
desconoce la respuesta. Conociendo y analizando un conjunto de datos,
intentan predecir el valor de un atributo (Etiqueta), estableciendo relaciones
entre ellos.
3. Etapas en la Minería de Datos
En un proyecto de MD se deben tener en cuenta las siguientes etapas (Figura 67).
EL RENDIMIENTO ACADÉMICO…132
Figura 67: Etapas en un proyecto de MD (García Martínez et al., 2005).
3.1. Selección de Datos
Los datos pueden tener un gran volumen y contener una cantidad ingente de
información. En esta etapa se reduce considerablemente el volumen de los datos
seleccionando sólo los atributos y tuplas que aporten la información y sean más
influyentes sobre el tema a tratar. Existen varios métodos para la selección de este
subconjunto de atributos (García Martínez et al., 2005). Entre algunos de ellos se pueden
citar:
Selección por pasos hacia adelante: se comienza con un conjunto vacío de
atributos, en cada paso se agrega al conjunto el mejor atributo del conjunto
original.
Eliminación por pasos hacia atrás: se comienza con un conjunto que posee
todos los atributos originales, en cada paso se elimina del conjunto el peor
atributo.
Combinación de selección por pasos hacia adelante y eliminación por pasos
hacia atrás: es una combinación de los dos anteriores. Se puede utilizar un
umbral de medición para establecer cuándo detener la eliminación y
agregación de los atributos.
Inducción con árboles de decisión: se utilizan algoritmos como ID3 y C4.5.
Los atributos que no son representados en el árbol se consideran
irrelevantes y se los descarta. Por el contrario, los atributos que aparecen en
el árbol son los elegidos para conformar el subconjunto de atributos.
EL RENDIMIENTO ACADÉMICO…133
3.2. Preprocesamiento de Datos
El formato de los datos de las distintas fuentes (OLPT, fuentes externas, etc.) por
lo general no suele ser apropiado. Esto dificulta que los algoritmos de minería obtengan
buenos modelos trabajando sobre estos datos en bruto.
El objetivo del preprocesado es adecuar los datos para que la aplicación a los
algoritmos de minería sea óptima. Para esto hay que filtrar, eliminar datos incorrectos, no
válidos, crear nuevos valores y categorías para los atributos e intentar completar o
descartar los valores desconocidos e incompletos.
3.3. Extracción de Conocimiento
Es la aplicación de diferentes algoritmos sobre los datos ya preprocesados, para
extraer patrones.
3.4. Evaluación e Interpretación de Patrones
Una vez obtenidos los patrones se debe comprobar su validez. Si los modelos son
varios, se debe elegir el que se ajuste mejor al problema. Si ninguno de los modelos
alcanza los resultados esperados, se debe volver a las etapas anteriores y modificar alguna
entrada para, de esta manera, generar nuevos modelos.
4. Algoritmos para la Extracción de Conocimiento
En la MD, según el tipo de algoritmo que se utilice, se realizan algunas de las
siguientes tareas:
Asociación: descubre relaciones entre dos sucesos aparentemente
independientes. Éstas se expresan en el conjunto de datos como condiciones
atributo-valor y deben estar presentes varias veces en ellos. La expresión
tiene dos componentes, el antecedente y el consecuente (por ejemplo,
EL RENDIMIENTO ACADÉMICO…134
cuando los alumnos cursan una materia optativa “Análisis Orientado al
Objeto” en un 50% de las veces, también cursan la materia “Programación
Orientada al Objeto”).
Secuenciación o análisis a través del tiempo: si además de lo anterior la tarea
incluye comparaciones de tiempo, búsqueda de patrones secuenciales,
periódicos, desviaciones. Entonces se está frente a un algoritmo del tipo
secuencial. Éste incluye en el análisis el tiempo transcurrido entre el suceso
“inductor” y el suceso “inducido”.
Clasificación: se analiza un conjunto de datos cuya clasificación se conoce y
se le asigna a cada uno una clase o grupo de pertenencia. Este modelo puede
utilizarse para un mayor entendimiento de los datos actuales o para realizar
la clasificación de futuros sucesos. Son utilizados en la detección de fraudes,
análisis de riesgo en la entrega de créditos, identificación de procedimientos
médicos, etc.
Agrupamiento: realiza una clasificación resumida sobre el conjunto de datos.
A la clasificación se la nombra como caracterización, y a la distinción entre
los datos como discriminación o comparación. Se diferencia de la
clasificación en que no se parte de un conjunto de entrenamiento. Se utiliza
en marketing (población con las mismas afinidades), medicina (pacientes
con los mismos malestares), etc.
Predicción: cuando existen datos faltantes intenta predecir los posibles
valores de los atributos.
Regresión: es similar a los algoritmos de clasificación. El modelo generado
intenta predecir el valor más probable para una situación observada.
EL RENDIMIENTO ACADÉMICO…135
Clústering: un clúster es un conjunto de datos con características similares.
Esta similitud puede medirse con funciones de distancia. La MD intenta
encontrar clústeres de buena calidad para que luego puedan ser utilizados en
grandes BD o DW.
También suelen utilizarse combinaciones entre los diferentes tipos de algoritmos.
Los algoritmos de clasificación y regresión pertenecen a la parte predictiva de MD,
mientras que los demás están dentro de la MD descriptiva.
5. Metodologías
Para la ejecución sistemática de los proyectos de MD, se han realizado
especificaciones sobre los proceso de modelado, con el objetivo de orientar a los
investigadores a través de una serie de pasos y así permitirles obtener mejores resultados.
Actualmente existen varias metodologías. Describiremos dos, SEMMA y CRISP-DM, que
son las más utilizadas en los proyectos de MD.
5.1. Metodología SEMMA
SAS Institute es una empresa que desde 1976 ha entregado soluciones
informáticas para tener acceso a la información relevante, confiable, otorgando a las
empresas la capacidad de tomar decisiones correctas y así alcanzar el mejor
funcionamiento sostenible (Matignon, 2009), (SAS Institute, 2013).
La metodología SEMMA fue desarrollada por SAS Institute para descubrir
patrones de negocio desconocidos. El nombre refiere a las cinco fases básicas del proceso
(Figura 68).
EL RENDIMIENTO ACADÉMICO…136
Figura 68: Fases de la metodología SEMMA (SAS Institute, 2013).
Figura 69: Ciclo de desarrollar en la metodología SEMMA (SAS Institute, 2013).
El ciclo de desarrollo de la metodología SEMMA se puede apreciar en la Figura
69.
EL RENDIMIENTO ACADÉMICO…137
5.2. Metodología CRISP-DM
En el año 1999, empresas europeas como NCR (Dinamarca), AG (Alemania),
SPSS (Inglaterra) y OHRA (Holanda), desarrollaron la metodología de libre distribución
CRISP-DM (Cross-Industry Standard Process for Data Mining: CRISP-DM) (Chapman et
al., 1999).
La metodología CRISP-DM se organiza en seis etapas. Cada una de ellas a su vez
se divide en varias tareas.
En la Figura 70 se pueden apreciar las fases del proceso de modelado de la
metodología CRISP-DM. Las flechas muestran las relaciones más habituales entre las
etapas, aunque se debe aclarar que se pueden establecer relaciones entre cualquiera de las
fases. El círculo exterior ilustra la naturaleza cíclica del proceso de modelado.
Figura 70: Fases de la metodología CRISP-DM (Chapman et al., 1999).
5.3. Elección de la Metodología
Ambas metodologías, SEMMA y CRISP-DM, estructuran el proyecto de MD en
etapas que se relacionan. La metodología SEMMA se enfoca más en características
EL RENDIMIENTO ACADÉMICO…138
técnicas del desarrollo, mientras que la metodología CRISP-DM, abarca una perspectiva
más amplia contemplando también los objetivos empresariales del proyecto. Como reflejo
de lo antes mencionado, podemos citar las primeras etapas de ambas metodologías.
Mientras que en la metodología SEMMA se comienza realizando un muestreo de datos, la
metodología CRISP-DM se inicia realizando un análisis del problema de la empresa u
organización, para su posterior transformación en un problema técnico (Gondar, 2009).
La metodología CRISP-DM se acerca más al concepto real del proyecto, esto
permite que pueda ser integrada con las metodologías de gestión de proyectos y así,
completar las tareas administrativas y técnicas (DataPrix, 2009).
Otra diferencia significativa entre las metodologías radica en su relación con
herramientas comerciales. La metodología SEMMA está ligada a los productos SAS
donde se encuentra implementada. La metodología CRISP-DM es una metodología libre y
gratuita que no depende de la herramienta que se utilice para el desarrollo del proyecto de
DM.
Como conclusión de lo antes mencionado, en la presente investigación se utilizará la
metodología CRISP-DM. Esto tendrá una incidencia directa en la elección de la
herramienta a utilizar. Durante el desarrollo de la metodología se irá explicando en detalle
cada etapa de la misma.
El capítulo se ha organizado de la siguiente manera: en la sección 2 se describirá el
modelado de los flujos de minería, en la sección 3 se detallará la construcción del modelo,
en la sección 4 se indicarán comentarios y discusiones, la bibliografía se indicará al final,
luego del último capítulo.
EL RENDIMIENTO ACADÉMICO…139
6. Modelado del Flujo de Minería
En este trabajo, para el modelado del flujo de minería, se han considerado las
siguientes etapas:
Habilitación de la base de datos para la minería.
Selección de la técnica de modelado.
Generación de clústeres.
6.1. Habilitación de la Base de Datos para la Minería
Antes de comenzar con el desarrollo de esta fase, cabe aclarar que para ejecutar
cualquier flujo de minería en IBM Business Intelligence, DB2 WareHouse Desing Studio,
se debe habilitar la base de datos para tal fin (IBM Academic Initiative, 2009) como se
puede ver en la (Figura 71).
Figura 71: Habilitación de la BD (fuente propia).
6.2. Selección de la Técnica de Modelado
En esta etapa se deben seleccionar las técnicas a utilizar en la MD. También se
describen los pasos de la construcción del modelo para cada técnica aplicada. Para
modelar cualquier técnica de MD se debe crear un Flujo de Minería (IBM Academic
EL RENDIMIENTO ACADÉMICO…140
Initiative, 2009). Para esto se utilizó el software de IBM Business Intelligence,
particularmente, DB2 WareHouse Desing Studio.
En este caso se definió el Flujo de Minería sobre el proyecto creado en el capítulo
anterior. Esta herramienta, generalmente, requiere de los siguientes pasos para modelar un
Flujo de Minería, aunque existen técnicas más complejas que requieren otras etapas
intermedias.
Los pasos más comunes son:
Selección de la fuente de datos.
Incorporación del algoritmo de MD.
Extractor de calidad o visualizador del modelo.
Para el presente proyecto se han seleccionado tres técnicas, una supervisada y dos
no supervisadas, con el fin de establecer cuál es la más adecuada para este tipo de datos.
En la siguiente sección se describe en detalle la creación de estos dos modelos:
Generación de clústeres – no supervisado.
Reglas de asociación – no supervisado.
Árboles de decisión – supervisado.
6.2.1. Generación de Clusteres
El objetivo de esta técnica es descubrir conjuntos de tuplas que tengan
características similares (IBM Academic Initiative, 2009).
A continuación se describen los dos algoritmos para la generación de clústeres con los que
cuenta la herramienta:
EL RENDIMIENTO ACADÉMICO…141
6.2.1.1. Algoritmo Demográfico
Permite realizar agrupamientos en BD de gran volumen, comparando la semejanza
entre los atributos de cada tupla. Los valores de los atributos pueden estar definidos en un
dominio numérico o categórico. Las agrupaciones se definen utilizando el criterio de
Condorcet. Este criterio es la suma de las semejanzas de las diferentes tuplas dentro de un
mismo clúster, menos la suma de todas las semejanzas de las tuplas existentes en los
diferentes clústeres. Si el valor clúster es uno, indica que los registros en los clusters son
idénticos y no hay tuplas con esas características fuera de cada cluster. El valor de
Condorcet mínimo usual es de 0.65 (Kubski, 2005).
6.2.1.2. Algoritmo Kohonen
Para agrupar las tuplas se utiliza una red neuronal de organización automática.
Primeramente se define un centro para cada cluster, y para cada tupla, la red neuronal
calcula el cluster más cercano utilizando la distancia euclídea. Para que este algoritmo
funcione, hay que normalizar los datos de entrada, de valores categóricos a valores
numéricos para que puedan ser presentados en la red neuronal. Debido a que en la fuente
de datos son predominantes los valores categóricos, que el algoritmo Kohonen presenta
inconvenientes en el tratamiento de este tipo de valores y realizar una normalización
comprometería la estandarización que se pretende logran sobre los procesos de MD, para
construir el modelo de generación de clústeres, se decide utilizar el algoritmo demográfico
(Kubski, 2005).
Habiéndose descripto las principales características del modelado del flujo de minería, se
detallara en la sección siguiente la construcción del modelo utilizado.
EL RENDIMIENTO ACADÉMICO…142
7. Construcción del Modelo
En esta sección se describirá la construcción de los modelos utilizados:
Modelo de generación de clusters
Modelo de asociación
Clasificación con árboles de decisión
7.1. Modelo de Generación de Clusters
Para seleccionar la fuente de datos se debe incorporar al área de diseño de la
herramienta utilizada el elemento tabla fuente y seleccionar la tabla que se va a utilizar
para el proceso de MD. En la Figura 72 se puede observar cómo modelar la fuente de
datos utilizando la tabla ALUMNO descripta en el capítulo II.
Figura 72: Selección de la fuente de datos (fuente propia).
Luego se introduce al diseño un operador generador de clusters y se une su entrada
con la salida de la tabla fuente (Figura 73).
EL RENDIMIENTO ACADÉMICO…143
Figura 73: Elemento generador de clusters (fuente propia).
Para finalizar la confección del modelo, sólo resta agregar al diseño el extractor de
calidad y conectar su entrada a la salida del modelo de minería del generador de clusters.
La salida del extractor de calidad debe conectarse a una tabla destino con la estructura
adecuada, en la cual se almacenarán los datos referentes a la calidad del modelo (Figura
74).
Figura 74: Extractor de calidad (fuente propia).
7.1.1. Parámetros del Modelo
En el elemento generador de clusters se pueden configurar varios parámetros
(IBM Academic Initiative, 2013). La modificación de cada uno de ellos provocará que el
resultado del modelo varíe (Figura 75 y Figura 76).
EL RENDIMIENTO ACADÉMICO…144
Figura 75: Parámetros de minería para la generación de clusters (fuente propia).
Número máximo de clusters: especifica la cantidad máxima de clusters creados
durante el proceso de minería.
Parámetros opcionales: son opciones avanzadas para el operador de minería. La
componen llamadas a métodos de modeling separados por comas.
Algoritmo: especifica el algoritmo a utilizar. Se pueden configurar dos opciones:
Demográfico, principalmente para el tratamiento de datos categóricos y Kohonen (Redes
Neuronales), disponible solo para datos del tipo numérico.
Umbral de similitud: es un límite inferior para la similitud entre dos tuplas que
pertenecen al mismo cluster. Los valores que puede tomar se encuentran entre 0 y 1,
siendo:
0: completamente distintos.
1: iguales.
EL RENDIMIENTO ACADÉMICO…145
Figura 76: Atributos para la generación de clusters (fuente propia).
7.2. Modelo de Asociación
El objetivo principal es descubrir relaciones entre dos sucesos aparentemente
independientes, estas se expresan en el conjunto de datos como condiciones atributo-valor
y deben estar presentes varias veces en ellos. La expresión tiene dos componentes, el
antecedente y el consecuente.
7.2.1. Construcción del Modelo
La construcción de un modelo de asociación es muy similar a la del modelo
generador de clusters. Luego de seleccionar la fuente de datos (el paso es el mismo que
para generación de clusters), se introduce al modelo un elemento asociación y este genera
un conjunto de reglas, de acuerdo a los parámetros establecidos (Figura 78) para la
generación de las mismas, lográndose su visualización mediante una representación
gráfica tabular. En la Figura 77 se puede observar el modelo de asociación terminado.
EL RENDIMIENTO ACADÉMICO…146
Figura 77: Elemento generador de asociaciones (fuente propia).
Figura 78: Parámetros para la generación de asociaciones (fuente propia).
7.2.2. Parámetros del Modelo
Confianza de la regla: Fracción de las transacciones en las que aparece X que
también incluyen a Y; esto es, la confianza mide con qué frecuencia aparece Y en las
transacciones que incluyen X, siendo tanto X como Y itemsets.
Minimun confidence (%): reglas de asociación cuya confianza sea mayor o igual
que un umbral mínimo de confianza.
Soporte de la regla: Fracción de las transacciones que contiene tanto a X como a Y;
esto es, supp (XUY).
Minimun support (%): reglas de asociación cuyo soporte sea mayor o igual que un
umbral mínimo de soporte.
EL RENDIMIENTO ACADÉMICO…147
7.3. Clasificación con Árboles de Decisión
La idea principal es realizar clasificaciones sobre los datos conocidos y así crear
modelos que luego puedan ser utilizados para predecir o clasificar valores nuevos o
desconocidos. Estos algoritmos de inducción permiten tener una muy buena comprensión
de cómo se clasifican los datos, representándolos a través de un árbol de decisión. Esta
técnica es una de las más utilizadas, ya que ofrece una fácil percepción de cómo está
estructurada la BD, y a su vez, el modelo generado, puede utilizarse para estructurar BD
aún no clasificadas.
7.3.1. Construcción del Modelo
La construcción de un modelo de clasificación es muy similar a la del modelo
generador de clusters. Luego de seleccionar la fuente de datos (el paso es el mismo que
para generación de clusters), se introduce al modelo un elemento pronosticador. Este
pronostica un valor de un atributo destino y crea un modelo de clasificación, el cual puede
representarse a través de un árbol de decisión. De la misma forma que se realizó con la
técnica anterior, la calidad del modelo puede medirse agregando al área de diseño el
elemento extractor de calidad. En la Figura 79 puede observarse el modelo de
clasificación terminado.
EL RENDIMIENTO ACADÉMICO…148
Figura 79: Modelo de clasificación (fuente propia).
7.3.1.1. Parámetros del Modelo
En el elemento pronosticador, además de seleccionar el atributo a clasificar
(atributo destino) y el algoritmo de clasificación, podemos configurar varios parámetros
(IBM Academic Initiative, 2009), como se aprecian en las Figura 80 y Figura 81. La
modificación de cada uno de ellos provocará que el resultado del modelo varíe.
Figura 80: Parámetros de minería para la clasificación (fuente propia).
Columna de destino: aquí se debe especificar el atributo cuyos valores se desean
predecir.
EL RENDIMIENTO ACADÉMICO…149
Parámetros opcionales: son opciones avanzadas para el operador de minería. La
componen llamadas a métodos de modeling separados por comas.
Algoritmo: especifica el algoritmo a utilizar para realizar la clasificación.
Se pueden elegir tres algoritmos, los cuales a su vez, poseen distintos parámetros:
Árbol: Pureza máxima: permite personalizar el árbol de decisión binario, es un
límite para detener la división de un nodo que ha alcanzado el valor de pureza
especificado. Se debe especificar un valor porcentual entre 0 y 100, cero (0) significa que
el algoritmo utilizará el valor por omisión, 100%.
Profundidad máxima: es un valor entero que representa el límite para detener la
división de los nodos cuando se alcanza la profundidad del árbol especificada. Cero (0)
representa que no existe límite para la profundidad del árbol.
Número mínimo de registros por nodo hoja: es un valor entero que representa el
límite para continuar con la división de nodos que hayan alcanzado el tamaño mínimo
especificado. Cero (0) indica que se utiliza el valor por omisión, 5 tuplas.
Naive Bayes: Umbral de probabilidad: especifica un valor, por lo general muy
pequeño, que es utilizado siempre que se encuentre una probabilidad de cero (0) en las
ecuaciones del modelo. El valor por omisión es de 0,001.
Regresión Logística: No posee parámetros.
EL RENDIMIENTO ACADÉMICO…150
Figura 81: Propiedades de los atributos para la clasificación (fuente propia).
Note que el algoritmo de clasificación, regresión logística no pudo utilizarse ya
que, el campo de destino especificado no es un campo categórico de valor binario. El
algoritmo de regresión logística no puede manejar campos de destino que no sean
categóricos o que contengan más de dos valores válidos.
8. Discusiones y Comentarios
Los ejemplos anteriores sólo son una pequeña muestra de lo que se puede hacer
con la minería de datos enfocados a la docencia y educación: desde el descubrimiento
pedagógico, los sistemas de enseñanza basada en Web hasta análisis predictivo para
determinar el porcentaje de probabilidad de desertar que tiene un alumno, este último es
un tema de gran interés el cual trabajaremos durante el desarrollo de este trabajo de
investigación. Así, usando minería de datos podemos identificar y calcular el porcentaje de
probabilidad de que un alumno pueda desertar, desde que inicia su vida estudiantil en la
EL RENDIMIENTO ACADÉMICO…151
institución. De esta manera se podrá proponer las estrategias necesarias con mucha
anticipación para disminuir el índice de deserción.
EL RENDIMIENTO ACADÉMICO…152
CAPÍTULO V: ANÁLISIS DE LOS RESULTADOS
Resumen
La minería de datos orientada a la educación permite predecir determinado tipo de
factor o característica de un caso, fenómeno o situación. En este capítulo se describen los
modelos de minería utilizados y se comentan los principales resultados obtenidos. Se
consideran especialmente modelos de minería de agrupamiento, clasificación y asociación.
En todos los casos se busca determinar los patrones de éxito y de fracaso académico de los
alumnos, de esta manera, utilizando las técnicas que ofrece la minería, se puede predecir,
con un porcentaje muy alto de credibilidad, la probabilidad de desertar de cualquier
alumno con la ventaja de que se puede pronosticar en los primeros cuatrimestres. La
minería de datos en la educación no es un tópico nuevo y ha venido utilizándose
considerablemente en los últimos años.
Abstract
Data mining education oriented to predict certain type of factor or characteristic of
a case, phenomenon or situation. This chapter describes the used mining models and
discusses the main results. It is considered especially clustering mining models,
classification and association. In all cases is to determine the patterns of success and
academic failure of students, in this way, using mining techniques offered, you can
predict, with a high percentage of credibility, the probability of dropping any student with
the advantage that can be predicted in the first quarters. Data mining in education is not a
new topic and has been used considerably in recent years.
1. Evaluación de Resultados
En esta fase de la metodología, se evalúa en qué grado las distintas técnicas de
minería que se desarrollaron en el capítulo anterior responden a los objetivos de análisis
EL RENDIMIENTO ACADÉMICO…153
planteados en este proyecto de investigación. Para lo cual el capítulo se ha organizado de
la siguiente manera: en la sección 2 se describirán los resultados obtenidos con
Clusterización (Segmentación), mientras que en la sección 3 los resultados obtenido con
generadores de asociación (Reglas de Asociación), en tanto en la sección 4 se analizarán
los resultados alcanzados con árboles de decisión (Predicción Clasificación), finalizando
en la sección 5 con algunos comentarios y discusiones.
2. Resultados Obtenidos con Clusterización
Para poder visualizar, interpretar y evaluar los resultados, basta con reemplazar en
el modelo obtenido en el capítulo anterior, al elemento Extractor de Calidad por un
elemento Visualizer (ver Figura 82).
Figura 82: Flujo de minería de cluster en Design Studio (fuente propia).
Se ejecutó el Flujo de Minería con la mejor configuración que se obtuvo en la etapa
de Evaluación del Modelo, esto es:
Nro. Clústeres: 10.
Umbral Similitud: 85%.
Atributos Activos y Suplementarios: Determinados por el Sistema.
Los resultados obtenidos se pueden observar en la Figura 83.
Hipótesis: ¿Influye el sexo en el uso de las NTICs por parte de los alumnos?
EL RENDIMIENTO ACADÉMICO…154
La Figura 83 muestra el modelo de clusters generados con el visualizador. La vista
gráfica de la agrupación del visualizador muestra diez grupos. El grupo más grande
contiene 16% de la población total. El grupo más pequeño contiene 4.17% de la población
total. Los gráficos circulares muestran la distribución de los valores de las columnas de los
grupos en comparación con la distribución de la población total. En los gráficos circulares,
el círculo interior representa la población de un cluster. El círculo exterior representa la
población total.
Figura 83: Vista gráfica de los clusters (fuente propia).
En la Figura 84 se muestra la vista textual del clusters obtenido con el Design
Studio.
EL RENDIMIENTO ACADÉMICO…155
Figura 84: Vista textual de cluster (fuente propia).
La Figura 85 muestra la calidad global del modelo. Esta es una medida de
homogeneidad de los clusters. Su escala va de cero (0) a uno (1).
Figura 85: Calidad global del modelo (fuente propia).
Una calidad global de 0,749 indica que, en promedio, las tuplas en un mismo
cluster tienen en un 74,9% el mismo valor en los atributos activos.
EL RENDIMIENTO ACADÉMICO…156
Figura 86: Vista de detalle para cada cluster (fuente propia).
La Figura 86 muestra la vista de detalle para clusters donde se puede observar los
distintos valores reflejados en la frecuencia modal en forma porcentual.
Figura 87: Vista gráfica cluster 3, género del alumno (fuente propia).
En la Figura 87 se muestra el cluster 3 que representa el 16% de la población total,
tiene predominantemente alumnos masculinos, dicho cluster está representado
gráficamente por el círculo interior, el círculo exterior representa la población total.
EL RENDIMIENTO ACADÉMICO…157
Figura 88: Vista gráfica cluster 3, situación final del alumno (fuente propia).
En la Figura 88 se muestra el cluster 3 que tiene predominantemente alumnos con
una situación final de 6, nota con la cual aprueban la asignatura. El círculo interior
representa la población de un cluster en este caso particular el 16% de la población, el
círculo exterior representa la población total.
Figura 89: Vista gráfica cluster 3, estado civil alumno (fuente propia).
En la Figura 89 se muestra el cluster 3 que tiene predominantemente alumnos con
un estado civil soltero.
EL RENDIMIENTO ACADÉMICO…158
Figura 90: Vista gráfica cluster 3, ciudad de nacimiento del alumno (fuente propia).
El la Figura 90 se muestra el cluster 3 que tiene predominantemente alumnos cuya
ciudad de origen es 84% Curuzú Cuatiá, del 16% del cluster.
Figura 91 Vista gráfica cluster 3, provincia de nacimiento del alumno (fuente propia).
En la Figura 91 se muestra el cluster 3 que tiene predominantemente alumnos cuya
provincia de origen es 96% Corrientes, del total del cluster.
EL RENDIMIENTO ACADÉMICO…159
Figura 92: Vista gráfica cluster 3, utilización de las TIC (fuente propia).
En la Figura 92 el cluster 3 muestra que para la población masculina (predominante
en dicho cluster) las TICs facilitan el proceso de enseñanza de la asignatura en un 58%,
mientras que un 27% visualiza la importancia de la misma en su aplicación al campo
profesional.
Figura 93: Vista gráfica cluster 7, género del alumno (fuente propia).
En la Figura 93 se muestra el cluster 7 que tiene totalmente alumnos femeninos. El
círculo interior representa la población de un cluster, el círculo exterior representa la
población total.
EL RENDIMIENTO ACADÉMICO…160
Figura 94: Vista gráfica cluster 7, situación final del alumno (fuente propia).
El la Figura 94 el cluster 7 correspondiente al 12% de la población total, muestra
alumnos femeninos con una situación final de 7, 8 y 9, notas que superan las del mínimo
de aprobación de la asignatura en un 21%; en esta población femenina se puede observar
que si bien no tienen la regularidad del 6, nota común en la población masculina, las
mujeres en su dedicación al estudio obtienen mejores calificaciones.
Figura 95: Vista gráfica cluster 7, estado civil del alumno (fuente propia).
El la Figura 95 se muestra el cluster 7 que tiene totalmente alumnos con un estado
civil soltero.
EL RENDIMIENTO ACADÉMICO…161
Figura 96: Vista gráfica cluster 7, ciudad de nacimiento del alumno (fuente propia).
El la Figura 96 se muestra el cluster 7 que tiene predominantemente alumnos cuya
ciudad de origen es 86% Curuzú Cuatiá.
Figura 97: Vista gráfica cluster 7, provincia de nacimiento del alumno (fuente propia).
En la Figura 97 se muestra cluster 7 que tiene predominantemente alumnos
femeninos cuya provincia de origen es 100% Corrientes.
EL RENDIMIENTO ACADÉMICO…162
Figura 98: Vista gráfica cluster 7, utilización de las TIC (fuente propia).
En la Figura 98 el cluster 7 muestra que para la población femenina (predominante
en dicho cluster) las TICs es una realidad en un 27%, mientras que un 64% opina que la
importancia de las mismas radica en su aplicación al campo profesional.
Hipótesis: ¿Influye el género en el uso de las TICs por parte de los alumnos?
El género se presenta como influyente desde la perspectiva en que el grupo
femenino lo define como importante en su futuro desempeño profesional, por lo que se
puede decir además que hay un actitud más definida en el grupo, en cuanto a la
expectativa de finalización de sus estudios; por otra parte el grupo masculino si bien más
regular en cuanto a notas (con relación a su situación final) muestra una actitud más
relacionada o vinculada con la utilización en lo inmediato de estas herramientas.
Hipótesis: ¿Influye el nivel educacional de los padres en el uso de las TICs por parte de los
alumnos?
EL RENDIMIENTO ACADÉMICO…163
Figura 99: Flujo de minería de cluster en Design Studio (fuente propia).
La Figura 99 muestra el modelo de clusters generado con el Design Studio. La
vista gráfica de la agrupación del visualizador (Figura 100) muestra diez grupos. El grupo
más grande contiene 31% de la población total. El grupo más pequeño contiene 3.84% de
la población total. Los gráficos circulares muestran la distribución de los valores de las
columnas de los grupos en comparación con la distribución de la población total. En los
gráficos circulares, el círculo interior representa la población de un cluster. El círculo
exterior representa la población total.
Figura 100: Vista gráfica de los cluster hallados (fuente propia).
EL RENDIMIENTO ACADÉMICO…164
Figura 101: Detalles para clusters (fuente propia).
La Figura 101 muestra la vista de detalle para clusters donde se puede observar los
distintos valores reflejados en la frecuencia modal en forma porcentual.
Figura 102: Vista gráfica de escolarización de los padres (fuente propia).
Como se puede observar en la Figura 102 el cluster 5, correspondiente al 31% de la
población total, indica que el 23% de los padres de los alumnos tienen escuela primaria
completa, en tanto que el 14% tiene escuela secundaria completa.
EL RENDIMIENTO ACADÉMICO…165
Figura 103: Vista gráfica de la utilización de las TICs (fuente propia).
En la Figura 103 el cluster 5 correspondiente al 31% de la población total,
vinculado al grado de utilización de las TICs por parte de los alumnos, se puede observar
que la respuesta mayoritaria define el uso de las mismas como facilitadoras del proceso de
enseñanza (56%), otro grupo considera que serán imprescindibles en el ejercicio
profesional (28%), lo que permite aseverar a priori un alto grado de aceptación en relación
al uso de estas tecnologías (84%).
Figura 104: Vista gráfica cluster 3, escolarización de los padres (fuente propia).
En la Figura 104 el cluster 3, correspondiente al 13% de la población total, muestra
que el grado de escolarización de los padres es del 100% de escolaridad secundaria
completa.
EL RENDIMIENTO ACADÉMICO…166
Figura 105: Vista gráfica cluster 3, utilización de las TICs (fuente propia).
En la Figura 105 el cluster 3, correspondiente al 13% de la población total,
vinculado al grado de utilización de las TICs por parte de los alumnos, se puede observar
una respuesta contundente en relación a la importancia que el alumno asigna a la
utilización de estas herramientas (98%), vinculándolas fundamentalmente a su proceso de
formación académica.
Figura 106: Vista gráfica cluster 2, escolarización de los padres (fuente propia).
En la Figura 106 el cluster 2, correspondiente al 11.39% de la población total, se
observa que el 95% de los padres de los alumnos tienen escuela primaria completa, en
tanto que el 3% tienen estudios universitarios completos y un 2% estudios superiores no
universitarios completos.
EL RENDIMIENTO ACADÉMICO…167
Figura 107: Vista gráfica utilización de las TICs (fuente propia).
En la Figura 107 el cluster 2, correspondiente al 11.39% de la población total,
indica que el 59% de los alumnos opinan que las TICs facilitan el proceso de enseñanza,
en tanto que el 26% expresa que serán imprescindibles para el ejercicio profesional.
Del análisis de los gráficos anteriores se puede extraer a modo de comentario que a
medida que mejora el grado de escolaridad de los padres, esto influye sin ninguna duda en
la opinión que tiene el alumno con respecto a la utilización de estas tecnologías.
Hipótesis: ¿Influye el tipo de formación obtenido en la escuela secundaria en el uso de las
TICs por parte de los alumnos?
Figura 108: Flujo de minería de cluster en Design Studio (fuente propia).
La Figura 108 muestra el modelo de clusters generados con el Design Studio. La
vista gráfica de la agrupación del visualizador (Figura 109) muestra diez grupos. El grupo
EL RENDIMIENTO ACADÉMICO…168
más grande contiene 38% de la población total. El grupo más pequeño contiene 3.36% de
la población total. Los gráficos circulares muestran la distribución de los valores de las
columnas de los grupos en comparación con la distribución de la población total. En los
gráficos circulares, el círculo interior representa la población de un cluster. El círculo
exterior representa la población total.
Figura 109: Modelo de clusters generado con el visualizador (fuente propia).
Figura 110: Vista gráfica cluster 6, titulación del alumno (fuente propia).
EL RENDIMIENTO ACADÉMICO…169
En la Figura 110 el cluster 6, correspondiente al 38% de la población total, se
observa que el perfil de titulación predominante es el relacionado con la gestión
administrativa de las organizaciones (35%).
Figura 111: Vista grafica cluster 6, utilización de las TIC (fuente propia).
En la Figura 111 el cluster 6, correspondiente al 38% de la población total,
respecto a de la opinión que tiene el alumno con relación a la utilización de las TICs, se
puede observar que el 100% definen a estas herramientas como facilitadoras del proceso
de enseñanza.
A priori se puede afirmar que sí influye el tipo de titulación obtenida por el alumno al
finalizar sus estudios secundarios, dado que el alumno cuyo perfil de titulación está
orientado a la gestión administrativa de las empresas, tiene una mejor opinión con relación
a la utilización de estas herramientas.
Hipótesis: ¿Influye el hecho de que los alumnos trabajen además de estudiar en el uso de
las TICs?
La Figura 112 muestra el modelo de clusters generados con el visualizador. La
vista gráfica de la agrupación del visualizador muestra diez grupos. El grupo más grande
contiene 18.61% de la población total. El grupo más pequeño contiene 5.12% de la
EL RENDIMIENTO ACADÉMICO…170
población total. Los gráficos circulares muestran la distribución de los valores de las
columnas de los grupos en comparación con la distribución de la población total. En los
gráficos circulares, el círculo interior representa la población de un cluster. El círculo
exterior representa la población total.
Figura 112: Vista gráfica de los cluster hallados (fuente propia).
Figura 113: Vista gráfica cluster 2, situación laboral del alumno (fuente propia).
EL RENDIMIENTO ACADÉMICO…171
Como se puede observar en la Figura 113, el cluster 2, correspondiente al 18.61%
de la población total, respecto de la situación laboral del alumno, muestra que el 100% de
esa población no trabaja.
Figura 114: Vista gráfica de la utilización de las TICs (fuente propia).
Como se puede observar en la Figura 114, el cluster 2, correspondiente al 18.61%
de la población total, respecto de la utilización de las TICs, muestra que el 100% de esa
población coinciden en que facilitan el proceso de enseñanza.
Figura 115: Vista gráfica relación horas trabajada por el alumno (fuente propia).
Como se puede observar en la Figura 115, el cluster 9, correspondiente al 8.54% de
la población total, respecto de la cantidad de horas trabajadas por el alumno en la semana,
EL RENDIMIENTO ACADÉMICO…172
se puede observar que el 100% de dicha población se desempeña en tareas que insumen un
promedio de más de 5 horas reloj por día.
Figura 116: Vista gráfica cluster 9, de la utilización de las TICs (fuente propia).
Como se puede observar en la Figura 116, el cluster 9, correspondiente al 8.54% de
la población total, referido a la situación de la utilización de las TICs por parte de los
alumnos, se puede decir que si bien la importancia asignada al uso de estas herramientas
en cuanto a su utilización no indica claramente que existe una influencia en cuanto al
alumno que trabaja y el que no lo hace, sin embargo se puede señalar que hay una opinión
más concreta en aquel alumno que trabaja y estudia, en base al hecho de que el alumno
que trabaja y estudia, manifiesta además su interés por la utilización de estas herramientas
en el campo profesional.
Hipótesis: ¿Influye la actitud general hacia el estudio en el uso de las TICs por parte de los
alumnos?
EL RENDIMIENTO ACADÉMICO…173
Figura 117: Flujo de minería de cluster en Design Studio (fuente propia).
La Figura 117 muestra el modelo de clusters generados con el Design Studio La
vista gráfica de la agrupación del visualizador (Figura 118) muestra diez grupos. El grupo
más grande contiene 19.72% de la población total. El grupo más pequeño contiene 5.45%
de la población total. Los gráficos circulares muestran la distribución de los valores de las
columnas de los grupos en comparación con la distribución de la población total. En los
gráficos circulares, el círculo interior representa la población de un cluster. El círculo
exterior representa la población total.
Figura 118: Vista gráfica de los cluster hallados (fuente propia).
EL RENDIMIENTO ACADÉMICO…174
En la Figura 119 se puede observar la vista textual del cluster, que indica que el
cluster 9 tiene predominantemente alumnos que dedican más de 10 y hasta 20 horas
inclusive al estudio, que además con relación a la utilización de las TICs opinan que
facilitan el proceso de enseñanza y aprendizaje y que la importancia que asignan al estudio
es más que a la diversión.
Figura 119: Vista textual de cluster (fuente propia).
Figura 120: Calidad global del modelo (fuente propia).
En la Figura 120, una calidad global de 0,857 indica que, en promedio, las tuplas
en un mismo cluster tienen el mismo valor en los atributos activos en un 85,7%.
Figura 121: Vista de detalle para cluster (fuente propia).
EL RENDIMIENTO ACADÉMICO…175
En la Figura 121 se puede observar la vista de detalle para el cluster 9, que indica
que el 48.43% de los alumnos dedican más de 10 y hasta 20 horas semanales inclusive al
estudio; por otra parte se observa que para el 72.96% la importancia que asignan al estudio
es más que a la diversión, en tanto que un 55.83% opinan que las TICs facilitan el proceso
de enseñanza y aprendizaje.
Figura 122: Vista gráfica cluster 9, horas dedicadas al estudio (fuente propia).
Como se puede observar en la Figura 122, el cluster 9, correspondiente al 19.72%
de la población total, respecto de la cantidad de horas dedicadas al estudio por el alumno,
se puede observar que el 100% de dicha población manifiesta una dedicación entre 10 y 20
horas.
EL RENDIMIENTO ACADÉMICO…176
Figura 123: Vista gráfica cluster 9, importancia asignada al estudio (fuente propia).
Como se puede observar en la Figura 123, el cluster 9, correspondiente al 19.72%
de la población total, respecto de la importancia que el alumno asigna al estudio, se puede
observar que el 100% de dicha población manifiesta darle una importancia mayor que a la
diversión.
Figura 124: Vista gráfica cluster 9, utilización de las TICs (fuente propia).
Como se puede observar en la Figura 124, el cluster 9, correspondiente al 19.72%
de la población total, respecto de la utilización de las TICs por parte del alumno, se puede
observar que el 100% de dicha población manifiesta que facilitan el proceso de enseñanza.
EL RENDIMIENTO ACADÉMICO…177
Figura 125: Vista gráfica cluster 4, horas dedicadas al estudio (fuente propia).
Como se puede observar en la Figura 125, el cluster 4, correspondiente al 10.14%
de la población total, respecto de la cantidad de horas semanales dedicadas al estudio por
el alumno, se puede observar que el 100% de dicha población manifiesta una dedicación
entre 10 y 20 horas.
Figura 126: Vista gráfica cluster 4, importancia asignada al estudio (fuente propia).
Como se puede observar en la Figura 126, el cluster 4, correspondiente al 10.14%
de la población total, respecto de la importancia que el alumno asigna al estudio, se puede
observar que el 98% de dicha población manifiesta darle una importancia mayor que a la
diversión, en tanto que el 1% más que a la familia.
EL RENDIMIENTO ACADÉMICO…178
Figura 127: Vista gráfica cluster 4, utilización de las TICs (fuente propia).
Como se puede observar en la Figura 127, el cluster 4, correspondiente al 10.14%
de la población total, respecto de la utilización de las TICs por parte del alumno, se puede
observar que el 100% de dicha población manifiesta que serán imprescindibles para el
ejercicio profesional.
Figura 128: Vista gráfica cluster 1, horas dedicadas al estudio (fuente propia).
Como se puede observar en la Figura 128, el cluster 1, correspondiente al 5.45% de
la población total, respecto de la cantidad de horas semanales dedicadas al estudio por el
alumno, se puede observar que el 88% de dicha población manifiesta una dedicación
mayor a 20 horas, en tanto que un 2% hasta 10 horas inclusive.
EL RENDIMIENTO ACADÉMICO…179
Figura 129: Vista gráfica cluster 1, importancia asignada al estudio (fuente propia).
Como se puede observar en la Figura 129, el cluster 1, correspondiente al 5.45% de
la población total, respecto de la importancia que el alumno asigna al estudio, el 77% de
dicha población opina que es más importante que la diversión, por otra parte un 1% más
que la familia y el 22% más que el trabajo.
Figura 130: Vista gráfica cluster 1, utilización de las TICs (fuente propia).
En la Figura 130, el cluster 1, correspondiente al 5.45% de la población total,
respecto de la utilización de las TICs por parte del alumno, se observa que el 70% de dicha
población opina que facilitan el proceso de enseñanza, por otra parte el 15% opina que
EL RENDIMIENTO ACADÉMICO…180
serán imprescindible para el ejercicio profesional y un 11% opina que son una realidad en
la actualidad.
Teniendo en cuenta lo precedentemente señalado, se puede observar que el grado
de dedicación e importancia asignada por el alumno a sus estudios tiene una relación
directa con la actitud del mismo en cuanto a la utilización de las TICs.
3. Resultados Obtenido con Generadores de Asociación
3.1. Modelo 1
Se creó el flujo de minería DW_Encuesta.IM_Assoc_014. Las tablas ALUMNO y
UTIL_TICS a analizar contienen todos los datos relacionados con los alumnos de la
institución y la opinión que los mismos tienen con relación a la utilización de las TICs
(Figura 131). Las asociaciones se buscaron para cada alumno, por lo que se selecciona el
campo Situación Final. La vista que se obtiene al ejecutar el flujo muestra la pestaña
“Reglas”, esta es una vista de tabla que muestra una regla en cada fila con medidas sobre
pertinencia y calidad en la regla. En la vista gráfica del escenario considerado, los
diferentes atributos se representan como nodos y las asociaciones entre atributos como
flechas. El color y el ancho de las reglas muestran la pertinencia y calidad de las normas,
como se indica en la leyenda debajo del gráfico.
EL RENDIMIENTO ACADÉMICO…181
Figura 131: Flujo de minería de asociaciones en Design Studio (fuente propia).
El objetivo de la función de la minería de asociaciones es encontrar los elementos
que se asocian consistentemente con los demás de una manera significativa, para
responder a la pregunta: si hay ciertos elementos presentes en una transacción, ¿qué otros
elemento o elementos son susceptibles de estar presentes en la misma transacción?. Las
relaciones descubiertas por la función de la minería de asociaciones se expresan como
reglas de asociación. En una aplicación típica la función de la minería encuentra
asociaciones y también asigna probabilidades. La primera parte de una regla de asociación
se llama el cuerpo de la regla y la segunda parte se llama la cabeza de la regla.
Las reglas de asociación tienen los siguientes atributos:
Confianza: El valor de confianza representa la validez de la norma. Una regla tiene
el 70% de confianza si en el 70% de los casos en que el cuerpo de la regla está presente en
un grupo, la cabeza de la regla también está presente en el grupo.
Soporte: El valor para el soporte se expresa como un porcentaje del número total
de registros o transacciones.
Elevación: El valor de elevación indica hasta qué punto el valor de confianza es
más alto de lo esperado. Se define como el cociente del valor de confianza y el valor de
EL RENDIMIENTO ACADÉMICO…182
soporte de la cabeza de la regla. El valor de soporte de la cabeza de regla puede ser
considerado como el valor esperado para la confianza. Indica la frecuencia relativa de la
cabeza de la regla en todo el conjunto de transacciones.
Figura 132: Visualización de las reglas del modelo (fuente propia).
Se generaron 112 reglas. En la Figura 132, el ID 104 nos dice que si el estado civil
del alumno es soltero, entonces opinará que la utilización de las TIC facilitarán el proceso
de enseñanza y tiene un 55.82% de probabilidad que suceda.
El ID 85 muestra que si la situación final del alumno es 6, entonces su estado civil
es soltero y tiene un 86% de probabilidad que suceda.
EL RENDIMIENTO ACADÉMICO…183
Figura 133: Visualización de las reglas del modelo (fuente propia).
En la Figura 133, el ID 81 nos dice que si el género del alumno es masculino
entonces opinará que la utilización de las TICs facilitarán el proceso de enseñanza y tiene
una probabilidad del 55.82% que suceda.
3.2. Modelo 2
Se creó el flujo de minería DW_Encuesta.IM_Assoc_02. La tabla ENCUESTA a
analizar contiene todos los datos relacionados con los alumnos de la institución (Figura
134). Las asociaciones se buscaron para cada alumno, por lo que se selecciona el campo
Situación Final. La vista que se obtiene al ejecutar el flujo muestra la pestaña “Reglas”,
esta es una vista de tabla que muestra una regla en cada fila con medidas sobre pertinencia
y calidad en la regla. En la vista gráfica del escenario considerado, los diferentes atributos
se representan como nodos y las asociaciones entre atributos como flechas. El color y el
ancho de las reglas muestran la pertinencia y calidad de las normas, como se indica en la
leyenda debajo del gráfico.
EL RENDIMIENTO ACADÉMICO…184
Figura 134: Flujo de minería de asociaciones en Design Studio (fuente propia).
Figura 135: Visualización de las reglas del modelo (fuente propia).
En la Figura 135 se visualizan las siguientes reglas:
El ID 99 expresa que si el género del alumno es masculino, lo cual ocurre
en un 46%, implica un estado civil soltero en un 91% de los casos.
El ID 93 muestra que si el género del alumno es femenino, lo cual ocurre en
un 42%, implica un estado civil soltero en un 85% de los casos.
EL RENDIMIENTO ACADÉMICO…185
El ID 85 indica que si la situación final del alumno es 6, lo cual ocurre en
un 31%, implica un estado civil soltero en un 86% de los casos.
Figura 136: Visualización de las reglas del modelo (fuente propia).
En la Figura 136 se muestran las siguientes reglas:
El ID 80 expresa que si el género del alumno es femenino, lo cual ocurre en
un 28%, implica que opinará que las TICs facilitan el proceso de enseñanza en un
56% de los casos.
El ID 75 indica que si el alumno opina que la utilización de las TICs será
imprescindible para el ejercicio profesional, lo cual ocurre en un 25%, implica que
su estado civil es soltero en un 88% de los casos.
El ID 70 expresa que si el sexo del alumno es masculino, lo cual ocurre en
un 19%, implica que su situación final será de 6 en un 37.5% de los casos.
El ID 68 muestra que si el sexo del alumno es femenino, lo cual ocurre en
un 17%, implica que su situación final será de 6 en un 35.44% de los casos.
EL RENDIMIENTO ACADÉMICO…186
El ID 69 expresa que si la situación final del alumno es 6, lo cual ocurre en
un 19%, implica que el género del alumno será masculino en un 52% de los casos.
El ID 62 indica que si el alumno opina que la utilización de las TICs será
imprescindible para el ejercicio profesional, lo cual ocurre en un 14%, implica que
el género del alumno es femenino en un 49% de los casos.
3.3. Modelo 3
Se creó el flujo de minería DW_Encuesta.IM_Assoc_08. Las tablas ALUMNO,
UTIL_TICS y HORAS_EST a analizar contienen todos los datos relacionados con los
alumnos de la institución y la opinión que los mismos tienen con relación a la utilización
de las TICs y las horas dedicadas al estudio (Figura 137). Las asociaciones se buscaran
para cada alumno, por lo que se selecciona el campo Situación Final. La vista que se
obtiene al ejecutar el flujo muestra la pestaña “Reglas”, esta es una vista de tabla que
muestra una regla en cada fila con medidas sobre pertinencia y calidad en la regla. En la
vista gráfica de nuestro escenario, los diferentes atributos se representan como nodos y las
asociaciones entre atributos están representadas como flechas. El color y el ancho de las
reglas muestran la pertinencia y calidad de las normas, como se indica en la leyenda
debajo del gráfico.
EL RENDIMIENTO ACADÉMICO…187
Figura 137: Flujo de minería de asociaciones en Design Studio (fuente propia).
Figura 138: Visualización de las reglas del modelo (fuente propia).
En la Figura 138 se observan las siguientes reglas:
El ID 1 si la opinión del alumno es que la utilización de las TICs facilitan el
proceso de enseñanza y las horas dedicadas al estudio son hasta 10 horas inclusive,
lo que ocurre en un 12.54%, implica que el género del alumno será masculino en el
50.31% de los casos.
EL RENDIMIENTO ACADÉMICO…188
El ID 7 si el estado civil es soltero y el alumno opina que la utilización de
las TICs será imprescindible para el desempeño profesional, lo que ocurre en un
13%, implica que el género del alumno será masculino en el 52% de los casos.
El ID 9 si la opinión del alumno es que la utilización de las TICs facilitan el
proceso de enseñanza y las horas dedicadas al estudio son más de 10 y hasta 20
inclusive, lo que ocurre en un 13.43%, implica que el género del alumno será
femenino en el 49.68% de los casos.
El ID 13 si la opinión del alumno es que la utilización de las TICs facilitan
el proceso de enseñanza y las horas dedicadas al estudio son más de 10 y hasta 20
inclusive, lo que ocurre en un 13.60%, implica que el género del alumno será
masculino en el 50.31% de los casos.
El ID 24 si el género del alumno es femenino y la situación final es 6, lo
que ocurre en un 14.46%, implica que el estado civil del alumno será soltero en el
82% de los casos.
El ID 27 si la situación final del alumno es 6 y las horas dedicadas al
estudio son más de 10 y hasta 20 inclusive, lo que ocurre en un 15%, implica que
el estado civil del alumno es soltero en el 86% de los casos.
EL RENDIMIENTO ACADÉMICO…189
Figura 139: Visualización de las reglas del modelo (fuente propia).
En la Figura 139 se muestran las siguientes reglas:
El ID 35 si la situación final es 6 y es masculino, lo que ocurre en un 17%,
implica que el estado civil del alumno será soltero en el 90% de los casos.
El ID 43 si es femenino y dedica hasta 10 horas al estudio inclusive, lo que
ocurre en un 19%, implica que el estado civil del alumno será soltero en el 85% de
los casos.
EL RENDIMIENTO ACADÉMICO…190
Figura 140: Visualización de las reglas del modelo (fuente propia).
En la Figura 140 se pueden observar las siguientes reglas:
El ID 57 si es soltero y las horas dedicadas al estudio son hasta 10
inclusive, lo que ocurre en un 22% de los casos, implica que la opinión sobre la
utilización de las TICs será que facilitan el proceso de enseñanza en el 56% de los
casos.
El ID 69 si la utilización de las TICs facilita el proceso de enseñanza y las
horas dedicadas al estudio son más de 10 y hasta 20 inclusive, lo que ocurre en un
24%, implica que el estado civil del alumno será soltero en el 88% de los casos.
EL RENDIMIENTO ACADÉMICO…191
Figura 141: Visualización de las reglas del modelo (fuente propia).
Finalmente en la Figura 141 se muestra la siguiente regla:
El ID 80 si la utilización de las TICs facilita el proceso de enseñanza y el
género del alumno es masculino, lo que ocurre en un 25.63%, implica que el estado
civil del alumno será soltero en el 91.25% de los casos.
4. Resultados Obtenido con Árboles de Decisión
Del mismo modo que se realizó en la sección anterior, para poder visualizar,
interpretar y evaluar los resultados, hay que reemplazar en el modelo obtenido en el
capítulo anterior Figura 142, al elemento Extractor de Calidad por un elemento Visualizer.
DW_Encuesta.IM_PREDICTION_020.
Figura 142: Flujo de minería de clasificación en Design Studio (fuente propia).
EL RENDIMIENTO ACADÉMICO…192
El Flujo de Minería para este algoritmo se ejecutó con la mejor configuración que se
obtuvo en la etapa de Evaluación del Modelo, que es la que ofrece la herramienta por
defecto, esto es:
Pureza máxima: 0.
Profundidad máxima: 0.
Número mínimo de registros por nodo hoja: 0.
Atributos Activos y Suplementarios: Determinados por el Sistema.
Las clases que el algoritmo ha podido predecir se pueden observar en la Figura
143.
Figura 143: Clases predichas por el algoritmo árbol (fuente propia).
Las Tablas 23, Tabla 24, Tabla 25, Tabla 26, Tabla 27, Tabla 28, Tabla 29, Tabla
30 y Tabla 31 describen, en general, cómo se caracterizan las clases correspondientes a los
alumnos con alto rendimiento académico.
EL RENDIMIENTO ACADÉMICO…193
Clase Atributo Valor predominante
“7”
15.09% de la población
Situación final. 7
Primer parcial. 6 – 8 (75%)
Segundo parcial. 6 - 8 (75%)
Provincia. Corrientes (75%)
Tipo de residencia. Con familiares (88%)
Situación laboral alumno. No trabaja (92%)
Tabla 23: Clase 7 alumnos de alto rendimiento académico
EL RENDIMIENTO ACADÉMICO…194
Clase Atributo Valor predominante
“7”
15.09% de la población
Horas semanales trabajadas. Hasta 20 inclusive (8%)
Relación con la carrera
elegida.
Parcial (54%)
Estudios cursados padre. Esc. Primaria Completa (33%)
Esc. Secundaria Completa
(25%)
Situación laboral padre. Ocupado (75%)
Estudios cursados madre. Esc. Primaria Completa (21%)
Esc. Secundaria Completa
(42%)
Situación laboral madre. No trabaja (58%)
Ocupado (33%)
Género. Masculino (58%)
Prioridad otorgada al estudio. Más que a la diversión (71%)
Nro. Horas semanales
dedicadas al estudio.
Hasta 10 horas (50%)
Tabla 24: Clase 7 alumnos de alto rendimiento académico
EL RENDIMIENTO ACADÉMICO…195
Clase Atributo Valor predominante
“7”
15.09% de la población
Estudia para. Aprobar la asignatura (38%)
Aprender a aprender (28%)
Utilización de las TICs. Facilitan el proceso de
enseñanza (50%)
Indispensables en el ejercicio
profesional (21%)
Tabla 25: Clase 7 alumnos de alto rendimiento académico
EL RENDIMIENTO ACADÉMICO…196
Clase Atributo Valor predominante
“8”
3.77% de la población
Situación final. 8
Primer parcial. 7.6 – 8.4 (100%)
Segundo parcial. 7.6 – 8.4 (100%)
Provincia. Corrientes (100%)
Tipo de residencia. Con familiares (100%)
Situación laboral alumno. No trabaja (83%)
Horas semanales trabajadas. Hasta 20 inclusive (17%)
Relación con la carrera
elegida.
Parcial (67%)
Estudios cursados padre. Esc. Primaria Completa (17%)
Esc. Secundaria Completa
(33%)
Universitario Completo (17%)
Situación laboral padre. Ocupado (50%)
Estudios cursados madre. Esc. Primaria Completa (50%)
Esc. Secundaria Completa
(17%)
Universitario Completo (17%)
Situación laboral madre. Ocupado (83%)
Género. Masculino (83%)
Prioridad otorgada al estudio. Más que a la diversión (83%)
Nro. Horas semanales
dedicadas al estudio.
Más de 10 y hasta 20 inclusive
(50%)
Tabla 26: Clase 8 alumnos de alto rendimiento académico
EL RENDIMIENTO ACADÉMICO…197
Clase Atributo Valor predominante
“8”
3.77% de la población
Estudia para. Aprender íntegramente y
aprobar (50%)
Aprender a aprender (33%)
Utilización de las TICs. Facilitan el proceso de
enseñanza (100%)
Estado civil. Soltero (100%)
Tabla 27: Clase 8 alumnos de alto rendimiento académico
EL RENDIMIENTO ACADÉMICO…198
Clase Atributo Valor predominante
“9”
4.4% de la población.
Situación final. 9
Primer parcial. 8.4 – 9.2 (71%)
7.6 – 8.4 (29%)
Segundo parcial. 8.4 – 9.2 (71%)
9.2 –10 (29%)
Provincia. Corrientes (100%)
Tipo de residencia. Con familiares (86%)
En forma independiente (14%)
Situación laboral alumno. No trabaja (57%)
Ocupado (43%)
Horas semanales trabajadas. De 21 a 35 inclusive (14%)
De 36 o más (14%)
Relación con la carrera
elegida.
Parcial (67%)
Total (43%)
Estudios cursados padre. Esc. Primaria Completa (29%)
Esc. Secundaria Completa
(43%)
Universitario Completo (14%)
Situación laboral padre. Ocupado (86%)
Tabla 28: Clase 9 alumnos de alto rendimiento académico
EL RENDIMIENTO ACADÉMICO…199
Clase Atributo Valor predominante
“9”
4.4% de la población.
Estudios cursados madre. Esc. Primaria Completa (14%)
Esc. Secundaria Completa
(29%)
Universitario Completo (43%)
Situación laboral madre. Ocupado (57%)
Género. Masculino (57%)
Prioridad otorgada al estudio. Más que a la diversión (57%)
Más que al trabajo (43%)
Nro. Horas semanales
dedicadas al estudio.
Más de 10 y hasta 20 inclusive
(71%)
Estudia para. Aprender íntegramente y
aprobar (43%)
Aprender a aprender (29%)
Utilización de las TICs. Facilitan el proceso de
enseñanza (43%)
Son indispensables
desempeño profesional (43%)
Estado civil. Soltero (86%)
Casado (14%)
Tabla 29: Clase 9 alumnos de alto rendimiento académico
EL RENDIMIENTO ACADÉMICO…200
Clase Atributo Valor predominante
“10”
2.52% de la población
Situación final. 10
Primer parcial. 9.2 – 10 (100%)
Segundo parcial. 9.2 – 10 (100%)
Provincia. Corrientes (100%)
Tipo de residencia. Con familiares (75%)
En forma independiente (25%)
Situación laboral alumno. No trabaja (100%)
Horas semanales trabajadas.
Relación con la carrera
elegida.
Estudios cursados padre. Esc. Primaria Completa (36%)
Esc. Secundaria Completa
(50%)
Situación laboral padre. Ocupado (75%)
Estudios cursados madre. Esc. Primaria Completa (45%)
Esc. Secundaria Completa
(50%)
Situación laboral madre. Ocupado (50%)
Tabla 30: Clase 10 alumnos de alto rendimiento académico
EL RENDIMIENTO ACADÉMICO…201
Clase Atributo Valor predominante
“10”
2.52% de la población
Género. Masculino (100%)
Prioridad otorgada al estudio. Más que a la diversión (75%)
Nro. Horas semanales
dedicadas al estudio.
Más de 10 y Hasta 20 inclusive
(75%)
Estudia para. Aprender a aprender (75%)
Utilización de las TICs. Imprescindibles en el ejercicio
profesional (75%)
Estado civil. Soltero (75%)
Casado (25%)
Tabla 31: Clase 10 alumnos de alto rendimiento académico
Las Tabla 32 y Tabla 33 describen, en general, cómo está caracterizada la clase
correspondiente a los alumnos con un rendimiento académico medio.
Clase Atributo Valor predominante
“6”
36.48% de la población
Situación final. 6
Primer parcial. 6 – 7 (95%)
Segundo parcial. 6 - 7 (86%)
Provincia. Corrientes (95%)
Tipo de residencia. Con familiares (83%)
En forma independiente (16%)
Tabla 32: Clase 6 alumnos con un rendimiento académico medio.
EL RENDIMIENTO ACADÉMICO…202
Clase Atributo Valor predominante
“6”
36.48% de la
población
Situación laboral alumno. No trabaja (72%)
Horas semanales trabajadas. Hasta 20 inclusive (21%)
Relación con la carrera elegida. Parcial (45%)
Total (31%)
Estudios cursados del padre. Esc. Primaria Completa (36%)
Esc. Secundaria Completa (29%)
Situación laboral del padre. Ocupado (59%)
Estudios cursados de la madre. Esc. Primaria Completa (45%)
Esc. Secundaria Completa (24%)
Situación laboral de la madre. No trabaja (60%)
Género. Masculino (52%)
Prioridad otorgada al estudio. Más que a la diversión (72%)
Nro. Horas semanales dedicadas al
estudio.
Más de 10 y Hasta 20 inclusive
(55%)
Estudia para. Aprobar la asignatura (47%)
Aprender a aprender (28%)
Utilización de las TICs. Facilitan el proceso de enseñanza
(64%)
Imprescindibles en el ejercicio
profesional (20%)
Estado civil. Soltero (86%)
Casado (12%)
Tabla 33: Clase 6 alumnos con un rendimiento académico medio.
Las Tabla 34, Tabla 35, Tabla 36, Tabla 37, Tabla 38 y Tabla 39 describen, en
general, cómo se caracterizan las clases correspondientes a los alumnos con un bajo
rendimiento académico.
EL RENDIMIENTO ACADÉMICO…203
Clase Atributo Valor predominante
“3”
7.55% de la población
Situación final. 3
Nota primer parcial. 2.8 – 3.6 (83%)
Nota segundo parcial. 2.8 – 3.6 (83%)
Provincia. Corrientes (75%)
Tipo de residencia. Con familiares (83%)
En forma independiente (17%)
Situación laboral alumno. No trabaja (75%)
Ocupado (17%)
Sub-Ocupado (8%)
Horas semanales trabajadas. Hasta 20 inclusive (17%)
De 36 o más (8%)
Relación con la carrera
elegida.
Parcial (25%)
Total (25%)
No relacionada (50%)
Estudios cursados del padre. Esc. Primaria Completa (25%)
Esc. Secundaria Completa
(50%)
Situación laboral del padre. Ocupado (92%)
Tabla 34: Clase 3 alumnos con un bajo rendimiento académico.
EL RENDIMIENTO ACADÉMICO…204
Clase Atributo Valor predominante
“3”
7.55% de la población
Estudios cursados de la
madre.
Esc. Primaria Completa (25%)
Esc. Secundaria Completa
(25%)
Estudios Superiores (17%)
Situación laboral de la madre. No trabaja (67%)
Género. Femenino (67%)
Prioridad otorgada al estudio. Más que a la diversión (75%)
Nro. horas semanales
dedicadas al estudio.
Más de 10 y Hasta 20 inclusive
(67%)
Estudia para. Aprender integralmente y
aprobar (50%)
Utilización de las TICs. Facilitan el proceso de
enseñanza (50%)
Estado civil. Soltero (92%)
Tabla 35: Clase 3 alumnos con un bajo rendimiento académico.
EL RENDIMIENTO ACADÉMICO…205
Clase Atributo Valor predominante
“4”
18.24 % de la
Situación final 4
Nota primer parcial. 3.6 – 4.4 (93%)
Segundo parcial. 3.6 – 4.4 (97%)
Provincia. Corrientes (90%)
Tipo de Residencia. Con familiares (62%)
En forma independiente (34%)
Situación laboral del alumno. No trabaja (62%)
Ocupado (28%)
Sub Ocupado (10%)
Horas semanales trabajadas. Hasta 20 inclusive (17%)
De 36 o más (14%)
Relación con la carrera
elegida.
Parcial (48%)
Total (31%)
Estudios cursados del padre. Esc. Primaria Completa (31%)
Esc. Secundaria Completa
(31%)
Universitario Completo (6%)
Situación laboral del padre. Ocupado (52%)
Estudio cursado de la madre. Esc. Primaria Completa (59%)
Esc. Secundaria Completa
(24%)
Universitario Completo (7%)
Situación laboral de la madre. No trabaja (55%)
Ocupado (28%)
Tabla 36: Clase 4 alumnos con un bajo rendimiento académico.
EL RENDIMIENTO ACADÉMICO…206
Clase Atributo Valor predominante
“4”
18.24 % de la
Género. Femenino (52%)
Prioridad otorgada al estudio. Más que a la diversión (79%)
Nro. Horas semanales
dedicadas al estudio.
Hasta 10 horas (55%)
Estudia para. Aprobar la asignatura (38%)
Aprender a aprender (24%)
Utilización de las TICs. Facilitan el proceso de
enseñanza (52%)
Indispensables en el ejercicio
profesional (41%)
Estado civil. Soltero (93%)
Casado (7%)
Tabla 37: Clase 4 alumnos con un bajo rendimiento académico.
EL RENDIMIENTO ACADÉMICO…207
Clase Atributo Valor predominante
“5”
6.29% de la población
Situación final del alumno. 5
Nota primer parcial. 4.4 – 5.2 (80%)
Segundo parcial. 4.4 – 5.2 (80%)
Provincia. Corrientes (100%)
Tipo de Residencia. Con familiares (80%)
En forma independiente (20%)
Situación laboral del alumno. No trabaja (50%)
Ocupado (10%)
Sub ocupado (40%)
Horas semanales trabajadas. Hasta 20 inclusive (30%)
De 36 o más (10%)
Relación con la carrera
elegida.
Parcial (60%)
Estudios cursados del padre. Esc. Primaria Completa (40%)
Esc. Secundaria Completa
(30%)
Situación laboral del padre. Ocupado (70%)
Estudio cursado de la madre. Esc. Primaria Completa (50%)
Esc. Secundaria Completa
(40%)
Situación laboral de la madre. No trabaja (40%)
Ocupado (30%)
Género. Femenino (80%)
Tabla 38: Clase 5 alumnos con un bajo rendimiento académico.
EL RENDIMIENTO ACADÉMICO…208
Clase Atributo Valor predominante
“5”
6.29% de la población
Prioridad otorgada al estudio. Más que a la diversión (70%)
Nro. Horas semanales
dedicadas al estudio.
Hasta 10 inclusive (70%)
Estudia para. Aprobar la asignatura (30%)
Aprender a aprender (40%)
Utilización de las TICs. Facilitan el proceso de
enseñanza (40%)
Indispensables en el ejercicio
profesional (50%)
Estado civil. Soltero (90%)
Unión Consensual (10%)
Tabla 39: Clase 5 alumnos con un bajo rendimiento académico.
En las Tabla 23, Tabla 24, Tabla 25, Tabla 26, Tabla 27, Tabla 28, Tabla 29, Tabla
30 y Tabla 31 se muestran los resultados resumidos del algoritmo de clasificación con
relación al perfil de los alumnos considerados de alto rendimiento académico (notas de
7, 8, 9 y 10), correspondiente al 25.78% de la población. Se muestra cómo inciden las
variables sociodemográficas en la construcción de dicho perfil, que se resume de la
siguiente manera:
La mayoría vive con el grupo familiar.
Generalmente no trabajan.
Un grupo minoritario trabaja hasta 20 horas semanales.
En la mayoría de los casos la relación del trabajo con la carrera elegida es
parcial.
EL RENDIMIENTO ACADÉMICO…209
El grado de escolaridad primaria y secundaria de los padres es
relativamente bajo, registrándose casos de escolaridad terciaria o
universitaria.
Mayoritariamente el porcentaje de ocupación de los padres es relativamente
alto.
En la mayoría de los casos el objetivo de los alumnos es estudiar para
aprender a aprender o para aprender integralmente la materia.
La mayoría considera la utilización de las TICs asociadas al proceso de
enseñanza-aprendizaje y como imprescindibles para el ejercicio
profesional.
La mayoría son solteros, registrándose un buen porcentaje de casados.
La mayoría corresponden al género masculino.
Un grupo minoritario otorga al estudio más prioridad que al trabajo.
En las Tabla 32 y Tabla 33 se muestran los resultados resumidos del algoritmo de
clasificación con relación al perfil de los alumnos con la nota mínima de aprobación de la
asignatura (6 seis), correspondiente al 36.44% de la población. Se muestra cómo inciden
las variables sociodemográficas en la construcción de dicho perfil, que se resume de la
siguiente manera:
La mayoría vive con el grupo familiar.
Generalmente no trabajan.
Un grupo minoritario trabaja hasta 20 horas semanales.
En la mayoría de los casos la relación del trabajo con la
carrera elegida es parcial.
EL RENDIMIENTO ACADÉMICO…210
El grado de escolaridad primaria y secundaria de los padres
es relativamente bajo, no registrándose casos de escolaridad
terciaria o universitaria.
Mayoritariamente el porcentaje de ocupación de los padres
es relativamente bajo.
En la mayoría de los casos el objetivo de los alumnos es
estudiar para aprobar la materia.
La mayoría considera la utilización de las TICs asociadas al
proceso de enseñanza-aprendizaje.
La mayoría son solteros, registrándose un buen porcentaje
de casados.
La mayoría corresponden al género masculino.
En las Tabla 34, Tabla 35, Tabla 36, Tabla 37, Tabla 38 y Tabla 39 se muestran los
resultados resumidos del algoritmo de clasificación con relación al perfil de los
alumnos considerados de bajo rendimiento académico (notas de 2, 3, 4 y 5),
correspondiente al 37.73% de la población. Se muestra cómo inciden las variables
sociodemográficas en la construcción de dicho perfil, que se resume de la siguiente
manera:
La mayoría vive con el grupo familiar, registrándose un grupo minoritario
importante que vive en forma independiente concentrándose especialmente
en la clase correspondiente a la calificación de 2.
EL RENDIMIENTO ACADÉMICO…211
Generalmente no trabajan, pero un grupo significativo sí lo hace. En esta
categoría esta la mayor cantidad de alumnos que trabajan.
Un grupo minoritario trabaja hasta 20 horas semanales y otro grupo menor
más de 36 horas semanales.
En la mayoría de los casos la relación del trabajo con la carrera elegida es
parcial o no existe relación.
El grado de escolaridad primaria y secundaria de los padres es
relativamente bajo, registrándose casos de escolaridad terciaria o
universitaria.
Mayoritariamente el porcentaje de ocupación de los padres es relativamente
alto, registrándose un grupo minoritario importante con un bajo porcentaje
de ocupación.
En la mayoría de los casos el objetivo de los alumnos es estudiar para
aprobar la materia y un grupo minoritario lo hace para aprender a aprender
o para aprender integralmente la materia.
La mayoría considera la utilización de las TICs asociadas al proceso de
enseñanza-aprendizaje y un grupo minoritario como imprescindibles para el
ejercicio profesional.
La mayoría son solteros.
La mayoría corresponden al género femenino.
EL RENDIMIENTO ACADÉMICO…212
En las Tabla 40, Tabla 41 y Tabla 42 se comparan las características distintivas únicas de
cada grupo, es decir, aquellas características que no aparecen en los tres grupos.
Grupos Características distintivas únicas de cada grupo
Alumnos con la nota mínima de
aprobación
No se registran casos de escolaridad
terciaria o universitaria de los padres.
Mayoritariamente el porcentaje de ocupación
de los padres es relativamente bajo.
En la mayoría de los casos el objetivo de los
alumnos es estudiar para aprobar la materia.
La mayoría corresponden al género
masculino.
Tabla 40: Características de los alumnos con la nota mínima de aprobación.
EL RENDIMIENTO ACADÉMICO…213
Grupos Características distintivas únicas de cada grupo
Alumnos considerados de alto
rendimiento académico
Se registran casos de escolaridad terciaria o
universitaria de los padres.
Registrándose un grupo minoritario
importante con un bajo porcentaje de
ocupación.
En la mayoría de los casos el objetivo de los
alumnos es estudiar para aprender a
aprender o para aprender integralmente la
materia.
Consideran a las TICs como imprescindibles
para el ejercicio profesional.
La mayoría corresponden al género
masculino.
Un grupo minoritario otorga al estudio más
prioridad que al trabajo.
Tabla 41: Características distintivas de los alumnos considerados de alto rendimiento académico.
EL RENDIMIENTO ACADÉMICO…214
Grupos Características distintivas únicas de cada grupo
Alumnos considerados de bajo
rendimiento académico
Un grupo minoritario importante que vive
en forma independiente concentrándose
especialmente en la clase
correspondiente a la calificación de 2.
Un grupo significativo trabaja. En esta
categoría esta la mayor cantidad de
alumnos que trabajan.
Otro grupo minoritario trabaja más de 36
horas semanales.
Un grupo minoritario informa que no
existe relación entre la carrera y el trabajo
que desempeña.
Se registran casos de escolaridad
terciaria o universitaria de los padres.
Mayoritariamente el porcentaje de
ocupación de los padres es relativamente
alto.
En la mayoría de los casos el objetivo de
los alumnos es estudiar para aprobar la
materia y un grupo minoritario lo hace
para aprender a aprender o para
aprender integralmente la materia.
Un grupo minoritario considera a las TICs
como imprescindibles para el ejercicio
profesional.
La mayoría corresponden al género
femenino.
Tabla 42: Características distintivas de los alumnos considerados de bajo rendimiento académico.
La calidad global del modelo para clasificar la situación final de los alumnos se
puede observar en la Figura 144.
EL RENDIMIENTO ACADÉMICO…215
Figura 144: Visualizador de calidad del modelo (fuente propia).
A continuación, en la Figura 145, se puede observar la Matriz de confusión.
Figura 145: Matriz de confusión obtenida con el algoritmo de Árbol (fuente propia).
En la inteligencia artificial, las Matrices de Confusión se emplean en aprendizaje
supervisado y sirve para representar la cantidad de predicciones que el algoritmo de
EL RENDIMIENTO ACADÉMICO…216
minería ha realizado para cada clase. De esta forma se puede apreciar a simple vista si el
algoritmo se está confundiendo en la clasificación.
Las reglas establecidas por el árbol de decisión resultante se pueden apreciar en la
Figura 146.
Figura 146: Árbol de decisión (fuente propia).
Otro gráfico interesante que nos ofrece la herramienta es el Diagrama de Importancia de
Campo (Figura 147). En él se puede observar la importancia que el algoritmo asignó a
cada atributo para realizar la clasificación.
EL RENDIMIENTO ACADÉMICO…217
Figura 147: Gráfico de importancia de campo del modelo (fuente propia).
Figura 148: Tabla de correlación e importancia de campo (fuente propia).
En la Figura 148, se puede observar la tabla de correlación e importancia de campo
establecidas por el modelo, mientras que en la Tabla 43 podemos observar algunas de las
correlaciones e importancia de campo que han sido seleccionadas, considerándolas
relevantes para el análisis de los objetivos establecidos en este proyecto de investigación.
EL RENDIMIENTO ACADÉMICO…218
Campo Campo Correlación
C33 Tipo de Residencia C56 Escolaridad del Padre 0,553
C33 Tipo de Residencia SF Situación final alumno 0,509
C56 Escolaridad del padre C74 Importancia asignada al
estudio
0,458
C56 Escolaridad del padre C76 Estudia para 0,446
C56 Escolaridad del padre SF Situación final alumno 0,541
C57 Situación laboral Padre C76 Estudia para 0,406
C61 Escolaridad de la madre C75 Horas dedicadas al estudio 0,499
C61 Escolaridad de la madre C77 Utilización de las TICs 0,478
C62 Situación laboral madre SF Situación final alumno 0,484
C76 Estudia para C77 Utilización de las TICs 0,524
C77 Utilización de las TICs SF Situación final alumno 0,505
PP Nota primer parcial SF Situación final alumno 0,985
SF Situación final alumno SP Nota segundo parcial 0,981
Tabla 43: Correlación e importancia de campo.
Hay correlaciones determinadas por el algoritmo extremadamente interesante como
por ejemplo, la que muestra la incidencia de la nota del primer parcial en la situación final
del alumno, así también la incidencia del tipo de residencia con relación a la situación
final del alumno, el grado de escolaridad de los padres en relación a las horas dedicadas al
estudio y situación final del alumno. La incidencia de la utilización de las TICs en relación
a la situación final del alumno.
5. Discusiones y Comentarios
Es de fundamental importancia conocer desde los primeros cuatrimestres cuáles
alumnos son candidatos a desertar, cuál es su probabilidad de hacerlo y qué factores
inciden en que lo hagan (factores académicos, personales, económicos, entre otros). Al no
realizar este tipo de investigaciones se tiene como consecuencia que los tutores, sigan sin
EL RENDIMIENTO ACADÉMICO…219
identificar a los alumnos que sean candidatos a desertar y solamente los identifiquen
hasta cuatrimestres avanzados, cuando posiblemente ya no se pueda ayudarlos.
La existencia de voluminosas bases de datos conteniendo grandes cantidades de
datos, que exceden en mucho las capacidades humanas de reducción y análisis a fin de
obtener información útil, actualmente son una realidad en muchas organizaciones. Debido
a esto, frecuentemente las decisiones importantes se toman en base a la intuición y
experiencia en lugar de tomar como referencia la riqueza de estos datos almacenados,
provocando que se las vea (a las organizaciones) como ricas en datos, pero pobres en
información.
En síntesis, las técnicas de minería de datos, permiten construir modelos
predictivos, de asociación, de segmentación, basados en datos históricos almacenados en
distintas fuentes: bases de datos, archivos de texto plano, documentos impresos, reportes,
entre otros. Usando todos estos datos, es posible predecir un fenómeno dado, a partir de
las herramientas que la minería ofrece, obteniendo conocimiento que ayude en la toma de
decisiones.
EL RENDIMIENTO ACADÉMICO…220
CAPÍTULO VI: CONCLUSIONES Y FUTURAS LÍNEAS DE
INVESTIGACIÓN
1. Conclusiones
Se podrá señalar en primera instancia que en esta investigación sólo se han
abarcado algunos métodos de extracción del conocimiento a través de la MD. No obstante,
existen muchas más posibilidades que ofrecen ésta y otras herramientas. Se ha demostrado
que para realizar una minería de datos de buena calidad, ésta debe estar acompañada de
una serie de mecanismos (Flujos de Datos, Flujo de Minería, Matrices de Confusión, etc.)
que faciliten y permitan realizar una validación de los modelos y un análisis de resultados
más completo y fiable. Con las tres técnicas seleccionadas se han obtenido muy buenos
resultados, superando lo planteado como objetivo específico de la MD en el capítulo IV y
confirmando hipótesis del capítulo I. La aplicación de cada algoritmo facilitó advertir, no
sólo las diferentes características pertenecientes al grupo de alumnos, sino que también
han quedado manifestadas las características de las clases contrastes (alumnos de bajo,
medio y alto rendimiento académico). El modelo de Clasificación a través de Árboles de
Decisión superó en calidad a los patrones obtenidos con el método de Generación de
Clústeres. A su vez permitió advertir cuáles eran los atributos más importantes por el cual
el algoritmo realizaba la clasificación de los alumnos (situación final del alumno). Esta
información luego fue utilizada para mejorar la calidad del modelo obtenido con el método
no supervisado. Como contrapartida, la interpretación del Árbol de Decisión obtenido, no
resulta fácil de leer, debido a su amplitud, por personas no especializadas. Inclusive
configurando distintos niveles de poda el árbol sigue siendo muy extenso. Esta dificultad
es compensada, tanto en la clasificación como en el agrupamiento de características, por la
excelente representación gráfica que realiza la herramienta. Si bien la calidad de los
modelos superó las expectativas planteadas, se considera muy importante contar con la
EL RENDIMIENTO ACADÉMICO…221
opinión de los expertos, no sólo a la hora de crear los modelos sino también en lo que
refiere a la evaluación e interpretación de los resultados. Un aporte muy significativo es el
haber logrado automatizar los procesos ETL a través de la implementación de Flujo de
Datos y Control. Con esta herramienta a su disposición, el organismo educativo, podrá
extraer el conocimiento de sus BD con más facilidad evitando largas etapas de Pre
Proceso. Dada la flexibilidad que otorga la herramienta, y a la automatización de los flujos
de datos, no representaría mayor inconveniente, el introducir más variables socio
económicas.
1.1. Capítulo I
En este trabajo se han estudiado las variables que inciden en el relativamente bajo
rendimiento académico de los alumnos de Sistemas Operativos de la TSAP del ISCC
perteneciente a la Dirección General de Educación Superior (DGES).
Para la realización del estudio antes mencionado se ha considerado que la
utilización de técnicas de DW y de DM serían las herramientas adecuadas, esperándose
que los resultados obtenidos permitan determinar perfiles de alumnos con alto riesgo de
fracaso académico, a los efectos de encarar acciones tendientes a evitar el mismo,
contribuyendo así a la solución de los problemas de la masividad ante la falta de recursos
suficientes y del relativamente bajo rendimiento académico.
1.2. Capítulo II
Actualmente los DW se aplican en mayor porcentaje en los negocios, sin embargo,
toda organización que controla grandes volúmenes de información o requiere de un
soporte para la toma de decisiones, puede hacer uso de la tecnología DW.
EL RENDIMIENTO ACADÉMICO…222
1.2.1. Ventajas del Uso de Data Warehouse
La inversión que realiza una organización para una correcta
implantación de un sistema de Almacén de Datos conlleva un coste
muy elevado, sin embargo el retorno de la inversión es garantizado
en gran medida.
Como consecuencia de la ventaja anterior se pueden conseguir una
ventaja competitiva debido a una buena toma de decisiones gracias
al Almacén de Datos implantado.
Mejoran la productividad de los responsables en la toma de
decisiones de la organización debido a que:
Los Almacenes de Datos hacen más fácil el acceso a una
gran variedad de datos.
Se obtiene una base de datos clasificada por temas e
histórica.
Se integra información procedente de múltiples sistemas
externos.
Puedo hacer referencia a las ventajas y desventajas relacionadas con el armado del
DW en mi institución.
1.2.2. Desventajas del Uso de Data Warehouse
La subestimación del tiempo requerido para extraer, limpiar y
cargar los datos en el Almacén.
Problemas con los sistemas de origen de los datos.
Los datos obtenidos no son suficientes.
EL RENDIMIENTO ACADÉMICO…223
Pueden suponer altos gastos, además de los gastos de
mantenimiento que son muy elevados.
Pueden quedarse obsoletos relativamente pronto si los usuarios
incrementan sus necesidades.
En Almacenes de Datos de considerable tamaño puede que la
homogeneización de los datos disminuya su valor.
La construcción de un Almacén de Datos puede requerir de mucho
tiempo.
1.3. Capítulo III
La principal ventaja en la implantación de un DW, es que sirve de soporte para la
toma de decisiones.
La integración de los datos en forma estructurada en un almacén centralizado, da
como ventaja el poder obtener información en menor tiempo, ayudando a realizar la toma
de decisiones sin retrasos.
También se pudo detectar, que el proceso más laborioso es el de la transformación
de los datos. En el caso del presente estudio, disminuyó la dificultad de este proceso,
debido a que existía un estándar en plataformas y manejadores de bases de datos.
1.4. Capítulo IV
Se ha podido elaborar diferentes modelos de minería de datos tendientes identificar
los perfiles de riesgo de fracaso académico y de éxito académico, desde que inicia su vida
estudiantil en la institución. Esto permitirá proponer las estrategias necesarias con mucha
anticipación para disminuir el índice de deserción.
1.5. Capítulo V
Es de fundamental importancia conocer desde los primeros cuatrimestres cuáles
alumnos son candidatos a desertar, cuál es su probabilidad de hacerlo y qué factores
EL RENDIMIENTO ACADÉMICO…224
inciden en que lo hagan (factores académicos, personales, económicos, entre otros). Al no
realizar este tipo de investigaciones se tiene como consecuencia que los tutores, sigan sin
identificar a los alumnos que sean candidatos a desertar y solamente los identifiquen
hasta cuatrimestres avanzados, cuando posiblemente ya no se pueda ayudarlos.
En esta investigación sólo se han abarcado algunos métodos de extracción del
conocimiento a través de la MD. No obstante, existen muchas más posibilidades que
ofrecen ésta y otras herramientas.
Se ha demostrado que para realizar una minería de datos de buena calidad, ésta
debe estar acompañada de una serie de mecanismos (Flujos de Datos, Flujo de Minería,
Matrices de Confusión, etc.) que faciliten y permitan realizar una validación de los
modelos y un análisis de resultados más completo y fiable.
Con las tres técnicas seleccionadas se han obtenido muy buenos resultados,
superando lo planteado como objetivo específico de la MD en el capítulo IV y
confirmando hipótesis del capítulo I.
Han quedado evidenciadas las características de las clases representativas de
alumnos de bajo, medio y alto rendimiento académico.
El modelo de Clasificación a través de Árboles de Decisión superó en calidad a los
patrones obtenidos con el método de Generación de Clústeres.
Los Árboles de Decisión obtenidos no resultan fáciles de leer, debido a su
amplitud, por personas no especializadas. Inclusive configurando distintos niveles de poda
los árboles siguen siendo muy extensos. Esta dificultad es compensada, tanto en la
clasificación como en el agrupamiento de características, por la excelente representación
gráfica que realiza la herramienta.
EL RENDIMIENTO ACADÉMICO…225
Las técnicas de minería de datos, han permitido construir modelos predictivos, de
asociación, de segmentación, basados en datos históricos almacenados en distintas fuentes;
se considera adecuada la calidad de los modelos obtenidos.
Ha sido posible determinar los perfiles de éxito y fracaso académico de los
alumnos de S.O. de la TSAP del ISCC, lo que ha permitido definir líneas de acción
tendientes a dar un mayor soporte a los alumnos detectados con perfil de riesgo de fracaso
académico.
2. Futuras Líneas de Investigación
A lo largo del desarrollo del presente proyecto han surgido varias líneas para ser
abordadas en futuras investigaciones.
Entre algunas de ellas se pueden mencionar las siguientes:
Integrar los diferentes flujos de minería en flujo de control que permitan
automatizar los procesos descriptos en este trabajo.
Diseñar los hipercubos de datos incorporando nuevas variables
socioeconómicas.
Implementar mecanismos académicos de seguimiento de las acciones que
se realicen en base a la información suministrada por los procesos de
minería, a los efectos de realizar ajustes que se consideren pertinentes en
cuanto a la ejecución de las acciones antes mencionada.
Aplicar el modelo desarrollado en este trabajo a otras asignaturas de la
carrera TSAP del ISCC especialmente las del primer año en las que se
registran los mayores porcentaje de fracaso académico.
EL RENDIMIENTO ACADÉMICO…226
LISTA DE REFERENCIAS
Acosta, J., Macías, D., La Red Martínez, D. (2005). Ma.Di.M.A.C.- Material
Didáctico Para el e-Learning del Álgebra – Un Aporte Para la Enseñanza
a Distancia. Simposio Internacional de Sistemas de Información e
Ingeniería de Software en la Sociedad del Conocimiento (SISOFT 2005).
Libro de Actas Vol. I.
Acosta, J.C., La Red Martínez, D.L. (2012). Un Aula Virtual no convencional de
Algebra en la FaCENA – UNNE: un enfoque utilizando b-learning y
multimedia. Editorial Académica Española – LAP LAMBERT Academic
Publishing Gmbh & Co. KG Heinrich – Bocking- Str. 6-8,66121
Saarbrucken, Alemania. ISBN 978-3-659-02034-6. Alemania.
Agrawal, R. & Shafer, J.C. (1996). Parallel Mining of Association Rules. IEEE
Transactions on Knowledge and Data Engineering, 8, 6, 1 – 27.
Berson, A. & Smith, S. J. (1997). Data Warehouse, Data Mining & OLAP. U.S.A.:
Mc Graw Hill.
Bolaños Calvo, B. (2001). Las Nuevas Tecnologías y los Desafíos Teórico –
Prácticos en los Sistemas de Educación a Distancia: Caso UNED de Costa
Rica. Temática: Universidades Virtuales y Centros de Educación a
Distancia. UNED. Costa Rica.
Broad, W. J. (1992, 10 de noviembre). Clinton to promote high technology with
Gore in charge. The New York Times.
Carrasco Pradas, A., Gracia Expósito, E., de la Iglesia Villasol, C. (2005). Las TIC
en la construcción del espacio europeo de educación superior. Dos
experiencias docentes en teoría económica. Revista Iberoamericana de
Educación, 36, 1-16.
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Renartz, T., Shearer, C., Wirth,
R. (1999). CRISP-DM 1.0. Step-by-step data mining guide.
EL RENDIMIENTO ACADÉMICO…227
Chaudhuri S., & Dayal, U. (1997). An Overview of Data Warehousing and OLAP
Technology. SIGMOD '97 Proceedings of the 1997 ACM SIGMOD
international conference on Management of data, 26, 65-74.
Chaudhuri, S., & Dayal, U. (1997). Data warehousing and OLAP for decision
support. SIGMOD '97 Proceedings of the 1997 ACM SIGMOD
international conference on Management of data, 26, 507 – 508.
Cutro, A. (2008). Minería de Datos Aplicada a la Encuesta Permanente de
Hogares. Trabajo Final de Aplicación de la Licenciatura en Sistemas de
Información dirigido por el Prof. David Luis la Red Martínez. Corrientes.
Argentina.
DataPrix. (2009). Disponible en: http://www.dataprix.com/el-modelo-crisp-dm-
mineria-de-datos. Fecha de Consulta: Febrero, 2013.
European Communities. (1993). Growth, Competitiveness, Employment: The
Challenges and Ways Forward into the 21st Century. White Paper. Parts
A and B. COM (93) 700 final/ A and B, 5 December 1993. Bulletin of
the European Communities, Supplement 6/93. [EU Commission-
COMDocument].
Fayyad, U. M., Grinstein, G., Wierse, A. (2001). Information Visualization in Data
Mining and Knowledge Discovery. USA: Morgan Kaufmann Publishers.
Fayyad, U. M., Piatesky-Shapiro, G., Smyth. (1996). From Data Mining to
Knowledge Discovery in Databases, AI Magazine, 17, (3), 37 – 54.
Fayyad, U. M., Piatetskiy-Shapiro, G., Smith, P., Uthurusamy, U. (1996).
Advances in Knowledge Discovery and Data Mining. USA: AAAI Press /
MIT Press.
Ferrante, A. (2000). Educación a distancia, virtualidad y cambios en la concepción
del espacio. Argentina: El habitar urbano: pensamiento, imaginación y
límite.
EL RENDIMIENTO ACADÉMICO…228
Frawley, W.J., Piatesky-Shapiro, G., Matheus, C.J. (1992). Knowledge Discovery
in Databases: an Overview. AI Magazine, 13 (3), 57 -70.
García Martínez, R., Britos, P.V., Hossian, E., Sierra, E. (2005). Minería de datos
Basada en Sistemas Inteligentes. Argentina: Nueva Librería.
Gill, H. S. & Rao, P. C. (1996). Data Warehousing: la integración de información
para mejor toma de decisiones. Prentice Hall Hispanoamérica S. A.
Gondar, J. E. (2005). Metodología de Data Mining. Data Mining Institute, S.L.
Gore, A. (1993). Remarks on the National Information Infrastructure. U.S.A.:
National Press Club.
Gutiérrez, J. M. (2001). Data Mining, Extracción de Conocimiento en Grandes
Bases de Datos, sitio web: http://personales.unican.es/gutierjm/docs/trans_
DataMining.pdf. Universidad de Cantabria. España. Fecha de consulta:
25/04/2013.
Gutting, R. (1994). An Introduction to spatial database systems. VLDB Journal, 3,
357- 399.
Han, J., & Kamber M. (2006). Data mining: concepts and techniques. U.S.A.:
Morgan Kaufmann.
Han, J., & Kamber, M. (2001). Data Mining: Concepts and Techniques. U.S.A.:
Morgan Kaufmann.
Hand, D.J., Mannila, H., Smyth, P. (2000). Principles of Data Mining. U.S.A.: The
MIT Press.
Harinarayan V., Rajaraman, A., Ullman, J. (1996). Implementation data cubes
efficiently. ACM SIGMOD Record, 25 (2), 205 - 216.
Hernández Requena, S. (2008). El modelo constructivista con las nuevas
tecnologías: aplicado en el proceso de aprendizaje. Comunicación y
construcción del conocimiento en el nuevo espacio tecnológico. Revista de
Universidad y Sociedad del Conocimiento (RUSC). Vol. 5, N° 2. UOC.
Fecha de consulta: 28/01/2013. http://www.uoc.edu/rusc/5/2/dt/esp/
hernandez.pdf.
EL RENDIMIENTO ACADÉMICO…229
IBM Academic Initiative, Iniciativa Académica de IBM para las Universidades del
Mundo, sitioweb: http://www.ibm.com/jct01005c/university/scholars/
academicinitiative/. Fecha de consulta 12/10/09.
IBM Corp. (2004, January 05). Data Warehouse Edition the Business Intelligence
Platform. Retrieved June 12 2008, from http://www.evaltech.com
/admin/upload/DW_with_DB2.pdf
IBM Corp. (2005). IBM DB2 Universal Database Data Warehouse Edition Getting
Started Version 8.2.1, GC18-7459-02.
IBM Software Group. (2003). Enterprise Data Warehousing whit DB2: The 10
Terabyte TPC-H Benchmark. IBM Press. U.S.A.
IEEE. (2012). Learning Technology Standards Committe. Retrived Jan 6, 2012,
from http://www.ieeeltsc.org:8080/Plone.
Inmon, W. H. (1992). Data Warehouse Performance. U.S.A.: John Wiley & Sons.
Inmon, W. H. (1996). Building the Data Warehouse. U.S.A.: John Wiley & Sons.
Joyanes Aguilar, L. (1997). Cibersociedad. España: Mc Graw Hill.
Kimball, R. (1996). The Data Warehouse Toolkit. U.S.A.: John Wiley & Sons.
Kimball, R. (2005). Is ER Modeling Hazardous to DSS, sitio web:
http://www.kimballgroup.com/1995/10/01/is-er-modeling-hazardous-to-
dss/ Fecha de Consulta: 28/02/2013.
Kubski, M. (2005). Aplicación Orientada al Descubrimiento de Conocimiento en
Bases de Datos. Trabajo Final de Aplicación de la Licenciatura en Sistemas
de Información dirigido por el Prof. David Luis la Red Martínez.
Corrientes. Argentina.
Kubski, M. (2005). Minería de Datos con Intelligent Miner. Universidad Nacional
del Nordeste, Facultad de Ciencias Exactas, Naturales y Agrimensura,
2005.
EL RENDIMIENTO ACADÉMICO…230
La Red Martínez, D. (2009). Sistemas Operativos. sitio web: http:// exa.unne.
edu.ar/depar/areas/informatica/SistemasOperativos/SOF.htm. Fecha de
consulta: 16/02/13.
La Red Martínez, D. L. (2003). Memoria Final de la Especialización en Docencia
Universitaria. Corrientes. Argentina.
La Red Martínez, D.L., Acosta, J., Agostini, F., Uribe, V., Rambo, A. (2011). La
importancia otorgada al estudio y su relación con el rendimiento
académico. Revista Documentación. Año IV, 24, 54-62.
La Red Martínez, D.L., Acosta, J.C. (2012). B-Learning: Una propuesta de
Arquitectura Segura Basada en Patrones. Revista Internacional PEI: Por la
Psicología y Educación Integral, Año 2, 3, 58-95.
Luan, J. (2002). Aplicaciones de minería de datos en educación superior. U.S.A.:
IBM Software Business Analitycs.
Matignon, R. (2009). Data Mining Using SAS Enterprise Miner. U.S.A.: Wiley.
Matthias Jarke, Y.V. (1997). Data Warehouse Quality: A review of the DWQ
Project, in Conference of Information Quality. U.S.A.: Massachusetts
Institute of Technology, Cambridge.
McLuhan, M. & Powers, B. R. (1964). The Global Village. (4th
ed.). Canadá:
Reprint by Gingko (2001).
Méndez, A., & Mártire, A. (2004). Fundamentos de Data Warehouse. Centro de
Actualización Permanente en Ingeniería del Software, Escuela de
Postgrado, Instituto Tecnológico, Buenos Aires, Argentina.
Merceron, A., & Yacef, K. (2004). Mining Student Data Captured from a Web-
Based Tutoring Tool: Initial Exploration and Results. Journal of Interactive
Learning Research (JILR), 15(4), 319-346.
Microsoft Corp. (2000). SQL- Server Books on Line. U.S.A.: Microsoft
Corporation.
EL RENDIMIENTO ACADÉMICO…231
Molina Félix, L. C. (2001). Torturando a los Datos Hasta que Confiesen.
Recuperado el 22 de febrero 2013, de http://www.uoc.edu/web/esp/art/uoc
/molina1102/molina1102.pdf.
Montero Rojas, E., Villalobos Palma, J., Valverde Bermúdez, A. (2007). Factores
Institucionales, Pedagógicos, Psicosociales y Socio demográficos
Asociados al Rendimiento Académico en la Universidad de Costa Rica: Un
Análisis Multinivel. Revista Electrónica de Investigación y Evaluación
Educativa (RELIEVE). Universidad de Costa Rica, 13 (2), 215-234.
Negroponte, N. (1995). El Mundo Digital. España: Ediciones B S.A.
Peiró, J. M. (2001). Las competencias en la sociedad de la información: nuevos
modelos formativos. España: Centro Virtual Cervantes.
Peterson T., & Pinkelman, J. (1999). Microsoft OLAP unleashed. U.S.A.: SAMS.
Poe, V. (1996). Building a Data Warehouse for Decision Support. New Jersey:
Prentice Hall.
Quiroga, E. (2008). Minería de datos en educación superior aplicada a un modelo
de alerta académica, sitio web: http://www.buenastareas.com/ensayos/
Minería-De-Datos-En-Educación-Superior/1422261.html. Fecha de
consulta: 17/01/ 2011.
Sáez López, J. M. (2010). Utilización de las TIC en el proceso de enseñanza
aprendizaje, valorando la incidencia real de las tecnologías en la práctica
docente. Revista Docencia e Investigación. Universidad de Castilla - La
Mancha, 20, 183-204.
Sancho Gil, J. M. (2004). Las Observaciones de la Sociedad de la Información:
Evaluación o Política de promoción de las TIC en Educación. Revista
Iberoamericana de Educación, 36, 37-68.
SAS Institute, Disponible en: http://www.sas.com/technologies/analytics/
datamining/miner/semma.html: Fecha de Consulta: 20/06/2009.
Silvio, J. F. (1998). La virtualización de la Educación Superior: alcances,
posibilidades y limitaciones. Educación Superior y Sociedad, 9 (1), 27-50.
EL RENDIMIENTO ACADÉMICO…232
Simon, A. (1997). Data Warehouse, Data Mining and OLAP. U.S.A.: John Wiley
& Sons.
Taquini, A. C. (h.). (2001). Educación Superior y Ciberespacio. Jornada sobre
nuevos paradigmas de la transformación cultural, científica y tecnológica
de la Universidad Argentina. Academia Nacional de Educación. Argentina.
Telefónica de Argentina S.A. (2004). La Sociedad de la Información en la
Argentina. Presente y Perspectivas 2004-2006. Argentina.
Tiffin, J. & Rajasingham, L. (1997). En busca de la clase virtual. España: Ed.
Paidós.
Tournon, J. (1984). Factores del rendimiento académico en la universidad.
España: Ediciones Universidad de Navarra, S.A.
Trujillo, J. C., Palomar M., Gómez, J. (2000). Applying Object-Oriented
Conceptual Modeling Techniques to the Design of Multidimensional
Databases and OLAP Applications. First International Conference On
Web-Age Information Management (WAIM’00). Lecture Notes in Computer
Science 1846:83-94.
Trujillo, J.C., Mazón, N. J., Pardillo, J. (2011). Diseño y explotación de almacenes
de datos: Conceptos básicos de modelado multidimensional. España:
Editorial Club Universitario.
Vassiliadis, P. (2000). Data Warehouse Modeling and Quality Issues. PhD Thesis.
Knowledge and Database Systems Laboratory, Dept. of Electrical and
Computer Engineering, National Technical University of Athens. Greece.
Vassiliadis, P., Yannis, C., Matthias Jarke, V. (2001). Data Warehouse Process
Management. Information Systems, 26 (3), 205-236.
Veitch, W. (2004). Identifying Characteristics of High School Dropouts: Data
Mining with a Decision Tree Model. Annual Meeting of American
Educational Research Association (62nd
), April 10 - 14 San Diego
California, U.S.A.
Wallace, L. & Young, J. (2010). Implementing Blended Learning: Policy
Implications for Universities, Online Journal of Distance Learning
EL RENDIMIENTO ACADÉMICO…233
Administration, Volume XIII, Number IV, winter 2010 University of west
Georgia, Distance Education Center.
White, C. J. (2001). IBM Enterprise Analytics for the Intelligente-Business.
U.S.A.: IBM Press.
Widom J. (1995). Research Problems in data warehousing. Conf. Information and
Knowledge Management, Baltimore. U.S.A.
Wolff, G. C. (2002). Modelamiento multidimensional. Disponible en: http:// www.
inf. udec.cl/revista/edicion4/cwolff.htm. Fecha de consulta: Febrero 2013.