Analisis Factorial CENEVAL

104
Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 6

Transcript of Analisis Factorial CENEVAL

Page 1: Analisis Factorial CENEVAL

Análisis factorial: una técnica para evaluar

la dimensionalidad de las pruebas

6

Page 2: Analisis Factorial CENEVAL
Page 3: Analisis Factorial CENEVAL

Análisis factorial:una técnica para evaluar

la dimensionalidad de las pruebas

Cuaderno técnico 6

Page 4: Analisis Factorial CENEVAL

Análisis factorial:una técnica para evaluar la dimensionalidad de las pruebasCuaderno técnico 6

Salvador Zamora MuñozLucía Monroy Cazorla César Chávez Álvarez

Revisión técnica: Antonio Saade Hazin

Análisis factorial:una técnica para evaluar la dimensionalidad de las pruebasCuaderno técnico 6

D.R. © 2009, Centro Nacional de Evaluaciónpara la Educación Superior, A.C. (Ceneval)Av. Camino al Desierto de los Leones 19,Col. San Ángel, Deleg. Álvaro Obregón,C.P. 01000, México, D.F.www.ceneval.edu.mx

Diseño: Mónica Cortés GenisFormación: Alvaro Edel Reynoso Castañeda

Abril de 2009

Impreso en México • Printed in México

Page 5: Analisis Factorial CENEVAL

Directorio

Dirección GeneralRafael Vidal Uribe

Dirección General Adjunta de los EGELJorge Hernández Uralde

Dirección General Adjunta de los EXANIJosé O. Medel Bello

Dirección General Adjunta de Programas EspecialesRocío Llarena de Thierry

Dirección General Adjunta Técnica y de InvestigaciónLucía Monroy Cazorla

Dirección General Adjunta de OperaciónFrancisco Javier Apreza García Méndez

Dirección General Adjunta de DifusiónJavier Díaz de la Serna Braojos

Dirección General Adjunta de AdministraciónFrancisco Javier Anaya Torres

Dirección de Procesos Ópticos y Calificación

María del Socorro Martínez de Luna

Dirección de Tecnologías de la Información y las Comunicaciones

Francisco Manuel Otero Flores

Page 6: Analisis Factorial CENEVAL
Page 7: Analisis Factorial CENEVAL

Índice

Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Capítulo IAntecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Capítulo II¿Qué es el análisis factorial? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

El modelo de factores 17Supuestos del modelo 18Métodos de extracción de factores 19Selección del número de factores que serán extraídos 20

Criterio a priori (tipos de análisis factorial) 20Criterio de la raíz latente (eigenvalor >1) 21Criterio del gráfico de codo (contraste de caída) 22Criterio del porcentaje de varianza explicada 23Interpretación de la matriz de cargas factoriales 23Un concepto muy controvertido: rotación de factores 26Rotaciones ortogonales 26Rotaciones oblicuas 27Valoración de las comunalidades 28Puntajes factoriales 25

Bondad de ajuste del modelo de factores 28Análisis factorial con variables discretas 29

Capítulo IIIFundamentos técnicos del análisis factorial . . . . . . . . . . . . . . . . . . . 31

Aspectos formales 31Soluciones múltiples al modelo 34Número máximo de factores 35Métodos de estimación 38

Page 8: Analisis Factorial CENEVAL

Máxima verosimilitud 39Mínimos cuadrados 40Mínimos cuadrados generalizados 40Mínimos cuadrados ponderados 40Método de rotación de ejes principales 41

Prueba sobre el número de factores en el modelo 41Puntajes factoriales 42

Método de Bartlett o de mínimos cuadrados ponderados 42Método de Thompson o de regresión 43

Capítulo IVAplicación con variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . 45

Descripción general del EXANI-I 45Definición del ejemplo 46Análisis en SPSS 48Análisis en R 63

Capítulo VAplicación con variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 69

Objetivo 69Descripción de las variables 69Análisis en R 86Un comentario final 90

Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

Anexo 1Códigos en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

Page 9: Analisis Factorial CENEVAL

Índice de tablas

Tabla 1 . Artículos publicados sobre análisis factorial en diferentes disciplinas, 1904-2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Tabla 2 . Matriz de cargas factoriales para un caso hipotético . . . . . . . . . . . . . . . . 24

Tabla 3 . Directrices para la identificación de cargas factoriales significativas, basadas en el tamaño de la muestra . . . . . . . . . . . . . . . . . 25

Tabla 4 . Medidas de correlación entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Tabla 5 . Dominios evaluados por el EXANI-I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Tabla 6 . Matriz de correlaciones entre las variables que evalúa el EXANI-I . . . . . . . 51

Tabla 7 . Pruebas KMO y de efericidad de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . 53

Tabla 8 . Comunalidades del modelo unifactorial del EXANI-I . . . . . . . . . . . . . . . . . 57

Tabla 9 . Total de la varianza explicada por el modelo unifactorial del EXANI-I . . . . . 57

Tabla 10 . Cargas factoriales de las variables manifiestas . . . . . . . . . . . . . . . . . . . . . 58

Tabla 11 . Matriz de correlaciones reproducidas por el modelo . . . . . . . . . . . . . . . . 60

Tabla 12 . Matriz de correlaciones con niveles de significancia . . . . . . . . . . . . . . . . . 62

Page 10: Analisis Factorial CENEVAL

Índice de figuras

Figura 1 . Crecimiento en las publicaciones sobre análisis factorial . . . . . . . . . . . . . 13

Figura 2 . Representación del modelo unifactorial . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Figura 3 . Representación del modelo multifactorial . . . . . . . . . . . . . . . . . . . . . . . . 16

Figura 4 . Explicación de la ecuación del modelo de factores . . . . . . . . . . . . . . . . . . 18

Figura 5 . Gráfico de codo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Figura 6 . Modelo unifactorial del EXANI-I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Page 11: Analisis Factorial CENEVAL

9Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Prefacio

El Centro Nacional de Evaluación para la Educación Superior (Ceneval) es una institución de carácter eminentemente técnico. A lo largo de tres lustros

su actividad esencial ha sido promover la calidad de la educación mediante eva-luaciones válidas, confiables y pertinentes de los aprendizajes.

Primordialmente, evalúa los conocimientos y habilidades adquiridos por los individuos en los procesos de enseñanza-aprendizaje, formales o no forma-les, de los sistemas educativos. Así contribuye a la toma de decisiones funda-mentadas. De hecho, con sus servicios de evaluación atiende instituciones de educación media superior y superior, autoridades educativas, organizaciones profesionales y otras instancias públicas y privadas y, desde luego, al destinatario final –y el más importante– de sus pruebas: el propio sustentante.

Con la serie Cuadernos técnicos el Centro promueve también el uso de herra-mientas de análisis en círculos cada vez más amplios. El propósito de estos títulos es contribuir a elevar la calidad de la educación mexicana y fomentar una auténtica cultura de la evaluación.

La inteligencia, el nivel de ansiedad o el grado de satisfacción no pueden medirse directamente. Los especialistas las denominan variables latentes o constructos; y para estimarlas lo hacen mediante variables manifiestas, como podrían ser la respuesta a un reactivo o el número de aciertos en un examen.

La teoría que sustenta el empleo del análisis factorial –tema de estudio del presente texto– asume que la variable latente es continua: los individuos pueden ordenarse de mayor a menor nivel del atributo bajo estudio. El propósito es analizar la estructura de correlación entre un grupo de variables medidas, asu-miendo que la asociación entre ellas puede ser explicada por una o más varia-bles latentes, que en el caso del análisis factorial se les reconoce como factores.

Page 12: Analisis Factorial CENEVAL
Page 13: Analisis Factorial CENEVAL

11Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

El primer planteamiento del análisis factorial se remonta a principios del siglo xx, cuando Charles Spearman (1904) hizo un estudio sobre la medición de

la inteligencia. Conjeturó que si dos habilidades están correlacionadas, entonces cada una está compuesta por dos factores: uno que les es común, responsable de la correlación, y otro que es específico pues determina la diferencia entre ambas.

En los primeros años de esta herramienta metodológica el enfoque predo-minante era asumir a priori que en los datos subyacía una estructura unifactorial. Thurstone (1935) propuso un cambio en la conceptualización del análisis fac-torial sugiriendo que los datos analizados podrían explicarse por más de una variable latente (factor); que lo importante era determinar el número de factores que podrían ser identificados. El estudio de inteligencia Thurstone (1938) pro-puso que la inteligencia puede ser explicada por siete factores.

En 1936 la Sociedad de Psicometría fundó una revista de investigación es-pecializada: Psychometrika, en cuyas páginas se publicaron entre finales de los años treinta y principios de los cincuenta numerosos artículos sobre cuestiones relacionadas con el desarrollo del análisis factorial, tales como la estimación de las comunalidades, la extracción de factores comunes, la determinación del número de factores, la rotación de los factores, la estimación de los puntajes factoriales, los métodos para acelerar la velocidad de los cálculos y la indeter-minación de los modelos.

En la actualidad, el uso del análisis factorial como herramienta metodológi-ca se ha extendido a diversos ámbitos del quehacer científico: la psicología (en estudios de habilidades, motivación, aprendizaje, etcétera); la pedagogía (en es-tudios relacionados con el aprovechamiento escolar, la tipología de profesores, etcétera); la sociología (en dimensiones de grupo, actitudes políticas, afinidad política, etcétera), y en muchas otras disciplinas (ecología, economía, medicina, metrología...).

Capítulo IAntecedentes históricos

Page 14: Analisis Factorial CENEVAL

12 Cuaderno técnico 6

Como una muestra del uso de esta técnica estadística en los años recientes, Kaplunovsky (2006) presentó los resultados de una exploración realizada en in-ternet en mayo de 2004. Detectó 3,460 artículos relacionados con este método cuantitativo y los clasificó de acuerdo con los campos del conocimiento en que se habían generado los datos, los cuales se muestran en la tabla 1.

En la figura 1 se muestra el incremento que han tenido, en los últimos 15 años, los estudios que utilizan el análisis factorial en la información.

Tabla 1 . Artículos publicados sobre análisis factorial en diferentes disciplinas, 1904-2004

Área1904-1980

1981-1985

1986-1990

1991-1995

1995-2000

2000-2004

Total

Biología QuímicaCromatografíaEcologíaEconomíaAlimentaciónGeriatríaProcesamiento de imágenesIndustriaResonancia magnéticaMedicinaMetodologíaInvestigación de operacionesFisiologíaPsiquiatríaPsicologíaEspectroscopia

166280

88138

855088

1477849

418391

95203365

1280326

1812

42

1418241

3010

120159311

1714

74

1245701

3225

126148627

20361611

95

1022

23

6431

13839

15940

23532215

429

2766

6749

93961

21950

41771545262131512813

116151

412999

34490

47882461201725383825

109125

4251

137379108

Page 15: Analisis Factorial CENEVAL

13Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Figura 1 . Crecimiento en las publicaciones sobre análisis factorial

Publicaciones Publicacionessin Psychology

Page 16: Analisis Factorial CENEVAL
Page 17: Analisis Factorial CENEVAL

15Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Capítulo II¿Qué es el análisis factorial?

El análisis factorial es una técnica estadística multivariada que se incorpora a la metodología cuantitativa que involucra variables latentes.1 Estas variables

no observables, denominadas frecuentemente constructos, son variables que no pueden medirse de manera directa: se estiman a través de variables manifiestas (observadas). Ejemplos de variables latentes podrían ser la inteligencia, el nivel de ansiedad, el nivel socioeconómico, el capital cultural, el grado de satisfacción con un producto o el nivel de razonamiento verbal. Variables observadas po-drían ser la respuesta a un reactivo de un examen, el número de aciertos en un examen, la intensidad con que se lanzó una pelota, el número de computadoras en una vivienda, etcétera.

En el análisis factorial se asume que la variable latente es continua: los indi-viduos pueden ordenarse de mayor a menor nivel del atributo bajo estudio. El objetivo primordial de esta herramienta es estudiar la estructura de correlación entre un grupo de variables medidas, asumiendo que la asociación entre las variables puede ser explicada por una o más variables latentes, que en el caso del análisis factorial se les reconoce como factores. Dicho de otra manera, la correlación entre el grupo de variables se explica por la presencia de los factores subyacentes a ellas.

En el caso de que esta estructura de correlación pueda explicarse a través de un solo factor, estaremos ante un modelo unifactorial; por el contrario, si necesitamos más de un factor para explicar estas correlaciones, utilizaremos un modelo multifactorial. En este último caso, se espera que las variables que componen cada uno de estos factores estén fuertemente correlacionadas, y con correlaciones débiles con las variables que componen el resto de los factores.

Cuando se representa gráficamente un modelo latente, como el análisis fac-torial, es común representar los factores con un óvalo o círculo, y las variables manifiestas con un cuadrado o rectángulo. Las flechas van del factor a las varia-1 Véase el Cuaderno técnico sobre análisis de clases latentes para una definición más extensa de

este tipo de variables.

Page 18: Analisis Factorial CENEVAL

16 Cuaderno técnico 6

bles, indicando que el factor es una variable explicativa y las variables manifies-tas son variables dependientes. En las figuras 2 y 3 se muestra la representación gráfica de un modelo unifactorial y otro multifactorial, respectivamente.

Figura 2 . Representación del modelo unifactorial

Figura 3 . Representación del modelo multifactorial

V1

V2

V3

V4

V5

V6

V7

V8

V9

V10

Habilidad matemática

V1

V2

V3

V4

V5

V6

V7

V8

V9

V10

Seriesnuméricas

Resolución problemas

Page 19: Analisis Factorial CENEVAL

17Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Los factores f1, f2,...,fk, juegan el papel de variables explicativas, y cada una de las X’s el de variables de respuesta; las λ’s son los coeficientes asociados a cada factor, y reciben el nombre de cargas factoriales; por último, los errores del mode-lo son las u’s. En este sentido, el modelo está determinando por las variables y no por los individuos.

Las cargas factoriales indican la correlación entre cada variable y el factor correspondiente; así, una variable con mayor carga factorial será más represen-tativa del factor. De este modo, las cargas factoriales sirven para interpretar la función que cumple cada variable para definir cada uno de los factores. En la figura 4 se identifican las variables que intervienen en el modelo factorial.

El modelo de factores

En este apartado se explicarán los aspectos básicos de la teoría que sustenta el análisis factorial y se pospone su explicación formal, en términos matemáticos, hasta el capítulo 3: Fundamentos técnicos del análisis factorial.

Supongamos que tenemos un conjunto de variables observadas X1, X2,..., Xp y se asume que en este conjunto subyacen k factores (el número de factores debe ser estrictamente menor al número de variables observadas). De acuerdo con lo que hemos planteado en secciones anteriores, los factores son variables latentes que explican la asociación entre las variables manifiestas (en este caso las X’s); entonces, podemos pensar el modelo de factores de manera similar al modelo de regresión lineal, en el que se exprese esta relación entre factores y variables, de la siguiente forma:

Page 20: Analisis Factorial CENEVAL

18 Cuaderno técnico 6

Supuestos del modelo

En el modelo de factores, a f1, f2,...,fk se les denomina factores comunes y a u1, u2,...,up factores específicos. Los supuestos básicos sobre los que se construye el modelo son los siguientes:1. Los factores comunes fj j=1,2,...,k no están correlacionados y tienen media

cero y varianza uno.2. Los factores específicos ui no están correlacionados y tienen media cero y

varianza Ψi i=1,2,...,p.3. Los factores comunes no están correlacionados con los factores específicos.

Bajo estos supuestos es posible descomponer la varianza de cada una de las variables observables del modelo o variables indicadoras (Xi ), en dos compo-nentes no correlacionados. Por un lado la varianza común, conocida como la

Figura 4 . Explicación de la ecuación del modelo de factores

Variable observada

Cargas factoriales

Factores

Error

Page 21: Analisis Factorial CENEVAL

19Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

comunalidad de la variable y que representa la varianza de la variable Xi que es explicada por los factores comunes y, por el otro, la varianza específica conocida como especificidad y que es la varianza no explicada por estos factores comunes. Los factores comunes y sus características asociadas (comunalidades, especifici-dades, número, etcétera) representan el objeto de interés en el análisis factorial.

Métodos de extracción de factores

Todas las técnicas de estimación del modelo factorial parten del supuesto de que los factores iniciales que serán extraídos de la matriz de correlaciones de las variables indicadoras no estarán correlacionados. El objetivo de los métodos de extracción de factores es minimizar la distancia entre la matriz de correlaciones observada y la matriz de correlaciones que se desprende del modelo (matriz que especifica el modelo de factores). La diferencia entre los métodos radica en la definición de “distancia” que utilizan para llegar a la solución. El método de mí-nimos cuadrados, por ejemplo, se ocupa de minimizar la suma de cuadrados de las diferencias entre estas dos matrices, por lo que los valores de los parámetros que logren este objetivo serán los estimadores finales.

Uno de los métodos más comunes para la extracción de factores es el cono-cido como Factorización de ejes principales (Principal axis factoting). Se trata de un mé-todo iterativo para estimar las comunalidades y subsecuentemente extraer los factores. Este método es igual al que se usa en la técnica multivariada conocida como Análisis de componentes principales, salvo que no se realiza sobre la matriz original de correlación (véanse detalles en el capítulo 3). Los factores se extraen de manera sucesiva, por lo que la solución final consiste en factores ortogona-les. El primer factor se obtiene de forma que explique la mayor cantidad de la varianza común; el segundo se extrae de una matriz de correlación residual que se obtiene una vez que se toma en cuenta la influencia del primer factor. Este

Page 22: Analisis Factorial CENEVAL

20 Cuaderno técnico 6

proceso continúa hasta que se ha extraído un número suficiente de factores. En el siguiente apartado revisaremos algunos criterios para determinar el número de factores con que se debería detener este proceso.

Selección del número de factores por ser extraídos

Uno de los objetivos del análisis factorial es la reducción de los datos originales a un número menor de variables, pero podría ocurrir que –dado un conjunto de datos– se tengan soluciones muy diferentes, dependiendo del número de facto-res considerado. Por tal motivo son varios los criterios que pueden servirnos de guía para determinar cuántos factores extraer.

En el capítulo 3 determinaremos el número máximo de factores que se pue-den extraer, dependiendo del número de variables indicadoras que se incluyan en el modelo; y a continuación explicaremos la lógica de algunos criterios uti-lizados para la selección del número de factores por extraer en el análisis; co-menzaremos con los criterios teóricos que definen el análisis factorial confirmatorio y con algunos criterios estadísticos que nos ayudarán a seleccionar el número exacto de factores por extraer en el marco del análisis factorial exploratorio.

Criterio a priori (tipos de análisis factorial)En muchas ocasiones no se tiene certeza sobre el número de factores k que subyacen en la estructura de datos; por ende, se puede realizar la extracción de factores de manera secuencial, se inicia con k=1 y se llega hasta un número de factores que permita lograr un buen ajuste del modelo a los datos. Este proce-dimiento de incorporar factores hasta lograr un buen ajuste da lugar al llamado análisis factorial exploratorio, en el que el investigador no conoce de antemano el número de factores que subyacen en las variables observadas. Una desventaja de este tipo de análisis: puede ocurrir que los factores encontrados no tengan

Page 23: Analisis Factorial CENEVAL

21Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

ninguna interpretación para el investigador. Por el contrario, cuando en una in-vestigación se determina de forma precisa el número de factores, se está ante un análisis factorial confirmatorio. La forma usual de proponer este número de factores es en atención a alguna teoría propuesta en el área de aplicación. En este caso, los objetivos de la investigación se centran en la confirmación del número de factores y, consecuentemente, en la validación de esta teoría mediante la eviden-cia empírica proporcionada por los datos. Si el ajuste estadístico de los datos al modelo teórico es satisfactorio, se podrá concluir que el modelo es adecuado. Entonces, cuando el análisis factorial es de tipo exploratorio, se tiene la nece-sidad de decidir cuántos factores se deben retener en el análisis. En seguida se enuncian algunos criterios establecidos para decidir este número.

Criterio de la raíz latente (eigenvalor >1)La lógica que sigue este criterio se basa en la idea de que cada uno de los facto-res extraídos debería justificar, al menos, la varianza de una variable individual (de lo contrario se incumpliría con el objetivo de reducir la dimensión de los datos originales).

El análisis factorial –al igual que otras técnicas multivariadas– utiliza eigen-valores (raíces latentes) y sus correspondientes eigenvectores para consolidar la varianza en una matriz. En el contexto del análisis factorial, los eigenvalores representan la cantidad de varianza de todas las variables indicadoras que puede ser explicada por un factor determinado. Cada una de las variables contribuye con un valor de 1 en el eigenvalor (varianza) total.2 Por lo tanto, de acuerdo con este criterio, deberían elegirse los factores con eigenvalores mayores a 1 para garantizar que explican la varianza de al menos una variable.

2 Esto se debe a que el análisis se realiza con variables estandarizadas, por lo que la varianza de cada una de ellas es igual a uno.

Page 24: Analisis Factorial CENEVAL

22 Cuaderno técnico 6

Criterio del gráfico de codo (contraste de caída)Este criterio consiste en analizar el comportamiento de los eigenvalores aso-ciados a los factores extraídos, para determinar un punto de corte entre la pen-diente pronunciada de los eigenvalores altos y la pendiente (más bien plana) de los eigenvalores bajos.

La siguiente figura representa los primeros 11 factores extraídos en el análi-sis factorial de un conjunto de reactivos que componen el área de un examen.

Del lado izquierdo de la gráfica un punto sobresale de los demás, haciendo que la pendiente de la línea que une todos los puntos cambie drásticamente en el lugar correspondiente al segundo factor. En este sitio, todo el conjunto de

Figura 5 . Gráfico de codo

Gráfico de codo (scree - plot)

Criterio de contraste de caídaEige

nval

or

3 .5

3 .0

2 .5

2 .0

1 .5

1 .0

0 .5

1 2 3 4 5 6 7 8 9 10 11

Page 25: Analisis Factorial CENEVAL

23Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

factores se divide en dos grupos, el primero compuesto solamente por el primer factor, que explica una cantidad mayor de varianza que cualquiera de los diez factores restantes pertenecientes al segundo grupo y para los que la cantidad de varianza explicada parece haberse estabilizado. Por lo tanto, con este criterio deberíamos incluir sólo el primer factor.

Criterio del porcentaje de varianza explicadaEste criterio consiste en analizar el porcentaje acumulado de la varianza total extraída. Esto es, se busca asegurar que el número de factores extraídos alcance a explicar un porcentaje determinado de la varianza total de los datos. Aunque no se ha determinado un porcentaje preciso de varianza explicada que sirva como umbral para concluir con la extracción de factores, algunos autores su-gieren que en el caso de aplicaciones concernientes a las Ciencias Naturales se puede detener el proceso cuando se alcance 95% de la varianza o cuando la inclusión de un factor adicional contribuya con menos de 5% a la varianza ex-plicada acumulada. Para el caso de las Ciencias Sociales los criterios propuestos son más laxos. Se habla de continuar la extracción de factores hasta lograr 60% de la varianza total (Hair et al., 1998/1999).

Interpretación de la matriz de cargas factoriales

Una vez que se han estimado las cargas factoriales es importante establecer criterios que permitan interpretar los resultados obtenidos. Esta interpretación hará posible establecer una conexión entre los resultados vertidos por el análisis factorial y los constructos teóricos relacionados con los datos. En este sentido, la extracción de un determinado número de factores por los criterios estadís-ticos ya mencionados, carecerá de sentido si no podemos darle un significado lógico a cada uno de ellos, que además esté justificado teóricamente.

Page 26: Analisis Factorial CENEVAL

24 Cuaderno técnico 6

Las cargas factoriales indican la correlación entre cada variable y el factor correspondiente, de ahí que una variable con mayor carga factorial será más representativa del factor. Tomando en cuenta esto, un análisis de la matriz de cargas factoriales puede ayudarnos a identificar cómo se agrupan las variables manifiestas para conformar cada uno de los factores resultantes del modelo, e incluso a etiquetarlos. Una vez que sabemos cuáles de las variables manifiestas “cargan” en el factor 1, por ejemplo, podemos deducir qué tipo de constructo teórico está representado por dicho factor.

En la siguiente tabla se muestra la matriz de cargas factoriales para un ejem-plo hipotético en el que se realizó un análisis factorial con las respuestas a 10 reactivos de opción múltiple de una prueba. Los primeros 5 (RM1 a RM5) son reactivos del área de Razonamiento matemático, mientras que los últimos cinco (RV1 a RV5) corresponden al área de Razonamiento verbal.

De acuerdo con estos resultados, podemos identificar al factor 1 con una influencia común en las primeras cinco variables y al factor 2 con una influen-cia común en las últimas cinco. De esta manera podríamos dividir el total de

ÁreaVariable

(Reactivo)Factor

Razonamiento verbal

Razonamiento matemático

RM1RM2 RM3 RM4 RM5

1 2

0 .60 .50 .60 .60 .5

0 .10 .10 .20 .10 .1

0 .10 .20 .10 .20 .2

0 .60 .60 .60 .60 .7

RV1RV2 RV3 RV4 RV5

Tabla 2 . Matriz de cargas factoriales para un caso hipotético

Page 27: Analisis Factorial CENEVAL

25Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Carga factorial

(a) La significancia se basa en un nivel de significación de 0 .05, una potencia de 80% y los errores estándar supuestamente dos veces mayores que los coeficientes convencionales de correlación

Tamaño muestral necesario para la significancia- (a)

0 .300 .350 .400 .450 .500 .550 .600 .650 .700 .75

35225020015012010085706050

Tabla 3 . Directrices para la identificación de cargas factoriales significativas, basadas en el tamaño de la muestra

variables (reactivos) en dos grupos, que no se traslapan, y que son indicativos de dos variables latentes diferentes: Razonamiento matemático (factor 1) y Ra-zonamiento verbal (factor 2).

¿Cómo podemos determinar si una carga factorial es lo suficientemente “grande” para concluir que la correlación entre la variable y el factor es signifi-cativa? Hair et al. (1998/1999) proponen ciertas directrices para determinar si una carga factorial es o no significativa, dependiendo del tamaño de la muestra utilizada para el análisis (esta tabla se basa en estudios de potencia estadística):

En el ejemplo anterior la interpretación fue muy sencilla, porque cada va-riable resultó estadisticamente significativa para un solo factor. Sin embargo, este no es el caso frecuente. A continuación se describe un procedimiento que puede ayudar a clarificar la interpretación de los resultados.

Page 28: Analisis Factorial CENEVAL

26 Cuaderno técnico 6

Un concepto muy controversial: rotación de factores

Cuando el modelo en cuestión está determinado por un solo factor, su solución es única; sin embargo, las soluciones de los modelos multifactoriales, no son siempre únicas, ya que cuando existen dos o más factores significativos, las dis-tintas combinaciones posibles pueden interpretarse de distintas maneras (véan-se “soluciones múltiples al modelo” en el capítulo 3). Este aspecto ha suscitado críticas sobre el análisis factorial, ya que se piensa que depende de cuestiones subjetivas, que pudieran encaminar las soluciones a resultados preconcebidos por el investigador. Estas críticas son erróneas en dos aspectos: primero, el in-vestigador no obtiene la solución que él desea; segundo, es más adecuado decir que la misma solución puede expresarse de diferentes maneras; de hecho, varias características de las soluciones –por ejemplo las comunalidades– permanecen inalteradas. Rotación –nombre que se le da al proceso de cambiar de una solución a otra– proviene de la representación geométrica de este procedimiento.

La razón principal para rotar una solución es clarificar la estructura de las cargas factoriales. Los factores deben tener un significado claro para el inves-tigador, a partir del contexto de aplicación. Si la estructura que muestran las cargas factoriales de la solución inicial son confusas o difíciles de interpretar, una rotación puede proporcionar una estructura más fácil de interpretar.

Rotaciones ortogonalesUno de los patrones de cargas factoriales más usuales y de hecho más deseables es la llamada estructura simple de cargas factoriales. Se dice que las cargas factoriales presentan una estructura simple si cada variable tiene una gran carga en un solo factor, con cargas cercanas a cero en el resto de los factores. Una de las rotaciones ortogonales (los nuevos ejes después de la rotación siguen siendo ortogonales) que procura generar una estructura de cargas simple es la rotación

Page 29: Analisis Factorial CENEVAL

27Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

varimax, implementada en la mayoría de los paquetes estadísticos. No hay ga-rantía de que una rotación produzca necesariamente una estructura de cargas simple, pero, de hacerlo, puede ayudar a una interpretación mucho más fácil de los factores. Existen otras rotaciones ortogonales (como quartimax y equimax), pero ninguna tiene la popularidad de varimax.

Rotaciones oblicuasContrario a las rotaciones ortogonales, las rotaciones oblicuas permiten relajar la restricción de ortogonalidad con el fin de ganar simplicidad en la interpre-tación de los factores. Con este método los factores resultan correlacionados, aunque generalmente esta correlación es pequeña. El uso de rotaciones oblicuas se justifica porque en muchos contextos es lógico suponer que los factores es-tán correlacionados. Pese a que pueden ser de utilidad en algunas situaciones, estas rotaciones raramente se usan, a diferencia de las ortogonales. Entre las rotaciones oblicuas, promax es conceptualmente simple; sin embargo, la más popular es oblimin.

Valoración de las comunalidades

Además del análisis de la matriz de cargas factoriales, es importante verificar si cada una de las variables incluidas en el análisis son explicadas aceptablemente por el modelo. Esto puede lograrse analizando la estimación final de las comu-nalidades. Puesto que la comunalidad representa la proporción de la varianza de la variable indicadora que es explicada por los factores comunes del modelo, Hair et al. (1998/1999) proponen que las variables con una comunalidad menor a 0.5 carecen de una explicación suficiente y no deberían ser consideradas en la interpreta-ción final del análisis.

Page 30: Analisis Factorial CENEVAL

28 Cuaderno técnico 6

Puntajes factoriales

Una vez realizado el análisis factorial, quizá con alguna rotación de los factores, el paso final es asignar los puntajes factoriales (scores) a cada individuo en la muestra. Esta construcción de puntajes genera una nueva variable por cada factor en el modelo. Usualmente estas variables derivadas del análisis factorial pueden utilizarse como insumo para otros procedimientos estadísticos de in-terés. Existen dos métodos para construir estos puntajes factoriales, a saber: el método de Bartlett o de mínimos cuadrados ponderados y el método de Thompson o de regresión (capítulo 3).

Bondad de ajuste del modelo de factores

Dado que el análisis factorial se realiza a través de un modelo, ¿qué tan bien ajusta este modelo a nuestros datos? Un primer elemento de juicio lo constituye la matriz de residuos, definida por:

que es la diferencia entre nuestra matriz observada de correlaciones y la matriz de correlaciones reproducida por el modelo de factores. Si estas diferencias son pequeñas, se puede afirmar que el modelo de factores ajusta bien a los datos. Los valores de estas matrices están acotados entre –1 y 1, de modo que las dife-rencias deben ser realmente pequeñas. Paquetes estadísticos como spss remar-can diferencias menores o iguales a 0.05. Obsérvese además que los elementos en la diagonal de esta matriz de residuos son las especificidades del modelo. Un buen ajuste significa, en este caso, que el modelo con k factores es adecuado para nuestra información.

Page 31: Analisis Factorial CENEVAL

29Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Análisis factorial con variables discretas

El análisis factorial estándar se realiza con variables continuas; sin embargo, en muchas áreas de aplicación lo usual es tener variables medidas en escalas no-minal u ordinal. En estos casos, lo adecuado es realizar el análisis respetando el orden de medición de las variables involucradas. Dado que el análisis factorial se basa en el uso de la matriz de correlación, una manera de considerar la escala de medición de las distintas variables involucradas en el estudio es calcular el tipo de correlación que corresponda a cada par de variables, de acuerdo con su es-cala particular. En este sentido, la tabla siguiente muestra el tipo de correlación que conviene calcular, de acuerdo con el orden de medición de las variables involucradas.

El análisis factorial supone la existencia de una variable latente continua con distribución normal. De esta manera, cuando se utilizan variables discretas (or-dinales y dicotómicas), estás se utilizan como si fueran continuas.

Escala de medición Continua

Continua Pearson

Tetracórica

Policórica Policórica

Poliserial Punto biserial

Ordinal

Ordinal

Dicotómica

Dicotómica

Tabla 4 . Medidas de correlación entre variables

Page 32: Analisis Factorial CENEVAL
Page 33: Analisis Factorial CENEVAL

31Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Capítulo IIIFundamentos técnicos del análisis factorial

Aspectos formales

E n este apartado presentaremos algunos aspectos formales de la teoría que sustenta este análisis. La presentación se hará de manera general, consi-

derando el modelo multifactorial del que se desprende, como caso particular, el modelo unifactorial. A lo largo de la exposición se definirán algunos de los conceptos relacionados con esos modelos.

Supongamos que tenemos un conjunto de variables observadas X1, X2,..., Xp y se asume que en este conjunto subyacen k factores con k<<p. Sin perder generalidad, podemos suponer que las variables están centradas sobre sus me-dias, i.e.; tienen media cero.

Una manera usual de escribir el modelo factorial es a través de su represen-tación en forma matricial:

Donde,

Con X, la matriz de datos, Λ la matriz de cargas factoriales, y f y U son los vectores de variables no observables.

A f1, f2,...,fk se les denomina factores comunes (comunalidad) y a u1, u2,...,up factores específicos (especificidad).

Page 34: Analisis Factorial CENEVAL

32 Cuaderno técnico 6

Algunos supuestos sobre los que se construye el modelo son:1. Los factores comunes fj j=1,2,...,k no están correlacionados y tienen media

cero y varianza uno.2. Los factores específicos ui no están correlacionados y tienen media cero y

varianzaΨi i=1,2,...,p.3. Los factores comunes no están correlacionados con los factores específicos.

Bajo estos supuestos tenemos que:

con hi2 conocida como la comunalidad de la variable, que es la varianza de la

variable Xi , explicada por los factores comunes, y Ψi conocida como especificidad, la varianza no explicada por estos factores comunes.

Además, podemos observar que los factores comunes explican las relaciones entre las variables medidas del estudio, y así se convierten en el objeto de inte-rés de este análisis. Es por lo tanto importante que estén bien determinados y puedan ser interpretados en el contexto de la aplicación que les dio origen. La inclusión de los factores específicos en el modelo obedece al hecho de que es generalmente imposible expresar de manera exacta a nuestras p variables por medio de un número más reducido k de factores.

Page 35: Analisis Factorial CENEVAL

33Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Es común hacer el análisis factorial con las variables estandarizadas, i.e., variables con media cero y varianza uno; entonces lo que tenemos son corre-laciones entre las variables, en lugar de covarianzas. Si denotamos como R a la matriz de correlación de X la matriz de datos estandarizados, la descomposi-ción anterior se puede escribir, de forma matricial, como

con Ψ una matriz diagonal con elementos , e I la matriz idéntica, que tiene unos en la diagonal y ceros fuera de ella. De aquí tenemos

entonces, el objetivo del análisis factorial es determinar k: número de factores, Λ y Ψ utilizando la matriz de correlación muestral R^.

para toda i ≠ j además

Page 36: Analisis Factorial CENEVAL

34 Cuaderno técnico 6

Soluciones múltiples al modelo

Un aspecto muy importante es que la solución del modelo de factores no es única, en el sentido de que si tenemos una matriz ortogonal M (la condición de ortogonalidad => MM’=I), podemos escribir:

Entonces, si Λ es una matriz de cargas factoriales, ΛM también lo es, para toda matriz ortogonal, M. Por lo tanto, la matriz de cargas factoriales no es única, y esto implica que los factores tampoco son únicos.

Para garantizar una solución única en este modelo debemos anexar alguna res-tricción. La forma usual de este tipo de restricciones es alguna de las siguientes:

con Λ y D matrices diagonales.Obsérvese que el producto de Λ’Λ no genera una matriz diagonal, aunque

las restricciones del modelo exigen que lo sea, es decir que los elementos fuera de la diagonal de este producto sean cero. Por ello, y ya que fuera de la diagonal tenemos k(k-1) elementos, entonces es necesario este número de restricciones para garantizar una solución única del modelo.

Page 37: Analisis Factorial CENEVAL

35Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

A partir de esta desigualdad podemos observar que el mínimo de variables requeridas para extraer un factor es 3 (véase que en este caso se cumple la igual-dad). Con cinco variables manifiestas podemos tener a lo más dos factores; con 20 el número máximo de factores puede ser hasta de 14; sin embargo, en la prác-tica no se busca encontrar este número máximo, sino aquel que nos permita ex-plicar de la mejor manera posible las correlaciones entre estas variables medidas.

Número máximo de factores

De acuerdo con la discusión anterior, conviene saber cuál es el máximo núme-ro de factores que podemos extraer de un conjunto de p variables manifiestas. En este tipo de análisis ¿quién o qué constituye nuestra información? Como la idea es descomponer la matriz de correlación, entonces los elementos no redun-dantes de ésta, representan nuestra información. En el caso de que tengamos p variables indicadoras, el número de elementos no redundantes es p(p+1)/2. Ahora bien, necesitamos estimar p*k cargas factoriales totales y p especificida-des, entonces necesitamos estimar p(k+1) parámetros de nuestro modelo. Y necesitamos imponer a este número de parámetros por estimar, k(k-1) restric-ciones para obtener una solución única. Es lógico suponer que esta diferencia entre los parámetros por estimar y las restricciones no debe exceder el número de elementos no redundantes de la matriz de correlación (nuestra información observada). Entonces, se debe cumplir que:

Page 38: Analisis Factorial CENEVAL

36 Cuaderno técnico 6

Un ejemplo interesanteComo acotamos en el párrafo anterior, cuando se tienen tres variables mani-fiestas y un solo factor, se cumple la igualdad en este criterio para el número máximo de factores. Al respecto, Everitt (2001) proporciona el siguiente ejem-plo, que, además de tratar con detalle esta situación, nos proporcionará una visión clara de los procesos inmersos en la solución de estos modelos.Se tienen las calificaciones de exámenes de un grupo de estudiantes, en las asig-naturas de X1: Literatura clásica, X2: Francés y X3: Inglés, de las que se obtiene la siguiente matriz de correlaciones:

como no puede ser de otra forma, asumimos que un único factor subyace a este conjunto de variables, que podríamos denominar habilidades lingüísticas, por ejemplo. Entonces, el proceso para estimar los parámetros es el siguiente:Escribamos inicialmente el modelo de factores:

como comentamos líneas arriba, el objetivo es encontrar, a partir de la matriz de correlación R, las matrices Λ̂ y Ψ̂ . En este caso tenemos:

X1 X2 X3

Page 39: Analisis Factorial CENEVAL

37Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

de este sistema se desprenden las ecuaciones:λ1λ2=0.83 λ1λ3=0.78λ2λ3=0.67 de donde concluimos que λ1λ2 λ3 = √ 0.83 * 0.78 * 0.67 = 0.6586 y finalmente obtenemos que:

De las relaciones se tiene que

por lo que

Page 40: Analisis Factorial CENEVAL

38 Cuaderno técnico 6

podemos observar que todos los parámetros estimados tienen valores admisibles. Supongamos ahora que tomamos una nueva muestra sobre estos exámenes,

que arroja la siguiente matriz de correlación:

entonces, realizando el procedimiento anterior llegamos a:

que tiene dos parámetros estimados inadmisibles, var(X1)= Ψ̂ 1 =-0.44 y λ̂ 1 =1.2. Este último debido a que estima la correlación entre X1 y f1, por lo que no puede ser mayor que uno. El ejemplo muestra que la igualdad en el criterio del número máximo de factores que se pueden extraer, puede generar resultados inapropia-dos, por lo que es preferible considerar la desigualdad estricta. También ilustra el principio sobre el que se basa el proceso de estimación: igualar la matriz de correlaciones generada por el modelo, que involucra a los parámetros que lo componen, con la matriz de correlación estimada con la información.

Métodos de estimación

Si definimos como Σ( θ− ) a la matriz de correlaciones que se desprende del modelo, y a S, la respectiva de los datos, entonces el objetivo de los métodos de

Page 41: Analisis Factorial CENEVAL

39Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

estimación es minimizar alguna función de distancia entre estas dos matrices, es decir, la función por minimizar es de la forma:

con G alguna función específica. Los valores en Σ( θ− ) que minimicen esta fun-ción de distancia serán los estimadores de sus parámetros. Tomando en cuenta que Σ se puede descomponer como:

los procesos que minimizan esta función de distancia entre estas dos matrices son equivalentes a encontrar los estimadores de Λ y Ψ tales que:

aunque en este método el objetivo es maximizar la verosimilitud, cabe recordar que maximizar es equivalente a minimizar el negativo de esta verosimilitud.

Este método de estimación demanda que X tenga una distribución normal multivariada, hecho que en la práctica es muy difícil que se cumpla. No obstante, se ha encontrado que el método es robusto ante desviaciones de la normalidad. Sin embargo, es inadecuado su uso con variables nominales u ordinales.

este hecho ya se había evidenciado en el ejemplo mostrado anteriormente.

Máxima verosimilitudEn este caso, la función de distancia se desprende de la verosimilitud del mo-delo, y tiene la forma

Page 42: Analisis Factorial CENEVAL

40 Cuaderno técnico 6

Mínimos cuadradosEn este caso, la función que se minimiza es:

que también puede considerarse una medida de distancia entre la matriz obser-vada S y la matriz generada por el modelo Σ. Se minimiza la suma de cuadrados de las diferencias entre estas dos matrices. Nuevamente, los valores de los pará-metros que minimicen esta función serán los estimadores.

Mínimos cuadrados generalizadosEste método es una generalización del de mínimos cuadrados; la función por minimizar es:

la intención es minimizar la suma de cuadrados de todos los elementos en este producto de matrices.

Mínimos cuadrados ponderadosEn este método el objetivo es minimizar la diferencia entre la matriz generada por el modelo y la estimada por nuestros datos, ponderando estas diferencias por una matriz de pesos. Concretamente, la función que debemos minimizar tiene la forma:

con Ψ la matriz definida anteriormente.

Page 43: Analisis Factorial CENEVAL

41Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Método de rotación de ejes principalesEn este caso se utiliza la llamada matriz reducida S* definida como

por lo que los elementos en la diagonal de S* son las comunalidades estimadas. Este proceso requiere de una estimación inicial de estas comunalidades. Los métodos más frecuentes para estas estimaciones iniciales son:• El coeficiente de correlación múltiple entre cada Xi y el resto de las variables, y• El mayor coeficiente de correlación, en valor absoluto, entre Xi y cualquiera

de las otras variables, es decir:

a partir de las estimaciones iniciales de las comunalidades se hace un proce-so de componentes principales sobre S* para encontrar las cargas factoriales. Posteriormente se actualizan los estimadores de las comunalidades. El proceso continúa de forma iterativa, hasta que el cambio en las estimaciones entre dos iteraciones consecutivas es prácticamente nulo.

Prueba sobre el número de factores en el modelo

En esta prueba el objetivo es contrastar si el modelo con k factores que hemos propuesto ajusta bien a los datos. En otras palabras: si k factores son suficientes para explicar la estructura de correlación subyacente a las variables medidas.Esta prueba supone que la matriz de datos X tiene una distribución normal multivariada. Bajo este supuesto tenemos que:

Page 44: Analisis Factorial CENEVAL

42 Cuaderno técnico 6

cuyo estadístico de prueba es:

que se distribuye como una χ2v con v = ½[(p - k)2 - (p + k)], entonces rechazar

H0 implica que el número de factores elegido no es suficiente para la descrip-ción adecuada de la estructura de correlación, y hay necesidad de agregar más factores. Esta prueba se basa en la normalidad multivariada de X, que es difícil de cumplir, por lo que, en la mayoría de los casos, sólo se podrá usar como una referencia.

Puntajes factoriales

Método de Bartlett o de mínimos cuadrados ponderadosEl desarrollo de este método de construcción de puntajes es como sigue:Generamos Z: Matriz de datos estandarizados. Entonces, el modelo de factores se puede expresar en función de Z, como:Z=Λf+U con U~(0,Ψ) De donde tenemos que:U’U=(Z-Λf )’(Z-Λf ) (Mínimos cuadrados) oU’Ψ-1U=(Z-Λf )’ Ψ-1(Z-Λf ) (Mínimos cuadrados ponderados) con Ψ una matriz de pesos.

Page 45: Analisis Factorial CENEVAL

43Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

entonces, se toma a fi como el puntaje factorial del individuo i, i=1,2,...,n.

Método de Thompson o de regresiónSe supone X, f normales. Los puntajes son:

Bartlett sugiere encontrar f que minimice:

expresión es:

El valor fi que minimiza esta

Page 46: Analisis Factorial CENEVAL
Page 47: Analisis Factorial CENEVAL

45Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Capítulo IVAplicación con variables continuas

En este capítulo ejemplificaremos cómo realizar un análisis factorial con va-riables continuas. Los análisis se presentan en dos paquetes: spss que es, tal

vez, uno de los paquetes estadísticos más usados en las ciencias sociales, y R, que es un paquete gratuito, de gran desarrollo en estos tiempos. En el ejemplo vamos a trabajar utilizando datos de aplicaciones reales del Examen Nacional de Ingreso a la Educación Media Superior (exani-i).

Descripción general del EXANI-I

El exani-i es un examen de selección que elabora el Ceneval y que presentan los estudiantes que terminaron la secundaria y desean continuar sus estudios de educación media superior. Este examen evalúa sólo los conocimientos y ha-bilidades que se consideran indispensables para el progreso de los alumnos en el bachillerato. El examen cuenta con dos secciones:1. Habilidades intelectuales, que se integra con las subáreas de habilidad de razo-

namiento verbal y de habilidad de razonamiento matemático.2. Conocimientos disciplinarios, que se estructura con ocho subáreas relativas a las

asignaturas del plan de estudios de educación secundaria: español, historia, geografía, formación cívica y ética, matemáticas, física, química y biología.

El Ceneval otorga a las instituciones educativas una calificación global de los sustentantes, que es utilizada para seleccionar a los estudiantes que podrán ingresar a su oferta educativa. Esta calificación global se proporciona en una escala (índice Ceneval) que va de 700 a 1300 puntos, que es una transformación lineal del número total de aciertos obtenido por cada sustentante.

Hasta finales de 2008, la calificación global del examen incluía a las 10 áreas evaluadas. Sin embargo, en 2009, con la intención de responder a las demandas de los usuarios, el exani-i fue modificado sustancialmente, convirtiéndolo en

Page 48: Analisis Factorial CENEVAL

46 Cuaderno técnico 6

un examen alineado al nuevo currículo de la secundaria, que ofrece una prueba para selección (examen normativo) y diversas opciones para diagnóstico (exá-menes criteriales). Dado que aún no se cuenta con datos suficientes del exani-i de nueva generación, el ejemplo que presentamos considera información del 2008, aunque los resultados no se puedan generalizar para la nueva estructura del examen.

Definición del ejemplo

ObjetivoComprobar que la variable latente “habilidad académica” es un factor que pue-de explicar la asociación de los dominios que se evalúan en el exani-i .

Descripción de las variablesEn este primer ejemplo se consideró la información de 1011 sustentantes que presentaron el exani-i en junio de 2008.

Las variables manifiestas del modelo reportan el número de aciertos que ob-tienen los sustentantes del exani-i en cada una de las 10 áreas que se evalúan en el examen. En la tabla 5 se presentan los dominios que explora el exani-i , y el número de reactivos con los que se explora esa variable.

Page 49: Analisis Factorial CENEVAL

47Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

En la figura 6 se muestra gráficamente el modelo factorial que se comproba-rá mediante un factorial confirmatorio.

Dominio Núm . de reactivos

1 . Habilidad verbal (HV)2 . Español (ESP)3 . Historia (HIS)4 . Geografía (GEO)5 . Educación cívica y ética (FCE)6 . Habilidad matemática (HM)7 . Matemáticas (MAT)8 . Física (FIS)9 . Química (QUI)10 . Biología (BIO)

16121212121612121212

Tabla 5 . Dominios evaluados por el exani-i

Figura 6 . Modelo unifactorial del exani-i

HV

ESP

HIS

GEO

FCE

HM

MAT

FIS

QUIM

BIO

Habilidad académica

Page 50: Analisis Factorial CENEVAL

48 Cuaderno técnico 6

Análisis en spss

Antes de iniciar el análisis factorial conviene que el investigador analice la es-tructura de correlación de las variables bajo estudio y obtenga algunos datos descriptivos. El paquete SPSS ofrece algunas opciones que permiten explorar los datos antes de realizar el análisis factorial. En esta sección mostraremos algunas de estas herramientas y mencionaremos su utilidad.

En el módulo Reducción de Datos (Data Reduction) de spss se encuentra la op-ción para realizar el análisis factorial (Factor).

En esta sección el paquete estadístico tiene la posibilidad de efectuar algu-nos análisis descriptivos.

Page 51: Analisis Factorial CENEVAL

49Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Si presionamos el botón Descriptivos (Descriptives), aparecerá una ventana para seleccionar varias estadísticas relacionadas con la matriz de correlación genera-da por nuestros datos.

Veamos qué información nos proporcionan algunas de sus opciones (esta información se desplegará una vez que se activaron las opciones y al momento de ejecutar el análisis factorial):

Page 52: Analisis Factorial CENEVAL

50 Cuaderno técnico 6

Coeficientes (Coeficients)Reporta la matriz de correlaciones entre las variables involucradas en nuestro estudio. Al analizarla podemos ver la magnitud de asociación entre las variables, identificando las variables que están muy asociadas (correlaciones altas) y las que no lo están (correlaciones bajas). Determinar si las correlaciones son fuertes o importantes depende del ámbito de aplicación y del tamaño de la muestra. En la tabla 6 se muestra la matriz de correlación de las variables de nuestro ejemplo.

La primera tabla (Correlación) muestra las correlaciones entre las variables. El rango va de 0.558 (correlación entre habilidad matemática (HM) y matemáticas (MAT)) a 0.360 (correlación entre física (FIS) y educación cívica y ética (FCE)). En la segunda tabla (Sig. Unilateral) se aprecia que todas estas correlaciones son estadísticamente significativas (p-value=0). Estas correlaciones pueden conside-rarse como importantes en el ámbito de las investigaciones educativas.

Page 53: Analisis Factorial CENEVAL

51Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Tabla 6 . Matriz de correlaciones entre las variables que evalúa el exani-i

Determinante de la matrizUna medida global de la correlación entre todas las variables la proporciona el Determinante de la matriz. Si este determinante está cercano a cero, será indicativo de que existe una estructura de correlación importante entre las variables, y el análisis factorial puede ser pertinente. En este conjunto de datos, el determinante (en la parte inferior izquierda de la tabla anterior) es: 0.021, que es cercano a cero, e indica que la estructura de correlación en este conjunto de variables es buena.

Page 54: Analisis Factorial CENEVAL

52 Cuaderno técnico 6

kmo, una prueba de adecuación muestral La llamada medida de adecuación muestral (Measure of Sampling Adequacy)está definida por:

Esta prueba es un índice que compara los coeficientes de correlación (r2ij )

con los coeficientes de correlación parcial (r2ij·m ). Esta última correlación es la

correlación entre dos variables, eliminando el efecto de las restantes variables incluidas en el análisis. Entonces, si un par de variables está fuertemente corre-lacionada con el resto, la correlación parcial debe ser pequeña, ya que implica que buena parte de la correlación entre estas variables puede ser explicada por las otras variables en el análisis. Esto significa que está presente una fuerte estructura de correlación entre ellas y, por lo tanto, tiene sentido realizar el análisis de factores.

En el ejemplo, el denominador de la expresión anterior será cercano en mag-nitud al numerador, puesto que la contribución de las correlaciones parciales es prácticamente nula, y el índice kmo estará cercano a uno. Por el contrario, si esta correlación parcial es grande, implica que estas variables tienen poca correlación con el resto, lo que significa una estructura de correlación débil entre el conjunto, y pone en tela de duda el análisis factorial. En este escenario, la contribución de las correlaciones parciales es importante, y el denominador será mucho mayor que el numerador, con kmo próximo a cero. Como regla empírica se considera que si kmo<0.6, es inadecuado realizar un análisis facto-rial a los datos. En la tabla 7 se muestra que el resultado de esta prueba fue de 0.94, lo que indica que sí conviene realizar el análisis factorial.

Page 55: Analisis Factorial CENEVAL

53Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

La prueba de esfericidad de BartlettSi no hubiera estructura de correlación entre las variables involucradas en el análisis factorial, la matriz de correlación sería la matriz identidad, es decir, ten-dría ceros fuera de la diagonal (no habría correlación entre cualesquiera dos variables) y unos en la diagonal. Entonces, debemos probar –como parte fun-damental para iniciar nuestro análisis factorial– que la matriz de correlaciones de nuestros datos es distinta de la identidad. A este respecto, la prueba de es-fericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlación es la identidad contra la hipótesis alternativa de que es distinta de la identidad. Desafortunadamente, esta prueba asume que las variables tienen una distribu-ción normal multivariada, por lo que en muchas aplicaciones debe usarse úni-camente como una referencia. Los resultados de esta prueba, en nuestro caso, pueden consultarse en la tabla 7.

Ambas pruebas evidencian que la estructura de correlación entre nuestras variables es fuerte. Una vez que tenemos una idea de las variables que se encuen-tran asociadas y las que no, y que las pruebas kmo y de Bartlett nos indiquen que en general todas nuestras variables están correlacionadas, iniciaremos el análisis factorial de los datos.

kmo y pruebas de Bartlett

Medida de adecuación muestral de Kaiser-Meyer-Olkin

Prueba de esfericidad de Bartlett

Sig .

gl

Chi-cuadrado aproximado

0 .94

3872 .928

45

.000

Tabla 7 . Pruebas kmo y de esfericidad de Bartlett

Page 56: Analisis Factorial CENEVAL

54 Cuaderno técnico 6

Estimación del modelo factorialEn el módulo de análisis factorial se deberán especificar ciertas condiciones medulares antes de iniciar el análisis de los datos, tales como el número de factores y el método de extracción. Estas opciones pueden seleccionarse en la ventana Extracción (Extraction) que se despliega desde la ventana principal del Análisis factorial.

Nota: El programa spss tiene seleccionado, por defecto, el método de ex-tracción de Componentes principales. Sin embargo, este método representa un aná-lisis conceptualmente diferente al análisis factorial común que se abordó en este cuaderno. Además, no debe confundirse con el método de Factorización de ejes principales que es el que utilizaremos en todos los ejemplos.

Número de factoresExisten dos posibilidades de análisis factorial: una es el análisis confirmatorio (cuando se desea probar una estructura factorial) y la otra es el análisis explora-torio (cuando se desconoce la estructura de factores).

Cuando se realiza un análisis exploratorio se suele utilizar como criterio inicial retener en el análisis todos los factores cuyo Eigenvalor (Valor propio) aso-

Page 57: Analisis Factorial CENEVAL

55Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

ciado sea mayor que uno. La razón para esta decisión es que, ya que el análisis se realiza con las variables estandarizadas, entonces cada una de ellas tiene varianza uno, por lo que se considera que si un factor no explica más varianza que la de una variable, entonces no tiene sentido considerarlo.

Sin embargo, en el ejemplo que estamos trabajando realizaremos un análisis confirmatorio, dado que deseamos probar que las variables que se evalúan en el exani-i pueden ser ajustadas en una estructura unidimensional.

Método de extracciónAquí decidiremos qué método de estimación debemos utilizar. Se acostum-bra utilizar el de máxima verosimilitud, pero este método es muy demandante de supuestos que deben cumplir las variables bajo estudio. Un método menos demandante de supuestos –y por lo tanto más recomendable para las variables que se incorporaran en el modelo– es el método de Factorización de ejes principales (Principal axis factoring). Fue escogido para nuestro análisis de los datos.

En la ventana Extracción (Extraction) se presentan opciones para elegir la matriz por utilizar: de correlación o covarianza. Asimismo, una ventana para desplegar la solución de los factores sin rotar y, finalmente, en esta parte del módulo se puede solicitar que en los resultados se incluya una gráfica de sedi-mentación (gráfica de codo o scree plot).

Para llevar a cabo el análisis de los datos del ejemplo que estamos trabajan-do, elegimos las siguientes opciones:• Método: Factorización de ejes principales (Principal axis factoring)• Analizar: Matriz de correlación (correlation matrix)• Número de factores: 1

Como sólo tendremos un factor, no podremos rotarlo ni observar el gráfico de codo.

Page 58: Analisis Factorial CENEVAL

56 Cuaderno técnico 6

Resultados del análisisUna vez seleccionadas las opciones para el análisis, debemos elegir las 10 va-riables que incluiremos y presionar el botón Aceptar en la pantalla principal de Análisis factorial.

La tabla 8 muestra las comunalidades de las variables involucradas. Podemos observar que la proporción de varianza de cada variable (Extracción), que explica este factor, fluctúa entre 35% y 53.1%, lo que implica que una gran parte de estas varianzas no son explicadas por el factor. En la salida del paquete una columna denominada Inicial (Initial ) corresponde al valor inicial utilizado por el proceso iterativo.

En la tabla 9 se muestran los Eigenvalores asociados a cada factor, y su res-pectivo porcentaje de varianza explicada. Como nosotros sólo seleccionamos un factor, el porcentaje correspondiente es 44.448%, cercano al 60% recomen-dado en aplicaciones en Ciencias Sociales.

Page 59: Analisis Factorial CENEVAL

57Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Comunalidades

HVESPHIS

GEOFCEHMMATFISQUIBIO

.486 .465 .361 .389 .350 .449 .460 .324 .435 .358

.531 .522 .396 .427 .380 .483 .494 .350 .474 .392

Inicial Extracción

Tabla 8 . Comunalidades del modelo unifactorial del exani-i

Varianza total explicada

Sumas de las saturaciones al cuadrado de la extracción

Autovalores iniciales

Factor Total% de lavarianza

% acumulado Total

% se lavarianza

% acumulado

12345678910

4 .996 .760 .678 .634 .569 .549 .493 .476 .447 .398

4 .44949 .9657 .6036 .7756 .3385 .6925 .4894 .9334 .7564 .4693 .981

44 .44849 .96557 .56764 .34370 .68076 .37381 .86286 .79491 .55096 .019

100 .000

44 .448

Tabla 9 . Total de la varianza explicada por modelo unifactorial del exani-i

Page 60: Analisis Factorial CENEVAL

58 Cuaderno técnico 6

Finalmente, la tabla 10 muestra las cargas factoriales de cada una de las varia-bles observadas con el factor. Estas cargas representan la correlación de la variable con el factor. En este caso, puede observarse que las cargas van de 0.591 a 0.729. El juicio sobre qué tan fuertes son estas correlaciones se deja a criterio del área de aplicación. En investigaciones educativas, estas correlaciones podrían considerarse como buenas, con lo que confirmamos que el exani-i tiene una estructurara unifactorial subyacente.

Con los resultados del ejemplo podríamos concluir que la variable latente “habilidad académica” es suficiente para explicar la relación que mantienen las 10 variables manifiestas (dominios), así que brindar una calificación global del exani-i no resulta inadecuado, ya que todas las variables que se evalúan están asociadas entre sí.

Matriz factoriala

HVESPHIS

GEOFCEHMMATFISQUIBIO

.729 .723 .629 .654 .616 .695 .703 .591 .688 .626

Factor1

Método de extracción: Factorización del eje principal .a1 factores extraídos . Requeridas 4 iteraciones .

Tabla 10 . Cargas factoriales de las variables manifiestas

Page 61: Analisis Factorial CENEVAL

59Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Es muy importante que el investigador detecte si hay un grupo de variables con cargas factoriales bajas –un claro indicio de que esas variables no pueden ser explicadas por el factor. En este caso convendría revisar la teoría o evaluar otro modelo.

Bondad de ajuste¿Qué tan bien ajusta a los datos este modelo unifactorial? Para responder esta pregunta analizaremos la matriz de residuos (para desplegar esta matriz es ne-cesario seleccionar la opción Reproducida (Reproduced) en la ventana Descriptivos (Descriptives).

En la primera sección de la tabla 11, denominada Correlación reproducida, se muestra la matriz que reproduce el modelo con nuestro único factor extraído. La diagonal son las comunalidades (compárese con la tabla correspondiente). Los valores fuera de la diagonal son las correlaciones entre las variables, re-producidas por el modelo unifactorial. Para juzgar qué tan bien las reproduce, observamos la segunda sección de la tabla: Residual. La diagonal, no mostrada en la salida, debe ser la especificidad de cada variable (1 - comunalidad). Si la cal-culamos, confirmaremos que mucha de la varianza de nuestras variables no es explicada por el modelo. En la tabla 11 se observa que únicamente 8% de las diferencias entre las correlaciones observadas y calculadas por este modelo de un factor sobrepasan el corte por defecto de spss (0.05), lo que establece un buen ajuste sobre las correlaciones entre las variables.

Desafortunadamente, spss no despliega una prueba formal sobre el ajuste que se logra con este factor, así que no podemos determinar si es suficiente para lograr un buen ajuste.

Page 62: Analisis Factorial CENEVAL

60 Cuaderno técnico 6

Tabla 11 . Matriz de correlaciones reproducidas por el modelo

Puntajes factorialesFinalmente, podemos obtener los puntajes que le corresponden a cada uno de los individuos en la base, dado el modelo unifactorial. En este paquete se encuentran en la ventana Puntuaciones (Scores) y contiene tres opciones: Regresión (Regression), Bartlett y Anderson-Rubin.

Las dos primeras fueron descritas previamente. Estos puntajes podrían ser de utilidad en algún análisis posterior.

Page 63: Analisis Factorial CENEVAL

61Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Análisis en R

¿Por qué realizar este análisis con este software gratuito? La justificación radica en el hecho de que, además de ser libre (http://www.gnu.org), en este momento es uno de los paquetes más utilizados en la investigación estadística.

El programa R es mantenido y actualizado esencialmente por la comunidad de investigadores en estadística, lo que le sitúa a la vanguardia de los desarrollos recientes en esta disciplina. Una característica que comparte con s-plus es la enorme riqueza gráfica que posee.

Intentemos rehacer en este paquete todos los pasos que hicimos en spss. Importa aclarar que R funciona a base de comandos, así que hay que escribirlos para ejecutarlos. En seguida se presentan los principales resultados del análisis y en el anexo 1 se describen las instrucciones para obtenerlos.

Page 64: Analisis Factorial CENEVAL

62 Cuaderno técnico 6

Descriptivos

Tabla 12 . Matriz de correlaciones con niveles de significancia

HV

ESP

HIS

GEO

FCE

HM

MAT

FIS

QUI

BIO

1 .000

0 .546

0 .487

0 .516

0 .494

0 .511

0 .465

0 .374

0 .476

0 .449

0 .000

1 .000

0 .453

0 .454

0 .453

0 .525

0 .510

0 .438

0 .475

0 .433

0 .000

0 .000

1 .000

0 .428

0 .424

0 .396

0 .394

0 .367

0 .429

0 .420

0 .000

0 .000

0 .000

1 .000

0 .429

0 .457

0 .472

0 .365

0 .408

0 .392

0 .000

0 .000

0 .000

0 .000

1 .000

0 .386

0 .392

0 .360

0 .401

0 .385

0 .000

0 .000

0 .000

0 .000

0 .000

1 .000

0 .558

0 .422

0 .466

0 .408

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

1 .000

0 .439

0 .513

0 .437

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

1 .000

0 .459

0 .361

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

1 .000

0 .490

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

0 .000

1 .000

HV ESP HIS GEO FCE HM MAT FIS QUI BIO

Obsérvese que por arriba de la diagonal están los niveles de significancia y, por debajo, las correlaciones entre pares de variables.• Determinante de la matriz de correlaciones

0.0212698• La prueba kmo arroja el siguiente valor

0.9131283• Prueba de esfericidad de Bartlett

El estadístico de prueba en este caso es:

Page 65: Analisis Factorial CENEVAL

63Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

con n, el número de individuos en el estudio, p el número de variables, y |R|, el determinante de la matriz de correlación. En nuestro caso tenemos:

n =1011, p=10 y |R|=0.0212698Tras realizar los cálculos obtenemos:T = 3872.928, que al comparar contra una χ2

(45), nos proporciona un p-value de cero.

Todos los análisis mostrados indican que es adecuado realizar el análisis factorial. Implementaremos un análisis confirmatorio con un único factor y método de extracción: Factorización de ejes principales. Al hacerlo en R, obtenemos los siguientes resultados:f.solЅ/ values4.449 0.195 0.118 0.029 0.005 -0.038 -0.049 -0.066 -0.080 -0.114f.solЅ/ rotation"none"f.solЅ/ n.obs1011f.solЅ/ communalityHV ESP HIS GEO FCE HM MAT FIS QUI BIO0.531 0.522 0.396 0.427 0.380 0.483 0.494 0.350 0.474 0.392f.solЅ/ loadings

Page 66: Analisis Factorial CENEVAL

64 Cuaderno técnico 6

HV

ESP

HIS

GEO

FCE

HM

MAT

FIS

QUI

BIO

PA1

PA1

0 .729

0 .723

0 .629

0 .654

0 .616

0 .695

0 .703

0 .591

0 .688

0 .626

4 .449

0 .445

SS loadings

Proportion Var

Loadings:

f.solЅ/ residual

HV

ESP

HIS

GEO

FCE

HM

MAT

FIS

QUI

BIO

0 .469

0 .019

0 .028

0 .040

0 .045

0 .005

-0 .047

-0 .057

-0 .025

-0 .007

0 .019

0 .478

-0 .002

-0 .019

0 .007

0 .022

0 .002

0 .011

-0 .023

-0 .020

0 .028

-0 .002

0 .604

0 .017

0 .036

-0 .041

-0 .049

-0 .005

-0 .004

0 .026

0 .040

-0 .019

0 .017

0 .573

0 .026

0 .002

0 .013

-0 .022

-0 .042

-0 .017

0 .045

0 .007

0 .036

0 .026

0 .620

-0 .042

-0 .041

-0 .005

-0 .023

0 .000

0 .005

0 .022

-0 .041

0 .002

-0 .042

0 .517

0 .070

0 .011

-0 .012

-0 .027

-0 .047

0 .002

-0 .049

0 .013

-0 .041

0 .070

0 .506

0 .023

0 .029

-0 .003

-0 .057

0 .011

-0 .005

-0 .022

-0 .005

0 .011

0 .023

0 .650

0 .052

-0 .009

-0 .025

-0 .023

-0 .004

-0 .042

-0 .023

-0 .012

0 .029

0 .052

0 .526

0 .059

-0 .007

-0 .020

0 .026

-0 .017

0 .000

-0 .027

-0 .003

-0 .009

0 .059

0 .608

HV ESP HIS GEO FCE HM MAT FIS QUI BIO

Page 67: Analisis Factorial CENEVAL

65Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

f.solЅ/ fit0.885f.solЅ/ fit.off0.995f.solЅ/ dof35f.solЅ/ objective0.1269227f.solЅ/ statistic

123.3586f.solЅ/ pval

8.903534e-12f.solЅ/ communality.iterations4.996 4.503 4.454 4.449 4.449

La identificación de los elementos mostrados en la salida es:Values: Eigenvalores de la matriz. En nuestro caso, sólo es de interés el pri-

mer eigenvalor, 4.449 asociado a nuestro único factor.Rotation: Indica el tipo de rotación que se eligió. Cuando se extrae un solo

factor, no existe posibilidad de rotación, por eso se indicó none.n.obs: Número de observaciones en la base de datos.Communality: Las comunalidades de cada variable en el modelo.Loadings: Las cargas factoriales de cada variable.SS loading y proportion Var: El eigenvalor y la proporción de varianza asocia-

dos al factor extraído.Residuals: La matriz de residuos, que resulta de restar a la matriz original, la

matriz reproducida por el modelo. Observamos que en la diagonal aparecen las especificidades de cada variable, cuyo rango va de 0.469 a 0.650, que comprue-ba que mucha de la varianza de cada variable no es explicada por el modelo unifactorial.

Page 68: Analisis Factorial CENEVAL

66 Cuaderno técnico 6

fit: Medida de bondad de ajuste del modelo. Esta medida estima el grado de reducción en la matriz correlación, que logra el modelo. Una reducción óptima sería 1.

fit.off: Medida de bondad de ajuste del modelo, para los elementos fuera de la diagonal de la matriz de correlación. Es decir, qué tan bien ajusta el modelo a las correlaciones entre variables, y no a la correlación de cada variable.

dof: Grados de libertad, que es el número de correlaciones observadas no redundantes, menos el número de parámetros independientes en el modelo

en este caso, tenemos p =10 y k =1, por lo que tenemos 35 g.l.objective: Valor que toma la función que se va a maximizar por el método de

máxima verosimilitud, cuando se evalúa en los puntos máximos encontrados. Se usa para calcular la prueba de bondad de ajuste.

statistic: Esta estadística se basa en el valor de la función (objective=f ), y es similar a la prueba de Bartlett.

y se usa para probar si el número de factores extraído proporciona una bondad de ajuste adecuada.

pval: El valor de significancia descritivo (p- value) asociado a la estadística anterior. Como podemos observar, este valor indica que un factor no es suficiente para explicar totalmente la estructura de correlación de nuestros datos.

Communality.iterations: Historia de las iteraciones de las comunalidades.scores ( f.solЅ/ scores): Guarda los puntajes factoriales de los sujetos, por cada uno

de los factores extraídos.

Page 69: Analisis Factorial CENEVAL

67Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Como hemos observado, es posible reproducir los resultados del análisis factorial que obtuvimos a través de spss, utilizando R. Observamos que no todos estos resultados están disponibles de forma automática; para generar al-gunos de ellos tuvimos que recurrir a programas sencillos.

Page 70: Analisis Factorial CENEVAL
Page 71: Analisis Factorial CENEVAL

69Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Capítulo VAplicación con variables discretas

Objetivo

Comprobar que el dominio de Matemáticas del exani-ii es un constructo unidimensional.

Descripción de las variables

Este ejemplo utiliza una base de datos de los sustentantes del Examen Nacional de Ingreso a la Educación Superior (exani-ii). En esta ocasión las variables manifiestas son los reactivos de opción múltiple que exploran el dominio, de modo que la base de datos está conformada por vectores que incluyen valores de 0 y 1. Se asignó 1 a la respuesta correcta y 0 a la incorrecta.

Evaluaremos la dimensionalidad del constructo de Matemáticas, que es ex-plorado con 16 preguntas. Desafortunadamente, el paquete spss no considera la escala de medición de las variables en el análisis de factores; por ende, no es un programa que pueda ser usado cuando las variables manifiestas son discre-tas (ordinales o dicotómicas). En su lugar, usaremos statistica (otro paquete estadístico comercial), que sí permite realizar el análisis con este tipo de varia-bles, pero que no calcula los puntajes factoriales asociados a cada sujeto en la base. Como en el área de educación se presentan muchos casos en los que las variables se miden en escala dicotómica (respuesta correcta o incorrecta), mos-traremos detalladamente el uso de este paquete para construir un factor con este tipo de variables.

Lo primero que debemos mencionar es que para considerar la escala di-cotómica de las variables, es necesario construir una matriz de correlaciones tetracórica (véase la tabla correspondiente). La correlación tetracórica estima la correlación de Pearson que obtendríamos si las variables fueran medidas en

Page 72: Analisis Factorial CENEVAL

70 Cuaderno técnico 6

escala continua. En otras palabras, la correlación tetracórica de nuestras va-riables dicotómicas observadas es igual a la correlación de Pearson entre sus correspondientes variables latentes continuas.

La base de datosLa siguiente pantalla muestra un segmento de la base de datos:

Como queremos realizar el análisis factorial, a partir de la matriz de correla-ciones tetracóricas, debemos calcularla antes de hacer la extracción del factor. statistica no construye estas matrices en su módulo de análisis de factores, pero la calcula en el modulo de confiabilidad. La trayectoria que hay que seguir es:

Statistics → Multivariate Exploratory Techniques → Reliability / Item Analysis.

Page 73: Analisis Factorial CENEVAL

71Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Activando este último menú, se despliega la siguiente ventana:

Page 74: Analisis Factorial CENEVAL

72 Cuaderno técnico 6

En Variables vamos a seleccionar las variables que intervendrán en este análi-sis. La activamos y aparecen los nombres de las variables en nuestra base, como se muestra en la siguiente ventana:

Seleccionamos las 16 variables correspondientes a los reactivos de Matemá-ticas (Mat_1 a Mat_16) y presionamos el botón OK. Ahora aparece la siguiente ventana:

Page 75: Analisis Factorial CENEVAL

73Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Observemos que aparece el rango de variables que elegimos. En seguida, seleccionamos la pestaña Advanced y tenemos la ventana siguiente:

En este punto, en Correlation matrix seleccionamos Tetrachoric r (quick cos p approx.)

Page 76: Analisis Factorial CENEVAL

74 Cuaderno técnico 6

Calculamos la matriz tetracórica pulsando OK y tenemos la siguiente ventana:

Observamos que se ha calculado la matriz que se deseaba: tetracórica. Pul-samos Matrix y Matrix en la siguiente pantalla, para que se despliegue la matriz:

Page 77: Analisis Factorial CENEVAL

75Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Con esto se desplegará la siguiente ventana:

Manteniendo abierta esta ventana, realizamos la trayectoria:Statistics → Multivariate Exploratory Techniques → Factor Analysis.

Page 78: Analisis Factorial CENEVAL

76 Cuaderno técnico 6

Observemos que en Input file aparece seleccionada la opción Correlation Ma-trix, que significa que tomará la matriz tetracórica que calculamos, para realizar el análisis de factores correspondiente. Pulsamos Variables y aparecerá:

En esta ventana hay que seleccionar las variables que intervendrán en el aná-lisis de factores. Seleccionamos todas las variables y pulsamos OK.

Page 79: Analisis Factorial CENEVAL

77Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

En la ventana del análisis factorial aparecerá marcado ALL después de Va-riables, para indicar que hemos elegido todas las variables de la matriz de corre-lación tetracórica, para realizar el análisis. Nuevamente pulsamos OK y obtene-mos la siguiente ventana:

En Maximum no. of factors ajustamos a un factor y después seleccionamos la pestaña Advanced:

Page 80: Analisis Factorial CENEVAL

78 Cuaderno técnico 6

Elegimos el método de extracción: Principal axis method, y ejecutamos el aná-lisis presionando el botón OK. Aparecerá la siguiente ventana:

Page 81: Analisis Factorial CENEVAL

79Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Observamos que se realizó el proceso con 16 variables. El método de extrac-ción fue el seleccionado (Principal axis factoring). El número de factores extraídos es uno con un eigenvalor asociado de 7.83974. Pero éste no es todo el des-pliegue de resultados: observamos otras opciones de información en Explained variance, Loading, Scores, Descriptive, Eigenvalues y Summarary factor loadings. Veamos qué contiene cada una de estas posibilidades.

Al activar el menú Explained variance tenemos la siguiente ventana:

Que contiene tres menús:• Eigenvalues: Despliega los eigenvalores, que sirven para calcular el porcentaje

de varianza que explica cada factor, y el porcentaje que explica un conjunto de factores.

• Communalities: Contiene las comunalidades de cada variable, es decir, la va-rianza de cada variable que es explicada por este único factor.

• Reproduced/residual corrs: Contiene la matriz de correlaciones reproducida por el modelo y la matriz resultante de restar las correlaciones reproducidas de

Page 82: Analisis Factorial CENEVAL

80 Cuaderno técnico 6

las correlaciones observadas (matriz de residuos). Obsérvese que se recal-carán en color rojo las diferencias mayores a 0.1. Este punto de corte pue-de modificarse en el menú correspondiente. Mostramos en seguida las tres pantallas descritas:

Obsérvese que sólo 48.99% de la varianza es explicada por este factor.

Page 83: Analisis Factorial CENEVAL

81Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Las comunalidades (From 1 Factor) oscilan entre 0.166344 (Mat_9) y 0.806765 (Mat_1), lo que significa que una cantidad considerable de la varianza de estas variables es explicada por el factor extraído.

Page 84: Analisis Factorial CENEVAL

82 Cuaderno técnico 6

Matriz de correlaciones reproducida:

Page 85: Analisis Factorial CENEVAL

83Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Matriz de residuales:

En esta última pantalla aparecen las diferencias entre las correlaciones ob-servadas y las reproducidas por el modelo. Como ninguna diferencia es supe-rior a 0.1, nada aparece marcado de color rojo. Si queremos tomar el mismo criterio que tiene por defecto spss, debemos ajustar esta diferencia a 0.05, con lo que obtendríamos la siguiente matriz:

Page 86: Analisis Factorial CENEVAL

84 Cuaderno técnico 6

Podemos observar que el número de diferencias mayores a 0.05 es de 22, que representa aproximadamente 9% del total de correlaciones.

La siguiente ventana es Loadings:

Page 87: Analisis Factorial CENEVAL

85Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

En esta ventana se muestra la opción Summary Factor Loadings que servirá para mostrar las cargas factoriales. Pero además aparece la opción Highlight factor loadings greather than que permitirá establecer un punto de corte a partir del cual se señalarán con color rojo las cargas factoriales; por defecto esta opción mues-tra el valor de 0.70. Este punto de corte es excesivo en áreas como la educativa, en donde se asume que una carga mayor que 0.3 es importante. Presentamos en la siguiente pantalla los resultados de estos menús, señalando las cargas ma-yores de 0.3 (en valor absoluto):

Observemos que ninguna variable está por debajo de este punto de corte (de hecho la carga más baja fue de -0.4078, para el reactivo 9), lo que implica que la formación de este factor resulta, en principio, una decisión adecuada. Todas las cargas factoriales resultan negativas, hecho curioso ya que esperaríamos correla-

Page 88: Analisis Factorial CENEVAL

86 Cuaderno técnico 6

ciones positivas de las variables con el factor. Una simple reflexión de las cargas factoriales las haría positivas, para que estuvieran más acorde con lo esperado.

Finalmente, el menú de Scores ofrece la opción Factor score coeficients, Factor scores y Save factor scores. Estos dos últimos menús permiten ver los puntajes facto-riales asignados a cada observación en la base, además de que permite salvarlas como nuevas variables, para usos posteriores. Como adelantamos, statistica no construye los puntajes factoriales cuando se trabaja a partir de una matriz de correlaciones tetracóricas, por lo que estos dos menús no están activados.

Análisis en R

El reto para realizar el análisis factorial con variables discretas es calcular la matriz que corresponda, en este caso, a variables medidas en escala dicotómica, es decir, una matriz de correlaciones tetracóricas.Para hacer este análisis en R, hay que llamar al paquete polycor para calcular la matriz tetracórica. Y posteriormente analizarla con cualquiera de las rutinas para hacer análisis factorial. Al igual que en el ejemplo con variables continuas, a continuación presentaremos los resultados del análisis y en el anexo 1 propor-cionaremos las instrucciones necesarias para llevarlo a cabo.

• Matriz de correlaciones tetracóricasDado el tamaño de esta matriz, no conviene desplegarla. Está guardada en la

variable tetra.corre.• Estadística kmo

0.874379• Determinante de la matriz0.0003244013

Page 89: Analisis Factorial CENEVAL

87Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Tanto el determinante de la matriz como la estadística kmo sugieren que el análisis factorial puede ser adecuado para estas variables.

Los resultados del análisis factorial están guardados en el objeto: f.cat, para saber qué elementos componen este objeto, tecleamos:names(f.cat) "values” "rotation" "n.obs" "communality" "loadings" "residual" "fit" "unique-nesses" "fit.off" "dof" "objective" "criteria" "statistic" "pval" "communality.iterations" "factors"Varios de estos elementos han sido discutidos con anterioridad.

Resultados del análisis factorial f.catЅ/ values7.147 0.307 0.194 0.112 0.094 0.048 0.041 -0.002 -0.026 -0.051-0.075 -0.081 -0.097 -0.124 -0.157 -0.182 Sólo nos interesa el primer eigenvalor: 7.147f.catЅ/ rotation"none"No realizamos rotaciones, ya que extrajimos un solo factorf.catЅ/ n.obs3943Trabajamos con 3943 sujetos en la basef.catЅ/ communalityM1 M2 M3 M4 M5 M6 M7 M80.690 0.708 0.275 0.696 0.381 0.608 0.352 0.226M9 M10 M11 M12 M13 M14 M15 M160.156 0.385 0.544 0.529 0.344 0.395 0.265 0.592Las comunalidades muestran poca varianza explicada por este factor, para al-gunas de las variables del análisis. f.catЅ/ loadings

Page 90: Analisis Factorial CENEVAL

88 Cuaderno técnico 6

M1

M2

M3

M4

M5

M6

M7

M8

M9

M10

M11

M12

M13

M14

M15

M16

PA1

PA1

0 .831

0 .842

0 .524

0 .835

0 .617

0 .780

0 .593

0 .475

0 .395

0 .621

0 .737

0 .727

0 .586

0 .628

0 .515

0 .770

7 .147

0 .447

SS loadings

Proportion Var

Loadings:

Las cargas factoriales están, en general, por arriba de 0.4. Ninguna muestra una carga menor a este punto de corte. La proporción de varianza que explica este factor es del 44.7%.f.catЅ/ fit0.912f.catЅ/ fit.of0.995

Page 91: Analisis Factorial CENEVAL

89Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Se tiene un buen ajuste fuera de la diagonal de la matriz, es decir, el modelo de factores reproduce bien las correlaciones entre las variables, y hay un buen grado de reducción de la matriz de correlación, ya que el valor de fit está cercano a uno. f.catЅ/ uniquenessesM1 M2 M3 M4 M5 M6 M7 M80.310 0.292 0.725 0.304 0.619 0.392 0.648 0.774M9 M10 M11 M12 M13 M14 M15 M160.844 0.615 0.456 0.471 0.656 0.605 0.735 0.408

Algunas de las varianzas específicas son muy grandes, lo que confirma la poca explicación del factor sobre las varianzas de ciertas variables.f.catЅ/ dof104f.catЅ/ objective0.5111483f.catЅ/ STATISTIC2008.113f.catЅ/ PVAL0.00

Este último valor (pval) evidencia que un solo factor no es suficiente para explicar las asociaciones entre las variables.Finalmente, la función que utilizamos para realizar este análisis ( factor.pa) no construye de forma automática los puntajes factoriales de los sujetos en la base. Lo que debemos hacer es utilizar algunos de los elementos que ya tenemos, para construir “paso a paso” dichos puntajes. En seguida mostramos los pun-tajes de los primeros 20 individuos en la base:factores[1:20]

Page 92: Analisis Factorial CENEVAL

90 Cuaderno técnico 6

1.1954 1.0955 1.1349 0.9218 1.11921.1684 1.2468 1.1312 1.0182 1.31281.2650 1.3128 1.2344 1.1954 1.31281.2793 1.0053 1.0749 1.2087 1.2564

Un comentario final

El objetivo de este trabajo fue mostrar la teoría que sustenta el análisis de fac-tores, de uso común en las investigaciones educativas. Asimismo, se ejempli-ficaron, con casos prácticos, los elementos que se desprenden de este análisis. Estos ejemplos se presentaron en los paquetes estadísticos spss, statistica y r.

Page 93: Analisis Factorial CENEVAL

91Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Bibliografía

Bartholomew, D.J. et al. (2000). The analysis and interpretation of multivariate data for social scientists. Boca Raton, Florida: Chapman & Hall/CRC.

Bartholomew, D.J. y Knott, M. (1999). Latent Variable Models and Factor Analysis. London: Arnold Publishers.

Brown, T.A. (2006). Confirmatory Factor Analysis for Applied Research. Nueva York: The Guilford Press.

Everitt, B.S. y Graham, D. (2001). Applied Multivariate Data Analysis. Nueva York: Oxford University Press.

Hair, J.F. et al. (1999). Análisis Multivariante (E. Prentice & D. Cano, trads.). Ma-drid, España: Pearson/Prentice Hall. (Trabajo original publicado en 1998).

Kaplunovsky, A.S. (2006). Why using factor analysis? (dedicated to the centenary of factor analysis). Israel: Holon Academic Institute of Technology, Research Center for Quantum Communication Engineering.

Pett, M.A. et al. (2003). Making Sense of Factor Análisis: The Use of Factor Analysis for Instrument Development in Health Care Serearch. California: SAGE.

Spearman, C. (1904). General Intelligence, objectively determined and mesured. Illinois: American Journal of Psychology.

Thurstone, L.L. (1935). The vectors of mind. Illinois: University of Chicago Press.Thurstone, L.L. (1938). Primary mental abilities. Illinois: University of Chicago

Press.Yanai, H. y Ichikawa, M. (2007). Factor analysis. En C. R. Rao y S. Sinharay

(Eds.), Handbook of statistics: Vol. 26. Psychometrics (pp. 257–296). Amster-dam: North-Holland.

Page 94: Analisis Factorial CENEVAL
Page 95: Analisis Factorial CENEVAL

93Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

Anexo ICódigos en R

En seguida se muestra el código utilizado para los dos ejemplos del paquete R. Se recomienda al lector que intente reproducir esta secuencia de instruccio-

nes con sus propios datos, para que pueda apreciar el despliegue de información que proporciona este paquete.

Para desplegar los resultados es suficiente teclear el nombre de la variable donde están guardados; (a<- b) significa que en a se guardan los resultados ge-nerados por la instrucción b. Si no hay esta asignación, el resultado se despliega en la pantalla del paquete. Cuando el paquete básico de R no posee alguna rutina se puede recurrir a paquetes especializados, que se cargan a voluntad del usuario. Una forma simple de cargar estos paquetes es con la instrucción: install.packages (“nombre del paquete”), para lo que se necesita estar conectado a Internet.

La secuencia de instrucciones

#Instrucciones para los ejemplos en R#Ejemplo con variables continuas# Importar datos de un archivo .datceneval<-read.table("C:/Documents andSettings/guero/Desktop/facejem.dat",header=TRUE)

#Se selecciona la sub base de interés: De la variable 33 a la 42.EJ1<-ceneval[,33:42]# Función que calcula la matriz de correlación y su nivel de significanciacorProb <- function(X, dfr = nrow(X) - 2) { R <- cor(X) above <- row(R) < col(R) r2 <- R[above]^2

Page 96: Analisis Factorial CENEVAL

94 Cuaderno técnico 6

Fstat <- r2 * dfr / (1 - r2) R[above] <- 1-pf(Fstat, 1, dfr) class(R) <- "corProb" R } #Se ejecuta la función con la matriz de datoscorr.sig<-corProb(EJ1,nrow(EJ1)-2)# Se da formato a la matriz de correlación, identificando las variables que la constituyenEJ1.matrix<-matrix(corr.sig,nrow=10,ncol=10,byrow=TRUE,list(c("HV","ESP","HIS","GEO","FCE","HM","MAT","FIS","QUI","BIO"),c("HV","ESP","HIS","GEO","FCE","HM","MAT","FIS","QUI","BIO")))# Se despliega la matriz con los valores redondeados a tres cifras.mat.corre<-round(EJ1.matrix,digits=3)# Función que calcula el valor del estadístico KMOkmo.test <- function(M){library(corpcor) cor.sq = cor(M)^2 cor.sumsq = (sum(cor.sq)-dim(cor.sq)[1])/2 pcor.sq = cor2pcor(cor(M))^2 pcor.sumsq = (sum(pcor.sq)-dim(pcor.sq)[1])/2 kmo = sum(pcor.sq)/(sum(pcor.sq)+pcor.sumsq) return(kmo)} #Se ejecuta la función con la matriz de correlación de nuestros datos.kmo.test(EJ1.matrix)#Se calcula el determinante de la matrizdet(EJ1.matrix)# Paquete que permite el uso del método de principal axis factor

Page 97: Analisis Factorial CENEVAL

95Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas

library(psych)# Se corre el análisis a partir de la base de datos: EJ1f.sol<-factor.pa(EJ1,nfactors=1,residuals=TRUE, rotate="none",n.obs=1011,min.err=0.001,digits=3,max.iter=50,scores=TRUE)========================================================================================#Ejemplo con variables dicotómicas# Base que contiene las variables dicotómicascencat<-read.table("C:/Documents and Settings/USUARIO/Desktop/BASE-MAT.txt",header=TRUE,colClasses="factor")# Paquete que permite el cálculo de la matriz tetracóricalibrary(polycor)#Paquete para extraer los factores a través del método de factores principales (principal axis)library(psych)# Cálculo de la matriz tetracórica con las 16 variables en la base: M1-M16cor.mat2<-hetcor(cencat[,1:16],ML=FALSE,digits=3)# Se le da formato a la matriz anterior# Se redondean los resultados de esta matriz a tres dígitosmat.cor2<-matrix(cor.mat2$correlations,nrow=16,ncol=16,byrow=TRUE,list(c("M1","M2","M3","M4","M5","M6","M7","M8","M9","M10","M11","M12","M13","M14","M15","M16"), c("M1","M2","M3","M4","M5","M6","M7","M8","M9","M10","M11","M12","M13","M14","M15","M16")))tetra.corre<-round(mat.cor2,digits=3)# Función que calcula el estadístico KMOkmo.test <- function(M){library(corpcor) cor.sq = cor(M)^2 cor.sumsq = (sum(cor.sq)-dim(cor.sq)[1])/2

Page 98: Analisis Factorial CENEVAL

96 Cuaderno técnico 6

pcor.sq = cor2pcor(cor(M))^2 pcor.sumsq = (sum(pcor.sq)-dim(pcor.sq)[1])/2 kmo = sum(pcor.sq)/(sum(pcor.sq)+pcor.sumsq) return(kmo)} kmo.test(tetra.corre)det(tetra.corre)# Extracción de los factores por el método de principal axis factor y a partir de la matriz de correlacionesf.cat<-factor.pa(tetra.corre,nfactors=1,residuals=TRUE,rotate="none", n.obs=3943,min.err=0.0001,digits=3,max.iter=50)#Todos los resultados que guarda el objeto f.cat. Para ver cada resultado hay que escribir f.cat$nombrenames(f.cat)#Para construir los puntajes factoriales, cargamos la base pero sin declarar como factores(STRINGS) a las variablesX<-read.table("C:/Documents and Settings/USUARIO/Desktop/BASE-MAT.txt",header=TRUE)#Vamos a construir "a mano" los factores.R<-tetra.correL<-f.cat$loadingsY<-X[,1:16]factores<-t(t(L)%*%solve(R)%*%t(Y))

Page 99: Analisis Factorial CENEVAL
Page 100: Analisis Factorial CENEVAL
Page 101: Analisis Factorial CENEVAL

El Centro Nacional de Evaluación para la Educación Superior es una asociación civil sin fines de lucro constituida formalmente el 28 de abril de 1994, como consta en la escritura pública número 87036 pasada ante la fe del notario 49 del Distrito Federal. Sus órganos de gobierno son la Asamblea General, el Consejo Directivo y la Dirección General. Su máxima autoridad es la Asamblea General, cuya integración se presenta a continuación, según el sector al que perte-necen los asociados, así como los porcentajes que les corresponden en la toma de decisiones:

Asociaciones e instituciones educativas (40%): Asociación Nacional de Universidades e Instituciones de Educación Superior, A.C. (anuies); Federación de Instituciones Mexicanas Particula-res de Educación Superior, A.C. (Fimpes); Instituto Politécnico Nacional (ipn); Instituto Tecnológico y de Estudios Superiores de Monterrey (itesm); Universidad Autónoma del Estado de México (uaem); Universidad Autónoma de San Luis Potosí (uaslp); Universi-dad Autónoma de Yucatán (uaDY); Universidad Nacional Autónoma de México (unam); Universidad Popular Autónoma del Estado de Puebla (upaep); Universidad Tecnológica de México (unitec).

Asociaciones y colegios de profesionales (20%): Barra Mexicana Colegio de Abogados, A.C.; Colegio Nacional de Actuarios, A.C.; Colegio Nacional de Psicólogos, A.C.; Federación de Colegios y Asociaciones de Médicos Veterinarios y Zootecnistas de México, A.C.; Instituto Mexicano de Contadores Públicos, A.C.

Organizaciones productivas y sociales (20%): Academia de Ingeniería, A.C.; Academia Mexicana de Ciencias, A.C.; Academia Nacional de Medicina, A.C.; Fundación ICA, A.C.

Autoridades educativas gubernamentales (20%): Secretaría de Educación Pública.

• Ceneval, A.C.®, exani-i®, exani-ii® son marcas registradas ante la Secretaría de Co-mercio y Fomento Industrial con el número 478968 del 29 de julio de 1994. eGel®, con el número 628837 del 1 de julio de 1999, y exani-iii®, con el número 628839 del 1 de julio de 1999.

• Inscrito en el Registro Nacional de Instituciones Científicas y Tecnológicas del Consejo Nacional de Ciencia y Tecnología con el número 506 desde el 10 de marzo de 1995.

• Organismo Certificador acreditado por el Consejo de Normalización y Certificación de Competencia Laboral (conoceR) (1998).

• Miembro de la International Association for Educational Assessment.• Miembro de la European Association of Institutional Research.• Miembro del Consortium for North American Higher Education Collaboration.• Miembro del Institutional Management for Higher Education de la ocDe.

Page 102: Analisis Factorial CENEVAL

La publicación de esta obra la realizóel Centro Nacional de Evaluaciónpara la Educación Superior, A.C.

Se terminó de imprimir el 24 de abril de 2009en los talleres de Winkilis, Bugambilias 131,Col. El Rosario, México, D.F., C.P. 09930,

con un tiraje de 1000 ejemplares

Page 103: Analisis Factorial CENEVAL
Page 104: Analisis Factorial CENEVAL