M_spss Analisis Factorial

66
MANUAL DEL CURSO SPSS: ANÁLISIS FACTORIAL Y DE VARIANZA

Transcript of M_spss Analisis Factorial

Page 1: M_spss Analisis Factorial

MANUAL DEL CURSO SPSS:

ANÁLISIS FACTORIAL Y DE VARIANZA

Page 2: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza I

ÍNDICE DE CONTENIDOS

CAPÍTULO 1: ANÁLISIS DE VARIANZA DE UN FACTOR

1.1 ANÁLISIS DE VARIANZA DE UN FACTOR.............................................................1 1.2 RESULTADOS DE LA MUESTRA ..........................................................................2 1.3 PARA OBTENER UN ANÁLISIS DE VARIANZA DE UN FACTOR..................................4 1.4 ANOVA DE UN FACTOR: CONTRASTE .................................................................4 1.5 ANOVA DE UN FACTOR: CONTRASTES POST HOC ................................................5 1.6 ANOVA DE UN FACTOR: OPCIONES ...................................................................6

CAPÍTULO 2: MLG ANÁLISIS UNIVARIANTE

2.1 OBTENER UN ANÁLISIS MLG UNIVARIANTE.........................................................8 2.2 MLG: MODELO ...............................................................................................9 2.2.1 CONSTRUIR LOS TÉRMINOS .............................................................................9 2.2.2 SUMA DE CUADRADOS .................................................................................. 10 2.2.3 MLG UNIVARIANTE: CONTRASTES ................................................................... 11 2.3 MLG UNIVARIANTE: GRÁFICOS DE PERFIL ........................................................ 11 2.4 MLG UNIVARIANTE: COMPARACIONES MÚLTIPLES POST HOC PARA LAS MEDIAS OBSERVADAS .............................................................................................. 12 2.5 MLG: GUARDAR ........................................................................................... 14 2.6 MLG UNIVARIANTE: OPCIONES ....................................................................... 15 2.7 FUNCIONES ADICIONALES DE LOS COMANDOS UNIANOVA ................................. 17 2.8 PARA OBTENER UN ANÁLISIS FACTORIAL ......................................................... 19 2.8.1 SELECCIÓN DE CASOS EN EL ANÁLISIS FACTORIAL ........................................... 19 2.9 ANÁLISIS FACTORIAL: DESCRIPTIVOS ............................................................. 20 2.10 ANÁLISIS FACTORIAL: EXTRACCIÓN................................................................ 21 2.11 ANÁLISIS FACTORIAL: ROTACIÓN ................................................................... 21 2.12 ANÁLISIS FACTORIAL: PUNTUACIONES FACTORIALES ........................................ 22 2.13 ANÁLISIS FACTORIAL: OPCIONES ................................................................... 23 2.14 EJEMPLO..................................................................................................... 23 2.14.1 RESULTADOS............................................................................................... 26

CAPÍTULO 3: ANÁLISIS DE CONGLOMERADOS JERÁRQUICO

3.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS JERÁRQUICO ........................ 32 3.2 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: MÉTODO .................................... 32 3.3 ANÁLISIS DE CONGLOMERADOS: ESTADÍSTICOS .............................................. 34 3.4 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: GRÁFICOS .................................. 35 3.5 ANÁLISIS DE CONGLOMERADOS: GUARDAR VARIABLES NUEVAS ......................... 35 3.6 EJEMPLO..................................................................................................... 36 3.6.1 PLANTEAMIENTOS PREVIOS ........................................................................... 36 3.6.2 APROXIMACIÓN INICIAL................................................................................ 37 3.6.3 PRIMER ANÁLISIS: DISTANCIA EUCLÍDEA AL CUADRADO Y VINCULACIÓN INTER- GRUPOS ..................................................................................................... 38 3.6.4 SEGUNDO ANÁLISIS: DISTANCIA EUCLÍDEA AL CUADRADO Y VECINO MÁS PRÓXIMO .................................................................................................... 44

Page 3: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza II

CAPÍTULO 4: ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS

4.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS ....................... 48 4.2 EFICACIA DEL ANÁLISIS DE CONGLOMERADOS DE K – MEDIAS ........................... 48 4.3 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: ITERAR ..................................... 49 4.4 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: GUARDAR.................................. 49 4.5 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: OPCIONES ................................. 50 4.6 EJEMPLO..................................................................................................... 50 4.7 VENTAJAS DEL ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS............................. 55

CAPÍTULO 5: ANÁLISIS DE CORRESPONDENCIA

5.1 OBTENER UN ANÁLISIS DE CORREPONDENCIA .................................................. 57 5.1.1 DEFINIR EL RANGO DE LAS FILAS ................................................................... 57 5.1.2 DEFINIR EL RANGO DE LAS COLUMNAS............................................................ 58 5.2 ANÁLISIS DE CORRESPONDENCIA: MODELO..................................................... 59 5.3 ANÁLISIS DE CORRESPONDENCIA: ESTADÍSTICOS ............................................ 61 5.4 ANÁLSIS DE CORRESPONDENCIA: GRÁFICOS.................................................... 62 5.5 FUNCIONES ADICIONALES DEL COMANDO CORRESPONDENCE ............................ 62

Page 4: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 1

CAPÍTULO 1: ANÁLISIS DE VARIANZA DE UN FACTOR 1.1 ANÁLISIS DE VARIANZA DE UN FACTOR El procedimiento ANOVA de un factor genera u90 n análisis de varianza de un factor para una variable dependiente cuantitativa respecto a una única variable de factor (la variable independiente). El análisis de varianza se utiliza para contrastar la hipótesis de que medias son iguales. Esta técnica es una extensión de la Prueba t para dos muestras. Además de determinar que existen diferencias entre las medias, es posible que desee saber qué medias difieren. Existen dos tipos de contrastes para comparar medias: los contrastes a priori y las pruebas post hoc.

Los contrastes a priori se plantean antes de ejecutar el experimento y las pruebas post hoc se realizan después de haber llevado a cabo el experimento. También se puede contrastar las tendencias existentes a través de las categorías. Ejemplo. Nos presentan datos para tres tratamientos contra el acné, de tres doctores distintos. La primera variable nos describe el porcentaje de mejoras, y la segunda el doctor que trató al paciente. Se desea saber si el tratamiento que se reciba influye en las mejoras. Por otro lado, los doctores Rodríguez y Júcar pertenecen a una asociación de dermatólogos altamente selectiva. Queremos saber si existen diferencias entre los doctores pertenecientes a dicha asociación con respecto al tercer doctor, el doctor Skoll. Estadísticos.

Para cada grupo:

Número de casos Media Desviación típica Error típico de la media Mínimo Máximo Intervalo de confianza al 95% para la media Prueba de Levene sobre la homogeneidad de las varianzas

Tabla de análisis de varianza para cada variable dependiente

Contrastes a priori especificados por el usuario

Page 5: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 2

Las pruebas de rango y de comparaciones múltiples post hoc: Bonferroni, Sidak, diferencia honestamente significativa de Tukey, GT2 de Hochberg, Gabriel, Dunnet, prueba F de Ryan-Eniot-Gabriel- Welchs (R-E-G-W F), prueba de rango de Ryan-Eniot-Gabriel-Welchs (R-E-G-W Q), T2 de Tamhane, T3 de Dunnet, Games-Howell, C de Dunett, prueba de rango múltiple de Duncan, Student-Newman-Keuls (S-N-K), Tukey b, Waller-Duncan, Scheffé y diferencia menos significativa.

Datos. Los datos de variable de factor deben ser enteros y la variable dependiente

debe ser cuantitativa (nivel de medida de intervalo). Supuestos. Cada grupo es una muestra aleatoria independiente procedente de una

población normal. El análisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos. Los grupos deben proceder de las poblaciones con varianzas iguales. Para contrastar este supuesto utilizamos la prueba de Levene de homogeneidad de varianzas.

1.2 RESULTADOS DE LA MUESTRA A continuación, vemos un ejemplo de resultados de un contraste ANOVA. Una serie de descriptivos para cada valor del factor:

La prueba de homogeneidad:

El contraste ANOVA, que en este caso resulta significativo

Page 6: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 3

Un contraste Post Hoc (Dunnet) de las diferencias de medias agrupadas:

Un gráfico de las medias para cada valor del factor.

Page 7: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 4

1.3 PARA OBTENER UN ANÁLISIS DE VARIANZA DE UN FACTOR Vamos al menú Analizar - Comparar medias - ANOVA de un factor... Obtenemos el cuadro de dialogo ANOVA de un factor

Seleccionamos una o más variables dependientes Seleccionamos una sola variable de factor independiente.

1.4 ANOVA DE UN FACTOR: CONTRASTE Si hacemos clic sobre el botón Contrastes, obtenemos el siguiente cuadro de diálogo:

Podemos dividir las sumas de cuadrados inter-grupos en componentes de tendencia o especificar c ontrastes a priori.

Polinómico. Divide las sumas de cuadrados inter-grupos en componentes de tendencia. Puede contrastar la existencia de tendencia en la variable dependiente a través de los niveles ordenados de la variable de factor. Por ejemplo, podría contrastar si existe una tendencia lineal (creciente o decreciente) en el salario, a través de los niveles ordenados de la titulación mayor obtenida.

Orden. Se puede elegir un orden polinómico 1º, 2º, 3º, 4º o 5º. Coeficientes. Contrastes a priori, especificados por el usuario, que serán contrastados

mediante el estadístico t. Introduzca un coeficiente para cada grupo (Categoría) de la variable factor y pulse en Añadir después de cada entrada. Cada nuevo valor se añade

Page 8: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 5

al final de la lista de los coeficientes. Para especificar conjuntos de contrastes adicionales, pulse en Siguiente y Previo para desplazarse entre los conjuntos de contrastes.

El orden de los coeficientes es importante porque se corresponde con el orden ascendente de los valores de las categorías de la variable de factor. El primer coeficiente en la lista se corresponde con el menor de los valores del grupo en la variable factor y el ultimo coeficiente se corresponde con el valor más alto. Por ejemplo, si existen seis categorías en la variable factor, los coeficientes -1, 0, 0, 0, 0,5 y 0,5 contrastan con el primer grupo con los grupos quinto y sexto. Para la mayoría de las aplicaciones, la suma de los coeficientes debería ser 0. Los conjuntos que no sumen 0 también se pueden utilizar, pero aparecerá un mensaje de advertencia. 1.5 ANOVA DE UN FACTOR: CONTRASTES POST HOC Si hacemos clic sobre el botón Post Hoc, obtenemos el siguiente cuadro de diálogo:

Pruebas: Una vez que se ha determinado que existen diferencias entre las medias, las pruebas de rango post hoc y las comparaciones múltiples por parejas permiten determinar qué medias difieren.

Las pruebas de rango identifican subconjuntos homogéneos de medias que no se diferencian entre sí, las comparaciones múltiples por parejas contrastan la diferencia entre cada pareja de medias y dan lugar a una matriz donde los asteriscos indican las medias de grupo diferentes a un nivel alfa de 0,05. La prueba de la diferencia significativa de Tukey, la GT2 de Hochberg, la prueba de Gabriel y la prueba de Schefflé son pruebas de comparación múltiples y pruebas de rango. Otras pruebas de rango disponibles son Tukey b, S-N-K, Duncan, R-E-G-W F, y Waller-Duncan. Las pruebas de comparación múltiples disponibles son Bonferroni. Las pruebas de comparaciones múltiples que no suponen varianzas iguales son T2 de Tamhane, T3 de Dunnett, Games-Howell y C de Dunnett.

Page 9: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 6

1.6 ANOVA DE UN FACTOR: OPCIONES Hacemos clic sobre el botón Estadísticos:

Estadísticos: Elija uno entre los siguientes:

Descriptivos: Calcula los siguientes estadísticos: Números de casos, Media, Desviación típica, Error típico de la media, Mínimo, Máximo y los Intervalos de confianza al 95% de cada variable dependiente para cada grupo.

Homogeneidad de varianzas: Calcula el estadístico de Levene para contrastar la igualdad de las varianzas de grupo. Esta prueba no depende del supuesto de normalidad. Gráfico de medias: Muestra un gráfico que representa las medias de los subgrupos.

Valores perdidos: Controla el tratamiento de los valores perdidos.

Excluir casos según análisis: Un caso que tenga un valor perdido para la variable dependiente o la variable de factor en un análisis determinado, no se utiliza en ese análisis.

Excluir según lista: Se excluyen de todos los casos con valores perdidos para la variable de factor o para cualquier variable dependiente incluida en la lista de variables dependientes en el cuadro de diálogo principal. Si no se especifican varias variables dependientes, esta opción no funciona.

Page 10: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 7

CAPÍTULO 2: MLG ANÁLISIS UNIVARIANTE El procedimiento MLG Univariante proporciona un análisis de regresión y un análisis de varianza para una variable dependiente mediante uno o más factores o variables. Las variables de factor dividen la población en grupos. Con el procedimiento Modelo Lineal general se pueden contrastar hipótesis nulas sobre los efectos de otras variables en las medias de varias agrupaciones de una única variable dependiente. Se pueden investigar las interacciones entre los factores así como los efectos de los factores individuales, algunos de los cuales pueden ser aleatorios. Además se pueden incluir los efectos de las covariables y las interacciones de covariables con los factores. Para el análisis de regresión, las variables independientes se especifican como covariables. Se pueden contrastar tanto los modelos equilibrados como los no equilibrados. Se considera que un diseño está equilibrado si cada casilla del modelo contiene el mismo número de casos. Además de contrastar hipótesis, MLG Univariante genera estimaciones de los parámetros. También se encuentran disponibles los contrastes a priori de uso más habitual para contrastar la hipótesis. Además, si una prueba F global ha mostrado cierta significación, pueden emplearse las pruebas post hoc para evaluar las diferencias entre las medias específicas. Las medias marginales estimadas ofrecen estimaciones de valores de las medias pronosticadas para las casillas del modelo; los gráficos de perfil de estas medias permiten observar fácilmente alguna de estas relaciones. En su archivo de datos puede guardar residuos, valores pronosticados, distancia de Cook y valores de influencia como variables nuevas para comprobar los supuestos.

Ejemplo: se recogen datos de los corredores individuales en el maratón de Chicago durante varios años. El tiempo final de cada corredor es la variable dependiente. Influyen otros factores como el clima (frío, calor o temperatura agradable), los meses de entrenamiento, el número de maratones anteriores y el sexo. La edad se considera una covariable.

Métodos: Las sumas de cuadrados de Tipo I, Tipo II, Tipo III y Tipo IV pueden emplearse para evaluar las diferentes hipótesis. Tipo III es el valor por defecto.

Estadísticos: Las pruebas de rango post hoc y las comparaciones múltiples: diferencia menos significativa, Bonferroni, Sidak, Scheffle, múltiples F de Ryan-Einot-Gabriel-Welsch, diferencia significativa de Turkey b, pruebas t de Waller Duncan, Dunett, T2 de Tamhane, T3 de Dunnett, Games-Howell y C de Dunnett. Estadísticos descriptivos: medias observadas, desviaciones típicas y frecuencias de todas las variables dependientes en todas las casillas. Prueba de Levene para la homogeneidad de varianzas.

Page 11: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 8

Gráficos: Diagramas de dispersión por nivel, gráficos de residuos, gráficos de perfil. Datos: La variable dependiente es cuantitativa. Los factores son categóricos; pueden

tener valores numéricos o valores de cadena de hasta ocho caracteres. Las covariables son variables cuantitativas que están relacionadas con la variable dependiente.

Supuestos: Los datos son una muestra aleatoria de una población normal; en la población todas las varianzas de las casillas son iguales. El análisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos.

Para comprobar los supuestos, se puede utilizar la prueba de homogeneidad de varianzas y los gráficos de dispersión por nivel. También se puede examinar los residuos y los gráficos de residuos. 2.1 OBTENER UN ANÁLISIS MLG UNIVARIANTE Vamos al menú Analizar - Modelo lineal general - Univariante.

Seleccionamos la variable dependiente. Seleccionamos variables para factores fijos, factores aleatorios y covariables, en función

de los datos. Para especificar una variable de ponderación, utilizamos Ponderación MCP.

Page 12: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 9

2.2 MLG: MODELO Hacemos clic ahora sobre el botón Modelo y obtenemos el siguiente cuadro de diálogo:

Especificar modelo: Un modelo factorial completo contiene todos los efectos principales del factor, todos los efectos principales de covariables y todas las interacciones factor por factor. No contiene interacciones de covariable. Seleccionamos Personalizado para especificar solo un subconjunto de interacciones o para especificar interacciones factor por covariable. Debemos indicar todos los términos que queremos incluir en el modelo.

Factores y covariables: Muestra una lista de los factores y las covariables etiquetando con (F) los factores fijos y con ( C ) las covariables. En un análisis univariante, (R) indica un factor aleatorio.

Modelo: El modelo depende de la naturaleza de los datos. Después de seleccionar Personalizado, podemos elegir los efectos principales y las interacciones que sean de interés para el análisis.

Suma de cuadrados: Determina el método para calcular las sumas de los cuadrados. Para los modelos equilibrados o no equilibrados con todas las casillas. El método más utilizado de suma de cuadrados es el Tipo III.

Incluir la intersección en el modelo: La intersección se incluye normalmente en el modelo.

2.2.1 CONSTRUIR LOS TÉRMINOS Para las covariables y los factores seleccionados:

Interacción: crea el término de interacción de mayor nivel de todas las variables seleccionadas, este es el valor por defecto.

Efectos principales: crea un término de efectos principales para cada variable seleccionada.

Todas de 2: crea todas las interacciones dobles posibles de las variables seleccionadas. Todas de 3: crea todas las interacciones triples posibles de las variables seleccionadas. Todas de 4: crea todas las interacciones cuádruples posibles de las variables

seleccionadas. Todas de 5: crea todas las interacciones quíntuples posibles de las variables

seleccionadas.

Page 13: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 10

2.2.2 SUMA DE CUADRADOS

Tipo I: este método también es conocido como descomposición jerárquica del método de suma de cuadrados. Cada término se corrige solo respecto al término que le precede en el modelo.

Se utiliza normalmente para:

Un modelo ANOVA equilibrado en el que se especifica cualquier efecto principal antes de cualquier efecto de interacción de primer orden, cualquier efecto de interacción de primer orden se especifica antes de cualquier efecto de interacción de segundo orden y así sucesivamente.

Un modelo de regresión polinómico en el que se especifica cualquier termino de orden inferior antes de cualquier término de orden superior.

Un modelo anidado en el que el primer efecto especificado esta anidado dentro del segundo efecto especificado, el segundo está anidado al tercero y así sucesivamente. Esta forma de anidación solamente se puede especificar utilizando la sintaxis.

Tipo II: este método calcula cada suma de cuadrados del modelo considerando solo los

efectos pertinentes. Un efecto pertinente es un efecto que no está contenido en el efecto examinado. Se utiliza normalmente para:

Un modelo ANOVA equilibrado Cualquier método que solo tenga efectos de factor principal Cualquier modelo de regresión Un diseño anidado

Tipo III: es el método por defecto. Este método calcula las sumas de cuadrados de un

efecto del diseño como las sumas de cuadrados corregidas respecto a cualquie r otro efecto que no lo contenga y ortogonales para cualquier efecto que lo contenga.

La suma de cuadrados de Tipo III, tiene una gran ventaja por ser invariables respecto a la frecuencia de casillas, siempre que la forma general de estimabilidad permanezca constante. En un diseño factorial sin casillas perdidas, este método equivale a la técnica de cuadrados ponderados de medias de Yates. Se utiliza normalmente para:

Cualquiera de los modelos que aparecen en Tipo I y Tipo II Cualquier modelo equilibrado o desequilibrado sin casillas vacías

Tipo IV: este método está diseñado para una situación en la que faltan casillas. Para

cualquier efecto F en el diseño. Si F no está contenida en cualquier otro efecto, entonces Tipo IV = Tipo III = Tipo II. Cuando F está contenida en otros efectos, el tipo IV distribuye equitativamente los contrastes que se realizan entre los parámetros en F a todos los efectos de nivel más alto. Se utiliza normalmente para:

Cualquiera de los métodos que aparecen en Tipo I y Tipo II Cualquier modelo equilibrado o no equilibrado con casillas vacías

Page 14: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 11

2.2.3 MLG UNIVARIANTE: CONTRASTES Hacemos clic sobre el botón Contrastes y obtenemos el siguiente cuadro de diálogo:

Los contrastes se utilizan para contrastar las diferencias entre los niveles de un factor. Puede especificar un contraste para cada factor en el modelo. Los contrastes representan las combinaciones lineales de los parámetros. El contraste de hipótesis se basa en la hipótesis nula LB = 0, donde L es la matriz de coeficientes de contraste y B es el vector de parámetros. Cuando se especifica un contraste, SPSS crea una matriz L en la que las columnas correspondientes al factor coinciden con el contraste. El resto de las columnas se corrigen para que la matriz L sea estimable.

Los resultados incluyen un estadístico F para cada conjunto de contrastes. Los contrastes disponibles son de desviación, de diferencias, de Helmert, repetidos y

polinómicos.

Tipos de contrastes:

Desviación: compara la media de cada nivel con la media de todos los niveles Simple: compara la media de cada nivel con la media de un nivel especificado Diferencia: compara la media de cada nivel con los niveles anteriores. Helmert: compara la media de cada nivel del factor con la media de los niveles siguientes.

Repetida: compara la media de cada nivel, excepto el último, con la media del nivel siguiente.

Polinómico: compara el efecto lineal, cuadrático, cúbico, etc. 2.3 MLG UNIVARIANTE: GRÁFICOS DE PERFIL Hacemos clic sobre el botón Gráficos y obtenemos el siguiente cuadro de diálogo:

Page 15: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 12

Los gráficos de perfil (gráficos de interacción) sirven para comparar las medias marginales en el modelo. Un gráfico de perfil es un gráfico de líneas en el que cada punto indica la media marginal estimada de una variable dependiente (corregida respecto a las covariables) en un nivel de un factor. Los niveles de un segundo factor se pueden utilizar para generar líneas diferentes. Cada nivel en un tercer factor se puede utilizar para generar un gráfico diferente. Todos los factores fijos y aleatorios, si existen, están disponibles para los gráficos. Para los análisis multivariados, los gráficos de perfil se crean para cada variable dependiente. En un análisis de medidas repetidas, es posible utilizar tanto los factores inter-sujetos como los intra-sujetos en los gráficos de perfil. Las opciones MLG-Multivariante y MLG- Medidas repetidas solo estarán disponibles si tiene instalada la opción Modelos avanzados. Un gráfico de perfil de un factor muestra si las medias marginales estimadas aumentan o disminuyen a través de los niveles. Para dos o más factores, las líneas paralelas indican que no existe interacción entre los factores, lo que significa que puede investigar los niveles de un único factor. Las líneas no paralelas indican un la interacción. Después de especificar un gráfico mediante la selección de los factores del eje horizontal y, de modo opcional, los factores para distintas líneas y gráficos. 2.4 MLG UNIVARIANTE: COMPARACIONES MÚLTIPLES POST HOC PARA LAS

MEDIAS OBSERVADAS Hacemos clic sobre el botón Post Hoc y obtenemos el siguiente cuadro de diálogo:

Page 16: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 13

Comparaciones múltiples post hoc. Una vez establecido que existen diferencias entre las medias, las pruebas de rango post hoc y las comparaciones múltiples por parejas permiten determinar que medias difieren. Las comparaciones se realizan entre valores sin corregir. Estas pruebas solo se utilizan solo para los factores inter-sujetos fijos. En MLG Medidas repetidas, estas pruebas no estarán disponibles si no hay factores inter-sujetos. Para MLG Multivariante y MLG Medidas repetidas, si hay más de una variable dependiente, las pruebas post hoc se realizan por separado para cada variable dependiente. Los procedimientos MLG Multivariable y MLG Medidas repetidas solo estarán disponibles si se ha instalado la opción Estadísticas Avanzadas. En las pruebas de Bonferroni y de la diferencia honestamente significativa de Tukey se usan normalmente pruebas de comparaciones múltiples. La prueba de Bonferroni, basada en el estadístico t de Student, corrige el nivel critico por el hecho de que se realizan comparaciones múltiples. La Prueba t de Sidaktambién ajusta el nivel de significación y ofrece limites más rígidos que la prueba de Bonferroni. La prueba de la diferencia honestamente significativa de Tukey utiliza el estadístico de rango estudentizado para hacer todas las comparaciones de pares entre los grupos y calcula el porcentaje de error del experimento en relación con el porcentaje de error de todas las comparaciones por pares. Cuando se contrasta un gran numero de parejas de medias, la prueba de la diferencia honestamente significativa de Tukey es mas potente que la prueba de Bonferroni. Para una pequeña cantidad de pares, Bonferroni es más idóneo. GT2 de Hochberg es muy parecido a la prueba de la diferencia honestamente significativa de Tukey, pero se usa el modulo máximo estudentizado. Normalmente, la prueba de Tukey es mas potente. La prueba de comparación por parejas de Gabriel también utiliza el modulo máximo estudentizado y es, por lo general, más potente que la GT2 De Hochberg cuando los tamaños de las casillas son desiguales. La prueba de Gabriel se puede transformar en liberal cuando los tamaños de las casillas varían mucho. La prueba t para la comparación múltiple por pares de Dunnet compara un conjunto de tratamientos con una media de control simple. La ultima categoría es la categoría de control por defecto. Si lo desea puede seleccionar la primera categoría. Además, puede elegir una prueba unilateral o bilateral. Para comprobar que la media de cualquier nivel, salvo la categoría de control, del factor no es igual a la de la categoría de control use una prueba

Page 17: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 14

bilateral. Para contrastar si la media en cualquier nivel del factor es menor que la de la categoría de control, seleccione <Control. De la misma forma, para probar si la media de cualquier nivel de factor es mayor que la de la categoría de control, seleccione >Control. Ryan, Einot, Gabriel y Welsch (R-E-G-W) desarrollaron dos pruebas de rangos múltiples por pasos. Los procedimientos múltiples por pasos comparan en primer lugar si las medias son todas iguales. Si no son iguales, se contrasta la igualdad en subconjuntos de medias. R-E-G-W F se basa en una prueba F y R-E-G-W Q se basa en el rango estudentizado. Estas pruebas funcionan mejor que las de los rangos múltiples de Duncan y de Student- Newman- Keuls, que también son procedimientos múltiples por pasos, pero que no son recomendables si los tamaños de las casillas son desiguales. Cuando las varianzas no son iguales, usaremos el T2 de Tamhane, una prueba conservadora de comparaciones por parejas basada en una prueba t, el T3 de Dunnet, prueba de comparaciones por parejas basada en el modulo máximo estudentizado, prueba de comparaciones por parejas de Games - Howell o C de Dunnett (prueba de comparaciones por parejas basada en el rango estudentizado). La prueba de rangos múltiples de Duncan, la de Student – Newman – Keuls (S-N-K), y la b de Tukey son pruebas de rangos que asignan rangos a medias de grupo y calculan un valor de rango. Estas pruebas no se utilizan con tanta frecuencia como las pruebas explicadas anteriormente. La prueba t de Waller – Duncan utiliza una aproximación Bayesiana. Esta prueba de rango emplea la media armónica del tamaño de la muestra cuando los tamaños de la prueba no son iguales. El nivel de significación de la prueba de la prueba de Scheffé esta pensado para permitir todas las combinaciones lineales posibles de las medias de grupo que se van a contrastar, no solo las comparaciones por parejas en esta función. El resultado es que la prueba de Scheffé es, por lo general, más conservadora que otras pruebas, lo que significa que se precisa una mayor diferencia entre las medias para la significación. La prueba de comparaciones múltiples por parejas de la diferencia menos significativa (DMS) es equivalente a múltiples pruebas t individuales entre todas las parejas de grupos. La desventaja de esta prueba es que no se realiza ninguno intento de rectificar el nivel critico para realizar las comparaciones múltiples. Pruebas que se muestran: Se proporcionan comparaciones por parejas para DMS, Sidak, Bonferroni, Games y Howell, T2 y T3 de Tamhane, C y T3 de Dunnett. También se facilitan subconjuntos homogéneos para las pruebas de rango para S-N-K, Tukey-b. Duncan, R-E-G-W F, R-E-G-W Q y Waller. La prueba de la diferencia honestamente significativa de Tukey, GT2 de Hochberg, la prueba de Gabriel y la prueba de Scheffé son tanto pruebas de comparaciones múltiples como de rango. 2.5 MLG: GUARDAR Hacemos clic sobre el botón Guardar y aparece el siguiente cuadro de diálogo:

Page 18: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 15

Es posible guardar los valores pronosticados por el modelo, los residuos y las medidas relacionadas como variables nuevas en el Editor de datos. Muchas de estas variables las podemos utilizar para examinar supuestos sobre los datos. Si queremos almacenar los valores para utilizarlos posteriormente en otra sesión de SPSS, los guardaremos en el archivo de datos actual.

Valores pronosticados. Son los valores que predice el modelo para ada caso. Están disponibles los valores pronosticados no tipificados y los errores tipificados de los valores pronosticados. Si hemos seleccionado una variable MCP (WLS), dispondremos además de la opción de valores pronosticados no tipificados ponderados.

Diagnósticos. Son medidas para identificar casos con combinaciones poco habituales de valores para las variables independientes y casos que puedan tener un gran impacto en el modelo. Las opciones disponibles incluyen la Distancia de Cook y los valores de influencia no centrados.

Residuos. Un residuo no tipificado es el valor real de la variable dependiente menos el valor pronosticado por el modelo. También se encuentran disponibles residuos eliminados, estudentizados y tipificados. Si hemos seleccionado una variable MCP, contaremos asimismo con residuos no tipificados ponderados.

Guardar en archivo nuevo. Graba un archivo de datos de SPSS que contiene una matriz de varianza-covarianza de las estimaciones de los parámetros del modelo. Asimismo, para cada variable dependiente habrá una fila de estimaciones de los parámetros, una fila de valores de significación para los estadísticos t correspondientes a las estimaciones de los parámetros y una fila de grados de residuos de libertad. En un modelo multivariado, existen filas similares para cada variable dependiente.

Si lo desea, puede usar este archivo matricial en otros procedimientos que lean un archivo matricial de SPSS. 2.6 MLG UNIVARIANTE: OPCIONES Hacemos clic sobre el botón Opciones y aparece el siguiente cuadro de diálogo:

Page 19: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 16

Este cuadro de dialogo contiene estadísticos opcionales. Los estadísticos se calculan utilizando un modelo de efectos fijos.

Medias marginales estimadas. Seleccionamos los factores e interacciones para los que deseamos obtener estimaciones de las medias marginales de la población en las casillas. Estas medias se corrigen respecto a las covariables si las hay.

Comparar los efectos principales. Proporciona comparaciones por parejas no corregidas entre las medias marginales estimadas para cualquier efecto principal del modelo, tanto para los factores inter-sujetos como para los intra-sujetos. Este elemento solo se encuentra disponible si los efectos principales están seleccionados en las lista Mostrar las medias para.

Ajuste del intervalo de confianza. Seleccione un ajuste de diferencia menor significativa (DMS), Bonferroni o Sidak para los intervalos de confianza y la significación. Este elemento solo aparece si se selecciona Comparar los efectos principales.

Mostrar. Seleccionamos Estadísticos descriptivos para generar medias observadas, desviaciones típicas y recuentos para cada variable dependiente en todas las celdas. La opción Estimaciones de tamaño del efecto ofrece un valor parcial de eta-cuadrado para cada efecto y cada estimación de parámetros. El estadístico eta-cuadrado describe la proporción de variabilidad total atribuible a un factor. Seleccionamos Potencia observada para obtener la potencia de la prueba cuando la hipótesis alternativa se ha establecido basándose en el valor observado.

Seleccionamos estimaciones de los parámetros para generar las estimaciones de los

parámetros, los errores típicos, las pruebas t, los intervalos de confianza y la potencia observada para cada prueba.

Seleccionamos Matriz de coeficientes de contraste para obtener la matriz L. Las Pruebas de homogeneidad generan las pruebas de homogeneidad de varianzas de

Levene para cada variable dependiente en todas las combinaciones de nivel de los factores inter-sujetos y solo para factores inter-sujetos.

Page 20: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 17

Las opciones de diagramas de dispersión por nivel y gráfico de los residuos son útiles para comprobar los supuestos sobre los datos. Estos elementos no estuvieran activos si no hay factores. Seleccione Gráfico de los residuos para producir un gráfico de los residuos observados respecto a los pronosticados respecto a los tipificados para cada variable dependiente. Estos gráficos son útiles para investigar el supuesto de las varianzas iguales. Seleccionamos Falta de Ajuste para comprobar si el modelo puede describir de forma adecuada la relación entre la variable dependiente y las variables independientes. La Función estimable general permite construir pruebas de hipótesis personales basadas en la función estimable general. Las filas en las matrices de coeficientes de contraste son combinaciones lineales de la función estimable general.

Nivel de significación. Puede que nos interese corregir el nivel de significación usado en las pruebas post hoc y el nivel de confianza empleado para construir intervalos de confianza. El valor especificado también se utilizara para calcular la potencia observada para la prueba. Si especificamos un nivel de significación, el cuadro de dialogo mostrará el nivel asociado de los intervalos de confianza.

2.7 FUNCIONES ADICIONALES DE LOS COMANDOS UNIANOVA El lenguaje de comandos SPSS también permite:

Especificar efectos anidados en el diseño (utilizando el subcomando DESIGN) Especificar contrastes de los efectos frente a una combinación lineal de efectos o un

valor (Utilizando el subcomando TEST) Especificar contrastes múltiples (utilizando el subcomando CONTRAST) Incluir los valores perdidos por el usuario (utilizando el subcomando MISSING) Especificar criterios EPS (mediante el subcomando CRITERIA) Construir:

Una matriz L, una matriz M o una matriz K personalizada (utilizando los subcomandos LMATRIX, MMATRIX y KMATRIX).

Especificar una categoría de referencia intermedia (utilizando el subcomando

CONTRAST). Especificar término de error para las comparaciones post hoc (utilizando el subcomando

POST HOC) Calcular medias marginales estimadas para cualquier factor o interacción entre los

factores en la lista de factores (utilizando el subcomando EMMEANS). Especificar nombres para las variables temporales (utilizando el subcomando SAVE) Construir un archivo de datos matricial de correlaciones ( usando el subcomando

OUTFILE) Construir un archivo de datos matricial que contenga estadísticos de la tabla de ANOVA

inter-sujetos (usando el subcomando OUTFILE). Guardar la matriz del diseño en un nuevo archivo de datos ( usando el subcomando

OUTFILE).

Page 21: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 18

ANÁLISIS FACTORIAL El análisis factorial intenta identificar variables subyacentes, o factores, que expliquen la configuración de las correlaciones dentro de un conjunto de variables observadas. El análisis factorial se suele utilizar en la reducción de los datos para identificar un pequeño número de factores que explique la mayoría de la varianza observada en un número mayor de variables manifiestas. También puede utilizarse para generar hipótesis relacionadas con los mecanismos causales o para inspeccionar las variables para análisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar un análisis de regresión lineal) El procedimiento de análisis factorial ofrece un alto grado de flexibilidad:

Existen siete métodos de extracción factorial disponibles. Existen cinco métodos de rotación disponibles, entre ellos el OBLIMIN directo y el

PROMAX para rotaciones no ortogonales. Existen tres métodos disponibles para calcular las puntuaciones factoriales; y las

puntuaciones pueden guardarse como variables para análisis adicionales.

Ejemplo. ¿Qué actitudes subyacentes hacen que las personas respondan a las preguntas de una encuesta política de la manera en que lo hacen? Examinando las correlaciones entre los elementos de la encuesta se deduce que hay una superposición significativa entre los diversos subgrupos de elementos (las preguntas sobre los impuestos tienden a estar correlacionadas entre sí, y así sucesivamente). Con el análisis factorial, se puede investigar el número de factores subyacentes y, en muchos casos, se puede identificar lo que los factores representan conceptualmente. Adicionalmente, se pueden calcular las puntuaciones factoriales para cada encuestado, que pueden utilizarse en análisis subsiguientes. Por ejemplo, es posible construir un modelo de regresión logística para predecir el comportamiento de voto basándonos en las puntuaciones factoriales.

Estadísticos.

Para cada variable:

Número de casos válidos Media Desviación típica Para cada análisis factorial: Matriz de correlaciones de variables, incluidos niveles de significación, determinante e inversa

Matriz de correlaciones reproducida, que incluye anti-imagen Solución Inicial (comunalidades, autovalores y porcentaje de varianza explicada) KMO (medida de la adecuación muestras de Keiser – Meyer – Olkin) y prueba de esfericidad de Bartlett

Solución Rotada, que incluye la matriz de configuración rotadas y la matriz de transformación

Para las rotaciones oblicuas: Las matrices de estructura y de configuración rotadas

Matriz de coeficientes para el cálculo de las puntuaciones factoriales y matriz de covarianza entre los factores

Diagramas:

Gráfico de sedimentación Gráfico de las saturaciones de los dos o tres primeros factores

Page 22: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 19

Datos. Las variables deberían ser cuantitativas a nivel de intervalo o de razón. Los datos categóricos (como la religión o el país de origen) no son adecuados para el análisis factorial. Los datos para los cuales razonablemente se pueden calcular los coeficientes de correlación de Pearson deberían ser adecuados para el análisis factorial.

Supuestos. Los datos han de tener una distribución normal bivariada para cada pareja de variables, y las observaciones deben ser independientes.

El modelo de análisis factorial especifica que las variables vienen determinadas por los factores comunes (los factores estimados por el modelo) y por factores únicos (los cuales no se superponen entre las distintas variables observadas). Las estimaciones calculadas se basan en el supuesto de que ningún factor único esté correlacionado con los demás, ni con los factores comunes. 2.8 PARA OBTENER UN ANÁLISIS FACTORIAL Vamos al menú Analizar – Reducción de datos – Análisis Factorial, y obtenemos el siguiente cuadro de diálogo:

A continuación, tendríamos que seleccionar las variables para las cuales queremos realizar el análisis factorial. 2.8.1 SELECCIÓN DE CASOS EN EL ANÁLISIS FACTORIAL SPSS nos da la posibilidad de seleccionar casos para el análisis. Para seleccionar los casos para el análisis, elija una variable de selección. Vemos como se activa el botón Valor. Hacemos clic sobre el mismo, y aparece el siguiente cuadro de diálogo:

Page 23: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 20

En el cuadro de texto podemos introducir un número entero como valor de selección. En el análisis factorial, sólo se usarán los casos con ese valor para la variable de selección. 2.9 ANÁLISIS FACTORIAL: DESCRIPTIVOS Desde el menú de Análisis Factorial, hacemos clic sobre el botón Descriptivos y obtenemos el siguiente cuadro de diálogo:

Podemos pedir una serie de conceptos:

Estadísticos:

Descriptivos Univariados. Incluyen la media, la desviación típica y el número de casos válidos para cada variable.

Solución Inicial: Muestra las comunalidades iniciales, los autovalores y el porcentaje de varianza explicada. SPSS lo marca por defecto.

Matriz de Correlaciones. Las opciones disponibles son:

Coeficientes Niveles de significación Determinante Inversa Reproducida Anti-imagen

KMO y prueba de esfericidad de Bartlett

Page 24: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 21

2.10 ANÁLISIS FACTORIAL: EXTRACCIÓN Desde el menú Analizar – Reducción de datos – Análisis Factorial, hacemos clic sobre el botón Extracción y obtenemos el siguiente cuadro de diálogo:

Este menú nos permite pedir una serie de análisis:

Método: Permite especificar el método de extracción factorial. Los métodos disponibles son:

Componentes principales. Mínimos cuadrados no ponderados. Mínimos cuadrados generalizados. Máxima verosimilitud. Factorización de Ejes principales. Factorización Alfa. Factorización Imagen.

Analizar: Permite especificar o una matriz de correlaciones o una matriz de covarianza. Extraer: Se pueden retener todos los factores cuyos autovalores excedan un valor

especificado o retener un número determinado de factores. Mostrar: Permite solicitar la solución factorial sin rotar y le gráfico de sedimentación de

los autovalores. Nº máximo de iteraciones para convergencia: Permite especificar el número

máximo de pasos que el algoritmo puede seguir para estimar la solución. 2.11 ANÁLISIS FACTORIAL: ROTACIÓN Desde el menú Analizar – Reducción de datos – Análisis Factorial, hacemos clic sobre el botón Rotación y obtenemos el siguiente cuadro de diálogo:

Page 25: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 22

Este menú nos permite solicitar una serie de análisis:

Método: Permite seleccionar el método de rotación factorial. Los métodos disponibles son:

Varimax Equamax Quartimax Oblimin directo Promax

Mostrar: Permite incluir los resultados de la solución rotada, así como los gráficos de

las saturaciones para los dos o tres primeros factores. Nº máximo de iteraciones para la convergencia: Permite especificar el número

máximo de pasos que el algoritmo puede seguir para llevar a cabo la rotación. 2.12 ANÁLISIS FACTORIAL: PUNTUACIONES FACTORIALES Desde el menú Analizar – Reducción de datos – Análisis Factorial, hacemos clic sobre el botón Puntuaciones y obtenemos el siguiente cuadro de diálogo:

Este menú nos permite realizar los siguientes análisis:

Guardar como variables: Crea una nueva variable para cada factor en la solución final. Si se marca esta opción, hay que seleccionar uno de los siguientes métodos alternativos para calcular las puntuaciones factoriales:

Page 26: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 23

Regresión Bartlett Anderson – Rubin

Mostrar matriz de coeficientes de las puntuaciones factoriales: Muestra los

coeficientes por los cuales se multiplican las variables para obtener puntuaciones factoriales. También muestra las correlaciones entre las puntuaciones factoriales.

2.13 ANÁLISIS FACTORIAL: OPCIONES Desde el menú Analizar – Reducción de datos – Análisis Factorial, hacemos clic sobre el botón Opciones y obtenemos el siguiente cuadro de diálogo:

Este menú nos permite solicitar los siguientes análisis:

Valores perdidos: Permite especificar el tratamiento que se da a los valores perdidos. Las alternativas disponibles son:

Excluir casos según lista Excluir casos según pareja Reemplazar por la media

Formato de visualización de los coeficientes: Permite controlar aspectos de las

matrices de resultados. Los coeficientes se ordenan por tamaño y se suprimen aquellos cuyos valores absolutos sean menores que el valor especificado.

2.14 EJEMPLO Un cliente quiere poder predecir las ventas de coches en función de una serie de variables que ha recopilado. Sin embargo, sospecha que las variables están correlacionadas entre sí, y que esto puede afectar negativamente a la predicción. Se decide realizar un análisis factorial, analizando hasta que punto la información recibida de esas variables puede ser resumida, en gran parte, en un número más reducido de factores independientes entre ellos. Esta independencia se asegura si utilizamos el método de los Componentes Principales para el análisis. Vamos al menú Analizar – Resumir casos – Análisis Factorial, y obtenemos el siguiente cuadro de diálogo:

Page 27: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 24

Seleccionamos las variables con las que queríamos estimar las ventas de coches. En este caso, desde la variable Vehicle Type hasta Fuel Efficiency.

Hacemos clic sobre el botón Extracción y obtenemos el siguiente cuadro de diálogo:

Vamos a marcar que SPSS nos calcule la Solución Factorial sin Rotar y el Gráfico de Sedimentación y hacemos clic en el botón Continuar.

Hacemos clic sobre el botón Extracción y obtenemos el siguiente cuadro de diálogo:

Page 28: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 25

Marcamos que nos calcule la Solución Rotada por el Método Varimax. La rotación consiste en mover los factores obtenidos hasta que se consiga que las variables se hallen lo más cerca posible de uno de esos ejes. Mediante esto se pretende que cada variables tenga puntuaciones factoriales lo más cercanas a cero para todos los factores menos uno, para el que tendría una puntuación factorial grande. Mediante la rotación, se puede conseguir que unos resultados de un análisis factorial que resulten confusos, queden mucho más claros.

Hacemos clic sobre el botón Continuar. Hacemos clic sobre el botón Puntuaciones y obtenemos el siguiente cuadro de

diálogo:

Marcamos las opciones de Guardar como variables y Mostrar matriz de coeficientes de las puntuaciones factoriales.

Hacemos clic sobre el botón Continuar. No queremos pedir nada más en este caso, luego hacemos clic sobre el botón Aceptar.

SPSS nos calculará el Análisis Factorial utilizando el método de los Componente Principales, que se rotará posteriormente mediante el método Varimax para ayudar a la interpretación. Los componentes con autovalores mayores que uno se guardarán en el archivo como variables.

Page 29: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 26

2.14.1 RESULTADOS Obtenemos los siguientes resultados: La Tabla de Comunalidades:

Las comunalidades de cada variable nos muestra la cantidad de varianza de esa variable que queda explicada con los factores seleccionados (en este caso, los factores con autovalor mayor que 1). Vemos como todas las variables tienen una comunalidad inicial de 1. Esta es la varianza que se explica con la totalidad de todos los factores (es decir, por un número de factores igual al número de variables). Después de seleccionar un número reducido de factores independientes para “resumir” todas las variables, la varianza explicada es la indicada en la columna Extracción. Un análisis factorial cumplirá su función de resumir una serie de variables si las comunalidades son elevadas para todas las variables. Si no fuera ese el caso, indicaría que si utilizamos los factores para resumir la información de las variables, las variables con comunalidades bajas no se estarán teniendo en cuenta tal como deberían. Si esto pasara, lo más correcto sería incluir más factores en el análisis, de manera que todas las variables queden representadas correctamente por los factores extraídos.

Page 30: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 27

La siguiente tabla que obtenemos es la tabla de autovalores:

La primera columna, Total, nos indica la cantidad de varianza de las variables originales que explica cada uno de los factores, ordenados de mayor a menor. Es decir, el primer componente extraído explica 5,994 de la varianza total (que sería 1 para cada variable – al haber 10 variables, sería 10). La segunda columna indica el porcentaje de varianza que explica cada uno de los factores. En este caso, el primer factor explica el 59,938% de la varianza, el segundo el 16,545% y así sucesivamente. La tercera columna indica el porcentaje acumulado de varianza explicada. Es decir, el primer factor explica el 59,938% de la varianza, el primero y el segundo factor explican por sí solos el 76,482% y así sucesivamente. Estas tres primeras columnas nos están mostrando la solución inicial, aquella para la que las comunalidades de todas las variables eran 1. Esta solución inicial tiene tantos factores como variables incluidas en el análisis. La segunda sección de la tabla nos muestra la solución final no rotada. Al pedir el análisis, habíamos indicado que seleccionase como solución aquellos factores cuyos autovalores fuesen mayor que 1. En este caso, esto lo cumplen los tres primeros factores sólo. Nuestra solución final es quedarnos con tres factores que explican el 87,709% de la varianza total de las 10 variables. Es decir, perdemos menos de un 13% de información y pasamos a trabajar con tres variables independientes en vez de 10 variables correlacionadas. Por último la tercera sección de la tabla nos muestra la solución final rotada. Vemos como cambia la importancia de cada factor, pero no el total de varianza explicada. Vemos como hay un cambio sustancial en el total de varianza explicada por cada factor, de la solución no rotada a la rotada. Esto nos indica que la solución rotada será posiblemente más fácil de interpretar que la solución no rotada.

Page 31: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 28

A continuación, obtenemos el Gráfico de Sedimentación:

Este gráfico nos ayuda a ver cuál debe ser la solución más adecuada para el análisis. Nos esquematiza los autovalores de cada componente extraído. Los componentes que nos interesa extraer son aquellos que se hayan en la parte del esquema con pendiente acusad. Los componentes en la parte con pendiente casi plana contribuyen muy poco a explicar las variables. La última caída fuerte se da entre el componente tres y el cuatro, por lo que una buena solución sería seleccionar sólo los tres componentes primeros. Obtenemos a continuación la Matriz de Componentes no Rotados:

Page 32: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 29

A partir de las matrices de componentes, podemos interpretar que son los factores extraídos. La manera de interpretar cada factor sería la siguiente:

Cuando el componente para una variable es elevado, eso nos indica que dicha variable está altamente representada por ese factor.

Si el componente para una variable es muy reducido, implica que esa variable no está casi representada por ese factor

Un componente negativo nos indica que el factor representa “lo contrario” a lo que la variable muestra.

Cuanto más extremos sean los valores de los componentes de esta matriz, más fácil será interpretar que significa y representa cada factor. Cuando una matriz de componentes tiene más bien valores intermedios, esto nos dificulta la interpretación. En este caso, el primer componente tiene valores más extremos, pero los otros dos componentes tienen valores no muy claros. La mejor manera de intentar solucionar este inconveniente es la rotación de los componentes. Vemos ahora la matriz de componentes rotados:

En este caso, vemos como ya hay valores extremos o muy reducidos para todos los componentes.

Comenzamos ahora a analizar qué significa y representa cada uno de los componentes. El primer componente tiene las puntuaciones más elevadas para las siguientes

variables:

Precio en miles Tamaño del motor Caballos de Vapor

De estas tres variables, la que más representada está con el primer componente es el

Precio en miles. Además de tener una puntuación muy alta para el primer componente

Page 33: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 30

(0,935), tiene una puntuación muy reducida para los otros dos. Esto nos indica que el primer componente representa al Precio del vehículo.

El segundo componente está especialmente correlacionado con la Longitud (0,943), y el tercer componente con el Tipo de Vehículo (0,954). Esto nos indica que cada factor refleja principalmente a esas tres variables, y que nos debemos centrar en ellas para descubrir qué significan y representan nuestros componentes:

Precio en Miles Longitud Tipo de Vehículo

Si queremos calcular el valor del componente para un caso determinado, nos dirigimos a la matriz de coeficientes para el cálculo de las puntuaciones en los componentes.

El valor de un componente para un caso determinado será igual a la suma del valor de cada una de las variables para ese caso determinado, multiplicado por el coeficiente correspondiente. Los tres componentes resultantes representan, y pueden ser utilizados en lugar de, casi el 88% del total de información contenido en las 10 variables. Usar los tres componentes obtenidos es más correcto que usar las tres variables con las que se hallaban más correlacionados por dos razones principales:

Los tres componentes son independientes entre sí. No están linealmente correlacionados.

Los tres componentes representan a la totalidad de las 10 variables.

Page 34: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 31

CAPÍTULO 3: ANÁLISIS DE CONGLOMERADOS JERÁRQUICO Este procedimiento intenta identificar grupos relativamente homogéneos de casos (o de variables) basándose en las características seleccionadas, mediante un algoritmo que comienza con cada caso (o cada variable) en un conglomerado diferente y combina los conglomerados hasta que sólo queda uno. Es posible analizar las variables brutas o elegir de entre una variedad de transformaciones de estandarización. Las medidas de distancia o similaridad se generan mediante el procedimiento Proximidades. Los estadísticos se muestran en cada etapa para ayudar a seleccionar la mejor solución.

Ejemplo. ¿Existen grupos identificables de programas televisivos que atraigan a audiencias similares dentro de cada grupo? Con el análisis de conglomerados jerárquico, se podrían agrupar los programas de TV (los casos) en grupos homogéneos basados en las características del espectador. Esto se puede utilizar para identificar segmentos de mercado. También se puede agrupar ciudades (los casos) en grupos homogéneos, de manera que se puedan seleccionar ciudades comparables para probar diversas estrategias de marketing.

Estadísticos:

Historial de conglomerados Matriz de distancias (o similaridades) Pertenencia a los conglomerados para una solución única o una serie de soluciones.

Diagramas:

Dendogramas Diagramas de témpanos.

Datos: Las variables pueden ser cuantitativas, binarias o datos de recuento

(frecuencias). El escalamiento de las variables es un aspecto importante, ya que las diferencias en el escalamiento pueden afectar a las soluciones de conglomeración. Si las variables muestran grandes diferencias en el escalamiento (por ejemplo, una variable se mide en dólares, y la otra se mide en años), debería considerarse la posibilidad de estandarizarlas (esto se puede llevar a cabo automáticamente mediante el propio procedimiento de Análisis de Conglomerados Jerárquico).

Supuestos. Las medidas de distancia o similaridad empleadas deben ser adecuadas para los datos analizados. Asimismo, debe incluir todas las variables relevantes en el análisis. Si se omiten variables de interés, la solución obtenida puede ser equívoca. Debido a que el análisis de conglomerados jerárquico es un método exploratorio, los resultados deben considerarse provisionales hasta que sean confirmados mediante otra muestra independiente.

Page 35: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 32

3.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS JERÁRQUICO Vamos al menú Analizar – Clasificar – Conglomerados Jerárquicos, y obtenemos el siguiente cuadro de diálogo:

Si estamos aglomerando casos, tenemos que seleccionar al menos una variable numérico. Si estamos aglomerando variables, debemos seleccionar al menos tres variables numéricas. Si es conveniente para nuestro análisis, podemos seleccionar una variable de identificación para etiquetar los casos. 3.2 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: MÉTODO Desde el menú Analizar – Clasificar – Conglomerados Jerárquicos, hacemos clic sobre el botón Método y obtenemos el siguiente cuadro de diálogo:

Page 36: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 33

Método de conglomeración: Las opciones disponibles son:

Vinculación inter-grupos Vinculación intra-grupos Vecino más próximo Vecino más lejano Agrupación de centroides Agrupación de medianas Método de Ward

Medida: Permite especificar la medida de distancia o similaridad que será empleada en

la aglomeración. Seleccionamos el tipo de datos y la medida de distancia o similaridad adecuada:

Datos de intervalo: Las opciones disponibles son:

Distancia euclídea Distancia euclídea al cuadrado Coseno Correlación de Pearson Chebychev Bloque Minkowski Personalizada.

Datos de Frecuencia: las opciones disponibles son:

Medida de Chi-Cuadrado Medida de Phi-Cuadrado.

Datos binarios: Las opciones disponibles son:

Distancia euclídea Distancia euclídea al cuadrado Diferencia de tamaño Diferencia de configuración Varianza Dispersión Forma Concordancia simple Correlación phi de 4 puntos Lambda D de Anderberg Dice Hamann Jaccard Kulczynski 1 Kulzynski 2 Lance y Williams Ochiai Rogers Tanimoto Russel y Rao Sokal y Sneath 1 Sokal y Sneath 2 Sokal y Sneath 3

Page 37: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 34

Sokal y Sneath 4 Sokal y Sneath 5 Y de Yule Q de Yule

Tranformar valores: Permite estandarizar los valores de los datos para los casos o las

variables, antes de calcular las proximidades (no está disponible para datos binarios). Los métodos disponibles de estandarización son:

Puntuaciones z Rango –1 a 1 Rango 0 a 1 Magnitud máxima de 1 Media de 1 Desviación típica de 1

Tranformar medidas: Permite transformar los valores generados por la medida de

distancia. Las opciones disponibles son:

Valores absolutos Cambiar el signo Cambiar la escala al rango 0 – 1

3.3 ANÁLISIS DE CONGLOMERADOS: ESTADÍSTICOS Desde el menú Analizar – Clasificar – Conglomerados Jerárquicos, hacemos clic sobre el botón Estadísticos y obtenemos el siguiente cuadro de diálogo:

Este menú nos ofrece las siguientes posibilidades:

Historial de conglomeración: Muestra los casos o conglomerados combinados en cada etapa, las distancias entre los casos o los conglomerados que se combinan, así como el último nivel del proceso de aglomeración en el que cada caso (o variable) se unió al conglomerado correspondiente.

Matriz de distancias: Proporciona las distancias o similaridades entre los elementos. Conglomerado de pertenencia: Muestra el conglomerado al cual se asigna cada caso

en una o varias etapas de la combinación de los conglomerados. Las opciones disponibles son:

Solución única Rango de soluciones

Page 38: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 35

3.4 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: GRÁFICOS Desde el menú Analizar – Clasificar – Conglomerados Jerárquicos, hacemos clic sobre el botón Gráficos y obtenemos el siguiente cuadro de diálogo:

Este menú nos permite las siguientes posibilidades:

Dendograma: Muestra un dendograma. Los dendogramas pueden emplearse para evaluar la cohesión de los conglomerados que se han formado y proporcionar información sobre el número adecuado de conglomerados que deben conservarse.

Témpanos: Muestra un diagrama de témpanos, que incluye todos los conglomerados o un rango especificado de conglomerados. Los diagramas de témpanos muestran información sobre cómo se combinan los casos en los conglomerados, en cada iteración del análisis. La orientación permite seleccionar un diagrama vertical u horizontal.

3.5 ANÁLISIS DE CONGLOMERADOS: GUARDAR VARIABLES NUEVAS Desde el menú Analizar – Clasificar – Conglomerados Jerárquicos, hacemos clic sobre el botón Guardar y obtenemos el siguiente cuadro de diálogo:

Este menú nos permite las siguientes opciones:

Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia para una solución única o un rango de soluciones. Las variables guardadas pueden emplearse en análisis posteriores para explorar otras diferencias entre los grupos.

Page 39: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 36

3.6 EJEMPLO Se ha realizado una encuesta en una Universidad sobre el Gasto en Transporte de los alumnos. Se realizó una encuesta a 100 alumnos, y ahora se quiere analizar si existen distintos grupos de gasto entre los alumnos. El análisis de conglomerados, o CLUSTER, pretende identificar grupos de casos relativamente homogéneos, basándose en características previamente seleccionadas, a través las variables elegidas. El objetivo de dicho análisis es obtener grupos lo más homogéneos posible entre sí y lo más heterogéneos posibles entre ellos, respecto a una serie de variables determinadas. Los métodos seguidos para realizar este análisis son básicamente dos:

Métodos jerárquicos: de tipo aglomerativo o divisivo (k-medias) Métodos no jerárquicos

3.6.1 PLANTEAMIENTOS PREVIOS El método que se va a aplicar en el ejemplo posterior es de tipo jerárquico. Este método aplica un algoritmo que comienza considerando cada caso como independiente, cada elemento forma un conglomerado independiente; y los va combinando entre sí hasta que sólo queda un único conglomerado compuesto por todos los casos iniciales. El método jerárquico de tipo divisivo (conglomerados de k-medias) no es aplicable en este caso, ya que exige determinar a priori el número de conglomerados a crear. En este método se parte de un único conglomerado compuesto por todos los elementos del análisis y de él se llega a un número k de conglomerados previamente seleccionado, que serán lo más homogéneos posibles. Los pasos a seguir para realizar este análisis son los siguientes: Selección de la muestra sobre la que se realizará el análisis: En el caso a estudiar, se ha reducido la muestra de cien sujetos a veinte, manteniéndose las proporciones de la muestra inicial respecto a dos variables, edad y gasto en transporte. La muestra seleccionada incluye:

Un 40% de los casos son menores de 21 años y usan el abono mensual (implica un menor gasto en transporte)

Un 10% son menores de 21 años y no usan el abono Un 40% son mayores de 21 años y usan el abono mensual Un 10% son mayores de 21 años y no usan el abono mensual

Selección de las variables respecto a las cuales se va a realizar el análisis. En el caso sobre el que se va a realizar el análisis, las variables seleccionadas son el gasto mensual en transporte y la edad. Para seleccionar estas variables, hay que tener en cuenta lo siguiente: Para que el análisis de conglomerados resulte significativo, las variables seleccionadas han de afectar a la clasificación a realizar, han de estar directamente relacionadas con el análisis; debiéndose incluir todas aquellas que puedan afectar a dicho análisis. En el caso a analizar, se pretende agrupar a los individuos según sus costumbres de gasto en transporte. De los datos obtenidos en la encuesta, las variables cuantitativas que más afectan a dicho análisis son, efectivamente, las dos variables incluidas.

Selección del sistema de medida de la similitud o la distancia entre casos.

Page 40: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 37

Selección del sistema de agrupación de los casos. Determinación del número de Conglomerados adecuado.

La agrupación de los casos se hará en función de las distancias o las similitudes existentes entre ellos, uniendo primero aquellos casos que se hallen más próximos o que tengan mayor similitud. Habrá que seleccionar un sistema de medida de la distancia entre casos y un sistema de agrupación de los casos. En el supuesto específico que nos concierne, se van a realizar tres análisis de conglomerados, cambiando entre ellos los sistemas de medición y de agrupación seleccionados, comparándose posteriormente los resultados obtenidos con cada uno de ellos. Los análisis a realizar serán los siguientes:

Distancia Euclídea al cuadrado y Agrupación por media entre grupos (vinculación inter-grupos)

Distancia Euclídea al cuadrado y agrupación por enlace simple 3.6.2 APROXIMACIÓN INICIAL Antes de comenzar a desarrollar cada uno de los análisis de conglomerados realizados, resulta conveniente realizar una aproximación inicial a la situación planteada mediante un análisis gráfico de los casos.

Para obtener ese gráfico, vamos al menú Gráficos – Dispersión. Seleccionamos el gráfico Simple y hacemos clic sobre el botón Definir. Obtenemos el siguiente cuadro diálogo:

Hacemos clic sobre el botón Aceptar. A continuación se pueden ver representados los elementos del análisis en un gráfico

bidimensional, representando cada eje una de las variables sobre las que se va a realizar el análisis:

Page 41: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 38

DISPERSIÓN DE LOS ELEMENTOS

EDAD DEL ENCUESTADO

262422201816

GA

ST

O M

EN

SU

AL

EN

TR

AN

SP

OR

TE

16000

14000

12000

10000

8000

6000

4000

2000

En una primera aproximación, parecen existir cuatro grupos diferenciados, que parecen coincidir con los cuatro segmentos en los que se dividía la población total (menores de 21 años con y sin abono; y mayores de 21 años con y sin abono). Los elementos con un gasto en trasporte más reducido parecen ser más similares entre sí que los elementos con mayor gasto en transporte, que se hallan más dispersos. Basándonos en estos primeros resultados, se podría prever la existencia de dos grupos muy homogéneos y no muy distantes entre sí (aquellos con un gasto menor en transporte) de ocho elementos cada uno; y de otros dos grupos, de dos elementos cada uno, más heterogéneos, que tardarán más en unirse. 3.6.3 PRIMER ANÁLISIS: DISTANCIA EUCLÍDEA AL CUADRADO Y VINCULACIÓN

INTER-GRUPOS Antes de comenzar a analizar los resultados, conviene definir la distancia euclídea y la forma aglomeración inter-grupos.

Distancia Euclídea: Es la medida de distancia que más se utiliza. La distancia entre dos conglomerados será la suma al cuadrado de las distancias existentes entre los valores de las variables de cada uno de los elementos, es decir:

d x xi j ik jkk

p

, ( )? ??

?1

2

Siendo: d i j, : distancia entre el elemento “i” y el elemento “j”

xik : valor de la variable “k” del elemento “i”

x jk : valor de la variable “k” del elemento “j”

Vinculación inter-grupos: Se considera como la medida de la distancia entre dos

grupos a la media de las distancias de cada uno de los elementos de un grupo con cada uno de los elementos del otro grupo, midiéndose las distancias entre cada par de elementos por la distancia euclídea en este caso.

Page 42: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 39

Vamos al menú Analizar – Clasificar – Análisis de Conglomerados jerárquico, y obtenemos el siguiente cuadro de diálogo:

Hacemos clic sobre el botón Estadísticos y obtenemos el siguiente cuadro de diálogo

Marcamos el Historial de conglomeración y la Matriz de distancias. Hacemos clic en el botón Continuar.

Hacemos clic sobre el botón Gráficos y obtenemos el siguiente cuadro de diálogo:

Page 43: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 40

Pedimos que SPSS nos obtenga el gráfico de dendogramas y de témpanos. Hacemos clic sobre el botón Continuar.

Hacemos clic sobre el botón Método y obtenemos el siguiente cuadro de diálogo:

Marcamos los métodos de medida que vamos a utilizar en este primer análisis, la Distancia Euclídea al Cuadrado y la Vinculación Inter-Grupos. En este cuadro marcamos también la opción de Cambiar la escala al rango 0-1, de manera que resulte más sencillo considerar qué elementos están cerca y cuáles no.

Hacemos clic sobre el botón Aceptar y obtenemos los siguientes resultados: Vemos abajo una parte de la matriz de distancias (en total son 20 filas por 20

columnas):

Al observar la tabla anterior, se ve claramente como existen grandes similitudes entre varios elementos, al existir varias distancias muy reducidas en algunos casos. Contrastando con esto, existen para todos los elementos algún otro caso que se halla distante a ellos. Los valo res de

Page 44: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 41

las distancias han sido reescalados sobre un máximo valor de uno, dándose esta máxima distancia entre un elemento de bajo gasto mensual y menor de 21 años y un elemento de elevado gasto mensual y mayor de 21 años (caso 7 y caso 10, por ejemplo). Se puede observar ahora como los elementos que mayores diferenciaciones presentan frente al resto son, tal como se previó a través del análisis gráfico, aquellos que presentaban un mayor gasto en transporte.

En el Historial de Aglomeración se representa cada uno de los pasos realizados en la formación de los Conglomerados. Cada una de las columnas de dicha Tabla indican, la etapa realizada (Etapa; 1); los elementos, o conglomerados, que se unen en dicha etapa (Conglomerado 1: el 16; Conglomerado 2: el 18); la distancia existente entre ambos (Coeficientes: , 000); la etapa en que cada uno de dichos Conglomerados aparecieron por última vez (Conglomerado 1: 0; Conglomerado 2: 0); y la próxima etapa en la que el Conglomerado formado va a aparecer (Próxima Etapa: 5). Estos mismos resultados se pueden observar gráficamente en el Dendograma. Para construir este gráfico, se reescalan las distancias entre los elementos sobre 25, y se representa mediante líneas qué elementos se unen y cuando lo hacen.

Page 45: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 42

Se puede ver como los resultados reflejados en este gráfico son similares a los esperados tras observar el gráfico de dispersión de los elementos. Los elementos de bajo gasto en transporte se dividen en dos grupos homogéneos, según sean mayores o menores de 21 años (primeros seis casos, más el caso 13 y el 14, son mayores de 21 años, los siguientes ocho casos son los menores de 21 años); mientras que los elementos de más elevado gasto en transporte parecen ser algo menos homogéneos entre sí, especialmente los casos menores de 21 años. Por último, el gráfico de Témpanos, permite descubrir los elementos que quedarían incluidos en cada Conglomerado, según el número de Conglomerados existentes (sólo insertamos una parte del gráfico de témpanos por la misma razón que para la matriz de distancias).

Page 46: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 43

Para descubrir la composición de los, por ejemplo, seis Conglomerados realizados, se colocaría una línea a la altura del seis. Las barras blancas que aparecen indican el momento en que se dividen los elementos, es decir, delimitan los casos que componen cada Conglomerado. Según eso, los seis Conglomerados construidos estarían compuestos por los siguientes elementos: {10,19} {8} {20} {13,14} {11,12,15,16,17,18} {1,2,3,4,5,6,7,9} Por último, habría que determinar el número óptimo de Conglomerados en los que agrupar los elementos. Dicha agrupación tendría que ser aquella que maximice la homogeneidad entre los elementos del grupo, a la vez que maximiza la heterogeneidad entre los distintos grupos. Según los resultados obtenidos, especialmente fijándonos en el dendograma, parece que, tal como se previó a través del análisis gráfico, la estructura con cuatro conglomerados parece ser la óptima. Se puede ver que estos cuatro grupos se forman rápidamente, en una distancia reescalada algo superior a cinco; mientras que el siguiente grupo, es decir, la estructura de tres conglomerados, se construye a una distancia algo superior a diez. Mediante este análisis de conglomerados, parece obtenerse una estructura de cuatro grupos homogéneos, que serán, tal como se esperaba:

Menores de 21 años que usan el abono Menores de 21 años que no usan el abono (componen el grupo más heterogéneo) Mayores de 21 años que usan el abono Mayores de 21 años que no usan el abono

Page 47: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 44

3.6.4 SEGUNDO ANÁLISIS: DISTANCIA EUCLÍDEA AL CUADRADO Y VECINO MÁS PRÓXIMO

En este último caso se medirán las distancias entre los distintos grupos de manera diferente.

Se unirán en cada etapa los dos grupos que se encuentren más próximos, entre los que se dé la mínima distancia. Dicha distancia se considerará como la menor de las distancias existentes entre cada uno de sus elementos.

Volvemos al menú Analizar – Clasificar – Análisis de Conglomerados jerárquico. Hacemos clic sobre el botón Método y seleccionamos el método de aglomeración

Vecino más próximo. Hacemos clic sobre el botón Continuar y luego el botón Aceptar. Los resultados de este análisis se ven reflejados en los siguientes resultados:

Matriz de distancias. Vemos como es exactamente igual a la del punto anterior. Esto es debido a que el método de medir las distancias es el mismo para los dos puntos.

Page 48: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 45

Historial de Aglomeración

Esta tabla ya se diferencia de la del anterior punto. Al conglomerarse los elementos según un criterio distinto, el orden en que se van formando los grupos no es el mismo. Según esta tabla, los primeros elementos en unirse son el 16 y el 18. La distancia entre los dos es cero, y los dos elementos se vuelven a unir con otros en la etapa 5. Asimismo, los últimos conglomerados en unirse son el que contiene el número 1 con el que contiene el número 10. Vamos a ver ahora el gráfico de dendograma para ver este proceso más claramente.

Page 49: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 46

El Dendograma

Vemos como el esquema es algo distinto al del punto anterior, aunque se sigue viendo que los cuatro casos sin abono (el 8, el 20, el 10 y el 19) son mucho menos homogéneos que el resto. Por último, el gráfico de témpanos nos indica visualmente la composición de los conglomerados según el número de conglomerados que deseemos. En este caso, las distancias a las que se unen los elementos extremos son todavía mayores que las del caso segundo, acentuándose aún más la heterogeneidad existente en algunos de los elementos como el 8, el 20 y el grupo formado por el 10 y el 19. Esta manera de calcular las distancias entre grupos tiende a dar unas estructuras muy lineales y sólo tiene en cuenta los elementos más próximos, aunque estos no sean representativos del grupo total; por lo que, basándonos sólo en estos resultados, no se deben rechazar los obtenidos en los anteriores supuestos, que parecen ser más homogéneos. Según los resultados obtenidos en los dos supuestos estudiados, se podría concluir que la estructura óptima, aquella que maximiza la homogeneidad de los grupos, parece ser la estructura de cuatro grupos obtenida, con mayor o menor claridad, en el primer supuesto. A pesar de ello, los resultados obtenidos en el último supuesto parecen remarcar los indicios observados en el segundo supuesto, por lo que habría que tenerlo en cuenta. Este resultado nos confirma la mayor heterogeneidad existente en el elemento 13 dentro del grupo de menor gasto en transporte y mayores de 21 años; así como la mayor diferenciación existente en ambos grupos con mayor gasto en transporte, especialmente para los sujetos menores de 21 años.

Page 50: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 47

CAPÍTULO 4: ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS Este procedimiento intenta identificar grupos de casos relativamente homogéneos basándose en las características seleccionadas y utilizando un algoritmo que puede gestionar un gran número de casos. Sin embargo, el algoritmo requiere que el usuario especifique el número de conglomerados. Puede especificar los centros iniciales de los conglomerados si conoce de antemano dicha información. Puede elegir uno de los dos métodos disponibles para clasificar los casos: la actualización de los centros de los conglomerados de forma iterativa o sólo la clasificación. Asimismo, puede guardar la pertenencia a los conglomerados, información de la distancia y los centros de los conglomerados finales. Si lo deseamos, podemos especificar una variable cuyos valores sean utilizados para etiquetar los resultados por casos. También podemos solicitar los estadísticos F de los análisis de varianza. Aunque estos estadísticos son oportunistas (ya que el procedimiento trata de formar grupos que de hecho difieran), el tamaño relativo de los estadísticos proporciona información acerca de la contribución de cada variable a la separación por grupos.

Ejemplo: ¿Cuáles son los grupos identificables de programas de televisión que atraen audiencias parecidas dentro de cada grupo? Con el análisis de conglomerados de K-Medias, podríamos agrupar los programas de televisión (los casos) en k grupos homogéneos, basados en las características del televidente. Esto se puede utilizar para identificar segmentos de mercado. También puede agrupar ciudades (los casos) en grupos homogéneos, de manera que se puedan seleccionar ciudades comparables para probar diversas estrategias de marketing.

Estadísticos: Para la solución completa: centros iniciales de los conglomerados, tabla de ANOVA. Para cada caso: información del conglomerado, distancia desde el centro del conglomerado.

Datos: Las variables deben ser cuantitativas en el nivel de intervalo o de razón. Si las variables son binarias o recuentos, utilizamos el método de Análisis de Conglomerados Jerárquicos.

Supuestos: Las distancias se calculan utilizando la distancia euclídea simple. Si desea utilizar otra medida de distancia o de similaridad, utilizamos el procedimiento Análisis de Conglomerados Jerárquicos. El escalamiento de las variables es una consideración importante: si sus variables utilizan diferentes escalas (una variable se expresa en dólares y la otra en años), los resultados pueden ser equívocos. Es estos casos, se debería considerar la estandarización de las variables antes de realizar el análisis de conglomerados de k-medias (esto se puede hacer en el procedimiento Descriptivos). Este procedimiento supone que ha seleccionado el número apropiado de conglomerados y que ha incluido todas las variables relevantes. Si se han seleccionado un número inapropiado de conglomerados o hemos omitido variables relevantes, los resultados podrían ser equívocos.

Page 51: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 48

4.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS Para obtener un análisis de conglomerados de k-medias, vamos al menú Analizar – Clasificar – Conglomerado de K-Medias, y obtenemos el siguiente cuadro de diálogo:

Seguimos los siguientes pasos:

Seleccionamos las variables que se van a utilizar en el análisis de conglomerados. Especificamos el número de conglomerados. Este número no debe ser inferior a dos, ni

superior al número de casos del archivo de datos. Elegimos entre los métodos Iterar y Clasificar y Sólo Clasificar. Si lo deseamos, podemos seleccionar una variable de identificación para etiquetar los

casos. 4.2 EFICACIA DEL ANÁLISIS DE CONGLOMERADOS DE K – MEDIAS El comando de análisis de conglomerados de k-medias es eficaz principalmente porque no calcula las distancias entre todos los pares de casos, como hacen muchos algoritmos de conglomeración, como el utilizado por el comando de conglomeración jerárquica.

Para obtener la máxima eficacia, tome una muestra de casos y utilice el método Iterar y

Clasificar para determinar los centros de los conglomerados. Pulse en Centros y seleccione Escribir finales en: Archivo. Después restaure el archivo de datos completo y seleccione el método Sólo Clasificar. Pulse en Centros y Leer Iniciales de: Archivo, para clasificar el archivo completo utilizando los centros estimados a partir de la muestra.

Un método de trabajo combinando el análisis de conglomerados jerárquico con el de k-medias es el siguiente:

Seleccionar una muestra aleatoria del total de nuestros casos y realizar un análisis de conglomerados jerárquicos sobre ellos.

De ese análisis anterior, se obtendrá una solución del número de conglomerados en los que se van a agrupar los casos.

Volvemos a seleccionar todos los casos Realizamos un análisis de conglomerados de k-medias sobre el total de los casos,

indicando el número de conglomerados obtenidos en el análisis anterior.

Page 52: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 49

4.3 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: ITERAR Si vamos al menú Analizar – Clasificar – Conglomerados de K-Medias y hacemos clic sobre el botón Iterar, obtenemos el siguiente cuadro de diálogo:

Estas opciones sólo estarán disponibles si se selecciona el método Iterar y Clasificar en el cuadro de diálogo principal Este menú nos permite las siguientes opciones:

Nº máximo de iteraciones: Limita el número máximo de iteraciones en el algoritmo k-medias. La iteración se detiene después de este número de iteraciones, incluso si no se ha satisfecho el criterio de convergencia. Este número debe estar entre el 1 y el 999.

Criterio de Convergencia: Determina cuando cesa la iteración. Representa una proporción de la distancia mínima entre los centros iniciales de los conglomerados, por lo que debe ser mayor que 0, pero no mayor que 1. Por ejemplo, si el criterio es igual a 0,02, la iteración cesará si una iteración completa no mueve ninguno de los centros de los conglomerados en una distancia superior al dos por ciento de la distancia menor entre cualquiera de los centros iniciales.

Usar medias actualizadas: Permite solicitar la actualización de los centros de los conglomerados tras la asignación de cada caso. Si no selecciona esta opción, los nuevos centros de los conglomerados se calcularán después de la asignación de todos los casos.

4.4 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: GUARDAR Si vamos al menú Analizar – Clasificar – Conglomerados de K-Medias y hacemos clic sobre el botón Guardar, obtenemos el siguiente cuadro de diálogo:

Podemos guardar la información sobre la solución como nuevas variables para que puedan ser utilizadas en análisis posteriores. Este menú nos permite las siguientes opciones:

Conglomerado de pertenencia: Crea una nueva variable que indica el conglomerado final al que pertenece cada caso. Los valores de la nueva variable van desde el 1 hasta el número de conglomerados.

Distancia desde centro del conglomerado: Crea una variable que indica la distancia euclídea entre cada caso y su centro de clasificación.

Page 53: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 50

4.5 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: OPCIONES Si vamos al menú Analizar – Clasificar – Conglomerados de K-Medias y hacemos clic sobre el botón Opciones, obtenemos el siguiente cuadro de diálogo:

Este menú nos permite pedir lo siguiente:

Estadísticos: Podemos seleccionar los siguientes estadísticos:

Centros de conglomerados iniciales Tabla de ANOVA Información del conglomerado para cada caso

Valores perdidos: Las opciones disponibles son:

Excluir casos según lista Excluir casos según pareja

4.6 EJEMPLO Vamos a seguir con el ejemplo del capítulo anterior. Se trataba de un estudio realizado sobre el gasto de transporte a una Universidad. Se habían entrevistado a 100 estudiantes y se quería agrupar a los estudiantes según grupos de gasto. Se consideraba que había dos factores para agrupar los casos, el ser mayor o menor de 21 años y el usar o no el abono mensual.

Recordamos que habíamos realizado el análisis de conglomerados para 20 de los casos, y habíamos llegado a la conclusión que parecía haber o tres o cuatro grupos. Una vez obtenidos los resultados de los conglomerados jerárquicos, resultaría interesante realizar un Conglomerado de k-medias para k=4, es decir, construir cuatro subgrupos sobre la muestra total de cien individuos, analizando si los elementos se han agrupado en el grupo que podría pensar que les correspondería, o sea, si los cuatro grupos están compuestos por:

Individuos menores de 21 años usuarios del abono mensual Individuos menores de 21 años no usuarios Individuos mayores de 21 años usuarios del abono mensual Individuos mayores de 21 años no usuarios

Con prioridad a obtener el resultado, se espera que los dos primeros grupos se ajusten a lo previsto; mientras que respecto a los otros dos grupos, pueden no agruparse exactamente según lo esperado, ya que, aún siendo la edad menor en uno de los dos grupos, el gasto en transporte no tiene por qué serlo, lo cual podría crear una confusión entre ambos grupos, e

Page 54: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 51

incluso podría indicar la conveniencia de agrupar a los individuos en sólo tres grupos, que serían los siguientes:

Usuarios del abono menores de 21 años Usuarios del abono mayores de 21 años No usuarios del abono

Vamos al menú Analizar – Clasificar – Análisis Conglomerados de k-medias, y obtenemos el siguiente cuadro de diálogo:

Pedimos que nos clasifique a los casos en cuatro grupos, según las dos variables seleccionadas, el Gasto Mensual en Transporte y la Edad.

Hacemos clic sobre el botón Iterar y obtenemos el siguiente cuadro de diálogo. Indicamos que realice 20 iteraciones.

Hacemos clic sobre el botón Continuar. Hacemos clic sobre el botón Guardar y obtenemos el siguiente cuadro de diálogo:

Marcamos que nos guarde el conglomerado al que pertenece cada caso. Hacemos clic sobre el botón Continuar.

Hacemos clic ahora sobre el botón Opciones y obtenemos el siguiente cuadro de diálogo:

Page 55: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 52

Marcamos la Tabla de ANOVA y hacemos clic sobre el botón Continuar. Hacemos clic sobre el botón Aceptar y obtenemos los siguientes resultados: Para ver primero si el número de conglomerados seleccionado es el correcto, debemos

analizar las dos tablas siguientes:

En estas tablas vemos como sólo hay dos conglomerados con un número significativo de casos, el 1 y el 2. En la segunda tabla vemos los centros de los conglomerados, es decir, los valores para cada conglomerado de las dos variables según las cuáles queremos clasificar los casos. Vemos como la variable edad no parece afectar mucho a la clasificación, al menos no de la forma en que pensábamos. el grupo 1 parece tener la mayoría de los casos que usan el abono mensual, ya sea joven o no. El grupo 2 parece incluir a los estudiantes que no utilizan abono mensual, pero a pesar de eso tienen un gasto considerable en transporte. Los dos casos del grupo 3 parecen ser estudiantes que no utilizan el abono, pero tampoco utilizan mucho transporte, por ejemplo, si viven cerca de la Universidad. Por último el grupo 4 son dos casos que tienen un gasto considerablemente superior al resto. Esta agrupación parece ser debida a la heterogeneidad existente entre el gasto de transporte de los casos que no utilizan abono de transporte.

Vamos a ver los resultados para una clasificación en tres conglomerados.

Page 56: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 53

Vamos al menú Analizar – Clasificar – Análisis de conglomerados de k-medias, y marcamos que nos cree tres grupos. Dejando el resto igual, hacemos clic sobre el botón Aceptar.

Obtenemos los siguientes resultados:

Según estas dos tablas, vemos como el conglomerado 3 parece englobar los usuarios con menos gasto de transporte, con un centro algo inferior al caso anterior. Esto parece indicar que el grupo 3 ha absorbido a los dos casos de gasto muy reducido en transporte, que en caso anterior se juntaban en un conglomerado aparte. El conglomerado 2 contiene a los usuarios de mayor gasto en transporte, mientras que el conglomerado 1 junta a los estudiantes con un gasto intermedio.

En general, los grupos formados son los siguientes:

Usuarios del Abono Mensual, sea joven o no. No usuarios del Abono Mensual con un gasto intermedio en transporte. No usuarios del Abono Mensual con un gasto grande en transporte.

Hemos obtenido también en nuestros resultados una tabla ANOVA del análisis:

Page 57: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 54

La significación de este estadístico F nos indica la importancia que ha tenido una u otra variable en que los elementos se incluyan en un grupo u en otro. Vemos como los grupos parecen haberse adjudicado en base al gasto mensual en transporte. Estos resultados son debidos a la mayor variabilidad existente en el gasto en transporte para los no usuarios. En algunos casos, la diferencia entre el no usuario del abono y algunos de los usuarios del abono, será menor que la distancia con los demás no usuarios del abono. Por último, recordamos que hemos pedido que SPSS nos guarde en una variable el conglomerado al que pertenece cada grupo. Sería interesante pedir ahora un gráfico de Cajas y Bigotes que nos muestre la variabilidad de la variable Gasto de Transporte para cada uno de los tres grupos. Vamos al menú Gráficos – Diagrama de Cajas, y seleccionamos el simple y hacemos clic sobre el botón Continuar. Obtenemos el siguiente cuadro de diálogo:

Seleccionamos la variable Gasto en Transporte como variable a describir, y el número de conglomerado en el Eje de Categorías. Hacemos clic sobre el botón Aceptar, y obtenemos el siguiente gráfico:

Page 58: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 55

Vemos como, excepto para el grupo 2 que sólo contiene los cinco casos con mayor gasto, los otros dos conglomerados, los conglomerados 1 y 3, tienen una gran cantidad de valores extremos. Esto es debido a que, para cada uno de los grupos, existen una gran cantidad de casos con el mismo o similar valores, y eso provoca que los valores que difieren en algo aparezcan como atípicos o extremos. 4.7 VENTAJAS DEL ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS El método de conglomerados de k-medias utilizado, resulta conveniente por su mayor facilidad de cálculo, pero presenta problemas claros en los casos como el anteriormente presentado, en el cual existen elementos anómalos, o los elementos no se hallan muy diferenciados, por lo que resulta algo difícil determinar el número adecuado de Conglomerados. Si fuera necesario realizar el Análisis de Conglomerados sobre una muestra muy grande, y se quisieran facilitar los datos, existe un método a seguir que proporciona resultados adecuados y evita los complicados cálculos de los métodos aglomerativos. Los pasos a seguir serían los siguientes:

Realizar un primer análisis de conglomerados de k-medias de acercamiento, solicitando un número de grupos k sustantivamente mayor del que cabría esperar (k=25-30 para una muestra de mil sujetos)

El resultado de ese análisis será una estructura de grupos en la cual existirán varios grupos con pocos o incluso un solo elemento, y otros grupos con un número sustancialmente mayor de elementos.

Se observa si el valor de los centros de los grupos pequeños es sustantivamente diferente de los valores de los centros de otros grupos.

Se realiza un segundo análisis de conglomerados de k-medias , solicitándose en este caso un número de grupos k igual al número de grupos de tamaño significativo más el número de grupos pequeños con centros de gravedad muy lejanos al resto.

Page 59: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 56

CAPÍTULO 5: ANÁLISIS DE CORRESPONDENCIA Uno de los objetivos del análisis de correspondencia es describir las relaciones entre dos variables nominales en una tabla de correspondencia en un espacio de dimensiones reducidas, a la vez que se describen las relaciones entre las categorías para cada una de las variables. Para cada variable, las distancias entre los puntos categóricos en un gráfico reflejan la relación entre las categorías, de forma que las categorías similares estarán cerca la una de la otra en el gráfico. Los puntos proyectados de una variable, sobre un vector desde el origen, a un punto categórico para la otra variable describen la relación entre esas dos variables. Un análisis de tablas de contingencia a menudo incluye analizar los perfiles de las filas y las columnas y contrastar la independencia a través del estadístico Chi Cuadrado. Sin embargo, el número de perfiles puede ser muy numeroso, y el test de la Chi Cuadrado no refleja la estructura de la dependencia. El procedimiento de las Tablas de Continencia en SPSS ofrece varias medidas y tests de asociación, pero no permite representar gráficamente ninguna de las relaciones entre las variables. El análisis factorial es una técnica estándar para describir las relaciones entre variables en un espacio de baja dimensiones. Sin embargo, el análisis factorial requiere datos de intervalos, y el número de observaciones ha de ser cinco veces el número de variables. El análisis de correspondencia, por otro lado, asume que las variables son nominales y puede describir las relaciones entre las categorías de cada variable, así como las relaciones entre las distintas variables. Además, el análisis de correspondencia puede ser utilizado para analizar cualquier tabla de medidas de correspondencia positivas.

Ejemplo. El Análisis de Correspondencia puede ser utilizado para mostrar gráficamente la relación entre las variables categoría en el trabajo y hábito de fumar. Se vería como los Encargados Junior tienen un hábito de fumar distinto que las secretarias, pero estas últimos no se diferencian de los Encargados Senior. También podemos ver que los Encargados Junior fuman más que el resto.

Estadísticos y Gráficos. Las medidas de correspondencia, perfiles de filas y de columnas, valores singulares, puntuaciones de filas y columnas, inercia, masa, estadísticos de puntuación de confianza para las filas y las columnas, estadísticos de puntuación de confianza singulares, gráficos de transformación, gráficos de fila puntual, gráficos de columna puntual y gráficos complejos.

Datos. Las variables categóricas a analizar se escalan nominalmente. Para datos agregados o para una medida de correspondencia distinto de las frecuencias, usamos una variable de ponderación con valores positivos de similitud. Alternativamente, para datos de tablas, podemos usar la sintaxis para leer la tabla.

Supuestos. El número máximo de dimensiones usadas en el procedimiento depende del número de categorías activas de filas y columnas y del número de restricciones de igualdad. Si no hay restricciones de igualdad y todas las categorías están activas, el número máximo de dimensiones será una menos que el número de categorías de la variable con el menor número de categorías. Por ejemplo, si una variable tiene cinco categorías y la otra tiene cuatro, el número máximo de dimensiones es tres. Las categorías suplementarias no están activas. Por ejemplo, si una variable tiene cinco categorías, dos de las cuales son suplementarias, y la otra tiene cuatro, el número máximo de dimensiones es dos. Por otro lado, tratamos todos los grupos de categorías

Page 60: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 57

que están restringidos a ser iguales como una sola categoría. Por ejemplo, una variable con cinco categorías, tres de ellas restringidas a ser iguales, se trata a la variable como si tuviera tres categorías a la hora de determinar el número máximo de dimensiones. Si especificamos un número de dimensiones mayor que el máximo permitido, SPSS utilizará el valor máximo.

Procedimientos relacionados. Si el análisis tiene más de dos variables, usamos el análisis de homogeneidad. Si las variables deben ser escaladas ordinalmente, usaremos el análisis de componentes principales no lineal.

5.1 OBTENER UN ANÁLISIS DE CORREPONDENCIA Vamos al menú Análisis – Reducción de Datos – Análisis de Correspondencia y obtenemos el siguiente cuadro de diálogo:

Ahora tenemos que seleccionar una variable para las filas Seleccionamos una variable para las columnas Definimos el rango de categorías de cada una de las variables Hacemos clic en el botón Aceptar

5.1.1 DEFINIR EL RANGO DE LAS FILAS Una vez seleccionada una variable para las filas, se ilumina el botón Definir Rango. Hacemos clic sobre él y aparece el cuadro de diálogo siguiente:

Page 61: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 58

Tenemos que definir un rango para la variable que hemos seleccionado para las filas. Los valores mínimos y máximos especificados tienen que ser números enteros. Si introducimos valores con decimales, estos quedarán truncados en el análisis. Un valor de categoría que se halla fuera del rango especificado se ignorará en el análisis. Todas las categorías están, inicialmente, sin restringir y activas. Podemos restringir categorías de fila para que sean iguales a otras categorías de fila, o podemos definir una categoría de fila como suplementaria.

La categoría es suplementaria: Las categorías suplementarias no influyen en el análisis, pero se representan en el espacio definido por las categorías activas. Las categorías suplementarias no se tienen en cuenta para definir las dimensiones. El número máximo de categorías suplementarias de fila es el número total de categorías de fila menos dos.

Las categorías deben ser iguales: Las categorías deben tener puntuaciones iguales. Se usan las restricciones de igualdad si el orden obtenido para las categorías no es deseable o intuitivo. El número máximo de categorías de fila que pueden ser restringidas a ser iguales, es el número total de filas activas menos 1. Para imponer restricciones de igualdad diferentes para grupos de categorías, hay que usar la sintaxis. Por ejemplo, se usa la sintaxis para restringir las categorías 1 y 2 a ser iguales, y a la vez, a las categorías 3 y 4 a ser iguales.

Para definir el rango en SPSS, hay que seguir los pasos siguientes:

Seleccionamos la variable que queremos para las filas en el cuadro de diálogo de Análisis de Correpondencias. En este caso, el cargo de cada individuo.

Hacemos clic sobre el botón Definir Rango Introducimos el valor máximo y mínimo de las categorías Hacemos clic sobre el botón Continuar

Opcionalmente, podemos especificar restricciones de igualdad sobre las categorías de las variables de fila y definir las categorías como suplementarias. Para cada categoría que queremos restringir o declarar como suplementaria, la seleccionamos de la lista, y hacemos clic en el botón anterior a restringir o a suplementaria. Para las restricciones de igualdad, se tienen que marcar al menos dos variables con esta restricción. 5.1.2 DEFINIR EL RANGO DE LAS COLUMNAS Una vez definida una variable para las columnas, se ilumina el botón Definir Rango. Hacemos clic sobre él, y obtenemos el siguiente cuadro de diálogo:

Page 62: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 59

Tenemos que definir un rango para la variable de las columnas. Al igual que para las filas, el mínimo y el máximo especificados han de ser números enteros. . Los valores con decimales, son truncados en el análisis. Un valor de categoría fuera del rango que se especifica será ignorado en el análisis. Todas las categorías están, en principio, sin restringir y activas. Podemos restringirlas o definirlas como suplementarias si así nos conviene para el análisis.

La categoría es suplementaria: Las categorías suplementarias no influyen en el análisis, pero se representan en el espacio definido por las categorías activas. Las categorías suplementarias no influyen a la hora de definir las dimensiones. El número máximo de categorías de columna suplementarias es el número total de categorías menos2.

Las categorías deben ser iguales. Las categorías deben tener puntuaciones iguales. Se usan las restricciones de igualdad si la orden para las categorías no es deseado ni intuitivo. El número máximo de categorías de columna que pueden ser restringidas a ser iguales es el número total de categorías activas menos 1. Para imponer más de una restricción de igualdad, se puede hacer a través de la sintaxis. Por ejemplo, usaremos la sintaxis para restringir las categorías 1 y 2 por un lado, y la 3 y 4 por el otro.

Para definir el rango de la variable de columna en SPSS, seguimos los siguientes pasos:

Hacemos clic sobre el botón Definir Rango, y obtenemos el cuadro de diálogo al comienzo del apartado.

Introducimos los valores mínimos y máximos para la variable de columna Hacemos clic sobre el botón Continuar. Si queremos establecer alguna restricción o definir alguna categoría como

suplementaria, seguimos el mismo proceso indicado para las variables de fila. 5.2 ANÁLISIS DE CORRESPONDENCIA: MODELO Si hacemos clic sobre el botón Modelo del cuadro de diálogo de Análisis de Correspondencia obtenemos el siguiente cuadro de diálogo:

Page 63: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 60

El cuadro de diálogo Modelo nos permite determinar las dimensiones, la medida de distancia, el método de estandarización, y el método de normalizacion.

Dimensiones en la solución. Especificamos el número de dimensiones. En general, elegimos tan pocas dimensiones como sea posible para explicar la mayor parte de la varianza. El número máximo de dimensiones depende del número de categorías activas usadas en el modelo y de las restricciones de igualdad. El número máximo de dimensiones es el menos de los siguientes:

El número de categorías de fila activas menos el número de categorías de fila restringidas para ser igual, más el número de grupos de categorías de fila restringidos a ser iguales.

El número de categorías de columna activas menos el número de categorías de columna restringidas a ser iguales, más el número de grupos de categorías de columna restringidos a ser iguales.

Método de Distancia. Podemos seleccionar la medida de distancia entre las filas y

entre las columnas de la tabla de correspondencia. Existen dos posibilidades:

Chi Cuadrado: Se basa en la distancia ponderada entre los perfiles, donde la ponderación es la masa de las filas o columnas. Esta medida se pide para los análisis de correspondencia estándar.

Euclídea: Se basa en la raíz cuadrada de la suma al cuadrado de las diferencias entre los pares de filas y los pares de columnas.

Método de Estandarización. Elegimos entre una de las siguientes opciones:

Se eliminan las medias de filas y columnas: Se centran las filas y las columnas. Este método se pide para el análisis de correspondencia estándar.

Se eliminan las medias de las filas: Sólo se centran las filas. Se eliminan las medias de las columnas: Sólo se centran las columnas. Se igualan los totales de fila y se eliminan las medias: Antes de centrar las filas, los márgenes de fila se igualan.

Se igualan los totales de columna y se eliminan las medias: Antes de centrar las columnas, los márgenes de columna de igualan.

Método de Normalización. Elegimos entre una de las siguientes opciones:

Simétrico: Para cada dimensión, las puntuaciones de fila son la media ponderada de las puntuaciones de columna divididas por el correspondiente valor singular. Este método lo utilizamos si queremos analizar las diferencias o similitudes entre las categorías de las dos variables.

Principal: Las distancias entre las puntuaciones de fila y las puntuaciones de columna son aproximaciones de las distancias en la tabla de correspondencia, medidas según la medida de distancia seleccionada. Este método lo usamos si queremos analizar las diferencias entre las categorías de cada una de las variables en lugar de las diferencias entre las categorías de las dos variables.

Principal por fila: Las distancias entre las puntuaciones de fila son aproximaciones de las distancias en la tabla de correspondencia según la medida de distancia seleccionada. Las puntuaciones de fila son la media ponderada de las puntuaciones de columna. Utilizamos este método si queremos analizar las diferencias o similitudes entre las categorías de la variable de fila.

Principal por columna: Las distancias entre las puntuaciones de fila son aproximaciones de las distancias en la tabla de correspondencia según la medida de distancia seleccionada. Las puntuaciones de columna son la media ponderada

Page 64: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 61

de las puntuaciones de fila. Utilizamos este método cuando queremos analizar las diferencias o similitudes entre las categorías de la variable de columna.

Personalizado: Debemos especificar un valor entre –1 y 1. Un valor de –1 corresponde al método Principal por Columna. Un valor de 1 corresponde a Principal por Fila. Un valor de 0 corresponde al Simétrico. Todos los demás valores esparcen la inercia sobre las puntuaciones de tanto las filas como las columnas en distintos grados. Este método se utiliza para realizar diagramas de dispersión biespacial a medida.

5.3 ANÁLISIS DE CORRESPONDENCIA: ESTADÍSTICOS Si hacemos clic sobre el botón Estadísticos obtenemos el siguiente cuadro de diálogo:

El cuadro de diálogo Estadísticos nos permite especificar el Output numérico que vamos a obtener:

Tabla de Correspondencias: Es una tabla de contingencia de los valores de las variables con totales marginales para las filas y las columnas.

Inspección de los puntos de fila: Para cada categoría de fila , las puntuaciones, masa, inercia, contribución a la inercia de la dimensión, y la contribución a la dimensión de la inercia del punto.

Inspección de los puntos de columna: Para cada categoría de columna, las puntuaciones, masa, inercia, contribución a la inercia de la dimensión, y la contribución a la dimensión de la inercia del punto.

Perfiles de fila: Para cada categoría de fila, la distribución a través de las categorías de la variable de columna.

Perfiles de columna: Para cada categoría de columna, la distribución a través de las categorías de la variable de fila.

Permutaciones de la tabla de correspondencia: Nos presenta la tabla de correspondencias reorganizada, de manera que las filas y las columnas están ordenadas según las puntuaciones de la primera dimensión. Opcionalmente, podemos especificar la dimensión máxima para la que quieres que se produzcan las tablas permutadas. Se crea una tabla permutada para cada dimensión desde la primera hasta la indicada en el recuadro.

Estadísticos de confianza para los puntos de fila: Incluyen las desviaciones típicas y las correlaciones para todos los puntos de fila no suplementarios.

Estadísticos de confianza para todos los puntos de columna: Incluyen las desviaciones típicas y las correlaciones para todos los puntos de fila no suplementarios.

Page 65: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 62

5.4 ANÁLSIS DE CORRESPONDENCIA: GRÁFICOS Si hacemos clic sobre el botón Guardar, obtenemos el siguiente cuadro de diálogo:

El cuadro de diálogo Gráficos nos permite especificar qué gráficos queremos que se produzcan. Tenemos las siguientes opciones:

Diagramas de dispersión: Crea una matriz con todos los gráficos por pares posibles de las dimensiones. Los diagramas de dispersión disponibles son los siguientes:

Diagrama de Dispersión Biespacial: Crea una matriz de diagramas entrelazados de las puntuaciones de fila y de columna. Si se ha seleccionado la normalización principal, esta opción no está disponible.

Puntos de fila: Produce una matriz de diagramas de los puntos de fila. Puntos de columna: Produce una matriz de diagramas de los puntos de columna.

Tenemos también la opción de especificar cuantos caracteres usar en las etiquetas de valor cuando etiquetamos los puntos. Este valor debe ser un número entero no negativo menor o igual a veinte.

Gráficos de línea: Creas un gráfico para cada dimensión de la variable seleccionada. Tenemos la posibilidad de realizar los siguientes gráficos de línea:

Categorías de fila transformadas: Crea un gráfico con los valores de categoría de fila iniciales frente a sus correspondientes puntuaciones de fila.

Categorías de columna transformadas: Crea un gráfico con los valores de categoría de columna iniciales frente a sus correspondientes puntuaciones de columna.

También tenemos la opción de especificar cuantos caracteres usar en las etiquetas de valor cuando etiquetamos los puntos. Este valor debe ser un número entero no negativo menor o igual a veinte. 5.5 FUNCIONES ADICIONALES DEL COMANDO CORRESPONDENCE Podemos realizar un análisis de correspondencia a medida si pegamos nuestras elecciones en la ventana de sintaxis y editamos posteriormente la sintaxis del comando CORRESPONDENCE.

Page 66: M_spss Analisis Factorial

Manual de SPSS: Análisis Factorial y de Varianza 63

El lenguaje de programación de SPSS nos permite realizar las siguientes modificaciones adicionales:

Especificar la tabla de datos como input en lugar de utilizar los datos Casewise (usando el subcomando TABLE = ALL)

Especificar el número de caracteres de las etiquetas de valor usadas para etiquetar los puntos para cada tipo de matriz de diagramas de dispersión o matriz biespacial (con el subcomando PLOT)

Especificar el número de caracteres de las etiquetas de valor usadas para etiquetar los puntos para cada tipo de gráfico de líneas (con el subcomando PLOT)

Escribir una matriz de puntuaciones de fila y de columna en un archivo de datos matriciales de SPSS (con el subcomando OUTFILE)

Escribir una matriz de estadísticos de confianza (varianzas y covarianzas) para los valores singulares y las puntuaciones en un archivo de datos matriciales de SPSS (con el subcomando OUTFILE)

Especificar restricciones múltiples de igualdad para las categorías (con el subcomando EQUAL)