Anslisis de Componentes Principales y Ananlisis de...

22
Autor: Prof. Rubén J. Rodríguez Estadística II Licenciatura en Sociología 1 Facultad de Psicología y Ciencias Sociales Licenciatura en Sociología ESTADÍSTICA II (Plan 2008) AN AN Á Á LISIS DE COMPONENTES PRINCIPALES y LISIS DE COMPONENTES PRINCIPALES y AN AN Á Á LISIS DE FACTORES COMUNES LISIS DE FACTORES COMUNES Prof. Titular Lic. Rubén José Rodríguez 4 de abril de 2011

Transcript of Anslisis de Componentes Principales y Ananlisis de...

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

1

Facultad de Psicología y Ciencias Sociales

Licenciatura en Sociología

ESTADÍSTICA II (Plan 2008)

ANANÁÁLISIS DE COMPONENTES PRINCIPALES y LISIS DE COMPONENTES PRINCIPALES y ANANÁÁLISIS DE FACTORES COMUNESLISIS DE FACTORES COMUNES

Prof. Titular

Lic. Rubén José Rodríguez

4 de abril de 2011

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

2

ANTECEDENTES ANÁLISIS FACTORIAL (1)

Charles Spearman (1863-1945): Psicólogo inglés. Fue oficial del ejercito británico en la India y a su vuelta, a los 40 años, influido por la lectura de Francis Galton, decidió realizar su tesis doctoral sobre la medición objetiva de la inteligencia. Propuso el primer modelo factorial, basado en un factor común (factor g), y un factor específico (factor s) (1901), conocida como Teoría bifactorialista de la inteligencia. Ocupo la primera Cátedra de Psicología en la University Collegeen Londres. El Análisis Factorial (AF) engloba dos técnicas: Análisis de Componentes Principales (ACP) y Análisis de Factores Comunes (AFC).

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

3

ANTECEDENTES ANÁLISIS FACTORIAL (2)

Karl Pearson (1857-1936): Científico inglés, discípulo de Galton. Conocido por sus aplicaciones de la estadística a los problemas biológicos y psicoló-gicos. Cofundador de la revista Biométrika (1902). Fue el que presentó la propuesta del Análisis de Componentes Principales (1901)(ACP) primer paso para el cálculo del Análisis Factorial. El ACP es una técnica descriptiva que intenta condensar la matriz de correlaciones entre las variables en unos componentes principales la variabilidad total que presentan los individuos en las pruebas o variables medidas.

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

4

OBJETIVO DEL ANÁLISIS FACTORIAL (1)

El objetivo del AF consiste en identificar un númerode factores o componentes, inferior al número devariables observadas (F<V) mediante los cuales se pueda describir el fenómeno observado en forma simplificada. El AF es un método de reducción de la información, identificando los factores que sonconstructos no directamente observables (variables latentes).A partir de la matriz de datos original se calcula la matriz de correlaciones y el ACP/AFC convierte a ésta en una matriz factorial. “El AF es, en fin de cuentas, un estudio de los coeficientes de correlación” (Yela, Mariano (1957). La Técnica del Análisis Factorial. Madrid: Biblioteca Nueva, 1997, p. 32

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

5

OBJETIVO DEL ANÁLISIS FACTORIAL (2)

El AF al ser un técnica descriptiva o de interdepen-dencia busca resumir, reducir o simplificar la informa-ción contenida en una matriz de datos con V variables. Reduce un gran número de variables empíricas a pocas variables fundamentales donde aquellas están altamente saturadas en éstas.E identifica un reducido número de factores o

componentes F siendo F < V, de modo que expliquen un máximo de la variabilidad total (ACP), o bien, solamente la variabilidad común (AFC) (Análisis Factorial Común) (Hair, et al., 1999: 90 y 768). El AF debe cumplir los Principios de parsimonia e interpretabilidad.

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

6

DIAGRAMA DE ANÁLISIS CAUSAL

Índice de industrializaciónPeriódicos semanales por hab.

U$ por Hab de Ventas al DetalleU$ por Hab del Ventas al Por Mayor

% de Mujeres > 14 años que trabajan% de Trabajadoras en agricultura

Índice de Fomento del Nivel de VidaÍndice de Salud

Gastos en Ayudas a los Niños x Hab.Índice de Paro Laboral (Desocup.)Extensión de las Enferm. Mentales

% de Viviendas Construidas reciént.Estabilidad de la Población

Índice de Actividad Migratoria

INDUSRI

PERIODIC

VENTASDE

VENTASMA

EMPLEOMU

AGRICULT

NIVELVID

SALUD

AYUDASNI

PARO

MENTALEN

VIVIENDA

ESTAPOBL

MEGRACIO

F 1

F 2

F 3

VARIABLES ORIGINALES COEFICIENTES FACTORIALES

FACTORESEXTRAIDOS

NOMBRE FACTOR LATENTE

Actividad Económica

Bienestar Social

Estabilidad Social

.913

.866

.840

.834

.082-.657

.888

.791

-.755-.625

-.475

.842

-.822

.777

Bisquerra Alzina, Rafael (1989). Introducción conceptual al Análisis Multivariable. Tomo I. Madrid: PPU-Promociones y Publicaciones Universitarias, 1989, p. 329.

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

7

PASOS DEL ANÁLISIS FACTORIAL(1)

1º Exámen de la Matriz de Correlaciones: El requisito es que las variables estén intercorrelacionadas. Los indicadores estadísticos para medir la significación del grado de correlación: Test de Esfericidad de Barlett, Índice de K-M-O de Kaiser, Meyer y Olkin, Coeficiente de Correlación Parcial y Múltiple, y Gráfico de Sedimentación. Si de estos indicadores estadísticos surge que las variables en la matriz de datos están incorrelaciona-das, por lo tanto no es posible aplicar el ACP o el AFC, pues, no hay variabilidad o variancia (total o común) que explicar para obtener un componente principal o factor común.

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

8

PASOS DEL ANÁLISIS FACTORIAL(2)2º Extracción de los Factores o Componentes: Determinar un número reducido de factores que puedan representar a las variables originales. Uno de los métodos de extracción es de Componentes Principales (CP), que a su vez es una técnica estadística del AF: ACP.El método de CP analiza la variancia total y extrae la primera proporción de máxima varianza (primer CP) que explique los datos. El segundo CP extrae la mayor proporción de la varianza residual, y así sucesivamente. Los CP extraídos deben no estar correlacionados entre sí (ortogonales). Los posteriores CP explican cada vez menos de la variancia residual.

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

9

PASOS DEL ANÁLISIS FACTORIAL(3)

3º Rotación de Factores: Consiste en hacer rotar, girar los ejes factoriales hasta que se aproximen al máximo a las a las variables. La finalidad es obtener una representación gráfica fácilmente interpretable.4º Cálculo de las Puntuaciones Factoriales: Una vez obtenidos los factores donde las variables tienen alta saturación se pueden calcular las puntuaciones que obtendrían los sujetos en esos factores. A partir de la matriz factorial rotada se calculan las puntua-ciones factoriales que se transforman en puntuacioes estandarizadas Zij y expresan al AF como una ecuación de regresión múltiple:

1 1 2 2 ...ij i i i i i jF FZ F Z FZ

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

10

TEST DE ESFERICIDAD DE BARLETT

El test pone a prueba la H0 mediante X2 que dice que la matriz de correlaciones empírica R es igual a la matriz identidad I (cuya diagonal principal son unos y el resto de los coeficientes son 0):

H0 : │R│= 1 (Hay incorrelación)H1 : │R│ 1 (Hay correlación)

Si se confirma la H0 significa que las variables no están intercorrelacionadas, por lo tanto la nube de puntos en el espacio formaría una esfera (esfericidad).

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

11

ÍNDICE KMO de KAISER, MEYER y OLKIN

ijr .ij zr

.ij zrEste índice compara las magnitudes de los coeficientes de correlación observados rij con los coeficientes de correlación parcial . El índice KMO varía entre 0,0 a 1,0. Si el índice tiende a 1,0 señala la existencia de intercorrelación entre las variables.Valores de KMO inferiores a 0,50 suponen, por el con trario, la no adecuación del AF, al haber poca correlación. Su fórmula es:

2

1 1

2 2.

1 1 1 1

N N

iji j

N N N N

ij ij zi j i i

rKMO

r r

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

12

EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 VariablesPérez, César (2004). Técnicas de análisis multivariante de datos con SPSS,

Madrid: Pearson, 2004, pp. 195-203.

Estadísticos descriptivos

78,14 23,056 105

1,696 1,1929 105

69,94 10,695 105

43,317 38,3699 105

3,551 1,8909 105

26,124 12,3582 105

3,4086 ,62725 10549181,51 149318,927 105

9,62 4,277 105

Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)

MediaDesviación

típica N del análisis

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

13

EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 VariablesMatriz de correlacionesa

1,000 -,698 ,865 -,901 -,866 -,870 ,731 -,062 -,485

-,698 1,000 -,579 ,603 ,835 ,856 -,571 -,054 -,029

,865 -,579 1,000 -,962 -,847 -,865 ,833 -,067 -,703

-,901 ,603 -,962 1,000 ,844 ,870 -,824 ,082 ,636

-,866 ,835 -,847 ,844 1,000 ,975 -,713 -,067 ,424

-,870 ,856 -,865 ,870 ,975 1,000 -,783 -,043 ,384

,731 -,571 ,833 -,824 -,713 -,783 1,000 -,198 -,401-,062 -,054 -,067 ,082 -,067 -,043 -,198 1,000 -,053

-,485 -,029 -,703 ,636 ,424 ,384 -,401 -,053 1,000

,000 ,000 ,000 ,000 ,000 ,000 ,266 ,000

,000 ,000 ,000 ,000 ,000 ,000 ,293 ,386

,000 ,000 ,000 ,000 ,000 ,000 ,249 ,000

,000 ,000 ,000 ,000 ,000 ,000 ,203 ,000

,000 ,000 ,000 ,000 ,000 ,000 ,247 ,000

,000 ,000 ,000 ,000 ,000 ,000 ,331 ,000

,000 ,000 ,000 ,000 ,000 ,000 ,021 ,000,266 ,293 ,249 ,203 ,247 ,331 ,021 ,295

,000 ,386 ,000 ,000 ,000 ,000 ,000 ,295

Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)

Correlación

Sig. (Unilateral)

Alfabetización(%)

Aumento dela población(% anual)

Esperanza devida femenina

Mortalidadinfantil

(muertes por1000

nacimientosvivos)

Númeropromediode hijos

Tasa denatalidad(por 1.000habitantes)

Log(10) dePIB_CAP

Poblaciónx1000

Tasa demortalidad(por 1.000habitantes)

Determinante = 5,065E-07a.

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

14

EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables

KMO y prueba de Bartlett

,841

1451,999

36

,000

Medida de adecuación muestral deKaiser-Meyer-Olkin.

Chi-cuadradoaproximadogl

Sig.

Prueba de esfericidadde Bartlett

ÏNDICE KMO: 0,841 Alta intercorrelación entre los indicadores

TEST DE ESFERICIDAD DE BARLETT: X2 = 1451,999 Sig. 0,000

Rechazo de H0 Hay intercorrelación entre las variables

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

15

EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables

Los Componentes extraídos varían entre 0,782 y 0,974 indicando una alta comunalidad (h2). Estas indican la proporción de varianza explicada por todos los factores (resultantes de la extracción). La comunalidad de cada variable es igual a la suma de cuadrados de los coeficiente factoriales de cada variable.

Comunalidades

1,000 ,868

1,000 ,955

1,000 ,972

1,000 ,952

1,000 ,940

1,000 ,974

1,000 ,7821,000 ,973

1,000 ,956

Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)

Inicial Extracción

Método de extracción: Análisis de Componentes principales.

2 2 2 2 21 2 ...k j j kj kjh F F F F

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

16

EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables

Los Autovalores o Eigenvalores (Valores propios: Lmbda) son el cuadra-do del Coeficiente Factorial e indican la proporción de la variancia total de una variable explicada por ese factor. Se convierte en el % explicado por el Factor I, II, etc., dividiendo el Autovalor por el nº de variables y multiplicado por 100. Se observa que el FI explica el 67,95% de la variancia total, el FII el 13,23% y FIII el 11,83%. Los tres primeros factores explican el 93,01% de la variancia total, pues sus Autovalores son > que 1 (1,065 a 6,116).

Varianza total explicada

6,116 67,954 67,954 6,116 67,954 67,954 5,9671,190 13,227 81,182 1,190 13,227 81,182 2,0601,065 11,830 93,011 1,065 11,830 93,011 1,126

,305 3,389 96,401,162 1,797 98,198,067 ,744 98,942,056 ,622 99,564,025 ,280 99,845,014 ,155 100,000

Componente123456789

Total% de lavarianza % acumulado Total

% de lavarianza % acumulado Total

Autovalores inicialesSumas de las saturaciones al cuadrado

de la extracciónSuma de

las

Método de extracción: Análisis de Componentes principales.Cuando los componentes están correlacionados, las sumas de los cuadrados de las saturaciones nose pueden añadir para obtener una varianza total.

a.

I

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

17

EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables

I

Los Autovalores mayores a 1 son los tres primeros componentes (1,065; 1,190; 6,116) y que sintetizan el 93% de la explicación de la variancia total.

Gráfico de sedimentación

Número de componente

987654321

Auto

valo

r

7

6

5

4

3

2

1

0

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

18

EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables

Componente 1: Alfabet (-,931), Inc_pob (,755), Espvidaf (,957) , Mortinf,958), Fertilid (,944), Tasa_nat (,961)

Componente 2: Tasa_mor (-,710)

Componente 3: Poblac (,919)

Matriz de componentesa

-,931 -,009 -,025

,755 ,608 ,125

-,957 ,232 ,051

,958 -,181 -,010

,944 ,210 -,063

,961 ,225 -,010

-,851 ,096 -,220,038 -,355 ,919

,551 -,710 -,385

Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)

1 2 3Componente

Método de extracción: Análisis de componentes principales.

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

19

EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables

Matriz rotada según el Método OBLIMIN con KAISERMatriz de estructura

-,920 ,378 -,097

,851 ,234 -,097

-,901 ,618 -,139

,913 -,562 ,153

,963 -,244 -,070

,984 -,221 -,029

-,831 ,367 -,311,016 -,005 ,981

,407 -,960 ,021

Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)

1 2 3Componente

Método de extracción: Análisis de componentes principales. Metodo de rotación: Normalización Oblimin con Kaiser.

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

20

EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables

El Gráfico de componentes visualiza la ubicación en el espacio tridimensional de los 3 factores los coeficiente factoriales que mejor saturan a cada indicador.

Gráfico de componentes en espacio rotad

mortalidad infantil

población x1000tasa de natalidad (pnúmero promedio de h

aumento de la poblac

nte 2

tasa de mortalidad (

1,01,0

-,5

0,0

,5,5

,5

1,0

Componente 3Componente 10,00,0

alfabetización (%)

esperanza de vida fe

-,5-,5

log(10) de pib_cap

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

21

ESCALA DE NACIONALISMO - MATRIZ FACTORIAL COEFICIENTES FACTORIALES Fj (Cargas o Saturaciones Factoriales)

0,519Los peruanos somos mejores que las personas de otros países

0,719Los peruanos son más valientes y patriotas que las personas de los países vecinos.

0,766A pesar de que hay excepciones, está claro que los peruanos somos más capaces que los habitantes de los países vecinos

0,626Siento que tengo sangre chola

0,682Siento que comparto un mismo pasado con todos los peruanos

0,723Siento que formo parte de una familia peruana

0,625Las inversiones chilenas en el Perú son un peligro para el país

0,653Todos los problemas del Perú surgen con la venida de los españoles durante la conquista

0,671Las empresas norteamericanas vienen y se llevan la plata

0,702No hay que confiar mucho en los países vecinos

0,478Se debe cerrar las fronteras a productos de afuera

0,528Todos los peruanos deberían vivir en el Perú y no irse al extranjero

0,808En el Perú solamente debería vivir la gente que es peruana

0,811Los peruanos no debemos mezclarnos con gente de otros países

0,620Prefiero ser peruano más que de cualquier otro país

0,651En general me agradan los peruanos

0,790Estoy orgulloso de ser peruano

0,800Me gusta ser peruano

F5F4F3F2F1

http://www.waporcolonia.com/presentaciones/chaparro-saravia.pps#792,28,Diapositiva%2028http://www.waporcolonia.com/presentaciones/chaparro-saravia.pps#792,28,Diapositiva%2028

Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología

22

ANIMOSIDAD (3.68 de promedio)

ENDOGAMIA (2.89 de promedio)

PERTENENCIA GRUPAL (4.01 de promedio)

ORGULLO (4.24 de promedio)

DENOMINACIÓN DE LAS DIMENSIONES FACTORIALESPromedio en las Escalas Likert

SENTIMIENTO DE SUPERIORIDAD (3.42 de prom)

DIMENSIONES INCLUYENTES

DIMENSIONES DE CONFRONTACION

• De los 66 ítems iniciales se obtiene una escala de 18 ítems• Las dimensiones que mejor explican los cambios en puntuaciones generales son la

Endogamia, la Animosidad y Superioridad. Es ahí donde hay mayor varianza.