Analisis Factorial Problema 1

31
ANÁLISIS FACTORIAL Técnica estadística multivariante cuyo principal propósito es sintetizar las interrelaciones observadas entre un conjunto de variables en una forma concisa y segura como una ayuda a la construcción de nuevos conceptos y teorías. Para ello utiliza un conjunto de variables aleatorias inobservables, que llamaremos factores comunes, de forma que todas las covarianzas o correlaciones son explicadas por dichos factores y cualquier porción de la varianza inexplicada por los factores comunes se asigna a términos de error residuales que llamaremos factores únicos o específicos. El Análisis Factorial puede ser exploratorio o confirmatorio. El análisis exploratorio se caracteriza porque no se conocen a priori el número de factores y es en la aplicación empírica donde se determina este número. Por el contrario, en el análisis de tipo confirmatorio los factores están fijados a priori, utilizándose contrastes de hipótesis para su corroboración.

description

Analisis Factorial Problema 1

Transcript of Analisis Factorial Problema 1

ANÁLISIS FACTORIAL

Técnica estadística multivariante cuyo principal propósito es sintetizar las interrelaciones observadas entre un conjunto de variables en una forma concisa y segura como una ayuda a la construcción de nuevos conceptos y teorías. Para ello utiliza un conjunto de variables aleatorias inobservables, que llamaremos factores comunes, de forma que todas las covarianzas o correlaciones son explicadas por dichos factores y cualquier porción de la varianza inexplicada por los factores comunes se asigna a términos de error residuales que llamaremos factores únicos o específicos. El Análisis Factorial puede ser exploratorio o confirmatorio. El análisis exploratorio se caracteriza porque no se conocen a priori el número de factores y es en la aplicación empírica donde se determina este número. Por el contrario, en el análisis de tipo confirmatorio los factores están fijados a priori, utilizándose contrastes de hipótesis para su corroboración.

CÓMO REALIZAR UN ANÁLISIS FACTORIAL

1.- FORMULACIÓN DEL PROBLEMA. Debe abordarse la selección de las variables a analizar así como la de los elementos de la población en la que dichas variables van a ser observadas (pueden realizarse análisis factoriales con variables discretas lo habitual será que las variables sean cuantitativas continuas). 1.1- El modelo del Análisis Factorial Sean X1,X2,…,Xp las p variables objeto de análisis supondremos que están tipificadas. Si no lo estuvieran el análisis se realizaría de forma similar pero la matriz utilizada para calcular los factores no sería la matriz de correlación sino la de varianzas y covarianzas.

El investigador mide estas variables sobre n individuos, obteniéndose la siguiente matriz de datos:

Hipótesis básicas: Supondremos que observamos un vector de variables x, de dimensiones (p×1), en elementos de una población. El modelo de análisis factorial establece que este vector de datos observados se genera mediante la relación: Donde: 1. f es un vector (m×1) de variables latentes o factores no observadas.

Supondremos que sigue una distribución Nm(0, I), es decir los factores son variables de media cero e independientes entre sí y con distribución normal.

2. Λ es una matriz (p×m) de constantes desconocidas (m<p). Contiene los coeficientes que describen como los factores, f , afectan a las variables observadas, x, y se denomina matriz de carga.

3. u es un vector (p×1) de perturbaciones no observadas. Recoge el efecto de todas las variables distintas de los factores que influyen sobre x. Supondremos que u tiene distribución Np(0,ψ) donde ψ es diagonal, y que las perturbaciones están incorreladas con los factores f .Con estas tres hipótesis deducimos que:

(a) µ es la media de las variables x, ya que tanto los factores como las

perturbaciones tienen media cero; (b) x tiene distribución normal, al ser suma de variables normales, y

llamando V a su matriz de covarianzas

μ1

μ2

… μp

μ=

λ11 λ12….. λ1m

λ21 λ22 ….. λ2m

……………… λp1 λp2 ….. λpm

Λ =

f1

f2

… fm

f =

u1

u2

… up

u =

La ecuación implica que dada una muestra aleatoria simple de n elementos generada por el modelo factorial, cada dato xij puede escribirse como: Poniendo juntas las ecuaciones para todas las observaciones, la matriz de datos, X, (n×p), puede escribirse como:

X1 = μ1+ λ11f1 + λ12f2 +…+λ1mfm + u1

X2 = μ2+ λ21f1 + λ22f2 +…+λ2mfm+ u2

………………………………… Xp = μp+ λp1f1 + λp2f2 +…+λpmfm+ up

Entonces:

Propiedades: 1. La matriz Λ contiene las covarianzas entre los factores y las variables

observadas. Donde: (por hipótesis, los factores están incorrelados) (tienen media cero y están incorrelados con las perturbaciones) Esta ecuación indica que los términos λij de la matriz de carga, Λ, representan la covarianza entre la variable xi y el factor fj , y, al tener los factores varianza unidad, son los coeficientes de regresión cuando explicamos las variables observadas por los factores. En el caso particular en que las variables x estén estandarizadas, los términos λij coeficientes son también las correlaciones entre las variables y los factores.

2. La matriz de covarianzas entre las observaciones verifica, (al estar incorrelados los factores y el ruido). Entonces. La matriz de covarianzas admite una descomposición como suma de dos matrices: (i) La primera, ΛΛ´, es una matriz simétrica de rango m<p. Esta matriz

contiene la parte común al conjunto de las variables y depende de las covarianzas entre las variables y los factores.

(ii) La segunda, ψ, es diagonal, y contiene la parte específica de cada

variable, que es independiente del resto.

Esta descomposición implica que las varianzas de las variables observadas pueden descomponerse como: donde el primer término es la suma de los efectos de los factores y el segundo el efecto de la perturbación. Llamando a la suma de los efectos de los factores que llamaremos comunalidad, tenemos que Esta igualdad puede interpretarse como una descomposición de la varianza en: Varianza observada = Variabilidad común + Variabilidad específica (Comunalidad)

Comunalidad: Uno de los términos más clásicos del análisis factorial expresa la parte de cada variable (su variabilidad) que puede ser explicada por los factores comunes a todas ellas. Se denomina "comunalidad" a la proporción de la varianza explicada por los factores comunes en una variable. Especificidad: Es el término opuesto a comunalidad ya que expresa la parte específica de cada variable que escapa a los factores comunes.

Ejemplo. Supongamos que tenemos tres variables generadas por dos factores. La matriz de covarianzas debe verificar Esta igualdad proporciona 6 ecuaciones distintas (recordemos que al ser V simétrica sólo tiene 6 términos distintos). La primera será: Llamando h2

1=λ211+λ2

12 a la contribución de los dos factores en la variable 1. Las seis ecuaciones son :

Unicidad del modelo La matriz de carga (Λ), y los factores (f), no son observables: En consecuencia Λ, f y Λ∗, f∗ serán equivalentes si Conduce a dos tipos de indeterminación. 1) Un conjunto de datos puede explicarse con la misma precisión con

factores correlacionados y no correlacionados. 2) Los factores no quedan determinados de manera única.

Para mostrar la primera, si H es cualquier matriz no singular, entonces Sea Λ∗=ΛH la nueva matriz de carga, y f∗=H−1f los nuevos factores: donde f∗∼N[0,H−1(H−1)’], por tanto, están correlacionadas. Análogamente, partiendo de factores correlacionados, f∼N(0,Vf), siempre existe una expresión equivalente de las variables mediante un modelo con factores incorrelacionados. En efecto, sea A una matriz tal que Vf=AA´. (existe si Vf es definida positiva), entonces A−1Vf (A−1)´ = I, y escribiendo

Sea Λ∗=ΛA como la nueva matriz de coeficientes de los factores y f∗= A−1f como los nuevos factores, el modelo es equivalente a otro con factores incorrelados. Esta indeterminación se ha resuelto en las hipótesis del modelo tomando siempre los factores como incorrelados. En segundo lugar, si H ortogonal, el modelo x=µ+Λf+u y el x=µ+(ΛH)(H’f)+u son indistinguibles. Ambos contienen factores incorrelados, con matriz de covarianzas la identidad. En este sentido, decimos que el modelo factorial está indeterminado ante rotaciones. Esta indeterminación se resuelve imponiendo restricciones sobre los componentes de la matriz de carga, como veremos en la sección siguiente. Ejemplo. Supongamos x=(x1, x2, x3)’ y el modelo factorial M1 siguiente:

los factores están incorrelacionados, otro modelo equivalente de factores también incorrelacionados es. Esta matriz es ortogonal ya que H-1=H´=H, entonces

Llamando a este modelo, M2, puede escribirse como: y los nuevos factores, g, están relacionados con los anteriores, f, por: y son por lo tanto una rotación de los iniciales. Comprobemos que estos nuevos factores están también incorrelados. Su matriz de varianzas es: y si Vf = I ⇒ Vg = I, de donde se deduce que los modelos M1 y M2 son indistinguibles.

Problema 1.- Las observaciones corresponden a acciones que se cotizan en el mercado y las variables a tres medidas de rentabilidad de estas acciones durante un período de tiempo. Las variables son : X1 es la rentabilidad efectiva por dividendos, X2 es la proporción de beneficios que va a dividendos y X3 el ratio entre precio por acción y beneficios.

Obs. X1 X2 X3

1 3.4 89.7 30.2

2 5.1 55.7 9.9

3 4.5 52.3 11.5

4 3.5 47.0 11.2

5 5.9 42.7 7.0

6 5.1 30.6 6.9

7 4.6 64.4 11.8

8 5.0 51.0 9.6

9 3.2 54.4 14.7

10 3.4 45.7 13.2

11 6.5 39.9 5.2

12 4.4 40.3 13.7

13 5.1 52.4 11.0

14 5.8 43.9 8.0

15 4.6 52.8 14.4

16 7.2 65.8 7.8

17 7.2 58.1 7.7

18 4.4 58.5 12.1

19 7.8 84.3 11.0

20 16.0 96.5 6.0

21 16.7 100.0 6.8

22 15.2 92.3 5.2

23 17.5 99.9 6.8

24 16.2 93.5 6.1

25 14.7 100.0 6.6

26 15.3 99.9 5.9

27 15.8 100.0 6.9

28 18.3 96.3 5.7

29 15.9 100.0 6.1

30 16.1 92.5 6.1

31 9.7 87.6 7.7

32 6.9 53.6 6.6

33 14.4 87.8 5.2

34 14.9 34.5 4.69

EL MÉTODO DEL FACTOR PRINCIPAL

Solución: ¿Calcular la matriz de carga del modelo? Primero fijaremos un ε grande, Paso 1 comunalidades:

i) Estimación inicial de las comunalidades: Ii) Estimamos los términos de la diagonal de: Paso 2 Calculamos la matriz cuadrada y simétrica: Paso 3 Descomposición espectral: Paso 4 Matriz de cargas: Fin:

Estimar la matriz de cargas: La matriz de varianzas covarianzas de estos datos en logaritmos es, S<-matrix(c(0.35,0.15,-0.19,0.15,0.13,-0.03,-0.19,-0.03,0.16),ncol=3) I<-matrix(c(1,0,0,0,1,0,0,0,1),ncol=3) ; I=diag(3) Para estimar la matriz de cargas realizamos cuatro pasos. Antes de empezar tenemos que fijar la cota para decidir la convergencia . Primero: Fijaremos un ε grande, 0.05, de forma que en pocas iteraciones el algoritmo converja a pesar de los errores acumulados por el redondeo.

0.35

Paso1: Para la estimación inicial de las comunalidades donde s∗jj es el elemento j-ésimo de la matriz S−1

S_1=solve(S)

Entonces: com<-diag(S_1) ; com1=diag(com) ; com2=solve(com1)

Paso 2. Calculamos la matriz cuadrada y simétrica Q=S-com2

Q<-matrix(c(0.111,0.15,-0.19,0.15,0.111,-0.03,-0.19,-0.03,0.143),ncol=3)

Paso 3. eigen(Q) ; m<-eigen(Q) ; G<-m[[1]] ; H<-m[[2]] (G1i contiene los m mayores valores propios de Qi y H1i su vectores propios). Descomposición espectral de Qi y separación en dos términos Los valores propios de Qi son 0.379, 0.094, y −0.108. Observemos que uno de ellos es negativo, con lo que la matriz no es definida positiva. Como hay un valor propio mucho mayor que los demás tomaremos un único factor. Esto supone. G1<-G[1] ; G2<-G[2:3] H1<-H[,1] ; H2<-H[,2:3] d1<-H1%*%(G1*t(H1)) d2<-H2%*%(G2*t(H2))

Paso 4. Calculamos C<-H1*((G1)^0.5) Esta es la primera estimación de la matriz de carga. Vamos a iterar para mejorar esta estimación. Para ello volvemos al paso 1.

Paso 1. Estimamos los términos de la diagonal de:

Paso 2. Calculamos la matriz cuadrada y simétrica Paso 3. Descomposición espectral de

Paso 4. Calculamos comprobamos si se cumple el criterio de convergencia Como no cumple el criterio de convergencia volvemos al paso 1 hasta que se cumpla el criterio.

Paso 1. Volvemos a estimar Paso 2. Calculamos la matriz cuadrada y simétrica

Paso 3. Descomposición espectral de Qi. Indicaremos sólo el primer vector y valor propio Paso 4. Calculamos

comprobamos si se cumple el criterio de convergencia El criterio de convergencia se ha cumplido y el modelo con los parámetros estimados es:

Estimación de los factores: Primer Método: El estimador resultante es el de mínimos cuadrados generalizados, dado por: Estimaremos los valores del factor para la matriz de carga estimada (para las variables en logaritmos considerando las primeras 5 observaciones). método, mínimos cuadrados generalizados. Los estimadores de

y aplicando las fórmulas obtenemos, Los 5 primeros valores del primer factor se calculan con:

Segundo Método Los factores como variables aleatorias: Para estimar los valores por el segundo método calcularemos : y los 5 primeros valores del primer factor se calculan con

Observemos que ambas estimaciones presentan la misma estructura, pero el efecto de contracción del segundo método hace que los valores obtenidos sean menores.