Introducción al análisis multivariante

48
ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante Angel Igelmo Ganzo 1 CAPÍTULO 1.- INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE 1.1.- Utilidad del análisis estadístico multivariante. 1.2.- Objetivos y clasificación de los diferentes métodos. 1.3.- Individuos y variables. 1.4.- Matrices de datos. 1.5.- La matriz de covarianza y de correlaciones. 1.6.- Transformación lineal de variables. 1.7.- Centro de gravedad e inercia de una nube de puntos. 1.8.- Representaciones gráficas y proyecciones. 1.9.- Multiregresión y multicorrelación. 1.10.- Programas informáticos de análisis multivariante. 1.11.- Ejemplos. 1.12.- Aplicaciones 1.1.- UTILIDAD DEL ANÁLISIS ESTADÍSTICO MULTIVARIANTE La utilidad del análisis estadístico multivariante (Análisis de Datos Multivariantes) en la investigación biológica se ha puesto de gran interés, pues los diversos objetivos de los diferentes campos biológicos quedan bastantes cubiertos por las técnicas multivariantes. Por este motivo la mejor manera de poner de manifiesto la necesidad de esta metodología es precisamente mencionando problemas y casos concretos, ya sean extraídos de revistas científicas como de trabajos realizados por los estudiantes. En el campo de la biología se pueden formular muchas preguntas sobre determinados fenómenos que se producen en un contexto de complejidad, pues en general dispondremos de muchos individuos sobre los que se miden muchos valores. Pero estas preguntas tienen en común que su respuesta ha de basarse en el análisis conjunto de muchas variables, es decir en el contexto del análisis estadístico multivariante. El Análisis Multivariante (Multivariate Analysis) ofrece un conjunto de métodos apropiados para resolver problemas que se presentan en situaciones complejas, tal como hemos indicado anteriormente, pero no son métodos exclusivos de las ciencias biológicas, biomédicas o biométricas, aunque su utilidad en estos ámbitos es muy grande. Tiene gran incidencia en el campo de las Ciencias Sociales y del Comportamiento, así como en el campo Económico, Comercial e Industrial. Se trata por tanto de una metodología de uso general. 1.2.- OBJETIVOS Y CLASIFICACIÓN DE LOS DIFERENTES MÉTODOS El Análisis Multivariante es «la rama de la estadística que estudia las relaciones entre conjuntos de variables dependientes y los individuos para los cuales se han medido dichas variables» (Kendall). Sus métodos analizan conjuntamente p variables, medidas sobre un conjunto de n individuos u objetos. Una primera diferenciación entre los distintos métodos se basa en los objetivos que persiguen. Genéricamente, distinguimos cuatro posibles objetivos: a) Simplificación estructural: se trata de describir la información original de forma sintética o resumida. Se busca la simplicidad a base de conseguir una reducción de la complejidad del problema. El método consiste en condensar las p

Transcript of Introducción al análisis multivariante

Page 1: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 1

CAPÍTULO 1.- INTRODUCCIÓN AL ANÁLISIS MULT IVARIANTE

1.1.- Utili dad del análisis estadístico multivariante. 1.2.- Objetivos yclasificación de los diferentes métodos. 1.3.- Individuos y variables. 1.4.- Matrices dedatos. 1.5.- La matriz de covarianza y de correlaciones. 1.6.- Transformación lineal devariables. 1.7.- Centro de gravedad e inercia de una nube de puntos. 1.8.-Representaciones gráficas y proyecciones. 1.9.- Multi regresión y multicorrelación.1.10.- Programas informáticos de análisis multivariante. 1.11.- Ejemplos. 1.12.-Aplicaciones

1.1.- UTILIDAD DEL ANÁLISIS ESTADÍSTICO MULTIVARIANTE

La utili dad del análisis estadístico multivariante (Análisis de DatosMultivariantes) en la investigación biológica se ha puesto de gran interés, pues losdiversos objetivos de los diferentes campos biológicos quedan bastantes cubiertospor las técnicas multivariantes. Por este motivo la mejor manera de poner demanifiesto la necesidad de esta metodología es precisamente mencionandoproblemas y casos concretos, ya sean extraídos de revistas científicas como detrabajos realizados por los estudiantes.

En el campo de la biología se pueden formular muchas preguntas sobredeterminados fenómenos que se producen en un contexto de complejidad, pues engeneral dispondremos de muchos individuos sobre los que se miden muchos valores.Pero estas preguntas tienen en común que su respuesta ha de basarse en el análisisconjunto de muchas variables, es decir en el contexto del análisis estadísticomultivariante.

El Análisis Multivariante (Multivariate Analysis) ofrece un conjunto demétodos apropiados para resolver problemas que se presentan en situacionescomplejas, tal como hemos indicado anteriormente, pero no son métodos exclusivosde las ciencias biológicas, biomédicas o biométricas, aunque su utili dad en estosámbitos es muy grande. Tiene gran incidencia en el campo de las Ciencias Socialesy del Comportamiento, así como en el campo Económico, Comercial e Industrial. Setrata por tanto de una metodología de uso general.

1.2.- OBJETIVOS Y CLASIFICACIÓN DE LOS DIFERENTES MÉTODOS

El Análisis Multivariante es «la rama de la estadística que estudia lasrelaciones entre conjuntos de variables dependientes y los individuos para los cualesse han medido dichas variables» (Kendall ). Sus métodos analizan conjuntamente pvariables, medidas sobre un conjunto de n individuos u objetos. Una primeradiferenciación entre los distintos métodos se basa en los objetivos que persiguen.Genéricamente, distinguimos cuatro posibles objetivos:

a) Simplifi cación estructural: se trata de describir la información original deforma sintética o resumida. Se busca la simplicidad a base de conseguir unareducción de la complejidad del problema. El método consiste en condensar las p

Page 2: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 2

variables originales en un número menor de nuevas variables creadas por el propioanálisis, que contienen sin embargo gran parte de la información original. A estetipo de objetivo, y de método, se denomina reducción de la dimensión ya que losdatos originales se expresan en un espacio de dimensión p mientras que comoresultado del análisis podemos expresarles en otro espacio de menor dimensión. Lasnuevas variables creadas por el análisis se denominan ejes, factores, o componentesprincipales. Son variables sintéticas, que estarán en función de las p variablesoriginales. Generalmente, estos factores tienen una interpretación o significado queel investigador debe descubrir.. El Análisis de Componentes Principales (ACP), elAnálisis Factorial (AF), y el Análisis de Correspondencias (AC) son métodos dereducción de la dimensión.

b) b) Clasificación o agrupación: estos métodos incluyen los de agrupamiento(Análisis Cluster) y los de Segmentación. La agrupación de individuos consiste enformar grupos de individuos homogéneos en cuanto a las p variables, y heterogéneosrespecto a los otros grupos. La agrupación de variables busca la formación degrupos de variables similares en cuanto a su comportamiento en un colectivo deobjetos.

c) Análisis de interdependencia: se trata de buscar la interdependencia entregrupos de variables, sin que a priori se suponga relación de causalidad entre ellas.El método más conocido es el Análisis de Correspondencias, que es unageneralización del Análisis de Correspondencias Bivariante.

d) Análisis de dependencia: explica las relaciones entre grupos de variables,donde se supone que unas pueden ser causas de otras. El Análisis de Regresiónpertenece a este grupo de métodos.

Un tipo interesante de análisis de dependencia consiste en buscar un criterioque permita separar o discriminar entre objetos pertenecientes a priora a gruposdiferentes. Dicho criterio es una función de las variables originales. En últimotérmino, se trata de usar los resultados en el futuro para predecir a qué grupopertenecen nuevos objetos que no formaban parte de la información original y paralos cuales se han medido las p variables. El Análisis Discriminante y la RegresiónLogística son métodos que persiguen este objetivo.

1.3.- INDIVIDUOS Y VARIABLES

¿Quiénes son los individuos y cómo se miden las variables? Debemosentender la palabra individuos en sentido amplio. Los n objetos o individuos puedenser personas o familias (por ejemplo, si trabajamos con datos recogidos a través deuna encuesta de salud realizada a n personas). Sin embargo, el concepto deindividuo u objeto es más amplio. Pueden ser zonas geográficas (comarcas, regiones,países); objetos (marcas comerciales en un estudio de marketing farmacéutico,programas electorales enfermedades,...) organizaciones (hospitales, centros desalud,...), plantas, animales, etc. Por otra parte, estos n objetos o individuos cuyosdatos analizamos pueden constituir todo el colectivo o población de interés, o bienpueden ser una muestra representativa de dicha población. Si se trata de unamuestra aleatoria, el análisis multivariante permite realizar inferencia, es decir, hacerafirmaciones sobre las características del todo (población) tras analizar la parte(muestra). Aunque nosotros nos limitaremos fundamentalmente al caso descriptivo,

Page 3: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 3

ya que la inferencia implicaría unos desarrollos matemáticos previos que no entrandentro del alcance de este texto.

Generalmente, los datos son estáticos, en el sentido de que son medicionesrealizadas en un momento o periodo dado de tiempo. Sin embargo, el AnálisisMultivariante se puede aplicar también para analizar la evolución temporal delfenómeno en estudio. En este caso, los n individuos son n momentos de tiempo. Aveces, se emplean métodos multivariantes para comparar una determinada situaciónen dos momentos de tiempo.

Hasta ahora hemos llamado genéricamente «variables» a los datos quetenemos sobre nuestros n individuos, expresados numéricamente. Sin embargo, lainformación intrínseca de esos datos depende de su escala de medida. Las pvariables pueden venir medidas a escala nominal, ordinal, intervalo o ratio. Lasdos primeras se emplean para datos de tipo cualitativo, mientras que las dos últimasson adecuadas para datos cuantitativos. Esta clasificación ya es conocida pero seinsiste en ella, pues tener una buena clasificación de variables facilit a lacomprensión de los problemas.

La escala nominal expresa caracteres cualitativos no ordenados. Todos losdatos de presencia/ausencia de una característica son nominales. Los números conque codificamos las diferentes modalidades son arbitrarios, utili zándose únicamentecomo etiquetas o nombres (de ahí que se hable de escala «nominal»), y no tienesentido efectuar ninguna operación algebraica con ellos.

La escala ordinal expresa también caracteres cualitativos, pero lasmodalidades presentan un orden natural. Los números con que codificamos esasmodalidades son arbitrarios, pero respetan ese orden, de forma que podemos hacercomparaciones de tipo «mayor que», «igual a», o «menor que».

La escala intervalo expresa datos cuantitativos que se pueden sumar y restarpero no multiplicar ni dividir, ya que su origen o nivel cero es arbitrario. Latemperatura es un buen ejemplo de variable medida a nivel intervalo. Como ladefinición de «cero grados» de temperatura es arbitraria, si hoy estamos a 20 gradoscentígrados y ayer estábamos a 10 grados, podemos afirmar que la temperatura dehoy es superior a la de ayer en 10 grados, pero no que hoy estemos al «doble» detemperatura. La prueba es que en la escala Fahrenheit hay 18 grados de diferenciaentre ayer y hoy, y la relación es de 1,36 a 1.

La escala ratio traduce medidas cuantitativas que poseen un punto cero uorigen no arbitrario. Permiten hacer todo tipo de operaciones algebraicas,incluyendo productos y cocientes

La elección del método multivariante a aplicar y la definición de distanciapara medir el grado de similit ud (o disimilitud) entre objetos y entre variablesdepende fuertemente de la escala de medida. Unos métodos son más exigentes queotros, en el sentido de que, por ejemplo, sólo tienen validez si se aplican a datoscuantitativos. Por lo tanto, la elección del método de análisis más adecuado no debebasarse solamente en los objetivos del estudio, sino también en el tipo deinformación de que se dispone.

Page 4: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 4

1.4.- MATRICES DE DATOS

Las técnicas estadísticas utili zan datos de conjuntos de varias variablesmedidas en múltiples individuos y estos datos se escriben en forma de tabla omatriz, siendo procesados por medio de programas estadísticos de ordenadorleyendo dicha matriz y operando con ella. Sería impensable el desarrollo delAnálisis Multivariante sin la ayuda de la Informática, pues dichos métodos procesan,en general, gran cantidad de datos. Los métodos multivariantes no sólo sediferencian según los objetivos que persiguen, sino también según los datos quepueden procesar, es decir, según el tipo de matriz de datos de entrada. Generalmentenos encontramos con los siguientes tipos de matrices:

1) Matriz n x p de individuos por variables, cuyas filas (individuos)pertenecen a un solo grupo. Cada fila de la tabla representa a un individuo,proporcionando sus datos, y cada columna corresponde a una variable. El elementoxij de esta tabla, que ocupa la fila i y la columna j, es el valor de la variable j para elindividuo i.

2) Matriz n x p de individuos por variables., cuyos individuos pertenecen ados o más grupos definidos por el “valor” o atributo de una variable cualitativa. Estatabla es similar a la anterior, pero una de la p variables define grupos diferenciadosde individuos. Por ejemplo cuando consideramos mediciones sobre un grupohumano y deseamos distinguir por el sexo.

3) Matriz n x n de distancias entre individuos. Su elemento xij representa elgrado de diferenciación o de parecido, según el caso, entre el individuo i y elindividuo j. Se trata de una matriz cuadrada y simétrica, ya que la distancia entre i yj es la misma que entre j e i. La matriz de distancias contiene ceros en su diagonalprincipal (xii : distancia entre el individuo i y él mismo).Cuando trabajamos con una matriz de similaridades, en la diagonal principalescribimos unos para representar el índice de máxima similaridad.

A veces el investigador escribe una tabla de individuos por variables y defineuna distancia entre individuos que tenga en cuenta todas sus variables, de forma queel programa como paso previo del análisis calcula la matriz de distancias a partir dela tabla dada.

4) Tabla de frecuencias o de contingencia. La tabla de frecuencias simplecontiene las frecuencias absolutas conjuntas de cada una de las modalidades ocategorías de las dos variables categóricas o cualitativas.

¿Cómo se crea la matriz de datos? Una vez que el investigador haconseguido definir claramente el problema, establecer objetivos y concretar quévariables puede ser relevantes y cómo seleccionar los casos o individuos que seanalizarán, el primer paso del trabajo consiste en recoger la información. Esta puedeobtenerse de fuentes existentes, o bien necesitar un experimento diseñadoespecíficamente para el estudio. En cualquier caso, en el momento de empezar larecogida de información se deben haber concretado ya los objetivos del trabajo y losmétodos estadísticos a utili zar, si bien muchas veces los resultados de la aplicación

Page 5: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 5

de un método sugieren al investigador ideas sobre la aplicación de otroscomplementarios que aporten más luz al tema.

En la mayor parte de los trabajos aplicados, la tabla de datos será del tipoindividuos por variables. Cada fila contiene los datos de un individuo, y cadacolumna los de una variable. Si el método requiere otro tipo de matriz de datos,normalmente el propio programa informática la calcula a partir de la de individuospor variables, como paso previo del análisis.

Las variables nominales y ordinales han de codificarse previamente. Porejemplo, escribir un 1 para el caso de “presencia” , y un 0 en caso contrario,“ausencia”. Son estos números o códigos los que se introducen en la tabla de datos.

Escribir la tabla de datos en el ordenador es tarea fácil . Puede emplearsecualquier editor de textos con el que el usuario esté familiarizado, aunque esrecomendable utili zar una hoja de cálculo. Los datos se graban en fichero que elprograma estadístico leerá y procesará.

En general para una tabla de datos de variables numéricas tendremos:

X X1 X2 . . . Xj . . . Xp

12...i...n

x11 x12 . . . x1j . . . x1p

x21 x22 . . . x2j . . . x2p

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .xi1 xi2 . . . xij . . . xip

.

.

.xn1 xn2 . . . xni . . . xnp

pero esto es simplemente una matriz, en sentido matemático, sobre el cuerpo de losnúmeros reales suponiendo que las variables son de tipo continuo, medidas en laescala ratio. Matricialmente se representa por una matriz de n filas (n individuos) y pcolumnas (p variables).

=

npnn

p

p

xxx

xxx

xxx

X

"

"

"

"

21

22221

11211

...

También es útil referirse a la variable estadística p-dimensional:

( )pXXXX ,,, 21 "=

donde Xi es el observable i-ésimo, y el conjunto de valores que toma cada observableestán dados en la correspondiente columna de la tabla. Por ejemplo:

Page 6: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 6

{ }niiii xxxX ,,, 21 "= i = 1,2,…,p

Es evidente que tal como estamos planteando el problema nuestros conjuntosde datos serán discretos y finitos aunque puedan provenir de variables continuas.

Una buena práctica consiste en analizar cada variable por separado, mediantela metodología del Análisis Exploratorio de Datos (EDA), haciendo elcorrespondiente análisis unidimensional, calculando los estadísticos que se creanconvenientes para un mejor conocimiento de cada variable, así como proceder alcálculo de covarianzas entre pares de variables, haciendo incluso análisis decorrelación entre ellas y representaciones gráficas. Todo ello con el objetivo de tenerun mayor conocimiento estadístico de cada variable por separado

1.5.- LA MATRIZ DE COVARIANZAS Y DE CORRELACIONES

A partir de la matriz de datos, X, se calcula la matriz de varianzas-covarianzas, V, así como la matriz de correlaciones.

La media para cada variable se obtiene promediando por columnas la matriz dedatos:

∑=

=n

kkii x

nX

1

1

de donde definimos la matriz fila, (1xp), de medias:

),,,( 21 pXXXX "=

e introduciendo la matriz columna (nx1):

=

1

1

1 #

se puede escribir la relación matricial:

Xn

X t11=

donde el supraíndice t significa traspuesta

Ahora se puede centrar la matriz de datos, restando a cada columna su valormedio:

XHXn

IXn

XXXX ttc .)1.1.

1().1.1(

11 =−=−=−=

siendo H la matriz centradora de datos, I la matriz unidad nxn y Xc la matriz de datoscentrada.

La matriz centradora es:

Page 7: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 7

−−−

−−−

−−−

=

nnn

nnn

nnn

H

11

11

111

1

1111

"

""""

"

"

esta matriz es evidentemente simétrica, y fácilmente se comprueba que es idempotente(H2 = H).

Para calcular varianzas y covarianzas hay que efectuar sumas de productoscruzados, de acuerdo con las fórmulas:

∑ ∑= =

−=−==n

k

n

kikiikiii Xx

nXx

nXs

1 1

2222 1)(

1)var(

∑ ∑= =

−=−−==n

k

n

kjikjkijkjikijiij XXxx

nXxXx

nXXs

1 1

1))((

1),cov(

donde los primeros sumandos se pueden escribir en forma matricial:

XXn

Q t1=

mientras que los sustraendos se escriben: XX t ; por tanto la matriz devarianzas/covarianzas es:

XXXXn

XXQV ttt −=−= 1

Si empleamos la matriz de datos centrada, entonces:

HXXn

XHHXn

HXHXn

XXn

V ttttc

tc

1)(

1)()(

11 ====

evidentemente la matriz V es simétrica ya que Vt = V:

=

pppp

p

p

sss

sss

sss

V

"

""""

"

"

21

22221

11211

con pjissyss jiijiii ,,1,,2"===

Tenemos por tanto la siguiente fórmula de cálculo:

Page 8: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 8

HXXn

V t1=

Si se necesitan las cuasivarianzas y cuasicovarianzas basta aplicar:

Vn

nV

1~

−=

Finalmente se calcula la matriz de correlaciones, R, teniendo en cuenta:

ji

ij

ji

ijij ss

s

ss

sr ~~

~==

y haciendo:

==

p

ps

s

s

s

sssdiagD

000

00

00

),,,(2

1

21""""

"

"

"

se puede escribir:

== −−

pppp

p

p

ss

rrr

rrr

rrr

VDDR

"

""""

"

"

21

22221

11211

11

siendo: 1=iir y jiij rr = , se trata pues de una matriz simétrica con los elementos de la

diagonal iguales a 1.

A partir de estas matrices se definen los escalares:

det V que representa la varianza generalizadatraza V que representa la variación o dispersión totaldet R que es una medida de la interdependencia de las variables.

1.6.- TRANSFORMACIÓN LINEAL DE VARIABLES

Una situación habitual dentro del análisis multivariante es la de latransformación lineal de variables para simpli ficar la representación de la nube depuntos.

Se trata pues de la transformación de las variables originales:

),,,( 21 pXXXX "=en otras:

Page 9: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 9

),,,( 21 pYYYY "=

mediante transformaciones lineales:

pjXtXtXtY ppjjjj ,,2,1,2211 "" =+++=

o sea que cada individuo, el k-ésimo por ejemplo, se transformaría así:

pjxtxtxty kppjkjkjkj ,,2,1,2211 "" =+++=

y en forma matricial se obtendría:

XTY =

siendo X la matriz de datos originales e Y la matriz de datos transformados, y donde lascolumnas de T son los coeficientes de la transformación.

Fácilmente se comprueba que la matriz fila de medias y la matriz de varianzas setransforman de la siguiente manera:

TXY =

VTTV tY =

Un caso importante es el de la tipificación de variables mediante latransformación:

pjs

XXZ

j

jjj ,,1, "=

−=

o bien:

nkypjs

Xxz

j

jkjkj ,,1,,1, "" ==

−=

ya sabemos que estas variables cumplen:

pjZZ jj ,,1,1)var(,0 "===

En forma matricial sería:1. −= sc DXZ

siendo Xc la matriz de datos centrada.

Ahora la matriz de correlaciones, R, viene dada por:

ZZn

R t1=

Page 10: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 10

1.7.- CENTRO DE GRAVEDAD E INERCIA DE LA NUBE DE PUNTOS

Las p mediciones asociadas a cada individuo las consideramos como lascoordenadas del individuo en el espacio Rp. Las coordenadas del individuo i-ésimoserán:

nixxxA ipiii ,,2,1,),,,( 21 !" ==

obteniéndose en el espacio Rp la imagen de una nube de n puntos.

Las coordenadas del centro de gravedad de la nube de puntos viene dado por:

j

n

kkjj Xx

ng == ∑

=1

1, j=1,...,p

por tanto el cdg, G, es el centro de las medias: XG = .

Si se emplea la matriz de datos centrada el cdg es el (0,…,0).

En Rp , considerado como espacio vectorial, los vectores son de la forma:

),,,( 21 ipiii xxxOA "=

definiéndose el módulo del vector:

222

21 ipiii xxxOA +++= "

el producto escalar de dos vectores:

jpipjijiji xxxxxxAOAO +++= "GG

2211,

y el ángulo que forman α:

ji

ji

AOAO

AOAOGG

GG

.

,cos =α

La distancia euclidea, entre dos individuos, deducida de la norma anterior, es:

2211 )()(),( jpipjiji xxxxAAd −++−= "

que como sabemos esta distancia (euclidea) verifica las propiedades:

i) d(Ai,Aj)=0 si y solo si Ai=Aj.ii ) d(Ai,Aj)=d(Aj,Ai), (propiedad simétrica)iii ) d(Ai,Aj)≤d(Ai,Ak)+d(Ak,Aj), (propiedad triangular)

Page 11: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 11

Ahora estamos en condiciones de definir la inercia de una nube de puntos. Lainercia es el promedio de distancias al cuadrado de cada individuo respecto del cdg:

∑=

=n

ii XAd

nI

1

2 ),(1

Una nube de puntos muy dispersa tendrá una inercia grande, mientras que una nube depuntos muy concentrada, alrededor de su cdg, tendrá una inercia pequeña.

Teniendo en cuenta la definición de distancia euclidea, podemos escribir:

∑∑ ∑ ∑∑= = = ==

==

−=−=

n

i

p

k

p

k

p

kk

n

ikikkik VtrazasXx

nXx

nI

1 1 1 1

2

1

22 )(1

)(1

es decir que la inercia de la nube de puntos es la traza de V.

Si se emplea la matriz de datos tipificados, resulta:

pRtrazaI Z ==

1.8.- REPRESENTACIONES GRÁFICAS Y PROYECCIONES

Otro aspecto que debemos considerar es la proyección de los puntos de la nubesobre una dirección definida por un vector unitario u:

),,(, 1

1

pt

p

uuu

u

u

u "# =

=

Si consideramos el individuo A i, representado por el vector:

),,,( 21 ipiii xxxAO "G

=

la proyección de dicho vector sobre la dirección definida por el vector unitario vale:

=+++===

p

ipipipiiiiu

u

u

xxuxuxuxAOuAOAOproy #""GGG 1

12211 ),,(cos, α

por tanto la proyección de cada punto sobre la dirección u se puede escribirmatricialmente:

Xu

También interesa considerar la suma de cuadrados de las proyecciones, valor queintervendrá posteriormente, ponderados con 1/n:

Page 12: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 12

uXXn

uXuXun

ttt )1

()()(1 =

En particular si partimos de la matriz de datos centrada, sería:

VuuuXXn

u tc

tc

t =)1

(

y si partimos de la matriz de datos tipificados:

Ruut

en cualquiera de los casos la suma de cuadrados de las proyecciones de los puntos sobrela dirección u se expresa como una forma cuadrática de las componentes del vector u.

1.9.- MULTIREGRESIÓN Y MULTICORRELACIÓN

Partimos de una tabla de datos de individuos por variables, suponiendo que todaslas variables X1, X2,…, Xp son cuantitativas, y n es el número de individuos.

Supongamos que deseamos pronosticar el valor de la variable X1 a partir delvalor de las restantes: X2,…,Xp mediante una función g(X2,…,Xp) determinada de algunamanera. Si representamos los valores pronosticados por X1’ será X1’=g(X2,…,Xp).

Un caso importante es cuando el funcional g es de la forma:

X1’ = b11 + b12X2 + … + b1pXp

es decir se trata de un hiperplano de Rp, y es un caso de regresión lineal. La variableteórica o variable pronosticada o variable de regresión es la X’1, mientras que X2,…,Xp

son las variables predictivas o regresores.

Si las mediciones de las variables sobre los individuos viene dada por la tabla:

X1 X2 . . . Xk . . . Xp X1’ e1

12...n

x11 x12 . . . x1k . . . x1p

x21 x22 . . . x2k . . . x2p

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .xn1 xn2 . . . . . . . xnp

x’11

x’21

.

.

.x’n1

x11 - x’11

x21- x’21

.

.

.xn1 - x’n1

donde la columna de los valores X1’ son los valores pronosticados mediante el funcionalanterior y la columna de los e1 son los errores como diferencia entre el valor teóricopronosticado, X’1, y el valor real, X1.

Los valores pronosticados sobre cada individuo serán:

x’11 = b11 + b12x12 + . . . + b1px1p

x’21 = b11 + b12x22 + . . . + b1px1p

………………………………….x’n1 = b11 + b12xn2 + . . . + b1px1p

Page 13: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 13

donde los coeficientes del hiperplano se determinan con la condición de que la sumacuadrática de los errores sea mínima:

∑ ∑∑= ==

−−−−=′−==Φ=n

i

n

iippiiii

n

ii xbxbbxxxeSCE

1 1

21212111

211

1

21 )()( "

derivando respecto de b11 se obtiene después de agrupar:

pp XbXbbX 1212111 +++= "

lo cual pone de manifiesto que el centroide o cdg, ),,( 1 pXX " , se halla en el

hiperplano de regresión. Despejando b11 de la anterior igualdad y sustituyendo en SCE,se obtiene:

[ ]∑=

−−−−−−=Φn

ipippii XxbXxbXx

1

2

1221211 )()()( "

que es una forma cómoda de expresar la suma cuadrática de los errores.

Derivando respecto de cada parámetro desconocido: b12, …, b1p, e igualando acero, se obtiene el sistema:

ppppp

pp

pp

sbsbs

sbsbs

sbsbs

12121

31231213

21221212

++=

++=

++=

"

""

"

"

que puesto en forma matricial:

=

ppppp

p

p

p b

b

b

sss

sss

sss

s

s

s

1

13

12

32

33323

22322

1

13

12

#

"

#"##

"

"

#

Si consideramos la matriz de varianzas:

pjissss

sss

sss

sss

V jiijiii

pppp

p

p

,,2,1,,,, 2

21

22221

11211

"

"

#"##

"

"

===

=

la matriz del sistema anterior es el adjunto V11 de V, y el término independiente es laprimera columna prescindiendo del primer elemento.

Page 14: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 14

Si det V11 ≠ 0, entonces el sistema es compatible y determinado, suponiendo quealgún si1 ≠ 0, i ≠ 1, porque entonces el sistema no es homogéneo.

Resolviendo el sistema por Cramer se obtiene:

pkL

Lb k

k ,,2,11

11 "=−=

siendo L11= (-1)1+1.det V11, L1k=(-1)1+k.det V1k, se trata pues de los cofactores. Estoscoeficientes, b1k, se denominan coeficientes de regresión parcial de X1 respecto de Xk eindican o representan lo que cambia la variable de regresión, X’1 , por unidad de cambiode la variable predictiva Xk.

La ecuación del hiperplano se escribe ahora:

[ ])()(1

1221211

11 ppp XXLXXLL

XX −++−−=′ "

o

0)()()( 122121111 =−++−+−′ ppp XXLXXLXXL "

e introduciendo las variables centradas:

pkXXXXXX kkk ,,2,,111 "�� =−=−′=′

se obtiene:

01212111 =+++′ pp XLXLXL �"��

Para que existe plano de regresión debe ser L11≠0, suponiendo que el sistema esno homogéneo. El sistema homogéneo corresponde al caso: s12=s13=…=s1p=0, lo quesignifica que la variable X1 está incorrelacionada con las restantes. En este supuesto, siL11≠0, entonces no hay solución. Si L11=0, entonces habría al menos una infinidad desoluciones para los coeficientes del hiperplano, no habiendo por tanto solución única.Por tanto podemos concluir que cuando la variable a pronosticar está incorrelacionadacon las restantes, aquella no puede explicarse o pronosticarse, a través de un hiperplanode regresión, a partir de las restantes variables.

De forma general, si tomamos como variable de regresión una cualquiera: X’ k,correspondiente a los valores reales: Xk = { x1k, x2k, …, xnk} (columna k-ésima en latabla), y siendo las variables predictivas: X1,…,Xk-1,Xk+1,…,Xp, la ecuación delhiperplano de regresión será:

0)()()( 111 =−++−′++− ppkpkkkkk XXLXXLXXL ""

o con variables centradas:

Page 15: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 15

011 =++′++ pkpkkkk XLXLXL �"�"�

donde los coeficientes es la fila k-ésima de la matriz de los cofactores de V:

pppp

p

p

LLL

LLL

LLL

"

#"##

"

"

21

22221

11211

evidentemente existe hiperplano de regresión si 0≠kkL .

Los p hiperplanos de regresión serán:

0

0

0

2211

2222121

1212111

=′+++

=++′+

=+++′

ppppp

pp

pp

XLXLXL

XLXLXL

XLXLXL

�"��

""

�"��

�"��

Analizamos a continuación las covarianzas y varianzas de cada una de lasvariables que intervienen, considerando la regresión de X1/X2,…,Xp.

La variable residual e1 esta incorrelacionada con las variables predictivas,X2,…,Xp, y con la variable de regresión X’1, aunque no tiene porqué estarlo con lavariable real u observada X1.

Previamente veamos que la media de los residuales es cero, ya que fácilmente sededuce que 11 XX =′ , y por tanto 01 =e

En efecto, para k > 1 se tiene:

=′−=== ∑∑==

)(11

),cov(),cov( 1111

111 ii

n

iik

n

iiikkk xxx

nex

nXeXe �����

=+++=

+++= ∑

=pk

pkk

n

iip

piiik s

L

Ls

L

Lsx

L

Lx

L

Lxx

n 11

12

11

121

1 11

12

11

121

1"�"���

( ) 00.11

111122111

11

==+++=L

LsLsLsL ppkkk "

así pues la variable error y las variables predictivas están incorrelacionadas.

De: ∑=

==n

iiki pkxe

11 ,,3,2,0 "� , se deduce:

Page 16: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 16

∑=

=n

iikik xeb

111 0�

∑ ∑= =

=p

k

n

iikik xeb

2 111 0�

∑ ∑= =

=n

i

p

kikki xbe

1 211 0�

∑=

=′n

iii xe

111 0�

por tanto:0),cov(),cov( 1111 =′=′ XeXe �

es decir que también la variable error y la variable de regresión están incorrelacionadas.

Por tanto, para la última propiedad se tiene:

∑ ∑= =

=

+++=′−==

n

i

n

iip

piiiiii x

L

Lx

L

Lxx

nxxx

nXeXe

1 1 11

12

11

12111111111

1)(

1),cov(),cov( �"�������

( ) 011

111112121111

111

11

112

11

1211 ≠=+++=+++= L

LsLsLsL

Ls

L

Ls

L

Ls ppp

p""

es decir que los errores y los valores observados de la variable a pronosticar presentancorrelación.

La covarianza de la variable de regresión y la variable real vale:

∑∑==

=++=′=′=′n

iippii

n

iii xbxbx

nxx

nXXXX

112121

1111111 )(

11),cov(),cov( �"������

pp sbsb 111212 ++= "

cada sumando representa la contribución de cada regresor a la covarianza entre lavariable real y la pronosticada.

Analicemos ahora la varianza de cada variable. Calculemos primero la varianzade la variable error, que llamamos varianza residual:

∑ ∑∑= ==

===′−==n

i

n

iiiiii

n

iie R

Rs

L

Lxe

nxxe

ne

ns

1 1111

11111111

1

21

2 1)(

111

���

donde R y R11 tiene el mismo significado que L y L11 pero referidos a la matriz decorrelaciones, ya que:

11221111 RssLyRssL pppp ⋅⋅=⋅⋅= !!

Tener en cuenta que esta varianza residual es el error cuadrático medio:

Page 17: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 17

SCEn

ECM1=

además numéricamente se cumple:

),cov( 112

1Xese =

Otra expresión útil para la varianza residual se obtiene:

∑ ∑ ∑= = =

′−=′−==n

i

n

i

n

iiiiiiiie xx

nsxxx

nxe

ns

1 1 1111111111

2 1)(

111

������

obsérvese que el sustraendo es la covarianza de la variable de regresión y la variablereal, resultando:

)( 111212112

1 ppe sbsbss ++−= "

y también:

),cov( 112

11 1XXss e ′=−

Como que la variable residual y la variable regresión están incorrelacionadas, y

111 eXX +′=

se tiene:222

111 eXX sss += ′

resultando:

−=−=−=′

R

Rs

R

Rsssss eXX

1111

111111

222 1111

que también se puede escribir:

ppX sbsbs 1112122

1++=′ "

lo que nos indica la aportación de cada regresor a la varianza de la regresión.

Ahora se pueden definir algunos coeficientes de correlación.

En primer lugar definimos el coeficiente de determinación como el cocienteentre la varianza de la variable de regresión y la correspondiente variable observada:

1111

2

2

22 11 1

1

1

R

R

s

s

s

sD e

X

X −=−== ′

Page 18: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 18

de donde resultan las relaciones:

)1( 211

211

22

11DssysDs eX −==′

El coeficiente de determinación es el tanto por uno de la varianza real de lavariable observada explicada por la variable de regresión. Su raíz cuadrada, D, sedenomina coeficiente de correlación múltiple.

El coeficiente D es el coeficiente de correlación lineal de Pearson de X1 y X’1,

como fácilmente se comprueba aplicando la definición:

),( 11 XXcorrD ′=

por tanto tendremos las mismas propiedades que cualquier coeficiente de correlaciónlineal de Pearson. Representa la correlación entre la variable real y las demás oregresores consideradas en conjunto a través del correspondiente hiperplano deregresión.

1.10.- PROGRAMAS INFORMÁTICOS DE ANÁLISIS MULTIVARIANTE

Actualmente, existen programas de ordenador disponibles para aplicar losdistintos métodos de Análisis Multivariante, cuyo manejo es sencill o, y que permitenel tratamiento de volúmenes de información relativamente grandes, incluso conordenadores personales. Consideramos que estos temas deben desarrollarse“pegados al ordenador” de manera que el estudiante adquiera suficiente práctica enel manejo de paquetes informáticos, ya que la materia sería realmente inabordable(se quedaría a nivel teórico - estético) sin una herramienta capaz de procesar grancantidad de información.

Desde el punto de vista del alumno, futuro usuario profesional, lo másimportante y difícil consiste en saber recoger los datos y elegir el método apropiadopara el problema en cuestión. Sin embargo, el usuario también debe tomar algunasdecisiones, ya que los programas facilit an la posibili dad de elección entre opcionesalternativas. Por ejemplo, debe decidir qué método de estimación emplea, o quéhace cuando le faltan algunos datos. Una vez obtenidos los resultados, el alumnodebe ser capaz de interpretarlos correctamente.

Es importante conocer los fundamentos estadísticos y matemáticos de lastécnicas empleadas para tomar correctamente aquellas decisiones, e interpretar losresultados. Un error muy frecuente y grave es aplicar los programas de ordenadorde forma ciega, sin conocer, por ejemplo, la precisión con que trabajan, o larepresentatividad de los resultados que obtienen. Sin embargo, no es precisoprofundizar en el fundamento matemático de las técnicas como un fin en sí mismopara poder aplicarlas correctamente.

A lo largo del texto proponemos algunos ejemplos y casos prácticos quedesarrollamos empleando los programas SPSS y MINITAB para PC, indistintamente

Page 19: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 19

1.11.- EJEMPLOS

Ejemplo 1.1.- Con los datos de la tabla:

X1 X2 X3

122454

231357

413523

Determinar la matriz de covarianzas y correlaciones.Determinar los planos de regresión en cada caso y calcular los coeficientes dedeterminación.

Ejemplo 1.2.- Sean X1 y X2 dos variables estadísticas correlacionadas. Escribir lamatriz de covarianzas y de correlaciones. Plantear las rectas de regresión a la luz delo explicado en 1.9.

Ejemplo 1.3.- Como continuación del ejemplo anterior considerar una terceravariable X3 incorrelacionada con las dos anteriores. Escribir las matrices devarianzas y de correlaciones. Analizar los planos de regresión.

1.11.- APLICACIONES

CASO 1.- Análisis de absorción de plomo en hojas de plantas urbanas

La contaminación por plomo en las ciudades es debido a combustiones decoches, calefacciones, etc. Una vez depositado el plomo en el suelo y en particular enplantas, éstas actúan como un sensor biológico de contaminación urbana debida alplomo.

Se recogieron 18 muestras de plantas de adelfa de zonas ajardinadas de unaciudad y de midieron las siguientes variables:

Tráfico: número de vehículos día en la zonaSecado: peso de hojas secas sobre 100 gr de hoja frescaCenizas: peso de ceniza sobre 100 gr de hoja frescaPbceniza: mgr de plomo por gramo de cenizaPbfresca: mgr de plomo por gramo de hoja fresca

La matriz de datos fue la siguiente:

Page 20: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 20

Muestra Tráfico Secado Ceniza Pb-Ceniza Pb-fresco1 51406 38,9 18,8 0,82 0,062 31179 36,3 17,6 0,12 0,0073 67080 34,2 16,6 0,17 0,00974 25320 32,42 18,3 0,19 0,01135 48542 29,5 14,7 0,49 0,02126 70987 30,9 16 0,32 0,01587 62614 35,3 16,8 0,28 0,01668 64312 30 15,7 0,5 0,02359 21200 33,2 12,7 0,24 0,010110 51684 37,5 12,2 0,24 0,010911 44021 33 23,4 0,51 0,039412 33861 37,5 15,5 0,24 0,01413 33861 42,4 11,6 0,05 0,002514 5000 33,6 20,5 0,29 0,019915 27643 41,3 12,8 0,07 0,003716 20823 36 15,5 0,35 0,019517 61176 38,9 11,7 0,47 0,021418 50814 33,7 12,2 0,1 0,0041

CASO 2.- Evolución de la composición elemental del ser humano en diferentesetapas de su ciclo vital.

Se trata de analizar los cambios que se producen en la proporción de agua y en lacomposición elemental del ser humano durante diferentes etapas del ciclo vital: feto,prematuro, neonato, adulto y anciano.

Las variables utili zadas son:

1. peso corporal en Kg2. grasa en gr por Kg corporal3. agua en gr por Kg corporal4. agua en gr por Kg de masa corporal magra5. N en gr/Kg de masa corporal magra6. Na en meq/Kg “7. K “ “8. Cl “ “9. Ca en gr/Kg “10. Mg “ “11. P “ “12. Fe en mgr/Kg “13. Ca “ “14. Zn “ “

Los datos han sido obtenidos del investigador Widdowson (1955), resultando lasiguiente matriz de datos:

Page 21: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 21

Peso Grasa Agua Water N Na K Cl Ca Mg P Fe Zn CuFeto 0,3 5 880 880 15 100 43 76 4,2 0,2 3 58 30 3Prematuro 1,5 35 830 850 19 100 50 0 7 0,2 3,8 74 30 4Neonato 3,5 160 690 820 23 82 53 55 9,6 0,3 5,6 94 20 5Adulto 70 160 600 720 34 80 69 44 22,4 0,5 12 74 20 2Anciano 65 150 500 670 34 76 75 37 15 0,4 8 68 20 2

CASO 3.- Análisis del “ tamaño” de una muestra de individuos de una población deAlli um sativum.

Se analiza las relaciones existentes entre las dimensiones de un tipo de arbusto(Alli um sativum), util izando las variables:

altura total del arbustodiámetro máximo del tallolongitud máxima de la hojaanchura máxima de la hojanúmero de hojas por planta

la observación ha recaído sobre una muestra de 16 individuos, obteniéndose la siguientematriz de datos:

NumeroArbusto

Altura DiámetroTronco

LongitudHoja

AnchoHoja

NumeroHojas

1 46 1,4 50 1,5 72 33 1,1 37 0,8 63 45 1,5 49 1,6 84 51 1,3 50 1,8 75 31 1 38 0,7 56 49 1,5 42 1,8 87 32 1,4 51 1,4 78 39 1,3 57 1,8 79 44 1,4 54 2 710 42 1,3 43 1,5 711 41 1,5 50 2 712 43 1,2 50 1,7 713 44 1,2 48 1,5 714 39 1,1 45 1,6 615 40 1,2 48 1,8 516 32 1 44 1,2 5

Page 22: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 22

CAPÍTULO 2.- ANÁLISIS DE COMPONENTES PRINCIPALES

2.1.- Introducción. 2.2.- Planteamiento del problema. 2.3.- La inercia de lascomponentes principales. 2.4.- Cálculo de las componentes principales. Propiedades.2.5.- Criterios de reparto de la inercia total y reducción de la dimensión.- 2.6.-Rotación de las componentes: rotación varimax y quartimax. 2.7.- Programas deordenador. 2.8.- Ejemplos. 2.9.- Aplicaciones.

2.1.- INTRODUCCIÓN

Con objeto de analizar la p-variables (correlacionadas) de la matriz de datos, serealiza una transformación de las variables originales en un nuevo conjunto de variablesincorrelacionadas, mediante una rotación ortogonal en Rp, que llamamos componentes ofactores principales. Estas quedarán expresadas como combinación lineal de lasoriginales, y se expresan en orden decreciente de importancia en cuanto a explicar laincidencia de cada componente principal en la descripción del problema.

El Análisis de Componentes Principales, ACP, (PCA en la literaturaangloamericana), tiene su origen en los trabajos de Karl Pearson a principio de siglo, asícomo por Harold Hotelli ng, hacia 1930.

La técnica del ACP es adecuada cuando no se dispone de variables dependientesque permitan explicar el problema mediante una regresión múltiple, es decir queestamos ante una situación en que todas las variables, en principio, tienen la mismaimportancia, o bien que dicha importancia está enmascarada y es necesario ponerla demanifiesto.

El objetivo principal del análisis es averiguar cuantas variables, m, de entre las p,(m < p), explican mejor la variabili dad de los datos representados por las variablesoriginales. Si ello es posible, podemos afirmar que la dimensionalidad del problema esmenor que p. Por ejemplo si alguna de las variables originales están fuertementecorrelacionadas con otras se pueden “agrupar” en una única variable (componenteprincipal) expresada como combinación lineal de aquellas, y de esta manera se reduce ladimensión del problema.

Así pues, el ACP transforma un conjunto de variables correlacionadas en unnuevo conjunto de variables incorrelacionadas, donde la importancia de estasúltimas vienen determinadas por la parte de varianza asociadas a ellas. La técnicaACP no requiere el uso de modelos probabilísticos, siendo, para nuestro caso, unatécnica de tipo descriptivo.

Es conveniente realizar un análisis de componentes principales como estudioprevio del análisis factorial. El análisis factorial (AF) lo estudiamos en el capítulosiguiente.

Page 23: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 23

2.2.- PLANTEAMIENTO DEL PROBLEMA

Consideremos la nube de puntos en el espacio Rp de variables tipificadas. Se

trata de buscar direcciones u tales que ii AP sea lo más pequeño posible, Figura 2.1.

Figura 2.1

Como que iOA es constante cualquiera que sea la orientación del eje, será necesario

que iOP sea lo más grande posible, ya que 222

iiii PAOPOA += . Para tener en cuenta

todos los puntos se toma la suma de los cuadrados de todos los puntos, es decir se

pretende buscar aquella dirección u que maximiza el valor ∑=

n

iiOP

1

2. Una dirección que

cumple esta condición se llama eje factorial o eje principal de inercia, y es tal queproyectando la nube de puntos sobre él, estos se hallan muy separados o muydiscriminados.

Pero según vimos en el capítulo 1, apartado 1.8, para una matriz de datostipificados, la suma de cuadrados de las proyecciones vale:

Ruut , siendo 11 == uuou t

que es una forma cuadrática respecto de las componentes de u = (u1,u2,…,up).

El máximo de esta función se determina por el método de los multiplicadores deLagrange:

=−−== )1(),,,()( 21 uuRuuuuuu ttp λϕϕ "

G

)1(222 2211,1112112

222

21 −++−+++++++= −− pppppppp uuuuruuruuruuu """" λ

derivando ϕ respecto de u1, e igualando a cero, se obtiene:

02222 1121211

=−+++=∂∂

uururuu pp λϕ

"

0)1( 12121 =+++− ppururu "λ

Page 24: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 24

realizando el mismo proceso respecto de u2,…,up se obtiene el sistema de ecuacioneslineales:

0)1(

0)1(

0)1(

2211

12112

12121

=−+++

=++−+

=+++−

ppp

pp

pp

uurur

uruur

ururu

λ

λλ

"

"""

"

"

la condición de compatibili dad del sistema es que el determinante del sistema seanulo:

01

1

det

21

212

112

=

pppp

p

p

rrr

rr

rr

"

""""

"

"

λλ

o bien:det(R-λI)=0

siendo I la matriz identidad y R la matriz de correlaciones. Pero la ecuación anterior esla ecuación característica de la matriz R, por tanto los valores de λ para los que existendirecciones principales son los valores propios de R, y dichas direcciones principalesson las dadas por los correspondientes vectores propios.

Si algún valor propio, λi, es raíz múltiple de la ecuación característica, entoncesdim Nuc(A-λi) > 1, habiendo arbitrariedad en la elección de la base de Nuc (A-λiI), perosiempre pueden elegirse de manera que sean ortonormales. Estos factores explicanevidentemente la misma inercia, dada por su valor propio.

Si algún valor propio fuese cero, entonces el factor correspondiente no presentavariabili dad, no aporta inercia a la inercia total de la nube de puntos o no explicaninguna parte de la inercia total, pudiendo prescindirse de dicho factor.

Hay que tener en cuenta que la matriz de correlaciones R es siemprediagonalizable por ser una matriz simétrica.

2.3.- LA INERCIA DE LAS COMPONENTES PRINCIPALES

El problema consiste por tanto en diagonalizar la matriz de correlaciones R. Seanpues λ1, λ2,…, λp los valores propios. Como que la traza de R es invariante, se tiene:

∑=

===p

iipInerciatrazaR

1

λ

por tanto cada factor colabora a la inercia total en una cantidad igual a su valor propio.

Cada valor propio es la inercia de cada factor, siendo, en porcentaje, la inerciaexplicada por el factor uk:

Page 25: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 25

100pkλ

mientras que la inercia explicada por los m (< p) primeros factores sería:

1001

p

m

ii∑

=

λ

Evidentemente el factor de mayor valor propio será el que explique mayorinercia, y así sucesivamente. Por ese motivo es conveniente obtener los valores propiosordenados de mayor a menor:

λ1 ≥ λ2 ≥ … ≥ λp

e incluso se puede dar una representación gráfica de su magnitud de formaindividualizada, Figura 2.2, o de forma acumulada, Figura 2.3.

Figura 2.2

Page 26: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 26

Figura 2.3

2.4.- CALCULO DE LOS FACTORES PRINCIPALES. PROPIEDADES

Tal como venimos diciendo el problema consiste en diagonalizar la matriz R, apartir de lo cual obtendremos los vectores propios de R y sus correspondientes valorespropios:

uRu λ=

siendo u el vector propio asociado al valor propio λ.

Sea T la matriz cuyas columnas son las componentes de los vectores propios enla base inicial o matriz del cambio de base, y supongamos que la hemos elegidoortogonal, es decir: T-1 = Tt, y sea Λ la matriz diagonal de valores propios, entonces:

RTT t=Λ

Si los vectores propios son:

),,,(

),,,(

),,,(

21

222122

121111

ppppp

p

p

tttu

tttu

tttu

"

"

"

"

=

=

=

entonces la matriz del cambio de base es:

Page 27: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 27

=

pppp

p

p

ttt

ttt

ttt

T

"

#"##

"

"

21

22221

11211

En la base original, (e1,…,ep), el individuo i-ésimo se expresa:

pipiiipiii ezezezzzzOA +++== "" 221121 ),,,(

mientras que en las nuevas componentes será:

=+++== pipiiipiii uyuyuyyyyOA "" 221121 ),,,(

=++++++= )()( 1111111 ppppipppi etetyetety """

pppippipipi etytyetyty )()( 1111111 ++++++= """

por tanto:

ppippipiip

pipiii

pipiii

tytytyz

tytytyz

tytytyz

+++=

+++=

+++=

"

""

"

"

2211

22222112

11221111

que con la formulación matricial, será:

=

ip

i

i

ip

i

i

y

y

y

T

z

z

z

##

2

1

2

1

o bien, trasponiendo:

( ) ( ) tipiiipii Tyyyzzz "" 2121 =

teniendo en cuenta que T-1=Tt:

( ) ( )Tzzzyyy ipiiipii "" 2121 =

aplicando finalmente la relación anterior sobre cada individuo, i=1,2,…,n, se puedeescribir:

ZTY =

Page 28: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 28

obteniéndose por tanto las coordenadas de los individuos en los nuevos ejes factoriales apartir de la matriz de datos tipificados.

Considerando las p variables: ),,,( 21 pZZZ " representativas de las columnas de

la matriz de datos tipificados, y las p variables: ),,,( 21 pYYY " representativas de las

componentes principales, se tiene:

tpp TYYYZZZ ),,,(),,,( 2121 "" =

oTZZZYYY pp ),,,(),,,( 2121 "" =

Teniendo en cuenta las expresiones (1.x) y (1.x), se cumple:

0== TZYy

Λ== RTTV tY

por tanto los nuevos ejes principales están centrados, sus varianzas son los valorespropios y sus covarianzas son nulas (están incorrelacionados). Es decir:

0)( =iYE

∑=

==n

kkiii y

nY

1

21)var( λ

∑=

==n

kkjkiji yy

nYY

1

10),cov(

con i,j=1,2,…,p.

Una propiedad importante es cuantificar el grado de interdependencia entre lasvariables originales y los nuevos ejes factoriales, pues ello nos permitirá interpretar lascomponentes principales. Para ello calculemos las covarianzas y correlaciones entreestos pares de variables:

∑∑ ∑∑∑∑== ====

=

===

p

rrjir

n

k

n

kkrkj

p

rir

p

rirkrkj

n

kkikjij YYtyy

nttyy

nzy

nZY

11 1111

),cov(111

),cov(

pero teniendo en cuenta las relaciones anteriores (2.x) y (2.x), resulta:

jijij tZY λ=),cov(

y finalmente, dividendo por las d.t.:

jij

j

jijij t

λλ

ρ ==1.

Page 29: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 29

en forma de matriz:

ppppp

pp

pp

ttt

ttt

ttt

λλλ

λλλλλλ

"

#"##

"

"

2211

2222121

1212111

las columnas se refieren a las variables Yj, mientras que las filas a las variables Zi, portanto en la intersección de columna con fila tenemos el coeficiente de correlación linealentre ambas variables. Notese que la correlación entre ambas es tanto mayor cuantomayor sea el valor propio (varianza) del factor Yi, ya que es proporcional a:

iiYtd λ=).(.

la matriz anterior recibe el nombre de matriz de factores o matriz de cargas factoriales(obsérvese que ya no es una matriz simétrica)

Interesa por tanto aquellos factores de alta d.t. pues serán los que están másfuertemente correlacionados con las variables originales. Se podrá prescindir deaquellos factores escasamente correlacionados con las originales, pudiendo considerarsecomo variables independientes.

Si un factor principal está muy correlacionado con una variable o grupo devariables originales, entonces ese factor explica por si solo a esa variable o grupo devariables originales. En caso contrario, dicho factor actuaría de forma independiente conrelación a dicha variable o grupo de variables.

La matriz de cargas factoriales, que representamos por F, se puede escribir de lasiguiente manera:

tTTF 21

21

Λ=Λ=

como fácilmente se comprueba, siendo 21

Λ la matriz diagonal de las desviaciones

típicas ( iλ ). Teniendo en cuenta lo anterior la matriz de correlaciones R se puede

expresar así:ttt FFTTTTR =ΛΛ=Λ= 2

12

1

Tipifiquemos los factores principales, teniendo en cuenta (2.x), y designemos aestos por F1, …, Fp:

i

ii

i

i

iii Y

Y

Ytd

YEYF

λλ10

).(.

)(=

−=

−=

ahora .0),cov(1)var(,0)( === jiii FFyFFE Hemos operado un cambio de escala en

los factores principales al tipificarlos. Los llamaremos factores o componentesprincipales escalados.

Page 30: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 30

Fácilmente se comprueba que:

=

pp F

F

F

F

Z

Z

Z

##

2

1

2

1

o

tpp FFFFZZZ ),,,(),,,( 2121 "" =

y en componentes:

piFtFtFtZ ppipiii ,,2,1,222111 "" =+++= λλλde aquí se sigue que:

)var()var()var()var( 222

2211

21 ppipiii FtFtFtZ λλλ +++= "

pipii ttt λλλ 22

221

211 +++= "

esta es una propiedad relativa a las filas de la matriz de cargas factoriales, F: las filasde la matriz F son vectores unitarios.

2.5.- CRITERIOS DE REPARTO DE LA INERCIA TOTAL Y REDUCCIÓN DE LADIM ENSIÓN.

La inercia que explica cada factor es numéricamente igual a su valor propio, queexpresada en porcentaje de la inercia total es:

100p

siendo λi el valor propio correspondiente Al factor propio Yi.

Si los valores propios son λ1>…>λp, cada factor explica distinta proporción de lainercia total de manera que cuantos más factores retengamos mejor será la calidad de larepresentación, pero entonces no simpli ficamos el problema ya que retenemos todos losfactores.

Es preciso por tanto definir un criterio para fijar el número de factores a retener.Existen varios criterios que enumeramos a continuación:i) retener aquellos factores cuyos valores propios sean mayores que 1.ii ) retener aquellos factores cuyos valores propios sean superiores a un valor fijo

previamente fijado por el investigador.iii ) retener un número fijo de factores.

Page 31: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 31

iv) retener aquellos factores que expliquen una proporción predeterminada de lainercia total (por ejemplo, un 75% o más).

Si hemos retenido m factores el porcentaje de inercia explicada por dichosfactores vale:

1001

p

m

ii∑

=

λ

Al retener m factores, la parte de varianza de la variable Zi contenida en dichos factoreses:

122

221

21

2 ≤+++= mimiii ttth λλλ "

se llama comunalidad de la variable Zi y se interpreta como una medida de la calidad dela representación de dicha variable Zi por los m primeros factores. Evidentemente larepresentación será tanto mejor cuanto más se aproxime a la unidad

Con la reducción de la dimensión, los m primeros columnas de la matriz T, queforman la matriz Tm, engendran un nuevo subespacio de representación de la nube depuntos, siendo las nuevas coordenadas de los individuos:

mm ZTY =

valiendo ahora la inercia:

∑ ∑∑∑∑= === =

=

=

m

k

m

kk

n

iik

n

i

m

kik y

ny

n 1 11

2

1 1

2 11 λ

que es la parte de variabili dad explicada por dichos factores.

Si no hay correlación entre las p variables iniciales, entonces:

=

100

010

001

"

""""

"

"

R

y los factores principales son las variables original y todas explican la misma cantidadde inercia, no siendo posible la reducción.

2.6.- ROTACIÓN DE LAS COMPONENTES

Los factores principales obtenidos tal como hemos indicado anteriormentepueden tener interpretaciones difíciles de comprender, por lo que se procede a tomarotras soluciones para hacerlos más interpretables a base de rotar la solución inicialobtenida. Son las soluciones rotadas o factores rotados. Sólo vamos a considerar

Page 32: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 32

rotaciones ortogonales, pues de esta manera los nuevos ejes siguen estandoincorrelacionados entre sí, mantienen las comunanlidades (la capacidad conjunta decada factor para retener la información de cada variable), sin embargo se altera lascorrelaciones entre factores y variables, Así como el porcentaje de inercia condensadapor cada factor. Después de la rotación hay que calcular la nueva matriz de factores quecontiene las correlaciones entre los factores rotados y las variables originales, que seobtiene multiplicando la matriz de factores obtenida antes de la rotación por la matriz decorrelaciones entre los factores rotados y no rotados, que algunos llaman matriz detransformación de los factores.

Para efectuar una rotación ortogonal de ejes se aplican dos criterios,denominados rotación quartimax y rotación varimax.

La rotación quartimax o criterio quartimax tiene por objeto determinar latransformación ortogonal que transforma la matriz de factores en otra de manera que lavarianza de los cuadrados de las cargas factoriales es máxima, recayendo el énfasis delmétodo en la simpli ficación por filas.

La rotación varimax o criterio varimax hace énfasis en la simpli ficación de lascolumnas o factores de la matriz de factores (Kaiser, 1958) con el fin de satisfacer lasencill ez de interpretación, maximizándose suma de varianzas de los cuadrados de lascargas factoriales de cada factor.

2.7.- PROGRAMAS DE ORDENADOR

El programa MINITAB dispone de una utili dad específica para realizar Análisisde Componentes Principales, a partir de la opción MULTIVARIANTE.

2.8.- EJEMPLOS

Ejemplo 2.1.- Con los datos del ejemplo 1.1 efectuar un análisis de componentesprincipales

Ejemplo 2.2.- Con los datos del ejemplo 1.2 determinar los ejes principales y la inerciade cada uno de ellos. Hacer una representación gráfica

Ejemplo 2.3.- Con los datos del ejemplo 1.3 determinar los ejes principales de inercia,así como la inercia de cada uno de ellos. Hacer una representación gráfica

2.9.- APLICACIONES

Desarrollar mediante los programas de ordenador SPSS y MINITAB los casos:

Caso 1.- Análisis de absorción de plomo en hojas de plantas urbanas.

Caso 2.- Evolución de la composición elemental del ser humano en diferentesetapas de su ciclo vital

Page 33: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 33

Caso 3.- Análisis del tamaño de una muestra de arbustos de una población deAlli um sativum.

Page 34: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 34

CAPÍTULO 3.- ANÁLISIS FACTORIAL

3.1.- Introducción. 3.2.- El modelo matemático. 3.3.- Descomposición de la matrizde varianzas. 3.4.- Relaciones entre los factores de carga. 3.5.- Contraste de laidoneidad del modelo. 3.6.- Extracción de los factores. 3.7.- Descripción de losfactores. 3.8.- Rotación de los factores.

3.1.- INTRODUCCIÓN

Las ideas básicas del AF fue sugerido por Francis Galton y CharlesSpearman, así como otros autores, al principio de siglo y se origina principalmenteen los esfuerzos de los sicólogos en tener un mejor conocimiento de la inteligencia.Los test de inteligencia contienen principalmente una gran variedad de cuestionesque dependen en gran medida de la habili dad verbal, habili dad matemática,capacidad memorística, etc. El AF fue desarrollado para analizar las puntuaciones deestos test y poder determinar si la inteligencia viene determinado por un único factoro un pequeño grupo de factores más reducido que los debidos a todos los testdisponibles. En este terreno se sabe que hay tres factores: a) inteligencia verbal, b)inteligencia lógica y c) inteligencia espacial tales que cualquier otro conjunto depuntuaciones queda explicada a través de las anteriores.

El AF trata de buscar causas comunes de un conjunto de variables queexplicarían a éstas como consecuencia de unos factores comunes que pueden no serobservables a priori ya que sólo se miden sus manifestaciones. Estos factorescomunes son de naturaleza más abstracta que las variables originales. El procesomatemático de cálculo es similar al ACP, pero conceptualmente son distintos,compartiendo en el software estadístico métodos similares de cálculo.

El AF es un método paramétrico en el sentido de que interesa estimar losparámetros de las relaciones entre variables, siendo por tanto un problema de tipoinferencial. Por este motivo el AF se divide en dos partes: el AF exploratorio dondese utili za la información contenida en una muestra (análisis exploratorio de datos), yel AF confirmatorio donde ya se suponen conocidos el número de factores comunesy se analiza su interpretación.

Desafortunadamente en el AF hay que introducir una serie de hipótesis sobrelas variables iniciales que será necesario comprobar al abordar cualquier problema,hipótesis que pueden no cumpli rse en la práctica.

3.2.- EL MODELO MATEMÁTICO

El modelo matemático del AF consiste en suponer que tenemos pobservables representadas por las variables X1, …, Xp cuya matriz de covarianzas esV. El AF supone que existen m factores desconocidos, m<p, (puesto que se pretendeexplicar las variables originales por un número de variables más reducido) f1, …, fm,tales que:

Page 35: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 35

Xj = λj1f1+ … + λjmfm + εj , j = 1, …, p

(modelo factorial li neal) donde:* las nuevas variables fi son los factores comunes, variables no observadas,

que explican a las variables observadas* los pesos λjk son los llamados factores de carga, que representa la carga de

la variable Xj sobre el factor fk. También se dice que es la saturación de la variableX j en el factor fk.

* la variable εj describe la variación residual de la variable X j no explicadapor el conjunto de los factores comunes; también se le llama factor específico (de lavariable explicada), es decir, es la parte de la variable observada no explicada por losfactores comunes.

El modelo anterior necesita de algunas hipótesis para su ulterior desarrollo:a) los factores comunes son estocásticamente independientes entre si.b) los factores específicos son independientes entre sí e independientes de los

factores comunes.c) se supone que las variables observadas están centradas.d) los factores comunes se suponen también centrados, y como se puede elegir con

arbitrariedad la escala se supone que la d.t. vale 1, por tanto se trata de variablestipificadas.

e) Igual para los factores específicos.f) los factores comunes y los específicos se suponen con distribución normal.

La formulación matricial del modelo sería:

X = ΛΛF + E

siendo:

=

pX

X

X

X

.

.

.2

1

=

mf

f

f

F

.

.

.2

1

=

m

E

ε

εε

.

.

.2

1

pmpp

m

m

λλλ

λλλλλλ

...

......

......

......

...

...

21

22221

11211

Page 36: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 36

siendo Λ la matriz factorial. Uno de los principales problemas del análisis factorial es ladeterminación de dicha matriz, cuyos elementos se obtienen a partir de los coeficientesde correlación entre las variables, además de la determinación del número de factores ma emplear.

Aplicando la relación anterior a cada observación de la tabla de datos, se tiene, parala observación r-ésima:

X1 = xr1, …, Xp = xrp

∑=

+=m

krjrkjkrj fx

1

ελ

siendo frk el valor del factor fk en la r-esima observación, Xr.

Expresado en forma matricial sería:

EFX +Λ=

ahora tenemos:

=

=

=

npnn

p

p

pmpp

m

m

npnn

p

p

E

fff

fff

fff

F

xxx

xxx

xxx

X

εεε

εεεεεε

"

#"##

"

"

"

#"##

"

"

"

#"##

"

"

21

22221

11211

21

22221

11211

21

22221

11211

donde la primera matriz es la matriz de datos, la segunda de puntuaciones o valoresfactoriales y la tercera es la matriz de residuos.

Esta es una relación entre expresiones matriciales relativas a los valoresmuestrales, en contraposición a la que hemos dado anteriormente, que aunque esformalmente idéntica, aquella expresa una relación entre variables estadísticaspoblacionales.

3.3.- DESCOMPOSICIÓN DE LA MATRIZ DE VARIANZAS

De la formulación del problema y de las hipótesis se deduce:

jjmjjX νλλ +++= 221)var( " , siendo νj=var(εj)

de aquí se sigue que la varianza de los observables se explican por la suma de loscuadrados de las correspondientes cargas factoriales, más la varianza debida al factorresidual. Se llama comunalidad del observable Xj a:

221

2jmjjh λλ ++= "

Page 37: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 37

y es la parte de la varianza del observable Xj explicada por los factores comunes o lacontribución de todos los factores comunes a la varianza de Xi. En AF interesa buscarlos factores comunes que expliquen la mayor parte de variabili dad de las variables.

Para las covarianzas se tiene:

jmimjiji XX λλλλ ++= "11),cov(

por tanto, la matriz de varianzas-covarianzas es:

V = ΛΛΛΛt + ΝΝ

siendo ΝΝ la matriz diagonal de las varianzas ν1, …, νp.

Por tanto las cargas factoriales determinan las covarianzas, y en gran medidalas varianzas pues para estas sólo falta tener en cuenta la varianza de las variablesresiduales. La ecuación matricial anterior es crucial en el AF. En esta ecuación haypm+p parámetros desconocidos (factores de carga y varianza de residuos) y½(p+1)p ecuaciones. Es necesario, por tanto, para que haya solución, que m<1/2(p-1); puede no haber solución o incluso no ser única, pues si ΛΛ es una solución y T esuna matriz ortogonal, entonces ΛΛT también es solución pues: (ΛΛT)(ΛΛT)t=ΛΛΛΛt. Portanto siempre que se obtiene una solución se pueden efectuar rotaciones y analizarlas nuevas soluciones. La acotación anterior de m nos proporciona el númeromáximo de factores a extraer.

3.4.- ESTIM ACIÓN DE LOS FACTORES DE CARGA

Se puede partir de una matriz de datos, donde las variables estén tipificadas,entonces la matriz de covarianzas pasa a ser la matriz de correlaciones, siendoentonces las comunalidades iguales a la unidad:

∑=

+=m

kjjk

1

21 νλ

∑=

=m

kjkikijr

1

λλ

NR t +ΛΛ=

Estas propiedades son debidas a Thurstone (1947). La última propiedad es laidentidad fundamental que debe verificar toda matriz factorial.

A partir de aquí se entra en un proceso de inferencia para determinar losfactores de carga, esta es la gran diferencia con el ACP, pues este es un método detipo descriptivo, mientras que el AF es de tipo inferencial.

3.5.- CONTRASTE DE LA IDONEIDAD DEL MODELO

Page 38: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 38

El primer paso a realizar consiste en averiguar si hay o no factores comunes apartir de la información disponible en la tabla de datos (muestra). Se trata de realizarun AF exploratorio. Para ello empleamos el contraste de esfericidad de Bartlett, quese utili za para comprobar la hipótesis de que la matriz de correlaciones es una matrizidentidad (las intercorrelaciones entre las variables son cero lo que significaidoneidad para un AF) , que se basa en el estadístico muestral:

RpnY log))52(6

11( +−−−=

que sigue una distribución ji -cuadrado con ½(p(p-1) grados de libertad.

Se plantea la hipótesis nula H0:R=I (no existen correlaciones significativasentre las variables observadas, por tanto no es adecuado un AF), frente a laalternativa de que existen correlaciones significativas entre las variables observadas,R ≠ I , y por tanto es adecuado el modelo AF.

Si el estadístico de contraste es significativamente alto entonces se rechaza lahipótesis nula procediéndose a efectuar un AF.

Debe hacerse notar que el método inferencial de Bartlett se basa en lahipótesis de que la muestra de datos procede de una población con distribuciónnormal multivariable.

3.6.- EXTRACCIÓN DE LOS FACTORES

Ya hemos dicho que una acotación del número de factores emplear es m<1/2(p-1), siendo p el número de variables observables.

Existen diversos métodos para determinar el número de factores a utili zar, unode los cuales está basado en el análisis de componentes principales que será el quevamos a utili zar ya que es el más utili zado por los programas estadísticos de ordenador.Elegiremos un número pequeño de factores que serán los que expliquen la mayor partede la variabili dad total, siguiendo los pasos que vimos en el capítulo de ACP.

En este punto conviene aclarar que el análisis factorial y el ACP están endiscusión por diversos investigadores, habiendo disparidad de criterios sobre si se tratade dos métodos distintos y distantes o bien si el ACP puede considerarse como unaetapa previa del AF.

Con el método de componentes principales el objetivo es extraer la mayorvarianza posible empleando pocas variables, a fin de determinar las pxm cargasfactoriales, basándonos en la información contenida en la matriz de datos. Aquí se veque se trata de un método inferencial, pues el modelo es para la población.

Por tanto elegiremos un primer factor común f1 de manera que su contribución a lavarianza de todas las variables observadas sea máximo; pero esta varianza, querepresentamos por V1, vale:

21

221

2111 pV λλλ +++= "

Page 39: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 39

pero estos factores están relacionados entre sí, ya que:

2

1

,, iiijiij

m

kjkikij hrrrconr === ∑

=

λλ

donde los r ij se calculan a partir de la tabla de datos y las comunalidades hi2 deben

estimarse como mas adelante indicaremos.

Aplicando el método de los multiplicadores de Lagrange a la función V1 con lasrestricciones anteriores, se obtiene la siguiente condición de máximo:

0)(

0)(

0)(

12

313212111

12312321221121

11311321121121

=−++++

=+++−+

=++++−

pnppp

pp

pp

hrrr

rrhr

rrrh

λαλλλ

λλλαλ

λλλλα

"

""

"

"

donde α es el multiplicador de Lagrange. La anterior condición es un sistemahomogéneo de p ecuaciones con p incógnitas, cuya condición de compatibili dad es:

0

221

22221

11221

=

−−

α

αα

ppp

p

p

hrr

rhr

rrh

"

#"##

"

"

esta ecuación es la ecuación característica de la matriz:

221

22221

11221

ppp

p

p

hrr

rhr

rrh

"

#"##

"

"

que la llamamos matriz de correlación reducida, y la representamos por R* y seinterpreta como una estimación puntual de ΛΛt.

Tal como se demuestra en [.] las comunalidades se aproximan con loscoeficientes de determinación de cada var iable respecto de las demás, mientras quelos elementos de fuera de la diagonal se estiman a par tir de la matr iz de datos.

Se procede a diagonalizar la matriz R* y se obtienen los m < p valores propios ysus vectores propios asociados, que se toman normalizados: a1, a2, …, am . Estosvectores forman las columnas de la matriz A de dimensión (pxm), que verifica:

AtA = Γm = diag(α1, α2,…, αm)

Page 40: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 40

o escrito en componentes:

kjmjk

aa

a

p

iikij

k

p

iiik

≠=

=

=

=

=

;,...,2,1,

01

2 α

Esta primera solución factorial obtenida estimando las comunalidades a través de loscoeficientes de determinación se utili za para iterar el proceso tomando ahora comocomunalidades las obtenidas de la solución anterior, y repitiendo el proceso. Lasolución final se obtiene incorporando al proceso un criterio de parada.

3.7.- DESCRIPCIÓN DE LOS FACTORES

Hasta ahora nos hemos preocupado de la obtención del modelo lineal factorialde un conjunto de variables en función de unos factores comunes. El problema queaparece a continuación se refiere a la descripción de los factores en función de lasvariables observadas.

Aquí vamos a utili zar métodos de regresión convencionales para obtener unarepresentación o medida de los factores en las variables. Para ello supondremos quecada factor se puede expresar como la regresión de dicho factor respecto de las variablesobservadas. Es decir que el factor actúa como variable pronosticada o estimada y lasvariables observadas como regresores o variables predictivas, por tanto tendremos:

mkXXXf pkpkkk ,,2,1,ˆ2211 "" =+++= βββ

donde kf̂ es la variable teórica de regresión y kf es la correspondiente variable real.

Teniendo en cuenta:

kpkpkppkkp

kppkkkk

kppkkkk

rrsfX

rrsfX

rrsfX

βββ

βββ

βββ

+++==

+++==

+++==

"

""

"

"

2211

2212122

1212111

)ˆ,cov(

)ˆ,cov(

)ˆ,cov(

donde los coeficientes de los parámetros de regresión son los coeficientes de correlaciónlineal obtenidos de la matriz de datos y las covarianzas son las cargas factoriales. Laresolución de este sistema permite obtener los parámetros del hiperplano de regresión

El grado de correlación entre las dos variables: kk fyf̂ , viene dado por el

coeficiente de correlación múltiple, cuyo cuadrado es el coeficiente de determinación, yse demuestra que vale:

Page 41: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 41

kpkpkkkkk sssD βββ +++= "22112

3.8.- ROTACIÓN DE LOS FACTORES

Los métodos dados para obtención de los factores no siempre conduce a unasolución más clara y convincente para una interpretación científica de los factores,procediéndose a obtener otra solución como “rotación” de la solución obtenida. Se tratade obtener matrices factoriales “con significado” que cumplan unos requisitos quellamamos de estructura simple (Thurstone, 1947):

i) Cada fila de la matriz factorial debe tener un cero por lo menos.ii ) Cada columna de la matriz factorial deberá contener m ceros por lo menos (mfactores comunes).iii ) Para cada par de columnas de la matriz factorial deberá haber varias variables cuyasentradas se anulen en una columna pero no en la otra.iv) Para cada par de columnas de la matriz factorial una gran proporción de las variablesdeberán tener entradas nulas en ambas columnas cuando hay cuatro o más factoresv) Para todo par de columnas de la matriz factorial deberá haber solamente un númeropequeño de variables con entradas no nulas en ambas columnas.

Dentro de la hipótesis de ejes factoriales ortogonales vamos a explicarsuscintamente dos tipos de rotaciones que tienen en cuenta los princios antesmencionados aunque de distinta manera. Ello es debido a que la solución rotada no esúnica.

La rotación quartimax o criterio quartimax tiene por objeto determinar latransformación ortogonal que transforma la matriz factorial Λ en otra Γ de manera quela varianza de los cuadrados de las cargas factoriales es máxima, recayendo el énfasisdel método en la simpli ficación de la descripción de las filas o variables.

La rotación varimax o criterio varimax hace énfasis en la simpli ficación de lascolumnas o factores de la matriz factorial (Kaiser, 1958) con el fin de satisfacer loscriterios de estructura simple, maximizándose suma de varianzas de los cuadrados de lascargas factoriales de cada factor.

Harman (1960) propuso construir una clase general de criterios ortogonales apartir de una suma ponderada de estos dos tipos diferentes de rotaciones ortogonales,que se denomina criterio ortomax.

En general estas rotaciones se hallan implementadas en los programasestadísticos de ordenador.

Page 42: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 42

Capítulo 4.- Análisis de Correspondencias

4.1.- Introducción. 4.2.- Análisis de correspondencias simples. 4.3.- Perfilesy distancias. 4.4.- La matriz de varianzas. Extracción de los factores. Coordenadasde las categorías en los factores. Representaciones gráficas. Interpretación de losfactores: contribuciones absolutas y relativas. Proyección de filas y de columnas.Análisis de correspondencias múltiples. Programas de ordenador. Aplicaciones.

4.1.- INTRODUCCIÓN

El análisis de correspondencias es una de las técnicas más recientes concebidaesencialmente para la interpretación de tablas de datos de variables de tipo categórico,analizando la coocurrencia de las categorías de dos variables cualitativas, siendohabitual los casos en que el papel de datos y observaciones es intercambiable.

Se puede situar su origen en los trabajos de Benzecri (1963) y la denominada“escuela francesa”: Lebart, Lefebre, Morinau, etc. con gran incidencia en estudios deanálisis textual.

Podemos afirmar que el objetivo básico del Análisis de CorrespondenciasSimples (ACS), que es el caso de dos variables, es el de obtener una representacióngráfica (nube de puntos) de una tabla de contingencia. Es decir, se trata de presentar,mediante gráficas, la mayor parte de la información contenida en una tabla defrecuencias. Dentro de la técnica del análisis factorial, podemos afirmar que partiendode una matriz de datos, se extraen unos factores que permiten reducir la dimensión de lamatriz inicial, para, perdiendo un mínimo de información, lograr una segunda matriz dedatos mucho más fácil de leer y más sencill a de interpretar.

Otros autores destacan que con el AC se producen representaciones gráficas enlas que las proximidades geométricas entre los puntos-fila o los puntos-columnatraducen asociaciones estadísticas entre filas o columnas de la tabla de contingencia.

En el proceso de cálculo del AC cabe destacar dos fases. Una la creación de lamatriz de varianzas-covarianzas de acuerdo con la definición de distancia de Benzecri, yotra fase correspondiente a la extracción de factores y la proyección de las categoríassobre dichos factores, que permitirá la obtención de las representaciones gráficas.

4.2.- ANÁLISIS DE CORRESPONDENCIAS SIM PLES

Como ya hemos dicho el análisis factorial de correspondencias fue concebidopara analizar tablas de contingencia o tablas cruzadas de datos, se trata de datosobtenidos cruzando las modalidades de dos variables cualitativas definidas sobre unamisma población de individuos. Esto es lo que se llama Análisis de CorrespondenciasSimples (ACS).

Cuando sobre un conjunto de individuos se cruzan datos provenientes de más dedos variables se entra en el Análisis de Correspondencias Múltiples (ACM), cuyosmétodos son similares al ACS. En este texto nos dedicamos al ACS.

Page 43: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 43

Partimos de una tabla de frecuencias absolutas de las variables cualitativas:

},,,{},,,,{ 2121 pq yyyYxxxX "" ==

y1 y2 . . . yp

x1

x2

.

.

.xq

n11 n12 ……. n1p

n21 n22 ……. n2p

………

nq1 nq2 ……… nqp

n1.

n2.

.

.

.nq.

n.1 n.2 …….. n.p N

donde se han incluido las distribuciones marginales de X y de Y:

X x1 x2 . . . xq

n. n.1 n.2 . . . n.q

Y y1 y2 . . . yp

n . n1. n2. . . . np.

la distribución marginal en X es la distribución que resulta de agrupar los valores de Ypara cada valor o atributo de X. Idem para la distribución marginal de Y.

Dividiendo las frecuencias absolutas por el número total de observaciones seobtienen las frecuencias relativas.

A partir de la tabla anterior se definen las distribuciones condicionales. Porejemplo, la distribución condicional de X para Y=y1 , representada por X/Y=y1 o X/y1,sería:

X/y1 frecuenciasx1

x2

.

.

.xq

n11/n.1

n21/n.2

.

.

.nq1/n.q

para obtener esta distribución de frecuencias se puede emplear las frecuencias relativas,ya que:

1

11

1

11

1

11

⋅⋅⋅

==f

f

Nn

Nn

n

n, etc.

Page 44: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 44

4.3.- PERFILES Y DISTANCIAS

El punto de partida del AC es la tabla de datos, que ya la tomamos como tabla defrecuencias relativas. Si X = { x1, …, xq} e Y = { y1, …, yp} son las variablescualitativas, representamos por f ij la frecuencia relativa de la observación conjunta X =xi e Y = yj.

En forma de tabla sería:

y1 y2 . . . yp

pesosfila

x1

x2

.

.

.xq

f11 f12 . . . f1p

f21 f22 . . . f2p

………………..………………..……………….fq1 fq2 . . . fqp

f1.

f2.

.

.

.fq.

pesoscolumna

f.1 f.2 . . . f.p 1

donde hemos incluido las distribuciones marginales. Estos valores se les da el nombrede pesos fila, { f1.,…,fq.}, para los valores marginales por fila, y pesos columna,{ f.1,…,f.p}, para los valores marginales por columna. Evidentemente la suma de lospesos fila o pesos columna valen 1.

Para seguir el proceso numérico es preciso introducir una distancia entre filas oentre columnas. Vamos a referirnos en lo que sigue a las filas, pero teniendo en cuentaque ambas ideas son intercambiables.

A partir de la tabla anterior se obtienen las distribuciones condicionadas porfilas, que se llaman perfiles fila, y la tabla correspondiente tabla de perfiles fila. Asípues, se tendrá:

y1 y2 . . . yp ΣΣY/x1

Y/x2

.

.

.Y/xq

f11/f1. f12/f1. … f1p/f1.

f21/f2. f22/f2. … f2p/f2.

………………

fq1/fq. fq2/fq. … fqp/fq.

11...1

que es la tabla de perfiles fila; análogamente se obtiene la tabla de perfiles columna.

Esto constituye una operación de homogeneización de la tabla de frecuenciasrespecto de los pesos fila.

Page 45: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 45

A partir de aquí, si definiésemos directamente una distancia como la distanciaeuclidea entre filas se podrían cometer fuertes descompensaciones debido a unsobrepeso de unas columnas respecto de otras, por tanto es preciso corregir la distanciaeuclidea entre filas con los pesos columna, obteniéndose:

∑ ∑= = •••••••

−=

−=

p

k

p

k kj

jk

ki

ik

j

jk

i

ik

k ff

f

ff

f

f

f

f

f

fjid

1 1

22

2 1),(

esta distancia que algunos denominan ji -cuadrado, por motivos que veremos másadelante, presenta algunas propiedades fundamentales que nos permite realizar ciertastransformaciones con la matriz de datos.

Los términos del sumatorio se transforman así:

=+−−=− •••

•••••••

k

kj

jkk

ki

ik

kj

jk

ki

ik fff

ff

ff

f

ff

f

ff

f

kj

kjjk

ki

kiik

kj

kj

kj

jk

ki

ki

ki

ik

ff

fff

ff

fff

ff

ff

ff

f

ff

ff

ff

f

••

••

••

••

••

••

••••

••

••

−−

−=+−−=

y haciendo los cambios:

ki

ikik

ff

fy

••

=

pkfyfff

f

ff

fffz kikk

ki

ik

ki

kiikik ,...,2,1=−=−=

−= ••

••••

•• ,

resulta:

∑ ∑= =

−=−=p

k

p

kjkikjkik zzyyjid

1 1

222 )()(),(

la distancia entre perfiles fila tal como se ha definido al inicio entre los puntos de Rp esuna distancia euclidea en Rp.

La distancia ponderada definida más arriba verifica el principio de equivalenciadistribucional: Si dos puntos fila, i1 e i2, con pesos f i1. y f i2., están confundidos en Rp ysi se les considera como un solo punto, i0, de peso f i0.=f i1.+f i2., entonces la distanciarespecto de cada punto permanece invariante. En efecto, como que para todo j secumple

••

=2

2

1

1

i

ji

i

ji

f

f

f

f

entonces:

Page 46: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 46

jijiji fff021

=+

no quedando afectados los pesos fila y dejando invariante la distancia. De este modo laagregación de categorías muy próximas tendrá poca influencia sobre el resultado final.

Como que tenemos una nube de q puntos:

),,(),,,( 11111 qpqqp yyYyyY """ == ,

vamos a calcular el cdg, ),,( 1Gp

GG yyY "= , de esta nube de puntos ponderando con los

pesos columna.

Para la coordenada k-ésima se obtiene:

( ) kqkkk

k

qkqkkGk ffff

fyfyfyfy •

•••• =+++=+++= "" 212211

1

por tanto:

),,,( 21 pG fffY •••= "

en consecuencia cuando la nube de puntos se expresa a través de las variables Zk, resultauna nube de puntos centrada en el origen.

Finalmente de:

ji

ijij

ff

fy

••

=

se sigue que:

111

== ∑∑= •=

p

i i

ikp

ikik f

ffy

por tanto los q puntos Y1,…,Yq están sobre el hiperplano:

12211 =+++ ••• pp YfYfYf "

cuyo vector director es ),,( 1 pff •• " , y cuya distancia al origen vale 1. Además el

cdg, G, pertenece al hiperplano, ya que: 111 =++ •••• pp ffff " . Este

hiperplano corta a los ejes en los puntos: )1,0,...,0(,),0,...,0,1(1 pff ••

" , ya que

estos puntos pertenecen al hiperplano y a los ejes.

Si se emplean las variables centradas Z1,…,Zp, entonces el hiperplano pasa porel origen, como fácilmente se comprueba.

Page 47: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 47

Por tanto es natural efectuar un cambio de variable de manera que las nuevasqueden centradas en el c.d.g., tomando como nuevo origen:

ki

kiij

ki

ki

ki

ikkikik

ff

fff

ff

ff

ff

ffyz

••

••

••

••

•••

−=−=−=

estas son las variables centradas, que dejan invariante la distancia definidaanteriormente.

4.4.- LA MATRIZ DE VARIANZAS. EXTRACCIÓN DE LOS FACTORES

Sea X la matriz de datos de frecuencias relativas:

( )jiijfX

,=

y definimos las matrices:

=

q

pf

f

f

f

D

"

#"##

"

"

00

00

00

2

1

La siguiente fase es entrar en el proceso de análisis de componentes principalesde la matriz de varianzas, calculadas a partir de las nuevas variables. El proceso seinicia calculando los vectores y valores propios de V, eligiendo los factores que“explican” la matriz de datos de acuerdo a como hemos explicado en el capítulo deACP.

Una vez extraídos los factores se necesitan conocer las coordenadas de cada unade las categorías con respecto a cada eje, y efectuar la correspondiente representaciónplana y estudiar las asociaciones entre diferentes categorías. Estas coordenadas seobtienen de la proyección de la matriz de perfiles fila sobre los vectores propios.

Es importante conocer que categorías son las que más contribuyen a cada factor,es decir que peso tiene cada categoría en la definición de cada uno de los ejes. Este pesose denomina contribución absoluta y dicho valor representa porcentualmente laimportancia que tiene cada categoría en la definición de cada eje. La contribuciónabsoluta viene dada por:

α

α

λϕα

2

),( iifiCa •=

Page 48: Introducción al análisis multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

Angel Igelmo Ganzo 48

siendo: i una categoría i-esima, α el eje factorial α-ésimo, ϕiα la coordenada de lacategoría i en el eje factorial α, y λα el correspondiente valor propio. La suma de lascontribuciones absolutas de cada categoría fila sobre cada eje valdrá 1.

Tras analizar los ejes sobre la base de las categorías absolutas, tambiénresulta importante calcular las contribuciones relativas de cada eje sobre cadacategoría. Este es un índice que nos indica hasta que punto cada eje representa acada una de las categorías. La suma de las distintas contribuciones relativas de cadaeje sobre una categoría debe ser 1, y su cálculo viene dado por el cociente entre elcuadrado de la coordenada de la categoría i sobre el eje α y la suma de cuadrados delas coordenadas de la categoría i.