Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL...

41

Transcript of Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL...

2

CURSO

TÉCNICAS

MULTIVARIANTES

Prof. Dr. Rosa Jordá Borrell

http://www.geografia.us.es

Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”

Máster en Ordenación y Gestión del Desarrollo Territorial y Local

3

ETAPAS APLICACIÓN T. MULTIVARIANTES

• 1) Objetivos del análisis • Se define el problema especificando los objetivos y las técnicas multivariantes que se van a utilizar• El investigador debe establecer el problema en términos conceptuales definiendo los conceptos y

las relaciones fundamentales que se van a investigar. Se deben establecer si dichas relaciones van a ser relaciones de dependencia o de interdependencia. Con todo esto se determinan las variables a observar.

• 2) Diseño del análisis.• Se determina el tamaño muestral, las ecuaciones a estimar (si procede), las distancias a calcular (si

procede) y las técnicas de estimación a emplear. Una vez determinado todo esto se proceden a observar los datos

• 3) Realización del análisis • Se estima el modelo y se evalúa el ajuste a los datos. En este paso pueden aparecer observaciones

atípicas cuya influencia sobre las estimaciones y la bondad de ajuste se debe analizar.•

• 4) Interpretación de los resultados• Dichas interpretaciones pueden llevar a reespecificaciones adicionales de las variables o del

modelo con lo cual se puede volver de nuevo a los pasos 3) y 4)•

4

TECNICAS MULTIVARIANTES• . Sirven para analizar grandes cantidades de datos complejos

EJEMPLO Mundo 95

• Análisis univariante: análisis de distribuciones de una sola variable

• Análisis bivariante es una correlación, clasificaciones cruzadas, regresiones simples y son utilizadas para analizar dos variables.

• Son métodos y técnicas estadísticas ¿Por qué sería un Método?

5

DEFINICIONES

• El término multivariante no se usa de la misma forma en la literatura científica

• 1.-El Análisis Multivariante es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para cada individuo ú objeto estudiado.

• Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio, obteniendo información que los métodos estadísticos univariantes y bivariantes son incapaces de conseguir.

• 2.-Para ser considerado verdaderamente multivariante todas las variables deben ser aleatorias y estar relacionadas de tal forma que sus diferentes efectos no puedan ser interpretados separadamente con algún sentido.

6

Métodos técnicas multivariantes • Algunos de los métodos del análisis multivariante son métodos puramente

descriptivos que realizan un estudio de datos muestrales exclusivamente. En otros se trata de realizar inferencias acerca de parámetros poblacionales.

• Para realizar inferencias es necesario incorporar hipótesis estadísticas

• En el análisis multivariante la distribución normal multivariante juega un papel esencial, de la misma manera que en el univariante lo hace la distribución normal.

• En el análisis multivariante se suelen realizar ciertas transformaciones de los datos originales, utilizándose datos en desviaciones respecto a la media y datos tipificados. ¿Por qué se utilizan datos tipificados? Porque los datos se ven afectados por la escala de medida. Una observación está tipificada cuando se divide la observación, expresada en desviaciones respecto la media, por la desviación típica.

7

ESCALAS DE MEDIDA

• Dos tipos de datos: no métricos (cualitativos) y métricos (cuantitativos).

• Los primeros son atributos, características o propiedades categóricas.Escalas nominal y ordinal.

• Métricas: son las escalas de intérvalos y de razón

8

TIPOS DE TECNICAS MULTIVARIANTES

• 1) Métodos de dependencia

• Suponen que las variables analizadas están divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los métodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qué forma.

• 2) Métodos de interdependencia

• Estos métodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qué variables están relacionadas, cómo lo están y por qué.

• 3) Métodos estructurales

• Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos métodos es analizar, no sólo como las variables independientes afectana las variables dependientes, sino también cómo están relacionadas las variables de los dos grupos entre sí.

9

CLASIFICACIÓN T. MULTIVARIANTES

Técnicas

Multivariantes

Métodos de

Dependencia

Dependiente

Métrica

Dependiente

No Métrica

Análisis de Regresión

Análisis de Supervivencia

MANOVA

Correlación Canónica

Análisis Discriminante

Regresión Logística

Análisis Conjoint

Modelos estructurales

Métodos de

Interdependencia

Datos Métricos

Datos No

Métricos

A. Comp. Principales

Análisis Factorial

Escalas Multidimensionales

Análisis Cluster

Análisis de Correspondencias

Modelos log-lineales

Escalas Multidimensionales

Análisis Cluster

10

ANÁLISIS FACTORIAL (AF) INTRODUCCIÓN• Aborda el problema de cómo analizar la estructura de las interrelaciones

(correlaciones) entre un gran número de variables. Por lo tanto tendrá por objeto simplificar las múltiples y complejas relaciones que puedan existir entre las variables observadas. DIBUJO haz factores

• Es una clase de método multivariante cuyo propósito principal es definir, conocer la estructura subyacente en una matriz de datos. Como medir el nivel de desarrollo de un país,¿qué características distinguen unas marcas de pastas de dientes de otras ? EJEMPLO Mundo” ver vista variables”

• Para ello trata de encontrar dimensiones comunes o factores que ligan a las aparentemente no relacionadas.

• Es una técnica de reducción de la dimensionalidad de los datos. Su propósito es buscar el nº mínimo de dimensiones capaces de explicar el máximo de información contenida en los datos. Y que esa información sea fácilmente interpretable

11

12

ANÁLISIS FACTORIAL (AF) INTRODUCCIÓN

• Consiste en encontrar un conjunto de k < p factores no observables que expliquen suficientemente bien a las variables observadas:

• Perdiendo el mínimo de observación• Que sean fácilmente explicadas

• Por tanto resumen la información y reducen el número de datos

• El AF es una técnica de interdependencia en la que se consideran todas las variables simultáneamente cada una relacionada con todas las demás. Todas las variables son independientes

13

14

15

COMUNALIDAD/especificidad o unicidad

• Comunalidad: proporción de la varianza explicada de una variable por el conjunto de los factores comunes.

Proporción de varianza que puede ser explicada por el modelo factorial obtenido

• Especificidad parte de la varianza debida a los factores únicos

16

ETAPAS APLICACIÓN T. MULTIVARIANTES

• 1) Objetivos del análisis • Se define el problema especificando los objetivos y las técnicas multivariantes que se van a utilizar• El investigador debe establecer el problema en términos conceptuales definiendo los conceptos y

las relaciones fundamentales que se van a investigar. Se deben establecer si dichas relaciones van a ser relaciones de dependencia o de interdependencia. Con todo esto se determinan las variables a observar.

• 2) Diseño del análisis.• Se determina el tamaño muestral, las ecuaciones a estimar (si procede), las distancias a calcular (si

procede) y las técnicas de estimación a emplear. Una vez determinado todo esto se proceden a observar los datos

• 3) Realización del análisis • Se estima el modelo y se evalúa el ajuste a los datos. En este paso pueden aparecer observaciones

atípicas cuya influencia sobre las estimaciones y la bondad de ajuste se debe analizar.•

• 4) Interpretación de los resultados• Dichas interpretaciones pueden llevar a reespecificaciones adicionales de las variables o del

modelo con lo cual se puede volver de nuevo a los pasos 3) y 4)•

17

DISEÑO DEL ANÁLISIS: VARIABLES A INCLUIRTAMAÑO MUESTRA

• Variables preferentemente métricas

• Estudiar los datos. Ejemplo base datos MUNDO (buscar, religión, región, cregrano, clima y densidad) vista variables

• Si las variables A y B están englobadas en C ¿Se incluyen las tres?

• muestra no inferior a 50 observaciones/casos, preferible 100 o más.

• El tamaño aceptable es un ratio de 10 observaciones/casos por una variable.

• Qué hacer con los datos ausentes?

18

DISEÑO DEL ANÁLISIS: VALORES PERDIDOS

• Excluir casos según lista, opción por defecto. Se excluyen los casos que tengan valores perdidos en cualquiera de las variables empleadas en el Análisis Factorial. Esta forma puede suponer la pérdida de un gran número de casos y la reducción del tamaño muestra

• Excluir casos según pareja, los casos con valor perdido en una variable se excluyen del análisis sólo para el cálculo estadístico en el que esté implicada esa variable

• Reemplazar por la media, en la medida en que el nº de valores perdidos aumenta, la sustitución por la media tiene el efecto de centrar las variables disminuyendo su variabilidad.

19

INTERPRETACIÓN DE FACTORES

• Se sugieren dos pasos:

• 1.- Estudiar la composición de las saturaciones significativas de cada factor

• 2.-Intentar dar nombre a los factores. Nombre que se debe dar de acuerdo con la estructura de las saturaciones, conociendo su contenido

• .- Eliminar las cargas factoriales bajas inferiores a 0,30

• .- Factores bipolares, son aquellos en los que unas variables cargan positivamente y otras tienen cargas negativas

20

ETAPAS APLICACIÓN T. MULTIVARIANTES

• 1) Objetivos del análisis • Se define el problema especificando los objetivos y las técnicas multivariantes que se van a utilizar• El investigador debe establecer el problema en términos conceptuales definiendo los conceptos y

las relaciones fundamentales que se van a investigar. Se deben establecer si dichas relaciones van a ser relaciones de dependencia o de interdependencia. Con todo esto se determinan las variables a observar.

• 2) Diseño del análisis.• Se determina el tamaño muestral, las ecuaciones a estimar (si procede), las distancias a calcular (si

procede) y las técnicas de estimación a emplear. Una vez determinado todo esto se proceden a observar los datos

• 3) Realización del análisis • Se estima el modelo y se evalúa el ajuste a los datos. En este paso pueden aparecer observaciones

atípicas cuya influencia sobre las estimaciones y la bondad de ajuste se debe analizar.•

• 4) Interpretación de los resultados• Dichas interpretaciones pueden llevar a reespecificaciones adicionales de las variables o del

modelo con lo cual se puede volver de nuevo a los pasos 3) y 4)•

21

FASES DEL ANALISIS FACTORIAL• 1.-Cálculo de una matriz capaz de expresar la variabilidad conjunta de todas las variables (m.

correlaciones)

• 2.-Extracción de un nº óptimo de factores:• Criterios

• Revisión de autovalores

• Métodos principales para extraer factores: diferencias y revisión de comunalidad

• 3.-Rotación de la solución para facilitar su interpretación• Estadísticos asociados a Matriz de Correlaciones

• 4.-Estimación de las puntuaciones de los sujetos/casos en las nuevas dimensiones

• Ejemplo OCDE ,ir a SPSS y mostrar pasos

22

MATRIZ DE CORRELACIÓN. FASE 1ª

• La finalidad de este análisis es comprobar si las características son las más adecuadas para realizar el AF: variables estén muy intercorrelacionadas

• Coeficientes de correlación: mide la variabilidad conjunta de las variables. Son los coeficientes de Pearson entre cada par variables

• Qué tiene que contener la matriz? ¿Cuándo un índice de correlación es significativo?

• Niveles de significación: niveles críticos unilaterales asociados a cada coeficiente correlación. Nivel menor de 0,05 es lo que interesa

• Un nivel inferior a 0,05 indica que la correlación poblacional entre el correspondiente par de variables puede ser considerado significativamente distinto de cero

23

CARGAS FACTORIALES SIGNIFICATIVAS SEGÚN TAMAÑO MUESTRA

• Carga Factorial Tamaño muestra

0,30 350

0,35 250

0,40 200

0,45 150

0,50 120

0,55 100

0,60 85

0,65 70

0,70 60

0,75 50

24

CRITERIOS PARA EL CÁLCULO Nº DE FACTORES A EXTRAER. FASE 2ª

• Autovalores mayores de 1(los menores de 1 explican como máximo una variable). ¿por qué? Explicarlo el ejemplo

• Autovalores cantidad de varianza total explicada por cada factor• La suma de las cargas factoriales (elevadas al cuadrado) de un mismo factor

con todas las variables, se denomina valor propio, autovalor o “eigenvalue” de dicho factor

• Porcentaje de la varianza. En ciencias naturales los factores extraídos deben contar con el 95% varianza. En ciencias sociales considerar una solución que represente un 60% de la varianza. ¿Cómo se obtiene este porcentaje?

• En las sumas de cuadrados de columna total si el método es el componentes coincide con autovalores, en los otros métodos no coincide ejemplo

25

FASES DEL ANALISIS FACTORIAL• 1.-Cálculo de una matriz capaz de expresar la variabilidad conjunta de todas las variables (m.

correlaciones)

• 2.-Extracción de un nº óptimo de factores:• Criterios

• Revisión de autovalores

• Métodos principales para extraer factores: diferencias y revisión de comunalidad

• 3.-Rotación de la solución para facilitar su interpretación• Estadísticos asociados a Matriz de Correlaciones

• 4.-Estimación de las puntuaciones de los sujetos/casos en las nuevas dimensiones

• Ejemplo OCDE ,ir a SPSS y mostrar pasos

26

COMPONENTES PRINCIPALES. FASE 2ª

• Cuando se aplica este método para la extracción de factores la comunalidad de la extracción inicial de cada variable es = 1 ya que se consideran todos los componentes/factores incluyendo la unicidad.

• No le interesa tanto explicar las estructuras latentes

• No hace distinción entre varianza única y común

• Explicar la mayor parte de la variabilidad total de las variables con el menor nº de factores /componentes posibles y reduciendo al máximo la unicidad

27

COMPONENTES PRINCIPALES. FASE 2ª

• Los valores propios de la extracción final coinciden con los de la inicial

• El primer factor explica la mayor parte de la varianza total, el 2º explicaría la mayor parte de la varianza restante.

28

COMUNALIDAD/especificidad o unicidad• Comunalidad: proporción de la varianza explicada de una variable

por el conjunto de los factores comunes.

Proporción de varianza que puede ser explicada por el modelo factorial obtenidoPodemos ver cuales son las variables mejor o peor explicadas

• Especificidad parte de la varianza debida a los factores únicos

• El problema que se plantea en AF es la estimación de los coeficientes llamados cargas factoriales, es decir pesos de los distintos factores en la estimación de la comunalidad de cada variable

29

EJES PRINCIPALES. 2ª FASE• Se centra en el análisis factorial común. Los factores que resultan se

basan en la varianza común

• Las comunalidades son menores (CP) en la 1ª extracción y obedece a la menor varianza total explicada

• La varianza común inicial es desconocida y debe estimarse: correlación múltiple al cuadrado

• La varianza total explicada no es igual al nº de variables sino que será igual a la suma de los valores de la diagonal principal de la matriz de correlaciones reproducidas.

• EJEMPLO: ocde CON EJES PRINCIPALES

30

EJES PRINCIPALES

• La varianza total explicada en 2ª extracción no es igual a la inicial y obedece a que la estructura factorial ha cambiado porque la forma de obtener la comunalidad inicial y la de extracción es diferente y ésta última depende del nº de factores.

• Es un método iterativo. En algunas ocasiones no permite llegar a unas estimaciones adecuadas debido a problemas de convergencia que plantean dichos métodos, sobre todo en muestras pequeñas.

Iterativo: Se ejecuta repetitivamente hasta alcanzar la solución idónea

• Cuando el nº de variables excede de 30, el tamaño de la muestra está en torno a 300 y la varianza compartida excede de 0,60 para la mayoría de variables los resultados del análisis de componentes principales y de Ejes Principales son iguales

31

MATRIZ DE COMPONENTES/ MATRIZ DE ESTRUCTURA FACTORIAL

• Contiene las correlaciones entre las variables originales (o saturaciones) y cada uno de los factores.

• Esta matriz cambia de denominación en función del método de extracción elegido

32

FASES DEL ANALISIS FACTORIAL• 1.-Cálculo de una matriz capaz de expresar la variabilidad conjunta de todas las variables (m.

correlaciones)

• 2.-Extracción de un nº óptimo de factores:• Criterios

• Revisión de autovalores

• Métodos principales para extraer factores: diferencias y revisión de comunalidad

• 3.-Rotación de la solución para facilitar su interpretación

• Estadísticos asociados a Matriz de Correlaciones

• 4.-Estimación de las puntuaciones de los sujetos/casos en las nuevas dimensiones

• Ejemplo OCDE ,ir a SPSS y mostrar pasos

33

ROTACION. 3ª FASE

• El efecto último de rotar la matriz de factores es redistribuir la varianza de los primeros factores a los últimos para lograr un patrón de factores más simple, más significativo y más fácil de interpretar (en la solución inicial cada uno de los factores comunes están correlacionados en mayor o menor medida con cada una de las variables originales).

• Cada una de las variables originales tengan una correlación lo más próximo a 1 con uno de los factores y correlaciones próximas a 0 con el resto de factores

34

35

METODOS DE ROTACIÓN.3ª FASE

• VARIMAX minimiza el nº de variables que tienen saturaciones altas en cada factor, es decir simplifica la columnas

• QUARTIMAX: minimiza el nº de factores necesarios para explicar cada variable. Simplifica la interpretación de los factores optimizando la solución por filas

Las variables con mayores comunalidades tienen mayor influencia en la solución final (normalización de Kaiser)Normalización de Kaiser: consiste en dividir cada carga factorial al cuadrado por la comunalidad de la variable

• Con estos métodos de rotación lo que cambia es el valor de las cargas factoriales y el % de varianza total explicada por cada factor

• Ejemplo OCDE

36

ESTADISTICOS ASOCIADOS a Matriz CORRELACIONES. DESCRIPTIVOS I y II

• Niveles de significación: niveles críticos unilaterales asociados a cada coeficiente. Nivel menor de 0,05 es lo que interesa

• Determinante: próximo a 0 indican que las variables están relacionadas AF es una técnica pertinente. Si es muy bajo significa que hay variables con interrelaciones muy altas

• Reproducida: contiene las correlaciones que es posible reproducir utilizando la información contenida en la solución factorial hallada

• Residual: diferencias entre las correlaciones observadas y las reproducidas. Si el modelo es correcto, el nº de residuos con valores elevados debe ser mínimo

37

ESTADISTICOS ASOCIADOS A MATRIZ DE CORRELACIONES. DESCRIPTIVOS II

• KMO compara la magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de correlación parcial. Debe tomar un valor próximo a 1. Los menores de 0,5 indican que no de be emplearse el AF con los datos muestrales empleados poner formula

• PRUEBA ESFERICIDAD DE BARTLETT asumiendo que los datos provienen de una distribución normal multivariante, el estadístico B. se distribuye según el modelo de chi-cuadrado. Si el nivel de significación es mayor de 0,05 no podremos asegurar que el modelo

factorial es adecuado para explicar los datos.

38

KMO y prueba de Bartlett

,562

77,787

21

,000

Medida de adecuación muestral de

Kaiser-Meyer-Olkin.

Chi-cuadrado

aproximado

gl

Sig.

Prueba de esfericidad

de Bartlett

39

FASES DEL ANALISIS FACTORIAL• 1.-Cálculo de una matriz capaz de expresar la variabilidad conjunta de todas las variables (m.

correlaciones)

• 2.-Extracción de un nº óptimo de factores:• Criterios

• Revisión de autovalores y comunalidad

• Métodos principales para extraer factores: diferencias

• 3.-Rotación de la solución para facilitar su interpretación• Estadísticos asociados a Matriz de Correlaciones

• 4.-Estimación de las puntuaciones de los sujetos/casos en las nuevas dimensiones

• Ejemplo OCDE ,ir a SPSS y mostrar pasos

40

PUNTUACIONES. 4º FASE

• Son puntuaciones de los sujetos en cada uno de los factores resultantes de la extracción a fin de valorar la situación relativa de cada caso/sujeto

• Equivalen a las cargas factoriales ?

41

Puntuaciones de los factores.4fase

• Son estimaciones• Regresión es el método más generalizado. Tiene una varianza = al cuadrado de la

correlación múltiple entre las puntuaciones estimadas y los valores factoriales verdaderosNo es = a 1. Cuando se utiliza CP las puntuaciones F. no son estimadas sino calculadas a partir de las variables originales

• Las puntuaciones factoriales de los casos dependerá del método de extracción, el método de rotación elegido y el método de estimación de las puntuaciones factoriales

• Las puntuaciones positivas son puntuaciones mayores que la media, las negativas son menores que la media y las puntuaciones de 0 corresponden a una p. factorial igual a la media.

• Ejemplos poner OCDE y Cataluña mapa