Analisis Multivariante

41
UNIVERSIDAD NACIONAL UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS MAYOR DE SAN MARCOS FACULTAD DE CIENCIAS MATEMÁTICAS FACULTAD DE CIENCIAS MATEMÁTICAS ( ( Universidad del Perú, DECANA DE AMERICA) Universidad del Perú, DECANA DE AMERICA) Mg. María Estela Ponce Aruneri Mg. María Estela Ponce Aruneri ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ACADÉMICO PROFESIONAL DE ESTADÍSTICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA SEMESTRE 2009-II

description

Presentación Analisis Multivariante

Transcript of Analisis Multivariante

  • UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

    FACULTAD DE CIENCIAS MATEMTICAS

    (Universidad del Per, DECANA DE AMERICA)Mg. Mara Estela Ponce Aruneri ESCUELA ACADMICO PROFESIONAL DE ESTADSTICADEPARTAMENTO ACADMICO DE ESTADSTICA SEMESTRE 2009-II

  • QU ES EL ANLISIS MULTIVARIANTE?

    Es el conjunto de mtodos estadsticos cuya finalidad es analizar simultneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para cada individuo objeto estudiado.Su razn de ser radica en un mejor entendimiento del fenmeno objeto de estudio obteniendo informacin que los mtodos estadsticos univariantes y bivariantes no pueden proporcionar.

  • As, como Hair et al. (1999) dicen:Las mujeres y hombres de negocios de hoy no pueden seguir aproximaciones ya pasadas en las que los consumidores eran considerados homogneos y caracterizados por un nmero pequeo de variables demogrficas. En su lugar, deben desarrollar estrategias que atraigan a numerosos segmentos de clientes con caractersticas demogrficas y psicogrficas diversas en un mercado con mltiples restricciones (legales, econmicas, competitivas, tecnolgicas, etc). Slo a travs del anlisis multivariante las relaciones mltiples de este tipo podrn ser examinadas adecuadamente para obtener un entendimiento ms completo y real del entorno que permita tomar las decisines ms adecuadas.

  • Es una metodologa estadstica sofisticada, mucho ms potente, que utiliza los mtodos del lgebra lineal, matricial, clculo numrico, geometra lineal, entre otras.

    Los mtodos de anlisis multivariante se diferencian unos de otros, segn su rea de aplicacin se refiera a una o ms problemas y segn se requiera uno o ms grupo de variables.

  • Objetivos del Anlisis Multivariante

    Pueden sintetizarse en dos:1) Proporcionar mtodos cuya finalidad es el estudio conjunto de datos multivariantes que el anlisis estadstico uni y bidimensional no pueden conseguir.

    2) Ayudar al analista o investigador a tomar decisiones ptimas en el contexto en el que se encuentre teniendo en cuenta la informacin disponible por el conjunto de datos analizado.

  • TIPOS DE TECNICAS MULTIVARIANTES

    Se pueden clasificar en tres grandes grupos:

    1)Mtodos de dependencia Suponen que las variables analizadas estn divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los mtodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qu forma.2) Mtodos de interdependencia Estos mtodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qu variables estn relacionadas, cmo lo estn y por qu.3) Mtodos estructurales Suponen que las variables estn divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos mtodos es anlizar, no slo como las variables independientes afectan a las variables dependientes, sino tambin cmo estn relacionadas las variables de los dos grupos entre s.

  • CLASIFICACIN DE LAS TCNICAS MULTIVARIANTES

    El tipo de relacin que est siendo examinadas es de:

    Dependencia

    Interdependencia.La estructura de la relacin es entre:

    Variables.C.P.Anlisis FactorialModelos loglineal.Casos.Anlisis Cluster

    Objetos.Escalamiento multidimensional.Anlisis de Corresponden -cias

    una Variabledependiente

    Varias Variablesdependientes

    Mtrica. Regresin Mltiple. Anlisis de supervivencia.

    No mtrica.Anlisis Discriminante.Modelos de Regresin Logstica.Anlisis Conjunto.

    Mtricas.Manova.Correlacin Cannica.

  • FASES PRINCIPALES DE UNA INVESTIGACIN MULTIVARIANTE Definir el problema de Investigacin Objetivos; diseo e hiptesis Tcnica Multivariante a utilizar.

    Desarrollo del Proyecto de Anlisis

    Evaluacin de los supuestos de la Tcnica Multivariante

    Estimacin del modelo Multivariante. Valoracin del Ajuste del Modelo.

    Interpretacin de los valores Tericos

    Validacin del Modelo Multivariante

  • APLICACIONES DE LAS TCNICAS MULTIVARIANTES

    MedicinaEvaluar la presencia o ausencia de determinados sntomas clnicos para diagnosticar la enfermedad de un paciente (anlisis discriminante).Para estimar la probabilidad de que la sintomatologa de una determinada enfermedad reaparezca antes de un perodo determinado, conocidos el tiempo de respuesta al tratamiento y los distintos hbitos del paciente, (Regresin logstica).Se tabula las frecuencias de ciertos estmulos y sus respuestas. Interesa obtener una representacin bidimensional de las correspondencias entre estmulos y respuestas (Anlisis Factorial de Correspondencia).

  • Biologa:

    Se miden diferentes variables biomtricas en los individuos de una misma especie. Se desea detectar componentes de tamao y forma (Anlisis de Componentes Principales).

    Las observaciones de p variables biomtricas representativas de los individuos de una especie, se obtienen para estudiar la variabilidad entre diferentes especies o razas geogrficas (Anlisis Cannicos).

  • Sociologa:

    Con referencia a determinadas caractersticas sociales, polticas y geogrficas se mide la similaridad de un grupo de naciones. (Escalamiento Multdimensional).

    Psicologa:

    Los resultados de un test de inteligencia de n tems basados en una muestra. Para detectar los factores de la inteligencia (Anlisis Factorial).

  • Investigacin de Mercados:

    1.Se quiere determinar los beneficios subyacentes que buscan los consumidores en la compra de una pasta dental. (Anlisis Factorial).

    2. Para el anlisis de percepciones y preferencias del consumidor (Escalamiento Multidimensional).

  • TAREA

    El estudiante realizar un resumen sobre las clases de variable y los tipos de escala de medida, con sus respectivos ejemplos.

  • MATRIZ DE DATOSLlamaremos X a la matriz de datos y xij a su elemento genrico que representa el valor de la variable j sobre el individuo i. donde i = 1, ..., n y j = 1, ..., p.La matriz de datos X tendr dimensiones n p y puede representarse de dos formas distintas. Por filas como:donde cada variable Xi es un vector fila p 1 que representa los valores de las p variables sobre el individuo i.

  • Alternativamente podemos representar la matriz X por columnas:donde ahora cada variable Xj es un vector columna n 1 que representa la variable j, medida en los n elementos de la poblacin.

  • ESTADSTICOS MULTIVARIADOS Vector de Medias muestralEs la medida de centralizacin ms utilizada para describir datos multivariantes, tiene dimensin p y recoge las medias de cada una de las p variables.Se calcula fcilmente mediante:

  • Ejemplo: Se obtuvo la siguiente informacin de un grupo de PEC que atienden a nios y nias de cero a dos aos, mediante una ficha de observacin de desempeo en el aula en la regin de Apurimac.

  • Matriz de varianzas-covarianzas muestral, es una medida de dispersinLa variabilidad de los datos y la informacin relativa a las relaciones lineales entre las variables se resumen en la matriz de varianzas y covarianzas. Esta matriz es cuadrada y simtrica de orden p, donde los trminos diagonales son las varianzas y los no diagonales, las covarianzas entre las variables. Llamando S a esta matriz, tendremos que, por definicin:

  • Se calcula:EJEMPLO:Tarea: Qu es una matriz definida positiva?

  • MEDIDAS GLOBALES DE VARIABILIDAD

    1)Varianza Total, es una medida global de dispersin para un conjunto de variables medidas en escala mtrica.2)Varianza media, es una medida de dispersin promedio de un conjunto de variables medidas en escala mtrica.Inconveniente: no considera la estructura de dependencia de las variables y las unidades de medida de las variables.

  • Ejemplos

  • 3) Varianza Generalizada Una medida global escalar de la variabilidad conjunta de k variables es la varianza generalizada, que es el determinante de la matriz de varianzas y covarianzas. Su raz cuadrada se denomina desviacin tpica generalizada, y tiene las propiedades siguientes: Est bien definida, ya que el determinante de la matriz de varianzas y covarianzas es siempre mayor o igual que 0.

    (ii) Es una medida del rea (para p = 2), volumen (para p = 3) o hipervolumen (para k > 3) ocupado por el conjunto de datos.

  • Interpretacin geomtrica:Cuando p =2

  • La varianza generalizada en pObservacin:No es til para comparar conjuntos de datos con diferentes nmeros de variables.Debido a que la VG se incrementa o decrece montonamente al incrementar el nmero de variables.

  • 4) Varianza Efectiva, Pea y Rodrguez (2003) propusieron la siguiente medida global de variabilidad:No presenta los inconvenientes de la varianza generalizada.

  • EJEMPLO

  • Variabilidad y DistanciasDados dos vectores xk , xl p , la funcin d es una distancia o mtrica con las siguientes propiedades:i) d: p x p + ; es decir d(xk , xl )0ii) d(xk , xk )= 0iii) d(xk , xl ) = d(xl , xk )iv) d(xk , xl ) = d(xk , xm ) + d(xm , xl ) (desigualdad triangular)

  • Una familia de medidas de distancias muy conocidas en p son las distancias de Minkowski:Cuando r =2 se tiene la distancia eucldea, que es la ms utilizada, pero depende de las unidades de medida.

    Ejemplo: Para los datos de las PEC

  • Para eliminar el efecto de las unidades de medida de las variables se utiliza la familia de mtricas eucldeas ponderadas:

  • M es una matriz diagonal, aunque no es necesario, pero debe ser no singular y definida positiva.1) Distancia de Mahalanobis, se define como:Esta libre de unidades de medidas y mide la distancia de cada individuo con respecto a su vector de medias.

    EJEMPLO:Consideremos las primeras cuatro variables de las PEC

  • d1 = 1,3128d2 =1,7670d3 = 1,9849d4 =1,9535d5=1,8501d6 =1,9939Los resultados de las Distancias de mahalanobis son:

  • Medidas de Dependencia linealPermite evaluar la estructura de dependencia entre las variables bajo estudio.Matriz de Correlacin; el grado de asociacin lineal entre dos variables se estudia mediante el coeficiente de correlacin simple.R es una matriz simtrica, cuadrada y definida positiva.

  • Ejemplo:

  • 2) Correlacin Mltiple, permite evaluar el grado de asociacin de una variable j con el resto de variables. Para calcular, seguir los siguientes pasos:Tomar el j-simo elemento de la diagonal de la matriz de varianza-covarianzas, al que se denotara por sjj.

    Tomar el j-simo elemento de la diagonal de la inversa de la matriz de varianza-covarianzas, al que se denotara por sjj.R1 = 0.9584R2 =0.9379R3 = 0.9263 R4=0.9139

  • 3) Correlaciones Parciales; mide el grado de asociacin entre dos variables controlando el efecto de las otras variables.Trabajamos con la matriz inversa de la matriz de varianzas-covarianzas.EJEMPLO:

  • 4)Coeficiente de Dependencia efectiva; es una medida global de la dependencia de los datos:Si las variables estn todas incorrelacionadas, se tiene que R= 1 y si las variables estn correlacionadas R= 0 Ejemplo: Para las 4 variables medidas a las PEC, se tiene : CDE = 0.8009Globalmente la dependencia lineal explica el 80.09% de la variabilidad de los puntajes de las variables consideradas.

  • 5) Matriz de precisin, es la inversa de la matriz de varianzas-covarianzas, y contiene la siguiente informacin:Los elementos fuera de la diagonal (sij) son los elementos de esta matriz.; y es el cociente del coeficiente de regresin de la variable j para explicar i y la varianza residual de la regresin.En la diagonal se encuentran las inversas de las varianzas residuales de la regresin de cada variable conel resto de ellas.Si se estandarizan los elementos de esta matriz , los elementos fuera de la diagonal son las correlaciones parciales.

  • Ejemplo:

  • Bibliografa[1] ANDERSON T.W.: An Introduction to Multivariate Analysis. 2nd Edition. John Wiley & Sons.[2] BERNARD FLURY. 1997. A First Course in Multivariate Statistics. Editorial Springer Verlag. New York Inc.[3] CASTRO POSADA. 2000. Estadstica Multivariante. Anlisis de Correlaciones Amaru Ediciones Melendez 21. Salamanca. Espaa.[4] CARLES M. CUADRAS, 2007. Nuevos Mtodos de Anlisis Multivariante . CMC EDITIONS. Espaa[5] DANIEL PEA, 2002. Anlisis de Datos Multivariados. McGRAW-HILL/ Interamericana de Espaa.[6] URIEL, EZEQUIEL, ALDAS JOAQUIN. 2005 Anlisis Multivariante Aplicado. Editorial Thompson Editores. Espaa.7] JOHNSON, R.; WICHERN, D. 1982. Applied Multivariate Statistical Analysis. Editorial Prentice Hall Inc.Englewood Cliffs. New Jersey.[8] MARDIA, KENT AND BIBBY. 1982. Multivariate Analysis. Academic Press. London.

    Textos de Consulta:

    [1] DALLAS E. JOHNSON. 2000. Mtodos Multivariados Aplicados al Anlisis de Datos. International Thomson Editores.[2] HAIR J., ANDERSON R., TATHAM R., BLACK W. 2001. Anlisis Multivariante. Prentice Hall.