Material Estadística-Análisis Bivariante.pdf

24
SEMINARIO DE ESTADISTICA II ANÁLISIS BIVARIANTE 1

description

analisis multivaiante

Transcript of Material Estadística-Análisis Bivariante.pdf

SEMINARIO DE ESTADISTICA II

ANÁLISIS BIVARIANTE

1

ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

Dados N individuos, en cada uno medimos dos variables, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .

Tabulaciones posibles:

a) Tabulación en dos columnas(o en dos filas)

X Y

x1 y1

x2 y2

. .

. .

. .

xN yN

2

X X1 X2 . . . XN

Y y1 y2 . . . Y N

ESTADISTICA DESCRIPTIVA BIDIMENSIONAL

Sean N individuos ; en cada uno medimos dos variables, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .

b) Tabla de doble entradaoTabla de Contingencia

Consideramos los valores, clases

o niveles que pueden presentar las variables X e Y :

• la variable X : r• la variable Y : c

Se organizan los datos en una

tabla de doble entrada

3

B1 B2 B3 . . . Bj . . . Bc

A1 n11 n12 n13 . . . n1j . . . n1c n1.

A2 n21 n22 n23 . . . n2j . . . n2c n2.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ai ni1 ni2 ni3 . . . nij . . . nic ni.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ar nr1 nr2 nr3 . . . nrj . . . nrc nr.

n.1 n.2 n.3 n.j n.c N

4

B1 B2 B3 . . . Bj . . . Bc

A1 n11 n12 n13 . . . n1j . . . n1c n1.

A2 n21 n22 n23 . . . n2j . . . n2c n2.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ai ni1 ni2 ni3 . . . nij . . . nic ni.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ar nr1 nr2 nr3 . . . nrj . . . nrc nr.

n.1 n.2 n.3 n.j n.c N

nij =frecuencia

absoluta de

la clase

conjunta

Ai x Bj

ni. =

frecuencia

absoluta de

la clase Ai

n.j =

frecuencia

absoluta de

la clase Bj

ESTADISTICA DESCRIPTIVA

BIDIMENSIONAL

B1 B2 B3 . . . Bj . . . Bc

A1 f11 f12 f13 . . . f1j . . . f1c f1.

A2 f21 f22 f23 . . . f2j . . . f2c f2.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ai fi1 fi2 fi3 . . . fij . . . fic fi.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ar fr1 fr2 fr3 . . . frj . . . frc fr.

f.1 f.2 f.3 f.j f.c 1

fij= nij / Nfrecuencia

relativa de

la clase

conjunta

Ai x Bj

fi.= ni. / Nfrecuencia

relativa de

la clase Ai

f.j= n.j / N frecuencia

relativa de la

clase Bj

ESTADISTICA DESCRIPTIVA

BIDIMENSIONAL

a) nij = frecuencia absoluta conjunta de la clase Ai x Bj

b) ni. = ni1 + ni2+… + nij + … + nic = frecuencia absoluta marginal de la clase Ai de la variable X

c) n.j = n1j + n2j+… + nij + … + nrj = frecuencia absoluta marginal de la clase Bj de la variable Y

d) fij = nij /N = frecuencia relativa conjunta de la clase Ai x Bj

e) fi. = ni. /N = frecuencia relativa marginal de la claseAi de la variable X

f) f.j = n.j /N = frecuencia relativa marginal de la clase Bj de la variable Y

6

ESTADISTICA DESCRIPTIVA

BIDIMENSIONAL

MEDIDAS DE ASOCIACIÓN

ENTRE VARIABLES CUANTITATIVAS

7

RELACION ENTRE DOS VARIABLES CUANTITATIVAS

Dados N individuos, en cada uno medimos dos variables cuantitativas, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .

Representación gráfica mas usual : diagrama de dispersión o nube de puntos( ejemplo: tomamos el peso y altura de 10 individuos)

64

65

66

67

68

69

70

71

100 110 120 130 140 150 160 170 180

Yaltura

X peso

X = Peso Y = Altura

x1=118 y1=64,5

x2=147 y2=65,0

x3=146 y3=69,0

x4=138 y4=64,5

x5=175 y5=66,0

x6=118 y6=64,5

x7=155 y7=70,5

x8=146 y8=66,0

x9=135 y9=68,0

x10=127 y10=68,58

RELACION ENTRE DOS VARIABLES CUANTITATIVAS

Dados N individuos , en cada uno medimos dos variables cuantitativas, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .

Covarianza de X e Y: (considerando las frecuencias absolutas)

Sxy

Propiedades de la Covarianza:

1. Viene medida en “el producto de las unidades de medidas en que se miden lasvariables X e Y “

2. Si hacemos una transformación lineal en las variables X e Y de la forma:Zi = a + b Xi

Wi= c + d Yi

3. Sx2 = Sxx ; Sy

2 = Syy

N

yyxxN

ii

1

N

nyyxxK

iii

1

N

yxN

ii 1

.

x yN

niyxK

ii 1

..

x y

Se verifica que SZW = b d SXY

9

EJEMPLO:

Xi = peso Yi = altura (xi- ) (yi - ) (xi- )(yi - ) (xi- )2 (yi - )2

118 64,5 -22,5 -2,15 48,375 506,25 4,6225

147 65,0 6,5 -1,65 -10,725 42,25 2,7225

146 69,0 5,5 2,35 12,925 30,25 5,5225

138 64,5 -2,5 -2,15 5,375 6,25 4,6225

175 66,0 34,5 -0,65 -22,425 1190,25 0,4225

118 64,5 -22,5 -2,15 48,375 506,25 4,6225

155 70,5 14,5 3,85 55,825 210,25 14,8225

146 66,0 5,5 -0,65 -3,575 30,25 0,4225

135 68,0 -5,5 1,35 -7,425 30,25 1,8225

127 68,5 -13,5 1,85 -24,975 182,25 3,4225

1405 666,5 101,75 2734,5 43,025

x x xy y y

Sxy = 10,175 Sx2 = 273,45 Sy

2 = 4,30

Sx = 16,54 Sy = 2,07

yx = 140,5 = 66,65

10

N=10

RELACION ENTRE DOS VARIABLES CUANTITATIVAS

Dados N individuos; en cada uno medimos dos variables cuantitativas, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .

Coeficiente de Correlación:

rxy

Propiedades del Coeficiente de Correlación:1. Es la covarianza de las variables tipificadas2. 0 r2 1 ; -1 r 1

Cuanto mayor sea |r| , mas intensa es la asociación : Si r = 1 asociación lineal perfecta y directaSi r = -1 asociación lineal perfecta e inversaSi r = 0 no existe asociación lineal entre las variables

yx

N

ii

SS

Nyyxx

.

1

/

yx

xy

SS

S

.

N

S

yy

S

xxN

y

i

x

i

1

3. La correlación mide únicamente la intensidad de la asociación lineal entre las variables ( puede ser rxy=0 y existir relación funcional entre X e Y ) 11

RELACION ENTRE DOS VARIABLES CUANTITATIVAS

EJEMPLOS:a) r=1

X Y r =1

0 2 yi= 2 + 3xi

1 5

4 14

10 32

0

5

10

15

20

25

30

35

0 5 10 15

b) r = -1X Y r = -1

0 10 yi= 10 – 2xi

1 8

2 6

5 0

0

2

4

6

8

10

12

0 2 4 6

12

RELACION ENTRE DOS VARIABLES CUANTITATIVAS

Dados los valores que toman las variables en los N individuos, tratamos de encontraruna recta que proporcione el mejor ajuste lineal a la nube de puntos.

X Y

X1 Y1

X2

X3

..

XN

Y2

Y3

..

YN

Recta de regresión de Y sobre X: Y= a + bX

Valores de los parámetros, a y b que hacen que el ajuste de la nube de puntos sea óptimo.

• El parámetro b de la recta y = a + b x es la pendiente de la recta y mide la variación producida en la variable Y cuando la variable X aumenta en una unidad.

• El parámetro a de la recta y = a + b x es la ordenada en el origen y mide el valor de la variable Y cuando la variable X toma el valor 0.

Estimación de los parámetros de la recta de regresión de Y sobre X:

b a= - b2

x

xy

S

S

x

y

S

Sr y x

13

RELACION ENTRE DOS VARIABLES CUANTITATIVAS

Residuo o error:a) Para cada individuo i, tenemos:

• un valor xi de la variable X

• un valor yi de la variable Y

• un valor estimado de la variable Y, obtenido de la relación = a + b xi

• un error cometido, también llamado residuo, dado por ei = (yi - )

b) Los coeficientes a y b obtenidos anteriormente son los que hacen que la suma de los errores al cuadrado, , sea mínima

iy

iy

iy

2ie

Varianza residual:a) Si de un individuo no tenemos ningún tipo de información y tratamos de predecir el

valor , y0 , que toma la variable Y en él, la mejor estimación que podemos hacer es asignar a y0 el valor .

a) El error que cometemos viene dado por la varianza de Y, Sy2 .

b) Si tenemos información del valor que toma la variable X en ese individuo, x0 , podemos hacer un pronóstico mejor para el valor y0, asignándole el valor y0 = a + b x0. El error que

cometemos ahora será menor, y vendrá dado por lo que se conoce como varianza residual. Su expresión es: SRY

2 = (1-r2 ) Sy2.

.

y

14

RELACION ENTRE DOS VARIABLES CUANTITATIVAS

Dados los valores que toman las variables en los N individuos, tratamos de encontraruna recta que proporcione el mejor ajuste lineal a la nube de puntos.

X Y

X1 Y1

X2

X3

..

XN

Y2

Y3

..

YN

Recta de regresión de X sobre Y: X= a’ + b’ Y

Valores de los parámetros, a’ y b’ que hacen que el ajuste de la nube de puntos sea óptimo.

• El parámetro b’ de la recta x = a’ + b’ y es la pendiente de la recta y mide la variación producida en la variable X cuando la variable Y aumenta en una unidad.

• El parámetro a’ de la recta x= a’ + b’ y es la ordenada en el origen y mide el valor de la variable X cuando la variable Y toma el valor 0.

Estimación de los parámetros de la recta de regresión de Y sobre X:

b’ a’= - b’2

y

xy

S

S

y

x

S

Sr yx

15

EJEMPLO:

Regresión de la variable altura, Y, sobre la variable peso, X, en 10 individuos.

Xi = peso Yi = altura (xi- ) (yi- ) (xi- )(yi- ) (xi- ) 2 (yi- )2

118 64,5 -22,5 -2,15 48,375 506,25 4,6225

147 65,0 6,5 -1,65 -10,725 42,25 2,7225

146 69,0 5,5 2,35 12,925 30,25 5,5225

138 64,5 -2,5 -2,15 5,375 6,25 4,6225

175 66,0 34,5 -0,65 -22,425 1190,25 0,4225

118 64,5 -22,5 -2,15 48,375 506,25 4,6225

155 70,5 14,5 3,85 55,825 210,25 14,8225

146 66,0 5,5 -0,65 -3,575 30,25 0,4225

135 68,0 -5,5 1,35 -7,425 30,25 1,8225

127 68,5 -13,5 1,85 -24,975 182,25 3,4225

1405 666,5 101,75 2734,5 43,025

x x xy y y

Sxy = 10,175 Sx2 = 273,45 Sy

2 = 4,30

Sx = 16,54 Sy = 2,07

yx

r =Sxy / SxSy = 0,297

b = Sxy / Sx2 = 0,037= r Sy / Sx

a = 61,4

y = 0,037x + 61,42R² = 0,088

60

65

70

100 125 150 175 200

Alt

ura

Peso

= 140,5 = 66,65

16

MEDIDAS DE ASOCIACIÓN

ENTRE VARIABLES CUALITATIVAS

17

18

B1 B2 B3 . . . Bj . . . Bc

A1 n11 n12 n13 . . . n1j . . . n1c n1.

A2 n21 n22 n23 . . . n2j . . . n2c n2.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ai ni1 ni2 ni3 . . . nij . . . nic ni.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ar nr1 nr2 nr3 . . . nrj . . . nrc nr.

n.1 n.2 n.3 n.j n.c N

nij =frecuencia

absoluta de

la clase

conjunta

Ai x Bj

ni. =

frecuencia

absoluta de

la clase Ai

n.j =

frecuencia

absoluta de

la clase Bj

ESTADISTICA DESCRIPTIVA

BIDIMENSIONAL

B1 B2 B3 . . . Bj . . . Bc

A1 f11 f12 f13 . . . f1j . . . f1c f1.

A2 f21 f22 f23 . . . f2j . . . f2c f2.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ai fi1 fi2 fi3 . . . fij . . . fic fi.

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

Ar fr1 fr2 fr3 . . . frj . . . frc fr.

f.1 f.2 f.3 f.j f.c 1

fij= nij / Nfrecuencia

relativa de

la clase

conjunta

Ai x Bj

fi.= ni. / Nfrecuencia

relativa de

la clase Ai

f.j= n.j / N frecuencia

relativa de la

clase Bj

ESTADISTICA DESCRIPTIVA

BIDIMENSIONAL

a) nij = frecuencia absoluta conjunta de la clase Ai x Bj

b) ni. = ni1 + ni2+… + nij + … + nic = frecuencia absoluta marginal de la clase Ai de la variable X

c) n.j = n1j + n2j+… + nij + … + nrj = frecuencia absoluta marginal de la clase Bj de la variable Y

d) fij = nij /N = frecuencia relativa conjunta de la clase Ai x Bj

e) fi. = ni. /N = frecuencia relativa marginal de la claseAi de la variable X

f) f.j = n.j /N = frecuencia relativa marginal de la clase Bj de la variable Y

20

g) fi/j = nij /f.j = frecuencia relativa de Ai

condicionada a que Y tome el valor Bj

h) fj/i= nij /fi. = frecuencia relativa de Bj

condicionada a que X tome el valor Ai

Independencia de las variables X e Y:

X e Y son independientes si para todo i=1…r y para todo j=1…c se verifica que:

nij = ni. * n.j / N o de forma equivalente si fij = fi. * f.j

(es decir: si las frecuencias relativas conjuntas son iguales al producto de las correspondientes frecuencias relativas marginales)

21

Medidas de asociación:

• Se trata de comparar las frecuencias observadas, nij ,

con las que se obtendrían si las variables fueran

independientes : ňij= ni. * n.j / N

• Para ello se define la Ji- cuadrado ó Chi-cuadrado Χ2

22

RELACION ENTRE DOS VARIABLES

CUALITATIVAS

Χ2=

a)Χ2 ≥ 0b)Χ2 = 0 indica independencia de X e Yc) Cuanto mayor es el valor de la Χ2 , mayor es la intensidad de la

relaciónd) Inconveniente: se desconoce el límite superior del valor Χ2

Ejemplo: X=Variable fumador: A1=Si, A2=No

Y= Variable sexo: B1= Hombre, B2=Mujer

23

RELACION ENTRE DOS VARIABLES

CUALITATIVAS

Hombre Mujer Marginal

Si n11= 65 n12=58 n1.=123

No n21=43 n22=67 n2.=110

Margi

nal

n.1=108 n.2=125 N=233

Hombre Mujer

Si f11= 0,28 f12= 0,25 f1.= 0,53

No f21= 0,18 f22=0,29 f2.=0,47

Margi

nalf.1=0,46 f.2=0,54 1

Hombre Mujer Marginal

Si ň11= 57 ň12=66 n1.=123

No ň21=51 ň22=59 n2.=110

Margi

nal

n.1=108 n.2=125 N=233

Χ2= +=

+ + =

= 4,42

+

Medidas de asociación:

Desde un punto de vista descriptivo, para suplir el hecho de que, en general, se desconoce el limite superior del valor de la Χ2, se definen diferentes índices de asociación, basados en la que permiten interpretar la magnitud de los valores obtenidos:

• Coeficiente “Phi” = φ = que en tablas 2x2 varía ente 0 y 1

• Coeficiente V de Cramer

• Coeficiente de Contingencia C de Pearson

• Coeficiente Lambda

24

RELACION ENTRE DOS VARIABLES

CUALITATIVAS

Χ2