Análisis de Regresion y Análisis de Varianza (1)

14
ANÁLISIS DE REGRESION Y ANÁLISIS DE VARIANZA El análisis de varianza lo vamos a utilizar para verificar si hay diferencias estadísticamente significativas entre medias cuando tenemos más de dos muestras o grupos en el mismo planteamiento. En estos casos no utilizamos la t de Student que solamente es un procedimiento válido cuando comparamos únicamente las medias de dos muestras. Como explicaremos más adelante, cuando tenemos más de dos muestras y comparamos las medias de dos en dos suben las probabilidades de error al rechazar la hipótesis de no diferencia porque queda suficientemente explicada por factores aleatorios (error muestral). En primer lugar recordamos qué es la varianza y qué nos cuantifica. La fórmula de la varianza ya nos es conocida; es la desviación típica elevada al cuadrado: La prueba a realizar es de sí existe diferencia en los promedios para la los diferentes valores de las variables nominales; esta prueba se realiza para variables donde una tiene valores nominales y la otra tiene valores numéricos. En el siguiente ejemplo, se tiene la calificación de una prueba a personas con diferentes grados de escolaridad, lo que se intenta es probar si existe o no diferencia entre el grado escolar (variable nominal ) y el promedio de la calificación ( variable numérica ).

Transcript of Análisis de Regresion y Análisis de Varianza (1)

ANLISIS DE REGRESION Y ANLISIS DE VARIANZA

El anlisis de varianza lo vamos a utilizar para verificar si hay diferencias estadsticamente significativas entre medias cuando tenemos ms de dos muestras o grupos en el mismo planteamiento. En estos casos no utilizamos la t de Student que solamente es un procedimiento vlido cuando comparamos nicamente las medias de dos muestras. Como explicaremos ms adelante, cuando tenemos ms de dos muestras y comparamos las medias de dos en dos suben las probabilidades de error al rechazar la hiptesis de no diferencia porque queda suficientemente explicada por factores aleatorios (error muestral). En primer lugar recordamos qu es la varianza y qu nos cuantifica. La frmula de la varianza ya nos es conocida; es la desviacin tpica elevada al cuadrado:

La prueba a realizar es de s existe diferencia en los promedios para la los diferentes valores de las variables nominales; esta prueba se realiza para variables donde una tiene valores nominales y la otra tiene valores numricos.En el siguiente ejemplo, se tiene la calificacin de una prueba a personas con diferentes grados de escolaridad, lo que se intenta es probar si existe o no diferencia entre el grado escolar (variable nominal ) y el promedio de la calificacin ( variable numrica ).

Por qu utilizamos el anlisis de varianza en vez de la t de Student Cuando tenemos dos muestras y queremos comprobar si difieren significativamente (si proceden de la misma poblacin con una nica media) utilizamos la t de Student. Cuando tenemos ms de dos grupos utilizamos el anlisis de varianza: No podramos comparar todos los grupos de dos en dos con la t de Student? A primera vista parecera lo ms lgico, sin embargo no se hace as por una serie de razones que exponemos a continuacin. 1 La razn ms importante (y suficiente) para no utilizar la t de Student con ms de dos grupos es que, al hacer muchas comparaciones de dos en dos, aumenta la probabilidad de que algunas diferencias resulten significativas por azar y entonces cabe la posibilidad de afirmar que hay una diferencia (de no aceptar la hiptesis nula) cuando realmente no la hay. Si por ejemplo tenemos tres grupos podramos hacer tres comparaciones: entre el 1 y el 2, entre el 1 y el 3 y entre el 2 y el 3. Operando con un nivel de confianza de = .05, la probabilidad de encontrar al menos una diferencia significativa por azar es de hecho del 9.75% y no del 5% (no es importante el entender ahora el por qu, algo aclaramos en el anexo I). 2 Otra razn adicional es que una prueba estadstica basada en todos los datos utilizados simultneamente, es ms estable que la prueba o anlisis que parcializa los datos y no los examina todos juntos. El error tpico (que expresa la variacin en las medias que podemos encontrar en diversas muestras) es menor cuando el nmero de sujetos es mayor, como sucede cuando se analizan todos los datos de todos los grupos simultneamente. En principio es preferible utilizar un mtodo de anlisis global que abarque todos los datos que se quieren examinar.

El numerador de la varianza o suma de cuadradosLa suma de las diferencias de todos los datos con respecto a la media, elevadas previamente al cuadrado [(X-M)2] es el numerador de la varianza. A este numerador se le denomina Suma de Cuadrados y su smbolo habitual es SC. No es raro encontrarse con el smbolo SS, que significa lo mismo pero en ingls (Sum of Squares). La expresin (X-M)2 tambin suele simbolizarse x2(la equis minscula, x, es smbolo frecuente de X- M), y tambin se utiliza a veces d2 (d = diferencia de cada puntuacin individual con respecto a la media).El denominador de la varianza o grados de libertadEl denominador de la varianza es el nmero de sujetos menos uno, o, segn los casos, el nmero de grupos o nmero de criterios de clasificacin, menos uno (N-1, k-1, etc.). Restamos una unidad porque se trata de estimaciones de la varianza en la poblacin. El trmino habitual de este denominador es grados de libertad y ya nos resulta conocido. El smbolo habitual de los grados de libertad es gl

Cmo podemos analizar (o descomponer) la varianza total La varianza tiene una propiedad que la hace muy til: puede descomponerse y esto permite numerosos anlisis. En el ejemplo de dos (o ms) muestras, la varianza total (uniendo las dos muestras en una sola) puede descomponerse en dos varianzas: 1) Una varianza que indica la variabilidad dentro de los grupos 2) Otra varianza que expresa la variabilidad (diferencias) entre los grupos (entre las medias). El que la varianza puede descomponerse podemos captarlo en un sencillo ejemplo grfico. Es muy til entenderlo aunque slo sea de manera intuitiva y observando con detencin la figura, para poder comprender toda la informacin que nos da el anlisis de varianza.

La varianza o cuadrados medios La varianza es la razn entre la suma de cuadrados (numerador) y los grados de libertad (denominador). La varianza suele denominarse, en este contexto del anlisis de varianza, Cuadrados Medios, y se simboliza como CM

En el numerador: (X - MT)^2(suma de cuadrados) donde X representa a todas y cada una de las puntuaciones pertenecientes a las dos (o ms) muestras.

Qu comprobamos con el anlisis de varianza Refirindonos al anlisis de dos o ms muestras independientes (y de manera anloga hacemos lo mismo en otros planteamientos), en la Hiptesis Nula se afirma que todas las muestras proceden de la misma poblacin, y que por lo tanto sus medias no difieren significativamente; sus diferencias se explican adecuadamente por el error muestral (la variabilidad normal que podemos encontrar en cualquier grupo). Para comprobar esta hiptesis calculamos dos estimaciones de la varianza de esa supuesta misma poblacin, siguiendo caminos distintos e independientes. Si realmente todas las muestras proceden de la misma poblacin, y por lo tanto sus medias no difieren significativamente entre s, ambos caminos nos llevarn al mismo resultado. ComprobacinPara comparar dos varianzas no restamos una de la otra (como hacemos cuando comparamos dos medias) sino que dividimos una por la otra calculando la razn F de o

Sabemos que

Consideremos Las suma de los cuadrados de error total: SCT= o Suma de Cuadrados debido a la regresin : Suma de cuadrados residual:

SCT= q+ q

Tiene 1 grado de libertad porque solo depende de b y X es una variable de naturaleza no aleatoria

Tiene n-1 grados de libertad. q=SCT-q tiene n-2 grados de libertad.Cuadro de analisis de Varianza correspondiente a la descomposicion SCT= q + q'

Fuente de variacion g. de l.suma de cuadradoscuadrado medioF

Debido a la regresion1q'q'q'/(q/n-2))

Residualn-2qq/(n-2)

TOTALn-1SCT

El cuadro de Anlisis de Varianza nos permite docimar ( con un nivel de significado )H0: b= 0H1: b 0Se rechaza :H0, si F F1-/2Prueba de Linealidad Para esta prueba necesitamos una muestra (X1,Y1) ; (X2,Y2) ,(Xn;Yn) pero en este caso es importante que cualquier valor de xi le corresponda al menos 2 veces en la muestra de tal manera que a cada valor de xi le corresponda dos o ms valores de yi, por ejemplo:x1y1

14,5,6,7

26,8,10

37,10,11

Para cada uno de los grupos de valores de y1 calculamos el valor medio y razonamos de la siguiente manera; si la curva de regresin es una recta esos valores medios deben localizarse aproximadamente en una recta y su desviacin tpica con respecto a la recta no debe ser demasiado grande. Sean: Yij : Observacion j-sima del i- esimo grupon : tamao de muestrar : Numero de grupos ni : numero de valores de y en el i-esimo i : media de los valores de y en el i-esimo grupo : media de todos los valores de y en la muestra.

Como:

Se tiene :

Denotado por :

Desviacion de las medias 1 debido a la regresin. : Desviacion de la media (dentro de grupos)

Cuadro de analisis de Varianza correspondiente a la descomposicion q = q1 + q2

Fuente de variacion g. l.suma de cuadradoscuadrado medioF

Desviacion de medias debido a la regresionr-2q1q1 /(r-2)q1 /(r-2)

Desviacion de la media(Densidad de grupos)n-rq2q2/(n-r) q2/(n-r)

TOTALn-2q

Usando el cuadro de anlisis de varianza podemos docimar para un nivel de significancia ):Ho : Lacurva de regresin es una recta.H1:La curva de regresin no es una recta.Bajo supuesto de que para cada x fijo la v.a. Y es normal con Varianza independiente de x. EJEMPLO:SE DICEN DE MEDIDAS DE LAS DISTANCIAS AL CODO YIJ Y ESTATURA X1 (DADES) DE 22 MUJERES DE CIERTA REGION DEL PAIS.Estudiar si estas medidas se ajustan a una recta . Use = 0.05

Estaturas (cm)Distancias al codo dij (cm)

1592424

160232527

16124242526

16223242429

166232325

16824293031

1722425

Mediante las transformaciones Xi= Ei -159Yij =dij -23Se obtiene:x1Yijini(yij-i)^2

0111200

102423404

211251.7540.56250.56250.06251.573

301162441116

70020.6730.44440.44441.7688

916785.5420.250.252.256.25

13121.520.250.25

5022

xinixinixi^2nixiyij

020000

1333024

248162246

34123603318

73211470014

94363249546372

132263381326

3522106864

xinii^yini(i- ^yi)^2

0211.5350.572

1321.6880.291

241.751.8410.032

3421.9940

730.672.60711.292

945.52.91326.772

1321.53.5258.202

2247.161

Cuadro de anlisis de varianza de varianza correspondiente a la descomposicion q=q1+q2

Fuente de Variaciongrados de libertadSuma de cuadradosCuadrado medioF

Desviacion de medias debido a la regresionr-2 = 7-2 =547. 16147.111/5 = 9.439.43/4.35=2.1778

Desviacion de la media(Densidad de grupos)n-r = 22-7 =1564.9264.92/15 = 4.33

TOTALn-2 =22-2 =20112.081

Ho : Las medidas se ajustan a una rectaH1 : Las medidas no se ajustan a un arectaF (0.975) (5.15) = 3.58Como F no es mayor a 3.58 no se rechaza HoEsto es, que las medidas bajo estudio se ajustan a una recta.