ANALISIS REGRESION_DATOS

download ANALISIS REGRESION_DATOS

of 33

Transcript of ANALISIS REGRESION_DATOS

ANALISIS MULTIVARIADO

ANALISIS DE REGRESINSEPARATA PREPARADA POR

LEANDRO HUAYANAY FALCONI

Gran parte de este material proceden de ideas de diversos libros

Los hemos reunido para la utilizacin en el anlisis de regresin mltiple, ya que muchos se hallan dispersos en diversos libros y no tenemos un manual prctico para los no estadsticos.

Qu puede ser ms sencillo que reducir la relacin entre dos variables a una recta?

INTRODUCCION AL ANALISIS DE REGRESION

Supongamos que deseamos evaluar si la edad influye sobre la presin arterial diastlica (PAD) .

La manera mas sencilla de evaluar esta relacin se nos ocurre es la siguiente: Se Toma la presin arterial a todos los humanos y as mismo le preguntamos su edad.

Y con esos datos construimos un grfico, para esta finalidad recordemos el plano cartesiano. El plano cartesiano est formado por la interseccin perpendicular de dos rectas, el eje horizontal conformado por la recta x , llamado el eje de las abscisas, y el eje vertical de la recta y llamado el eje de las ordenadas.

INCLUDEPICTURE "http://usuarios.lycos.es/calculo21/525f0f00.gif" \* MERGEFORMAT

Coordenadas de un punto: si se establece en un plano un sistema de ejes coordenados, a cada punto del plano le corresponde un par ordenado de nmeros reales, una abscisa y una ordenada, que se llaman coordenadas del punto. As el punto A, queda determinado por sus valores en el eje x , y su valor en el eje y, ser A(xa, ya).

Si colocamos a la edad en el eje X (de las abscisas) y la presin arterial diastlica (PAD) en el eje Y (de las ordenadas), cada dato del individuo (edad, PAD) puede ser representado por un punto en este plano, cada individuo tendr un punto (x,y), esta notacin corresponde al par ordenado.

Tericamente podramos representar este grafico los datos de todos los humanos, y observar en forma grafica, como se interrelacionan ambas variables. Si lo ponemos en un termino mas fisiolgico, podramos apreciar en forma grafica, si para los humanos la edad influye sobre la presin arterial diastlica.Antes de seguir avanzando debemos de reflexionar sobre una caracterstica de estas variables en particular y es respecto a la dependencia, sern ambas independientes?, a simple mirada No, entonces quien determina a quien?Responder esto es importante ya que si no sabemos respecto a la dependencia entre ellas y naturalmente, si no existe una determinacin de un por otra, solo deberamos hacer correlaciones. Pero en nuestro ejemplo, pensamos que la edad es la que determina la presin arterial diastlica y no al contrario. Entonces lo que vamos ha analizar como que la edad es la que determina a la presin arterial diastlica.EDAD ----( PADNuestra primera aproximacin, a partir del grafico, es suponer que la presin arterial diastlica esta determinada por la edad, mas aun podemos suponer que hay una lnea recta que representa esta determinacin

Al aplicar este artificio, hacemos una simplificacin extrema, ya que si recordamos la geometra elemental, estamos simplificando al establecer la relacin de como x influye sobre y, en forma de una recta. Dicho de otra manera, hemos creado un Modelo que predice como la edad influye sobre la presin arterial diastlica, de manera muy simple, como una recta.

Seguidamente necesitamos precisar, especficamente como es la recta que relaciona la edad y la PAD. De acuerdo a la geometra cartesiana, si determino dos puntos en el plano, determino a la recta, o en forma equivalente, la recta queda determinada si se fija el intercepto y la pendiente. En ese caso la recta viene definida por la siguiente frmula:y = b0 + b1 x

Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Cuando trabajo con poblaciones, para definir la recta hay que determinar los valores de los parmetros " b0" y " b1":

El parmetro " b0" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. Para nuestro ejemplo, la presin arterial diastlica al momento de nacer , 45 mm Hg .El parmetro " b1" determina la pendiente de la recta, su grado de inclinacin. Para nuestro ejemplo 0.5 mm Hg, por ao de incremento de la edadLa regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos

POBLACIONES Y MUESTRAS

Sin embargo hay que distinguir si trabajamos con una muestra o con la poblacin en general, asumiremos al inicio que trabajamos con la poblacin general

Imaginemos a una poblacin, donde a cada uno de los individuos se le mide dos atributos (Variables), y tenemos la sospecha que uno de ellos determine al otro. Para poder evaluar nuestras sospechas, una de las primeras actividades es hacer un grfico, tratando de evaluar la relacin que deseamos estudiar. Si el diagrama de dispersin nos muestra que aparentemente hay una relacin.

Supongamos ahora que ya estamos convencidos de que esa relacin. Asumimos entonces que Y esta condicionada por X.

Deseamos ahora establecer como X condiciona a Y, mejor dicho

y = f(x)

Para poder analizar la relacin de ambas variables, se puede hacer un grafico como el siguienteDonde x es una valor particular de X, al observar el grfico se puede ver que aparentemente que Y depende de X, si x aumente su valor los correspondientes valores de Y tambin lo hacen.

As mismo relacin entre Y y X es lineal (la relacin es aproximada a una recta), se puede expresar que Y es una funcin, mas an una funcin lineal de X. Matemticamente se expresa como:

y = b0 + b1 x

FUNCION DE REGRESION POBLACIONAL (FRP)

Si asumimos trabajar con la poblacin general, hay que entender que tericamente se puede relacionar ambas variables mediante un modelo terico, y si ese modelo que relaciona es una recta, entonces:"La curva de regresin poblacional es simplemente el lugar geomtrico de las medias condicionales o esperanzas de las variables dependientes para los valores determinados de la(s) variable(s) explicativas"

E(Y|Xi) = f(Xi)

Al asumir que la funcin es lineal, se puede escribir

E(Y|Xi) = (0 + (1X1Es de recordar que estos coeficientes son parmetros poblacionales, por lo que los representamos por letras griegas beta. Estos parmetros nos permitiran determinar la recta que nos permite predecir la PAD, conociendo la edad. Sin embargo es necesario reconocer, que para edad hay diversas valores de PAD, sin embargo todos estos valores tienen una distribucin normal, con una media, las medas para cada edad si se grafican, estaran sobre una recta.

Por otro lado, para cada individuo, si con su edad, se predice su PAD, esta PAD predicha difiere de la medida, ser la diferencia entre el valor predicho y un valor real.

ui = Yi - E(Y|Xi)

A esta diferencia se les llama residuos, y se debe a diversos factores (variables omitidas) la suma de sus efecto produce una PERTURBACION ESTOCASTICAPERTUBACION ESTOCASTICA

Es debida a diversas razones

1.- Vaguedad de la teora, (teora incompleta)

2.- No disponibilidad de informacin.

3.- Variables centrales versus perifricas

4.- Aleatoridad intrnseca en el comportamiento humano

5.- Variables prximas inadecuadas

6.- Principio de parsimonia

7.- Forma funcional incorrecta

En el anlisis de regresin nos interesa conocer como es la dependencia estadstica entre dos variables, pero no la funcional o determinstica de la fsica clsica. En las relaciones estadsticas entre variables tratamos esencialmente con variables aleatorias y estocsticas, esto es variables que tienen distribuciones de probabilidad. Por otra parte en la dependencia funcional o determinstica se maneja variables pero esta no son aleatorias o estocsticas.

Entonces se puede establecer la recta de regresin poblacional.

E(Y|Xi) = (0 + (1X1 + ui ANALISIS DE REGRESION LINEAL EN MUESTRAS

Las investigaciones usuales son con muestras y de all deseamos estimar varios hechos:

i.- existe alguna relacin entre esas variables?

ii.- Qu fuerza tiene esa relacin?

iii.- Cules son los coeficientes?

iv.- La pendiente difiere de cero?

FUNCION DE REGRESION MUESTRAL

Sin embargo, cuando se hace investigaciones, usualmente se toma una muestra de la poblacin, mejor dicho, solo tomamos algunos valores de x e y, ya no toda la poblacin, como ilustra el grfico siguiente

Nos debe quedar claro, entonces que se ha tomado una muestra, y que pudieran obtenerse diferencias entre las relaciones de una y otra muestra.

Muchos estadsticos para no tener problemas en la interpretacin, los coeficientes de la regresin obtenidos de una poblacin les denotan con la letra griega ( (beta), como corresponde a un parmetro de la poblacin los calculados en base a muestras b (letra latina), como corresponde a un estadstico.

Y = b0 + b1X+ ui El coeficiente u, representara los errores. Para cada individuo i.La relacin entre la variable y y la variable x es lineal, entonces puede ser expresado en forma de una ecuacin lineal, como

y = b0 + b1 x

sin embargo dado que las variables son estocsticas, en realidad existe un error de aproximacin, y se puede expresar en forma mas exacta de la siguiente manera

yi = b0 + b1 xi +uiESTIMACION DE PARAMETROS

Recuerde que en una regresin poblacional :

Yi= (0 + (1 Xi +uiDonde(0 y (1 son parmetros poblacionales.

Pero en una que en una regresin muestral:

Yi= b0 + b1 Xi +i tambien se puede escribir como Yi= i+ i

Donde b0 , b1 son estadsticos en base a una muestra determinada, y son los errores .

Entonces : i= Yi- (b0 + b1 Xi )

Como deseamos obtener la mnima desviacin respecto a Y, debe minimizarse, pero no solo un valor individual, sino todos los i, y el modo de lograr es minimizar la suma de estos, pero como importa la desviacin de Y y no el sentido, no se puede colocar la suma directa, ya que las desviaciones negativas contrarestan a las positivas, por lo que se debe de sumar los cuadrados de la diferencias o mejor dicho ( i 2METODO DE MINIMOS CUADRADOS ESTIMADOS (OLS)

Ya que deseamos estimar el valor menor de , pero este va ha ser dependiente de b0 y b1 , entonces los que podemos hacer es expresar i como funcin de b0 y b1 y del calculo diferencial, sabemos que las derivadas nos pueden ayudar a conocer los puntos menores, ya que para ese valor la derivada ser cero. Entonces expresamos

Los parmetros b0 y b1 se estiman por medio de el mtodo de los mnimos cuadrados para muestras, puede escribirse como;

S x y

b1 = -----------

S x

b0 = Y - b1 XCOMENTARIOS

Al tratar de analizar, la relacin entre dos variables, suponiendo la existencia del modelo causal, es decir que una variable independiente influye sobre una dependiente. Una simplificacin importante que se puede hacer es que las otras variables que pueden influir sobre la relacin permanecen constantes, esto se llama Ceteris paribus con los dems factores relevantes, permanecen igual.

SUPUESTOS

Para el mtodos de mnimos cuadrados

1.- Linealidad: Se asume que el modelo de regresin es lineal en los parmetros:

yi = (0 + (1X + ui

Oviamente, la suposicin de linealidad, es una de las primeras, de no existir, no deberia siquiera continuarse con el anlisis

2.- Los valores de X son fijos en los muestreos repetidos, se supone no estocstica, lo que significa que el anlisis de regresin es un anlisis de regresin condicional. Y tiene una distribucin normal

3.- El valor medio de u es igual a cero, esto es tambin el la media de los errores u condicionado a X es cero.

4.- Homocedasticidad, la varianza de u debe mantenerse en cero a lo largo de x debe permanecer uniforme.

Se refiere a la variabilidad de la varianza, respecto al eje x, la que debe permanecer constante.

5.- No autocorrelacin entre las perturbaciones.

6.- La covarianza entre ui y Xi es cero.

7.- El nmero de observaciones n debe ser mayor que el de parmetros.

8.- Variabilidad en los valores de X.

9.- El modelo de regresin est correctamente especificado.

10.- No hay multicolinealidad perfectaANALISIS DE LOS SUPUESTOS

Analicemos que representan los supuestos, tomemos un punto en particular:

yi = b0 + b1 xi + ui Aqu ui denota el error para la observacin i, se supone que contiene otras variaciones de y no explicadas por x, va ha ser la diferencia entre la y obtenida en la realidad respecto a la predicha por la regresin lineal.

Al haber obtenido los recta que mejor ajusta la relacin (X , Y), es de esperarse que la sumatoria de u resulte cero. Si lo queremos expresar en el lenguaje de los estadsticos, hablaremos de la esperanza, y claramente la esperanza de u es cero. E(u) = 0 , con lo que se satisface el supuesto.

Que la esperanza de u sea cero, no dice nada respecto a su relacin con x. Es de recordar que u encierra la fuerza de los factores inobservables de la poblacin.

Una medida natural de la asociacin entre dos variables aleatorias es el coeficiente de correlacin. Si u y x no estn correlacionas es un gran paso para decir que u debe integrar la ecuacin de regresin, pero no es suficiente ya que la correlacin mide solo la dependencia lineal entre u y x. Por ejemplo u no se correlaciona con x sin embargo puedo correlacionarlo con una funcin de x (x2), esta posibilidad no es aceptable para la mayor parte de los propsitos de la regresin, ya que trae problemas de interpretacin del modelo y derivar propiedades estadsticas.

Una suposicin mejor atae al valor esperado de u dado x.

La suposicin es que el valor promedio de u no depende de x. Mejor se puede expresar como

E(u/x) = E(u) = 0

Para eso hay que recordar que si u es independiente de x, entonces E(u/x) es igual a E(u), y como ya hemos visto antes E(u) = 0.

MINIMOS CUADRADOS ORDINARIOS (MCD)en Ingles OLS)El calculo de los parmetros por medio del mtodo de mnimos cuadrados trae ciertas consecuencias que e necesario recordarlas.

Propiedades algebraicas de los estadsticos de MCO.1.- La suma, y por tanto el promedio maestral de los residuos de MCO, es cero, y lo expresamos:

Hay que recordar que esto es un consecuencia directa del clculo de los coeficientes b por el mtodo MCO. Sin embargo no dice nada a cerca de un residuo de una observacin particular i .2.- La covarianza muestral entre los regresores y los residuos del MCO es cero. De esto se deriva de que x y u no deben de tener correlacin, es la condicin de primer orden.

3.- Aqu i denota el error para la observacin i, es la diferencia entre la yi obtenida en la realidad respecto a la i predicha por la regresin lineal. Por lo que puede escribirse: yi = i + i

Para entender mejor lo que representa cada uno de estos valores, podemos hacer la siguiente explicacin.

Continuando con nuestro ejemplo, supongamos que efectivamente deseamos evaluar la influencia de la edad sobre la Presin Arterial Diastlica (PAD),

Se toma datos de 8 personas:

INDIVIDUOEDADPAD

1046

21050

32055

43059

53059

64065

75070

86076

Lo primero que deseamos es estimar los valores de b, Se puede calcular b1, es igual a cov(x,y) / var(x)

La cov(x,y):

INDIVIDUOEDAD(X-Xp)PAD(Y-Yp)(X-Xp)(Y-Yp)

10-3046-14420

210-2050-10200

320-1055-550

430059-10

530059-10

6401065550

750207010200

860307616480

La cov(x,y) = (X-Xp)(Y-Yp) / (n-1)La cov(x,y) = 1400 / (8-1) = 1400 / 7 = 200

La var(x)

INDIVIDUOEDAD(X-Xp)(X-Xp)2

10-30900

210-20400

320-10100

43000

53000

64010100

75020400

86030900

La var(x) = (X-Xp)2 / (n-1)La var(x) = 2800 / (8-1) = 2800 / 7 = 400

b1 = cov(x,y) / var(x) = 200 / 400 = 0.5

si b0 = Y - b1 X

b0 = 60 (0.5)*30 = 60 - 15 = 45

Significa que la presin arterial diastlica es 45 mm Hg. Al momento de nacer (edad cero) o intercepto. Y el incremento es a razn de 0.5 (medio) mm Hg por ao de incremento de la edad.Con lo que quedara resulto el modelo.

PAD = 45 + (0.5 )* EDAD.

De esta manera podramos calcular la PAD esperada para cualquier edad, recuerde que este es un valor solo para el ejercicio. Para verdaderos valores puede usted ver las tablas

Ahora podemos analizar as estos hechos:

Si es que no sabemos la edad de un individuo podramos aceptar que su PAD, ser en promedio 60 mm Hg.

Pero si tenemos su edad, podramos hacer un mejor estimado y calcular por medio de nuestro modelo la PAD, que le corresponde de acuerdo con la edad.

Ahora podemos calcular los valores predichos, es decir aquellos valores de i, para cada valor de x, para eso utilizamos la ecuacin : PAD = 45 + (0.5 )* EDAD, obtenindose la siguiente tabla

INDIVIDUOEDADPADiui

1046451

21050500

32055550

4305960-1

5305960-1

64065650

75070700

86076751

Ahora debemos responder a las siguientes preguntas, Cmo determino toda la variabilidad de y (PAD),?

Caigo a la cuenta que eso est dado por la suma de (yi y)2,

INDIVIDUOEDADPAD(y-)2

1046196

21050100

3205525

430591

530591

6406525

75070100

86076256

Esta variacin suma 704. Esta variacin puede descomponerse en varias, la predicha por el modelo y la de los residuos.

INDIVIDUOEDADPAD(- )2

1046225

21050100

3205525

430590

530590

6406525

75070100

86076225

Esta suma de cuadrados es 700, es la suma de cuadrados del modelo, y de igual manera se puede calcular la suma de cuadrados de los residuos.INDIVIDUOEDADPADui 2

10461

210500

320550

430591

530591

640650

750700

860761

Es 4Ahora podemos llevar a cabo otra parte del anlisis, y hacer una anlisis de varianzas, ya que podemos calcular la varianza del modelo y dividirla entre la varianza de los residuos y analizar si son iguales o diferentes,

F = Var(modelo) / Var(residuos) =

F= (700 /1) / (4 / 6) = 1050 F tiene p 0, esta en una suposicin, menos importante, implicara: que x debe tomar varios valores, que no se puede estimar b1, INSESGAMIENTO DE LOS ESTIMADORES MCO, bajo las suposiciones RLS 1 a 4.

E( b0) = (0 y E(b1) =(1

Si b1 = (xi - ) (yi- ) / (xi - )2 b1 = (xi - ) yi / (xi - )2 , reemplazando yi b1 = (xi - )((0 + (1x i + ui) / (xi - )2 b1 = [(0 (xi - ) + (1 (xi - )x i + (xi - )ui ] / (xi - )2

b1 = [(0 (0) + (1 (xi - )2 + (xi - )ui ] / (xi - )2

b1 = (1 (xi - )2/ (xi - )2 + (xi - )ui / (xi - )2 b1 = (1 + (xi - )ui / (xi - )2

Si E(u x) = 0 implica que (xi - )uiv= 0Entonces b1 = (1El estimador b1 de (1 ser insesgado.Suposicin RLS 5: Homocedasticidad

Var(u/x) = 2Debemos de subrayar que la suposicin de homocedasticidad es muy distinta que la supocisin que la media condicional es cero. La suposicin RLS3 involucra el valor esperado de u, en tanto que la suposicin RLS 5 concierne a la varianza de u, en ambos casos condicionado a x. Recuerde que para demostrar el insegamiento de los coeficientes, no necesitamos a RLS5. esta solo simplificva los calculos.

Como la var(u/x) = E(u2/x) (E(u/x))2 , y E(u/x) = 0, var(u/x) = E(u2/x)= 2Lo que significa que 2 es la varianza incondicional de u, y se le denomina Varianza del error, o de la perturbacin. De esto podemos llegar a establecer la Pero se debe analizar para responder:

1.- Cul es el modelo matemtico que mejor se ajusta? es una funcin lineal? una curva?

2.- Dado un modelo determinado, De que manera se puede ajustar los datos? Si es un modelo lineal cual es la mejor lnea que se ajusta a a los datos?

ESTRATEGIA GENERAL

1.- Empiece asumiendo que el modelo lineal es el adecuado, posteriormente esta asuncin ser investigada.

2.- Escoja la lnea que mejor se ajusta

3.- Determine si la lnea hallada ayuda significativamente a predecir a Y, es necesario que chequee si se ajusta a algunas condiciones como: La normalidad.

4.- Verifique si el ajuste a la lnea es correcto, haga pruebas de bondad de ajuste.

5.- Si no hay ajuste escoja otra curva, le ayudar el grfico.

6.- Contine con el nuevo modelo hasta encontrar el adecuado.

ASUNCIONES PARA EL MODELO LINEAL

1.- Existencia. Para cada valor de X, Y es una variable aleatoria, con media y varianza finitas.

2.- Independencia. En valor de Y es estadisticamente independiente de otro.

3.- Linealidad. El valor medio de Y es una funcin lineal de X

Y= b0 + b1X + E

Donde E ser los residuos.

4.- Homocedasticidad. La varianza de Y es la misma para cualquier X

5.- Distribucin normal. Para cualquier valor fijo de X , Y se distribuye normalmente.

DETERMINACION DE LA MEJOR RECTA

1) Mtodo de los cuadrados mnimos, determina la mejor recta que se ajusta a los puntos, teniendo como referencia a la menor distancia de los puntos a la recta, en forma vertical.

2) Mtodo de la mnima varianza, estima los coeficientes no sean sesgados.

3) Solucin al problema de ajuste.

Cov(X,Y)

b1= ----------

Var(X)

b0= - b1X

PRECISION O ERRORES ESTANDAR DE LOS MINIMOS CUADRADOS ESTIMADOS

Deseamos estimar los valores de (, sin embargo en base la muestra y el mtodo de Mmimos cuadrados se ha obtenido b, como bien recordamos es un estimador del verdadero valor. Este va depender de la muestra, sin embargo deseamos calcular una medida de "confiabilidad" o precisin de los estimadores.

MEDICION DE LA CALIDAD DE AJUSTE (SSE) A LA RECTA

SSE = ( (Yi - i)

Si hay una correlacin perfecta, la diferencia es cero.

REGRESION MULTIPLE

En el modelo de regresin mltiple se asume que hay X1, X2, ..., Xn variables independientes y la variable dependiente Y. Suponindose que hay una relacin del tipo:

Y = b0 + b1X1+ b2X2, ..., bnXn

Es apropiado usarlo cuando:

1.- Caracterizar la relacin entre variables independientes y dependiente

2.- Buscar una frmula cuantitativa

3.- Controlar los efectos de una variable de control

4.- Para determinar cuales variables independientes son importantes y cuales no son importantes.

5.- Para determinar el mejor modelo matemtico que describe la relacin

6.- Para comparar varios niveles de regresin entre las variables

7.- Medir los efectos de interaccin entre variables independientes

8.- Estimar los valores de los coeficientes de regresin

SUPUESTOS BASICOS DEL ANALISIS DE REGRESIN MLTIPLE

1.- Tamao de la muestra adecuado

2.- Variable dependiente ha de ser continua

3.- Inclusin de variable independientes relevantes

4.- Linealidad: la relacin de cada variable independiente y la dependiente debe ser lineal

5.- Normalidad: La distribucin de los datos de la variable dependiente y las independientes, debe ser normal

6.- Aditividad: Los efectos de las variable independientes en la dependiente de deben de poder sumar

7.- Homocedasticidad: o igualdad de varianza en trmino de error en la serie de variables independientes

8.- Ausencia de colinealidad (o de correlacin ) entre las variables independientes

9.- Independencia de los trminos de error

1.- TAMAO DE LA MUESTRA ADECUADO

Como la finalidad del anlisis estadstico, es realizar una inferencia vlida a partir de una muestra, entonces es de esperarse una inferencia correcta es posible. Uno de los primeros requisitos ser, tener una muestra adecuada, debiendo la muestra representativa, y tener tamao adecuado.La representatividad esta dado, por el hecho que la muestra reproduzca las caractersticas de la poblacin, incluida su heterogeneidad.

Respecto al tamao adecuado, se debe tener en cuenta el nmero de variable independientes, los autores recomiendan no menos de 5, o la mayora recomienda 10 o incluso algunos recomiendan 20 observaciones por cada variable, cuando se va hacer un anlisis secuencial se requiere ms, 40 casos por cada variable, el no cumplir con los nmeros nos dar una estimacin con intervalos muy amplios.

Si se va ha llevar a cabo validacin del modelo mediante el procedimiento de "validacin cruzada" el tamao de muestra debe ser mayor an, La muestra se dividir en dos submuestras: Una muestra de anlisis y la otra muestra para la validacin, la del anlisis sirve para obtener el modelo y el cual se valida con la otra muestra. Usualmente se toma un 60% para la muestra de anlisis y 40% para validacin, de igual modo se puede fijar los estratos de la muestra. La muestra de anlisis debe cumplir con todos los requerimientos.

Es importante que se verifique la suficiencia de casos en cada submuestra, as mismo se tenga en cuenta a los valores sin respuesta, ya que puede afectar el tamao de la muestra.

El incumplimiento de las proporciones puede mejorarse mediante:

a) Eliminar algunas variables independentes, aquellas que tienen menor capacidad predictiva. Aquellas que tengan menor correlacin con la variable dependiente o si tienen un nmero muy alto de casos sin respuesta.

b) Convinacin de variables independientes en una sola, es menos drstica y suele suponer que la prdida de informacin es menor.

2.- VARIABLE DEPENDIENTE HA DE SER CONTINUA

La tcnica de mnimos cuadrados ordinarios (OLS), exige que la variable dependiente sea del tipo nmero real, (continua, medida a nivel de intervalo o razn), Las variables discretas o categricas ordinales, pueden ser utilizadas siempre y cuando no tengan solo pocas categoras, o los valores solo estn en pocas categorias. Nota si la variable es continua, pero ella contiene agrupamientos naturales, para los cuales el comportamiento es completamente diferente, tal vez es inadecuado utilizar la variable como continua. (la edad, no es igual para un neonato, lactante, preescolar )

Las variables independientes en cambio pueden ser muchas ms, pudiendo ser continuas o dicotmicas.

Si la variable es categrica, dicotmica los valores que deben tener es 0 y 1, y si es nominal, se debe crear las variables ficticias (dummy), ya que entre las categoras no siempre hay una mtrica, incluso esto se debe hacer en variables ordinales, si es que no hay una mtrica adecuada o las categoras tienen un significado muy diferente una respecto a la otra. Las variables ficticias utilizadas en la regresin sern el nmero de categoras menos 1. Existir una categora que ser la referencia, ella no se coloca en la regresin, los paquetes estadsticos usualmente los asumen por defecto. Es necesario que la categora de referencia sea una categora bien definida (no debe ser otros, no respuesta,...), que tenga el nmero suficiente de observaciones (no tengan representacin en la muestra). Las variables ficticias deben tener valores 0 y 1. El grupo de referencia de la categora debe ser 1 y los dems 0.

Las variables ordinales, si es que no tienen un problema mayor en la mtrica, deben ser colocados sin cambios en la regresin. Se pueden tratar como continuas. El cdigo numrico debe ajustarse a la categora. Si no se tiene seguridad se debe tratar como nominal, y usar la dummy. Aunque con esto se esta perdiendo la informacin del orden.

Si las variables incluso continuas son curvilineas, se puede crear otras variable o categorizar y usar ficticias. El ejemplo anterior de la edad.

3.- INCLUSIN DE VARIABLE INDEPENDIENTES RELEVANTES

La solucin de la regresin depende de las variables independientes que participen en el anlisis. Es importante revisar que se han incluido variables relevantes y se ha dejado de lado las variables irrelevantes.

Para establecer una regresin , como en la generalidad de los anlisis estadsticos, se busca un modelo parsimonioso. Es decir un modelo explicativo que contenga el menor nmero de variables predictoras (independiente). Pero stas deben mostrar "relevancia" en la prediccin de la variable dependiente. Los estadsticos afirman "El aadir variables innecesarias causa una prdida en precisin de los coeficientes estimados en las variable relevantes" (Schroeder 1986). Ello se debe al aumento del error tpico de la estimacin, que ocaciona la incorporacin de variable irrelevantes, sin que aquello se traduzca en una mejora en proporcin de varianza de la variable dependiente explicada por las independientes, medida mediante el coeficiente de determinacin R2 . Por esta razn fundamental se desaconseja la inclusin de muchas variables independientes en el anlisis de regresin. Para tal finalidad se debe:

a) Comprobar cuanto mejora la explicacin de la variable dependiente el hecho de que se incluya una nueva variable independiente (incremento del R2 )

b) Mediante la realizacin de un contraste que permita conocer si el efecto de cada variable independiente es estadsticamente significativo.

4.- LINEALIDAD

Un supuesto de fondo para la utilizacin de la regresin lineal, es que la relacin entre cada variable independiente y la dependiente es lineal. Significa que el efecto de cada variable independiente (Xi) en la dependiente (Y) es el mismo sea cualquiera el valor de la variable independiente. O dicho de otra manera, "para cada variable independiente Xi , la cantidad de cambio en el valor medio de Y asociado con un aumento de una unidad Xi, manteniendo todas la otras variables independientes constantes, es el mismo sin considerar el nivel de Xi".

Por lo contrario, si se observa que el cambio en el valor medio de la variable dependiente asociado con el incremento de una unidad en la variable independiente vara con el valor de la variable Xi se dice que la relacin entre la variable dependiente y la independiente es no lineal. Entonces el modelo de regresin no logra captar "el modelo sistemtico de relacin entre las variables dependientes e independientes" (Fox 1991)

El cumplimiento de este supuesto se puede comprobar en forma visual, con la ayuda de los grficos de regresin parcial y los residuos.

A) GRAFICOS DE REGRESION PARCIAL

Son muy tiles para conocer que variables concretas incumplen el supuesto de linealidad. Muestran para cada variable independiente su relacin con la dependiente.

Para que se cumpla el supuesto de linealidad, la nube de puntos correspondiente a los valores de Xi e Y deben estar alrededor de una lnea recta.

Si la recta es creciente ambas variables se hallan relacionadas positivamente. Si es decreciente la relacin de Xi e Y en inversa, mientras Xi aumenta Y decrece .

Si la nube de puntos no sigue una lnea recta, entonces la regresin es no lineal. Puede una transformacin lograr convertirla en lineal.

Si el grfico de puntos no sigue ninguna lnea, es una nube de puntas redondeada, significa que no existe ninguna relacin. (r=0).

Los grficos de regresin parcial pueden confeccionarse con los datos originales, o tambin con las variables estandarizadas (se han convertido en Z, ) mediante la resta de la media y divisin entre la desviacin estndar. Usualmente se toman los valores de Z de -3 a +3. Es til para la deteccin de los datos atpicos.

. scatter weigth heigth

B) GRAFICOS DE RESIDUOS.

A diferencia de los grficos de regresin parcial, el grfico de residuos no se limita a relaciones bivariadas, por lo contrario busca los efectos combinados de todas las variables predictoras incluidas en la ecuacin de regresin con la dependiente. Para lo cual se representan los residuos estandarizados o los estudentizados, contra los valores predichos de la variable dependiente a partir de la ecuacin de regresin (). El valor de predicho se obtiene de reemplazar los valores de las variable independientes en la ecuacin, la diferencia respecto al valor Y obtenido es el residuo (Ei). Si a Ei lo dividimos por la desviacin estndar, obtenermos el residuo estandarizado ESi . Los residuos estudentizados se caracterizan por seguir la distribucin t de student con N-p-1 grados de libertad, siendo N el tamao de la muestra, p el nmero de las variables independientes.

El grfico difiere de un grfico de regresin parcial en dos aspectos importantes:

1.- La muestra los valores de los residuos de la prediccin contra la prediccin, y no Y o Xi.

2.- la nube de puntos debe ser horizontal y no ascendente o descendente.

El supuesto de linealidad se cumple cuando los residuos se distribuyen aleatoriamente alrededor de la lnea horizontal que tiene como valor cero. Si la nube de puntos es una curva, no se cumple con el supuesto de linealidad.

. regress weigth heigth

. predict r, resid

. scatter r weigth

Un grfico de residuo se realiza con los residuos estandarizados o estudentizados.

Berry y Feldman (1985) proponen una forma mas rigurosa, se toma varias submuestras que incluyen un rango de valores para la variable independientes. Si cada submuestra , por separado genera estimaciones del intercepto y de coeficientes de pendientes que difieren sustancialmente a travs de las submuestras, se considera que las dos variables tienen una relacin no lineal.

El supuesto de linealidad no supone la invalidacin del anlisis de regresin, aunque si lo debilita, la relacin no queda captada adecuadamente en el coeficiente.

Algunos de los remedios contra la no linealidad:

a) Aplicar mtodos de regresin no lineal como la polinomial

b) La trasnformacin logartmica de la variable independiente (logX), la que no dificulta la interpretacin,

5.- ADITIVIDAD

La prediccin de la variable dependiente exige que los efectos de las distintas variables independientes puedan sumarse entre s. Esto significa que para cada variable independiente incluida en el modelo de regresin, la cantidad de cambio que provoca en la variable dependiente ser el mismo, indistintamente de los valores de la variable independientes incluidas en la ecuacin de regresin. Si por lo contrario, si se observa que su influencia se ve afectada por los valores que presenten otras variables independientes, se est frente a un modelo no aditivo (o interactivo). Ello sucede cuando las variables independientes interactuan unas contra las otras, al influir en la variable dependiente.

Berry y Feldman (1985) proponen diferenciar tres variedades de modelos de regresin no aditivos:

a) Modelo interactivo de variable ficticia. Cuando una de las variables independientes del modelo es dicotmica, el modelo es interactivo si la variable independiente est linealmente relacionada con la variable dependiente, pero para ambos valores de la variable ficticia dicotmica, la pendiente de las recta de regresin y el intercepto que caracterizan la regresin lineal entre la variable dependiente y las independientes diferirn segn sea el valor de las variables ficticias dicotmicas. Entonces estos coeficientes son diferentes para cada valor de la variable independiente dicotmica.

b) Modelo multiplicativo, Si dos variables independientes, medidas a nivel de intervalo, interactan en la variable dependiente, de modo que la pendiente de la relacin entre cada variable independiente y la dependiente est relacionada linealmente con el valor de la otra variable independiente.

c) Modelo interactivo no lineal. La resolucin de este tipo de modelo exige tomar logaritmos en ambos lados de la ecuacin de regresin. Es decir, tanto para la varaible dependiente como para cada una de las variables independientes incluyendo la constante y el trmino de error.

En consecuencia, si se observa que el cambio en el valor de Y, relacionado con un pequeo aumento de Xi depende del valor Xi, significa que se est ante un modelo no lineal. Por el contrario, cuando el cambio en Y, relacionado a un pequeo incremento de Xi, est relacionado con el valor de otra variable independiente, el modelo es interactivo.

Cuando se tiene que en un modelo se coloca una nueva variable independiente producto de dos variables existentes y el incremento en la prediccin es significativo, entonces resulta que el modelo no es sumativo sino multiplicativo.

6.- NORMALIDAD

El supuesto de normalidad es comn a otras tcnicas de anlisis multivariante. Consiste en la correspondencia de los datos (tanto relativos a la variable dependiente como las independientes) con la distribucin normal. Ello es importante porque permite el uso de estadsticos "F" de Snedecor y "t" de student, en la comprobacin de la significatividad del modelo de regresin en su conjunto ("F") y de sus coeficientes por separado ("t").

El inclumplimiento es mas probable con tamaos de muestra pequeos. La forma mas sencilla de comprobar son los grficos:

A) HISTOGRAMA DE RESIDUOS

Incluye los residuos estandarizados, junto con las frecuencias de la variable. Para que el supuesto de normalidad se satisfaga, los residuos (aquellos datos que no logran ser explicados por el anlisis de regresin, al no coincidir los valores observados con los predichos por el anlisis de regresin) han de estar normalmente distribuidos. El histograma debe ser en forma de campana de Gauss, con media 0 y desviacin estndar 1.

B) GRAFICO DE PROBABILIDAD NORMAL

Algunas veces lo referimos como grfico P-P. Difiere del histograma de residuos en que tambin puede aplicarse cuando el tamao de muestra es pequeo. En el se compara la distribucin observada de los residuos estandarizados (o tipificados) con la esperada bajo supuesto de normalidad. Para ello se representan ambas distribuciones de probabilidad acumulada: la esperada y la observada. Si ambas distribuciones coinciden, se obtiene una recta que forma un ngulo de 45 grados. Lo que significa que es una distribucin normal. La salida de la normalidad es s los datos se alejan de la diagonal.

Cuando la lnea de puntos cae por debajo de la normal, la distribucin es platocrtica, a mas separacin es mayor la distancia. Esta distribucin se caracteriza por tener una dispersin importante de la media, lo cual dificulta la representatividad. La distribucin de los datos presenta una forma achatada o plana, con escasos valores en el centro. El valor de la curtosis correspondiente es un valor negativo. Al contrario si la lnea se sita por encima de la diagonal, la distribucin es leptocrtica , sus valores estn muy concentrados alrededor de la media, al haber muchos casos en el centro; su dispersin respecto a la media aritmtica es muy pequea favoreciendo su representatividad, El valor de la curtosis es positivo.

Un arco sencillo por debajo o encima de la diagonal indica asimetra (negativa o positiva) . La asimetra indica una agrupacin de los datos. Si es por encima de la diagonal, la distribucin es asimtrica a la derecha o con sesgo positivo, si los valores se situan a la izquierda de la curva, al haber en la dsitribucin mayor representacin de los valores inferiores a la media . El valor de asimetra correspondiente es mayor de cero es positivo.

Un arco por debajo de la diagonal informa, en cambio, que la distribucin es asimtrica negativa ( o con sesgo negativo), tanto ms, cuanto ms se distancie la linea de puntos de la diagonal, En las distribuciones asimtricas negativas la agrupacin de los valores se produce a la derecha de la curva, al haber mayor presencia de valores superiores a la media en la muestra analizada. La asimetra en este caso toma un valor negativo.

Al detectarse asimetra debe examinar cada variable para comprobar en cuales se incumple el criterio de normalidad.

C NORMALIDAD POR PRUEBAS ESTADISTICAS

La normalidad tambin se puede evaluar con pruebas estadsticas,

Estadstico de Shapiro-Wilks , Es muy utilizado, se usa para muestras del tamao normal (inferior a 50 unidades). Su valor se obtiene a partir de los valores esperados de los residuos ( Ei = Yi - i) de una distribucin nirmal estndar. El rango de valores posibles va desde 0.0 a 1.0. un W = 1.0 significa el cumplimiento del supuesto de normalidad, mientras que si W =0.0 es su incumplmiento. Como los paquetes ademas se acompaan del valor del p, esto es mas fcil de interpretar.

La comprobacin del supuesto de normalidad tambien puede hacerse con el estadstico D de Kolmogorov-Smirnov. Pero unicamente cuando se analiza un tamao de muestra elevado. La hitesis nula se rechaza en forma inversa que el previo, para valores elevados de D o un valor pequeo de probabilidad.

Los remedios mas aplicados contra el incumplimiento del supuesto de normalidad multivariante son:

a) La transformacin logartmica de la variable dependiente (log Y), sobre todo, cuando la distribucin de los residuos muestra una asimetra positiva masiva. Si dicha asimetra es mediana se puede aplicar la raiz cuadrada

b) La transformacin cuadrada, si la asimetra es negativa.

c) Transformacin inversa, cuando la distribucin de los residuos muestra un incumplimiento grave del supuesto de normalidad.

Es de comentar que para algunos autores (Nourisis 1986) el estadstico "F", empleado para la comprobacin de la hiptesis de significancia del modelo de regresin en forma conjunta, es bastante insensible a las salidas "moderadas" de la normalidad. Por ello recomienda adoptar los remedios referidos solo cuando el incumplimiento de los supuestos de normalidad sea importante.

Otros (Afifi y Clark 1990) proponen que las transformaciones para alcanzar normalidad no se lleven a cabo " si la desviacin tpica dividida por la media es inferior a 1/4" . "Las transformaciones son mas efectivas al inducir normalidad cuando la desviacin tpica de la variable no transformada es grande relacionada con la media ".

Se debe comparar la regresin obtenida con la transformacin con la sin transformar para evaluar la ganancia.

7.- HOMOCEDASTICIDAD

Para que sea posible la medicin correcta de la relacin de la variable independiente y dependiente, por medio de la regresin lineal es necesario que la varianza de los valores de la variable dependiente permenezca sin cambios a lo largo del recorrido de la variable independiente (predictora). A esta caracterstica se le llama homocedasticidad o igualdad de las varianzas de los trminos de error residual en la serie de los valores independientes. La variable dependiente ha de mostrar niveles iguales de varianza en los distintos valores de las variables independientes . En cambio, si la variabilidad en los trminos de error de las distintas variables independientes no es constante, se dice que los residuos son heterocedsticos. Ello significa que su magnitud (de los resuduos) aumenta o disminuye en funcin de los valores que adopten las varaibles independientes, o segn cuales sean los valores predichos. La varianza de la variable dependiente se concentra en unos valores concretos de las variables independientes, lo que provoca que la prediccin del valor de la variable dependiente sea mejor (de existir heterocedasticidad), no en todos, sino slo en determinados valores de la variable independiente.

A pesar que este es uno de los supuestos que mas se incumple, siempre debe valorarse. Para que el anlisis de la relacin de dependencia sea correcto, la varianza de la variable dependiente no ha de concentrarse en unos valores determinados de las variables independientes. Ello no solo ocaciona diferencias en la prediccin del valor de la variable dependiente, sino en general se relaciona con la obtencin de pruebas de significancia ( con los estadsticos "t" y "F") cuyos resultados sean incorrectos. La posibilidad de que esto acontezca es mayor cuando se anlizan datos seccionales (o transversales) que longitudinales; por ejemplo, en una encuesta convencional, De acuerdo con Gujarati " En datos seccionales, se suele tratar con miembros de una poblacin en un punto determinado en el tiempo, tales como consumidores individuales o familias, empresas, industrias, o subdivisiones geogrficas, tales como estados o paices, ciudades, etc. Lo que es mas estos miembros pueden ser de diferentes tamaos tales como empresas pequeas o medianas o grandes, o de renta alta, media o baja. De hecho, en la informacin de corte transversal que comprende unidades heterogeneas, la heterocedasticidad puede ser la regla mas que la excepcin. En los datos de series temporales, por otro lado, las varibles tienden a ser de ordenes similar de magnitud porque generalmente se recogen los datos para la misma entidad a lo largo de un periodo de tiempo".

La homocedasticidad suele relacionarse con el supuesto de normalidad, De hecho se observa que " cuando el supuesto de normalidad multivariable se satisface, las relaciones entre las variables son homocedasticas " (Tabachnick y Fidell, 1989). En general la heterogeneidad es mas probable que acontezca cuando se da algunas o varias de las situaciones siguientes:

a) Se incumple el supuesto de normalidad

b) Las variables no se encuentran directamente relacionadas

c) Algunas de las variables son asimtricas mientras que otras no lo son

d) En determinadas variables independientes, las respuestas se concentran en un nmero limitado de valores.

Berry y Feldman (1985) destacan tres situaciones en las cuales la heterocedasticidad se convierte en problema:

a) Cuando la variable dependiente est medida con error, y la cantidad de error vara con el valor de la variable independiente. Por ejemplo una encuesta, la unidad de anlisis habitual es el individuo y algunos de ellos pueden aportar una informacin mas adecuada que otros.

b) Cuando la unidad de anlisis es un "agregado" y la variable dependiente la forma un promedio de valores para los objetos individuales que componen las unidades agregadas. Por ejemplo, el nivel de renta media en alguna unidad agregada, para determinar el nivel de renta media, difiere a travs de las unidades, la adecuacin con la que sta medida la variable dependiente tambin variar. Los niveles de renta medios estimados a partir de una muestra grande de individuos suelen caracterizarse por un menor error de medicin que las medias obtenidas de muestras pequeas. Esta aseveracin se deduce del conocimiento de que la varianza de la distribucin de una media muestral decrece cuando el tamao de muestra aumenta.

c) La heterocedasticidad tambin puede preverse en las situaciones donde existe variacin significativa en la variable dependiente. La renat anual de la familia es la variable independiente y sus gastos anuales en vacaciones la dependiente. Lo mas razonable es esperar que en las familias con rentas bajas el gasto medio en vacaciones sea igualmente bajo. La variacin en los gastos en todas las familias es, en consecuencia, bastante pequea. Debido a que las familias de rentas bajas han de gastar el grueso de su renta en cubrir las necesidades bsicas, dejando muy pocos fondos para gastar en vacaciones. Pero, cuando la renta familiar aumenta, el gasto medio destinado vacaciones no aumenta necesariamente. Lo que resulta en variacin importante en los valores de la variable dependiente. Esta situacin se conoce como heterocedasticidad.

Explicacin de la heterocedasticidad, seria por:

La relacin de variables es heterosedstica. La naturaleza condiciona ese tipo de relacin.

Errores de medicin.

Por la presencia de un valor atpico.

El modelo inadecuado, deja de lado una varible importante.

Interaccin importante con una variable independiente incluida en el modelo con otra ausente del mismo. Para el ejemplo previo " podra argumentarse que la cantidad de gasto de una familia para vacaciones est determinada no solo por la renta de la familia, sino tambien por la satisfaccin que sus miembros obtienen de las vacaciones , y el nivel de satisfacin y de renta puede esperase que interactuen al determinar los gastos en vacaiones: entre las familias que obtienen poca satisfaccin de vacaciones podemos esperar que la renta tenga un debil efecto en los gastos en vacaciones, pero cuando la satisfaccin obtenida aumenta, se puede esperar que la renta tenga un efecto mas fuerte en el nivel de gastos"

En resumen, si se persiste en utilizar los procedimientos de prueba usuales, a pesar de la presencia de heterocedasticidad, las conclusiones a las cuales se llegue o las inferencias que se hagan pueden ser erroneas

Para detectar se puede hacer uso de los grficos de residuos.

Si no hay informacin a priori o emprica sobre la naturaleza de la heterocedasticidad , en la prctica se puede llevar a cabo el anlisis de regresin bajo los supuestos de que no hay heterosedasticidad y luego hacer un examen post morten de los residuales elevados al cuadrado, Para ver si ellos exhiben un patrn sistemtico. Usualmente se grafica respecto a la variable resultado, pero tambien se pueden hacer frente a una de las variables predictoras.

Sin embargo si se desea una aproximacin exacta se puede hacer uso de los estadsticos:

a) Test de Levene. En el artculo " Robust test for equality of variances" (1960), donde se aplica un anlisis de varianza sobre el valor absoluto de las puntuaciones de desviacin. Se trata de medir la igualdad de varianzas para un nico par de variables (simple o compuestas). Y se comprueba que su robustez mejora cuando se sustituyen las desviaciones alrededor de la mediana ( Y ij - Yj), por las desviaciones alrededor de la media (Yij - Yj). La significatividad se comprueba por el estadstico "F". ste se aplica para determinar si la hiptesis nula (Ho) de homogenicidad de la varianza debe rechazarse. Esta hiptesis se rechaza cuando el estadstico de levene es significativo (habitualmente, p < 0.05) Lo que supone el incumplimiento del supuesto de homocedasticidad. De acuerdo con Hair, "el uso de esta prueba es particularmente recomendable ya que es la menos afectada por la desviaciones de la normalidad, otro de los problemas que ocurre con frecuencia en la regresin"

b) El test de Goldfield y Quant. Consiste en la reordenacin de la "n" observaciones de la muestra de forma creciente, de acuerdo con las varibles independientes que se sospeche que covariar con la varianza del trmino de error. Despues se elimina el 25% de los casos de centro de la distribucin . Igual nmero se elimina tambin de los casos que se hallan por debajo y por encima del medio de la distribucin. Requiere en consecuencia, la divisin de las observaciones en dos grupos. Para cada uno de ellos se realiza un anlisis de regresin OLS. Despues se comparan sus respectivos residuos cuadrados(RSS) en relacin con sus grsdos de libertad. Si el cociente entre ambos resulta ser significativo de acuerdo con el estadstico de comprobacin F, puede afirmarse, al nivel de significatividad elegido, el incumplimiento del supuesto de homocedasticidad.

c) La d de Durbin-Watson.

8.- AUSENCIA DE COLINEALIDAD

Para hacer posible la medicin de los efectos de la variable independiente sobre la dependiente es imprescindible la ausencia de colinealidad; es decir, de correlacin entre las variables independientes incluidas en el modelo de regresin.

La existencia de correlacin elevada entre dos o mas variables independiente (multicolinealidad) repercute de manera directa, en los errores tipicos de los coeficientes de regresin de dichas variables. Estos se ven idenbidamente aumentados , lo que provoca que la estimacin de los coeficientes sea menos precisa (coeficiente infiables), con el consiguiente aumento de los intervalos de confianza . El modelo de regresin puede ser significativo (en virtud de la razn F, que mide la significancia de los coeficientes de correlacin cuadrada mltiple o coeficientes de determinacin R2, y en cambio no ser significativo los coeficientes de regresin individuales de las variables muy colineales que la componen.

La colinealidad elevada provoca un aumento en la variabilidad de los coeficientes de regresin estimados (que informan sobre cual es la variacin de Y por cada unidad de variacin de Xi, manteniendo constante las demas variables independientes del modelo). Este aumento del error tpico del coeficiente supone un incremento en la varianza de Y (R2). Pero al mismo tiempo, aumenta el error de estimacin, con la perdida de significancia estadstica de los coeficientes de regresin de las variables muy colineales. Esta significancia se mide con estadstico t de student, que se obtiene del coeficiente estimado dividido por el error de estimacin, de tal manera que al aumentar el error, t es nos significativo.

La multicolinealidad no afecta la obtencin del modelo, si afecta la posibilidad de inferencia.

La multicolinealidad debe aceptarse que existe en grados, solo se convierte en problema cuando es elevada.

La multicolinealidad puede detectarse en distintas fases del anlisis de regresin : en la parte preliminar, en la matriz de correlaciones, durante su ejecucin, en los coeficientes de regresin y en sus errores tpicos. Y mediante los estadsticos de tolerancia y el llamado factor de inflacin de la varianza (FIV), que los detallamos.

LA MATRIZ DE CORRELACION

Muestra la correlacin de cada variable independiente por separado, con la depediente y tambien con las demas independientes.

Un coeficiente de correlacin 0.00 indica la inexistencia de colinealidad, mientras que 1.00 la existencia de una colinealidad completa.

A partir de 0.6 suele considerarse que la colinealidad puede traer problemas, si es mas de 0.80 se dice que las variables se hallan muy correlacionadas.

Sin embargo hay que tener en cuenta otros factores, como el tamao de la muestra, en muestras pequeas una correlcin de 0.70 puede afectar la estimacin de los coeficientes, y en una muestra grande 0.85 puede no afectar.

Otras afirmaciones, " una correlacin de 0.5 entre dos variables predictoras tiene poco impacto sobre el error tpico, pero una correlcin de 0.95 requiere tres veces el tamap de la muestra, comparado con tener una correlacin cero. Con 0.99 se requiere 7 veces el tamao de muestra. Entonces a partir de 0.95 se est ante un problema de colinealidad grave.

La existencia de multicolinealidad tambin puede detectarse durante el anlisis cuando se observen errores tpicos elevados en coeficientes de regresin de variables que se espera sean importantes predictores de la variable dependiente. La obtencin de errores tpicos inflados redunda en la prdida de significacin estadstica de los coeficientes de regresin.

No obstante, hay que recordar que la existencia de errores tpicos elevados no siempre es indicativa de colinealidad elevada. Puede ser consecuencia de haber estimado dicho coeficiente con un tamao de muestra pequeo y/o la variable analizada tenga una varianza elevada.

Alternativamente se puede evaluar la existencia de multicolinealidad realizando un anlisis de regresin con una variable por vez, incluso puede ser independiente, pero para esta finalidad se lleva a cabo una regresin y se obtiene el R2, si su valor es cercano a uno se puede decir que esa variable tiene elevada multicolinealidad. La mayoria de paquetes estadisticos proporcionan esos valores llamandolos la tolerancia o a su inverso el factor de inflacin de la varianza (FIV).

Otra forma de ver la multicolinealidad es tomando en cuenta los errores tpicos, si son elevados sugieren colinealidad, aunque no siempre es as.

Un procedimeinto alternativo es hacer regresin de para cada variable independiente por separado, si el R 2 se aproxima a 1 hay multicolinelidad, si no lo hay es cercano a cero.

La tolerancia es el recproco del factor de inflacin de la varianza (FIV)

TOLi = 1 - R2iEl punto de corte es 0,1, el valor peoer es 0 y el mas adecuado 1.

Factor de inflacin de la varianza (FIV), es el reverso de la tolerancia se define como:

FIVi = TOLi -1 - 1/ 1- R2iLos valores cercanos a 1 indican inexistencia de correlacin y los superiores a 10 indican multicolinealidad severa.

Los remedios para la multicolinealidad, el mas radical eliminar una de las variables correlcionadas, el otro es son las variable colinealies construir un sola variable que las represente. Tambin se puede elegir aumentar el tamao de muestra.

La eliminacin de la variable independiente, que presenten elevado grado de colinealidad. Es el remedio mas drstico.

Para Wittink (1988) " Omitir una variable predictora relevante puede causar severos problemas, tal omisin es un ejemplo de Error de especificacin". Por lo que se debe recurrir a la combinacin antes de la eliminacin.

Otros autores dicen que no se produce gran prdida de informacin, esto depende entonces del los que est estudiando,. Y si las varible correlacionadas son expresin de un fenmeno, se puede eliminar o juntar en una variable nica.

9.- INDEPENDENCIA DE LOS TRMINOS DE ERROR

Este ltimo supuesto bsico del anlisis de regresin lineal concierne a la necesidad de que los trminos del error no estn correlacionados . El valor de la variable dependente en cada caso concreto ha de ser independiente del resto. Si las observaciones son independientes unas de otras, los residuos sucesivos tampoco han de estar corrlecionados. En caso contrario, se tiene que hablar de correlcin serial de los residuos, o de autocorrelacin.

A diferencia de la heterosedasticidad (que es habitual en los diseos de investigacin transversal o seccionales), la autocorrelacin se produce, con mayor frecuencia, en lops estudios longitudinales. Estos se caracterizan porque la recogida de informacin se produce en forma secuencial, en periodos de tiempo sucesivos, planificados en el momento del diseo del proyecto de investigacin. La finalidad es analizar la evolucin del fenmeno que se investiga a lo largo del tiempo. Como la informacin referida a unas mismas variables se recoge en dos o mas momentos temporales, el valor que pueda tener una variable en un momernto probablemente no es independiente del valor adquiri eb un tiempo anterior. Esto se evidencia ms, cuando los dos procesos de recogida de informacin acontecen en un periodo corto de tiempo y sobre todo, si el diseo de investigacin es longitudinal de panel. El recoger un mismo tipo de informacin, de unas mismas personas, en tiempos sucesivos, puede producir el efecto no deseado del aprendizaje.

Segn Schroeder (1986) las tres causas de autocorrelacin son:

1.- La omisin de una variable explicativa importante

2.- el empleo de una forma funcional incorrecta

3.- La tendencia de los efectos a persistir a lo largo del tiempo o, para las variables dependientes a comportarse ciclicamente . Tal vez por ello la autocorrelacin mas comn en datos de series temporales.

Entre las consecuencias negativas de la autocorrelacin destaca,en primer lugar, su efecto pernicioso en la significatividad de los coeficientes de regresin. La autocorrelacin provoca una subestimacin del error tpico. Este ser inferior al real, es dceir ni no hubiera autocorrelacin. La consecuencia inmediata es la obtencin de t inflado de lo que corresponde, puede entonces el coeficiente b no ser significativo, y resultar serlo, lo que invalida el modelo de regresin.

La identificacin de la autocorrelacin, es posible por medio de los grficos de residuos, mostrar que los residuos se colocan en orden secuencial.

Los supuestos de independencia de los trminos de error se cumple, cuando los residuos se distribuyen de una forma aleatoria. Es decir, no muestran ninguna pauta consistente.

La autocorrelacin Puede identificarse con la ayuda de estadsticos, el mas aplicado es el de Durbin-Watson , Este coeficiente se calcula a partir de los residuos estundentizados (Et), en cada caso mediante la frmula:

Con el coeficiente de Durbin-Watson,as definido, se comprueba si la correlcin serial ( a cada residuos Et se le resta el inmediatamente precedente, E t-1) es nula. La autocorrelacin es positiva ( los trminos del error se hallan positivamente correlcionados ) cuando la diferencia entre los residuos sucesivos es pequea . El valor "d" es pequeo, En caso contrario la autocorrelacin es negativa, El valor de no autocorrelacin esta entre 1.5 y 2,5.

Si hay autocorrelacin, el remedio mas utilizado es hacer uso de la regresin de mnimos cuadrados generalizados.

ANALISIS DE LOS RESIDUOS EN LA COMPROBACIN DE LOS SUPUESTOS DE REGRESION

En regresin lineal se entiende por residuo a la diferencia entre los valores observados de la variable dependiente ( Yi) y sus correspondientes valores predichos , a partir de la ecuacin de regresin (i) para cada uno de los casos analizados ( siendo i = 1, 2, 3...n). Tambien se puede decir "residuo es lo que queda una vez que un modelo se ha ajustado a los datos ":

Ei = Yi - i

No debe confundirse el residuo (denotado por Ei o ri, en algunos textos) con el error de prediccin ( (i ). El error de prediccin, representa la diferencia entre el valor verdadero de Yi en la poblacin (no en la muestra analizada) y su correspondiente valor estimado mediante la ecuacin de regresin. El valor real de la variable dependiente en la poblacin puede diferir del observado en la muestra, lo que denota la existencia de error de medicin en la investigacin realizada.

Tipos de residuos, existen una gran diversidad de residuos, en seguida los presentamos: asi mismo el modo de obtenerlos en STATA

residuals calculates the residuals.

rstandard calculates the standardized residuals.

rstudent calculates the studentized (jackknifed) residuals.

a) Residuos brutos (o "raw residuals). Estos se ajustan a lo que de primera intencin se entiende por residuo: la diferencia entre los valores observados de la variable dependiente ( Yi) y su valor predicho (i). Cuando mas grande es la diferencia peor es el ajuste a la ecuacin de regresin: Ei = Yi - i. La dificultad que tienen es que dependen de las unidades de medicin de la variable dependiente.

. regress weigth heigth . predict residuos, residual

b) Residuos estandarizados ("standardized residuals"). Tratan de paliar la diferencia observada en los residuos brutos, cuya cuantia se halla relacionada a las unidades de medicin, de la variable dependiente. Para ello se divide el residuo bruto (Ei) entre la estimacin de su desviacin tpica (S). De esta forma la magnitud del residuo queda expresado en unidades de desviacin tpica por encima (signo positivo) o por debajo de la media ( si es negativo).

Donde n representa el tamao de la muestra, "p" el nmero de variables independientes incluidas en la regresin. Esta tipficacin de los reiduos ( que quedan convertido en la misma unidad de medicin: unidades de desvciacin tpica) facilita la comparacin de residuos y de modelos de regresin distintos. El rango de los residuos estandarizados va de -3 a 3, tienen ( = 0 y ( = 1.

En STATA se puede obtenerlos directamente despues de la regresin, asi:

. predict redstand, rstandard

c) Residuos estudentizados ("Studentized residuals"). Se define de manera similar a los estandarizados: El cociente del residuo bruto y su desviacin tpica estimada. A esta definicin comn (con el residuo estandarizado) se aade, la consideracin de la distancia de cada valor de la variable independiente respecto a su media; " di,i ", que expresa la distancia habida entre el punto i y el punto medio.

La variabilidad de los valores predichos no es igual en todos los puntos, sino que varia con los valores de la variable independiente y de la proximidad de sta respecto de la media. La variabilidad en los valores predichos es menor, cuando la variable independiente se aproxima a la media. Por el contrario, aumenta para los valores mas extremos de la variable independiente. Estas condiciones sobre la variabilidad cambiante se materializa en la formulacin de los residuos estundentizados, al dividir el residuo bruto por la desviacin tpica estimada del residuo en ese punto.

Los residuos estudentizados se ajustan a la distribucin "t" de student, con n-p-1 grados de libertad. Los valores "di,i " tambin suelen denotarse como "hi,i" . Esta cantidad, que tambin se le llama "leverage" indica el nmero de elemento "i" de la diagonal de la matriz H, (hat matriz)l Las observaciones con un valor "hi,i >2p/n" deberan observarse como observaciones potencialmente muy influyentes en la ecuacin de regresin. Lo mismo acontece con los valores de "Ei,i >2".

d) Residuo eliminado estandarizado (Studentized deleted residuals). Difiere del anterior en que, al calcular el error tpico residual, no se incluye el isimo residuo (-i), De esta forma se obtiene una distribucin del estadstico "t" de student con "n-p-2" grados de libertad.

Los valores de cualquiera de estos cuatro residuos se aaden a grficos que faciliten la comprobacin inmediata de los supuestos de la regresin. Los grficos de residuos mas comunes son los que representan los residuos contra:

Una de la variables independientes Xi

Los valores predichos de la variable dependiente

La suma ponderada i de las variables independientes Xi

Los grficos mas utilizados son los del segundo tipo. Este grfico no debe mostrar ninguna tendencia.

La adecuacin del modelo de regresin puede, comprobarse mediante el "casewise plot". Este es un grfico de residuos, aunque por cada caso y en forma estandarizada. Como proporciona informacin de cada caso analizado ( su valor predicho, i , con los residuos correspondientes, se usa cuando el tamao de muestra es elevado. El nmero de pginas grficos aumenta con el nmero de casos lo que dificulta su lectura.

PRESIONES SANGUNEAS NORMALESEdad / Presin sistlica (mmHg) /Presin diastlica (mmHg)Lactante / 60 90 / 30 622 aos / 78 112 / 48 788 aos / 85 114 / 52 8512 aos / 95 135 / 58 88Adulto / 100 140 / 60 90

Para los humanos, a medida que la edad aumenta, la presin arterial diastlica se incrementa

Para los humanos, un incremento en la edad, trae consigo un incremento de la presin arterial diastlica de manera proporcional a la edad

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

_1173470373.unknown

_1310282400.unknown

_1310282593.unknown

_1310376418.unknown

_1173472331.unknown

_1173473522.unknown

_1172392319.unknown

_1172392383.unknown

_1172392248.unknown

_1152901973.unknown