Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del...

14
Supuesto 6. El numero de observaciones n debe ser mayor que el numero de parámetros por estimar.- Sucesivamente, el numero de observaciones n debe ser mayor que el numero de variables explicativas. Este supuesto no es tan ingenuo como parece. En el ejemplo hipotético de la tabla anterior, imaginemos que solo había el primer par de observaciones sobre Y y X. De esta sola observación no hay forma de estimar los dos parámetros desconocidos, β1 y β2. Se necesitan por lo menos dos pares de observaciones para estimar dichos parámetros.

Transcript of Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del...

Page 1: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Supuesto 6.El numero de observaciones n debe ser mayor que el numero de parámetros por estimar.- Sucesivamente, el numero de observaciones n debe ser mayor que el numero de variables explicativas.

Este supuesto no es tan ingenuo como parece. En el ejemplo hipotético de la tabla anterior, imaginemos que solo había el primer par de observaciones sobre Y y X. De esta sola observación no hay forma de estimar los dos parámetros desconocidos, β1 y β2. Se necesitan por lo menos dos pares de observaciones para estimar dichos parámetros.

Page 2: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

SUPUESTO 7.LA NATURALEZA DE LAS VARIABLES N: No todo las valores X en una muestra determinada deben ser igual. Técnicamente var(x) debe ser un número positivo además, no puedo haber valores atípicos de la variable X, es decir valores grandes en relación con el resto de las observaciones.El supuesto de variabilidad en los valores de X tampoco es tan ingenuo como parece. Si todos los valores de X son idénticos Xᵢ=X(por qué) y el denominador de esta ecuación es cero. Lo que importa la estimación de β2 y. por consiguiente, de β1por intuición, pronto advertiremos la razón por la que este supuesto es importante.El requisito de que no están valores atípicos de X es para evitar que los resultados de la regresión estén dominados por tales valores atípicos. Si hay algunos valores de x que, por ejemplo, sean 20 veces el promedio de los valores de x, las líneas de regresión estimadas con o sin dichas observaciones serian diferentes. Con mucha frecuencia, estos valores atípicos son el resultado de errores humanos de aritmética o de mesclar muestras de diferentes poblaciones.

Page 3: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Advertencia sobre estos supuestosLa pregunta del millón de dólares es: ¿son realistas todos estos supuestos? La “realidad de los supuestos” se cuestiona desde hace muchos años en la filosofía de las ciencias. Algunos argumentan que no importa si los supuestos son realistas, sino las predicciones basadas en esos supuestos. Entre quienes apoyan la “tesis de la irrelevancia de los supuestos” sobre sale Milton Friedman. Para el, la irrealidad de los supuestos es una ventaja positiva: “para que una hipótesis se importante…. Debe ser descriptivamente falsa en sus supuestos”.Es posible coincidir o no completamente con este punto de vista, pero recuerde que en cualquier estudio científico se plantea ciertos supuestos porque facilitan el desarrollo de la materia en paso graduales, no porque sean necesariamente realistas en el sentido de que reproduzcan la realidad exactamente. Como señal un autor, “… si la simplicidad es un criterio deseable de un buena teoría, toda las buenas idealizan y simplifican de manera exagerada”.

Page 4: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Precisión o errores estándar de las estimaciones de mínimos cuadradosDe las ecuaciones anteriores es evidente que las estimaciones de mínimos cuadrados son función de los datos muéstrales. Pero, como es probable que los datos cambien entre una muestra y otra, los valores estimados cambiaran ipso facto. Por consiguiente, se requiere alguna medida de “confiabilidad” o precisión de los estimadores β1 y β2. En estadística. La precisión de un valor estimado se mide por su error estándar (ee). Dados los supuestos gaussianos, se muestra que los errores estándar de las estimaciones de MCO pueden obtenerse de la siguiente manera:

Page 5: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

El error estándar no es otra cosa que la desviación estándar de la distribución muestral del estimador, y la distribución muestral de un estimador es tan solo una probabilidad o distribución de frecuencias del estimador, es decir, una distribución del conjunto de valores del estimador obtenidos de todas las muestras posibles de igual tamaño de una población dada. Con la distribución muéstrales se infieren los valores de los parámetros de la población, con base en los valores de los estimadores calculados a partir de una o más muestra.

Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4.Todas las cantidades que entran en las anteriores ecuaciones, excepto o², pueden estimarse a partir de los datos. Como se muestra, a continuación la misma o² se estima mediante la fórmula:

Page 6: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Donde o² es el estimador de MCO de la verdadera pero desconocida o², y donde la expresión n – 2 es conocida como el número de grados de libertad (gl), con Σû²ᵢ como la suma de los valores residuales al cuadrado o la suma de cuadrados de los residuos (SCR).Una vez conocida Σû²ᵢ, o² se calcula con facilidad. Σû²ᵢ se obtiene, de la siguiente expresión.

Page 7: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

En comparación con anteriores ecuaciones, es fácil emplear esta ecuación, pues no requiere calcular ûᵢ por cada observación, a pesar de la utilidad esencial de tal cálculo Como

Otra expresión para calcular Σû²ᵢ es

Por cierto, note que la raíz cuadrada positiva de o²

Se conoce como el error de estimación o el error estándar de la regresión (ee). No es más que la desviación estándar de los valores Y alrededor de la línea de regresión estimada, la cual suele servir como medida para asumir la “bondad del ajuste” de dicha línea.

Page 8: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Antes mencionemos que, dado Xᵢ, o² representa la varianza (condicional) de uᵢ y Yᵢ. Por tanto, el error estándar de la estimación también se denomina desviación estándar (condicional) de uᵢ y Yᵢ. Sin duda, como es común, o² representan la varianza incondicional y la desviación estándar incondicional de Y, respectivamente.Observe las siguientes características de las varianzas (y por consiguiente, de los errores estándar) de β1 y β2. La varianza de β2 es directamente proporcional a o² pero inversamente proporcional a

Σx²ᵢ. Es decir, dada o², entre más grande sea la variación en los valores X, menor será la varianza de β2 y, por tanto, mayor será la presión con la cual estimar β2. En resumen, dada o² si hay una variación sustancial en los valores de X, β2 se mide en forma más precisa que cuando las X, no varían sustancialmente. También, dado Σxᵢ², entre mayor sea la varianza de o², mayor será la de β2. Advertida que a medida que aumenta el tamaño n de la muestra, lo hace también el número de términos en la suma, Σxᵢ². A medida que aumenta n, también es mayor la precisión para estimar β2.(¿porque?)

La varianza de β1 es directamente proporcional a o² y a ΣXᵢ², pero inversamente proporcional a Σxᵢ² y el tamaño n de la muestra.

Como β1 y β2 son estimadores, no solo varían de una manera de una muestra a otra, sino también, en una muestra a otra, sino también, en una muestra dada, es probable que dependan entre sí; esta dependencia se mide por la covarianza entre ellos.

Page 9: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Cov(β1, β2) = - X var(β2)= - X (σ )

Como var (β2) es siempre positiva, al igual que la varianza de cualquier variable, la naturaleza de la covarianza entre β1 y β2 depende del signo de X. si X es positiva, entonces, como indica la formula, la covarianza será negativa. así, si el coeficiente de la pendiente β2 esta sobreestimado (es decir, la dependiente es muy pronunciada), el coeficiente del intercepto β1 estará subestimado (es decir, el intercepto será muy pequeño).¿Cómo permiten las varianzas y los errores estándar de los coeficientes estimados de regresión evaluar la confiabilidad de estos valores estimados? Este es un problema de la inferencia estadística, y lo trataremos en los capítulos que siguen.

Page 10: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Propiedades de los estimadores de mínimos cuadrados teoría de Gauss-Markov

Como ya mencionamos, dados los supuestos del modelo clásico de regresión lineal, las estimaciones de mínimo cuadrados poseen algunas propiedades ideales u optimas, las cuales están contenidas en el famoso teorema de Gauss-Markov. Para entender este teorema necesitamos considerar la propiedad del mejor estimador lineal insesgado. Se dice que un estimador, por ejemplo, el estimador de MCO β2, es el mejor estimador lineal insesgado (MELI) de β2 si se cumple lo siguiente:1.- Es lineal, es decir, función lineal de una variable aleatoria, como la variable dependiente Y en el modelo de regresión.2.- Es insesgado, es decir, su valor promedio o esperado, E(β2). Es igual al valor verdadero, β2. 3.- Tiene varianza mínima dentro de la clase de todos los estimadores lineales insesgados; un estimador insesgado con varianza mínima se conoce como estimador eficiente.En el contexto de regresión puede probarse que los estimadores de MCO son MELI. Esta es la clave del famoso teorema de Gauss-Markov, el cual se puede enunciar de la siguiente forma:

Page 11: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Teorema de Gauss-MarkovDados los supuestos de modelo clásico de regresión lineal, los estimadores de mínimos cuadrados, dentro de la clase de estimadores lineales ingresados, tiene variación mínima, es decir, son MELI.Lo que todo esto significa se comprende con ayuda de la figura siguienteEn la figura a se presenta la distribución muestral del estimador de MCO β2, es decir, la distribución de los valores asumidos por β2 en experimentos repetidos de muestreo.

Page 12: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

β2

Figura 1

a.- Distribución muestral de β2

Distribución muestral del estimador de MCO β2 y el estimador alterno β2.

E(β2) = β2 β2

b.- Distribución muestral de β2*

E(β2*) = β2

Β2, β2*

c.- Distribución muestral de β2 y β2*

β2

Β2*

β2

Page 13: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Por conveniencia, supusimos que β2 está distribuido simétricamente (en el capítulo 4 abundaremos al respecto). Como indica la figura, la medida de los valores β2, E(β2), es igual al verdadero β2. En esta situación se dice que β2 es un estimador alterno de β2 obteniendo como otro método (es decir, diferente al MCO). Por conveniencia, suponga que β2. Al igual que β2, es insesgado, es decir, que su valor promedio o esperado es igual a β2. Supongamos además que β2 y β2 son estimadores lineales, es decir, funciones lineales de Y ¿Cuál estimador escogería, β2 o β2?

Page 14: Donde var=varianza, ee=error estándar y O² es la constante o varianza homoscedastica de Uᵢ del supuesto 4. Todas las cantidades que entran en las.

Para responder, sobre ponga las dos figuras, como en la figura c). Es obvio que se viene β2 y β2 son insesgados, la distribución de β2 está más difusa o dispersa alrededor del valor de la media que la distribución β2 está más difusa o dispersa alrededor del valor de la media que distribución de β2. En otras palabras, la varianza de β2 es mayor que la varianza de β2. Ahora, dados dos estimadores a la vez lineales e insesgados, sería preferible el estimador con la menor varianza, porque es probable que este más cercano a β2, que el estimador alterno. En resumen, se escogería el estimador MELI.

Las propiedades estadísticas que acabamos de exponer se conocen como propiedades de muestras finitas estas propiedades se mantienen sin importar el tamaño de la muestra en que se basen los estimadores. Más adelante tendremos ocasiones de considerar las propiedades asintóticas, es decir, propiedades validas solo si el tamaño de nuestra es muy grande (técnicamente ablando, infinito).