Post on 10-Apr-2015
description
Análisis de regresión para sociólogos
con aplicaciones en RRegistro de propiedad intelectual Nº 192374, CHILE.
Christian Castro NavarroSociólogo U. de Chile
Santiago, 11 de Junio del 2010christiancastro@vtr.net
Prefacio.
El análisis de regresión es una herramienta estadística tradicionalmente utilizada por los economistas. Sin embargo, la utilidad de esta técnica trasciende disciplinas y resulta clave para el sociólogoinvestigador al ayudarlo a predecir dentro de cierto rango de probabilidad la ocurrencia de alguna situación social o bien, determinar la influencia que múltiples variables ejercen sobre otra. La utilidad del análisis de regresión en sociología es amplia, siendo aplicable al estudio de los mercados, del comportamiento desviado, la ciencia política, la demografía, la epidemiología y la pobreza, entre otros (gran parte de los ejemplos se han hecho sobre estos temas).
Siendo esto así, este texto intenta ser una referencia para estudiantes y profesionales de las ciencias sociales que en sus investigaciones necesiten aplicar un análisis de regresión a la multiplicidad de problemas que el complejo mundo social nos ofrece.
El presente trabajo se divide en cuatro secciones. La primera aborda el análisis de regresión simple, explicándolo paso a paso junto con los diferentes test asociados a él. La segunda sección generaliza este análisis al modelo de regresión múltiple. La tercera sección está dedicada al estudio de los problemas que con más frecuencia se presentan en el análisis de regresión (autocorrelación, heterocedasticidad y multicolinealidad) y la final, desarrolla 3 aplicaciones (formas funcionales, variables dummy y modelos de regresión con respuesta cualitativa).
El único requisito para comprender a cabalidad este texto es el conocimiento de las matemáticas y estadística elemental entregado en la enseñanza media (herramientas de cálculo sólo han sido utilizadas al derivar las ecuaciones normales y al describir la distribución acumulativa normal como la integral de la función gaussiana).
Hemos utilizado para el tratamiento computacional de datos el paquete estadístico R (de libre distribución en la página http://www.rproject.org). Se ha elegido porque es tanto un paquete estadístico como un lenguaje de programación, con lo que su versatilidad es amplia, su capacidad para generar gráficas de calidad es enorme y es gratuito. En negrita de color azul se han señalado todas las instrucciones con R así como también los ejemplos.
Christian Castro NavarroSantiago, 11 de Junio del 2010
A G.N.S., G.C.T. y G.C.N.
Índice
ÍNDICE Pp
1 EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS) 1
1.1 INTRODUCCIÓN 11.1.1 Las presunciones del modelo de regresión. 1
1.2 PRIMERAS CONSIDERACIONES 2Ejemplo Nº1: Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países. 21.2.1 Primera interpretación de resultados. 31.2.2 Linealización de variables. 4
1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO) PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES 7Ejemplo Nº2: Robos por cada 1000 habitantes y % de población viviendo bajo la pobreza en condados
con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. 71.3.1 Graficando los residuos estandarizados. 9
1.3.2 La varianza residual o cuadrado medio del error (CME): S29
1.3.3 Algunas propiedades de la regresión obtenida por MCO. 101.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS 10
1.4.1 Varianza de los estimadores por MCO de los parámetros estimados b0 y de b1 10
Ejemplo Nº3: Suicidio y desempleo en Japón (19532004). 121.4.2 Test de significación para los parámetros estimados. 131.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de
los parámetros reales. 141.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE 14
1.5.1 Intervalos de confianza para los parámetros estimados. 14Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños
viviendo en familias lideradas por un solo padre (2004). 151.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta. 161.5.3 Estimación del intervalo de predicción de los valores particulares de la variable respuesta. 18
1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN 191.6.1 El coeficiente de determinación: R2 19
Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas del Gran Santiago (2006). 201.6.2 El coeficiente de correlación r. 211.6.3 Uso del análisis de varianza. 211.6.4 La estadística F. 22
1.7 PROPIEDADES DE LOS PARÁMETROS ESTIMADOS BAJO EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia. 24 1.7.1 Sesgo. 241.7.2 Eficiencia. 241.7.3 Consistencia. 25
1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE 25
2 EL ANÁLISIS DE REGRESIÓN MÚLTIPLE (ARM) 27
2.1 INTRODUCCIÓN 272.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables
independientes o explicativas. 282.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices. 292.1.3 Ejemplo y trabajo con matrices en R. 30Ejemplo Nº6: Regresión lineal de los años de escolaridad sobre el % de pobreza, el resultado del SIMCE
en matemáticas para los segundos medios y el % de desocupación para las comunas de Santiago el año 2006. 30
2.2 INTERVALOS DE CONFIANZA 31
2.2.1 La varianza residual: S231
2.2.2 La varianza de los parámetros estimados. 322.2.3 Los valores t de los parámetros estimados. 322.2.4 Construcción de los intervalos de confianza para los parámetros estimados. 33
2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE 332.3.1 R2 ajustado o R2 34
2.4 PREDICCIÓN 352.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción
toman los valores específicos [1, X1i , X2i , ∙∙∙ , Xki] 35
2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R. 35Ejemplo Nº7: El índice de desarrollo humano. 352.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción
toman los valores específicos [1, X1i , X2i ,∙ ∙∙ , Xki] 36
2.4.2.1 Cálculo de los intervalos de predicción usando el álgebra de matrices con R. 37
i
2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F 382.5.1 La estadística F. 38Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU. 382.5.2 Tabla ANOVA para el modelo lineal general. 402.5.3 Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R. 40
2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP) 412.7 ANÁLISIS DE LOS RESIDUOS 42
3.1 AUTOCORRELACIÓN 44
3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN? 44
3.1.1.1 Autocorrelación en datos de sección transversal. 453.1.1.2 Autocorrelación en series de tiempo. 453.1.1.3 Algunos patrones de autocorrelación. 45
3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN? 463.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN? 47
3.1.3.1 La estadística d de DurbinWatson. 473.1.3.1.1 Los pasos para aplicar la prueba d. 49
3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa. 493.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva. 51Ejemplo Nº9: Suicidio y desempleo en Japón (19532004). 52
3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN 543.1.4.1 Corrección de la autocorrelación de primer orden positiva. 55
3.2 HETEROCEDASTICIDAD 57
3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD? 573.2.1.1 Razones por las que puede ocurrir la heterocedasticidad. 57
3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD? 583.2.2.1 Método informal (gráfico). 583.2.2.2 Métodos formales. 59
3.2.2.2.1 El test de Park. 59Ejemplo Nº10 Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU
entre 1960 y el 2007. 593.2.2.2.2 El test de GoldfeldQuandt. 60
Ejemplo Nº11: Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos de policía de California durante el año 2007. 613.2.2.2.3 El test de KoenkerBassett. 63
Ejemplo Nº12: Obesos versus actividad física. 633.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD 64
Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10. 65
3.3 MULTICOLINEALIDAD 66
3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD? 663.3.1.1 ¿Por qué se produce? 67
3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD. 673.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD? 68
3.3.3.1 El factor de inflación de la varianza. 68Ejemplo Nº14: Índice de marginación, población indígena y % de analfabetismo en los municipios del
Estado de Chiapas, México. 69Ejemplo Nº15: Función CobbDouglas de la economía chilena (19862000). 71Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (19601980). 72
3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD 74
4.1 FORMAS FUNCIONALES 76
4.1.1 INTRODUCCIÓN 764.1.2 FORMA DOBLELOG 76
4.1.2.1 La función CobbDouglas. 784.1.2.2 La definición de la elasticidad. 78 Ejemplo Nº17: Función CobbDouglas de la economía chilena (19862000). 79
4.1.3 FORMA SEMILOG 80 Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960. 82
4.1.4 FORMA POLINOMIAL 83Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000. 85Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (19942004). 86
4.1.5 FORMA RECÍPROCA 87Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo
para 42 países. 89
ii
Índice
4.2 VARIABLES DUMMY 91
4.2.1 INTRODUCCIÓN 914.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA). 91
4.2.2.1 Modelos con solo una variable predictora cualitativa. 91Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU. 914.2.2.2 Modelos con dos variables predictoras cualitativas. 93Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de Texas. 93
4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA) 94Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas. 94
4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL 95Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre
la esperanza de vida y el PIB. 96 4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES DUMMY 98
4.3 MODELOS DE ELECCIÓN BINARIOS 99
4.3.1 INTRODUCCIÓN 994.3.2 EL MODELO LOGIT 99
Ejemplo Nº26: Pobreza y religión en Irlanda del Norte. 1004.3.2.1 Interpretación de los coeficientes. 1014.3.2.2 Intervalos de confianza para los coeficientes estimados. 1014.3.2.3 Significación estadística de los coeficientes. 1014.3.2.4 Contraste de hipótesis para los coeficientes. 102
4.3.2.4.1 La función de verosimilitud. 1024.3.2.4.2 Estadístico de la Razón de Verosimilitud o chi2. 1024.3.2.4.3 Bondad del ajuste. 103
4.3.2.5 Características del modelo Logit. 1034.3.2.6 Algunas observaciones para el modelo Logit. 103
4.3.3 EL MODELO PROBIT 104Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países. 1044.3.3.1 Interpretación de los coeficientes. 1054.3.3.2 Intervalos de confianza para los parámetros estimados. 1064.3.3.3 Contraste de hipótesis del modelo. 106
4.3.4 Modelos logit y probit. ¿Cuál es preferible? 107
5 BIBLIOGRAFÍA 108
6 BASE DE DATOS i
iii
Análisis de regresión simple
EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS)1.1 INTRODUCCIÓN
El Análisis de Regresión Simple es el estudio de la influencia cuantitativa que sobre una variable dependiente (regresando o respuesta) denominada Y1, ejerce otra independiente X (regresor o estímulo).
De lo que se trata es extraer de grandes cantidades de datos las características esenciales de una relación que no es evidente, ajustando a ellos una ecuación empírica que sea razonablemente precisa para entre otras cosas, poder predecir el comportamiento de Y según varíe el de X.
Suponemos esta relación lineal (asume la forma de la ecuación clásica de una línea recta) a la cual le adjuntamos un error asociado.
Como no se espera que estas variables hayan sido observadas bajo condiciones completamente controladas, para el análisis de regresión existen una multiplicidad de tests que prueban la confiabilidad de los resultados obtenidos. En esta sección y en la siguiente, dedicada al Análisis de Regresión Múltiple, los estudiaremos uno a uno.
La ecuación de regresión simple se define de la siguiente manera: Y i= b0b1X ii (1) GRÁFICA Nº1
Ésta es la ecuación real a la cual sin embargo sólo nos podemos aproximar aplicando una metodología. Ésta son los Mínimos Cuadrados Ordinarios (MCO), con los cuales podemos hacer una estimación de los parámetros o coeficientes reales
b0 y b1 . Estos parámetros estimados se denominan b0
y b1 . La ecuación de regresión estimada resulta entonces:
Y i= b0b1X ie i
(2)
donde e i se denomina residuo. Más adelante lo estudiaremos en profundidad.
El método de MCO es una técnica que nos permite encontrar las estimaciones de los parámetros en la ecuación de regresión, minimizando la suma de los cuadrados2 de las diferencias entre los valores observados de la variable respuesta
Y i y aquellos proporcionados por la ecuación de predicciónY i
, esto es, minimizando la sumatoria de los cuadrados de los
residuos. Lo que se busca es ajustar la mejor línea recta a la muestra de observaciones X e Y. Involucra minimizar la suma
vertical3 de los cuadrados de las desviaciones de los puntos hacia la línea de regresión4.
1.1.1 Las presunciones del modelo de regresión.
El modelo de regresión lineal clásico (MRLC) necesita de 10 presunciones básicas:
Supuesto 1: El modelo de regresión es lineal en los parámetros (los bi de la ecuación de regresión), esto es, ningún parámetro en el modelo aparece como un exponente ni es multiplicado o dividido por cualquier otro parámetro.
Supuesto 2: Se asume que X no es aleatorio. Supuesto 3: El error i correspondiente a cualquier valor X i , posee media condicional cero. De esta
manera, Y i= b0b1X i nos da el valor promedio de Y.Supuesto 4: Existe homocedasticidad, esto es, dado un valor de X i , la varianza condicional de i es
1 El estudio de la regresión sobre una variable dependiente cualitativa lo haremos en la sección 4, capítulo 3: 'Modelos de elección binarios'.2 Consideramos los cuadrados en el método de MCO, pues de lo contrario las desviaciones de igual tamaño pero opuestas en signo se anularían. Además, con esto a las grandes desviaciones les entregamos un mayor peso que a las pequeñas.3 Se consideran las desviaciones verticales porque intentamos explicar o predecir los movimientos en la variable dependiente Y, los cuales se miden a lo largo del eje vertical.4 Con la instrucción segments graficamos en R las líneas de los puntos a la recta de regresión estimada:>a1<lm(a$V2~ a$V1)>segments(a$V1, fitted(a1), a$V1, a$V2, col="red")
1
la misma para todas las observaciones. Las poblaciones Y i correspondientes a los diversos valores X i tienen la misma varianza: Var i= 2 con lo que los coeficientes de la regresión son eficientes5 y los test de hipótesis estadísticas sobre ellos no sesgados6.
Los supuestos 3 y 4 nos indican que el error i se distribuye normalmente: N 0; 2 . Esto implica
que también Y i y los parámetros de la regresión se distribuyen normalmente, lo que nos permite hacer pruebas de significación estadística.
Supuesto 5: No existe autocorrelación entre los errores. Esto es, dado dos valores X cualquiera X i y X j
, la covarianza7 entre i y j es cero: Eij= 0 ∀ i≠ jSupuesto 6: i y X i no están correlacionados. Así suponemos que cada Y se compone de un valor
real y otro aleatorio no observable. Supuesto 7: El número de observaciones n debe ser mayor que el número de parámetros a ser estimados.
Alternativamente, el número de observaciones n debe ser mayor que el número de variables independientes.Supuesto 8: Debe existir una suficiente variabilidad en los valores tomados por los regresores. Supuesto 9: El modelo de regresión está correctamente especificado, esto es, posee una forma funcional
correcta. Así, cualquier variación en Y que no pueda explicarse por medio de la ecuación de regresión es exclusiva responsabilidad de un error aleatorio.
Supuesto 10: No existe ninguna relación lineal casi perfecta entre ningún regresor con otro. Caso contrario estamos en presencia de multicolinealidad, que implica una casi perfecta relación lineal entre las variables independientes. Esto es un problema del análisis de regresión con varias variables independientes que veremos en detalle en la sección 3, capítulo 4: 'Problemas en el análisis de regresión: Multicolinealidad'.
1.2 PRIMERAS CONSIDERACIONES
Supongamos dos conjuntos: {Y1, Y2 , ..., Yn} y {X1, X2, ... , Xn} que representan n mediciones de una variable respuesta Yi que se han observado bajo un grupo de n mediciones de una variable de predicción Xi . El ARS se inicia con la conjetura de que existe linealidad en la relación entre Y i y X i , por lo que lo
primero que haremos en el ARS, ya que nos es posible8, será graficar las Y i versus las X i para verificar este supuesto inicial y fundamental9.
Ejemplo Nº1: Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países.
Existe una relación entre el Producto Interno Bruto (PIB) per cápita de un país y la esperanza de vida para el mismo en periodos de tiempo próximos, pues a mayor PIB per cápita, y suponiendo una distribución razonablemente justa del ingreso, tenemos razones para creer que existe una mejor calidad y cobertura de la atención médica, que las condiciones de salubridad son mayores y que las necesidades de alimentación están bien cubiertas para una amplia mayoría de la población.
La base de datos Nº1 nos entrega los valores de la esperanza de vida en años al momento de nacer Yi y el PIB (corregido a paridad de poder adquisitivo) per cápita en US$ Xi al 2005 para 174 países.
Leamos los datos en R (que hemos almacenado bajo un editor de textos con el nombre a.txt en C:) y grafiquemos la esperanza de vida como variable dependiente y el PIB PPA per cápita como variable independiente:
Los parámetros a$V1 y a$V2 representan las variables de las columnas Y y X respectivamente, col lo usamos para asignar a los puntos color, xlab e ylab los utilizamos para asignar nombres a las variables del gráfico y main lo utilizamos para el título del mismo.
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')>jpeg(file='a.jpeg', width=500, height=500)
5 Sus varianzas son mínimas en torno al valor verdadero bi .6 El promedio de los bi nos da el valor de bi .
7 La covarianza refleja la relación lineal que existe entre dos variables y se define como: Cov XY = ∑ x iy i
n−1= ∑ Xi−X Y i−Y
n−18 Si bien se puede en el análisis de regresión múltiple tener una representación gráfica de dos variables independientes en un espacio tridimensional, esto ya resulta imposible para tres o más.9 Es importante que el lector esté consciente de que no es posible establecer una relación causaefecto entre las Y y las X.
2
Análisis de regresión simple
>par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')>dev.off()10
GRÁFICA Nº2
GRÁFICA Nª3
Observemos que tenemos dos datos aberrantes: Guinea Ecuatorial y Luxemburgo
Excluyámoslos, grafiquemos nuevamente, tracemos la línea de regresión asociada a las variables y apliquemos nuestro primer análisis de regresión a estos datos (con la instrucción lwd asignamos el grosor a una línea):
>abline(lm(a$V1~a$V2), lwd=3, col='red')>a1<lm(a$V1~ a$V2)>summary(a1)
1.2.1 Primera interpretación de resultados.
1. Los valores que nos entrega R como coeficientes estimados (Coefficients Estimate) nos dan la intercepción de la recta de regresión con el eje Y (o lo que es lo mismo, cuando X= 0) que R denomina (Intercept) y el valor de la pendiente de la recta, denominado por R en este caso a$V2.
En nuestro ejemplo, el coeficiente estimado de intercepción con el eje Y es 60,15 y el coeficiente estimado de la pendiente de la recta es 0,0007062. Este último valor es clave, pues nos indica la razón de cambio en la variable dependiente por cada cambio en el valor de una unidad de la independiente. Así por cada cambio en US$ 1 del PIB PPA per cápita, los países del mundo aumentan 0,0007062 años su espectativa de vida al nacer (0,2578 dias o 6 horas). Para verlo de manera mas clara, por cada aumento de US$ 10000, la esperanza de vida aumenta 7,062 años.
60,15 y 0,0007062 son los parámetros estimados b0 y b1 respectivamente.2. Los valores t (Coefficients t value) son importantes porque nos permiten probar la significación
estadística de los coeficientes estimados. Este valor debe compararse con el valor límite de la estadística t asociada a los grados de libertad11 y el nivel de significación elegido.
10 De ahora en adelante omitiremos las últimas 3 líneas, pues sólo nos sirven para guardar nuestros gráficos en C:.11 nk donde n es el número de casos y k el número de parámetros a estimar.
3
FUENTES: PIB PPA per cápita 2005: http://www.imf.org/external/data.htm Espectativa de vida al nacer 2005: http://hdrstats.undp.org/es/indicators/2.html
BASE DE DATOS Nº1
PAÍS
Albania 76,2 5323,118Algeria 71,7 7175,777Angola 41,7 2828,850Antigua y Barbuda 73,9 11604,383Argentina 74,8 13153,390
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Venezuela 73,2 5801,392Vietnam 73,7 2782,199Yemen 61,5 745,176Zambia 40,5 911,352Zimbabwe 40,9 2412,635
Y i Xi
Para nuestro ejemplo, a un 95% de significación y con 172 grados de libertad (Hacemos un test de dos colas, con lo que 1−/2 = 1 – 0,05/2 = 0,975) calculando con R obtenemos:
>qt(0.975,172)[1] 1.973852
Vemos que ambos valores de t (69,51 y 11,9), superan este valor, siendo por tanto ambos parámetros estimados significativos al 95%
3. El valor R2 (Multiple Rsquared) mide el grado de asociación lineal entre variables. Si todos los puntos de yacieran sobre la línea de regresión estimada este valor valdría 1. Para nuestro ejemplo: R2
= 0,4546De ahora en adelante asociaremos los tres
primeros resultados de la siguiente manera:
Y= 60,150,0007062X R2= 0,4546
69,51 11,9
4. La estadística F es un método para probar la hipótesis nula : H0 : b1= 0 , esto es, que no existe una relación lineal entre X e Y, contra la alternativa H1: b1≠ 0 . Un valor pequeño de F implicará un ajuste pobre y sugerirá la ausencia de una asociación lineal entre X e Y. Un valor alto de F implicará que una porción considerable de la variación en las observaciones es atribuíble a un efecto lineal de X sobre Y. De todas formas, debe compararse nuestro valor F con el valor límite tabulado al nivel de significación elegido y los grados de libertad determinados por el modelo, en este caso 1 y n2 (mas adelante explicaremos el porqué estos valores).
En nuestro ejemplo: Fstatistic: 141,7. Calculemos F con R:
>qf(0.95,1,172)[1] 3.896092 3,896 141,7 con lo que rechazamos la hipótesis nula.
5. Los valores Pr(>|t|) nos indican el nivel de significación que posee cada parámetro estimado. Por ejemplo para el coeficiente 0,0007062 su Pr(>|t|) asociado es <2e16, lo que significa que este parámetro es significativo hasta un (12e16)∙100%. Prácticamente un 100%.
Observemos que el modelo a pesar de poseer coeficientes estimados extremadamente significativos estadísticamente, posee un R2 demasiado bajo debido a que los puntos no presentan un claro patrón lineal. A continuación vamos a solucionar este problema.
1.2.2 Linealización de variables.
Podemos solucionar el problema de la no linealidad de los datos de este ejemplo, transformándolos
según alguna forma funcional del tipo recíproco Y= b0b1
X o bien del tipo semilog: Y= b0b1 ln X ,
pues el patrón de los puntos así nos lo sugiere.En el primer capítulo de la sección tercera: 'Formas funcionales' trataremos con detalle estas
transformaciones. Por el momento, sólo realicemos regresiones lineales según las dos transformaciones expuestas e interpretémoslas. Decidiremos cuál de las dos resulta la mejor forma funcional.
a) Y= b0b1
X Forma funcional recíproca.
Grafiquemos los puntos de la tabla Nº1 y la recta de regresión a ellos asociada:
>a < read.table('a.txt')>par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='1/PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre 1/PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')>abline(lm(a$V1~a$V2), lwd=3, col='red')
4
SALIDA Nº1
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 22.904 3.692 1.841 5.999 12.295
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.015e+01 8.653e01 69.51 <2e16 ***a$V2 7.062e04 5.933e05 11.90 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.072 on 170 degrees of freedomMultiple Rsquared: 0.4546, Adjusted Rsquared: 0.4514 Fstatistic: 141.7 on 1 and 170 DF, pvalue: < 2.2e16
Análisis de regresión simple
GRÁFICA Nº4
Observemos que ahora las variables lucen mucho más linealizadas, aunque a medida que aumenta la variable independiente mayor es la dispersión de la dependiente. Éste es el fenómeno de la heterocedasticidad del cual ya hemos hablado.
Apliquemos un análisis de regresión:
>a1<lm(a$V1~ a$V2)>summary(a1)
Nuestra ecuación de regresión resulta entonces:
Y= 74,74−23790 Zi R2= 0,5703
101,89 −15,02
Donde Z i= 1X i
El valor R2 está mas cerca de 1 (0,5703), por lo que concluímos que la forma funcional recíproca propone una mejor linealización de las variables que el caso original, pero continúa siendo regular.
Grafiquemos nuestras variables originales (excluyendo los dos datos aberrantes) y la curva que se
obtiene de la expresión: Y= 74,74−23790∙ 1Xi
GRÁFICA Nº5
>a < read.table('a.txt') >x < seq( 0 ,50000,length = 100) >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >lines(x, 74.74 23790* 1/x, type='l', col= 'red', lwd=3)
La curva obtenida nos da información precisa del
comportamiento de Y i a medida que varían las X i . Existe una línea asintótica representada por la recta Y= 74,74 b0
sobre la cual el valor de la esperanza de vida no es superado.
5
TABLA Nº1
PAÍS
Albania 76,2 0,00018786Algeria 71,7 0,00013936Angola 41,7 0,00035350Antigua y Barbuda 73,9 0,00008617Argentina 74,8 0,00007603
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Venezuela 73,2 0,00017237Vietnam 73,7 0,00035943Yemen 61,5 0,00134196Zambia 40,5 0,00109727Zimbabwe 40,9 0,00041448
Y i 1 /Xi
SALIDA Nº2
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 29.249 2.076 1.453 4.588 18.680
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.474e+01 7.336e01 101.89 <2e16 ***a$V2 2.379e+04 1.584e+03 15.02 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.164 on 170 degrees of freedomMultiple Rsquared: 0.5703, Adjusted Rsquared: 0.5678 Fstatistic: 225.6 on 1 and 170 DF, pvalue: < 2.2e16
b) Y= b0b1 ln X Forma funcional semilog.
Grafiquemos los puntos de la tabla Nº2 y la recta de regresión a ella asociada:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Ln PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el Ln PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red')
Y apliquemos un análisis de regresión:
>a1<lm(a$V1~ a$V2)>summary(a1)
GRÁFICA Nº6
GRÁFICA Nº7
Nuestra ecuación de regresión resulta entonces:
Y= 0,20747,7435 Zi R2= 0,644 Donde Z i= ln Xi
0,054 17,535
Grafiquemos nuestras variables originales (excluyendo los dos datos aberrantes) y la curva que se obtiene de la expresión: Y= 0,20747,7435 ∙ lnX i
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >lines(x, 0.2074+7.7435*log(x), type='l', col= 'red', lwd=3)
El valor R2 está más cerca que el ejemplo anterior a 1 (0,644), por lo que concluímos que la forma funcional semilog es una mejor linealización del modelo original que la recíproca.
6
SALIDA Nº3
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 25.5378 2.2021 0.8045 4.0142 12.0787
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2074 3.8633 0.054 0.957 a$V2 7.7435 0.4416 17.535 <2e16 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.522 on 170 degrees of freedomMultiple Rsquared: 0.644, Adjusted Rsquared: 0.6419 Fstatistic: 307.5 on 1 and 170 DF, pvalue: < 2.2e16
TABLA Nº2
PAÍS
Albania 76,2 8,580Algeria 71,7 8,878Angola 41,7 7,948Antigua y Barbuda 73,9 9,359Argentina 74,8 9,484
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Venezuela 73,2 8,666Vietnam 73,7 7,931Yemen 61,5 6,614Zambia 40,5 6,815Zimbabwe 40,9 7,788
Y i ln Xi
Análisis de regresión simple
1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO) PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES
Consideremos un modelo de la forma Y i= b0b1X ii donde i= 1,2,... , n y b0 y b1 son los parámetros reales pero desconocidos.
Y i es una variable aleatoria que es la suma de dos componentes, el término no aleatorio b0b1X i y la componente aleatoria i .
La sumatoria del cuadrado de la iésima desviación o error i= Y i−b0b1 X i es:
∑ i2= ∑ Y i−b0−b1 X i
2 (3)
Los estimadores por MCO de b0 y b1 se obtienen derivando parcialmente la ecuación anterior respecto a b0 y b1 e igualando a cero cada una.
Primera ecuación normal:∂∑ i
2
∂ b0
= ∂∑ Y i−
b0−b1X i
2
∂ b0
= 0 −2∑ Yi−b0−
b1 X i= 0 ∑ Y i= n b0b1∑ X i (4)
Segunda ecuación normal:∂∑ i
2
∂ b1
= ∂∑ Y i−
b0−b1X i
2
∂ b1
= 0 −2∑ Xi Y i−b0−
b1 X i= 0 ∑X i Y i= b0∑ X ib1∑ X i
2 (5)
Sustituyendo una ecuación normal dentro de la otra obtenemos el valor de los parámetros estimados.Despejemos b0 de la primera ecuación normal:
∑ Y i= n b0b1∑ X i b0=
∑ Y i
n− b1
∑X i
nEsta expresión también puede escribir:
b0= Y− b1X (6)
Sustituyendo el valor de b0 en la segunda ecuación normal obtenemos:
∑X i Y i= b0∑ X ib1∑ X i
2 ∑X i Y i= [∑ Y i
n− b1
∑X i
n]∑ X i
b1∑ X i2
∑X i Y i= ∑Y i∑ X i
n−
b1∑X i2
n b1∑ Xi
2 b1 [∑X i2−∑ X i
2
n]= ∑ X i Y i−
∑ Yi∑X i
ny así:
b1= ∑ X i Y i−
∑ Yi∑X i
n
∑ X i2−∑ X i
2
n
(7)
Ejemplo Nº2: Robos por cada 1000 habitantes y % de población viviendo bajo la pobreza en condados con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. (excluyendo los 6 condados más atípicos) (23 casos).
La Teoría de la Economía Alternativa Informal e ilegal (Cooper: 2000), afirma que los trabajos informales alternativos e ilegales surgen en la medida en que la economía formal no es capaz de otorgar los puestos laborales formales necesarios para un número importante de personas. Es así que la economía informal alternativa e ilegal es una forma de obtener ingresos que permiten una subsistencia inalcanzable por otros medios, esto al menos, en el caso de los ladrones comunes.
La base de datos Nª2 nos entrega información del número de robos cada 1000 habitantes Y i y el % de población pobre Xi en condados con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. (excluyendo los 6 condados más atípicos)
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión lineal de la tasa de delitos sobre el % de población pobre.
7
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='% de población pobre', ylab='Tasa de robos', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el % de población pobre", "y la tasa de robos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<lm(a$V1~ a$V2)>summary(a1)
GRÁFICA Nº8
Calculemos los coeficientes con nuestras fórmulas:
b1= ∑ X i Y i−
∑ Yi∑X i
n
∑ X i2−∑ X i
2
n
b1= 245,555−19,135 ∙237,79
23
2763,834−237,79 2
23b1=
245,555−197,8312763,83−2458,438
b1= 47,724305,392
b1= 0,156
b0= 0,832−0,156∙ 10,339 b0= −0,781b0= Y− b1
X
Y vemos que coinciden con los datos entregados por R.
8
SALIDA Nº4
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 0.7010 0.3391 0.1666 0.3231 1.0298
Coefficients: Estimate Std. Error t value Pr(>|t|)
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5321 on 21 degrees of freedomMultiple Rsquared: 0.5564, Adjusted Rsquared: 0.5353 Fstatistic: 26.34 on 1 and 21 DF, pvalue: 4.391e05
(Intercept) 0.78355 0.33377 2.348 0.0288 * a$V2 0.15626 0.03045 5.132 4.39e05 ***
BASE DE DATOS Nº2
CONDADO
Adams County 0,285 11,324Boone County 0,150 9,790DeKalb County 0,428 10,454DuPage County 0,277 4,725Kane County 0,538 7,782
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Tazewell County 0,267 7,789Vermilion County 1,762 17,839Whiteside County 0,237 10,982Will County 0,504 5,821Winnebago County 2,329 13,624
Y i Xi
FUENTES: Población viviendo bajo el nivel de la pobreza al 2007 en el Estado de Illinois: http://www.ers.usda.gov/Data/PovertyRates/Povlistnum.asp?TheState=IL%2CIllinois Tasa de robos por cada 100.000 en el Estado de Illinois al 2007: http://www.isp.state.il.us/crime/cii2007.cfm Estimación de la poblaci ón de los condados de Illinois al 1 de Julio del 2007:http://www.census.gov/popest/counties/COEST200801.html
TABLA Nº3
CONDADO
Adams County 0,285 11,324 3,222 128,243Boone County 0,150 9,790 1,471 95,838DeKalb County 0,428 10,454 4,473 109,296DuPage County 0,277 4,725 1,311 22,322Kane County 0,538 7,782 4,187 60,555
∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
Tazewell County 0,267 7,789 2,083 60,664Vermilion County 1,762 17,839 31,428 318,213Whiteside County 0,237 10,982 2,605 120,596Will County 0,504 5,821 2,933 33,880Winnebago County 2,329 13,624 31,727 185,605
19,135 237,790 245,555 2763,834
Y i Xi Xi Y i Xi2
∑Y i= 0,832 X i= 10,339
Análisis de regresión simple
1.3.1 Graficando los residuos estandarizados.
Los residuos e i son muy importantes debido a que proporcionan abundante información sobre lo que puede fallar en el modelo de regresión estimado.
Con el siguiente comando graficamos los residuos estandarizados, pero antes debemos descargar la librería MASS e instalarla12:
>library(MASS) >a1 < (lm(a$V1~a$V2)) >par(bg = "Ivory 2") >plot(a$V2,stdres(a1), col=3, xlab='% de población pobre', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos estandarizados", "versus variable independiente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x < seq( 3, 19, length = 100) >lines(x, xx, type="l", col= 'red', lwd=3) GRÁFICA Nº9
El valor residual es la distancia vertical que existe entre una observación determinada y el punto sobre la recta estimada de regresión para la misma observación.
Un residuo representa la cantidad en la que un valor estimado falla para predecir la media de la correspondiente observación. Por lo tanto, entre mayor sea un residuo, mayor tendería a ser el efecto de la componente aleatoria en el modelo.
1.3.2 La varianza residual o cuadrado medio del error (CME): S2
Según los supuestos iniciales, la varianza de la variable respuesta Var Y i= 2 es igual a la varianza del error, que es constante para todos los valores de la variable de predicción
X i . El estimador de esta varianza 2 es S2 y se
denomina varianza residual o cuadrado medio del error. Se define formalmente como la sumatoria del cuadrado de los residuos, dividido por la cantidad de datos menos los parámetros a estimar (los grados de libertad). En el caso del ARS, el denominador es n2 ya que se pierden dos grados de libertad al tener que estimar los dos parámetros b0 y b1 antes de obtener Y i :
S2= ∑ Yi−
Y i2
n−2= ∑ e i
2
n−2(8)
(donde S se denomina desviación standard residual)Calculemos el cuadrado medio del error para el
ejemplo ya visto:
S2= ∑ e i
2
n−2=
5,94621
= 0,283 S= 0,532 Que vemos
coincide con la salida en R llamada error standard residual.
Como Y i estima la media de Y i , Y i−Y i (el
residuo) es la desviación de Y i respecto a su propia media. Por lo anterior es que S2 es una medida absoluta de que tan bien se ajusta la recta estimada de regresión a las medias de la observaciones de la variable respuesta. Mientras más pequeño sea el valor de S2 , mayor ajuste tendrá el modelo.
12 Para instalar paquetes que aún no se tienen en las librerías de R, escribimos >install.packages(), seleccionamos un espejo desde el cual bajar los paquetes y lo llamamos con >library(packages).
9
TABLA Nº4
CONDADO
Adams County 0,285 11,324 0,986 0,701 0,492Boone County 0,150 9,790 0,746 0,596 0,355DeKalb County 0,428 10,454 0,850 0,422 0,178DuPage County 0,277 4,725 0,045 0,323 0,104Kane County 0,538 7,782 0,432 0,106 0,011
∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙
Tazewell County 0,267 7,789 0,434 0,166 0,028Vermilion County 1,762 17,839 2,004 0,242 0,059Whiteside County 0,237 10,982 0,932 0,695 0,483Will County 0,504 5,821 0,126 0,378 0,143Winnebago County 2,329 13,624 1,345 0,983 0,967
∑e i
2= 5,946
Y i XiY i
e i e i2
S2 es un estimador no sesgado de 2 mientras la forma del modelo de regresión sea la correcta.
1.3.3 Algunas propiedades de la regresión obtenida por MCO.
1 ∑ e i= 0
pues ∑ e i= ∑ Y i−Y i= ∑ Y i−
b0−b1 Xi= ∑ Yi−n b0−
b1∑ X i= n Y−n Y− b1X− b1n X= 0
2 ∑ Y i= ∑ Y i
ya que ∑ Y i= ∑ b0b1X i= n b0
b1∑ X i y como ya hemos visto que la primera ecuación normal es ∑ Y i= n b0
b1∑ X i , ∑ Y i= ∑ Y i
3 ∑X i e i= 0
pues ∑X i e i= ∑ X iY i−Y i= ∑ X i Y i−∑X i
Y i= ∑X i Y i−∑ X ib0
b1 X i
= ∑ Xi Yi−b0∑ X i−
b1∑ X i2 Recordemos que la forma de la segunda ecuación normal es:
∑X i Y i= b0∑ X ib1∑ X i
2 , por lo que ∑X i ei= 0
4 ∑ Y i e i= 0
∑ Y i ei= ∑ b0b1 Xie i= b0∑ e i
b1∑ X i ei y ya hemos visto que estas dos últimas expresiones son cero.
Las dos últimas propiedades implican que los residuos no están correlacionados ni con las variables predictoras ni con la predicha.
Verifiquemos estas propiedades en nuestro ejemplo:
1.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS
En el modelo de regresión simple resulta más o menos evidente saber si los parámetros estimados son coherentes comparando la recta de regresión obtenida con los puntos de las variables originales. Sin embargo, en el análisis de regresión múltiple que trataremos en la siguiente sección el problema no es tan trivial. En estos casos no tenemos una representación gráfica con la cual comparar, por lo que debemos establecer un test que evalúe la significación estadística de los estimadores de la regresión. Veamos esto para el caso del modelo lineal simple. La pregunta clave es: ¿son las estimaciones de los coeficientes obtenidos estadísticamente relevantes?
Para comenzar debemos obtener la varianza de b0 y de b1
1.4.1 Varianza de los estimadores por MCO de los parámetros estimados b0 y de b1
Definamos: x i= X i−X y y i= Y i−Y (9)
entonces:
10
TABLA Nº5
CONDADO
Adams County 0,285 11,324 0,986 0,701 7,944 0,692Boone County 0,150 9,790 0,746 0,596 5,834 0,445DeKalb County 0,428 10,454 0,850 0,422 4,414 0,359DuPage County 0,277 4,725 0,045 0,323 1,525 0,015Kane County 0,538 7,782 0,432 0,106 0,822 0,046
∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙
Tazewell County 0,267 7,789 0,434 0,166 1,293 0,072Vermilion County 1,762 17,839 2,004 0,242 4,319 0,485Whiteside County 0,237 10,982 0,932 0,695 7,635 0,648Will County 0,504 5,821 0,126 0,378 2,200 0,048Winnebago County 2,329 13,624 1,345 0,983 13,399 1,323
19,135 19,135 0,000 0,001 0,000∑
Y i XiY i
e i Xi eiY ie i
Análisis de regresión simple
a) Var b0= 2∑ Xi
2
n∑ X i−X2 o bien Var b0=
2∑ X i
2
n∑ xi
2 (10)
Donde 2 es la varianza del error en la relación real entre Y i y X i que como hemos visto puede
estimarse con la varianza residual S2 .
Demostración:
Hemos obtenido que: b1= ∑ X i Y i−
∑ Yi∑X i
n
[∑ X i2−∑ X i
2
n]
, pero lo anterior es equivalente a:∑ Xi−
XY i−Y
∑ Xi−X2
13
Entonces, si definimos: Ci= X i−X
∑ X i−X2 bi= ∑Ci Y i (11)
(Notemos que en la expresión anterior da lo mismo utilizar Yi−Y = y i o Y i , pues∑ Xi−
X Y i−Y= ∑ X i−
X Yi−Y∑ X i−
X= ∑ X i−X Yi Ya que ∑ X i−
X = 0 .
Por otro lado b0= Y− b1X , entonces Var b0= VarY− b1
X (12)
Var b0= Var[∑ Yi
n−X∑Ci Y i]= Var [∑
Y i
n−XCi Y i]= Var[∑
1n−X Ci Yi]= ∑
1n−X Ci
2
VarY i
Puesto que: Var [∑ X ∙Y ]= ∑ X2Var Y 14 (13)
Var b0= 2∑ 1n2 −
2 XCi
nX2Ci
2= 2
∑ 1n2−
2 X∑ Ci
nX2∑Ci
2
Si ∑Ci= 0 (Recordemos que ∑ X i−X = 0 ) y ∑Ci
2= 1
∑ X i−X 2y puesto que: ∑a= n siendo
a una constante: ∑1n2
= 1n2 ∑ 1=
1n2
n= 1n
Var b0= 21n
X2
∑ X i−X2= 2
∑ Xi−
X 2n X2
n∑ X i−X2
Ya que: ∑ X i−X2
= ∑ Xi2−2X i
XX2= ∑ Xi
2−2 X∑X i∑ X2
= ∑ Xi2−2n X2
n X2= ∑ X i
2−nX2
Var b0= 2∑X i
2−n X2
n X2
n∑ X i−X
2 = 2
∑X i2
n∑ X i−X2
13 Hagamos: [∑ X iY i−∑ Y i∑ X i
n][∑ X i−X2 ] = [∑ X i−X Yi−Y ][∑ X i
2−∑ X i
2
n]
Desarrollemos la primera expresión para llegar a la segunda:
[∑ Xi Y i−∑ XiY ][∑ Xi
2−2 XiX X2 ] = ∑ X i
3Y i−Y∑ Xi3−2 X∑ X i
2Y i2 X Y∑ Xi2 X2∑ X iY i−
X2 Y∑ Xi =
∑ X i3Y i−Y∑ X i
3−X∑ X i2 Y iX Y∑ X i
2−X∑ Xi2 Y iX Y∑ Xi
2 X2∑ Xi Y i−X2 Y∑ X i = [∑ Xi
2−X∑ X i][∑ XiY i−Y∑ Xi−
X∑ Y iX Y ] =
= [∑ Xi2−∑ X i
2
n][∑ X iY i−Y X i−X Y iX Y ] = [∑ Xi
2−∑ X i
2
n][∑ Xi−X Y i−Y ]
14 La demostración de esta importante ecuación excede los propósitos de este texto.
11
Como 2 es la varianza del error en la relación real entre X i y Y i que puede estimarse como
S2 , un estimador de la desviación standard de b0 es: S b0= S ∑ Xi2
n∑ X i−X2
(14)
b) Var b1=
2
∑ x i2 o bien Var b1=
2
∑ X i−X2(15)
Demostración:
Var b1= Var ∑Ci Y i= ∑Ci2 Var Y i= 2∑Ci
2 2∑Ci
2= 2
[∑ X i−
X 2
∑ X i−X 22 ]=
2
∑X i−X2
Entonces: S b1= S
∑ X i−X2 (16)
es la desviación standard del estimador de mínimos cuadrados de la pendiente.
Tenemos así que:
S2 b0=
S2∑X i2
n∑ xi
2 = ∑ e i
2∑ X i2
n−2 n∑ xi2
S2 b1= S2
∑ x i
2=
∑ e i2
n−2 ∑ xi2
(17)
Nótese que las varianzas de b0 y b1 son funciones de la variable X.
Calculemos las varianzas de los parámetros estimados para el siguiente ejemplo:
Ejemplo Nº3: Suicidio y desempleo en Japón (19532004).
Es conocido que el deterioro de algunos factores económicos como la caída del empleo o las recesiones pueden contribuir a un aumento de la tasa de suicidios. Wasserman (1984) mostró que en los Estados Unidos desde 1947 a 1977 los periodos recesivos se asocian a un aumento de tasa de suicidios y que existe una correlación estadística entre los suicidios y la duración promedio del desempleo. Stuckler (2009) halló que por cada 1 por ciento de aumento del desempleo, existe casi un 0,8 por ciento de incremento en las tasas de suicidio en menores de 65 años estudiando 26 países de la Unión Europea.
Se debe tener en consideración sin embargo, que si bien es probado que el desempleo es un factor en la evolución de la tasa de suicidio también es cierto que entre los cesantes está sobrerepresentada la población de enfermos mentales y drogadictos, dado que ellos tienen mas dificultades para conservar su trabajo.
La base de datos Nº3 nos entrega información de la tasa de suicidios de hombresYi y la tasa de desempleo Xi entre los
años 1953 y el 2003 en Japón.Para orientarnos, grafiquemos los
puntos, la recta de regresión a ellos asociada y ejecutemos una regresión lineal de la tasa de suicidios sobre la tasa de desempleo en Japón.
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre la tasa de desempleo", "y la tasa de suicidios en Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<lm(a$V1~ a$V2)>summary(a1)
12
FUENTES: Número de suicidios de hombres en Japón (19532003): http://www.stat.go.jp/english/data/chouki/02.htmPoblación japonesa entre (19532003): http://www.stat.go.jp/english/data/chouki/02.htm% de desempleo en Japón: (19532003) :http://lysander.sourceoecd.org/vl=4326714/cl=22/nw=1/rpsv/factbook2009/06/02/01/index.htm
BASE DE DATOS Nº3
AÑO
1955 31,27 2,61956 29,85 2,31957 29,72 1,91958 30,82 2,21959 26,76 2,3
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
2000 34,87 4,92001 33,86 5,22002 34,80 5,52003 37,51 5,52004 35,20 4,9
Y i Xi
Análisis de regresión simple
Calculemos S b0 y S b1
De la salida de R tenemos que S2= 8,398 y como n= 50:
S2 b0=
S2∑X i2
n∑ xi
2 = 8,398∙371,04
50∙ 72,38= 0,861 S b0= 0,928
S2 b1=
S2
∑ xi
2=
8,39872,38
= 0,116 S b1= 0,341
GRÁFICA Nº10
1.4.2 Test de significación para los parámetros estimados.
El test de significación de los parámetros estimados consiste en comparar el valor del cuociente entre el parámetro estimado y su respectiva desviación standard con el valor de la t de student correspondiente a los grados de libertad y el nivel de significación elegido. El parámetro clave del modelo es b1 ; la significación estadística del parámetro estimado de la intersección con Y no tiene mayor relevancia.
Nuestra hipótesis alternativa la establecemos así:
Si Y se encuentra relacionada en forma lineal con X, entonces b1≠ 0
Las variables aleatorias t0= b0−b0
S b0y t1=
b1−b1
S b1(18)
tienen una distribución t de student con n2 grados de libertad, por lo que si queremos probar las hipótesis nulas
H0: b0= 0 y H0 : b1= 0 , debemos comparar t0= b0
S b0 y t1=
b1
S b1(19)
13
SALIDA Nº5
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 3.9885 1.9864 0.8444 1.3186 7.7696
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 13.7994 0.9280 14.87 <2e16 ***a$V2 4.2900 0.3407 12.59 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.898 on 48 degrees of freedomMultiple Rsquared: 0.7676, Adjusted Rsquared: 0.7628 Fstatistic: 158.6 on 1 and 48 DF, pvalue: < 2.2e16
TABLA Nº6
AÑO
1955 31,27 2,6 6,76 0,0241956 29,85 2,3 5,29 0,0211957 29,72 1,9 3,61 0,2961958 30,82 2,2 4,84 0,0601959 26,76 2,3 5,29 0,021
∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
2000 34,87 4,9 24,01 6,0322001 33,86 5,2 27,04 7,5962002 34,80 5,5 30,25 9,3392003 37,51 5,5 30,25 9,3392004 35,20 4,9 24,01 6,032
371,04 72,38
x i2Xi
2XiY i
∑X= 2,444
con la t correspondiente a los grados de libertad y el nivel de significación elegido.
Calculemos para nuestro ejemplo: t0= b0
S b0=
13,7990,928
= 14,872 t1= b1
S b1=
4,290,341
= 12,594
A un 95% de significación y con 48 grados de libertad (hacemos un test de dos colas, con lo que1−/2 = 1 – 0,05/2 = 0,975) calculando con R obtenemos nuestro t:
>qt(0.975,48)[1] 2.010635
Si t i −t o t ti , nuestro bi es estadísticamente significativo al nivel elegido, lo cual es nuestro caso, pues: 2.01 14,872 y 2.01 12,594
Así que se rechaza la hipótesis nula.
1.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de los parámetros reales.
a) Demostración de que b1 es un estimador no sesgado de b1 : E b1= b1 (20)
Se deben demostrar dos cosas:
1 Que b1 es combinación lineal de Y1 , ..., Yn
∑ X i−X Yi−
Y= ∑ Xi−X Yi−
Y∑ Xi−X = ∑ X i−
X Y i
Por definición b1= ∑ X i−
XY i−Y
∑ X i−X2 =
∑ Xi−X y i
∑ X i−X2 Si Ci=
X i−X
∑ X i−X2 entonces b1= ∑Ci y i
2 Que E b1= b1
E b1= E∑ Ci Yi= ∑CiE Y i= ∑Cib0b1 Xi= b0∑Cib1∑Ci X i
2.1 ∑Ci= ∑ X i−X
∑ X i−X2
= 0
2.2 ∑Ci X i= ∑ X i−
XX i
∑X i−X2 =
∑ Xi2−XX i
∑ X i2−2n X2
n X2= 1 ya que X=
∑ X i
n ∑ Xi= n X y
∑ X i−X2
= ∑ Xi2−2X i
XX2= ∑ Xi
2−2 X∑X i∑ X2
= ∑ Xi2−2n X2
n X2= ∑ X i
2−nX2
Entonces queda así demostrado que E b1= b1
b) Demostración de que b0 es un estimador no sesgado de b0 E b0= b0 (21)
Dado que el estimador de MCO de b0 es: b0= Y− b1X , como b1 es una combinación lineal de
la observaciones Y1, Y2, ... Yn entonces b0 también es combinación lineal de las observaciones. Por otro lado:
E b0= EY− b1X = EY−XE b1=
∑Y i
n−X b1=
∑ b0b1X i
n−Xb1
nb0b1∑ X i
n−Xb1= b0b1
X−b1X= b0
1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE
1.5.1 Intervalos de confianza para los parámetros estimados.
14
Análisis de regresión simple
Un intervalo de confianza para los parámetros verdaderos b0 y b1 esto es, la región donde con cierta probabilidad se encuentran, al nivel de significación establecido y para cierto grado de libertad se construye sumando y restando al parámetro estimado su propia desviación standard multiplicada por la estadística t asociada.
Para b0 y b1 los intervalos de confianza entonces quedan como:
b0± t ∙ S b0 y b1± t ∙S b1 (22)
Como ya lo hemos visto, la variable aleatoria b1
S b1tiene una distribución t de student con n2 grados
de libertad, por lo que la probabilidad de que b1 se encuentre dentro del intervalo [ b1− t1−/2,n−2 ∙ S b1; b1 t1−/2,n−2 ∙S b1] es P[ b1− t1−/2,n−2 ∙S b1 b1 b1 t1−/2, n−2 ∙ S b1]= 1−
Así nuestro intervalo es b1± t1−/2,n−2 ∙ S b1 (23)
Para el caso de b0 procedemos de manera análoga.
Consideremos el siguiente ejemplo:
Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños (bajo 18 años) viviendo en familias lideradas por un solo padre (2004).
La presencia o ausencia relativa de figuras paternas en una comunidad, parece estar fuertemente correlacionada con la tasa de criminalidad.
En los Estados Unidos el 70% de los delincuentes juveniles, de los homicidas menores de 20 años y de los individuos arrestados por violación y otras ofensas sexuales graves crecieron sin padre.
La relación entre ausencia del padre y delincuencia surge de numerosos trabajos de investigación (Adams, Milner & Schrepf, 1984; Anderson, 1968; Chilton & Markle, 1972; Monahan, 1972; Mosher, 1969; Robins & Hill, 1966; Stevenson & Black, 1988; Wilson & Herrnstein, 1985; Bohman, 1971; Kellam, Ensminger & Turner, 1977).
La base de datos Nº4 nos entrega la tasa de asesinatos por cada 100.000 habitantes al 2006 Y i y la proporción de niños (menores de 18 años) viviendo en familias uniparentales al 2004 Xi para los 50 Estados norteamericanos (excluímos Washington D.C.)
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión de la tasa de asesinatos sobre la proporción de familias uniparentales:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Tasa de familias uniparentales', ylab='Tasa de homicidios', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre la tasa de familias uniparentales", "y la tasa de homicidios",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<lm(a$V1~ a$V2)>summary(a1)
15
FUENTES: Proporción de niños (bajo 18 años) viviendo en familias lideradas por un solo padre (2004):http://www.thenationalcampaign.org/Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU:http://www.infoplease.com/ipa/A0004912.html
BASE DE DATOS Nº4
ESTADO
Alabama 8,3 37Alaska 5,4 30Arizona 7,5 33Arkansas 7,3 35California 6,8 31
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Virginia 5,2 29Washington 3,0 29West Virginia 4,1 31Wisconsin 3,0 28Wyoming 1,7 27
Y iXi
GRÁFICA Nº11
Ahora calculemos los intervalos de confianza para los parámetros estimados según R:
>confint(a1, level= 0.95)
Hagamos nuestros propios cálculos y verifiquémoslo:
Hemos visto que para un 95% de significación y con 48 grados de libertad, calculando con R obtenemos:
>qt(0.975,48)[1] 2.010635
Así: b1± t1−/2, n−2 ∙ S b1= 0,39705± 2,010635∙ 0,04786 > [0,301; 0,493]
2. De R obtenemos que b0= −7,50664 y S b0= 1,49841
Así: b0± t1−/2,n−2 ∙S b0= −7,50664±2,010635∙1,49841 > [10,519; 4,494]
Vemos que ambos resultados coinciden con los entregados por R.
1.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta.
Un intervalo de confianza para los valores promedios de la variable respuesta es una región, donde a un nivel de significación determinado, la variable independiente yace.
Para el modelo lineal simple, la recta de regresión estimada permite obtener un estimador para la media de la variable respuesta para cada valor de la variable de predicción X i : Y i= b0
b1X i , por otro lado Y= b0
b1X implica que b0= Y− b1
X por lo que Y i= Y− b1X b1 X i Así: Y i= Y b1X i−X
Entonces la varianza del estimador de la variable respuesta es: Var Y i= S2 Y i= Var [ Y b1X i−
X]
Ya hemos visto que b1= ∑Ci y i entonces Var [∑ Yi
nXi−X ∑Ci Y i]= Var [∑
1nCi X i−X Y i]
Observemos que: Var [∑ 1nCiX i−
XY i]= ∑ 1nCiX i−
X 2
VarY i y desarrollemos:
16
SALIDA Nº6
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 3.7899 1.0143 0.2414 1.1005 4.5012
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.50664 1.49841 5.010 7.80e06 ***a$V2 0.39705 0.04786 8.297 7.87e11 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.669 on 48 degrees of freedomMultiple Rsquared: 0.5892, Adjusted Rsquared: 0.5806 Fstatistic: 68.83 on 1 and 48 DF, pvalue: 7.873e11
SALIDA Nº72,5% 97,5%
(Intercept) 10,5193867 4,4938931a$V2 0,3008243 0,4932663
Análisis de regresión simple
∑ [1nCi X i−X ]
2
Var Yi= 2[∑
1n2
2X i−X
n∑CiXi−X
2∑Ci2] Recordemos que ∑Ci= 0 y
Ci= X i−X
∑ X i−X2 entonces: ∑Ci2= ∑ [
Xi−X
2
∑ X i−X4 ]=
∑ X i−X2
∑ X i−X4=
1
∑ X i−X2
Es así que la varianza del estimador de la variable respuesta resulta: S2 Y i= 2
[1n
Xi−X
2
∑ Xi−X
2 ] (24)
por lo que un estimador de la desviación standard de Y i está dado por: S Y i=S[ 1n
X i−X
2
∑ Xi−X
2] (25)
Tenemos entonces que Y i es un estimador no sesgado de la media de Y i que tiene una distribución normal con:
media EY i= b0b1X i= E b0b1 X i= E Y i y varianza S2
Yi= 2[1n
X i−X2
∑ X i−X2 ]
Por otro lado, la distribución de muestreo de [ Y i−EY i]
S Y i(26)
es la t de student con n 2 grados de libertad. Por lo anterior, la probabilidad de que EY i se encuentre dentro del intervalo aleatorio: [ Yi− t1−/2, n−2 ∙ S Yi ; Y i t1−/2, n−2 ∙ S Y i] es 1− o bien, el intervalo de confianza
del 1001−% para Y i es: Y i± t1−/2,n−2 ∙S Y i (27)
Calculemos estos intervalos para el ejemplo Nº4:
Con la siguiente instrucción obtenemos los valores numéricos de los límites superior e inferior del intervalo de confianza para el valor promedio de Y al 95% de significación:
>predict(a1,interval="confidence", level = 0.95)
Corroboraremos lo anterior calculando los Y i± t1−/2, n−2 ∙ S Yi y graficando las curvas:
Y iSuperior , Inferior= b0b1 ∙ X i± t ∙S 1
n
X i−X
2
∑ X i−X
2para el rango de
X(15 ; 50). Como b0= −7,50664 ; b1= 0,39705 ; t= 2.010635; S= 1,669;
n= 50; X= 30,92 y ∑ X i−X2
= 1215,68 , los límites superiores e inferiores del intervalo de confianza para Y i son:
Y iSuperior , Inferior= −7,506640,39705∙X i± 2,010635∙ 1,6690,02X i−30,92 2
1215,68
Introduciendo los datos de X i en la ecuación anterior obtenemos los valores de la tabla Nº7.
Grafiquemos estos intervalos haciendo los X i continuos:
>x < seq( 15 ,50,length = 100) >lines(x, 7.50664+0.39705 * x + 2.010635 * 1.669* ((0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3) >lines(x, 7.50664+0.39705 * x 2.010635 * 1.669* ((0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3)
17
SALIDA Nº8
fit lwr upr1 7,1840353 6,4308025 7,93726812 4,4047183 3,9220763 4,88736043 5,5958542 5,0809145 6,11079384 6,3899447 5,7741304 7,00575915 4,8017636 4,3272468 5,2762805∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
46 4,0076731 3,4985194 4,516826747 4,0076731 3,4985194 4,516826748 4,8017636 4,3272468 5,276280549 3,6106278 3,0592219 4,162033750 3,2135825 2,6074666 3,8196984
TABLA Nº7
Inf Sup
6,431 7,9383,922 4,8885,081 6,1115,774 7,0063,499 4,517
∙ ∙∙ ∙∙ ∙
3,499 4,5173,499 4,5174,327 5,2773,059 4,1622,607 3,820
Y i Y i
GRÁFICA Nº121.5.3 Estimación del intervalo de predicción de los
valores particulares de la variable respuesta.
Un intervalo de predicción para los valores de la variable respuesta es una región, donde a un nivel de significación determinado, la variable independiente yace, pero esto, ampliado a cualquier valor de la variable independiente.
Supongamos que un nuevo valor es observado después de que la regresión se ha ejecutado. Como la nueva observación es independiente de las observaciones que se utilizaron para ajustar el modelo, el intervalo deberá incluir el error del modelo ajustado y el error asociado con observaciones futuras, con lo que la varianza de este estimador será mayor. Los intervalos de predicción para las observaciones individuales de la respuesta son mas grandes que los correspondientes intervalos de confianza para la media de las mismas.
El valor estimado de la variable dependiente es el mismo que para la estimación del promedio y está dado por
Y i= b0b1X i
, pero la varianza incluye la variación de una
observación independiente.
Var YP= 2
2[1n
Xi−X
2
∑ Xi−X
2 ]= 2[11
n
X i−X2
∑ X i−X2] (28)
Y así: S Yp= S[1 1n
Xi−X
2
∑ Xi−X
2] (29)
Entonces, bajo la teoría normal, [ Yp−EYp]
S Yp(30)
tiene una distribución t de student con n 2 grados de libertad, por lo que para un dado, el intervalo de predicción para la observación Yp
será: P[ Yp− t1−/2, n−2 ∙S Yp Yp Yp t1−/2, n−2 ∙ S Yp] = 1−
Un intervalo de predicción es análogo a un intervalo de confianza. Uno del 1001−% para una observación particular Yp es:
Yp± t1−/2, n−2 ∙ S Yp(31)
Con la siguiente instrucción obtenemos los valores numéricos de los límites superior e inferior del intervalo de confianza para el valor promedio de Y. Calculémoslo para nuestro ejemplo:
>predict.lm(a1,interval="prediction", level = 0.95)
Los límites superiores e inferiores del intervalo de predicción para Y i son:
Y iSuperior , Inferior = −7,506640,39705∙X i± 2,010635∙1,66910,02X i−30,92 2
1215,68
Introduciendo los datos de X i en la ecuación anterior obtenemos los valores de la tabla Nº8:
18
SALIDA Nº9
fit lwr upr1 7,1840353 3,7456187 10,62245202 4,4047183 1,0152800 7,79415703 5,5958542 2,2016662 8,99004204 6,3899447 2,9789953 9,80089405 4,8017636 1,4134728 8,1900540∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
46 4,0076731 0,6143581 7,400988047 4,0076731 0,6143581 7,400988048 4,8017636 1,4134728 8,190054049 3,6106278 0,2107164 7,010539050 3,2135825 0,1956293 6,6227940
TABLA Nº8
Inf Sup
3,745 10,6231,015 7,7952,201 8,9912,978 9,8021,413 8,191
∙ ∙∙ ∙∙ ∙
0,614 7,4020,614 7,4021,413 8,1910,210 7,0120,196 6,624
Y i Y i
Análisis de regresión simple
Grafiquemos estos intervalos haciendo los X i continuos (Gráfico Nº13):
>x < seq( 15 ,50,length = 100) >lines(x, 7.50664+0.39705 * x + 2.010635 * 1.669* ((1+0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3) >lines(x, 7.50664+0.39705 * x 2.010635 * 1.669* ((1+0.02+ {(x30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3)
Graficando los intervalos de confianza y de predicción tenemos (Gráfico Nº14):
GRÁFICA Nº13 GRÁFICA Nº14
1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN
1.6.1 El coeficiente de determinación: R2
Consideremos la ecuación fundamental del análisis de regresión: Variación Variación Variación total en Y explicada de Y residual de Y
∑ Yi−Y2 = ∑ Yi−
Y2 ∑ Y i−Yi
2 (32) Suma total Suma de los Suma de los de los cuadrados cuadrados de cuadrados
la regresión del error
STC SCR SCE /: STC
1= SCRSTC
SCESTC
o bien 1= R2 SCESTC
con lo que obtenemos R2= 1 −
SCESTC
(33)
SCR es la porción de la variación atribuíble a un efecto lineal de X sobre Y y R2 es la proporción de la variación en Y explicada por la regresión de Y sobre X.
Por otro lado: R2= ∑ y i
2
∑ y i2=
SCRSTC
= 1 − ∑ ei
2
∑ y i2 = 1 −
SCESTC
donde: ∑ y i2= ∑ Yi−
Y 2
0 ≤ R2 ≤ 1 La ecuación de Todos los puntos regresión estimada coinciden en la no explica ninguna línea de regresión
variación en Y
R2 no mide la validez del modelo de regresión propuesto, sino cuanto se explica de la variación total mediante la ecuación de regresión estimada.
R2 ∙100 nos da el porcentaje en que la ecuación de regresión explica la variación total.Calculemos R para el siguiente ejemplo. Para esto determinemos primero la suma total de los cuadrados
(STC), la suma de los cuadrados de la regresión (SCR) y la suma de los cuadrados del error (SCE).
19
Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas del Gran Santiago (2006)
Diversos estudios han establecido la clara correlación entre el nivel educativo de las personas con sus ingresos.
En América Latina, los datos históricos son contundentes sobre la incidencia de la educación en la distribución del ingreso. En Brasil, el 10 por ciento de la población con más ingresos gana casi 60 veces más que el 10 por ciento con menos ingresos; en Uruguay, el país con menor desigualdad, esa relación es de 18 veces y en México es de 40 veces. Todos los países con menor desigualdad relativa –entre ellos Argentina, a pesar de la concentración del ingreso. son aquellos que hicieron de la expansión educativa una prioridad política por lo menos durante los últimos 50 años.
La base de datos Nº5 nos entrega información del % de pobres Yi y los años de escolaridad Xi , para las comunas del gran Santiago al año 2006.
Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión lineal de la tasa de % de pobres sobre los años de escolaridad.
>a <read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Años de escolaridad', ylab='% de población pobre', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los años de escolaridad", "y el % de población pobre", sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<lm(a$V1~ a$V2)>summary(a1)
Calculemos la suma total de los cuadrados (STC), la suma de los cuadrados de la regresión (SCR) y la suma de los cuadrados del error (SCE) (Tabla Nº9).
Ahora calculemos R2 :
R2= 1 − SCESTC
= 1 − 390,376860,802
= 0,546 o bien
R2=
SCRSTC
= 470,436860,802
= 0,546 que coincide con el 0,5465 que obtuvimos en nuestra salida en R.
GRÁFICA Nº15
20
SALIDA Nº10
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 6.8335 3.2591 0.2868 2.2141 7.5117
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 38.1007 4.5262 8.418 1.28e09 ***a$V2 2.5477 0.4103 6.210 5.92e07 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.493 on 32 degrees of freedomMultiple Rsquared: 0.5465, Adjusted Rsquared: 0.5323 Fstatistic: 38.56 on 1 and 32 DF, pvalue: 5.921e07
BASE DE DATOS Nº5
COMUNA
Santiago 7,3 13,1Cerrillos 8,3 10,4Cerro Navia 17,5 9,1Conchalí 8,0 10,1El Bosque 15,8 9,7
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
San Bernardo 20,9 9,7San Joaquín 7,4 10,7San Miguel 2,5 12,3San Ramón 16,7 9,6Vitacura 4,4 14,6
Y i Xi
FUENTES: % de pobres 2006 y años de escolaridad 2006: http://www.bcn.cl/siit/comunas_cifras
TABLA Nº9
COMUNA
Santiago 7,3 13,1 4,726 8,651 30,419 6,626Cerrillos 8,3 10,4 11,605 3,768 1,859 10,921Cerro Navia 17,5 9,1 14,917 52,690 21,860 6,674Conchal í 8,0 10,1 12,369 5,023 4,527 19,088El Bosque 15,8 9,7 13,388 30,900 9,903 5,818
∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙
San Bernardo 20,9 9,7 13,388 113,610 9,903 56,430San Joaquín 7,4 10,7 10,840 8,072 0,359 11,836San Miguel 2,5 12,3 6,764 59,926 12,091 18,182San Ramón 16,7 9,6 13,643 41,716 11,571 9,347Vitacura 4,4 14,6 0,904 34,119 87,178 12,220
860,802 470,436 390,376
Y i−Y i
2 Y i−Y2Y i−
Y2Y iXiY i
∑Y= 10,241
Análisis de regresión simple
1.6.2 El coeficiente de correlación r.
El coeficiente de correlación mide el grado de asociación entre variables. Supone que tanto X como Y son variables aleatorias.
Sea la distribución conjunta de X e Y la normal bivariada y sea X1 , Y1 ;X2 , Y2 ; ...;Xn, Yn una muestra aleatoria de tamaño n de esta distribución. En el caso de dos variables r es:
r X ,Y= ∑ X i−
X Y i−Y
∑ X i−X2 ∑Y i−Y2 −1 ≤ r ≤ 1 (34)
Para nuestro ejemplo:
r X ,Y= ∑ X i−X Y i−Y
∑ X i−X2 ∑ Y i−Y2=
−184,64972,478860,802
= −0,739
La instrucción para obtener el coeficiente de correlación en R nos entrega el siguiente resultado (Salida nº11):
>cor(a)
Como r mide el grado de asociación lineal entre X e Y y ya que b1 es el correspondiente estimador por MCO de la pendiente para el modelo de regresión propuesto entre X e Y, entonces debe existir una relación entre r y b1 . Esa relación es la siguiente:
b1= ∑ Yi−Y2
∑ Xi−X
2 ∙ r ya que ∑ Y i−
Y2
∑ X i−X2
∑ X i−XY i−
Y
∑ X i−X2∑ Yi−
Y2= ∑ X i−
XY i−Y
∑ Xi−X
2= b1 (35)
El cuadrado del coeficiente de correlación es el coeficiente de determinación r= R2 donde:
r=1: perfecta correlación lineal negativa.r= 1: perfecta correlación lineal positiva.
Para nuestro ejemplo: R2= 0,5465 R2
= −0,739
Si bien r no indica causalidad o dependencia, no es sólo un medida del grado de asociación lineal entre dos variables, sino que puede emplearse una función de r como una medida de la bondad del ajuste para una ecuación estimada de regresión.
r 0 Implica que X e Y se mueven en direcciones contrarias, mientras que r0 Implica que X e Y se mueven en la misma dirección.
r por sí mismo no puede ni probar ni desmentir una relación causal entre X e Y, aún si r=±1 , lo cual es sólo posible a través de la comprensión de la relación natural que existente entre X e Y.
1.6.3 Uso del análisis de varianza.
Esta técnica es utilizada para probar la hipótesis nula de que la pendiente es cero, sin embargo, además permite una comprensión natural del problema, con lo que facilita el análisis de modelos mucho más complicados que la regresión simple.
El objetivo es que la recta estimada de regresión explique la mayor cantidad posible de la variación total, por lo que la contribución del término b0b1X i debe ser substancial.
Consideremos la desviación de Y i respecto a Y . Si la magnitud de Y i−Y 0 , esta magnitud debería atribuirse a las componentes del modelo.
21
SALIDA Nº11
V1 V2V1 1 0,73925480V2 0,73925480 1
TABLA Nº10
COMUNA
Santiago 7,3 13,1 4,686 8,651 6,367Cerrillos 8,3 10,4 0,287 3,768 1,039Cerro Navia 17,5 9,1 3,368 52,690 13,322Conchalí 8,0 10,1 0,698 5,023 1,872El Bosque 15,8 9,7 1,526 30,900 6,867
∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙
San Bernardo 20,9 9,7 1,526 113,610 13,167San Joaquín 7,4 10,7 0,055 8,072 0,669San Miguel 2,5 12,3 1,862 59,926 10,564San Ramón 16,7 9,6 1,783 41,716 8,624Vitacura 4,4 14,6 13,430 34,119 21,406
72,478 860,802 184,649
Xi−X Y i−
Y Y i−Y2Xi−
X 2XiY i
Y= 10,241X= 10,935
∑
SALIDA Nº11
V1 V2V1 1.0000000 0.7392548V2 0.7392548 1.0000000
Deduzcamos la ecuación fundamental del análisis de varianza:
Y i−Y= Yi−
Y Yi−Y i= Y i−
YYi−Y i/
2 Yi−Y
2= Y i−
Y22 Yi−
Y Y i−YiY i−
Y i2/ ∑
∑ Y i−Y2
= ∑ Yi−Y2
2∑ Y i−Y Yi−
Y i∑ Yi−Y i
2 Pero ya que ∑ Y i−Y Y i−Y i= 0 puesto que
∑ Yi−Y Yi−Y i= ∑ Y iY i−
Y i−Y∑Y i−Y i= ∑ Y iY i−
Yi (ya hemos visto que la segunda expresión es 0) y
∑ Y iY i−Y i= ∑ b0
b1 X iY i−Y i= b0∑ e i
b1∑X i e i= 0
∑ Yi−Y2
= ∑ Y i−Y2 ∑ Y i−
Yi2
STC SCR SCE Suma total de Suma de los Suma de los los cuadrados cuadrados de cuadrados del la regresión error
Notemos que también podemos calcular STC como: STC= ∑ Yi−Y
2= ∑ Y i
2−nY2 ya que:
∑ Y i−Y2
= ∑ Yi2−2Y i
YY2= ∑ Y i
2−2 Y∑ Y in Y2
= ∑ Yi2−2n Y2
n Y2= ∑ Y i
2−nY2
SCR representa la variación de la observación que es atribuible al efecto lineal de X sobre Y. Si la pendiente de la recta estimada de regresión es cero, entonces SCR=0
SCE es la variación de las observaciones con respecto a la recta de regresión estimada. Si todas las observaciones se encuentran sobre esta recta, SCE=0
GRÁFICA Nº16
Grados de libertad.
Para STC es n1, para SCE es n2 y y como los grados de libertad son aditivos:
gl (SCR) = gl(STC) gl(SCE) lo que implica que el grado de libertad de SCR es 1.
1.6.4 La estadística F
La estadística F es utilizada en el análisis de regresión para probar la hipótesis nula : H0: b1= 0 , esto es, que no existe una relación lineal entre X e Y, contra la alternativa
H1 : b1≠ 0 .Si suponemos la existencia de normalidad, entonces
bajo H0 las observaciones Y i son n variables aleatorias independientes normalmente distribuidas con la misma media y varianza
2 .
Por lo anterior, puede demostrarse que:
SCR
2 ySCE
2 son dos variables aleatorias independientes con una distribución 2 con 1 y n2
grados de libertad respectivamente. De esta manera, la variable aleatoria:
SCR /2
1SCE/ 2
n−2
= SCR /1
SCE/n−2=
CMRCME
= F (36)
tiene una distribución F con 1 y n2 grados de libertad.
(CMR: Cuadrado medio de la regresión; CME: Cuadrado medio del error.) Notemos que el cuadrado medio del error es igual a la varianza residual.
22
Análisis de regresión simple
Un valor grande de CME comparado con CMR implicará un ajuste pobre y sugerirá la ausencia de una asociación lineal entre X e Y. Un valor pequeño de CME implicará que una porción considerable de la variación en las observaciones es atribuíble a un efecto lineal de X sobre Y.
H0 ha de rechazarse cuando el valor de F dado por el cuociente entre el cuadrado medio de la regresión y el cuadrado medio del error se encuentra dentro de la región crítica superior a la distribución F dada con 1 y n2 grados de libertad al nivel de significación deseado.
En nuestro ejemplo:
F= CMRCME
= SCR /1
SCE/n−2=
470,4361 /1390,3759 /32
= 38,563
Calculemos F con R:>qf(0.95,1,32)[1] 4.149097 4,149 38,563 con lo que rechazamos la hipótesis nula.
Tabla ANOVA para el modelo lineal simple:
Tabla ANOVA para nuestro ejemplo:
Aplicación en R:
>anova(a1)
23
SALIDA Nº12
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 6.8335 3.2591 0.2868 2.2141 7.5117
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 38.1007 4.5262 8.418 1.28e09 ***a$V2 2.5477 0.4103 6.210 5.92e07 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.493 on 32 degrees of freedomMultiple Rsquared: 0.5465, Adjusted Rsquared: 0.5323 Fstatistic: 38.56 on 1 and 32 DF, pvalue: 5.921e07
TABLA Nº11Fuente de Grado de Suma de los Cuadrados variación libertad Cuadrados Medios
∑ Y i−Y2
∑ Y i−Y i
2/n−2
∑ Y i−Y2
∑ Y i−Y i
2
∑ Y i−Y2
∑ Y i−Y2
∑ Y i−Y i
2
n−2
Regresión
Error
Total
1
n−2
n−1
F
TABLA Nº12Fuente de Grado de Suma de los Cuadrados variación libertad Cuadrados Medios
38,563470,436
390,376
860,802
470,436
12,199
Regresión
Error
Total
1
32
33
F
SALIDA Nº13
Analysis of Variance Table
Response: a$V1 Df Sum Sq Mean Sq F value Pr(>F) a$V2 1 470.43 470.43 38.562 5.921e07 ***Residuals 32 390.38 12.20 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Existe una relación entre F con 1 y n1 grados de libertad y la correspondiente estadística t de student para una hipótesis alternativa bilateral.
Considerando que la recta estimada es: Y i= Y b1X i−X Y i−Y= b1X i−
X / ∑ 2
∑ Y i−Y2
= b12∑ X i−
X2 SCR= bi2∑ Xi−
X 2
y que por otro lado: S2 b1= S2
∑ X i−X2=
CME
∑ Xi−X 2=
SCE/n−2
∑X i−X2(pues el cuadrado medio del error es
igual a la varianza residual) tenemos que nuestra estadística F es:
F= CMRCME
= SCR /1
SCE/n−2 =
b12∑ X i−
X 2/1
S2b1∑ Xi−
X 2=
b1
Sb1
2
Verifiquemos esto en nuestro ejemplo: (37)
Tenemos que: Sb1= 0,4103 y b1= −2,5477 por lo tanto b1
Sb1
2
= −2,54770,4103
2
= 38,556
De acuerdo con lo anterior, si una variable aleatoria tiene una distribución F con 1 y n2 grados de libertad, entonces: F= t2 Donde t es una variable aleatoria t de student con n2 grados de libertad. La relación
es: F1− , 1,n−2= t
1−/2, n−22 En nuestro ejemplo t para b1 es 6.210, Así t2
= 38,564 (38)
1.7 PROPIEDADES DE LOS PARÁMETROS ESTIMADOS BAJO EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia.
Consideremos todos los estimadores no sesgados de b0 y b1 ( b0 y b1 ) los cuales son combinaciones lineales de las observaciones Y1, Y2 , ..., Yn . Si entre todos estos estimadores existen algunos cuyas varianzas son las más pequeñas de entre todos los demás estimadores no sesgados de b0 y b1 , éstos son denominados los mejores estimadores lineales insesgados (MELI) de b0 y b1 . Ahora, bajo los 10 supuestos requeridos y expuestos al inicio de este capítulo, los estimadores por MCO son los MELI. Lo anterior es conocido como el teorema de GaussMarkov y representa la justificación más importante para usar MCO.
1.7.1 Sesgo.
GRÁFICA Nº17
Un estimador es insesgado si el promedio de su distribución muestral es igual al parámetro verdadero.
Esto es: E b=b (39)
El sesgo es definido como la diferencia entre el valor esperado del estimador y el parámetro verdadero, así:
sesgo=E b−b (40)
GRÁFICA Nº18
1.7.2 Eficiencia.
El estimador eficiente o mejor insesgado se refiere al que tiene la menor varianza de entre los estimadores insesgados. Otra manera de decir esto es que un estimador eficiente tiene el menor intervalo de confianza y está más cercano a ser estadísticamente significativo que cualquier otro estimador.
La gráfica Nº18 muestra la distribución de dos estimadores insesgados, uno de los cuales es eficiente:
El estimador por MCO es frecuentemente usado porque es el mejor estimador lineal insesgado, esto es, entre todos los estimadores lineales insesgados, es el que tiene la menor varianza. Sin embargo, los estimadores no lineales pueden ser superiores a los MCO.
24
Análisis de regresión simple
1.7.3 Consistencia.
GRÁFICA Nº19
Un estimador es considerado consistente cuando ocurre que:
1 a medida que el tamaño de la muestra se incrementa, el estimador se aproxima más y más al parámetro real (esto se denomina insesgación asintótica).
2 Cuando el tamaño de la muestra se aproxima al infinito en el límite, la distribución muestral del estimador debe colapsar o hacerse una línea vertical de altura 1 sobre el valor del parámetro verdadero.
1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE
Para los n pares X1 ; Y1 ,X2 ; Y2 , ...,Xn ; Yn , el modelo lineal:
Y i=b0b1X ii i=1,2 ,... ,n son n ecuaciones lineales de la forma:
Y1 = b0b1X11
Y2 = b0b1X22
Yn = b0b1Xnn
Si definimos:
Y=[Y1
Y2
⋮
Yn] ; X=[
1 X1
1 X2
⋮ ⋮
1 Xn] ; b=[b0
b1] ; entonces: Y = X b= [
b0 b1 X1
b0 b1 X2
⋮ ⋮
b0 b1 Xn]
Si asumimos la presencia de la normalidad, es un vector de variables aleatorias normales tales que: E=0; Var =
2 I Donde:
I : vector de identidad 2 : varianza del error constante.
Las ecuaciones normales son:
∑ Yi=n b0b1∑ X i
∑ Xi Yi=b0∑ X i
b1∑ X i2 lo que expresado en términos matriciales resultaría:
[ ∑ Y i
∑ X i Y i] = [
b0
b1] [ n ∑ X i
∑ X i ∑X i2] notemos que: (41)
[ n ∑ X i
∑ X i ∑X i2] = [ 11...1 X1X2...Xn
X1X2...Xn X12X2
2...Xn2 ] = [ 1 1 ⋯ 1
X1 X2 ⋯ Xn] [
1 X1
1 X2
⋮ ⋮
1 Xn] = X ' X
Además notemos de que: [ ∑ Y i
∑ X i Y i] = [ Y1Y2...Yn
X1 Y1X2 Y2...Xn Yn] = [ 1 1 ⋯ 1
X1 X2 ⋯ Xn] [
Y1
Y2
⋮Yn
] = X ' Y
25
Tenemos entonces que las ecuaciones normales en forma matricial son: X ' X b= X ' Y
Si suponemos que la matriz X ' X tiene inversa, entonces: X ' X−1X ' X b= X ' X
−1X ' Y
I b= X ' X−1X ' Y y el vector de parámetros estimados queda entonces como:
b= X ' X−1 X' Y (42)
Y la ecuación de regresión queda: Y= X b (43)
26
Análisis de regresión múltiple
EL ANÁLISIS DE REGRESIÓN MÚLTIPLE (ARM)2.1 INTRODUCCIÓN
El análisis de regresión múltiple (ARM) se utiliza para comprender la influencia de dos o más variables independientes Xki sobre una variable dependiente Y i . Es el caso general del ARS.
El modelo de regresión lineal con dos regresores puede escribirse como sigue:Y i= b0b1X1ib2 X2ii i= 1,2,... , n (44)
En términos generales: sean [ X1i, X2i, ... , Xki] k variables de predicción y Y i la iésima observación respuesta asociada a ellas, i el error aleatorio no observable asociado con Y i y [ b0 , b1 , ... , bk ] k parámetros lineales desconocidos. Entonces el modelo de regresión lineal múltiple (de primer orden) para k variables de predicción independientes es:
Y i= b0b1X1ib2 X2i...bk Xkii i= 1,2,... , n (45)
Lo anterior es una forma abreviada de la expresión:
Y1= b0b1 X11b2 X21...bk Xk11
Y2= b0b1 X12b2 X22...bk Xk22
.
.
.Yn= b0b1X1nb2 X2n...bk Xknn
Si suponemos presencia de normalidad, las Y i son variables aleatorias independientes con medias y
varianzas: EY i= b0b1X1i...bkXki Var Y i= 2i= 1,2,... , n (46)
y los errores aleatorios i se distribuyen según una curva normal N0,2 siendo independientes
los unos de otros.Los parámetros bk representan el cambio en la respuesta promedio para un cambio igual a una
unidad de la correspondiente variable de predicción Xki , cuando todos los demás regresores se mantienen constantes. bk representa el efecto parcial de Xki sobre la respuesta.
Si por ejemplo estamos en presencia de un modelo: Y i= b0b1X1ib2 X2ib3X1i X2ii , b3 refleja la influencia sobre la variable respuesta ejercida por la interacción entre X1i y X2i .
El modelo lineal general necesita sólo una restricción funcional: que sea lineal en los parámetros desconocidos.
Así surgen muchas alternativas de modelos. Por ejemplo, si se define: X3i= X1i X2i i= 1,2,... , n la ecuación Y i= b0b1X1ib2 X2ib3X1i X2ii puede reescribirse como un modelo de primer orden:
Y i= b0b1X1ib2 X2ib3 X3ii .Otro caso se da cuando X ji= Xi
ji= 1,2,... , n j= 1,2,... , k . Así el modelo lineal general toma la
forma:
Y i= b0b1X ib2 X i2...bk X i
ki que es llamado modelo polinomial. (47)
En el modelo polinomial lo que se busca es el grado k que mejor se ajusta la curva de regresión.Muchas veces el modelo más preciso es el que incluye estas dos características, la forma polinomial y la
interacción entre las múltiples variables de predicción. Por ejemplo, para 2 variables de predicción tenemos:
Y i= b0b1X1ib2 X2ib3X1i2b4 X2i
2b5 X1i X2ii (48)
que se denomina ecuación completa de segundo orden.Para k≥2 variables de predicción distintas, una ecuación de regresión completa de segundo orden
consiste en un término constante, k términos lineales, k términos cuadráticos y k k−1
2términos de interacción.
Para el ARM existe un supuesto adicional que para el análisis de regresión simple: no debe existir una relación lineal exacta entre las X i , pues de lo contrario las ecuaciones que constituyen el sistema de ecuaciones normales construido por MCO no son independientes.
Si dos o más X i están alta pero no perfectamente correlacionados, los bi pueden ser calculados por MCO pero los efectos de cada Xk respecto a Y no pueden ser aislados.
27
2.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables independientes o explicativas.
El método de MCO para obtener los parámetros estimados en el ARM opera, al igual que en el ARS, minimizando la suma del cuadrado de los residuos:
∑ e i2= ∑ Y i−
Yi2= ∑ Y i−
b0−b1 X1i−
b2 X2i2 (49)
1∂∑ e i
2
∂ b0
= ∂∑ Y i−
b0−b1 X1i−
b2 X2i2
∂ b0
= 0 −2∑ Yi−b0−
b1X1i−b2 X2i= 0
∑ Y i= n b0b1∑ X1i
b2∑ X2i Primera ecuación normal (50)
2∂∑ e i
2
∂ b1
= ∂∑ Y i−
b0−b1 X1i−
b2 X2i2
∂ b1
= 0 −2∑ X1i Yi−b0−
b1X1i−b2 X2i= 0
∑ Y i X1i= b0∑ X1ib1∑ X1i
2 b2∑ X2i X1i Segunda ecuación normal (51)
3∂∑ e i
2
∂ b2
= ∂∑ Y i−
b0−b1 X1i−
b2 X2i2
∂ b2
= 0 −2∑ X2iYi−b0−
b1X1i−b2 X2i= 0
∑ Y i X2i= b0∑ X2ib2∑ X2i
2 b1∑ X1i X2i Tercera ecuación normal (52)
Para el caso del análisis de regresión múltiple con dos variables independientes, b0 es el término constante de la intersección de la regresión y está dado por el valor estimado para Y i cuando X1i= X2i= 0 .
b1 mide el cambio en Y i para cada cambio de 1 unidad en X1i , mientras X2i se mantiene constante. El parámetro b1 es un coeficiente de regresión parcial porque corresponde a la derivada parcial de Y con
respecto a X1i ∂ Y∂ X1i
. El caso de b2 es análogo a b1 .
Al expresar las ecuaciones normales en forma de desviación podemos obtener los parámetros estimados un poco más fácilmente:
Tenemos que Y i= b0b1X1i
b2 X2i y Y= b0b1X1
b2X2 , definamos y i y y i :
y i= Yi−Y= b1X1i−X1b2X2i−X2 o lo que es lo mismo y i= b1 x1i
b2 x2i y y i= Yi−Y (53)
Por otro lado e i= y i− y i= y i−b1 x1i−
b2x2i . Entonces la suma del cuadrado de los residuos es:
∑ e i2= ∑ y i−
b1 x1i−b2 x2i
2 (54)
Los parámetros estimados se obtienen derivando la expresión anterior respecto a b1 y b2 e igualando a 0:
1. ∂∑ e i
2
∂ b1
= ∂∑ y i−
b1 x1i−b2 x2i
2
∂ b1
= 0 −2∑ x1iy i−b1 x1i−
b2 x2i= 0
∑ x1i y i= b1∑ x1i2 b2∑ x1i x2i
b1= ∑ x1i y i−
b2∑ x1i x2i
∑ x 1i2 Primera ecuación normal (55)
2. ∂∑ e i
2
∂ b2
= ∂∑ y i−
b1 x1i−b2 x2i
2
∂ b2
= 0 −2∑ x2iy i−b1x1i−
b2 x2i= 0
∑ x2i y i= b2∑ x2i2 b1∑ x1i x 2i
b2= ∑ x 2i y i−
b1∑ x1i x2i
∑ x2i2 Segunda ecuación normal (56)
Sustituyamos b1= ∑ x1i y i−
b2∑ x1i x2i
∑ x 1i2
en ∑ x2i y i= b2∑ x2i2 b1∑ x1i x 2i y obviemos los subi:
28
Análisis de regresión múltiple
∑ x2y= b2∑ x22∑ x1y− b2∑ x 1x 2
∑ x12
∑ x1x2 ∑ x2y∑ x12= b2∑ x 2
2∑ x 12∑ x1y− b2∑ x1 x2∑ x1 x2
∑ x2y∑ x12= ∑ x1 y∑ x1 x2−
b2[∑ x1 x22∑ x1
2∑ x22] Y así: b2=
∑ x 2y∑ x12−∑ x1y∑ x1 x2
∑ x12∑ x2
2−∑ x1 x2
2 (57)
Sustituyamos b2= ∑ x 2i y i−
b1∑ x1i x2i
∑ x2i2 en ∑ x1i y i= b1∑ x1i
2 b2∑ x1i x2i y obviemos los subi:
∑ x1y= b1∑ x12∑ x2y− b1∑ x1 x2
∑ x 22
∑ x1 x2 ∑ x1y∑ x22= b1∑ x1
2∑ x22∑ x2 y∑ x1x2−
b1∑ x1x 22
∑ x1y∑ x22= ∑ x2 y∑ x1x2−
b1[∑ x1 x22−∑ x1
2∑ x22] Y así: b1=
∑ x1 y∑ x 22−∑ x2y∑ x1 x2
∑ x12∑ x2
2−∑ x1 x2
2 (58)
Por otro lado con la ecuación: Y= b0b1X1
b2X2 obtenemos b0 (59)
Hacer estos cálculos suele ser un proceso engorroso. El álgebra de matrices simplifica enormemente la situación. Así, lo anterior usando matrices en R se puede resumir con las siguientes instrucciones:
>a < read.table('a.txt') >am<as.matrix(a) >x< cbind(1, am[,2],am[,3],am[,4])>y<cbind(am[,1])>xt < t(x)>b<solve(xt%*%x)%*%xt%*%y>b
Más adelante aplicaremos estas instrucciones en el ejemplo Nº6.
2.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices.
Dada una muestra aleatoria de observaciones [ Y1 , Y2, ... , Yn ] en los puntos de observación:[ X11 , X21 , ... , Xk1, X12, X22 ,... , Xk2 , ... , X1n , X2n ,... , Xkn] respectivamente, se establecen las n ecuaciones
siguientes:Y1= b0b1 X11b2 X21...bk Xk11
Y2= b0b1 X12b2 X22...bk Xk22
.
.
.Yn= b0b1X1nb2X2n...bk Xknn
Lo que en forma matricial se expresa: Y= Xb+µ, donde: (59)
Y= [Y1
Y2
⋮
Yn] X= [
1 X11 X21 ⋯ Xk1
1 X12 X22 ⋯ Xk2
⋮ ⋮ ⋮ ⋮
1 X1n X2n ⋯ Xkn] b= [
b0
b1
⋮
bk] = [
1
2
⋮
n]
Si suponemos presencia de normalidad:Y N Xb,2 I y N0,2 I donde: Var Y= Var= 2 I (60)
Resulta entonces que Y y son vectores1 de variables aleatorias independientes normalmente
distribuidas.La estimación matricial de los parámetros por MCO, da para las ecuaciones normales la misma forma
que para el análisis de regresión simple:
X 'X b= X 'Y Si X 'X tiene inversa, entonces: b= X 'X−1 X 'Y (61)
1 Matrices de sólo una columna.
29
Es así que la ecuación estimada de regresión es: Y= X b (62)
Las propiedades de los estimadores por MCO [ b0, b1 , ... , bk ] son extensiones de las propiedades de
los estimadores del modelo lineal simple.
2.1.3 Ejemplo y trabajo con matrices en R.
Ejemplo Nº6: Regresión lineal de los años de escolaridad sobre el % de pobreza, el resultado del SIMCE en matemáticas para los segundos medios y el % de desocupación para las comunas de Santiago el año 2006.
Los años de escolaridad son un indicador importante del nivel de progreso cultural y económico de una sociedad. Suponemos que existen diversos factores que influyen en que una persona continúe sus estudios o los detenga, entre otros, el nivel de pobreza, los resultados académicos a nivel de enseñanza media y el porcentaje de desocupación en una población.
La base de datos Nº6 nos entrega información de los años de escolaridad Yi , el % de población pobre X1i , los resultados de la prueba SIMCE en matemáticas para los 2º medios X2i y el % de desocupación X3i para las comunas del gran Santiago el año 2006.
Aplicaremos una regresión lineal de los años de escolaridad sobre las variables ya enunciadas.
Obtengamos los coeficientes de la regresión:
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1)
Con lo que nuestra ecuación de regresión múltiple queda como:
Y i= 7,004−0,112∙X1i0,025∙ X2i−0,152X3i
−4,089 5 −2,251
Probemos la significación estadística de nuestros parámetros estimados:Para un 95% de significación2 y con 30 grados de libertad (nk= 344= 30), calculando con R obtenemos:
>qt(0.975,30)[1] 2.042272
Por lo que nuestros tres coeficientes son significativos al 95%.
Calcularemos ahora los parámetros estimados utilizando el álgebra de matrices en R, esto es,
b= X 'X−1 X 'Y
Construimos la matriz X. Para esto convertimos el data.frame que se forma mediante la instrucción read.table en una matriz con la instrucción as.matrix y añadimos una primera columna de 1's, tal como hemos
2 Hacemos un test de dos colas, con lo que 1−
2= 1 – 0,05/2 = 0,975.
30
SALIDA Nº14
Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals: Min 1Q Median 3Q Max 1.7851 0.3802 0.0646 0.3693 1.1437
Coefficients: Estimate Std. Error t value Pr(>|t|)
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6573 on 30 degrees of freedomMultiple Rsquared: 0.8212, Adjusted Rsquared: 0.8033 Fstatistic: 45.91 on 3 and 30 DF, pvalue: 2.504e11
(Intercept) 7.004017 1.572577 4.454 0.000108 ***a$V2 0.111553 0.027281 4.089 0.000299 ***a$V3 0.024663 0.004933 5.000 2.33e05 ***a$V4 0.151626 0.067370 2.251 0.031895 *
BASE DE DATOS Nº6
COMUNA
Santiago 13,1 7,3 283 6,2Cerrillos 10,4 8,3 259 9,3Cerro Navia 9,1 17,5 215 9,4Conchalí 10,1 8,0 236 4,9El Bosque 9,7 15,8 231 10,3
∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
San Bernardo 9,7 20,9 246 8,6San Joaquín 10,7 7,4 233 7,4San Miguel 12,3 2,5 237 4,6San Ramón 9,6 16,7 245 7,9Vitacura 14,6 4,4 325 3,2
Y i X1i X 2i X 3i
FUENTE: Años de escolaridad, % de población pobre,resultados simce en matemáticas para los 2º medios y % desocupados al 2006: http://www.bcn.cl/siit/comunas_cifras
Análisis de regresión múltiple
definido nuestra matriz X:
>am<as.matrix(a) >x< cbind(1, am[,2],am[,3],am[,4])
Construimos la matriz Y:>y<cbind(am[,1])
Calculamos la transpuesta de X:>xt < t(x)
Y conociendo que la inversa de una matriz la obtenemos con la instrucción solve, la expresiónb= X 'X
−1 X 'Y tiene su equivalente en R como sigue:
>b<solve(xt%*%x)%*%xt%*%y
Y llamamos al objeto b, obteniendo (Salida nº15):
>bQue como vemos coincide con los resultados ya obtenidos.
2.2 INTERVALOS DE CONFIANZA
2.2.1 La varianza residual: S2
La varianza residual en términos matriciales se define como: S2 = Y'Y− b 'X 'Y
n−k(63)
donde de manera análoga al ARS, Y 'Y− b' X 'Y es la suma del cuadrado de los residuos y nk es igual al número de observaciones menos el número de parámetros que figuran en el modelo.
Según R, el error standard residual del ejemplo Nº6 es: 0,6573.
Según la forma algebraica S2= ∑ e i
2
n−k. Verifiquémoslo: S2
= 12,96334−4
= 0,432 con lo que S= 0,657
Calculemos lo mismo pero en forma matricial con R:
Ya hemos construido nuestras matrices Y, la transpuesta de X y b
Obtengamos la transpuesta de Y y de b :>yt < t(y)>bt < t(b)
Entonces las instrucciones en R análogas aY 'Y−b 'X 'Y
n−ky Y ' Y− b' X' Y
n−kpara los estimadores de
la varianza residual y la desviación standard residual respectivamente son3:
>(yt%*%ybt%*%xt%*%y)/30 obteniendo:
3 R también es una calculadora.
31
SALIDA Nº 15
[,1][1,] 7.00401718[2,] 0.11155272[3,] 0.02466273[4,] 0.15162602
TABLA Nº13
COMUNA
Santiago 13,1 7,3 283 6,2 12,229 0,758Cerrillos 10,4 8,3 259 9,3 11,056 0,430Cerro Navia 9,1 17,5 215 9,4 8,929 0,029Conchalí 10,1 8,0 236 4,9 11,189 1,186El Bosque 9,7 15,8 231 10,3 9,377 0,104
∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙
San Bernardo 9,7 20,9 246 8,6 9,436 0,070San Joaquín 10,7 7,4 233 7,4 10,803 0,011San Miguel 12,3 2,5 237 4,6 11,873 0,183San Ramón 9,6 16,7 245 7,9 9,986 0,149Vitacura 14,6 4,4 325 3,2 14,043 0,310
Y i X1i X 2iX 3i e i e i
2
∑e i2= 12,963
SALIDA Nº16
[,1][1,] 0.4320875
y
>sqrt((yt%*% ybt%*%xt%*%y)/30) obteniendo:
2.2.2 La varianza de los parámetros estimados
1. Cada b j es un estimador insesgado de b j . E b j= b j para j= 0,1,2,... , k y
2. La varianza de los parámetros verdaderos es: Var b j= C j1
2 para j= 0,1,2,... , k donde C j1
es el elemento de la diagonal (j+1) de X' X−1
Para nuestro ejemplo:
>solve(xt%*%x) = X 'X−1 =
Ahora, la varianza de los parámetros estimados es: Var b j= C j1
S2= S2
b j para j= 0,1,2,... , k (64)
Calculemos la desviación standard para los parámetros estimados de nuestro ejemplo y comparemos con los que obtuvimos con R4.
S2 b0= C1S2
= 5,72337110 ∙0,4320875= 2,47299711 S b0= 1,57257658S2 b1= C2 S2
= 0,00172251∙ 0,4320875= 0,00074428 S b1= 0,02728147S2 b2= C3S2
= 0,00005631∙ 0,4320875= 0,00002433 S b2= 0,00493255S2 b3= C4S2
= 0,01050428 ∙0,4320875= 0,00453877 S b3= 0,06737039
Como vemos, todas las desviaciones standard de los parámetros estimados coinciden con los entregados por R.
2.2.3 Los valores t de los parámetros estimados.
b j−b j
S b jpara j= 0,1,2,... , k (65)
es una variable aleatoria t de student con nk grados de libertad.La estadística apropiada para probar la hipótesis nula: H0 : b j=0 contra cualquier hipótesis alternativa,
es la t de student: t= b j−b j
S b j
b j
S b jpara j= 0,1,2,... , k con nk grados de libertad.
Calculemos y observemos que coinciden los valores obtenidos con R:
t0= b0
S b0=
7,004017181,57257658
= 4,454 t1= b1
S b1=−
0,111552720,02728147
=−4,089
t2= b2
S b2=
0,024662730,00493255
= 5 t3= b3
S b3=−
0,151626020,06737039
=−2,251
Ya hemos obtenido que para un 95% de significación y con 30 grados de libertad: t1−
0.052
,30= 2.042272 ,
así los cuatros coeficientes estimados son estadísticamente significativos al 95%.
4 Para evitar errores de redondeo utilizaremos 8 decimales.
32
SALIDA Nº17
[,1][1,] 0.6573336
SALIDA Nº18
[1,] [2,] [3,] [4,][1,] 5,7233711000 0,0333771990 0,0173353265 0,1389501476[2,] 0,0333772000 0,0017225115 0,0001005538 0,0012987022[3,] 0,0173353300 0,0001005538 0,0000563115 0,0003028544[4,] 0,1389501500 0,0012987022 0,0003028544 0,0105042786
Análisis de regresión múltiple
2.2.4 Construcción de los intervalos de confianza para los parámetros estimados.
El intervalo de confianza del 1001− % para el parámetro b j resulta:
b j± t1−
2,n−k
∙ S b j j= 0,1,2,. .. , k entonces, como t1−
0.0052
,30=2.042272 (66)
b0±t1−
0,052
,30 ∙ S b0= 7,00401718±2,042272∙ 1,57257658= [ 3,792 ;10,216 ]
b1± t1−
0,052
,30∙S b1= −0.11155272±2,042272∙ 0,02728142= [−0,167;−0,056 ]
b2± t1−
0,052
,30 ∙ S b2= 0.02466273±2,042272∙ 0,00493255= [ 0,015 ;0,035 ]
b3± t1−
0,052
,30 ∙ S b3= −0.15162602±2,042272∙ 0,06737039= [−0,289 ;−0,014 ]
En R, la instrucción con la que se obtienen los intervalos de confianza es confint. Comparemos con los resultados ya obtenidos.
>confint(a, level= 0.95)
Vemos que ambos resultados coinciden.
2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
Es definido como la proporción de la variación total en Y i explicada por la regresión múltiple de Y sobre X1i y X2i (para el caso de dos variables independientes) y se calcula de la siguiente manera:
Establezcamos las variables en forma de desviación:
Sean:
xi= X i−X
y i= Yi−Y y
y i= Yi−Y
R2se define como R2
= 1−∑ ei
2
∑ y i2 0≤ R2
≤ 1 (67)
Existen varias equivalencias:
R2= ∑ Yi−
Y 2
∑ Yi−Y 2=
∑ y i2
∑ y i2=
SCRSTC
= 1−∑ Yi−
Y i2
∑ Y i−Y2= 1−SCE
STC=
b1∑ Y X1b2∑ Y X2
∑ Yi2 (68)
Demostremos la última relación por ser la menos evidente:
∑ e i2= ∑ e i Yi−
Y i= ∑ e iY i−b1 X1i−
b2X2i= ∑ e i Y i−b1∑ e i X1i−
b2∑ e i X2i
Por el proceso de MCO:∂∑ e i
2
∂ b1
= −∑ ei X1i= 0 y∂∑ e i
2
∂ b2
= −∑ ei X2i= 0
Es entonces que:
∑ e i2= ∑ e i Y i= ∑ Yi−
Y iY i= ∑ Y iY i−b1 X1i−
b2X2i= ∑ Yi2− b1∑ Y i X1i−
b2∑ Yi X2i
Sustituyendo en: R2= 1−
∑ ei2
∑ y i2 obtenemos:
R2= 1−
∑ Yi2− b1∑ Y i X1i−
b2∑ Y i X2i
∑ Y i2 o lo que es lo mismo: R2
= b1∑ Y i X1i
b2∑ Y i X2i
∑ Y i2
33
SALIDA Nº19
2,5% 97,5%(Intercept) 3,79238725 10,21564712
a$V2 0,16726880 0,05583663a$V3 0,01458882 0,03473665a$V4 0,28921469 0,01403736
La inclusión de variables independientes adicionales probablemente incremente el valor SCR para el mismo STC lo que hace que R2 aumente.
R2 mide la proporción de la variación total de las observaciones con respecto a su media, atribuible a la ecuación de regresión estimada.
Por si solo, R2 no puede validar el modelo propuesto, como tampoco un R2≈ 1 implica
necesariamente que la ecuación de regresión estimada sea apropiada para predecir.
Para nuestro ejemplo:
Tenemos entonces que:
R2= ∑ y i
2
∑ y i2=
SCRSTC
= 1−SCESTC
equivale
para nuestro ejemplo a:59,51672,477
= 1−12,96372,477
= 0,821 que
coincide con el valor entregado por R.
2.3.1 R2 ajustado o R2
El problema con R2 es que no toma en consideración los grados de libertad. R2 se usa para incorporar el efecto tanto del tamaño de la muestra como del número de parámetros del modelo. R2 siempre es menor a R2 y no puede forzarse hacia 1 sólo por el hecho de agregar mas variables independientes al modelo.
Por eso es preferible utilizar R2 que se define como: R2= 1−1−R2
n−1n−k
donde: (69)
n : número de observaciones.k: : número de parámetros estimados.
Para nuestro ejemplo: R2= 1−
1−R2n−1
n−k= 1−
1−0,821 3330
= 0,803 que coincide con el resultado
de R cuadrado ajustado entregado por R.
El rango de valores para R2 es:
cuando k=1, n−1 n−k
= 1 y R2= R2 ;
cuando k>1, n−1 n−k
1 y R2 R2 ;
cuando n es grande, frente a un k dado, n−1 n−k
≈ 1 y R2≈ R2 y
cuando k es grande en relación a n, R2 será mucho menor que R2 , pudiendo incluso ser negativo. (aún cuando 0≤ R2
≤ 1 )
La suma del cuadrado de los residuos ∑ e i2 , requerido para realizar los test de significación, puede
ser determinado sin antes encontrar Y i : Siendo R2=
b1∑ Y i X1ib2∑ Y i X2i
∑ Y i2 , como R2
= 1−∑ ei
2
∑ y i2 ;
∑ e i2= 1−R2
∑ y i2 Este método implica muchos menos cálculos que utilizando Y i .
34
TABLA Nº14
COMUNA
Santiago 13,1 7,3 283 6,2 12,229 1,674 0,758 211,785Cerrillos 10,4 8,3 259 9,3 11,056 0,015 0,430 53,816Cerro Navia 9,1 17,5 215 9,4 8,929 4,025 0,029 186,898Conchalí 10,1 8,0 236 4,9 11,189 0,064 1,186 84,227El Bosque 9,7 15,8 231 10,3 9,377 2,429 0,104 125,055
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
San Bernardo 9,7 20,9 246 8,6 9,436 2,249 0,070 125,055San Joaquín 10,7 7,4 233 7,4 10,803 0,018 0,011 23,585San Miguel 12,3 2,5 237 4,6 11,873 0,879 0,183 134,608San Ramón 9,6 16,7 245 7,9 9,986 0,902 0,149 135,312Vitacura 14,6 4,4 325 3,2 14,043 9,661 0,310 353,041
59,516 12,963 72,477∑
Y i X1i X 2i X3iY i Y i−
Y2 Y i−Y i
2 Y i−Y2
Análisis de regresión múltiple
2.4 PREDICCIÓN
2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción toman los valores específicos [1, X1i , X2i , ∙∙∙ , Xki]
Si X es la matriz de los valores de las variables independientes, la cual da origen a la ecuación de regresión estimada, entonces un vector particular X i se puede denotar como [1, X1i , X2i , ∙∙∙ , Xki] .
La respuesta promedio estimada Y i= X ib será por lo tanto: b0
b1X1b2X2... bk Xk y la estimación
de la varianza real VarY i= 2 I será: S2 ∙ [X i'X' X
−1X i] donde S2 es , como ya hemos visto, la varianza residual.
Asumiendo normalidad, un intervalo de confianza del 1001− % para la respuesta promedio en
X i es:Y i±t
1−
2,n−k
S ∙ [Xi'X ' X
−1 Xi ] (70)
2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R.
La expresión que buscamos es:Y i±t
1−
2,n−k
S ∙ [Xi'X ' X
−1 Xi ] . Consideremos el siguiente ejemplo:
Ejemplo Nº7: El índice de desarrollo humano
El índice de desarrollo humano (IDH) mide el nivel que ha alcanzado un país en tres indicadores básicos de bienestar: una vida larga, educación (ponderado en dos tercios la tasa de alfabetización y un tercio el promedio de las tasas brutas de matrícula primaria, secundaria y terciaria) y un nivel de vida digno, medido por el PIB per cápita5 (estandarizado en paridad de poder adquisitivo en dólares norteamericanos). El valor de cada componente se expresa como un valor entre 0 y 1 y se calcula el IDH como el promedio simple de estos indicadores.
La base de datos Nº7 nos entrega los valores de la espectativa de vida al nacer en años Yi , el PIB PPA per capita (US$) X1i , y el índice de educación X2i para 175 países al 2007.
Ejecutemos una regresión lineal de la espectativa de vida al nacer sobre el PIB PPA per capita y el índice de educación.
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3)) >summary(a1)
5 Se ajusta el ingreso debido a que para lograr un nivel digno de desarrollo humano no se requiere un ingreso ilimitado. En consecuencia, se utiliza su logaritmo.
35
SALIDA Nº20
Call:lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals: Min 1Q Median 3Q Max 21.344 2.199 1.216 3.632 12.576
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.680e+01 2.283e+00 16.120 < 2e16 ***a$V2 1.794e04 3.701e05 4.847 2.79e06 ***a$V3 3.665e+01 3.107e+00 11.794 < 2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.07 on 172 degrees of freedomMultiple Rsquared: 0.6573,Adjusted Rsquared: 0.6533 Fstatistic: 164.9 on 2 and 172 DF, pvalue: < 2.2e16
BASE DE DATOS Nº7
PAÍS
Afghanistan 43,6 1054 0,35Albania 76,5 7041 0,89Algeria 72,2 7740 0,75Angola 46,5 5385 0,67Argentina 75,2 13238 0,95
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
Vanuatu 69,9 3666 0,73Venezuela 73,6 12156 0,92Viet Nam 74,3 2600 0,81Yemen 62,5 2335 0,57Zambia 44,5 1358 0,68
Y iX1i X2i
FUENTE: http://hdrstats.undp.org/es/indicators
Nuestra ecuación de regresión múltiple queda como:
Y i= 36,80,0001794∙ X1i36,65∙ X2i
16,12 4,847 11,794
Calculemos la estadística t al 95% de significación:>qt(0.975,172)[1] 1.973852
Con lo que nuestros parámetros estimados son estadísticamente significativos al 95%.
Obtengamos los valores de [Xi'X ' X
−1 Xi ] utilizando el álgebra de matrices en R. El resultado de estas operaciones lo obtenemos en la salida Nº21.
>a < read.table('a.txt') >am<as.matrix(a) >x< cbind(1, am[,2],am[,3])>xt < t(x)>sqrt(x%*%solve(xt%*%x)%*%xt)>ad<diag(sqrt(x%*%solve(xt%*%x)%*%xt))>adt<t(ad)>adt
Y conociendo que la inversa de una matriz la obtenemos con la instrucción solve, la expresión b= X 'X
−1 X 'Y tiene su equivalente en R como sigue:
Hemos obtenido que t1−
0.052
, 172= 1.973852 y de la salida de R S= 6,07
En la tabla Nº15 hemos hecho los cálculos para obtener algebraicamente los valores de los intervalos de confianza para la variable respuesta estimada Y i :
La instrucción en R para obtener los intervalos de confianza bajo el contexto de un ARM al 95% de confianza es: predict.lm(a1,interval="confidence", level = 0.95)
Comparemos con los resultados que ya hemos obtenido previamente:
>a< read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3))>predict.lm(a1,interval="confidence", level = 0.95)
2.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción toman los valores específicos [1, X1i , X2i ,∙ ∙∙ , Xki]
Si X es la matriz de los valores de las variables independientes, la cual da origen a la ecuación de regresión estimada, entonces un vector particular X i se puede denotar como [1, X1i , X2i , ∙∙∙ , Xki] .
36
TABLA Nº15
PAÍS
Afghanistan 43,6 1054 0,35 49,963 0,210 47,442 52,484Albania 76,5 7041 0,89 70,535 0,107 69,257 71,813Algeria 72,2 7740 0,75 65,603 0,080 64,642 66,564Angola 46,5 5385 0,67 62,212 0,093 61,100 63,324Argentina 75,2 13238 0,95 73,846 0,109 72,539 75,153
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Vanuatu 69,9 3666 0,73 64,139 0,089 63,073 65,205Venezuela 73,6 12156 0,92 72,735 0,101 71,524 73,947Viet Nam 74,3 2600 0,81 66,953 0,102 65,735 68,171Yemen 62,5 2335 0,57 58,256 0,122 56,799 59,713Zambia 44,5 1358 0,68 62,039 0,098 60,870 63,207
Y i X1i X 2iY i [Xi
' X'X −1 X i ]Y i−t
1−
2,n−k
S [Xi'X' X−1Xi ]
Y it1−
2,n−k
S [Xi'X' X−1Xi ]
SALIDA Nº21
0,21040090,10668460,08021090,09280630,1091066
∙∙∙
0,08899510,10109080,10162380,12158590,0975262
[X i'X 'X−1 Xi]
Análisis de regresión múltiple
La respuesta promedio estimada Y i= X ib será por lo tanto:
b0b1X1
b2X2... bk Xk y la estimación de la varianza real VarY i= 22 I será: S2 ∙ [1X i
'X ' X −1 X i] donde S2 es , como ya hemos visto, la varianza residual.
Asumiendo normalidad, un intervalo de predicción del 1001−
% para la respuesta promedio en X i es:Y i±t
1−
2,n−k
S ∙
[1X i'X' X
−1X i] (71)
2.4.2.1 Cálculo de los intervalos de predicción usando el álgebra de matrices con R.
La expresión que buscamos es:Y i±t
1−
2,n−k
S ∙ [1X i'X ' X
−1 X i] .
Obtengamos los valores de [1X i'X ' X
−1 X i] utilizando el álgebra de matrices en R. El resultado de esta operación lo obtenemos en la salida Nº23.
>a < read.table('a.txt') >am<as.matrix(a) >x< cbind(1, am[,2],am[,3])>xt < t(x)>sqrt(1+x%*%solve(xt%*%x)%*%xt)>ad<diag(sqrt(1+x%*%solve(xt%*%x)%*%xt))>adt<t(ad)>adt
En la tabla Nº16 hemos hecho los cálculos para obtener algebraicamente los valores de los intervalos de predicción para la variable respuesta estimada Y i :
La instrucción en R para obtener los intervalos de confianza bajo el contexto de un ARM al 95% de confianza es:
>predict.lm(a1,interval="p", level = 0.95)
Comparemos con los resultados que ya hemos obtenido previamente:
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3))>predict.lm(a1,interval="p", level = 0.95)
37
TABLA Nº16
PAÍS
Afghanistan 43,6 1054 0,35 49,963 1,022 37,720 62,207Albania 76,5 7041 0,89 70,535 1,006 58,486 82,584Algeria 72,2 7740 0,75 65,603 1,003 53,583 77,623Angola 46,5 5385 0,67 62,212 1,004 50,179 74,244Argentina 75,2 13238 0,95 73,846 1,006 61,793 85,898
∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙
Vanuatu 69,9 3666 0,73 64,139 1,004 52,110 76,168Venezuela 73,6 12156 0,92 72,735 1,005 60,693 84,778Viet Nam 74,3 2600 0,81 66,953 1,005 54,910 78,996Yemen 62,5 2335 0,57 58,256 1,007 46,186 70,326Zambia 44,5 1358 0,68 62,039 1,005 50,001 74,077
Y i−t1−
2,n−k
S [1Xi' X 'X −1X i ]
Y it1−
2,n−k
S[1Xi' X'X −1Xi ][1Xi
' X 'X −1 X i ]Y i X1i X 2iY i
SALIDA Nº22
fit lwr upr1 49,81284 47,29185 52,333832 70,67753 69,39925 71,955803 65,67201 64,71094 66,633094 62,31759 61,20560 63,429585 73,98820 72,68090 75,29549∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
171 64,20817 63,14185 65,27450172 72,69461 71,48336 73,90586173 66,94889 65,73125 68,16653174 58,10550 56,64868 59,56233175 61,96166 60,79312 63,13021
SALIDA Nº24
fit lwr upr1 49,81284 37,56866 62,057022 70,67753 58,62769 82,727363 65,67201 53,65169 77,692344 62,31759 50,28426 74,350925 73,98820 61,93525 86,04115∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
171 64,20817 52,17897 76,23737172 72,69461 60,65170 84,73752173 66,94889 54,90533 78,99244174 58,10550 46,03542 70,17559175 61,96166 49,92297 74,00035
SALIDA Nº23
1,02189501,00567501,00321201,00429701,0059350
∙∙∙
1,00395201,00509701,00515001,00736401,0047440
[1X i'X 'X−1 Xi]
2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F
2.5.1 La estadística F.
La significación global para la regresión puede ser probada con la proporción de varianza explicada respecto a la inexplicada. Ésta sigue una distribución F con (k1) y (nk) grados de libertad donde:
Fk−1,n−k=
∑ y i2
k−1
∑ e i2
n−k
=
R2
k−11−R2
n−k
demostremos la última igualdad. (72)
Consideremos las variables en forma de desviación:
xi= X i−X
y i= Yi−Y
y i= Yi−Y
Resulta así que:
∑ y i2
k−1
∑ e i2
n−k
= ∑ y i
2n−k
∑ e i2k−1
=
∑ y i2
∑ y i2 n−k
∑ ei2
∑ y i2 k−1
= R2
1−R2
n−kk−1
=
R2
k−1
1−R2
n−k
Recordemos que: R2= ∑ yi
2
∑ y i2=
SCRSTC
ySCESTC
= ∑ e i
2
∑ y i2= 1−R2
donde:
n: número de observaciones.k: número de parámetros estimados.
Se establece el siguiente set de hipótesis: H0 : b1= b2= ...= bk= 0
La hipótesis nula H0 implica que ninguna de las variables independientes ayuda a explicar la variación de la variable dependiente (referida a su media).
La hipótesis alternativa resulta entonces H1 : bi≠ 0 al menos para un valor de bi
Un valor alto de F sugiere una relación significativa entre la variable dependiente y las independientes, lo que nos lleva a rechazar H0 .
Fórmulas para las varianzas explicada e inexplicada (esta última también llamada varianza residual):
Varianza Explicada: ∑ Yi−Y
2
k−1=
SCRk−1
= ∑ y i
2
k−1(73)
Varianza Inexplicada: ∑ Yi−Y i
2
n−k=
SCEn−k
= ∑ e i
2
n−k(74)
Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU
El embarazo adolescente es un problema mundial que acarrea múltiples consecuencias. Una de las más dramáticas es que éstas jóvenes en su gran mayoría deberán tener la responsabilidad de mantener solas a sus hijos bajo condiciones económicas muchas veces precarias, negando su propia adolescencia.
El bajo nivel educativo de los padres, las limitadas aspiraciones profesionales de las jóvenes, las actitudes ambivalentes o positivas hacia el embarazo de las adolescentes, las estudiantes con las calificaciones más bajas y aquellas quienes se involucran en actividades delictivas han sido identificadas como factores claves al momento de la iniciación sexual y el primer embarazo.
38
Análisis de regresión múltiple
Sin embargo, nosotros relacionaremos la tasa de embarazo adolescente con otros dos factores quizás más relevantemente asociados: el consumo de alcohol y las familias monoparentales, pues se ha demostrado que vivir en un hogar con un solo padre o la ausencia del padre aumenta el riesgo de embarazo prematuro mientras que los hijos criados por ambos padres disfrutan de estándares de bienestar más altos en casi cualquier aspecto. Por otro lado, asimismo el consumo inadecuado de alcohol es uno de los factores claramente asociados al inicio temprano de relaciones sexuales y por lo tanto al embarazo adolescente.
La base de datos Nº8 nos entrega los valores de la tasa de embarazo adolescente para mujeres entre los 15 y los 19 años para el año 2000 (cada 1000 habitantes) Y i , el % de personas entre los 12 y 17 años que reportó haber consumido alcohol el mes pasado para el año 2002 X1i , y el % de niños bajo los 18 años viviendo en familias con un solo padre al 2004 X2i , para los 50 estados norteamericanos más Washington D.C.
Primero ejecutemos una regresión lineal para obtener los parámetros estimados:
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3)) >summary(a1)
Nuestra ecuación de regresión múltiple queda como:
Y= 88,5012−2,7093 ∙X11,1986∙ X2
4,714 −3,311 4,416
Fk−1,n−k=
∑ y i2
k−1
∑ e i2
n−k
= F2,48=
8107.662
10368.73648
= 18,766
Que vemos coincide con el resultado entregado por R:
Verifiquemos algebraicamente las relaciones de F para nuestro ejemplo (Tabla Nº17).
39
SALIDA Nº25
Call:lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals: Min 1Q Median 3Q Max 41.3044 7.1242 0.5424 11.4843 34.3829
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 88.5012 18.7750 4.714 2.12e05 ***a$V2 2.7093 0.8183 3.311 0.00177 ** a$V3 1.1986 0.2714 4.416 5.69e05 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 14.7 on 48 degrees of freedomMultiple Rsquared: 0.4388, Adjusted Rsquared: 0.4154 Fstatistic: 18.77 on 2 and 48 DF, pvalue: 9.515e07
TABLA Nº17
ESTADO
Alabama 90 15,73 37 90,232 153,490 0,054 147,793Alaska 73 15,61 30 82,167 18,697 84,034 23,455Arizona 104 18,47 33 78,014 0,029 675,260 684,189Arkansas 93 15,65 35 88,052 104,217 24,486 229,735California 96 15,24 31 84,368 42,577 135,302 329,677
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Virginia 72 18,28 29 73,735 16,879 3,009 34,141Washington 75 16,26 29 79,207 1,862 17,702 8,083West Virginia 67 20,12 62 108,303 927,829 1705,961 117,571Wisconsin 55 18,7 31 74,994 8,117 399,756 521,803Wyoming 77 18,99 28 70,612 52,282 40,802 0,711
8107,660 10368,736 18476,745∑
Y i−Y2Y i−
Y i2 Y i−
Y2Y iX 2iX1iY i
Y= 77,843
FUENTES: Tasa de embarazo adolescente en mujeres de 15 a 19 a ños, 2000 (tasa por 1,000)http://www.thenationalcampaign.org/statedata/statecomparisions.asp?id=3&sID=18% de personas entre los 12 y 17 años que reportó haber consumido alcohol el pasado mes el a ño 2002http://www.drugabusestatistics.samhsa.gov/2k2State/html/appA.htmPorcentaje de niños bajo 18 años viviendo con familias lideradas por un solo padre 2004http://www.thenationalcampaign.org/statedata/statecomparisions.asp?id=8&sID=5
BASE DE DATOS Nº8
ESTADO
Alabama 90 15,73 37Alaska 73 15,61 30Arizona 104 18,47 33Arkansas 93 15,65 35California 96 15,24 31
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
Virginia 72 18,28 29Washington 75 16,26 29West Virginia 67 20,12 62Wisconsin 55 18,70 31Wyoming 77 18,99 28
Y i X1i X 2i
Si el valor F calculado excede el valor tabulado de la F específica al nivel de significación elegido y los grados de libertad dados, se acepta H1 . En nuestro ejemplo, el valor F calculado para un 95% de significación con 2 y 48 grados de libertad es:
>qf(0.95,2,48)[1] 3.190727 3,191 < 18,766 con lo que aceptamos la hipótesis alternativa.
F puede ser grande y sin embargo ninguno de los parámetros estimados ser estadísticamente significativos. Esto puede ocurrir cuando las variables independientes están altamente correlacionadas las unas con las otras (este problema, denominado multicolinealidad, lo estudiaremos en la sección 3, capítulo 4: Multicolinealidad).
2.5.2 Tabla ANOVA para el modelo lineal general.
2.5.3 Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R.
Calculemos la matriz X, la Y, la traspuesta de X, la transpuesta de Y, b y la transpuesta de b:
>a < read.table('a.txt') >am<as.matrix(a) >x< cbind(1, am[,2],am[,3])>y<cbind(am[,1])>xt < t(x)>yt < t(y)>b<solve(xt%*%x)%*%xt%*%y>bt < t(b)
Calculemos las siguientes expresiones para obtener los cuadrados medios:
Y'Yb'X'Y = yt%*%y bt%*%xt%*%y = 10368.74b'X'Y = bt%*%xt%*%y = 317145.3Y'Y = yt%*%y = 327514
Y como por otro lado obtenemos que: ∑ Yi2
n= 309036,165
40
TABLA Nº19
Suma de los cuadrados
= 18477,835
= 10368,74
= 8109,135−∑ Y i
2
nb' X' Y 'SCR=
Y 'Y−b' X 'YSCE=
−∑ Y i
2
nY 'YSTC=
TABLA Nº18Fuente de Grado de Suma de los Cuadrados variación libertad Cuadrados Medios
SCRk−1SCE
n−k
= CMRCME
Regresión
Error
Total
k−1
n−k
n−1
SCR=
SCE=
STC=
b' X' Y '−∑ Y i
2
n
Y 'Y−b' X 'Y
Y 'Y −∑ Y i
2
n
SCRk−1
SCEn−k
F
TABLA Nº20Fuente de Grado de Suma de los Cuadrados variación libertad Cuadrados Medios
Regresión
Error
Total
F
2
48
50
8109,135
10368,74
18477,835
317026,4862
10368,7448
CMRCME
= 18,77
Análisis de regresión múltiple
Si un valor de F es lo suficientemente grande, entonces una porción considerable de la variación en las observaciones puede atribuirse a la regresión de Y sobre las variables de predicción tal como se encuentran definidas por el modelo.
Hemos visto que F se relaciona con R de la siguiente manera: F=
∑ y i2
k−1
∑ e i2
n−k
=
R2
k−11−R2
n−k
Para nuestro ejemplo: R2= 0,439
R2
k−1
1−R2
n−k
=
0,4392
0,56148
= 0,2195
0,0116875= 18,781= F
La estadística F como una prueba de significación del poder explicativo de todas las variables independientes conjuntamente, es aproximadamente equivalente a probar la significación de la estadística
R2 . Si H1 es aceptada podríamos esperar que R2 y por lo tanto F sean altas.
2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP)
Los CCP miden la correlación entre la variable dependiente y una variable independiente después de excluir la influencia común de las otras variables independientes en el modelo (manteniéndolas constantes). Los CCP son usados en el análisis de regresión múltiple para determinar la importancia relativa de cada variable independiente en el modelo. La variable independiente con el mayor CCP con respecto a la variable dependiente es la que más contribuye al poder explicativo del modelo.
Por ejemplo, rY X1X2es la correlación parcial entre Y y X1 después de remover la influencia de X2
tanto de Y como de X1 .
Para el caso de un modelo con dos variables independientes:
rY X1X2=
r Y X1−rY X2
r X1 X2
1−rX1 X2
2 1−r YX2
2 y rY X2X1=
r YX2−rY X1
r X1 X2
1−rX1 X2
2 1−r YX1
2 Donde: (75)
rY X1es el coeficiente de correlación simple entre Y y X1 ,
rY X2es el coeficiente de correlación simple entre Y y X2 y
rX1X2es el coeficiente de correlación simple entre X1 y X2
Los coeficientes de correlación parcial varían de 1 a 1 (la misma variación que los coeficientes de correlación simple) y tienen el signo del parámetro estimado correspondiente ( rY X1X2
tiene el mismo signo que b1 y rY X2X1
tiene el mismo signo que b2 ) La suma de los CCP entre las variables independientes y la variable dependiente en el modelo no debe superar el valor de 1.
Para nuestro ejemplo calculemos los coeficientes de correlación parcial:
La siguiente instrucción en R calcula una matriz de correlaciones con 1 en la diagonal, las correlaciones simples en el triángulo inferior y las correlaciones parciales en el triángulo superior. (Debemos bajar y llamar la librería ggm)
>a < read.table('a.txt') >library(ggm)>correlations(a)
rY X1X2= 1 Se refiere al caso donde hay una perfecta relación lineal negativa entre Y y X1 después de
remover la influencia común de X2 sobre Y y X1 .
41
SALIDA Nº26
V1 V2 V3 V4V1 1,0000000 0,5982236 0,6741887 0,3800718V2 0,7392548 1,0000000 0,2122357 0,0010714V3 0,8006118 0,5062053 1,0000000 0,0127640V4 0,6750090 0,4970814 0,5462974 1,0000000
rY X1X2= 1 Se refiere al caso donde hay una perfecta relación lineal positiva entre Y y X1 después de
remover la influencia común de X2 sobre Y y X1 .rY X1 X2
= 0 Se refiere al caso en el que no existe una relación lineal entre Y y X1 después de remover la influencia común de X2 sobre Y y X1 . Por consiguiente X1 puede ser omitido en la regresión.
Existe un método para remover la influencia de X2 tanto de Y como de X1 al encontrar rY X1 X2.
Para remover la influencia de X2 sobre Y, hacemos una regresión de Y sobre X2 y encontramos el residuo e1= Y✳ . Para remover la influencia de X2 sobre X1 , hacemos una regresión de X1 sobre X2 y encontramos el residuo e2= X1
✳
Y✳ y X1✳ representan las variaciones en Y y X1 respectivamente sin la influencia de X2 . Por lo
tanto, el coeficiente de correlación parcial es simplemente el coeficiente de correlación simple entre los residuosY✳ y X1
✳ esto es, rY X1X2= rY ✳ X1
✳ .
2.7 ANÁLISIS DE LOS RESIDUOS
El análisis de los residuos es el estudio más importante dentro del modelo de regresión, pues de una manera muy efectiva podemos detectar sus posibles deficiencias. Asimismo, con este análisis podemos descubrir violaciones de las suposiciones subyacentes al modelo.
4 son las deficiencias más comunes en el análisis de regresión:
1. Que estemos en presencia de una relación no lineal.2. Que la varianza del error
2 no sea constante (heterocedasticidad).3. Que una o más de las variables de predicción que ejercen una influencia importante no estén incluídas
en el modelo.4. Que existan observaciones discrepantes o aberrantes (aquellas cuyos valores se encuentran alejados del
comportamiento general del resto de los datos).Recordemos que un residuo se define como: e i= Y i−
Y i ∀ i= 1,2,...n donde e i es una estimación del verdadero error no observable i
Se grafican los valores de Y i versus los residuos estandarizados: es= e i
Sdado que la media de los
residuos es igual a cero y S es la desviación standard residual: CME (el error cuadrático medio es la varianza de los residuos, que es una estimación de i
2 )El análisis de los residuos es un análisis de sus gráficas. Una ecuación de regresión correcta no develará
ningún patrón entre los es y los Y i , los es tenderán a encontrarse dentro de una banda horizontal centrada alrededor del cero, sin ninguna tendencia a los positivos o los negativos y muy raramente más allá de ±3 . Si n es muy grande, la distribución de los es deberá encontrarse aproximada a una distribución normal standard. Situación contraria indicará una deficiencia en el modelo.
Examinemos tres casos: GRÁFICA Nª 20
1. Acá existe un efecto cuadrático presente en una variable de predicción, por lo cual, esa variable independiente debe introducirse como un término cuadrático en el modelo.
42
Análisis de regresión múltiple
GRÁFICA Nª 21
2. Modelos con varianza del error no constante (heterocedáticos)
Deben emplearse mínimos cuadrados con factores de peso (donde los pesos son inversamente proporcionales a la varianza de los errores) para estimar los coeficientes de regresión.
GRÁFICA Nª 22
3. Cuando una variable que se ha eliminado muestra una fuerte asociación lineal con los residuos debe incluirse en el modelo de regresión.
Dos ideas importantes:1. Una de las suposiciones de la estimación por
mínimos cuadrados es que el conjunto de datos con los que se trabaja es típico de la situación para la cual se intenta identificar una buena ecuación de predicción.
2. En una ausencia clara de evidencia de error, la observación discrepante (aberrante) puede ser la única información con respecto a la respuesta y ser vital para el entendimiento del fenómeno.
43
3.1 AUTOCORRELACIÓN GRÁFICA Nº23
3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN?
Si se observa la tasa de desempleo o las semanas promedio en el desempleo en el mercado del trabajo en una economía, es común encontrar que esos indicadores suban o bajen a lo largo de los meses en sucesión. La gráfica nº23 nos entrega la tasa de desempleo y la duración en semanas del mismo para EE.UU entre Enero de 1980 y Julio del 2009. Obviamente en situaciones como ésta, el supuesto de no correlación serial de los errores subyacente al método de MCO no se cumple.
El supuesto de no correlación serial de los errores establece que éstos (o sus estimaciones, los residuos) deben estar distribuidos aleatoriamente, esto es, cadai e i no está influenciado por el error (el residuo)
de cualquier otra observación (Gráfica nº24). En lenguaje formal, esto supone que la covarianza1 entre cualquier par de errores es 0:
Et t s= 0 ∀ s≠0 (76)
GRÁFICA Nº24 Si estos errores (residuos) presentan algún tipo de patrón, se dice que existe autocorrelación, simbólicamente expresada como:
Et t s≠ 0 ∀ s≠0 (77)
pudiendo existir tanto en series de tiempo (correlación temporal), como en datos de sección transversal (correlación espacial), siendo el primer caso mucho mas común que el segundo.
El problema es que cuando los estimadores de los parámetros son obtenidos en presencia de autocorrelación, dejan de ser eficientes, es decir, dejan de ser los que más cercanos están a ser estadísticamente significativos que cualquier otro estimador (gráfica nº 25).
GRÁFICA Nº25
Se generan así errores standard sesgados2 y por lo tanto pruebas estadísticas e intervalos de confianza incorrectos.
Cuando el supuesto de no autocorrelación es violado es necesario formular el modelo de regresión de modo más general prescindiendo de esta hipótesis. Este modelo se denominará modelo de regresión lineal generalizado y su estimación se hará aplicando métodos distintos a los de los MCO.
1 La covarianza refleja la relación lineal que existe entre dos variables y se define como: Cov XY= ∑ x iy i
n−1= ∑ X i−X Y i−Y
n−12 Esto es porque : E b≠ b
44
Problemas en el análisis de regresión: Autocorrelación
3.1.1.1 Autocorrelación en datos de sección transversal.
La autocorrelación espacial ocurre cuando los errores están geográficamente relacionados. Por ejemplo, una ciudad ve un repunte en sus tasas de criminalidad por lo que decide aumentar su dotación policiaca. Al año siguiente su tasa de criminalidad baja notoriamente. Una ciudad vecina, que no aumentó su dotación policial, encuentra que presenta un repunte de su tasa de criminalidad sobre el mismo periodo.
Otro ejemplo: tenemos datos de corte transversal que consideran el gasto en consumo sobre el ingreso familiar. Un incremento del gasto de una familia puede afectar el gasto en consumo de otra, al estimular a esta familia a incrementar sus gastos si quiere 'mantenerse a la altura' de la otra.
Es importante recordar que en los análisis de sección transversal, el orden de los datos debe obedecer a cierta lógica para darle sentido sociológico a cualquier decisión de si hay presencia de autocorrelación espacial o no.
3.1.1.2 Autocorrelación en series de tiempo.
Consideremos la serie temporal del número de homicidios en una ciudad en un lapso de tiempo. Existen razones para creer que la cantidad de estos delitos está influenciado por los que se han cometido en el pasado. (una sociedad puede volverse mas 'anómica' en con el transcurso del tiempo). Para tablas en las cuales los datos siguen un orden natural sobre el tiempo, las observaciones sucesivas tienen una alta probabilidad de exhibir intercorrelación, especialmente cuando el intervalo entre las sucesivas observaciones es corto, como un día, una semana o un mes.
3.1.1.3 Algunos patrones de autocorrelación:
Tendencia cuadrática. Tendencia cíclica.
GRÁFICA Nº26 GRÁFICA Nº27
Tendencia ascendente. Tendencias lineales y cuadráticas.
GRÁFICA Nº28 GRÁFICA Nº29
45
3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN?
1. Por inercia: En sociología prácticamente no existen variables que cambien inmediatamente a medida que cambia otra relacionada a ella. Existe una tendencia que se opone al cambio, una 'inercia' que hace que valores pasados de un regresor influyan sobre los valores actuales del mismo, ya sea temporal o espacialmente.
2. Cuando variables fundamentales en un modelo de regresión son excluídas. Al inicio de un análisis de regresión el investigador debe poseer un modelo verosímil, pero que muchas veces resulta no ser el mejor. Si al graficar los residuos e i obtenidos de la regresión ajustada, se observan patrones de autocorrelación, esto puede sugerir que importantes variables que quizás fueron candidatas pero que no fueron incluidas en el modelo (por cualquier razón) deben ser incluídas.
A menudo la inclusión de aquellas variables remueve el patrón de correlación observado entre los residuos.
Por ejemplo, supongamos que tenemos el siguiente modelo válido en una serie de tiempo (por ello el subíndice t):
Y t= b0b1 X1tb2 X2tb3 X3t t pero que por alguna razón consideramos el siguiente:
Y t= b0b1 X1tb2X2t t donde t= b3 X3tt
El error t revelará un patrón sistemático, ya que los valores de X3t afectan a Y t , creando una autocorrelación falsa que desaparece al correr el modelo correcto.
3. Cuando no aplicamos una forma funcional correcta. Consideremos el siguiente modelo de regresión lineal:
Y t= b0b1 X1tb2 X1t2 t pero erróneamente ajustamos el modelo siguiente: Y t= b0b1 X1tt
GRÁFICA Nº30 donde t= b2X1t2 t
La curva que corresponde al modelo verdadero se muestra junto a la errónea recta de regresión asociada (gráfica nº30).
Entre A y B la la recta de regresión sobreestima el valor Y t , como así más allá de esos puntos lo subestima. Esto es esperado, puesto que el error es t= b2X1t
2 t y por lo tanto captura el efecto sistemático del término
b2 X1t2 en el valor de Y t
. En este caso, tpresentará
autocorrelación por el uso de una incorrecta forma funcional.
4. Decisiones implementadas en el regresando, producto de la influencia del comportamiento de los regresores3. Consideremos el modelo:
Qt= b0b1P t−1t donde Q es la cantidad y P es el precio de una mercancía.
Supóngase que al final del periodo t, el precio P t resulta ser inferior al P t−1 , por lo tanto, en el periodo t+1 los productores pueden decidir producir menos de lo que produjeron en el periodo t.
Obviamente, en esta situación no se espera que los errores t estén distribuidos aleatoriamente porque si los productores sobreproducen en el año t es probable que reduzcan su producción en t+1, lo que lleva a un patrón autorregresivo4.
5. Rezagos: Se ha observado que las ventas de una mercancía dependen, además del gasto en publicidad, de las ventas del periodo previo, esto es: Vt= b0b1Ptb2Vt−1 t donde Vt y Pt son las ventas y el gasto en publicidad en el periodo t, y V t−1 las ventas en el periodo t1. (Esquema autorregresivo)
Si no consideramos el término retrasado, el error resultante reflejará un patrón sistemático debido a la influencia de la propaganda de las ventas pasadas sobre las ventas actuales.
3 Este fenómeno es conocido como el efecto cobweb.4 En modelos autorregresivos el error del modelo de regresión lineal esta relacionado con su valor pasado de la manera:: t= t−1
46
Problemas en el análisis de regresión: Autocorrelación
6. 'Manipulación' de los datos.
En análisis empíricos, los datos en bruto son a menudo 'manipulados'. Por ejemplo, en regresiones de series de tiempo que involucran datos trimestrales, tales datos son usualmente derivados desde los datos mensuales por la suma simple de tres observaciones mensuales divididas por 3.
Este promedio introduce suavizamientos en las fluctuaciones existentes en los meses. Por lo tanto, el gráfico de los datos trimestrales luce mucho mas suave que los datos mensuales y este suavizamiento podrá provocar un patrón sistemático en los errores, introduciendo así autocorrelación.
Otra forma de manipulación es la interpolación o extrapolación de datos. Por ejemplo, cada 10 años se practica un censo de población. Supongamos el último en el 2000 y el anterior en 1990. Si hay necesidad de obtener datos de algunos de los años del periodo intercensal (1990; 2000) una práctica común es interpolar sobre la base de un supuesto adhoc.
Todas estas técnicas de manipulación de datos pueden imponer sobre los datos patrones sistemáticos que podrían no existir en los datos originales.
7. La autocorrelación puede ser inducida como resultado de la transformación del modelo original.
Consideremos el siguiente modelo:
Y t= b0b1 Xtt donde: Y t = Gastos en consumo y Xt = Ingreso (78)
Si la ecuación planteada resulta válida, también lo será para un periodo anterior, esto es, para (t1). Entonces la ecuación queda como:
Y t−1= b0b1 X t−1 t−1 (Forma de nivel) (79)
Si restamos a la primera expresión la segunda tenemos:
Y t−Y t−1= b1Xt−Xt−1t− t−1= Y t= b1Xt t (Primera forma de diferencia), donde: : Primer operador de diferencia.
Para nuestros propósitos podemos escribir lo anterior como: Y t= b1Xtt
Si en Y t−1= b0b1 Xt−1t−1 X e Y representan los logaritmos del gasto en consumo e ingreso, entonces en: Y t= b1Xt t , Y y X representarán cambios en sus respectivos logaritmos. Pero un cambio en el logaritmo de una variable es un cambio relativo o porcentual, si aquel es multiplicado por 100. Así en vez de estudiar relaciones entre variables en la forma de nivel, quizás estemos más interesados en sus relaciones en la forma de diferencia.
Si el término del error en Y t= b0b1Xtt satisface los supuestos standard del método de MCO (específicamente el de no autocorrelación) puede demostrarse que el error t está autocorrelacionado5.
Modelos como Y t= b1Xtt son conocidos como modelos de regresión dinámicos, esto es, modelos que incluyen regresandos rezagados.
3.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN?
Recordemos que el supuesto de no autocorrelación del modelo clásico de regresión lineal se refiere a los errores t , los cuales no son directamente observables. Con lo que contamos en vez de ellos son sus estimaciones, los residuos et , que obtenemos por el procedimiento usual de MCO.
A pesar de no ser los et lo mismo que los t , muy a menudo un examen visual de los residuos nos da algunas pistas sobre la probable presencia de autocorrelación en los t . Incluso, un examen visual de los et o
e t2 puede entregar información útil no solamente de autocorrelación, sino que también de heterocedasticidad
(que veremos en el próximo capítulo) y sesgo de especificación6.
3.1.3.1 La estadística d de DurbinWatson.
El test mas famoso para detectar autocorrelación es el DurbinWatson, cuya gran ventaja es que se basa en los еt . Se define como como:
5 La demostración de esto excede los propósitos de este libro.6 Es el sesgo causado por la omisión de variables relevantes.
47
d= ∑t=2
n
et−et−12
∑t=1
n
et2
(80)
d= ∑ еt−еt−1
2
∑ еt2 =
∑ еt2∑ еt−1
2−2∑ еt еt−1
∑ еt2 Como ∑ еt
2 y ∑ еt−12 difieren sólo en una observación,
podemos considerarlos aproximadamente iguales, por lo que:
d≈ 21−∑ еt еt−1
∑ еt2 . Definamos: =
∑ еt еt−1
∑ еt2 como un estimador del coeficiente de autocorrelación
de primer orden , entonces: d≈ 21− y como −1≤≤1 , esto implica que 0≤d≤4
Si no hay correlación lineal de primer orden =0 y d= 2.Si existe perfecta autocorrelación de primer orden positiva =1 y d= 0Si existe perfecta autocorrelación de primer orden negativa =−1 y d= 4
Debemos comparar la d que obtenemos con el valor tabulado de ella a los correspondientes grados de libertad dados y significación elegida.
Existen ciertos supuestos subyacentes a la estadística d:
1. El modelo de regresión incluye el término de intersección. Si este no está presente como en el caso de una regresión a través del origen, es esencial correr de nuevo la regresión incluyendo el término de intersección para obtener la suma de los cuadrados del error (SCE)
2. Las variables independientes son no estocásticas o ajustadas en muestras repetidas.3. Los errores t son generados por un patrón autorregresivo de primer orden:
t= t−1t (81)
Por lo tanto, la estadística d no puede ser usada para detectar esquemas autorregresivos de orden superior.
4. Se supone que los errores t están normalmente distribuidos.5. El modelo de regresión no incluye el valor atrasado de la variable dependiente como una de las
variables de predicción. Así el test es inaplicable a modelos de regresión dinámicos del tipo:
Y t= b0b1 X1tb2 X2t...bkXktY t−1t (82)
donde Y t−1 es el valor de un atraso de Y t
6. No hay observaciones perdidas en los datos.
A diferencia de t, F o 2 , no existe un único valor crítico para aceptar o rechazar la hipótesis nula de
que no existe correlación serial de primer orden en los errores i .Estos límites sólo dependen del número de observaciones n y el número de variables independientes k.Si existe autocorrelación positiva, los еt estarán agrupados y sus diferencias por lo tanto tenderán a ser
pequeñas. Por el contrario, si existe autocorrelación negativa, un еt positivo será seguido por un еt−1 negativo con mucho mas frecuencia que en el caso anterior, lo que haría más grande el numerador que el denominador.
Recordemos que d= ∑ еt−еt−1
2
∑ еt2
48
Problemas en el análisis de regresión: Autocorrelación
3.1.3.1.1 Los pasos para aplicar la prueba d:
1. Se corre una regresión por MCO y se obtienen los residuos.2. Se calcula d.3. Para el tamaño de la muestra y el número de variables independiente dados, se encuentran los valores
críticos dInferior y dSuperior
4. Se toman decisiones de acuerdo a los siguientes sets de hipótesis:
4.1.H0 := 0H1 : 0
Se rechaza H0 al nivel si 0 d dinferior , esto es, si hay evidencia estadísticamente
significativa de una autocorrelación positiva.
4.2.H0:= 0H1: 0 Se rechaza H0 al nivel si 4−dinferior d 4 , esto es, si hay evidencia
estadísticamente significativa de una autocorrelación negativa.Notemos que la zona de indecisión donde d no es concluyente se estrecha medida que el tamaño de la
muestra se incrementa.Si bien el test DurbinWatson es un test cuantitativo para determinar la presencia de autocorrelación de
primer orden, el método gráfico es poderoso y sugestivo aunque por naturaleza subjetivo.
3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa.
Al graficar los residuos versus el tiempo, si éstos están autocorrelacionados negativamente, se obtendrá una gráfica como la que muestra la figura nº31:
Autocorrelación negativa:
GRÁFICA Nº31 GRÁFICA Nº32
Los signos de los residuos en el tiempo cambian continuamente.
Si los residuos están correlacionados negativamente, al graficar los et contra los e t−1
obtendremos una gráfica como la que muestra la figura nº32:
Notemos del gráfico lo siguiente: en el cuadrante I se ubican los residuos que
en el tiempo pasan de ser negativos a positivos y en el III, los que pasan de positivos a negativos.
La tabla nº21 nos entrega los valores de residuos que están autocorrelacionados negativamente.
Asumamos que estos residuos están estandarizados7, para así trabajar con números puros8. Grafiquemos estos residuos contra el tiempo (gráfica nº33):
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos autocorrelacionados ","negativamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >lines(a$V1, lwd=3, col=4) >x < seq( 0, 30, length = 100) >lines(x, xx, type="l", lwd=3, col= 'red')
7 Los residuos estandarizados son simplemente los e t divididos por el error standard de la regresión, es decir:e t
8 Tengamos en cuenta que e t y están medidos en las unidades en las cuales el regresando Y i es medido, por lo que los residuos estandarizados son números puros (desprovistos de unidad de medida) y pueden ser comparados con los residuos estandarizados de otras regresiones.
49
GRÁFICA Nº33
Observemos que el signo de los residuos cambia sucesivamente.
Ahora grafiquemos los et versus los et−1 para nuestro ejemplo (tabla nº22) nótese que perdemos una observación:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='e t1', ylab='e t', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuo", "versus su residuo anterior",sep="\n"), font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x < seq( 3, 3, length = 100) >lines(x, xx, type="l", lwd=3, col= 'red') >lines(xx, x, type="l", lwd=3, col= 'red')
GRÁFICA Nº34
Calculemos la estadística DurbinWatson para determinar la existencia de autocorrelación en forma algebraica (tabla nº23):
d= ∑t=2
n
et−et−12
∑t=1
n
et2
= 187,2367,85
= 2,759
Ahora, el valor tabulado de DW para el tamaño n, el número de parámetros estimados y el nivel de significación elegido es:
n= 23, k= 1 al 95% de significación: dinf= 1,257 y dS up= 1,437
0 1,257 1,437 2,563 2,743 4
Como 2,743 < 2.759 existe autocorrelación negativa.
50
TABLA Nº23
1 0,7 0,492 2,0 0,7 4,00 7,293 1,9 2,0 3,61 15,214 2,8 1,9 7,84 22,095 1,8 2,8 3,24 21,16∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
19 1,6 2,1 2,56 13,6920 1,2 1,6 1,44 7,8421 2,2 1,2 4,84 11,5622 1,1 2,2 1,21 10,8923 2,4 1,1 5,76 12,25
2,467,85 187,23
e t−e t−12e t
2
∑
t e t−1 e t
TABLA Nº21
0,7 12,0 21,9 32,8 41,8 5∙ ∙∙ ∙∙ ∙
1,6 191,2 202,2 211,1 222,4 23
e t t
TABLA Nº22
1 0,72 2,0 0,73 1,9 2,04 2,8 1,95 1,8 2,8∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
19 1,6 2,120 1,2 1,621 2,2 1,222 1,1 2,223 2,4 1,1
2,4
t e t e t−1
Problemas en el análisis de regresión: Autocorrelación
3.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva.
GRÁFICA Nº35
Al graficar los residuos versus el tiempo, si éstos están autocorrelacionados positivamente, se obtendrá una gráfica como la que muestra la nº35:
GRÁFICA Nº36
Autocorrelación positiva:
Los signos de los residuos en el tiempo cambian pocas veces.
Si los residuos están correlacionados positivamente, al graficar los et contra los et−1 obtendremos una gráfica como la nº36:
Notemos del gráfico lo siguiente: en el cuadrante II se ubican los residuos que permanecen positivos secuencialmente y en el IV, los que permanecen negativos secuencialmente.
La tabla nº24 nos entrega los valores de residuos que están autocorrelacionados positivamente. Asumamos que están estandarizados. Grafiquemos estos residuos contra el tiempo (gráfica nº37):
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos autocorrelacionados", "positivamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >lines(a$V1, lwd=3, col=4) >x < seq( 0, 30, length = 100) >lines(x, xx, type="l", lwd=3, col= 'red')
GRÁFICA Nº37
Observemos que el signo de los residuos permanece agrupado a intervalos.
Ahora grafiquemos los et
versus los et−1 para nuestro ejemplo (Tabla nº25):
51
TABLA Nº25
1 1,22 1,9 1,23 2,4 1,94 0,3 2,45 1,6 0,3∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
19 2,2 0,620 1,3 2,221 0,9 1,322 2,1 0,923 0,3 2,1
0,3
t e t e t−1
TABLA Nº24
1,2 11,9 22,4 30,3 41,6 5
∙∙∙
2,2 191,3 200,9 212,1 220,3 23
e t t
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='e t1', ylab='e t', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x < seq( 3, 3, length = 100) >lines(x, xx, type="l", lwd=3, col= 'red') >lines(xx, x, type="l", lwd=3, col= 'red')
GRÁFICA Nº38
Calculemos
algebraicamente la estadística DurbinWatson para determinar la existencia de autocorrelación (tabla nº26):
d= ∑t=2
n
et−et−12
∑t=1
n
et2
= 56,4962,57
d= 0,903
Ahora, el valor tabulado de DW para el tamaño n, el número de parámetros estimados y el nivel de significación elegido es:
n= 23, k= 1 al 95% de significación: dinf= 1,257 y dS up= 1,437
0 1,257 1,437 2,563 2,743 4
Como 0,903 < 1,257 existe autocorrelación positiva.
Ejemplo Nº9: Suicidio y desempleo en Japón (19532004)
El suicidio en Japón, al contrario que en occidente, no es tratado como un tabú, es más, muchas veces es considerado como un acto honorable, sobre todo en hombres de mediana edad que ya no son capaces de mantener económicamente a sus familias, pues en esta sociedad la vergüenza y la falta de prestigio asociadas al el hecho de no tener trabajo es enorme.
Como causas del suicidio en este país se pueden consideran las recesiones económicas que generan desempleo, el fin del modelo japonés de bienestar, la crisis en las estructuras familiares y la influencia de la cultura budista imperante entre los japoneses que no estigmatiza el suicidio.
La base de datos nº3 nos entrega los valores la tasa de suicidio en hombres por cada 100.000 habitantes Yi y la tasa de cesantía en % de la fuerza laboral para hombres mayores de 15 años Xi para Japón entre los años 1948 y 2004.
Para orientarnos, grafiquemos estas variables y la recta de regresión asociada a ellas (gráfica nº39):
52
FUENTE:http://www.stat.go.jp/english/data/chouki/index.htm
TABLA Nº26
1 1,2 1,442 1,9 1,2 3,61 0,493 2,4 1,9 5,76 0,254 0,3 2,4 0,09 4,415 1,6 0,3 2,56 1,69∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
19 2,2 0,6 4,84 2,5620 1,3 2,2 1,69 0,8121 0,9 1,3 0,81 0,1622 2,1 0,9 4,41 1,4423 0,3 2,1 0,09 3,24
0,362,57 56,49∑
t e t e t−1 e t2
e t−e t−12
BASE DE DATOS Nº3
Año
1948 18,7 0,71949 20,9 1,11950 24,1 1,31951 21,8 1,11952 21,8 1,3
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
2000 35,2 4.92001 34,2 5.22002 35,2 5.52003 38,0 5,52004 35,6 4,9
Y iXi
Problemas en el análisis de regresión: Autocorrelación
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Relación entre las tasas de suicidio", "y desempleo en Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº39
Y determinemos la presencia de autocorrelación:
>library(lmtest)>library(MASS)>a1 < (lm(a$V1~a$V2)) >summary(a1)>dwtest (lm(a$V1~a$V2))
El valor tabulado para los valores límites de la estadística DurbinWatson es para 50 grados de libertad, 1 variable independiente al 95% de significación:
0 1,503 1.585 2,597 2,415 4
Como 0,4026 < 1,503 existe autocorrelación positiva.
Grafiquemos los residuos estandarizados versus el tiempo (gráfica nº40):
>a < read.table('a.txt')9 >a1 < (lm(a$V1~a$V2))>par(bg = "Ivory 2") >plot(a$V2, stdres(a1), col=3, xlab='Tasa de desempleo', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') >lines(a$V2,stdres(a1), lwd=3, col=4) >x < seq( 0, 5.7, length = 100) >lines(x, xx, type="l", col= 'red', lwd=3) >title(main=paste("Tasa de desempleo", "versus residuos estandarizados",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Ahora grafiquemos los et versus los et−1 para la base datos nº3 (gráfica nº41):
Para esto convirtamos nuestros datos que contienen los residuos en una matriz:
9 Para trazar las lineas entre los puntos según un orden ascendente del valor X y no sobre el orden cronológico de años sucesivos, debemos ordenar los datos según las X en orden ascendente, sino las líneas se unirán por año consecutivo.
53
SALIDA Nº27
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 4.4460 2.2741 0.7309 1.8405 7.5832
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 14.6590 0.8453 17.34 <2e16 ***a$V2 4.1432 0.3242 12.78 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.914 on 55 degrees of freedomMultiple Rsquared: 0.748,Adjusted Rsquared: 0.7434 Fstatistic: 163.3 on 1 and 55 DF, pvalue: < 2.2e16
SALIDA Nº28
DurbinWatson test
data: lm(a$V1 ~ a$V2) DW = 0.4026, pvalue = 2.934e15alternative hypothesis: true autocorrelation is greater than 0
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2)) >m<as.matrix(stdres(a1))
Creemos dos vectores, uno que excluya la primera observación y el otro que excluya la última:
>m1<m[c(1)] >m2<m[c(50)]
Y grafiquemos:
>par(bg = "Ivory 2") >plot(m1,m2, xlab='e t1', ylab='e t', col=3, cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x < seq( 2, 3, length = 100) >lines(x, xx, type="l", col= 'red', lwd=3) >lines(xx, x, type="l", col= 'red', lwd=3)
GRÁFICA Nº40 GRÁFICA Nº41
3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN
Tenemos 2 opciones dependiendo del caso:
¿La autocorrelación surge por errores en el modelo o es pura?
1. A veces se observan patrones en los residuos porque el modelo es erróneo esto es, se han excluído importantes variables o porque la forma funcional es incorrecta.
2. Si se trata de autocorrelación pura, podemos hacer las transformaciones apropiadas al modelo original, para hacer que este modelo transformado no presente el problema de autocorrelación (pura). Usamos para esto el método de mínimos cuadrados generalizados (MCG).
La solución depende del conocimiento que tengamos de la naturaleza de la interdependencia entre los errores, esto es, sobre la estructura de la autocorrelación.
Consideremos el siguiente modelo de regresión de 2 variables:
Y t= b0b1 Xtt y asumamos que t sigue el siguiente patrón autorregresivo de primer orden :t= t−1t −1 1
Consideraremos sólo el caso cuando es conocido:
Acá, el problema de la autocorrelación es fácil de resolver. Si Y t= b0b1 Xtt es cierto, también lo es que: Y t−1= b0b1 Xt−1 t−1
54
Problemas en el análisis de regresión: Autocorrelación
nuestro sistema de ecuaciones resulta entonces: Y t= b0b1 Xtt
Y t−1= b0b1 Xt−1 t−1
multipliquemos esta última expresión por y restémosela a la primera. Nos queda:Y t− Y t−1= b01−b1X t−X t−1t donde: t= t−t−1 (83)
La expresión anterior puede escribirse como:Y t
✴= b0
✴b1X t
✴t (ecuación de diferencias generalizada) (84)
Ya que t satisface los supuestos usuales del método de MCO, podemos aplicar este método las variables transformadas Y✳ y X✳ y obtener los mejores estimadores lineales insesgados (MELI).
En el proceso de diferencias perdemos una observación, pues la primera no tiene un antecedente. Para evitar perder esta primera observación, las primeras Y t
∗ y Xt∗ se transforman como sigue (transformaciones
de PraisWinsten):
Y1✴= Y11−
2 y X1✴= X11−
2 (85)
3.1.4.1 Corrección de la autocorrelación de primer orden positiva.
Método Durbin de dos etapas (un caso de mínimos cuadrados generalizados).
1 Se estima aplicando una regresión:Y t= b01− Y t−1b1X t−b1X t−1 t
2 Se reestima la regresión con las variables transformadas:Y t− Y t−1= b01−b1X t−Xt−1t− t−1
Solución de la autocorrelación de nuestro ejemplo.
Corramos una regresión con los valores Y t , Y t−1 , Xt y Xt−1 de la tabla nº27:
>a < read.table('a.txt')>a1 < (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1)
Nuestra ecuación de regresión estimada resulta entonces:
Y t= 2,71390.8015Y t−14,5297X t−3,6384 Xt−1 t
9,594 5.535 −3,884
55
SALIDA Nº29
Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals: Min 1Q Median 3Q Max 3.1328 1.1761 0.4511 0.7820 6.2941
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.71385 1.34622 2.016 0.048991 * a$V2 0.80148 0.08354 9.594 4.27e13 ***a$V3 4.52956 0.81830 5.535 1.03e06 ***a$V4 3.63840 0.93665 3.884 0.000291 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.797 on 52 degrees of freedomMultiple Rsquared: 0.9079,Adjusted Rsquared: 0.9026 Fstatistic: 170.8 on 3 and 52 DF, pvalue: < 2.2e16
TABLA Nº27
18,7 0,720,9 18,7 1,1 0,724,1 20,9 1,3 1,121,8 24,1 1,1 1,321,8 21,8 1,3 1,1
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
35,2 36,5 4.9 4.834,2 35,2 5.2 4.935,2 34,2 5.5 5.238,0 35,2 5,5 5.535,6 38,0 4,9 5,5
35,6 4,9
Y tY t−1 Xt
X t−1
Estimemos
Y t= b01− Y t−1b1X t−
b1 X t−1 t
= 0,8015
Reestimemos la regresión con las variables transformadas:
Y ✴= Y t−Y t−1
X ✴= Xt−Xt−1
Para obtener las primeras observaciones que se pierden, apliquemos la transformación de PraisWinsten:
Y1✴≈ Y11−
2 18,71−0,80152
= 11,1825
X1✴≈ X11−
2 0,71−0,80152
= 0,4186
Ahora apliquemos una regresión lineal a la tabla nº29:
>a < read.table('a.txt')>a1 < (lm(a$V1~a$V2)) >summary(a1)
El valor tabulado para los valores límites de la estadística DurbinWatson es para 57 grados de libertad, 1 variable independiente al 95% de significación es:
0 1,528 1,601 2,399 2,472 4
Determinemos la estadística d para la tabla nº29 con R:
>library(lmtest)>library(MASS)>a < read.table('a.txt')>dwtest (lm(a$V1~a$V2))
Como 1,601 < 1,6798 ya no existe autocorrelación.
56
SALIDA Nº30
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 3.2466 1.3106 0.5588 0.6792 6.4643
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.8666 0.4526 6.334 4.62e08 ***a$V2 4.4233 0.7076 6.251 6.31e08 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.956 on 55 degrees of freedomMultiple Rsquared: 0.4154,Adjusted Rsquared: 0.4047 Fstatistic: 39.07 on 1 and 55 DF, pvalue: 6.309e08
TABLA Nº28
18,7 0,720,9 18,7 1,1 0,7 5,912 0,53924,1 20,9 1,3 1,1 7,349 0,41821,8 24,1 1,1 1,3 2,484 0,05821,8 21,8 1,3 1,1 4,327 0,418
∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙
35,2 36,5 4.9 4.8 5,945 1,05334,2 35,2 5.2 4.9 5,987 1,27335,2 34,2 5.5 5.2 7,789 1,33238,0 35,2 5,5 5.5 9,787 1,09235,6 38,0 4,9 5,5 5,143 0,492
35,6 4,9
X t−1XtY t−1Y t Y ✴= Yt− Yt−1 X ✴= X t−X t−1
TABLA Nº29
11,1825 0,41865,9120 0,53907,3487 0,41842,4839 0,05814,3273 0,4184
∙ ∙∙ ∙∙ ∙
5,9453 1,05285,9872 1,27277,7887 1,33229,7872 1,09185,1430 0,4918
X ✴= X t−X t−1Y ✴= Yt− Yt−1
SALIDA Nº31
DurbinWatson test
data: lm(a$V1 ~ a$V2) DW = 1.6798, pvalue = 0.09426alternative hypothesis: true autocorrelation is greater than 0
Problemas en el análisis de regresión: Heterocedasticidad
3.2 HETEROCEDASTICIDAD3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD?
Un supuesto básico del modelo clásico de regresión lineal señala que los errores i deben ser homocedáticos, esto es, deben poseer igual varianza:
Var i= 2∀ i= 1,2,... , n (86)
GRÁFICA Nº42
Para un modelo de regresión de 2 variables: Y i= b0b1X ii en el que a medida que X aumenta, Y en
promedio también, la homocedasticidad es representada por la gráfica nº 42, donde la varianza condicional de Y i (la cual es igual a la de i ) sobre una X i dada, permanece constante a lo largo de todas las X i . En otras palabras, la dispersión de los puntos sobre la recta de regresión permanece constante.
En contraste, una situación heterocedática: Var i≠ 2∀ i= 1,2,... , n (87)
se representa en las gráficas nº43 y nº44:
La varianza de Y i se incrementa La varianza de Y i decrecea medida que aumenta X i . a medida que aumenta X i .
GRÁFICA Nº43 GRÁFICA Nº44
3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad.
Hay varias razones por las que Var i≠ 2 , como por ejemplo:1. En modelos de medición del aprendizaje: En un proceso de aprendizaje, los errores de las personas
disminuyen a medida que avanza el tiempo; la dispersión de los errores tiende a disminuir. En este sentido, se espera que Var i decrezca (gráfica nº43).
2. En modelos econométricos del tipo: Y i= b0b1X ii donde Y i representa el ahorro y X i
representa los ingresos, a medida que el ingreso aumenta, las personas tienen mayor amplitud de decisión sobre si ahorrar o gastar, por lo tanto, es probable que i
2 se incremente a mayor ingreso. En este ejemplo, la propia teoría sugiere la forma o pauta de la heterocedasticidad: la varianza del error depende positivamente de la renta (gráfica nº44).
3. A medida que las técnicas de recolección de datos hacen que estos aumenten, es probable que i
2 decrezca. 4. La heterocedasticidad también se puede producir como resultado de la presencia de datos anómalos.
Un dato anómalo es aquel que difiere mucho en relación al resto de los datos de la muestra.La inclusión o exclusión de aquella observación, especialmente si el tamaño de la muestra es pequeño,
57
puede cambiar sustancialmente los resultados del análisis de regresión.5. Una forma funcional incorrecta puede ser una fuerte fuente de heterocedasticidad. Este problema
muy a menudo tiene que ver con el hecho de que variables importantes sean excluídas en el modelo. Así en una función de demanda de una mercancía si no se incluyen los precios de las mercancías complementarias con la mercancía en cuestión (sesgo de la variable omitida), los residuos obtenidos de la regresión quizás den la impresión de que la varianza del error no sea constante. Pero si las variables que han sido omitidas son incluídas en el modelo, esa impresión probablemente desaparecerá.
En las formas funcionales vimos que, por ejemplo, si en una regresión de Y i sobre X i podemos observar un patrón, pero al hacerla de Y i sobre X i y X i
2 podemos ver otro, concluímos que es una forma cuadrática, por lo que X i
2 debe incluirse en el modelo.6. Otra fuente de heterocedasticidad es la asimetría en la distribución de uno o más regresores incluidos
en el modelo. Ejemplos de esto son las variables económicas como el ingreso, la salud y la educación. Es bien conocida la desigualdad del ingreso o la calidad de la salud en la mayoría de las sociedades, con el grueso del ingreso y calidad de salud agrupándose en los quintiles más acomodados.
El problema de la heterocedasticidad se da más comúnmente en datos de sección transversal que en series de tiempo.
3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD?
No se posee una única y efectiva herramienta para detectar heterocedasticidad, sino unos cuantos métodos parciales. Ésta situación es inevitable, porque i
2 sólo puede ser conocida si conocemos toda la población Y i correspondiente a las X i elegidas. Pero esta situación es mas bien la excepción que la regla en sociología.
3.2.2.1 Método informal (gráfico).
En estudios de corte transversal que involucran unidades heterogéneas es muy común encontrar heterocedasticidad, como es el caso de la regresión entre ingresos y escolaridad.
Si no hay información empírica o a priori sobre la naturaleza de la heterocedasticidad, en la práctica podemos hacer un análisis de regresión sobre la base de que no existe y entonces examinar el patrón en la relación de los residuos al cuadrado1 con Y i para ver si exhiben alguna sistematicidad.
En la gráfica nº 45 no se aprecia la existencia de una evidente heterocedasticidad, al contrario de lo que muestran las gráficas nº46, 47 y 48.
GRÁFICA Nº45 GRÁFICA Nº46 GRÁFICA Nº47 GRÁFICA Nº48
GRÁFICA Nº49
También se puede graficar e i2 versus X, que para el caso de una variable
independiente exhibe el mismo patrón que e i2 versus Y i . Para el caso de dos o
más variables independientes e i2 se puede graficar con cualquier regresor. Por
ejemplo, la gráfica nº49 sugiere que la varianza heterocedática quizás sea proporcional a la X i en cuestión. Saber esto nos puede ayudar para transformar los datos de manera tal en la regresión, que en una nueva regresión sobre estos datos transformados la varianza de los errores se vuelva homocedática.
1 Utilizamos el cuadrado de los residuos para evitar consideraciones sobre sus posibles valores negativos.
58
Problemas en el análisis de regresión: Heterocedasticidad
3.2.2.2 Métodos formales.
3.2.2.2.1 El test de Park.
Park formalizó el método gráfico sugiriendo que i2 es alguna función de las variables independientes
X i . La forma funcional que propuso fué:
i2= 2 X i
eVi o bien lni
2= ln
2ln X iV i donde V i es el error. (88)
Como en general i2 es desconocido, Park sugirió usar e i
2 como una aproximación y correr la
siguiente regresión: lne i2= ln
2 lnX iV i= lnX iV i (89)
Si resulta ser estadísticamente significativo, se presume que hay presencia de heterocedasticidad en los datos. Si no lo es, podemos aceptar el supuesto de homocedasticidad.
El test de Park es entonces un procedimiento de dos etapas. En la primera corremos la regresión por MCO no considerando el problema de la heterocedasticidad. Obtenemos e i de esta regresión y en la segunda etapa corremos la regresión siguiente: lne i
2= lnX iV i
Ejemplo Nº10: Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU entre 1960 y el 2007.
La base de datos nº9 nos entrega como variable dependiente Yi la cantidad total de robos de vehículos y como variable independiente Xi la cantidad total de robos para EE.UU. entre los años 1960 y 2007.
Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos versus la variable independiente:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Robos', ylab='Robo de vehículos', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Relación de robos", "y robos de vehículos entre 1960 y el 2007 en EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>library(lmtest) >library(MASS) >par(bg = "Ivory 2") >a1 < (lm(a$V1~a$V2)) >plot(a$V2, stdres(a1), col=3, xlab='Robos', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos estandarizados versus robos", "entre 1960 y el 2007 en EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x < seq( 100000, 700000, length = 100) >lines(x, xx, type="l", col= 'red', lwd=3)
GRÁFICA Nº 50 GRÁFICA Nº 51
59
BASE DE DATOS Nº9
Año
1960 328200 1078401961 336000 1066701962 366800 1108601963 408300 1164701964 472800 130390
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
2003 1261226 4142352004 1237851 4014702005 1235859 4174382006 1192809 4474032007 1095769 445125
Y i X i
FUENTE:http://www.disastercenter.com/crime/uscrime.htm
Obtengamos nuestra recta estimada:
>summary(a1)
Y= 2003002,051 X R2=0,8625
3,719 17,198
Obtengamos los valores de e i , X i , lne i2 y
lnX i (tabla nº30) y corramos una regresión de lne i2
sobre lnX i :
>a < read.table('a.txt')>a1 < lm(a$V1~a$V2)>summary(a1)
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,46)[1] 2.012896 por lo que nuestro parámetro estimado es significativo al 5%: hay heterocedasticidad.
Aunque empíricamente atractivo, el test de Park adolece de ciertos problemas. Goldfeld y Quandt han argumentado que el error V i puede no satisfacer los supuestos del método de MCO y puede ser él mismo heterocedático. No obstante, como un método estrictamente exploratorio, el test de Park puede ser utilizado.
3.2.2.2.2 El test de GoldfeldQuandt.
El contraste de GoldfeldQuant se utiliza para contrastar la homocedasticidad cuando la forma de la heterocedasticidad no es conocida, aunque se intuye que la varianza heterocedática i
2 guarda una relación monótona –creciente o decreciente– respecto a alguna variable exógena.
Por simplicidad consideremos el modelo de 2 variables usual: Y i= b0b1X ii
Supongamos que i2 está relacionada positivamente con X i como sigue: i
2= 2 X i
2 donde 2
es una constante.El supuesto anterior postula que i
2 es proporcional al cuadrado de X.
Para hacer este test explícito, Goldfeld y Quandt sugieren seguir los siguientes pasos:
60
SALIDA Nº32
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 328441 83459 11419 99699 214231
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.003e+05 5.384e+04 3.719 0.000542 ***a$V2 2.051e+00 1.193e01 17.198 < 2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 130500 on 46 degrees of freedomMultiple Rsquared: 0.8654,Adjusted Rsquared: 0.8625 Fstatistic: 295.8 on 1 and 46 DF, pvalue: < 2.2e16
SALIDA Nº33
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 4.9030 0.4599 0.2472 1.1756 2.3182
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.422 6.120 0.886 0.3803
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.718 on 46 degrees of freedomMultiple Rsquared: 0.1449,Adjusted Rsquared: 0.1263 Fstatistic: 7.795 on 1 and 46 DF, pvalue: 0.007607
a$V2 1.329 0.476 2.792 0.0076 **
TABLA Nº30
83018,57 106670 22,654 11,57793218,1 107840 22,885 11,58860811,78 110860 22,031 11,61630817,25 116470 20,672 11,6655134,42 130390 17,087 11,778
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
69653,62 618950 22,303 13,336124579,61 639270 23,465 13,3689531,37 659870 18,325 13,40031369,69 672480 20,707 13,41950993,68 687730 21,679 13,441
e i Xi lne i2 ln Xi
Problemas en el análisis de regresión: Heterocedasticidad
1. Hacer un ranking de las observaciones X i comenzando con su menor valor. Si estamos en presencia de un modelo de regresión con 2 o más variables independientes, el primer paso del test, el orden por ranking, puede hacerse tomando cualquier X i . Si no estamos seguros cuál variable X i es apropiada, podemos hacer el test para cada una de las variables independientes.
2. Omitir c observaciones centrales, donde c se especifica a priori y divide las restantes (nc) observaciones en dos grupos, cada uno con (nc)/2 observaciones. Las observaciones c son omitidas para agudizar la diferencia entre el grupo de menor varianza SCR1 y el grupo de mayor varianza SCR 2 . La capacidad de éxito del test GoldfeldQuandt depende de como sea elegido el valor c. c=4 si n=30 y c=10 si n=60 ha sido en la práctica satisfactoriamente encontrado.
3. Aplicar regresiones por el método de MCO a ambos grupos y obtener las respectivas sumas de los cuadrados de los residuos SCR1 (referido a los menores valores de X i el grupo de menor varianza) y
SCR2 (referido a los mayores valores de X i el grupo de mayor varianza)
SCR1 y SCR2 tienenn−c
2−k grados de libertad (g.l.) siendo k es el número de parámetros a ser
estimado incluyendo la intercepción y n el número de casos.
4 Calcular la siguiente fracción: = SCR2
SCR1
(90)
Si suponemos a i normalmente distribuido (lo que suele suceder), entonces puede demostrarse que
sigue una distribución F con n−c
2−k grados de libertad tanto para el numerador como para el
denominador.Si existe heterocedasticidad, con la ordenación de la muestra, la varianza del error será mayor hacia el
final de la muestra que al principio de la misma. Como el cuadrado de los residuos está asociado con la varianza de los mismos, entonces SCR2 debería ser sensiblemente mayor que SCR1 . Por ello, se rechazará la hipótesis nula de homocedasticidad siempre que el valor de exceda el valor tabulado al nivel de significación elegido y a los grados de libertad dados para F. en este caso se puede afirmar la existencia de heterocedasticidad.
Ejemplo Nº11: Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos de policía de California durante el año 2007
La base de datos nº10 nos entrega como variable dependiente Yi la tasa de crímenes violentos y como variable independiente Xi la tasa de crímenes contra la propiedad por cada 100.000 habitantes entre los años 1960 y 2007 para 396 agencias de policía del Estado de Texas.
Grafiquemos los datos y la recta de regresión a ellos asociada y también los residuos versus la variable independiente:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Tasa de crímenes violentos', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Tasa de crímenes violentos", "versus crímenes contra la propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>library(lmtest) >library(MASS) >a1 < (lm(a$V1~a$V2)) >par(bg = "Ivory 2") >plot(a$V2, stdres(a1), col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos estandarizados versus ", "tasa de crímenes contra la propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x < seq( 0, 9000, length = 100) >lines(x, xx, type="l", col= 'red', lwd=3)
61
BASE DE DATOS Nº10
Agencia
Adelanto Police Dept 532,7 2639,4Agoura Hills 213,4 1515,3Alameda County Sheriff Dept 562,1 2357,2Alameda Police Dept 291 2805Albany Police Dept 283,2 4883,9
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Yorba Linda 66,4 1556,2Yuba County Sheriff Dept 398,6 2043,4Yuba City Police Dept 395,9 3091,4Yucaipa 100,7 1770,5Yucca Valley 354,7 2698,3
Y i Xi
FUENTE:http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm
GRÁFICA Nº 52 GRÁFICA Nº 53
Hagamos un ranking de las observaciones X i comenzando con sus menores valores (tabla nº31) y omitamos un sexto de las observaciones centrales (c=66) estableciendo dos grupos con 165 observaciones cada uno ((nc)/2).
Obtengamos las respectivas sumas de los cuadrados de los residuos SCR1 referida a los menores valores de X i el grupo de menor varianza, y SCR2 , referida a los mayores valores de X i el grupo de mayor varianza) (tabla nº32 y nº33 respectivamente):
Para SCR1 :
>a< read.table('a.txt')>a1 < (lm(a$V1~a$V2)) >anova(a1)
62
TABLA Nº31
Agencia
Laguna Woods 16,4 502,4Avenal 256,2 774,4Hillsborough Police Dept 18,7 888,1Nevada County Sheriff Dept 197,1 891,3Corcoran Police Dept 189,8 910,8
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Desert Hot Springs 1155,3 7191,3Palm Springs Police Dept 632,4 7249,4Oroville Police Dept 1458,1 7570,5Commerce 1089,8 8316,3Santa Fe Springs 796,2 8804,6
Y iXi
TABLA Nº32
Agencia
Laguna Woods 16,4 502,4Avenal 256,2 774,4Hillsborough Police Dept 18,7 888,1Nevada County Sheriff Dept 197,1 891,3Corcoran Police Dept 189,8 910,8
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Duarte 377,4 2350Fontana Police Dept 507,7 2352,5Ridgecrest Police Dept 576,8 2356,6Alameda County Sheriff Dept 562,1 2357,2Farmersville Police Dept 538,2 2377,9
Y i X i
TABLA Nº33
Agencia
Loma Linda 129,4 2832,6Temecula 221 2833,5Auburn Police Dept 374,8 2853,4Paradise Police Dept 208,5 2861,9Redding Police Dept 498,2 2896,2
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Desert Hot Springs 1155,3 7191,3Palm Springs Police Dept 632,4 7249,4Oroville Police Dept 1458,1 7570,5Commerce 1089,8 8316,3Santa Fe Springs 796,2 8804,6
Yi Xi
SALIDA Nº34
Analysis of Variance Table
Response: a$V1 Df Sum Sq Mean Sq F value Pr(>F) a$V2 1 1235655 1235655 43.577 5.468e10 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residuals 163 4621964 28356
Problemas en el análisis de regresión: Heterocedasticidad
Para SCR2 :
>a< read.table('a.txt')>a1 < (lm(a$V1~a$V2))>anova(a1)
siendo los grados de libertad de cada SCR:n−c
2−k=
396−66
2−2= 163
Calculemos la siguiente fracción: = SCR2
SCR1
= 123719074621964
= 2,677
Calculemos F con R con (k1) y (nk) grados de libertad:
>qf(0.95,1,394) [1] 3.865169 2,677< 3,8652
Así, con un 95% de confianza, no se puede afirmar la existencia de heteroscedasticidad.
3.2.2.2.3 El test de KoenkerBassett.
El test de KB se basa en el cuadrado de los residuos e i2 , pero en vez de correr la regresión sobre uno o
más regresores, se hace sobre el cuadrado del valor estimado del regresando Y i2 .
Así, si el modelo original es: Y i= b0b1X1ib2 X2i...bk Xkii
Corremos una regresión obteniendo: Y i= b0b1X1i
b2 X2i... bkXkie i
Y corremos una regresión nuevamente pero de e i2 sobre Y i
2 obteniendo:e i2= 12
Y i2V i (91)
La hipótesis nula es 2= 0 . Si esta es rechazada entonces podemos concluir que hay heterocedasticidad. Para el caso de una regresión lineal simple, la H0 puede ser probada con los test t o F (recordemos que F1,k= tk
2 )Una ventaja del test de KB es que es aplicable incluso si el error en el modelo original i no está
normalmente distribuído.
Ejemplo Nº12: Obesos versus actividad física.
La base de datos nº11 nos entrega como variable dependiente, el porcentaje de población obesa Yi y como independiente, el porcentaje de población que en una encuesta responde hacer ejercicios Xi para 53 Estados Norteamericanos2 para el año 2008.
Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos versus la variable independiente:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Cantidad de gente que hace ejercicios %', ylab='Cantidad de obesos %', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Relación ejercicioobesidad"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 < (lm(a$V1~a$V2))>plot(a$V2,residuals(a1), col=3, xlab='% de población que hace ejercicios', ylab='Residuos', main='Residuos versus % de población que hace ejercicios')
2 Excluímos el Estado libre asociado de Puerto Rico.
63
SALIDA Nº35
Analysis of Variance Table
Response: a$V1 Df Sum Sq Mean Sq F value Pr(>F) a$V2 1 3179031 3179031 41.884 1.085e09 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residuals 163 12371907 75901
BASE DE DATOS Nº 11
Estado
Alabama 32,2 70,5Alaska 27 75,9Arizona 25,5 76,8Arkansas 29,5 70,2California 24,2 76,6
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Virgin Islands 26,5 66,8Washington 26 80,6West Virginia 31,9 68,9Wisconsin 26 77,9Wyoming 25,2 75,6
Y i Xi
FUENTE:http://apps.nccd.cdc.gov/brfss
GRÁFICA Nº 54 GRÁFICA Nº 55
Determinemos los e i2 y los
Y i2 (tabla nº34):
>residuals(a1)*residuals(a1)>fitted(a1)*fitted(a1)
Corramos una regresión de e i2
sobre Y i2 :
>a < read.table('a.txt')>a1 < (lm(a$V1~a$V2))>summary(a1)
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,51)[1] 2.007584 Nuestro parámetro estimado no es significativo al 5%, por lo que hay homocedasticidad.
3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD GRÁFICA Nº56
La heterocedasticidad no acaba con las propiedades insesgadas y consistentes de los estimadores por MCO, pero no los hace los más eficientes, ni siquiera asintóticamente (por ejemplo en una muestra de gran tamaño). Esta ausencia de eficiencia produce estimaciones sesgadas de los errores standard (lo que provoca pruebas estadísticas e intervalos de confianza incorrectos), por lo que esta situación debe ser remediada.
Consideremos el modelo de regresión de dos variables cuando la varianza no es conocida:
Y i= b0b1X ii
Supongamos que el patrón de heterocedasticidad sigue la forma: Ei2= 2 X i
2 , esto es, la varianza del error es proporcional a X i
2 (gráfica nº57).
64
SALIDA Nº36
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 4.696 3.512 2.346 1.772 19.032
Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 1.137880 4.669830 0.244 0.808
Residual standard error: 5.454 on 51 degrees of freedomMultiple Rsquared: 0.00782,Adjusted Rsquared: 0.01163 Fstatistic: 0.4019 on 1 and 51 DF, pvalue: 0.5289
a$V2 0.004101 0.006468 0.634 0.529
TABLA Nº34
8,817 854,4280,934 677,7350,000 650,2730,008 864,8442,013 656,327
∙ ∙∙ ∙∙ ∙
24,219 987,2997,560 540,5872,965 910,7081,324 617,4811,022 687,014
e i2 Y i
2
Problemas en el análisis de regresión: Heterocedasticidad
GRÁFICA Nº 57 Entonces podemos transformar el modelo original como sigue:
Y i= b0b1X ii /X i
Yi
Xi
= b0
X i
b1 i
X i
= b0
X i
b1V i (92)
donde V i es el término del error transformado, igual a i
Xi
Resulta fácil verificar que: EV i2= E
i
X i
2
= 1X i
2 E i2= 2
Por lo tanto ahora V i es homocedática y podemos aplicar el método de MCO a la ecuación:
Yi
Xi
= b0
X i
b1 i
X i
corriendo una regresión de Yi
Xi
sobre 1Xi
Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10.
Hemos ya comprobado la existencia de heterocedasticidad en el ejemplo nº10. Apliquemos la transformación de variables propuesta para solucionar este problema (tabla nº35) y, con el test de Park verifiquemos que ahora éstas variables (tabla nº36) son homocedáticas.
Obtengamos los valores de e i2 , X i , lne i
2 y lnX i (tabla nº36) para la tabla nº35 y corramos una nueva regresión de lne i
2 sobre lnX i para obtener la salida nº37:
>a < read.table('a.txt') # Leemos los datos de la tabla nº35 #>a1 < lm(a$V1~a$V2)>residuals(a1)*residuals(a1) # Obtenemos los residuos al cuadrado#
>a < read.table('a.txt') # Leemos las dos últimas columnas de la tabla nº36 #>a1 < lm(a$V1~a$V2)>summary(a1)
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,46)[1] 2.012896 por lo que nuestro parámetro estimado no es significativo al 5% y las variables no presentan heterocedasticidad.
65
SALIDA Nº37
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 5.5803 0.3668 0.3399 1.0647 2.7727
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 9.6211 6.8371 1.407 0.1661
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.919 on 46 degrees of freedomMultiple Rsquared: 0.07237,Adjusted Rsquared: 0.0522 Fstatistic: 3.589 on 1 and 46 DF, pvalue: 0.06447
a$V2 1.0072 0.5317 1.894 0.0645 .
TABLA Nº36
0,25904500 0,00000927 1,35075349 11,588403930,17397260 0,00000937 1,74885746 11,577495240,04288449 0,00000902 3,14924506 11,616023420,00278896 0,00000859 5,88208651 11,665389010,09481216 0,00000767 2,35585761 11,77828524
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
0,24663510 0,00000241 1,39984536 12,934188720,27404920 0,00000249 1,29444763 12,902888090,17136060 0,00000240 1,76398517 12,941891310,02041255 0,00000224 3,89160537 13,011215030,00396315 0,00000225 5,53071586 13,00611042
e i2 Xi lne i
2 ln Xi
BASE DE DATOS Nº9
Año
1960 328200 1078401961 336000 1066701962 366800 1108601963 408300 1164701964 472800 130390
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
2003 1261226 4142352004 1237851 4014702005 1235859 4174382006 1192809 4474032007 1095769 445125
Y i Xi
TABLA Nº35
3,04339763 0,000009273,14990157 0,000009373,30867761 0,000009023,50562377 0,000008593,62604494 0,00000767
∙ ∙∙ ∙∙ ∙
3,04471134 0,000002413,08329639 0,000002492,96058097 0,000002402,66607287 0,000002242,46171076 0,00000225
Y i
X i
1X i
3.3 MULTICOLINEALIDAD3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD?
Un supuesto importante del modelo de regresión lineal por MCO establece que no existen relaciones lineales exactas entre los regresores o variables independientes (los regresores no son exactamente colineales). De haberlas, surge un problema llamado multicolinealidad perfecta1. Éste supuesto es necesario para el cálculo del vector de estimadores de los parámetros verdaderos, ya que en caso contrario X ' X será singular (no tendrá inversa) y nos resultará imposible determinar b= X 'X
−1 X 'Y . Los coeficientes así resultantes serán indeterminados y sus errores standard infinitos. Cuando dos o más regresores están altamente correlacionados en la muestra, se hace muy difícil separar el efecto parcial de cada uno de ellos sobre la variable dependiente.
Un conjunto k de variables predictoras X1i , X2i , ... , Xki son perfectamente multicolineales si para k constantes C0 , C1, C2, ... , Ck que no son cero simultáneamente, se cumple la siguiente condición:
C1X1iC2X2i...Ck Xki= C0 (93)
Asumamos que Ck≠ 0 , entonces, para el caso de perfecta multicolinealidad:
Xki=
C0− ∑j=1
j=k−1
Cj X j
Ck
(94)
La expresión anterior muestra que Xki es combinación lineal de todos los demás regresores. Se hace entonces así imposible calcular las estimaciones por MCO de los parámetros, porque el sistema de ecuaciones normales contendrá una o más ecuaciones que no son independientes.
GRÁFICA Nº58La multicolinealidad perfecta casi no ocurre en la
práctica. Lo que si suele suceder es la existencia de una relación aproximadamente lineal, no exacta, entre dos o más variables exógenas. Cuando esto ocurre, los estimadores obtenidos son poco precisos, aunque sus propiedades de insesgadez, eficiencia y consistencia no se ven afectadas, esto es, los estimadores por MCO siguen siendo los MELI. Sin embargo, a pesar de que las varianzas de los estimadores por MCO son las mínimas posibles (son eficientes) son mayores que las que se lograrían en ausencia del problema de multicolinealidad.
En los siguientes gráficos los círculos representan las variaciones tanto de las variables dependientes, como de la independiente. El grado de colinealidad puede medirse por la extensión de las intersecciones entre los círculos X1 y X2 .
GRÁFICAS Nº 59
No existe colinealidad Existe una baja colinealidad Existe una alta colinealidad Casi perfecta colinealidad
1 El efecto totalmente contrario a la multicolinealidad perfecta es la ortogonalidad, en el que el coeficiente de correlación simple entre dos variables es cero. En la ortogonalidad, el efecto que una variable tiene sobre la respuesta se mide de manera totalmente independiente del efecto individual que otra variable tenga sobre la misma.
66
Problemas en el análisis de regresión: Multicolinealidad
La multicolinealidad puede afectar a dos regresores (el caso más simple de todos), a un subconjunto o incluso a todos, estando frecuentemente presente en series de tiempo (por ejemplo, la población y el PIB suelen estar altamente correlacionados)
3.3.1.1 ¿Por qué se produce?
La multicolinealidad es, en cierto sentido, un fenómeno inevitable. En un sistema social es muy difícil suponer la ausencia de relación entre sus distintos elementos. Por el contrario, la sociología se apoya en la idea de la existencia de interrelaciones entre las variables de los sistemas sociales analizados.
Suele aparecer cuando:
1. Ocurre un error en la especificación (los regresores no son importantes en la explicación del regresando: se omiten variables relevantes o bien se integran aquellas que no lo son) cometido por el investigador que ignora una igualdad o combinación lineal entre las variables independientes.
2. Se cae en la 'trampa de las dummies' que consiste en incluir un número tal de variables ficticias que todas ellas acaben por generar una combinación lineal entre sí. Si una variable independiente cualitativa tiene m categorías, debe representarse por medio de m1 variables dummy, asignando a cada una de ellas los valores de 0 ó 12.
3. Se recolecta un limitado rango de los valores tomados por los regresores en la población.4. El modelo tiene más variables independientes que número de observaciones.5. Especialmente en series de tiempo, los regresores incluidos en el modelo presentan tendencias
comunes, esto es, se incrementan o decrecen a medida que transcurre el tiempo.
3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD.
Teniendo en consideración que las consecuencias de la multicolinealidad están directamente relacionadas con la magnitud con que se presenta, las más importantes son:
1. Se hace difícil cuantificar con precisión el efecto que cada regresor ejerce sobre el regresando, debido a que los errores estándar de los coeficientes estimados son elevados, es decir, tienden a ser mayores de lo que serían si no hubiera multicolinealidad.
Producto de lo anterior, el valor del estadístico para realizar contrastes de significación individual:
t= b j−b j
S b j
b j
S b j(95)
tiende a ser pequeño, aumentando así la probabilidad de no rechazar la hipótesis nula. Es así que se suele concluir que los coeficientes estimados no son significativas individualmente y llegar a la conclusión errónea de que la variable independiente X i no es importante en el modelo.. El problema no reside en que los contrastes no sean correctos estadísticamente, sino en que no estimamos con suficiente precisión esos efectos individuales.
En presencia de multicolinealidad es común obtener valores altos de R j2 aún cuando los valores de los
estadísticos t de significación individual sean bajos. El problema reside en la identificación del efecto individual de cada variable explicativa, no tanto en su conjunto. Por eso, si se realiza un contraste de significación conjunta de las variables explicativas, el resultado normalmente será rechazar la hipótesis nula aunque individualmente cada una de ellas no sea significativa.
2. En el caso de existencia de multicolinealidad exacta, los parámetros no pueden estimarse ya que, al existir dentro de la matriz X de observaciones de variables exógenas una combinación lineal de éstas, no puede ser invertida, de esta manera, X ' X tampoco tendrá inversa haciendo imposible calcular la expresión del estimador mínimo cuadrático: b= X 'X −1 X 'Y
3. Pequeños cambios en los datos o en la especificación provocan grandes cambios en las estimaciones de los coeficientes. Los parámetros sean muy inestables y fluctúan de forma importante al introducir nueva información. Efectivamente, al ser el parámetro más imperfecto, al presentar mayor rango de variación, una nueva estimación puede arrojar valores muy diferentes al anterior.
4. Las estimaciones de los coeficientes suelen presentar signo distintos a los esperados y magnitudes poco razonables.
2 Esta situación la estudiaremos en detalle en la sección 4, capítulo 1: '' Variables Dummy'.
67
3.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD?
La multicolinealidad es una característica de la muestra (está asociada a la configuración concreta de la matriz X ) y no de la población, por lo tanto, no existe un contraste estadístico que sea aplicable para su detección. Además, como hemos visto, la multicolinealidad es una cuestión de grado y no de presencia o ausencia. No obstante, podemos detectarla con algunas reglas prácticas (aunque no siempre fiables) o medirla para una muestra particular con el Factor de inflación de la varianza.
Debemos sospechar la existencia de multicolinealidad cuando:
1. Hay coeficientes de regresión significativos con valores muy grandes o de signo opuesto al esperado.2. Los coeficientes estimados asociados a las variables independientes que se esperaba fuesen
importantes, tienen valores de t pequeños aunque F informe que 'existe modelo' y R2 sea alta. Este es un signo clásico de multicolinealidad.
3. La incorporación o eliminación de una fila o columna de la matriz X produce grandes cambios en la magnitud de los coeficientes.
4. Los coeficientes de correlación muestral simples entre todas las parejas de variables predictoras son muy altas. Las correlaciones entre variables deben ser bajas, aunque no hay un límite fijo a partir del cual podamos hablar de multicolinealidad; ese límite debe establecerse desde el sentido común y según las circunstancias de análisis específicas. Así por ejemplo un mismo valor de un coeficiente de correlación implica distinto grado de correlación según el tamaño muestral; en muestras de tamaño elevado, una correlación aparentemente pequeña (0,30,4) implica la existencia de una evidente multicolinealidad o bien una correlación moderada pero no esperada a priori desde el punto de vista teórico puede estar avisando de algún defecto en la especificación o el tratamiento de los datos.
En todo caso, si se desea una regla general, una práctica habitual consiste en establecer la R2 del modelo original como límite de la correlación observada entre dos o más variables: diremos que existe multicolinealidad cuando existan correlaciones entre las variables superiores al coeficiente de determinación del modelo. Sin embargo, debemos recordar nuevamente las limitaciones de cualquier 'receta' de este tipo. Por ejemplo, lógicamente diremos que existe multicolinealidad cuando, aún sin superar la R j
2 del modelo, las correlaciones sean mayores de un 0,7.
Aunque es condición suficiente para que exista multicolinealidad el que todos estos coeficientes sean altos, lo contrario no es necesariamente cierto. Se puede dar el caso de tener una relación lineal casi perfecta entre tres o más variables y sin embargo las correlaciones simples entre pares de variables no ser mayores que 0,5.
Supongamos que tenemos un modelo de 4 variables:
Y i= b0b1X1ib2 X2ib3X3ii y supongamos que: X3i= 1X1i2X2i donde 2 y 3 son constantes distintas de cero.
X3 es una combinación lineal exacta de X1 y X2 dando R3.122
= 1
Podemos escribir este R2 como: R3.122
= r31
2r 32
2−2r31r32r12
1−r122 pero como: R3.12
2= 1 , a causa de una
colinealidad perfecta, obtenemos: 1= r31
2r 32
2−2r31r32r12
1−r122 condición que puede ser satisfecha si:
r31= 0,5 , r32= 0,5 y r12= −0,5 los cuales no son valores altos.
Por lo tanto, en modelos que involucran más de dos variables independientes, la correlación simple puede no proveer una infalible vía para detectar la presencia de multicolinealidad. Por supuesto, si solo existen dos variables independientes en el modelo, la correlación de orden cero es suficiente.
5. Realizando la regresión de cada una de los regresores sobre el resto (regresión auxiliar) y analizar los coeficientes de determinación de cada regresión. Alguno o algunos de estos coeficientes de determinaciónR j
2 altos, estarían señalando la posible existencia de un problema de multicolinealidad.
3.3.3.1 El Factor de inflación de la varianza.
El factor de inflación de la varianza cuantifica la severidad de la multicolinealidad en un análisis de regresión lineal por MCO. Provee un índice que mide en cuánto la varianza de un coeficiente de regresión estimado se incrementa debido a la multicolinealidad.
68
Problemas en el análisis de regresión: Multicolinealidad
Si consideramos el modelo de regresión lineal múltiple: Y i= b0b1X1i...b j X ji...bk Xki i
entonces se puede demostrar que la varianza del jésimo coeficiente de regresión estimado es:
Var b j=
2
S ii
1
1−R j2 (96)
Donde R j2 es el coeficiente de determinación (no ajustado) de la regresión lineal de X ji contra todas
las demás variables predictoras y Sii= ∑j=1
n
Xij− Xi 2
La ecuación (101) separa las influencias de los distintos factores que intervienen en la varianza de coeficiente estimado. Así:
1. Cuanto mayor es 2 , esto es, cuanto mayor es la dispersión, mayor será la varianza del estimador.
2. Al aumentar el tamaño de la muestra, se reduce la varianza del estimador.3. Cuanto menor sea la varianza muestral del regresor, mayor será la varianza del correspondiente
coeficiente estimado.4. Cuanto mayor sea R j
2 , es decir, cuanto mayor sea la correlación del regresor con el resto de lo regresores, mayor será la varianza de b j
FIV j= 1
1−R j2 Se denomina jésimo factor de inflación de la varianza y representa el (97)
incremento en la varianza debido a la presencia de multicolinealidad. Es la razón entre la varianza observada y la que habría sido en caso de que X j no estuviera correlacionada con el resto de regresores del modelo. Muestra en que medida se agranda la varianza del estimador como consecuencia de la no ortogonalidad de los regresores. Debe tenerse presente que el FIV j no suministra ninguna información que pueda utilizarse para corregir el problema.
Si las variables independientes no son redundantes (ortogonales), entonces FIV j= 1 R j2= 0 3. Si los
regresores son multicolineales, FIV j= ∞ R j2= 1 .
Si el FIV j es grande (mayor que 10), entonces puede haber multicolinealidad.
La tolerancia se define como: TOL j= 1
FIV j
= 1−R j2
(98)
La utilización de los coeficientes TOL j y VIF j para detectar la presencia de multicolinealidad ha recibido múltiples críticas, porque la conclusión obtenida con estos valores no siempre recoge adecuadamente la información de y problemas existentes en los datos. Tal y como hemos visto anteriormente, las varianzas de los estimadores depende del VIF j , 2 y ∑ X ji−
X j2 , por lo que un alto VIF j no es condición suficiente ni
necesaria para que dichas varianzas sean elevadas.
Ejemplo Nº14 Índice de marginación, población indígena y % de analfabetismo en los municipios del Estado de Chiapas, México.
La base de datos Nº12 nos entrega el índice de marginación por municipio para 2005 como variable dependienteYi y como independientes el % de población hablante de
lengua indígena de 5 años en adelante en el 2000 X1i y el % de analfabetismo X2i para el 2000, para los 118 Municipios del Estado de Chiapas (México).
Grafiquemos las variables (gráfica nº60) y obtengamos el resultado de aplicar una regresión de Yi sobre X1i y X2i
(salida nº38).
>a < read.table('a.txt') >plot(a, col=3)>a1 < (lm(a$V1~a$V2+a$V3)) >summary(a1)
3 Recordemos que R2 indica la existencia de una relación lineal.
69
BASE DE DATOS Nº12
Municipio
0.483 0.41 180.356 9.93 270.672 0.35 210.984 40.75 381.745 14.76 34
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
1.518 33.12 311.602 30.1 301.118 0.71 281.489 66.9 462.209 63.57 68
Acacoyagua Acala Acapetahua Altamirano Amatán
Maravilla Tenejapa Marqués de Comillas Montecristo de Guerrero San Andres Duraznal Santiago el Pinar
Y i X1i X2i
FUENTE:
http://www.elocal.gob.mx/work/templates/enciclo/chiapas
GRÁFICA Nº 60
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,115)[1] 1.980808
Determinemos la existencia de multicolinealidad.
En primer lugar ejecutemos regresiones de Yi sobre X1i (salida nº39) y de Yi sobre X2i
(salida nº40)
>a1 < (lm(a$V1~a$V2)) >a1 < (lm(a$V1~a$V3)) >summary(a1) >summary(a1)
Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes estimados de las variables independientes son muy significativos a un 95% en las regresiones de Yi sobre X1i y de Yi sobre X2i
(10,207 y 14,759 respectivamente), pero en la regresión múltiple original (salida nº38), el parámetro estimado deX1i resulta no ser significativo, siendo R2 relativamente alta (0,6595) y F= 111,3 informándonos la 'existencia'
de modelo.
70
SALIDA Nº 38
Call:lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals: Min 1Q Median 3Q Max 1.23973 0.27460 0.05131 0.25093 1.63512
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.347757 0.113054 3.076 0.00262 ** a$V2 0.003411 0.002227 1.532 0.12828 a$V3 0.039641 0.004997 7.932 1.56e12 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4271 on 115 degrees of freedomMultiple Rsquared: 0.6595,Adjusted Rsquared: 0.6535 Fstatistic: 111.3 on 2 and 115 DF, pvalue: < 2.2e16
SALIDA Nº39
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 1.74628 0.30991 0.02496 0.24031 2.12295
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.446136 0.065111 6.852 3.72e10 ***a$V2 0.017329 0.001698 10.207 < 2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5289 on 116 degrees of freedomMultiple Rsquared: 0.4731,Adjusted Rsquared: 0.4686 Fstatistic: 104.2 on 1 and 116 DF, pvalue: < 2.2e16
SALIDA Nº40
Call:lm(formula = a$V1 ~ a$V3)
Residuals: Min 1Q Median 3Q Max 1.19279 0.29527 0.02594 0.26905 1.72302
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.435657 0.097975 4.447 2.01e05 ***a$V3 0.045674 0.003095 14.759 < 2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4296 on 116 degrees of freedomMultiple Rsquared: 0.6525,Adjusted Rsquared: 0.6495 Fstatistic: 217.8 on 1 and 116 DF, pvalue: < 2.2e16
Problemas en el análisis de regresión: Multicolinealidad
Analicemos los coeficientes de correlación simple entre todas las parejas de variables predictoras:
>cor(a)La correlación entre las variables es alta (0.808), superando el
R2= 0,6595 del modelo original.
Encontremos el factor de inflación de la varianza.
>a1 < (lm(a$V1~a$V2+a$V3)) >library(car)4 >vif(a1)
Ejemplo Nº15: Función CobbDouglas de la economía chilena (19862000).
La base de datos Nº13 nos entrega los valores del PIB Yi , stock de capital X1i (ambos en miles de millones de pesos al año 1986) y la fuerza de trabajo X2i en miles de personas para Chile entre los años 1986 y 2000.
Grafiquemos las variables (gráfica nº61) y obtengamos el resultado de aplicar una regresión de Yi sobre X1i y X2i (salida nº43).
>a < read.table('a.txt') >plot(a, col=3)
>a1 < (lm(a$V1~a$V2+a$V3)) >summary(a1)
GRÁFICA Nº 61
Nuestro valor crítico t para un 95% de significación es:>qt(0.975,12)[1] 2.178813
4 Debemos instalar el paquete car. En R escribimos >install.packages(), seleccionamos un espejo desde el cual bajarlo y lo llamamos con >library(car).
71
SALIDA Nº43
Call:lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals: Min 1Q Median 3Q Max 362.53 140.95 25.47 139.97 356.03
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.697e+03 1.062e+03 5.365 0.000169 ***a$V2 2.290e01 3.957e02 5.788 8.64e05 ***a$V3 1.661e+00 2.957e01 5.617 0.000113 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 212.3 on 12 degrees of freedomMultiple Rsquared: 0.9877,Adjusted Rsquared: 0.9857 Fstatistic: 483.5 on 2 and 12 DF, pvalue: 3.393e12
SALIDA Nº41
V1 V2 V3V1 1.0000000 0.6878547 0.8077816V2 0.6878547 1.0000000 0.7879961V3 0.8077816 0.7879961 1.0000000
SALIDA Nº42
a$V2 a$V32.638090 2.638090
BASE DE DATOS Nº13
Año
1986 3419 8658 4269,6741987 3645 8852 4372,6101988 3911 9144 4569,3701989 4324 9586 4727,2181990 4484 10133 4822,836
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
1996 7305 15383 5522,8171997 7845 16778 5625,8431998 8153 18228 5734,2131999 8060 19381 5829,0132000 8493 20256 5845,905
Y i X1i X2i
FUENTES:
http://www.bcentral.cl/estudios/documentostrabajo/pdf/dtbc133.pdf Pp16 Fuerza de trabajo.http://www.ine.cl/canales/chile_estadistico/mercado_del_trabajo/empleo/situacionfuerzatrabajo/sitexcel/ttpais.htm
PIB y stock de capital.
Determinemos la existencia de multicolinealidad.
Analicemos los coeficientes de correlación muestral simples entre todas las parejas de variables predictoras:
>cor(a)
El valor 0,976 es menor que R2= 0,988 lo que nos indica una ausencia de multicolinealidad.
Ejecutemos una regresión de X1i sobre X2i y analicemos el coeficiente de determinación (salida nº45).
>a < read.table ('a.txt')>a1 < (lm(a$V2~a$V3))
Encontremos el factor de inflación de la varianza.
>a1 < (lm(a$V1~a$V2+a$V3)) >library(car)>vif(a1)
Acá podemos apreciar la relatividad de los test para detectar multicolinealidad. Aunque el FIV, el Ri
2 y la correlación entre regresores son altos, la salida nº43 nos
indica una casi perfecta relación lineal R2= 0,9877 y valores de lo parámetros estimados coherentes. La
decisión final debe ser tomada por el sentido común del investigador.
Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (19601980).
Se puede especular que la tasa de crímenes contra la propiedad está determinada en cierta medida, por el grado de 'anomia' de una sociedad, expresada ésta en las tasas de crímenes violentos.
La base de datos nº14 nos entrega información de la tasa de crímenes contra la propiedad Yi , la tasa de asesinato no negligente y homicidio involuntario X1i , la tasa de violación forzada X2i , la tasa de robo X3i y la tasa de asalto agravadoX4i en el Estado de Nevada por cada 100.000 habitantes entre
1960 y 1980. Grafiquemos las variables (gráfica nº62) y obtengamos el
resultado de aplicar una regresión de Yi sobre X1i , X2i ,X3i y X4i (salida nº47).
>a < read.table('a.txt') >plot(a, col=3)
>a1 < (lm(a$V1~a$V2+a$V3+a$V4+a$V5)) >summary(a1)
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,16)[1] 2.119905
Resulta que sólo el coeficiente que acompaña a X4i es significativo y más sorprendente aún, el que acompaña a X1i tiene signo negativo. Esto no parece tener sentido al ver la gráfica nº62.
72
FUENTE:http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm
SALIDA Nº45
Call:lm(formula = a$V2 ~ a$V3)
Residuals: Min 1Q Median 3Q Max 2251.4 909.9 221.7 1206.8 2399.6
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.289e+04 3.885e+03 5.891 5.31e05 ***a$V3 6.969e+00 7.471e01 9.328 4.01e07 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1488 on 13 degrees of freedomMultiple Rsquared: 0.87,Adjusted Rsquared: 0.86 Fstatistic: 87.01 on 1 and 13 DF, pvalue: 4.008e07
SALIDA Nº44
V1 V2 V3V1 1.0000000 0.9775036 0.9764859V2 0.9775036 1.0000000 0.9327449V3 0.9764859 0.9327449 1.0000000
SALIDA Nº46
a$V2 a$V37.693082 7.693082
BASE DE DATOS Nº14
Año
1960 3294.7 8.8 12.6 74 50.51961 3436.8 7 8 106 62.51962 3496.1 8.1 19.7 106.6 77.91963 4385.1 7.9 16.3 118.8 62.21964 4015 7.8 13.2 109.8 110
∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙
1976 7615.1 11.5 47.2 294.9 337.41977 7225 15.8 49.1 323.1 3551978 7506.1 15.5 53.9 359.5 351.81979 7996 17.5 59.5 407.5 3511980 7941.4 20 67.2 460.6 364.9
Y i X1i X2i X3i X 4i
Problemas en el análisis de regresión: Multicolinealidad
GRÁFICA Nº 62
Ejecutemos regresiones de Yi sobre X1i , X2i , X3i y X4i individualmente (salidas nº48, 49, 50 y 51 respectivamente).
>a1 < (lm(a$V1~a$V2)) >a1 < (lm(a$V1~a$V3)) >summary(a1) >summary(a1)
>a1 < (lm(a$V1~a$V4)) >a1 < (lm(a$V1~a$V5)) >summary(a1) >summary(a1)
73
SALIDA Nº47
Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4 + a$V5)
Residuals: Min 1Q Median 3Q Max 324.76 226.37 60.68 191.86 706.62
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2806.063 275.315 10.192 2.11e08 ***a$V2 65.081 42.701 1.524 0.146999 a$V3 13.036 19.776 0.659 0.519152 a$V4 4.698 2.963 1.586 0.132395 a$V5 9.903 2.092 4.734 0.000224 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 305.3 on 16 degrees of freedomMultiple Rsquared: 0.975,Adjusted Rsquared: 0.9688 Fstatistic: 156.2 on 4 and 16 DF, pvalue: 1.331e12
SALIDA Nª48
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 1713.4 737.1 102.3 406.8 2147.4
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1041.59 673.24 1.547 0.138 a$V2 384.88 56.51 6.811 1.67e06 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 955.5 on 19 degrees of freedomMultiple Rsquared: 0.7095,Adjusted Rsquared: 0.6942 Fstatistic: 46.39 on 1 and 19 DF, pvalue: 1.674e06
SALIDA Nª49
Call:lm(formula = a$V1 ~ a$V3)
Residuals: Min 1Q Median 3Q Max 917.30 278.33 55.66 277.33 960.79
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2642.57 216.69 12.20 1.97e10 ***a$V3 89.89 6.09 14.76 7.31e12 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 502.1 on 19 degrees of freedomMultiple Rsquared: 0.9198,Adjusted Rsquared: 0.9156 Fstatistic: 217.8 on 1 and 19 DF, pvalue: 7.314e12
SALIDA Nª50
Call:lm(formula = a$V1 ~ a$V4)
Residuals: Min 1Q Median 3Q Max 1134.04 260.49 67.28 256.49 954.38
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2363.1800 221.4738 10.67 1.83e09 ***a$V4 14.5729 0.9368 15.56 2.90e12 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 478.3 on 19 degrees of freedomMultiple Rsquared: 0.9272,Adjusted Rsquared: 0.9234 Fstatistic: 242 on 1 and 19 DF, pvalue: 2.898e12
SALIDA Nª51
Call:lm(formula = a$V1 ~ a$V5)
Residuals: Min 1Q Median 3Q Max 572.29 130.76 13.15 181.92 927.54
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2562.0368 146.8661 17.45 3.76e13 ***a$V5 14.3974 0.6433 22.38 4.09e15 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 338.9 on 19 degrees of freedomMultiple Rsquared: 0.9635,Adjusted Rsquared: 0.9615 Fstatistic: 500.9 on 1 and 19 DF, pvalue: 4.087e15
Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes de las variables independientes son muy significativos a un 95% en las 4 regresiones anteriores (6.811, 14.76, 15.56 Y 22.38 respectivamente).
Analicemos los coeficientes de correlación simples entre todas las parejas de variables predictoras (salida nº52):
>cor(a)La correlación entre los regresores es alta,
superando las correlaciones entre X2i y X3i el R2
del modelo original.
Encontremos el factor de inflación de la varianza
>a1 < (lm(a$V1~a$V2+a$V3+a$V4+a$V5)) >library(car)>vif(a1)
Los regresores X2i X3i y X4i presentan gran multicolinealidad.
3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD
Ya hemos señalado que el problema de la multicolinealidad es un problema de grados, por lo que las medidas que aquí se proponen deben tomarse siempre y cuando su severidad sea tan importante como para que una o varias variables del modelo de regresión que se supone sean relevantes, se presenten como estadísticamente no significativas. Si existe multicolinealidad en un grado leve, puede continuarse el trabajo de análisis sin adoptar medidas para corregir el problema.
Si se trata de un problema de multicolinealidad casi perfecta, es razonable pensar que ésta se debe a la incorporación de dos regresores que miden el mismo concepto pero de forma alternativa o bien están indicando un concepto más abstracto que el que se supone hacen independientemente cada una de ellas5. En el primer caso se sugiere revisar el proceso de operacionalización de los conceptos y suprimir la redundancia hallada, en el segundo, determinar un índice mediante alguna técnica, desde la más simple, como un índice sumatorio simple, hasta uno más complejo, como un índice calculado sobre la base de un análisis factorial para suprimir esta multicolinealidad.
Los métodos más comunes son6:
1. Eliminación de variables: Cuando nos encontramos con una fuerte multicolinealidad, una de las cosas más simples que se pueden hacer es desechar las variables más colineales7. El inconveniente es que ésta es una medida que puede provocar otro tipo de problemas, ya que si la variables que eliminamos del modelo realmente sí son significativas8, estamos omitiendo una variable relevante. Por consiguiente, los estimadores de los coeficientes del modelo y de su varianza serían sesgados y así la inferencia realizada no sería válida.
Si estamos ante un problema de información repetida, una solución resulta transformar dos o más variables correlacionadas en una combinación de las mismas. A este respecto es útil la técnica del análisis multivariable factorial. 2. Aumento del tamaño de la muestra o cambiar de muestra: Teniendo en cuenta que un cierto grado de multicolinealidad acarrea problemas cuando aumenta ostensiblemente la varianza muestral de los estimadores, las soluciones deben ir encaminadas a reducir esta varianza introduciendo observaciones adicionales. Solución no siempre viable.
Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede ser que con nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea consiste en conseguir datos menos correlacionados que los anteriores. De todas formas, no siempre resulta fácil obtener mejores datos por lo que muy probablemente debamos convivir con el problema teniendo cuidado con la inferencia realizada y las
5 Por ejemplo, las variables independientes como alfabetización, urbanización, empleo en el sector el servicios, teléfonos por habitante, mortalidad infantil, etc., en el análisis de una región determinada, pueden presentar fuerte multicolinealidad porque representan conjuntamente el concepto más abstracto de “modernización”.6 La elección de estas alternativas depende de la severidad de la multicolinealidad encontrada.7 En presencia de multicolinealidad, una medida para resolver este problema bastante lógica puede ser quitar del modelo aquellas variables con más alto VIF ( o más baja tolerancia).8 Son variables que deben estar incluídas en el modelo de regresión.
74
SALIDA Nº52
V1 V2 V3 V4 V5V1 1.0000000 0.8422917 0.9590489 0.9629110 0.9815558V2 0.8422917 1.0000000 0.9044769 0.8938066 0.8612384V3 0.9590489 0.9044769 1.0000000 0.9767272 0.9562189V4 0.9629110 0.8938066 0.9767272 1.0000000 0.9537829V5 0.9815558 0.8612384 0.9562189 0.9537829 1.0000000
SALIDA Nº53
a$V2 a$V3 a$V4 a$V55.59514 28.52305 24.55465 13.03072
Problemas en el análisis de regresión: Multicolinealidad
conclusiones de la misma.3. Utilización de ratios: En lugar del regresando y los regresores del modelo original, se pueden utilizar ratios con respecto al regresor que posea mayor colinealidad. Esto puede hacer que la correlación entre los regresores del modelo disminuya. Pero se debe tener cuidado: estos ratios pueden ser heterocedáticos.4. Utilizando información a priori.
Consideremos el modelo: Y i= b0b1X1ib2 X2i i
Supongamos a X1 y X2 altamente colineales y supongamos que creemos que b2= 0,1b1
Entonces: Y i= b0b1X1i0,1b1 X2ii= b0b1 X ii donde: X i= X i10,1X2i
Una vez que obtenemos b1 podemos estimar b2 de la relación postulada entre b1 y b2 .
¿De donde obtenemos la información a priori? Puede provenir de trabajos empíricos previos en los que el problema de la colinealidad parezca ser menos serio o de teoría relevante subyacente al campo de estudio (como en el caso de los retornos a escala constantes).
75
4.1 FORMAS FUNCIONALES4.1.1 INTRODUCCIÓN
Frecuentemente en las ciencias sociales nos encontramos con variables cuyas relaciones entre sí no son lineales. Este es el caso por ejemplo, de la relación entre el PIB per cápita y la esperanza de vida en los países del mundo o la tasa de crecimiento demográfico en los países en vías de desarrollo durante el siglo XX. Al encontrarnos con estos casos, muchas veces podremos transformar las variables para obtener funciones lineales en los parámetros, sobre las cuales podremos aplicar el método de MCO y así obtener una ecuación de regresión lineal.
Es importante señalar que el primer paso para escoger la forma funcional adecuada para una relación no lineal entre variables es recurrir a lo que la teoría social bajo la cual estudiamos nuestras variables señala.
Algunas de las relaciones no lineales más comunes entre variables y sus transformaciones son las siguientes:
4.1.2 FORMA DOBLELOG: Y= b0 Xb1e (99)
Esta forma aparece cuando nos encontramos con variables que crecen a un ritmo exponencial.Aplicando logaritmos la forma (76): lnY= lnb0b1 ln X o bien: Y= e
lnb0b1 ln X
Si hacemos: lnY= Y✳ , lnb0= b0✳ y lnX= X✳ la expresión anterior nos queda Y✳
= b0✳b1 X✳
, ecuación a la que ya podemos aplicar el método de MCO ya conocidos. La ecuación de regresión así obtenida será:
Y✳= b0
✳ b1 X✳ o bien lnY= lnb0
b1 lnX Aplicando un exponencial obtenemos:
Y= e lnb 0
b1 ln X (100)
Aspectos teóricos.
Supongamos que nos encontramos con una relación matemática perfecta entre dos variables de la forma Y= e1−ln X , función que nos es desconocida. Tenemos sin embargo, los valores que estas dos variables asumen y que se muestran en la tabla Nº37. Grafiquemos con R los puntos y la recta de regresión lineal aplicada a ellos:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma doblelog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >jpeg(file='a.jpeg', width=500, height=500) >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma doblelog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >dev.off()
y obtengamos los parámetros estimados de la regresión:
>a1 < (lm(a$V1~a$V2))>summary(a1)
Y= 1,2519−0,0727X R2= 0,473
6,111 −4,249
Sospechamos que nos encontramos en presencia de una relación doble log. Lo que tenemos que hacer por lo tanto, es transformar ambas variables en sus respectivos logaritmos y correr una regresión sobre ellas.
76
TABLA Nº37
2,718 11,359 20,906 30,680 40,544 5
∙∙∙
0,170 160,160 170,151 180,143 190,136 20
Y i Xi
Problemas en el análisis de regresión: Formas funcionales
GRÁFICA Nº63
Grafiquemos las nuevas variables (tabla nº38), la recta de regresión lineal aplicada sobre ellas y apliquemos una regresión para obtener los coeficientes:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='LnX', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma doblelog:", "LnY versus LnX",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 < (lm(a$V1~a$V2))>summary(a1)
GRÁFICA Nº64
Obtenemos la ecuación: Y✳= 1 − X✳ R2
=1 9,143e+15 −2,066e+16
77
SALIDA Nº54
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 0.3630 0.2853 0.1130 0.1592 1.5390
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.25194 0.20487 6.111 8.99e06 ***a$V2 0.07266 0.01710 4.249 0.000483 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.441 on 18 degrees of freedomMultiple Rsquared: 0.5007, Adjusted Rsquared: 0.473 Fstatistic: 18.05 on 1 and 18 DF, pvalue: 0.000483
SALIDA Nº55
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 3.045e16 9.394e17 4.092e17 6.958e17 3.105e16
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1 1.094e16 9.143e+15 <2e16 ***a$V2 1 4.839e17 2.066e+16 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.714e16 on 18 degrees of freedomMultiple Rsquared: 1, Adjusted Rsquared: 1 Fstatistic: 4.27e+32 on 1 and 18 DF, pvalue: < 2.2e16
TABLA Nº38
1.000 0.0000.307 0.6930.099 1.0990.386 1.3860.609 1.609
∙ ∙∙ ∙∙ ∙
1.773 2.7731.833 2.8331.890 2.8901.944 2.9441.996 2.996
ln Y iln X i
Como Y✳= b0
✳ b1 X✳ es equivalente a Y= e
lnb 0b1 ln X , tenemos para nuestro ejemplo que
Y= e1−ln X = e /X
GRÁFICA Nº65
Si graficamos nuestras variables originales y esta curva, observamos que coinciden perfectamente (gráfica nº65):
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >x < seq( 0 ,20,length = 100) >lines(x, exp(1log(x)), type='l', col= 'red', lwd=3) >title(main=paste("Forma doblelog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
4.1.2.1 La función CobbDouglas.
En economía, una forma funcional clásica es la función CobbDouglas. Es de las más usadas por ser una de las que más se acerca a la realidad económica.
Esta función resultó de la observación empírica de la distribución del PIB entre capital y trabajo en los EE.UU. Los datos mostraron evidencia de una relación de la forma:
Q= A ∙Kb1 ∙Lb2 ∙ e donde:
Q = Producción total (el valor monetario de todos los bienes y servicios producidos durante un año o PIB).
K = Stock de capital.L = Stock de trabajo.A = Productividad total de los factores (o la tecnología en un momento dado en un sociedad), y
b1 y b2 = Elasticidades del producto en relación al capital y al trabajo, respectivamente.
(La función CobbDouglas también aparece en la relación entre la cantidad demandada de una mercancía (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b0 ∙Pb1∙ Yb2 ∙e )
4.1.2.2 La definición de la elasticidad.
Al aplicar una regresión lineal a un modelo CobbDouglas, obtenemos que los parámetros estimados de la ecuación de regresión corresponden a las elasticidades de la variable dependiente respecto a las independientes. Derivemos las fórmulas de las elasticidades para la relación entre la cantidad demandada de una mercancía (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b0 ∙Pb1∙ Yb2 ∙e .
a) b1 es la elasticidad de la demanda respecto al precio o P
Por definición: P= ∂Q∂P
∙ PQ
La derivada parcial de la función Q respecto a P es ∂Q∂P
= b1b0Pb1−1 Yb2e= b1b0Pb1 Yb2 e
P−1= b1
QP
sustituyendo el valor de ∂Q∂P
dentro de la fórmula para P obtenemos: P= b1QP
∙ PQ= b1
78
TABLA Nº39
2,718 11,359 20,906 30,680 40,544 5
∙∙∙
0,170 160,160 170,151 180,143 190,136 20
Y i= e /Xi Xi
Problemas en el análisis de regresión: Formas funcionales
b) b2 es la elasticidad de la demanda respecto al ingreso o Y
Por definición Y= ∂Q∂ Y
∙ YQ
La derivada parcial de la función Q respecto a Y es ∂Q∂ Y
= b2b0 Pb1 Yb2−1e= b2b0Pb1 Yb2 eY−1
= b2QY
sustituyendo el valor de ∂Q∂ Y
dentro de la fórmula para Y obtenemos: Y= b2QY
∙ YQ
= b2
Si para la función CobbDouglas, b2= 0,15 , un aumento del 1% en la cantidad de trabajo, provocaría un incremento aproximado del 0,15% en el volumen del producto.
Si esta función cumple el principio de los rendimientos constantes a escala, entonces si K y L aumentan cada uno el 20%, Q aumenta también el 20%. Lo anterior se expresa en términos de elasticidades como:
b1b2= 1 . Por otro lado, si b1b2 1 , hay retornos crecientes a escala esto es, un incremento de K y L de un 10% implicará que la salida se incremente un b1b2 ∙10 %
Ejemplo Nº17: Función CobbDouglas de la economía chilena (19862000).
La base de datos Nº13 nos entrega los valores del PIB Yi , stock de capital X1i (ambos en miles de millones de pesos al año 1986) y la fuerza de trabajo X2i en miles de personas para Chile entre los años 1986 y 2000. Consideremos la aplicación de una función CobbDouglas para estos datos de la economía chilena.
Apliquemos una regresión a los logaritmos de estos datos dados por la tabla Nº40:
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3))>summary(a1)
Nuestra ecuación de regresión resulta:
Q✳= −10,62520,4425K✳
1,7653L✳ R2= 0,9896
4,735 6,747
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,13)[1] 2.160369
por lo que todos nuestros parámetros estimados son significativos al 5%.
Consideremos: Q✳= b0
✳ b1K✳
b2L✳ o lo que es lo mismo: lnQ= lnb0b1 lnK b2 lnL por lo que:
lnb0= −10,6252 y b0= e−10,6252= 0,000024296
79
SALIDA Nº56
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals: Min 1Q Median 3Q Max 0.057389 0.016945 0.001807 0.022291 0.042643
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 10.62516 1.42407 7.461 7.62e06 ***a$V2 0.44246 0.09345 4.735 0.000485 ***a$V3 1.76534 0.26166 6.747 2.05e05 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.03204 on 12 degrees of freedomMultiple Rsquared: 0.9911, Adjusted Rsquared: 0.9896 Fstatistic: 664.8 on 2 and 12 DF, pvalue: 5.123e13
TABLA Nº40
8,137 9,066 8,3598,201 9,088 8,3838,272 9,121 8,4278,372 9,168 8,4618,408 9,224 8,481
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
8,896 9,641 8,6178,968 9,728 8,6359,006 9,811 8,6548,995 9,872 8,6719,047 9,916 8,673
ln Y i lnX1i ln X2i
BASE DE DATOS Nº13
Año
1986 3419 8658 4269,6741987 3645 8852 4372,6101988 3911 9144 4569,3701989 4324 9586 4727,2181990 4484 10133 4822,836
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
1996 7305 15383 5522,8171997 7845 16778 5625,8431998 8153 18228 5734,2131999 8060 19381 5829,0132000 8493 20256 5845,905
Y i X1i X2i
Como Q= b0 ∙Kb1∙ L
b2 nuestra ecuación de regresión final resulta: Q= 0,000024296 ∙K0,4425 ∙ L1,7653
Notemos que 0,4425+1,7653 > 1 por lo que nuestra economía para el periodo señalado presentó rendimientos a escala crecientes.
4.1.3 FORMA SEMILOG: lnY= b0b1 X (101)
Esta forma funcional representa un crecimiento exponencial simple, con lo que la podemos asociar de una manera intuitivamente directa (si la variable independiente es el tiempo) a fenómenos como la oferta de mercancías con nuevas tecnologías en países desarrollados, el inicio de la expansión de una enfermedad infecciosa, etc.
Si lnY= Y✳ , Y✳= b0b1 X con lo que nuestra ecuación de regresión queda de la siguiente
manera: Y✳= b0
b1 X o bien, aplicando un exponencial Y= e b0
b1X (102)b1 mide el cambio relativo producido en Y, por unidad de cambio en X.
Aspectos teóricos.
Supongamos que nos encontramos con una relación matemática perfecta entre dos
variables de la forma: Y= e2 X
10 , función que nos es desconocida. Tenemos sin embargo, los
valores que estas dos variables asumen y se muestran en la tabla Nº41:
Grafiquemos con R los puntos y la recta de regresión lineal aplicada sobre ellos:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma semilog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
y obtengamos los parámetros estimados de la regresión:
>a1 < (lm(a$V1~a$V2))>summary(a1)
Nuestra ecuación de regresión resulta:Y= −0,00830,4175 X R2
= 0,9306 GRÁFICA Nº66
−0,012 16,408
Podemos especular que la función entre las variables es de la forma: Y= e b0
b1X , por lo que grafiquemos estas variables transformadas, la recta de regresión a ellas asociadas y apliquemos una regresión para obtener los coeficientes:
80
SALIDA Nº57
Call:lm(formula = AAR2a$V1 ~ AAR2a$V2)
Residuals: Min 1Q Median 3Q Max 3.0762 1.1554 0.3879 1.4216 1.7673
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.008332 0.706595 0.012 0.99 AAR2a$V2 0.417446 0.025442 16.408 1.12e12 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.634 on 19 degrees of freedomMultiple Rsquared: 0.9341 Adjusted Rsquared: 0.9306 Fstatistic: 269.2 on 1 and 19 DF, pvalue: 1.125e12
TABLA Nº41
7,389 08,166 19,025 29,974 311,023 4
∙∙∙
36,598 1640,447 1744,701 1849,402 1954,598 20
Y i Xi
Problemas en el análisis de regresión: Formas funcionales
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma semilog:", "LnY versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 < (lm(a$V1~a$V2))>summary(a1)
Obtenemos la ecuación:ln Y= 2 X/10 R2
=1 1,884e+16 1,102e+16
la cual es equivalente a Y= e2 X
10
GRÁFICA Nº67
Por último grafiquemos nuestras variables originales (tabla nº41) con esta recta de regresión:
GRÁFICA Nº68
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >x < seq( 0 ,20,length = 100) >lines(x, exp(2+(x/10)), type='l', col= 'red', lwd=3) >title(main=paste("Forma semilog:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
81
SALIDA Nº58
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 3.972e16 1.709e16 2.150e17 1.594e16 7.472e16
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2 1.061e16 1.884e+16 <2e16 ***a$V2 0,1 9.078e18 1.102e+16 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.519e16 on 19 degrees of freedomMultiple Rsquared: 1, Adjusted Rsquared: 1 Fstatistic: 1.213e+32 on 1 and 19 DF, pvalue: < 2.2e16
TABLA Nº42
2,0 02,1 12,2 22,3 32,4 4
∙∙∙
3,6 163,7 173,8 183,9 194,0 20
ln Y i Xi
Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960.
En el siglo XX Estados Unidos experimentó una de las explosiones demográficas más grandes del mundo, que se explica, entre otras cosas, por una enorme inmigración.
La base de datos Nº15 nos entrega los valores de la cantidad de poblaciónY i y el año X2i en EE.UU. entre 1790 y 1690.
Grafiquemos las variables, la recta de regresión a ellas asociada y calculemos los coeficientes sobre estos datos:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma semilog:", "Número de habitantes versus Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 < (lm(a$V1~a$V2))>summary(a1)
Obtenemos la ecuación:
Y= −1,83e+091,009e+06 R2= 0.9206
−13,6 14.07
GRÁFICA Nº69
Podemos especular que la función entre las variables es de la forma: Y= e b0
b1X , por lo que corramos una regresión entre las siguientes variables transformadas (tabla nº43) y grafiquemos la ecuación de regresión obtenida junto a las variables originales:
>a1 < (lm(a$V1~a$V2))>summary(a1)
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook') >x < seq( 1780, 1970, length = 100) >lines(x, exp(25.19 + 0.0227*(x)), type="l", col= 'red', lwd=3) >title(main=paste("Forma semilog:", "Número de habitantes versus Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Nuestra ecuación de regresión resulta entonces: Y= e b0
b1X Y= e−25,190,0227 X
82
FUENTE:http://www.census.gov/
SALIDA Nº59
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 18776884 13317773 2941158 9177445 31141520
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.830e+09 1.345e+08 13.60 3.28e10 ***a$V2 1.009e+06 7.173e+04 14.07 1.98e10 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 15790000 on 16 degrees of freedomMultiple Rsquared: 0.9252, Adjusted Rsquared: 0.9206 Fstatistic: 198 on 1 and 16 DF, pvalue: 1.982e10
BASE DE DATOS Nº15
3929214 17905308483 18007239881 18109638453 182012860702 1830
∙ ∙∙ ∙∙ ∙
106021537 1920123202624 1930132164569 1940151325798 1950179323175 1960
Y i Xi
TABLA Nº43
15.184 179015.485 180015.795 181016.081 182016.370 1830
∙ ∙∙ ∙∙ ∙
18.479 192018.629 193018.700 194018.835 195019.005 1960
ln Y i Xi
Problemas en el análisis de regresión: Formas funcionales
GRÁFICA Nº70
4.1.4 FORMA POLINOMIAL Y= b0b1 Xb2 X2 (103)
Si hacemos W= X2 la forma polinomial queda linealizada como: Y= b0b1 Xb2 W
y nuestra ecuación de regresión queda como : Y= b0b1 X b2 W (104)
Aspectos teóricos.
Supongamos que nos encontramos con una relación matemática perfecta entre dos variables de la forma: Y=22 X3X3 , función que nos es desconocida. Tenemos sin embargo, los valores de estas dos variables asumen y que se muestran en la tabla nº44:
Grafiquemos estos datos con R, junto con la recta de regresión y obtengamos los parámetros estimados:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma polinomial:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 < (lm(a$V1~a$V2))>summary(a1)
La ecuación que obtenemos resulta:
Y= 2 199,4 X R2= 0,8371
0,017 10,186
83
SALIDA Nº60
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 0.31942 0.15824 0.02600 0.17855 0.22418
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.519e+01 1.653e+00 15.24 6.00e11 ***a$V2 2.271e02 8.811e04 25.78 1.85e14 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1939 on 16 degrees of freedomMultiple Rsquared: 0.9765, Adjusted Rsquared: 0.975 Fstatistic: 664.4 on 1 and 16 DF, pvalue: 1.855e14
SALIDA Nº61
Call:lm(formula = AAR7a$V2 ~ AAR7a$V1)
Residuals: Min 1Q Median 3Q Max 1.026e+03 4.104e+02 5.476e14 4.104e+02 1.026e+03
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.00 118.54 0.017 0.987 AAR7a$V1 199.40 19.58 10.186 3.91e09 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 543.2 on 19 degrees of freedomMultiple Rsquared: 0.8452, Adjusted Rsquared: 0.8371 Fstatistic: 103.7 on 1 and 19 DF, pvalue: 3.910e09
TABLA Nº44
3018 102203 91550 81041 7658 6
∙ ∙∙ ∙∙ ∙
662 61045 71554 82207 93022 10
Y i Xi
GRÁFICA Nº71
Podemos especular que la función entre las variables es de la forma: Y= b0
b1 X b2 W , por lo que grafiquemos las variables originales junto con la recta de regresión asociada a esta función .
Corramos una regresión sobre las variables señaladas en la tabla nº45 y grafiquemos la ecuación de regresión obtenida junto a los datos originales (tabla nº44):
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3)) >summary(a1)
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >x < seq( 10, 10, length = 100) >lines(x, 2+2*x+3*x*x*x, type="l", lwd=3, col= 'red') >title(main=paste("Forma polinomial:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº72
Nuestra ecuación de regresión resulta entonces:
Y i= 2 2 Xi 3X i2 R2
= 1 2,501e+142,2,689e+14
Y obtenemos exactamente la función que determina la relación entre las variables originales: Y= 22X3W
84
SALIDA Nº62
Call:lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals: Min 1Q Median 3Q Max 1.727e13 4.891e14 1.020e14 6.577e14 1.344e13
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.000e+00 1.921e14 1.041e+14 <2e16 ***a$V2 2.000e+00 7.997e15 2.501e+14 <2e16 ***a$V3 3.000e+00 1.116e16 2.689e+16 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.805e14 on 18 degrees of freedomMultiple Rsquared: 1, Adjusted Rsquared: 1 Fstatistic: 2.336e+33 on 2 and 18 DF, pvalue: < 2.2e16
TABLA Nº45
3018 10 10002203 9 7291550 8 5121041 7 343658 6 216
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
662 6 2161045 7 3431554 8 5122207 9 7293022 10 1000
Y i Xi Xi2
Problemas en el análisis de regresión: Formas funcionales
Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000.
Se estima que actualmente más de un millón de personas han sido diagnosticadas con VIH en los EE.UU., constituyendo este virus uno de los problemas de salud pública más importantes que afecta a ese país. No obstante, con el descubrimiento de terapias más eficaces, el mayor conocimiento por parte de la comunidad médica de las infecciones oportunistas y las campañas de uso del preservativo, a partir de 1995 tanto las defunciones por SIDA como los diagnosticados con VIH se han reducido notablemente.
La base de datos nº16 nos entrega los valores del número de diagnosticados con VIH Y i entre 1987 y el 2000 Xi en EE.UU.
Grafiquemos estos datos con R, y la recta de regresión a ellos asociada.
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH versus años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº73
Podemos especular que la función entre las variables es de la forma: Y= b0
b1 X b2 W , por lo que corremos una regresión entre las variables de la tabla nº46:
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3))>summary(a1)
85
FUENTE:http://www.avert.org/usastaty.htm
SALIDA Nº63
Call:lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals: Min 1Q Median 3Q Max 9863 4650 1131 3372 12036
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 11054.0 7020.3 1.575 0.144 a$V2 15484.2 2153.1 7.191 1.77e05 ***a$V3 1009.4 139.6 7.229 1.69e05 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7535 on 11 degrees of freedomMultiple Rsquared: 0.8274, Adjusted Rsquared: 0.796 Fstatistic: 26.37 on 2 and 11 DF, pvalue: 6.362e05
BASE DE DATOS Nº16
29105 198736126 198843499 198949546 199060573 1991
∙ ∙∙ ∙∙ ∙
61124 199649379 199743225 199841356 199939513 2000
Y i Xi
TABLA Nº46
29105 1 136126 2 443499 3 949546 4 1660573 5 25
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
61124 10 10049379 11 12143225 12 14441356 13 16939513 14 196
Y i Xi Xi2
GRÁFICA Nº74
Obtenemos:
Y i= 1105415484,2 X i−1009,4X i2 R2
= 0,796 7,191 −7,229
Grafiquemos la ecuación de regresión obtenida junto a los datos originales ( Y i y X i de la tabla)1.
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH', cex.lab=1,family='NewCenturySchoolbook') >x < seq(1,14, length = 100) >lines(x, 11054 +15484.2*x1009.4*x*x, type="l", col= 'red',lwd=3) >title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH versus años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (19942004).
En ningún otro país del mundo el problema de las drogas es tan extendido e intenso como en los EE.UU. Graves problemas sociales como la criminalidad y el contagio de VIH se asocian a él.
Un gran porcentaje del dinero gastado en el combate a las drogas se destina a la represión, en particular en arrestos, procesos judiciales y encarcelamiento de traficantes de poca monta. Aproximadamente 500.000 personas están encarceladas por delitos de drogas en los EE.UU. Las medidas vinculadas a la prevención o al tratamiento, han tenido poco éxito.
La base de datos Nº17 nos entrega los valores del número de arrestos por drogas Y i
entre 1994 y el 2004 Xi en EE.UU.
GRÁFICA Nº75
Grafiquemos estos datos con R y la recta de regresión a ellos asociada.
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados con drogas', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma polinomial: Número de arrestos", "relacionados con drogas versus años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
1 Es importante señalar que no es razonable incluir el valor de los años como variable independiente en la regresión, pues a este nivel la curva generada entre X y X2 es prácticamente una recta, con lo que las variables independientes presentarán una multicolinealidad total. Cambiamos por esto el valor de los años por números del 1 al 14.
86
Fuente:http://www.usdoj.gov/dea/statistics.html
BASE DE DATOS Nº17
23135 199425279 199529269 199634068 199738468 1998
∙ ∙∙ ∙∙ ∙
39743 200034471 200130270 200228549 200327053 2004
Y i Xi
Problemas en el análisis de regresión: Formas funcionales
Podemos especular que la función entre las variables es de la forma:Y= b0
b1 X b2 W , por lo que corremos una regresión entre las variables de la tabla nº47:
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3))>summary(a1)
Obtenemos:
Y i= 14394,637501,46 X i−596,52X i2 R2
= 0,8278 7,074 −6,931
Grafiquemos la ecuación de regresión obtenida junto a los datos originales.
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados con drogas', cex.lab=1,family='NewCenturySchoolbook') >x < seq(1,11, length = 100) >lines(x, 14394.63 +7501.46*x596.52*x*x, type="l", col= 'red',lwd=3) >title(main=paste("Forma polinomial: Número de arrestos", " relacionados con drogas versus años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº76
4.1.5 FORMA RECÍPROCA Y= b0b1
X (105)
GRÁFICA Nº77
Si Z= b1
Xla ecuación transformada queda Y= b0b1 Z ,
con lo que nuestra ecuación de regresión resulta:
Y= b0b1 Z (106)
Este modelo tiene las siguientes características: A medida que X crece indefinidamente, el término b1 Z se aproxima a cero e Y se aproxima al límite asintótico b0 .
Por lo tanto en estos modelos se constituye una asíntota o valor límite que la variable dependiente toma cuando cuando el valor de X crece indefinidamente, tal como se muestra en la gráfica Nº77.
87
SALIDA Nº64
Call:lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals: Min 1Q Median 3Q Max 3319.6 1745.2 788.1 1951.5 3364.3
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 14394.63 2768.63 5.199 0.000823 ***a$V2 7501.46 1060.41 7.074 0.000105 ***a$V3 596.52 86.07 6.931 0.000121 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2521 on 8 degrees of freedomMultiple Rsquared: 0.8622, Adjusted Rsquared: 0.8278 Fstatistic: 25.04 on 2 and 8 DF, pvalue: 0.0003601
TABLA Nº47
23135 1 125279 2 429269 3 934068 4 1638468 5 25
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
39743 7 4934471 8 6430270 9 8128549 10 10027053 11 121
Y i Xi Xi2
Aspectos teóricos.
Supongamos que nos encontramos con una relación matemática
perfecta entre dos variables de la forma: Y= 52 1X , función que nos es
desconocida. Tenemos sin embargo, los valores que estas dos variables asumen y se muestran en la tabla nº48:
Grafiquemos estos datos con R y la recta de regresión a ellos asociada.
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma recíproca:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Podemos especular que la función entre las variables es de la forma: Y= b0b1
X , por lo que
corremos una regresión entre las variables de la tabla nº49:
GRÁFICA Nº78
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2))>summary(a1)
La ecuación que obtenemos resulta:
Y= 5 2∙ Z R2= 1
26536 2999
Grafiquemos las variables originales (tabla nº48) junto con la recta de regresión aquí obtenida.
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >x < seq( 1, 20, length = 100) >lines(x, 5+2*(1/x), type="l", lwd=3, col= 'red') >title(main=paste("Forma recíproca:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº79
88
SALIDA Nº65
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 0.0008940 0.0004211 0.0001214 0.0001499 0.0011506
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.9998164 0.0001884 26536 <2e16 ***a$V2 2.0004648 0.0006670 2999 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.0006496 on 18 degrees of freedomMultiple Rsquared: 1, Adjusted Rsquared: 1 Fstatistic: 8.996e+06 on 1 and 18 DF, pvalue: < 2.2e16
TABLA Nº48
7,000 16,000 25,667 35,500 45,400 5
∙ ∙∙ ∙∙ ∙
5,125 165,118 175,111 185,105 195,100 20
Y i Xi
TABLA Nº49
7,000 1,0006,000 0,5005,667 0,3335,500 0,2505,400 0,200
∙ ∙∙ ∙∙ ∙
5,125 0,0635,118 0,0595,111 0,0565,105 0,0535,100 0,050
Y i Z i
Problemas en el análisis de regresión: Formas funcionales
Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo para 42 países.
La base de datos Nº18 nos entrega los valores la tasa de mortalidad infantil por cada 100 nacidos vivos Y i al 2009 y el PIB PPA per cápita Xi al 2008 para 219 países. Suponemos que a mayor PIB PPA baja dramáticamente la mortalidad infantil.
Grafiquemos estos puntos y la recta de regresión a ellos asociada:
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº80
Nuestra suposición resulta verdadera porque a mayor PIB PPA la gente puede disponer de más recursos para el cuidado de la salud, asumiendo que los demás factores permanecen constantes. Observemos que a medida que el PIB PPA per cápita se incrementa, hay inicialmente una drástica caída de la mortalidad infantil pero que se estabiliza a medida que el PIB PPA per cápita continúa creciendo.
Podemos especular que la función entre las variables
es de la forma: Y= b0b1
X , por lo que corremos una
regresión entre las variables de la tabla 50:
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2))>summary(a1)
La ecuación que obtenemos resulta:
Y= 19,35132177,613∙ Z R2= 0,3516
10,13 10,92
Grafiquemos las variables originales junto con la recta de regresión aquí obtenida.
>a < read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil', cex.lab=1,family='NewCenturySchoolbook') >x < seq( 0, 120000, length = 100) >lines(x, 19.351+32177*(1/x), type="l", lwd=3, col= 'red') >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
89
Fuente:http://www.cia.gov
BASE DE DATOS Nº18
Afghanistan 151,95 800Albania 18,62 6000Algeria 27,73 6900American Samoa 10,18 8000Andorra 3,76 42500
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
West Bank 15,96 2900Western Sahara 69,66 2500Yemen 54,7 2500Zambia 101,2 1500Zimbabwe 32,31 200
Y i Xi
TABLA Nº50
Afghanistan 151,95 0,001250Albania 18,62 0,000167Algeria 27,73 0,000145American Samoa 10,18 0,000125Andorra 3,76 0,000024
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
West Bank 15,96 0,000345Western Sahara 69,66 0,000400Yemen 54,7 0,000400Zambia 101,2 0,000667Zimbabwe 32,31 0,005000
Y i 1 /X i
GRÁFICA Nº81
90
SALIDA Nº66
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 147.929 14.768 7.359 10.422 99.330
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 19.351 1.911 10.13 <2e16 ***a$V2 32177.613 2947.032 10.92 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 24.39 on 217 degrees of freedomMultiple Rsquared: 0.3546,Adjusted Rsquared: 0.3516 Fstatistic: 119.2 on 1 and 217 DF, pvalue: < 2.2e16
Aplicaciones del análisis de regresión: Variables Dummy
4.2 VARIABLES DUMMY1
4.2.1 INTRODUCCIÓN
Hasta el momento, en el análisis de regresión lineal sólo hemos considerado variables cuantitativas continuas las cuales pueden tomar cualquier valor dentro de un intervalo específico de números tanto para los regresores como para el regresando. Sin embargo, en muchos casos, variables de naturaleza cualitativa pueden influenciar de manera decisiva a la variable dependiente2 (consideremos por ejemplo el sexo, la etnicidad, la religión, etc.) Para estudiar estos casos dentro del modelo de regresión lineal introduciremos variables independientes cualitativas, llamadas también variables dummy.
Estas variables funcionan como un dispositivo de clasificación en categorías mutuamente excluyentes y se tratan como a cualquier otra variable cuantitativa. Son tantas como el número de categorías en que se divida la variable menos 1. Por ejemplo, si una variable posee dos categorías, como en el caso del sexo (hombre o mujer) se construye una variable dummy en la que 1 indica mujer y 0 hombre. Si utilizamos una variable que posee 3 categorías, como en el caso de la religión (católico, protestante o judío, por ejemplo) construimos dos variables dummy: (1 0) en el caso de católico, (0 1) en el caso de protestante y (0 0) en el caso de judío y así sucesivamente. En general diremos que a k categorías, utilizamos k1 variables dummy.
Las variables dummy pueden ser incorporadas en los modelos de regresión tan fácilmente como las variables cuantitativas. De hecho, un modelo de regresión puede poseer regresores exclusivamente dummy. Estos modelos son llamados modelos de Análisis de Varianza (ANOVA) y los estudiaremos a continuación.
4.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA).
4.2.2.1 Modelos con solo una variable predictora cualitativa.
La población latina en Texas.
Se proyecta que para el 2020 la población blanca en el Estado de Texas dejará de ser la mayoría absoluta pasando a constituir solo el 47%, mientras la población latina será el 37% por lejos, la segunda mayoría relativa3, dándose en esta población los índices más altos de pobreza. 'En 1999, más de 1.6 millones (25.4 por ciento) de hispanos en Texas eran pobres. Su ingreso familiar promedio era de $29,873, muy por debajo del promedio de Texas de $39,927'4.
Es así que a medida que pasa el tiempo, debido a la cada vez mayor cantidad de población hispana en Texas, una también cantidad cada vez mayor de población tejana se hará pobre.
Texas debe reducir las disparidades económicas que subyacen aún en su población si desea un porvenir sustentable.
Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU.
Para comenzar a caracterizar a la población latina de Texas, supongamos que queremos saber si el porcentaje de ésta sobre el total difiere en forma significativa entre tres zonas seleccionadas arbitrariamente de los 254 condados del Estado.
Para esto, creamos dos variables dummy que nos indican la ubicación geográfica (gráfica nº82). De esta manera:
D1i D2i
1: Frontera con México (1 0)2: Centrooeste y este (0 1) 3: El resto del Estado (0 0)
La base de datos nº19 muestra el porcentaje de población latina como variable dependiente Yi , como variables dummy D1i y D2i la ubicación geográfica para los 254 condados del Estado de Texas y el % promedio de población latina dentro de estos tres grupos.
1 Estas variables también se conocen como indicadoras, categóricas, mudas o ficticias.2 Por ejemplo, existe evidencia empírica de que las mujeres ganan menos que los hombres por la misma actividad en el mercado del trabajo.3 http://www.cis.org/TexasImmigration197020204 http://www.dallasfed.org/entrada/articles/2005/sp_fotexas_petersen.html
91
GRÁFICA Nº 82
Los promedios de población latina para estas tres regiones son:
Poblaciónlatina
1: Frontera con México : 69,08 %2: Centrooeste y este : 17,93 %3: El resto del Estado : 22,15 %
¿Son estos resultados significativamente diferentes unos de otros?
Existen varias técnicas estadísticas para comparar dos o más promedios, las cuales son generalmente llamadas análisis de varianza, pero el mismo objetivo puede lograrse dentro del contexto de un análisis de regresión.
Para ver esto, supongamos el siguiente modelo:
Y i= b0b1D1ib2D2ii (107)
y hagamos una regresión (salida nº67):
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3))>summary(a1)
Obtenemos la siguiente ecuación:
Y i= 22,1546,935D1i−4,225D2i R2= 0,5766
16,882 −2,052
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,251)[1] 1.969460 por lo que nuestros parámetros estimados son significativos al 5%.
92
Fuente: http://geology.com/
FUENTE: http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html
% Población
Condado latinapromedio
Starr County 98,10 1 0Maverick County 95,33 1 0Webb County 94,40 1 0Brooks County 92,00 1 0Zavala County 91,39 1 0
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
Brewster County 43,72 1 0Live Oak County 37,95 1 0Jeff Davis County 35,48 1 0McMullen County 34,43 1 0Real County 21,63 1 0 69,08
Castro County 51,83 0 1Parmer County 49,83 0 1Crosby County 48,84 0 1Dawson County 48,09 0 1Hale County 47,99 0 1
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
Hardin County 2,45 0 1Cass County 1,62 0 1Sabine County 1,60 0 1Marion County 1,40 0 1Delta County 0,81 0 1 17,93
Atascosa County 58,70 0 0Deaf Smith County 57,71 0 0Bexar County 54,35 0 0Sutton County 51,73 0 0Reagan County 49,67 0 0
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
Montague County 5,49 0 0Llano County 5,14 0 0Armstrong County 3,91 0 0Clay County 3,07 0 0Roberts County 1,35 0 0 22,15
BASE DE DATOS Nº19
Y i D1i D2i
Aplicaciones del análisis de regresión: Variables Dummy
b0 es nuestro punto de control correspondiente a los valores de las variables dummy: (0 0) y nos entrega el promedio del % de población latina para los condados que se encuentran 'en el resto del Estado': 22,15%.
Reemplacemos los valores de las correspondientes dummy:
D1i : 1 y D2i : 0 El condado se encuentra en la frontera y nuestra ecuación queda:
Y i= 22,1546,935= 69,085
D1i : 0 y D2i : 1 El condado se encuentra en el centrooeste y este y nuestra ecuación queda:
Y i= 22,15−4,225= 17,925
Vemos que hay una tremenda concentración de población latina en la frontera con México.
Los valores de b1 y b2 nos dicen en cuanto los porcentajes promedio de latinos en los condados de la frontera y del centrooeste y el este difieren del promedio del porcentaje de latinos del 'resto del Estado'.
4.2.2.2 Modelos con dos variables predictoras cualitativas
Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de Texas.
La base de datos nª20 nos entrega como variable dependiente Yi el % de población pobre para los condados del Estado de Texas y como regresores, las dos variables dummy de ubicación espacial vistas en el ejemplo anterior ( D1i y D2i )y una nueva variable dummy que categoriza la densidad de la población hispana:
1: D3i = 1 condados con más del 30% de su población latina.2: D3i = 0 condados con menos del 30% de su población latina.
Supongamos un modelo del tipo:
Y i= b0b1D1ib2D2ib3D3ii (108)
Y hagamos un análisis de regresión (salida nº68):
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1)
Nuestra ecuación resulta:
Y i= 14,43318,9935D1i1,5022D2i1,383 D3i
9,018 2,4 1,906Nuestro valor crítico t para un 95% de significación es:
>qt(0.95,252)
[1] 1.650923 por lo que nuestros parámetros estimados son significativos al 5%.
93
SALIDA Nº67
Call:lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals: Min 1Q Median 3Q Max 47.454 10.079 4.160 9.534 36.550
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 22.150 1.351 16.399 <2e16 ***a$V2 46.935 2.780 16.882 <2e16 ***a$V3 4.225 2.058 2.052 0.0412 * Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 14.98 on 251 degrees of freedomMultiple Rsquared: 0.5799,Adjusted Rsquared: 0.5766 Fstatistic: 173.3 on 2 and 251 DF, pvalue: < 2.2e16
FUENTES:http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.htmlhttp://www.ers.usda.gov/Data/PovertyRates/PovListNum.asp?ST=TX&view=Number&Longname=TX
Condado
Anderson County 14,32 0 1 0Andrews County 15,29 0 1 1Angelina County 19,34 0 1 0Aransas County 19,63 0 0 0Archer County 8,21 0 1 0
∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
Wood County 12,99 0 1 0Yoakum County 17,17 0 1 1Young County 16,29 0 1 0Zapata County 37,19 1 0 1Zavala County 39,71 1 0 1
BASE DE DATOS Nº20
Y i D1i D2i D3i
Acá nuestro punto de referencia son los condados que se encuentran 'en el resto del Estado' y tienen menos de un 30% de su población latina. Siendo así, todas las comparaciones deben ser hechas en torno a este grupo.El % de población pobre para este grupo es, por lo tanto
b0= 14,4331 Ahora, si en nuestra categoría 'resto del Estado' consideramos los condados que tienen más del 30% de su población latina, el % promedio de pobreza sube a: Y i= 14,43311,383= 15,8161Observemos ahora nuestra categoría centrooeste y este. Para los condados con menos del 30% de su población latina el promedio de % de pobreza es:
Y i= 14,43311,5022= 15,9353 . Si consideramos los
condados de esta categoría que poseen más del 30% de su población latina el porcentaje de población pobre aumenta a: Y i= 14,43311,50221,383= 17,3183Los condados de la categoría 'frontera con México' poseen todos más del 30% de su población latina y el promedio de pobreza en ellos es de
Y i= 14,43318,99351,50221,383= 26,3118
4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA)
Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas
Las bases de datos nº19 y nº20 nos entregan el % de población pobre Yi y el % de población latinaXi . Consideremos también la ubicación espacial de los condados de Texas tal como ya los hemos
clasificado en los ejemplos anteriores.
Supongamos el siguiente modelo: Y i= b0b1X1b2D1ib3D2ii (109)
y hagamos una regresión del % de población pobre sobre las demás variables (salida nº69):
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1)
Obtenemos la siguiente recta de regresión:
Y i= 11,96710,1266 X i4,0627D1i1,997D2i
7,196 3,589 3,453
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,252)[1] 1.969422, por lo que nuestros parámetros estimados son significativos al 5%.
Obtengamos nuestras rectas de regresión asociadas a cada categoría de la variable cualitativa: 'ubicación geográfica'.
Si el condado se encuentra en la frontera D1i=1 y D2i=0 : Y i= 16,02980,1266X i
Si el condado se encuentra en el centrooeste y este D1i=0 y D2i=1 : Y i= 13,96410,1266 X i
Si el condado se encuentra en el resto del Estado D1i=0 y D2i=0 : Y i= 11,96710,1266 X i
94
SALIDA Nº68
Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals: Min 1Q Median 3Q Max 11.8096 2.3544 0.1607 2.3598 17.1004
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 14.4331 0.4471 32.284 <2e16 ***a$V2 8.9935 0.9973 9.018 <2e16 ***a$V3 1.5022 0.6260 2.400 0.0171 * a$V4 1.3830 0.7258 1.906 0.0579 . Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.553 on 250 degrees of freedomMultiple Rsquared: 0.3688,Adjusted Rsquared: 0.3612 Fstatistic: 48.68 on 3 and 250 DF, pvalue: < 2.2e16
BASES DE DATOS Nº19 y Nº20
Condado
Anderson County 14,32 12,00 0 1Andrews County 15,29 40,11 0 1Angelina County 19,34 14,08 0 1Aransas County 19,63 20,42 0 0Archer County 8,21 4,57 0 1
∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
Wood County 12,99 5,38 0 1Yoakum County 17,17 45,92 0 1Young County 16,29 10,50 0 1Zapata County 37,19 84,94 1 0Zavala County 39,71 91,39 1 0
Y i X1i D1i D2i
Aplicaciones del análisis de regresión: Variables Dummy
Grafiquemos con R las tres ecuaciones anteriores y nuestros datos de % promedio de población pobre y % promedio de población latina para los condados de Texas (gráfica nº 83):
>x < seq( 0 ,100,length = 100) >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='% promedio de población latina', ylab='% promedio de población pobre', cex.lab=1,family='NewCenturySchoolbook') >lines(x, 16.0298+0.1266*(x), type='l', col= 'blue', lwd=2) >lines(x, 13.9641+0.1266*(x), type='l', col= 'red', lwd=3) >lines(x, 11.9671+0.1266*(x), type='l', col= 'Magenta 4', lwd=2) >title(main=paste("Población pobre versus", "población latina en los condados de Texas",sep="\n"), font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº 83
Las tres rectas de regresión representan a las 3 regiones en que hemos dividido el Estado de Texas.
El gráfico se interpreta como sigue: La línea violeta representa 'el resto del Estado', la línea roja representa el centrooeste y el este, y la azul los condados que se encuentran en la frontera con México.
Vemos que consecutivamente a medida que aumenta el % promedio de población latina es mayor el valor del % de población pobre, poseyendo los condados que se ubican en la frontera con México los más altos índices de pobreza.
4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL
Las variables dummy permiten determinar si ha habido un cambio en los parámetros del modelo de regresión, ya sea en la intercepción o en la pendiente. Para esto sólo debemos saber si los parámetros estimados asociados a las variables dummy son estadísticamente significativos.
Consideremos el modelo general con una variable dummy: Y i= b0b1X1ib2 X iD1ib3D1i (110)
donde: i= 1,...,n y definamos: D1i= 0 para la categoría o y D1i= 1 para la categoría p.
De esta manera una vez ejecutada la regresión:
Y i= b0b1X i para la categoría o.
Y i= b0b3 b1
b2 Xi para la categoría p.
Hay cuatro casos posibles de acuerdo a que posean o no significación estadística cada uno de los parámetros estimados:
95
SALIDA Nº69
Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals: Min 1Q Median 3Q Max 11.9327 2.6806 0.2313 2.3717 14.6897
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 11.96711 0.54169 22.092 < 2e16 ***a$V2 0.12656 0.01759 7.196 7.23e12 ***a$V3 4.06270 1.13208 3.589 0.000400 ***a$V4 1.99695 0.57837 3.453 0.000652 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.174 on 250 degrees of freedomMultiple Rsquared: 0.4695,Adjusted Rsquared: 0.4631 Fstatistic: 73.74 on 3 and 250 DF, pvalue: < 2.2e16
GRÁFICA Nº 84
1. b3 y b2 no son significativas, por lo que no hay cambio estructural. Las regresiones para las dos categorías son idénticas: Y i= b0
b1X i para todo i.2. b3 es significativa, pero b2 no. Existen dos
regresiones con la misma pendiente pero con distintas intercepciones.
Y i= b0b1X i para la categoría o.
Y i= b0b3
b1 X i para la categoría p.
GRÁFICA Nº 85
3. b3 no es significativa, pero b2 si. Hay dos regresiones con una misma intercepción (concurrente) pero con diferentes pendientes.
Y i= b0b1X i para la categoría o.
Y i= b0b1
b2X i para la categoría p.
GRÁFICA Nº 86
4. b3 y b2 son ambas estadísticamente significativas. Existen dos regresiones por completo distintas.
Y i= b0b1X i para la categoría o.
Y i= b0b3 b1
b2 Xi para la categoría p.
Ilustremos este último caso con un ejemplo:
Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre la esperanza de vida y el PIB.
Se supone la existencia de cierta correlación entre la esperanza de vida y el PIB per cápita a valores de paridad de poder adquisitivo en los países del mundo, como lo vimos en el ejemplo nº1 de este trabajo. Como África posee los más bajos PIB per cápita mundiales, para considerar los efectos regionales en la regresión, se introducirá una variable dummy: Di= 1 si el país es africano y Di= 0 si no lo es.
La tabla nº2 vista en la primera sección de este trabajo Análisis de Regresión Simple nos muestra la esperanza de vida en años al 2005 Y i y el logaritmo del PIB per cápita a paridad de poder adquisitivo al 2005Xi . Añadamos la variable dummy definida anteriormente Di y esta misma multiplicada por la variable
independiente Di X i para 164 países del mundo, 39 de los cuales son africanos.
96
Aplicaciones del análisis de regresión: Variables Dummy
(excluímos los siguientes datos aberrantes todos países africanos: Angola, Botswana, Gabon, Lesotho, Namibia, South Africa, Swaziland y Zimbabwe)
Apliquemos una regresión de la esperanza de vida sobre el logaritmo del PIB per cápita a paridad de poder adquisitivo:
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2)) >summary(a1)
Nuestra ecuación de regresión nos da:Y= 1,9627,652X R2
=0,764 22,987
Nuestro valor crítico t para un 95% de significación es:
>qt(0.975,160)[1] 1.974902, por lo que nuestros parámetros estimados son significativos al 5%.
Apliquemos una regresión de la esperanza de vida, sobre el resto de variables independientes incluyendo las dummies:
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1)
Nuestra ecuación de regresión nos da:
Y= 25,4825,178X−47,501D5,256 X ∙D R2=0,852
14,015 −6,454 5,51Siendo todos nuestros parámetros estimados son
significativos al 5%.
Las ecuaciones resultan respectivamente:Y= 1,9627,652X para las variables originalesY= − 22,01910,434 X para África y Y= 25,4825,178X para el resto del mundo.
Grafiquemos esta rectas (gráfica nº 87):
>a < read.table('a.txt') >x < seq( 5, 12, length = 1000) >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Ln del PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >lines(x, 22.019 +10.434*(x), type="l", col= 'Magenta 4') >lines(x, 25.482 +5.178*(x), type="l", col= 'blue') >title(main=paste("Esperanza de vida", "versus ln del PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
La columna gruesa azul nos muestra la recta de regresión original. La línea verde representa al conjunto de países excluyendo África. Se aprecia con una pendiente menor y una intersección con el eje Y mayor. Lo anterior implica que la esperanza de vida parte siendo alta para valores bajos del PIB y se incrementa suavemente a través del aumento del ln del PIB de los países.
La línea roja interpreta a los países africanos, y muestra que la esperanza de vida para éstos se incrementa dramáticamente a medida que aumenta el PIB de los mismos.
97
SALIDA Nº71
Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals: Min 1Q Median 3Q Max 10.8277 1.9444 0.3835 2.3447 9.6967
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 25.4817 3.3735 7.554 3.06e12 ***a$V2 5.1782 0.3695 14.015 < 2e16 ***a$V3 47.5010 7.3604 6.454 1.24e09 ***a$V4 5.2558 0.9540 5.510 1.41e07 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.903 on 160 degrees of freedomMultiple Rsquared: 0.8518,Adjusted Rsquared: 0.849 Fstatistic: 306.4 on 3 and 160 DF, pvalue: < 2.2e16
SALIDA Nº70
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 14.2331 2.4979 0.2952 3.2149 11.0504
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.9619 2.9153 0.673 0.502 a$V2 7.6520 0.3329 22.987 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.88 on 162 degrees of freedomMultiple Rsquared: 0.7653,Adjusted Rsquared: 0.7639 Fstatistic: 528.4 on 1 and 162 DF, pvalue: < 2.2e16
TABLA Nº2
PAÍS
Albania 76,2 8,580 0 0,000Algeria 71,7 8,878 1 8,878Antigua y Barbuda 73,9 9,359 0 0,000Argentina 74,8 9,484 0 0,000Armenia 71,7 8,306 0 0,000
∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
Vanuatu 69,3 8,136 0 0,000Venezuela 73,2 8,666 0 0,000Vietnam 73,7 7,931 0 0,000Yemen 61,5 6,614 0 0,000Zambia 40,5 6,815 1 6,815
Y i Xi Di XiDi
GRÁFICA Nº 87
4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES DUMMY 1. Si una variable cualitativa tiene m categorías, debe
representarse por medio de m1 variables dummy, asignando a cada una los valores de 0 ó 1. De no ser así ocurre el problema de la multicolinealidad (que hemos analizado en la sección precedente)5.
Las siguientes precauciones están referidas a modelos ANOVA.
2. La categoría para la cual no es asignada ninguna variable dummy es denominada punto de referencia o categoría omitida. Todas las comparaciones están hechas en relación al punto de referencia.
3. El valor de intercepción b0 representa el valor promedio del punto de referencia.
Por ejemplo, consideremos la base de datos Nº1 restringida al los valores de la esperanza de vida Yi junto con la dummy antes definida Di .
Ejecutemos una regresión de Y i sobre Di :
>a < read.table('a.txt') >a1 < (lm(a$V1~a$V2)) >summary(a1)
La recta de regresión obtenida es:
Y= 72.507−17,271 ∙Di R2=0,5365
−13,77
Para los países no africanos Di= 0 el valor promedio de la esperanza de vida es 72,507.
4. Los coeficientes bi son conocidos como los coeficientes de intercepción diferencial. Nos dicen en cuanto varía el valor de la variable dependiente para la correspondiente categoría respecto al punto de referencia.
En nuestro ejemplo, 72,50717,271= 55,236 es el valor promedio de la esperanza de vida para los países africanos.
5. Si la variable cualitativa tienen más que una categoría, la elección del 'punto de referencia' queda a estricta elección del investigador.
5 Es posible evitar el problema de la multicolinealidad al tener m variables dummy para m categorías de una variables cualitativa omitiendo el término de intercepción y corriendo una regresión bajo el siguiente modelo supuesto: Y i= b1D1ib1D 2ib1D3i i . Suprimiendo la intercepción y utilizando una variable dummy para cada categoría, se obtienen directamente los valores medios para cada una de las categorías.
98
SALIDA Nº72
Call:lm(formula = a$V1 ~ a$V2)
Residuals: Min 1Q Median 3Q Max 18.6072 4.1394 0.0572 4.9678 18.2641
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 72.5072 0.6115 118.56 <2e16 ***a$V2 17.2713 1.2540 13.77 <2e16 ***Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.837 on 162 degrees of freedomMultiple Rsquared: 0.5394,Adjusted Rsquared: 0.5365 Fstatistic: 189.7 on 1 and 162 DF, pvalue: < 2.2e16
BASE DE DATOS Nº1
PAÍS
Albania 76.2 0Algeria 71.7 1Antigua y Barbuda 73.9 0Argentina 74.8 0Armenia 71.7 0
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Vanuatu 69.3 0Venezuela 73.2 0Vietnam 73.7 0Yemen 61.5 0Zambia 40.5 1
Y i Di
Aplicaciones del análisis de regresión: Modelos de elección binarios
4.3 MODELOS DE ELECCIÓN BINARIOS4.3.1 INTRODUCCIÓN
Hasta ahora, hemos considerado modelos de regresión en los que el regresando (variable dependiente o respuesta) es cuantitativa, mientras las variables independientes son cuantitativas, cualitativas (dummy) o una mezcla de ambas. Sin embargo, algunas veces en el análisis de regresión sólo estamos interesados en el valor dicotómico que pueda adoptar la variable respuesta, como por ejemplo, en regresiones donde deseamos averiguar de qué manera influye un set de variables independientes en el hecho de que una persona esté ocupada o desempleada, sea alfabeta o analfabeta, sea solvente o insolvente para un préstamo, etc.
Existe una importante diferencia entre un modelo de regresión donde la variable dependiente es cuantitativa y otro en la que es cualitativa. En el primer caso, nuestro objetivo es estimar la media del regresando, dados los valores de los regresores. En el segundo, nuestro objetivo es encontrar la probabilidad de que algo ocurra o no. Es por esto que los modelos de regresión con variable dependiente cualitativa se denominan también modelos de probabilidad.
Si en un modelo de regresión lineal la variable dependiente es una variable dicotómica1 (que adopta sólo los valores 0 ó 1), una regresión por el método de MCO no es apropiada, pues éste puede permitir predicciones mayores que 1 o menores que 0 dando un resultado absurdo.
En este capítulo abordaremos dos metodologías para estudiar los modelos de respuesta cualitativa: el Logit y el Probit.
4.3.2 EL MODELO LOGIT
La función de distribución logística puede expresarse como:
Pi= EY= 1 /Xi= 1
1e− b0
b1 X io bien, si Z i= b0
b1 X i ; Pi= 1
1e−Z i=
eZ i
1eZ i
(111)
donde Z i se denomina logit.
Z i varía de −∞ a ∞ , por lo que Pi= e
Z i
1eZ i
varía de 0 a 1. Lo que se intenta es llevar
rápidamente a 0 ó a 1 los valores de Pi . GRÁFICA Nº88
Existe un problema de estimación, porque Pi no es lineal ni en los X i ni en los bi , por lo que no podemos utilizar el método de MCO para estimar los parámetros. Debemos utilizar el logit.
Si Pi= e
Z i
1eZ i
es la probabilidad de poseer cierto
atributo, entonces 1−Pi es la probabilidad de no
poseerlo: 1−Pi= 1− eZ i
1eZ i=
11e
Z i(112)
Definamos como Oportunidad Relativa2 la razón entre la probabilidad de poseer un atributo y no poseerlo3:
Op Rel= Pi
1−Pi
= eZ i
1eZ i
∙ 1eZ i
1= eZ i= e
b0b1X i (113)
Aplicando logaritmos al odds ratio obtenemos Z i= ln Pi
1−P i
= b0b1 X i (114)
Siendo ahora el logit lineal en X y en los parámetros. Analicemos el siguiente ejemplo:
1 Tengamos presente que en el caso general, la variable respuesta puede ser politómica (poseer múltiples categorías).2 También llamada odds ratio.
3 Así, si P i= 0,8 esto significa que: Odds Ratio= 4 /5
1−4 /5=
4 /51 /5
= 41
esto es, que las probabilidades son 4 a 1 a favor de que encontremos la
presencia del atributo buscado.
99
Ejemplo Nº26: Pobreza y religión en Irlanda del Norte.
La base de datos nº21 nos da información para los 26 distritos de gobierno local de Irlanda del norte, siendo Y i una variable dependiente dicotómica que asume los valores Y i= 1 si el porcentaje de niños que viven bajo el 60% del ingreso medio es mayor del 25% para el 2008, Y i= 0 si no, y
X i es el porcentaje de población católica para la respectiva provincia para 1991. Podemos establecer el supuesto de que las provincias con alto predominio católico son las más pobres.
Apliquemos un análisis de regresión Logit a esta tabla (salida nº73):
>a < read.table('a.txt')>a1 < glm(a$V1 ~ a$V2,family=binomial(link=logit)) >summary(a1)
Nuestra ecuación logit queda entonces:
Z i= −2,164970,07013 X i
Obtengamos el valor crítico para z al 95% de significación:
>qnorm(0.975) [1] 1.959964 Ambos coeficientes son estadísticamente significativos.
Grafiquemos los valores del logit Zi y sus valores ajustados P i sobre la variable independiente dados en la tabla nº51 (gráficas nº89 y nº90) .
>par(bg = "Ivory 2") >plot(a$V2, predict(a1), col='3', xlab='% de población católica', ylab='Valores del Logit', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los valores del Logit", "y el % de población católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>par(bg = "Ivory 2") >plot(a$V2, fitted(a1), col='3', xlab='% de población católica', ylab='Valores ajustados del Logit', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los valores ajustados del Logit", "y el % de población católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
100
SALIDA Nº73
Call:glm(formula = a$V1 ~ a$V2, family = binomial(link = logit))
Deviance Residuals: Min 1Q Median 3Q Max 1.6891 0.7115 0.4149 0.5790 1.7600
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.16497 1.08133 2.002 0.0453 *a$V2 0.07013 0.02753 2.548 0.0108 *Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 34.646 on 25 degrees of freedomResidual deviance: 25.326 on 24 degrees of freedomAIC: 29.326
Number of Fisher Scoring iterations: 4
FUENTES:25% o más de niños que viven bajo el 60% del ingreso medio 2008http://www.niassembly.gov.uk/centre/2007mandate/reports/Report08_07_08r_vol1.htm % de población católica 1991http://www.wesleyjohnston.com/users/ireland/past/protestants_1861_1991.html
BASE DE DATOS Nº21
DISTRITO
Antrim 0 34,382Ards 1 12,191Armagh 0 47,297Ballymena 1 19,081Ballymoney 0 31,405
∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙
Newry & Mourne 1 76,988Newtownabbey 0 14,054North Down 0 9,736Omagh 1 66,812Strabane 1 63,712
Y i Xi
TABLA Nº51
DISTRITO
Antrim 0 34,382 0,246 0,561Ards 1 12,191 1,310 0,212Armagh 0 47,297 1,152 0,760Ballymena 1 19,081 0,827 0,304Ballymoney 0 31,405 0,037 0,509
∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
Newry & Mourne 1 76,988 3,234 0,962Newtownabbey 0 14,054 1,179 0,235North Down 0 9,736 1,482 0,185Omagh 1 66,812 2,521 0,926Strabane 1 63,712 2,303 0,909
Y i Xi Z i P i
Aplicaciones del análisis de regresión: Modelos de elección binarios
GRÁFICA Nº89 GRÁFICA Nº90
4.3.2.1 Interpretación de los coeficientes: Z i= −2,164970,07013X i
El parámetro estimado de pendiente en la ecuación de salida es un coeficiente de pendiente parcial y mide el cambio en el Logit estimado para el cambio de 1 unidad en el valor del regresor dado (manteniendo todos los demás constantes).
La interpretación de los coeficientes logit puede ser difícil. En nuestro ejemplo, para el incremento de un 1% en X i , el logaritmo del odds ratio de que una provincia sea pobre se incrementa en 0,07. Es preferible elevar a e los coeficientes e interpretarlos como oddratios.
>exp(a1$coefficients)
Así para el incremento de un 1% en X i , el odds ratio de que una provincia sea pobre se incrementa en un factor de 1,0726.
4.3.2.2 Intervalos de confianza para los coeficientes estimados
Notemos que el intervalo de confianza que nos entrega R está referido a los parámetros estimados del logit.
>confint(a1)
4.3.2.3 Significación estadística de los coeficientes.
La significación estadística de cada uno de los coeficientes estimados la obtenemos de la división del respectivo coeficiente por su desviación estándar. Éste valor sigue una distribución normal:
Z i= b i
S b i(115)
Para nuestro ejemplo:
Z 0= b0
S b0= −
2,164971.08133
= −2,002 y Z1= b1
S b1=
0,070130,02753
= 2,547
El valor Pr(|z|) nos da el límite de la significación del parámetro estimado. Para b1 el valor límite de significación es: Pr(|z|)= 0,0108, esto quiere decir que 10,0108/2= 0,9946 es el valor de la significación exacta.
101
SALIDA Nº74
(Intercept) a$V2 0.1147539 1.0726478
SALIDA Nº752.5 % 97.5 %
(Intercept) 4.60906435 0.2316007a$V2 0.02276608 0.1344598
Verifiquémoslo:
>qnorm(0.9946)
[1] 2.549104 el cual es el valor de Z1
4.3.2.4 Contraste de hipótesis el modelo.
4.3.2.4.1 La función de verosimilitud.
Observemos dos datos que nos entrega la salida nº73: Null deviance y Residual deviance. La primera es 2 veces4 el logaritmo de la verosimilitud del modelo denominado nulo −2LnL0 , en el cual no se considera regresor alguno y cuyas probabilidades Pi son las probabilidades simples de que el evento ocurra o no; la segunda es 2 veces el logaritmo de la verosimilitud del modelo incluyendo los regresores −2LnL .
El logaritmo de la función de verosimilitud se define como:
∑i=1
N
[Y i ∙lnPi Z i1−Y i ∙ln 1−Pi Z i](116)
Calculemos el logaritmo de la verosimilitud del modelo nulo para nuestro ejemplo:−7,768−9,555= −17,323
Calculemos el logaritmo de la verosimilitud del modelo para nuestro ejemplo:−6,349−6,314= −12,663 Este último valor también lo
obtenemos con la siguiente instrucción:
>logLik(a1)'log Lik.' 12.66264 (df=2)
Verifiquemos que los datos entregados por las tablas nº52 y nº53 coinciden con los entregados por la salida nº73:
−2 ∙−12,663= 25,326 y
−2 ∙−17,323= 34,646
4.3.2.4.2Estadístico de la Razón de Verosimilitud o chi2.
Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el
Estadístico de la Razón de Verosimilitud, definido como: ERV= −2lnL0−L = 34,646−25,326= 9,32 (117)
que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que este caso es 1.
Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.
4 Pues la verosimilitud es un valor pequeño.
102
TABLA Nº52
DISTRITO
Antrim 0 0,615 0,385 0,000 0,956Ards 1 0,615 0,385 0,486 0,000Armagh 0 0,615 0,385 0,000 0,956Ballymena 1 0,615 0,385 0,486 0,000Ballymoney 0 0,615 0,385 0,000 0,956
∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙
Newry & Mourne 1 0,615 0,385 0,486 0,000Newtownabbey 0 0,615 0,385 0,000 0,956North Down 0 0,615 0,385 0,000 0,956Omagh 1 0,615 0,385 0,486 0,000Strabane 1 0,615 0,385 0,486 0,000
7,768 9,555
1−Y i ∙ln 1−P iY i Y i ∙ lnP i1−P iP i
∑
TABLA Nº53
DISTRITO
Antrim 0 34,382 0,246 0,246 0,561 0,439 0,000 0,824Ards 1 12,191 1,310 1,310 0,212 0,788 1,549 0,000Armagh 0 47,297 1,152 1,152 0,760 0,240 0,000 1,427Ballymena 1 19,081 0,827 0,827 0,304 0,696 1,190 0,000Ballymoney 0 31,405 0,037 0,037 0,509 0,491 0,000 0,712
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Newry & Mourne 1 76,988 3,234 3,234 0,962 0,038 0,039 0,000Newtownabbey 0 14,054 1,179 1,179 0,235 0,765 0,000 0,268North Down 0 9,736 1,482 1,482 0,185 0,815 0,000 0,205Omagh 1 66,812 2,521 2,521 0,926 0,074 0,077 0,000Strabane 1 63,712 2,303 2,303 0,909 0,091 0,095 0,000
6,349 6,314
1−Y i ∙ln 1−P i Z i Y i∙ lnP iZi1−P iZ i P iZ i−Z iZ iY i X i
∑
Aplicaciones del análisis de regresión: Modelos de elección binarios
Calculemos chi2
>qchisq(0.95, df=1)
[1] 3.841459
3.841459 < 9,32 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.
4.3.2.4.3Bondad del ajuste.
Una medida de la bondad del ajuste es un 'estadísticoresumen' que indica la precisión con la cual un modelo se aproxima a los datos observados. Evalúa la idoneidad del modelo de regresión logística.
Podemos estimar la bondad de ajuste mediante la comparación del número de casos observados con los esperados por el modelo estimado (eI porcentaje de distritos que coinciden con la alternativa predicha por el modelo).
En nuestro ejemplo los casos totales son 26 y los predichos por nuestro modelo correctamente (tomando como punto de corte 0,5) son 18, entonces:
X= 1826
∙100%= 69,231% y el modelo seleccionado ajusta los datos con un 69,231% de precisión.
4.3.2.5 Características del modelo Logit. GRÁFICA Nº91
1. Si Pi varía de 0 a 1, el Logit Z i varía de −∞ a ∞ , esto es, mientras las probabilidades yacen entre 0 y 1, los Logit no tienen límites.2. Si bien Z i es lineal sobre X, las probabilidades Pi sobre
X i no.3. Podemos agregar tantos regresores (o variables independientes) al modelo como nos lo indique la teoría.4. Si Z i es negativo y se incrementa en magnitud, el odds decrece de 1 a 0 y por el contrario, si se incrementa positivamente, el odds ratio se incrementa de 1 al infinito. (gráfica nº91)5. b1 , la pendiente, mide el cambio en Z i producido por el cambio de 1 unidad en X, esto es, nos dice cómo los logaritmos de los odds ratio en favor de Pi= 1 cambian a medida que la variable independiente se incrementa en una unidad.
La intercepción b0 es el valor del logaritmo del odds ratio a favor de Pi= 1 si la variable independiente es cero. 6. Dado un cierto valor de la variable independiente, si deseamos no estimar los odds ratio a favor de Pi= 1sino la probabilidad Pi= 1 , ésta se puede obtener directamente de:
Pi= 1
1e−Z i=
eZ i
1eZ i
una vez que los estimadores de b0 y b1 estén disponibles.
7. El modelo Logit asume que el logaritmo de los odds ratio está linealmente relacionado con X i
4.3.2.6 Algunas observaciones para el modelo Logit.
1. Como usamos el método de máxima verosimilitud, el cual es generalmente un método de muestras grandes, los errores standard estimados son asintóticos. Como resultado, en vez de usar la estadística t para evaluar la significación estadística de un coeficiente, usamos la estadística z (normal standard). Recordemos que si el tamaño de la muestra es razonablemente grande, la distribución t converge a la distribución normal.2. En modelos de regresión binario, la bondad del ajuste tiene una importancia secundaria. Lo que importa son los signos esperados de los coeficientes de la regresión y su significación estadística.
103
4.3.3 EL MODELO PROBIT GRÁFICA Nº92
La función de distribución acumulativa normal es también utilizada para explicar el comportamiento de una variable dependiente dicotómica. El modelo de estimación que así surge se denomina modelo Probit o Normit.
En el modelo Probit, P es una función de distribución acumulada de la normal standard que se expresa como integral.
Pi= PY= 1 /X i es la probabilidad de que un evento ocurra dado los valores de la(s) variable(s) independiente(s) X i siendo Z i la variable normal standard
ZN0,2 tal que si Z i= b0
b1 X i entonces:
Zi= 1
2e−z i
2
2 por lo que PZi= ∫−∞
z i
v dv (118) (119)
es la función de distribución acumulativa normal.
La probabilidad de que un evento a ocurra Pa está representada por el área definida bajo la curva normal de −∞ a Za .
Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países.
La base de datos nº22 nos muestra un set de datos para 30 países, que nos indica los datos del puntaje de satisfacción con la vida, como variable dependiente. El promedio de este indicador es 222,33. Categorizemos esta variable como Y i= 1 si el país supera esta media y Y i= 0 si no. Como variable independiente X i
tenemos los datos del PIB PPA per cápita para los mismos.
Apliquemos un análisis de regresión Probit de Di sobre X i (salida nº76):
>a < read.table('a.txt')>a1 < glm(a$V1~a$V2,family=binomial(link=probit)) >summary(a1)
Nuestra ecuación de regresión Probit resulta: Z i= −4,720,0001594 X i
Obtengamos el valor crítico para z al 95% de significación:
>qnorm(0.975) [1] 1.959964
Ambos coeficientes son estadísticamente
significativos.
Grafiquemos los valores ajustados del Probit y de Pi sobre la variable independiente que aparecen en la tabla nº54 (gráficas nº92 y nº 93):
104
FUENTES: PIB PPA per cápita 2005: http://www.imf.org/external/data.htm Índice de satisfacción con la vida 2006: Adrian G. White. University of Leicester
BASE DE DATOS Nº22
PAÍS
Australia 243,33 1 39300Austria 260,00 1 39600Bahrain 240,00 1 37200Belarus 133,33 0 12000Belgium 243,33 1 38300
∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙
Spain 233,33 1 34100Sweden 256,67 1 39600Switzerland 273,33 1 40900United Kingdom 236,67 1 37400United States 246,67 1 48000
Y i Di Xi
TABLA Nº54
PAÍS
Australia 1 39300 1,544 0,939Austria 1 39600 1,592 0,944Bahrain 1 37200 1,210 0,887Belarus 0 12000 2,807 0,002Belgium 1 38300 1,385 0,917
∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙
Spain 1 34100 0,716 0,763Sweden 1 39600 1,592 0,944Switzerland 1 40900 1,799 0,964United Kingdom 1 37400 1,242 0,893United States 1 48000 2,931 0,998
Y iX i Z i P i
Aplicaciones del análisis de regresión: Modelos de elección binarios
>par(bg = "Ivory 2") >plot(a$V2, predict(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores del Probit', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los valores del Probit", "y el PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>par(bg = "Ivory 2") >plot(a$V2, fitted(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores ajustados del Probit', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los valores ajustados del Probit", "y el PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRÁFICA Nº93 GRÁFICA Nº94
Con el siguiente comando obtenemos los Pi del modelo de regresión probit.
> fitted.values(a1)
4.3.3.1 Interpretación de los coeficientes.
En este tipo de modelos no resulta posible interpretar directamente las estimaciones de los parámetros, ya que son modelos no lineales. Lo que haremos es fijarnos en el signo de los estimadores. Si el estimador es positivo, significará que incrementos en la variable asociada causan incrementos en P(Y = 1) (aunque desconocemos la magnitud de los mismos). Por el contrario, si el estimador muestra un signo negativo, ello supondrá que incrementos en la variable asociada causarán disminuciones en P(Y = 1). El PIB PPA per cápita tiene un impacto positivo en el Probit. Aunque el hecho de que valga aproximadamente cero, induce a pensar que un aumento unitario en el PIB PPA per cápita no causará un efecto apreciable sobre su la satisfacción con la vida consideremos que hablamos de dólares, por lo que tiene mas sentido decir que un aumento de diez mil dólares en el PIB PPA per cápita aumentael probit un 1,59.
105
SALIDA Nº76
Call:glm(formula = a$V1 ~ a$V2, family = binomial(link = probit))
Deviance Residuals: Min 1Q Median 3Q Max 1.8455 0.3624 0.2337 0.4610 1.8103
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 4.720e+00 1.565e+00 3.017 0.00255 **a$V2 1.594e04 4.891e05 3.259 0.00112 **Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 40.381 on 29 degrees of freedomResidual deviance: 21.404 on 28 degrees of freedomAIC: 25.404
Number of Fisher Scoring iterations: 7
4.3.3.2 Intervalos de confianza para los coeficientes estimados
Los intervalos de confianza se obtienen con la siguiente instrucción en R:
>confint(a1)
4.3.3.3 Contraste de hipótesis el modelo.
Al igual que en el modelo Logit, para el Probit el logaritmo de la función de verosimilitud se define como:
∑i=1
N
[Y i ∙lnPi Z i1−Y i ∙ln 1−Pi Z i]
Calculemos el logaritmo de la verosimilitud del modelo nulo para nuestro ejemplo:
−9,195−10,995= −20,19
Calculemos el logaritmo de la verosimilitud del modelo para nuestro ejemplo:
−4,99−5,712= −10,702
Este último valor también lo obtenemos con la siguiente instrucción:
>logLik(a1)'log Lik.' 10.70192 (df=2)
Verifiquemos que los datos entregados por las tablas nº64 y nº65 coinciden con los entregados por la salida nº76:
−2 ∙−20,19= 40,38 y
−2 ∙−10,702= 21,404
Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el
Estadístico de la Razón de Verosimilitud, definido como: ERV= −2lnL0−L = 40,38−21,404= 18,976 (120)
que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que este caso es 1.
Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.
Calculemos chi2
>qchisq(0.95, df=1)
[1] 3.841459
3.841459 < 18,976 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.
106
SALIDA Nº77
2.5% 97.5%(Intercept) 8.554748e+00 2.0497822717
a$V2 7.561091e05 0.0002806858
TABLA Nº64
PAÍS
Australia 1 0,6 0,4 0,511 0,000Austria 1 0,6 0,4 0,511 0,000Bahrain 1 0,6 0,4 0,511 0,000Belarus 0 0,6 0,4 0,000 0,916Belgium 1 0,6 0,4 0,511 0,000
∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙
Spain 1 0,6 0,4 0,511 0,000Sweden 1 0,6 0,4 0,511 0,000Switzerland 1 0,6 0,4 0,511 0,000United Kingdom 1 0,6 0,4 0,511 0,000United States 1 0,6 0,4 0,511 0,000
9,195 10,995
Y i P i 1−P i Y i ∙ lnP i 1−Y i ∙ln 1−P i Z i
TABLA Nº65
PAÍS
Australia 1 39300 1,544 1,544 0,939 0,061 0,063 0,000Austria 1 39600 1,592 1,592 0,944 0,056 0,057 0,000Bahrain 1 37200 1,210 1,210 0,887 0,113 0,120 0,000Belarus 0 12000 2,807 2,807 0,002 0,998 0,000 0,003Belgium 1 38300 1,385 1,385 0,917 0,083 0,087 0,000
∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
Spain 1 34100 0,716 0,716 0,763 0,237 0,271 0,000Sweden 1 39600 1,592 1,592 0,944 0,056 0,057 0,000Switzerland 1 40900 1,799 1,799 0,964 0,036 0,037 0,000United Kingdom 1 37400 1,242 1,242 0,893 0,107 0,113 0,000United States 1 48000 2,931 2,931 0,998 0,002 0,002 0,000
4,990 5,712
Y i Xi −Z i 1−P iZ i Y i ∙ lnP i Zi 1−Y i ∙ln 1−P i Z i P iZ i Z i
Aplicaciones del análisis de regresión: Modelos de elección binarios
4.3.4 Modelos logit y probit. ¿Cuál es preferible?
Para muchas aplicaciones, los modelos son muy similares. La principal diferencia consiste en que la distribución logística se aproxima más lentamente a 0 y a 1 a medida que el logit se desplaza de ∞ a ∞ respectivamente (gráfica nº95). Por consiguiente no existe una razón de peso para elegir entre una u otra.
En la práctica, muchos investigadores eligen el modelo Logit por su comparativamente mayor sencillez matemática (la facilidad de los cálculos cuando no están las tablas necesarias para encontrar la probabilidad acumulada).
>a1 < glm(a$V1~a$V2,family=binomial(link=logit)) >summary(a1)
GRÁFICA Nº95
Aunque los modelos son similares, debemos tener cuidado al interpretar los coeficientes estimados en ambos modelos.
Pueden ser diferentes. La razón de esto es que aunque las distribuciones logística standard (la base del modelo Logit) y normal standard (la base del modelo probit) tienen media 0 y sus varianzas son diferentes: 1 para
la normal standard y
2
3para la distribución logística.
Por lo tanto, si multiplicamos el coeficiente Probit por
3, obtendremos aproximadamente el
coeficiente Logit.
bProbit ∙
3= bLogit bProbit ∙1,81= bLogit bProbit= 0,55 ∙bLogit (121)
Otros autores sugieren utilizar un coeficiente 0,625. Así:
bLogit ∙ 0,625= bProbit 1,6∙bProbit= bLogit
107
SALIDA Nº76
Call:glm(formula = a$V1 ~ a$V2, family = binomial(link = logit))
Deviance Residuals: Min 1Q Median 3Q Max 1.8423 0.3925 0.2852 0.4796 1.8135
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 7.805e+00 2.900e+00 2.691 0.00712 **a$V2 2.634e04 9.127e05 2.886 0.00390 **Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 40.381 on 29 degrees of freedomResidual deviance: 21.841 on 28 degrees of freedomAIC: 25.841
Number of Fisher Scoring iterations: 5
Bibliografía
5. BIBLIOGRAFÍA1. Bernstein, Stephen; Bernstein Ruth. Elements of Statistics II: Inferential Statistics, Mc GrawHill, 1999, Cap.
19: 'Regression and correlation', págs: 333378.
2. Canavos, George. Estadística y Probabilidades (Aplicaciones y Métodos), McGrawHill, 1988, Cap. 13: 'Análisis de regresión: el modelo lineal simple', págs: 443502; Cap. 14: 'Análisis de regresión: el modelo lineal general', págs: 503571.
3. Chambers, John M. Software for Data Analysis Programming with R , Springer, 2008.
4. Chatterjee, Samprit; Hadi, Ali S. Regression Analysis by Example, Fourth Edition, John Wiley & Sons, 2006, Cap. 2: 'Simple Linear Regression', págs: 2152; Cap. 3: 'Multiple Linear Regression', págs: 5384; Cap. 5: 'Qualitative Variables as Predictors', págs: 121150; Cap. 6: 'Transformation of Variables', págs: 151178; Cap. 8: 'The Problem of Correlated Errors ', págs:197220; Cap. 9: 'Analysis of Collinear Data ', págs: 221258; Cap. 12: 'Logistic Regression ', págs: 317340.
5. Crawley, Michael J. The R Book, John Wiley & Sons, 2007. Cap. 10: 'Regression ', págs: 387448.
6. Gujarati, Damodar. Basic Econometrics, Fourth Edition, McGrawHill, 2004, Cap. 9: 'Dummy variable regression models', págs: 297333; Cap. 10: 'Multicollinearity: what happens if the regressors are correlated?', págs: 341386; Cap. 11: 'Heteroscedasticity: what happens if the error variance is nonconstant?', págs: 387440; Cap. 12: 'Autocorrelation: what happens if the error terms are correlated?', págs: 441505; Cap. 15: 'Qualitative response regression models', págs: 580635.
7. Montgomery, Douglas C; Runger, George C. Applied Statistics and Probability for Engineers, Third Edition, John Wiley & Sons, 2003, Cap 11: 'Simple Linear Regression and Correlation'; págs: 372409; Cap. 12: 'Multiple Linear Regression', págs: 410467.
8. Salvatore, Dominick; Reagle, Derrick. Theory and problems of Statistics and Econometrics, McGrawHill, 2002, Cap. 6: 'Simple regression analysis', págs: 128153; Cap 7: 'Multiple regression analysis', págs: 154180; Cap 8: 'Further techniques and applications in regression analysis', págs: 181205, Cap 9: 'Problems in regression analysis', págs: 206227.
9. Marques de Sá, Joaquim P. Applied Statistics Using SPSS, STATISTICA, MATLAB and R , Second Edition, Springer, 2007, Cap 7: 'Data Regression', págs: 271328.
10. Verzani, John. Using R for Introductory Statistics, Chapman & Hall/CRC, 2005, Cap. 10: 'Linear regression', págs: 264297.
108
Bases de datos
6. ANEXO: BASES DE DATOS.BASE DE DATOS Nº1
PAÍS Y X
Albania 76,2 5323,118
Algeria 71,7 7175,777
Angola 41,7 2828,850
Antigua y Barbuda 73,9 11604,383
Argentina 74,8 13153,390
Armenia 71,7 4048,132
Australia 80,9 31317,558
Austria 79,4 32802,003
Azerbaijan 67,1 4500,316
Bahamas, The 72,3 18725,849
Bahrain 75,2 19748,035
Bangladesh 63,1 1997,948
Barbados 76,6 17169,758
Belarus 68,7 7229,542
Belgium 78,8 31158,621
Belize 75,9 7635,294
Benin 55,4 1147,382
Bhutan 64,7 3329,786
Bolivia 64,7 2839,524
Bosnia and Herzegovina 74,5 5827,264
Botswana 48,1 10866,083
Brazil 71,7 8452,691
Brunei Darussalam 76,7 24825,708
Bulgaria 72,7 9204,530
Burkina Faso 51,4 1326,183
Burundi 48,5 753,236
Côte d'Ivoire 47,4 1492,703
Cambodia 58 2116,041
Cameroon 49,8 2283,608
Canada 80,3 34550,246
Cape Verde 71 6287,127
Central African Republic 43,7 1163,041
Chad 50,4 1744,093
Chile 78,3 11536,519
China 72,5 6193,421
Colombia 72,3 7309,397
Comoros 64,1 1716,934
Congo, Democratic Republic of 45,8 675,290
Congo, Republic of 54 1379,278
Costa Rica 78,5 10316,297
Croatia 75,3 12364,02
Cyprus 79 20668,584
Czech Republic 75,9 19488,401
Denmark 77,9 34717,573
Djibouti 53,9 1957,463
Dominica 75,6 6250,069
Dominican Republic 71,5 7042,452
Ecuador 74,7 4296,540
Egypt 70,7 4281,929
El Salvador 71,3 4525,095
Equatorial Guinea 50,4 50473,514
Eritrea 56,6 916,821
Estonia 71,2 16461,257
Ethiopia 51,8 859,202
Fiji 68,3 6282,052
Finland 78,9 30817,570
i
France 80,2 29019,288
Gabon 56,2 6976,653
Gambia, The 58,8 1999,430
Georgia 70,7 3037,713
Germany 79,1 30149,652
Ghana 59,1 2600,915
Greece 78,9 21529,166
Grenada 68,2 8410,763
Guatemala 69,7 4135,536
Guinea 54,8 1985,822
GuineaBissau 45,8 755,526
Guyana 65,2 4680,530
Haiti 59,5 1687,716
Honduras 69,4 2793,077
Hong Kong SAR 81,9 32292,182
Hungary 72,9 16627,455
Iceland 81,5 35686,217
India 63,7 3315,702
Indonesia 69,7 3939,515
Iran, Islamic Republic of 70,2 8065,119
Ireland 78,4 40002,741
Israel 80,3 22944,118
Italy 80,3 29218,079
Jamaica 72,2 4470,846
Japan 82,3 31405,673
Jordan 71,9 4614,515
Kazakhstan 65,9 8252,367
Kenya 52,1 1108,224
Korea 77,9 22665,654
Kuwait 77,3 16297,267
Kyrgyz Republic 65,6 2061,020
Lao People's Democratic Republic 63,2 2049,032
Latvia 72 13059,487
Lebanon 71,5 6205,325
Lesotho 42,6 2162,916
Libya 73,4 11353,605
Lithuania 72,5 14337,639
Luxembourg 78,4 66820,651
Macedonia, Former Yugoslav Republic of 73,8 7749,249
Madagascar 58,4 910,766
Malawi 46,3 595,857
Malaysia 73,7 11159,608
Maldives 67 7639,500
Mali 53,1 1084,444
Malta 79,1 20015,440
Mauritania 63,2 2307,076
Mauritius 72,4 13028,798
Mexico 75,6 10090,420
Moldova 68,4 2261,605
Mongolia 65,9 2045,544
Morocco 70,4 4578,292
Mozambique 42,8 1335,140
Myanmar 60,8 1417,007
Namibia 51,6 6657,765
Nepal 62,6 1471,227
Netherlands 79,2 30573,938
New Zealand 79,8 24881,583
Nicaragua 71,9 2778,888
Niger 55,8 896,472
Nigeria 46,5 1187,952
Norway 79,8 41940,513
Oman 75 16299,602
Pakistan 64,6 2549,284
Panama 75,1 7052,058
ii
Bases de datos
Papua New Guinea 56,9 2414,236
Paraguay 71,3 4663,165
Peru 70,7 5872,232
Philippines 71 4770,234
Poland 75,2 13439,814
Portugal 77,7 19388,399
Qatar 75 29606,696
Romania 71,9 8257,719
Russia 65 11209,393
Rwanda 45,2 1430,504
Samoa 70,8 6389,850
Sao Tome and Principe 64,9 1638,174
Saudi Arabia 72,2 14592,097
Senegal 62,3 1914,089
St. Kitts and Nevis 70 15049,644
St. Lucia 73,1 5516,483
St. Vincent and the Grenadines 71,1 7042,385
Seychelles 72,7 12135,151
Sierra Leone 41,8 900,777
Singapore 79,4 28227,954
Slovak Republic 74,2 16110,216
Slovenia 77,4 21694,983
Solomon Islands 63 1922,463
South Africa 50,8 11345,534
Spain 80,5 24803,458
Sri Lanka 71,6 4144,734
Sudan 57,4 2416,980
Suriname 69,6 5725,517
Swaziland 40,9 5181,153
Sweden 80,5 29536,787
Switzerland 81,3 33168,045
Syrian Arab Republic 73,6 3870,846
Tajikistan 66,3 1373,340
Tanzania 51 720,154
Thailand 69,6 8542,395
Togo 57,8 1599,533
Tonga 72,8 7689,927
Trinidad and Tobago 69,2 13957,584
Tunisia 73,5 8223,289
Turkey 71,4 7958,134
Turkmenistan 62,6 7853,975
Uganda 49,7 1817,451
Ukraine 67,7 7181,610
United Arab Emirates 78,3 23722,875
United Kingdom 79 30277,126
United States 77,9 41571,061
Uruguay 75,9 9619,364
Uzbekistan 66,8 1834,398
Vanuatu 69,3 3415,355
Venezuela 73,2 5801,392
Vietnam 73,7 2782,199
Yemen 61,5 745,176
Zambia 40,5 911,352
Zimbabwe 40,9 2412,635
BASE DE DATOS Nº2
CONDADO Y X
Adams County 0,285 11,324
Boone County 0,150 9,790
DeKalb County 0,428 10,454
DuPage County 0,277 4,725
Kane County 0,538 7,782
iii
Kankakee County 1,121 12,419
Kendall County 0,104 3,669
La Salle County 0,143 10,099
Lake County 0,504 6,167
Macon County 1,371 15,390
Madison County 0,610 11,113
McHenry County 0,137 5,265
McLean County 0,782 11,615
Ogle County 0,109 7,857
Peoria County 2,290 13,079
Rock Island County 0,952 12,816
Sangamon County 1,800 12,667
St. Clair County 2,436 15,506
Tazewell County 0,267 7,789
Vermilion County 1,762 17,839
Whiteside County 0,237 10,982
Will County 0,504 5,821
Winnebago County 2,329 13,624
BASE DE DATOS Nº3
AÑO Y X
1955 31,27 2,6
1956 29,85 2,3
1957 29,72 1,9
1958 30,82 2,2
1959 26,76 2,3
1960 24,85 1,6
1961 22,32 1,3
1962 20,42 1,2
1963 18,90 1,2
1964 17,47 1,1
1965 17,11 1,1
1966 17,38 1,2
1967 16,14 1,2
1968 16,43 1,2
1969 16,37 1,2
1970 17,06 1,2
1971 17,58 1,3
1972 19,37 1,5
1973 20,02 1,3
1974 19,72 1,4
1975 21,32 2,0
1976 21,10 2,2
1977 21,89 2,1
1978 21,89 2,4
1979 22,49 2,1
1980 22,17 2,0
1981 21,91 2,3
1982 22,61 2,4
1983 28,71 2,7
1984 27,47 2,7
1985 25,81 2,6
1986 27,60 2,7
1987 25,44 2,9
1988 23,70 2,5
1989 21,38 2,2
1990 20,29 2,0
1991 20,48 2,0
1992 22,10 2,1
1993 22,08 2,4
1994 22,88 2,8
1995 23,11 3,1
iv
Bases de datos
1996 24,07 3,3
1997 25,72 3,4
1998 36,07 4,2
1999 36,12 4,8
2000 34,87 4,9
2001 33,86 5,2
2002 34,80 5,5
2003 37,51 5,5
2004 35,20 4,9
BASE DE DATOS Nº4
ESTADO Y X
Alabama 8,3 37
Alaska 5,4 30
Arizona 7,5 33
Arkansas 7,3 35
California 6,8 31
Colorado 3,3 28
Connecticut 3,1 28
Delaware 4,9 34
Florida 6,2 35
Georgia 6,4 36
Hawaii 1,6 27
Idaho 2,5 21
Illinois 6,1 31
Indiana 5,8 32
Iowa 1,8 26
Kansas 4,6 28
Kentucky 4,0 33
Louisiana 12,4 41
Maine 1,7 31
Maryland 9,7 32
Massachusetts 2,9 28
Michigan 7,1 32
Minnesota 2,4 25
Mississippi 7,7 45
Missouri 6,3 32
Montana 1,8 25
Nebraska 2,8 25
Nevada 9,0 34
New Hampshire 1,0 25
New Jersey 4,9 28
New Mexico 6,8 37
New York 4,8 34
North Carolina 6,1 35
North Dakota 1,3 24
Ohio 4,7 33
Oklahoma 5,8 34
Oregon 2,3 29
Pennsylvania 5,9 31
Rhode Island 2,6 35
South Carolina 8,3 40
South Dakota 1,2 27
Tennessee 6,8 35
Texas 5,9 33
Utah 1,8 18
Vermont 1,9 29
Virginia 5,2 29
Washington 3,0 29
West Virginia 4,1 31
Wisconsin 3,0 28
Wyoming 1,7 27
v
BASE DE DATOS Nº5
COMUNA Y X
Santiago 7,3 13,1
Cerrillos 8,3 10,4
Cerro Navia 17,5 9,1
Conchalí 8,0 10,1
El Bosque 15,8 9,7
Estación Central 7,3 10,5
Huechuraba 14,5 9,9
Independencia 6,0 11,3
La Cisterna 8,6 11,6
La Florida 9,6 11,3
La Granja 14,2 9,5
La Pintana 17,2 8,8
La Reina 7,8 12,4
Las Condes 2,3 14,3
Lo Barnechea 8,1 11,1
Lo Espejo 20,1 9,7
Lo Prado 11,6 10,1
Macul 13,4 10,9
Maipú 9,1 11,4
Ñuñoa 4,3 13,4
Pedro Aguirre Cerda 6,3 9,8
Peñalolén 8,7 9,9
Providencia 3,5 13,8
Pudahuel 7,1 10,3
Puente Alto 10,6 10,7
Quinta Normal 10,8 10,5
Quilicura 6,7 11,1
Recoleta 12,4 10,2
Renca 19,2 10,0
San Bernardo 20,9 9,7
San Joaquín 7,4 10,7
San Miguel 2,5 12,3
San Ramón 16,7 9,6
Vitacura 4,4 14,6
BASE DE DATOS Nº6
COMUNA Y X X X
Santiago 13,1 7,3 283 6,2
Cerrillos 10,4 8,3 259 9,3
Cerro Navia 9,1 17,5 215 9,4
Conchalí 10,1 8,0 236 4,9
El Bosque 9,7 15,8 231 10,3
Estación Central 10,5 7,3 251 8,8
Huechuraba 9,9 14,5 238 9,1
Independencia 11,3 6,0 225 5,9
La Cisterna 11,6 8,6 237 7,8
La Florida 11,3 9,6 259 5,7
La Granja 9,5 14,2 240 10,2
La Pintana 8,8 17,2 233 11
La Reina 12,4 7,8 286 8,3
Las Condes 14,3 2,3 314 3,8
Lo Barnechea 11,1 8,1 296 3,4
Lo Espejo 9,7 20,1 205 6,8
Lo Prado 10,1 11,6 209 9,5
Macul 10,9 13,4 250 6,5
Maipú 11,4 9,1 261 7,3
Ñuñoa 13,4 4,3 265 5,3
vi
Bases de datos
BASE DE DATOS Nº6
Pedro Aguirre Cerda 9,8 6,3 235 11,6
Peñalolén 9,9 8,7 244 6,5
Providencia 13,8 3,5 319 5,5
Pudahuel 10,3 7,1 220 6,1
Puente Alto 10,7 10,6 246 6,3
Quinta Normal 10,5 10,8 237 8,9
Quilicura 11,1 6,7 243 7,9
Recoleta 10,2 12,4 242 6,6
Renca 10,0 19,2 250 6,7
San Bernardo 9,7 20,9 246 8,6
San Joaquín 10,7 7,4 233 7,4
San Miguel 12,3 2,5 237 4,6
San Ramón 9,6 16,7 245 7,9
Vitacura 14,6 4,4 325 3,2
BASE DE DATOS Nº7
PAÍS Y X X
Afghanistan 43,6 1054 0,35
Albania 76,5 7041 0,89
Algeria 72,2 7740 0,75
Angola 46,5 5385 0,67
Argentina 75,2 13238 0,95
Armenia 73,6 5693 0,91
Australia 81,4 34923 0,99
Austria 79,9 37370 0,96
Azerbaijan 70 7851 0,88
Bahamas 73,2 20253 0,88
Bahrain 75,6 29723 0,89
Bangladesh 65,7 1241 0,53
Barbados 77 17956 0,98
Belarus 69 10841 0,96
Belgium 79,5 34935 0,97
Belize 76 6734 0,76
Benin 61 1312 0,45
Bhutan 65,7 4837 0,53
Bolivia 65,4 4206 0,89
Bosnia and Herzegovina 75,1 7764 0,87
Botswana 53,4 13604 0,79
Brazil 72,2 9567 0,89
Brunei Darussalam 77 50200 0,89
Bulgaria 73,1 11222 0,93
Burkina Faso 52,7 1124 0,3
Burundi 50,1 341 0,56
Côte d'Ivoire 56,8 1690 0,45
Cambodia 60,6 1802 0,7
Cameroon 50,9 2128 0,63
Canada 80,6 35812 0,99
Cape Verde 71,1 3041 0,79
Central African Republic 46,7 713 0,42
Chad 48,6 1477 0,33
Chile 78,5 13880 0,92
China 72,9 5383 0,85
Colombia 72,7 8587 0,88
Comoros 64,9 1143 0,66
Congo 53,5 3511 0,74
Congo (Democratic Republic of the) 47,6 298 0,61
Costa Rica 78,7 10842 0,88
Croatia 76 16027 0,92
Cuba 78,5 6876 0,99
Cyprus 79,6 24789 0,91
Czech Republic 76,4 24144 0,94
vii
BASE DE DATOS Nº7
Denmark 78,2 36130 0,99
Djibouti 55,1 2061 0,55
Dominican Republic 72,4 6706 0,84
Ecuador 75 7449 0,87
Egypt 69,9 5349 0,7
El Salvador 71,3 5804 0,79
Equatorial Guinea 49,9 30627 0,79
Eritrea 59,2 626 0,54
Estonia 72,9 20361 0,96
Ethiopia 54,7 779 0,4
Fiji 68,7 4304 0,87
Finland 79,5 34526 0,99
France 81 33674 0,98
Gabon 60,1 15167 0,84
Gambia 55,7 1225 0,44
Georgia 71,6 4662 0,92
Germany 79,8 34401 0,95
Ghana 56,5 1334 0,62
Greece 79,1 28517 0,98
Grenada 75,3 7344 0,88
Guatemala 70,1 4562 0,72
Guinea 57,3 1140 0,36
GuineaBissau 47,5 477 0,55
Guyana 66,5 2782 0,94
Haiti 61 1155 0,59
Honduras 72 3796 0,81
Hong Kong, China (SAR) 82,2 42306 0,88
Hungary 73,3 18755 0,96
Iceland 81,7 35742 0,98
India 63,4 2753 0,64
Indonesia 70,5 3712 0,84
Iran (Islamic Republic of) 71,2 10955 0,79
Ireland 79,7 44613 0,99
Israel 80,7 26315 0,95
Italy 81,1 30353 0,97
Jamaica 71,7 6079 0,83
Japan 82,7 33632 0,95
Jordan 72,4 4901 0,87
Kazakhstan 64,9 10863 0,97
Kenya 53,6 1542 0,69
Korea (Republic of) 79,2 24801 0,99
Kuwait 77,5 47812 0,87
Kyrgyzstan 67,6 2006 0,92
Lao People's Democratic Republic 64,6 2165 0,68
Latvia 72,3 16377 0,96
Lebanon 71,9 10109 0,86
Lesotho 44,9 1541 0,75
Liberia 57,9 362 0,56
Libyan Arab Jamahiriya 73,8 14364 0,9
Lithuania 71,8 17575 0,97
Luxembourg 79,4 79485 0,98
Macedonia (the Former Yugoslav Rep. of) 74,1 9096 0,88
Madagascar 59,9 932 0,68
Malawi 52,4 761 0,69
Malaysia 74,1 13518 0,85
Maldives 71,1 5196 0,89
Mali 48,1 1083 0,33
Malta 79,6 23080 0,89
Mauritania 56,6 1927 0,54
Mauritius 72,1 11296 0,84
Mexico 76 14104 0,89
Moldova 68,3 2551 0,9
Mongolia 66,2 3236 0,91
viii
Bases de datos
BASE DE DATOS Nº7
Montenegro 74 11699 0,89
Morocco 71 4108 0,57
Mozambique 47,8 802 0,48
Myanmar 61,2 904 0,79
Namibia 60,4 5155 0,81
Nepal 66,3 1049 0,58
Netherlands 79,8 38694 0,99
New Zealand 80,1 27336 0,99
Nicaragua 72,7 2570 0,76
Niger 50,8 627 0,28
Nigeria 47,7 1969 0,66
Norway 80,5 53433 0,99
Oman 75,5 22816 0,79
Pakistan 66,2 2496 0,49
Panama 75,5 11391 0,89
Papua New Guinea 60,7 2084 0,52
Paraguay 71,7 4433 0,87
Peru 73 7836 0,89
Philippines 71,6 3406 0,89
Poland 75,5 15987 0,95
Portugal 78,6 22765 0,93
Qatar 75,5 74882 0,89
Romania 72,5 12369 0,92
Russian Federation 66,2 14690 0,93
Rwanda 49,7 866 0,61
Saint Lucia 73,6 9786 0,89
Saint Vincent and the Grenadines 71,4 7691 0,82
Samoa 71,4 4467 0,91
Sao Tome and Principe 65,4 1638 0,81
Saudi Arabia 72,7 22935 0,83
Senegal 55,4 1666 0,42
Serbia 73,9 10248 0,89
Sierra Leone 47,3 679 0,4
Singapore 80,2 49704 0,91
Slovakia 74,6 20076 0,93
Slovenia 78,2 26753 0,97
Solomon Islands 65,8 1725 0,68
South Africa 51,5 9757 0,84
Spain 80,7 31560 0,98
Sri Lanka 74 4243 0,83
Sudan 57,9 2086 0,54
Suriname 68,8 7813 0,85
Swaziland 45,3 4789 0,73
Sweden 80,8 36712 0,97
Switzerland 81,7 40658 0,94
Syrian Arab Republic 74,1 4511 0,77
Tajikistan 66,4 1753 0,9
Tanzania (United Republic of) 55 1208 0,67
Thailand 68,7 8135 0,89
TimorLeste 60,7 717 0,55
Togo 62,2 788 0,53
Tonga 71,7 3748 0,92
Trinidad and Tobago 69,2 23507 0,86
Tunisia 73,8 7520 0,77
Turkey 71,7 12955 0,83
Turkmenistan 64,6 4953 0,91
Uganda 51,9 1059 0,7
Ukraine 68,2 6914 0,96
United Arab Emirates 77,3 54626 0,84
United Kingdom 79,3 35130 0,96
United States 79,1 45592 0,97
Uruguay 76,1 11216 0,96
Uzbekistan 67,6 2425 0,89
ix
BASE DE DATOS Nº7
Vanuatu 69,9 3666 0,73
Venezuela 73,6 12156 0,92
Viet Nam 74,3 2600 0,81
Yemen 62,5 2335 0,57
Zambia 44,5 1358 0,68
BASE DE DATOS Nº8
ESTADO Y X X
Alabama 90 15,73 37
Alaska 73 15,61 30
Arizona 104 18,47 33
Arkansas 93 15,65 35
California 96 15,24 31
Colorado 82 19,47 28
Connecticut 70 17,21 28
Delaware 93 18,26 34
District of Columbia 128 13,68 62
Florida 97 17,75 35
Georgia 95 14,36 36
Hawaii 93 16,11 27
Idaho 62 16,56 21
Illinois 87 18,95 31
Indiana 73 18,92 32
Iowa 55 20,50 26
Kansas 69 20,63 28
Kentucky 76 17,59 33
Louisiana 87 19,04 41
Maine 52 17,02 31
Maryland 91 18,33 32
Massachusetts 60 20,16 28
Michigan 75 19,57 32
Minnesota 50 19,45 25
Mississippi 103 17,18 45
Missouri 74 19,53 32
Montana 60 23,15 25
Nebraska 59 21,64 25
Nevada 113 18,69 34
New Hampshire 47 18,41 25
New Jersey 90 17,99 28
New Mexico 103 20,00 37
New York 91 19,13 34
North Carolina 95 17,27 35
North Dakota 42 24,67 24
Ohio 74 17,62 33
Oklahoma 86 15,42 34
Oregon 79 15,95 29
Pennsylvania 60 18,26 31
Rhode Island 67 23,22 35
South Carolina 89 14,68 40
South Dakota 54 23,22 27
Tennessee 89 14,04 35
Texas 101 17,57 33
Utah 53 11,79 18
Vermont 44 21,46 29
Virginia 72 18,28 29
Washington 75 16,26 29
West Virginia 67 20,12 62
Wisconsin 55 18,70 31
Wyoming 77 18,99 28
x
Bases de datos
BASE DE DATOS Nº9
Año Y X
1960 328200 107840
1961 336000 106670
1962 366800 110860
1963 408300 116470
1964 472800 130390
1965 496900 138690
1966 561200 157990
1967 659800 202910
1968 783600 262840
1969 878500 298850
1970 928400 349860
1971 948200 387700
1972 887200 376290
1973 928800 384220
1974 977100 442400
1975 1009600 470500
1976 966000 427810
1977 977700 412610
1978 1004100 426930
1979 1112800 480700
1980 1131700 565840
1981 1087800 592910
1982 1062400 553130
1983 1007900 506570
1984 1032200 485010
1985 1102900 497870
1986 1224137 542775
1987 1288674 517704
1988 1432900 542970
1989 1564800 578330
1990 1635900 639270
1991 1661700 687730
1992 1610800 672480
1993 1563100 659870
1994 1539300 618950
1995 1472400 580510
1996 1394200 535590
1997 1354189 498534
1998 1240754 446625
1999 1152075 409371
2000 1160002 408016
2001 1228391 423557
2002 1246646 420806
2003 1261226 414235
2004 1237851 401470
2005 1235859 417438
2006 1192809 447403
2007 1095769 445125
BASE DE DATOS Nº10
Y X
Agencia
Adelanto Police Dept 532,7 2639,4
Agoura Hills 213,4 1515,3
Alameda County Sheriff Dept 562,1 2357,2
Alameda Police Dept 291 2805
Albany Police Dept 283,2 4883,9
Alhambra Police Dept 324,9 2416,5
Aliso Viejo 74,4 1261,7
xi
BASE DE DATOS Nº10
American Canyon 299,1 2539,1
Anaheim Police Dept 424,6 2625,2
Anderson Police Dept 423,4 4120,8
Antioch Police Dept 843,4 3061,6
Apple Valley 377,8 2670,9
Arcadia Police Dept 273,8 2991,2
Arcata Police Dept 301,3 3095,3
Arroyo Grande Police Dept 157,7 2220,2
Artesia 517,9 2077,4
Arvin Police Dept 689,5 4222,5
Atascadero Police Dept 385,9 2057,2
Atwater Police Dept 371 3677,7
Auburn Police Dept 374,8 2853,4
Avenal 256,2 774,4
Azusa Police Dept 434,6 2685,5
Bakersfield Police Dept 615,2 5037,9
Baldwin Park Police Dept 356 2424,5
Banning Police Dept 692,9 2549,5
Barstow Police Dept 1406,7 5046,5
Beaumont Police Dept 152,9 2193,2
Bell Police Dept 467,7 1552,6
Bell Gardens Police Dept 479,6 1896,5
Bellflower 680,1 3385,9
Belmont Police Dept 97,5 1450,9
Benicia Police Dept 214,7 1789,5
Berkeley Police Dept 630,5 7021,7
Beverly Hills Police Dept 446,9 3327,4
Blythe Police Dept 436,2 2612,8
Brawley Police Dept 282,4 5126,6
Brea Police Dept 197,2 3875,4
Brentwood Police Dept 237,4 2433,1
Buena Park Police Dept 396,8 2576
Burbank Police Dept 261,3 2638,5
Burlingame Police Dept 207,4 3084,9
Butte County Sheriff Department 230,9 1598,6
Calabasas 70,5 1731,8
Calaveras County Sheriff Department 107,9 1422,7
Calexico Police Dept 241,5 3283
California City Police Dept 453,8 2239,1
Camarillo 148,6 1679,4
Campbell Police Dept 269,8 4045
Canyon Lake 199,2 1472,6
Carslbad Police Dept 334,5 2575,3
Carpinteria 209,1 1695
Carson 724,9 2760,7
Cathedral City Police Dept 378,1 3312,1
Ceres Dept Of Public Safety 442,1 4732,1
Cerritos 263 3583,5
Chico Police Dept 518,3 3303,4
Chino Police Dept 287,5 3097,9
Chino Hills 96,8 1452,6
Chowchilla Police Dept 111,9 1726
Chula Vista Police Dept 421,1 3328
Claremont Police Dept 246,8 2766
Clayton Police Dept 80 1466,4
Clearlake Police Dept 442,7 4321,7
Clovis Police Dept 143,6 3070,5
Coachella Police Dept 782,3 4041
Coalinga Police Dept 522,4 2797,6
Colton Police Dept 471,8 3715
Commerce 1089,8 8316,3
Compton Police Dept 1690,8 2922,2
Concord Police Dept 402,6 4089,9
xii
Bases de datos
BASE DE DATOS Nº10
Contra Costa County Sheriff Department 428,5 2253,5
Corcoran Police Dept 189,8 910,8
Corona Police Dept 221,5 2619,9
Coronado Police Dept 96,7 1989,7
Costa Mesa Police Dept 234,9 3037,3
Covina Police Dept 450,4 3846,9
Cudahy 573,1 2236,2
Culver City Police Dept 458,5 3696,1
Cupertino 100 1579,2
Cypress Police Dept 201,1 1925
Daly City Police Dept 291,2 2097,7
Dana Point 130,4 1531,2
Danville 53 1549,3
Davis Police Dept 276 3463,5
Delano Police Dept 541,8 3579,2
Desert Hot Springs 1155,3 7191,3
Diamond Bar 229,5 1825,6
Dinuba Police Dept 662,5 4762,6
Dixon Police Dept 408,2 4585,4
Downey Police Dept 470,6 3553,4
Duarte 377,4 2350
Dublin 173,7 1728
East Palo Alto Police Dept 785,9 2071,7
El Cajon Police Dept 541,1 4328,5
El Centro Police Dept 649,5 5059
El Cerrito Police Dept 786,2 5085,7
El Dorado County Sheriff Department 161,8 1394,5
El Monte Police Dept 552,4 2262,8
El Segundo Police Dept 217,7 4693,6
Encinitas 267,6 1925,1
Escondido Police Dept 492,4 3244,4
Eureka Police Dept 998,1 5984,9
Exeter Police Dept 203,7 3095
Fairfield Police Dept 595,7 4101,9
Farmersville Police Dept 538,2 2377,9
Fillmore 341,7 2010,6
Folsom Police Dept 143,4 2333,1
Fontana Police Dept 507,7 2352,5
Fortuna Police Dept 212,2 3332,7
Foster City Police Dept 76 1661
Fountain Valley Police Dept 198,3 2578
Fremont Police Dept 301 2569,6
Fresno County Sheriff Department 329,5 3464,3
Fresno Police Dept 644,5 4441
Fullerton Police Dept 348,9 3083,9
Galt Police Dept 392,2 3705,1
Garden Grove Police Dept 387,6 2495
Gardena Police Dept 747,3 2381,9
Gilroy Dept Of Public Safety 508,7 4085,7
Glendale Police Dept 187,5 1833,1
Glendora Police Dept 164,4 2958,7
Goleta 181,2 1289,2
Grand Terrace 178,4 1962,1
Grass Valley Police Dept 526,9 2938,1
Greenfield Police Dept 911,4 3728,3
Grover Beach Police Dept 697,4 2162,8
Half Moon Bay Police Dept 169,8 2069,5
Hanford Police Dept 303,9 3368,6
Hawaiian Gardens Police Dept 960,7 2624,1
Hawthorne Police Dept 893,6 2326,9
Hayward Police Dept 626,6 3319,3
Healdsburg Police Dept 173,4 2546,8
Hemet Police Dept 666,9 4339,7
xiii
BASE DE DATOS Nº10
Hercules Police Dept 198,9 1911,4
Hermosa Beach Police Dept 340,5 2805,4
Hesperia 371,2 2326,2
Highland 618,1 2540,8
Hillsborough Police Dept 18,7 888,1
Hollister Police Dept 541,7 2465,7
Humboldt County Sheriff Department 199,9 1313,8
Huntington Beach Police Dept 192,8 2068,5
Huntington Park Police Dept 968,4 4459,7
Imperial County Sheriff Department 338,1 3014,2
Imperial Police Dept 40 1663,2
Indio Police Dept 427,3 3455,1
Inglewood Police Dept 899,1 2592,4
Irvine Police Police 70,8 1612,9
Kerman Police Dept 218,8 2743,3
Kern County Sheriff Department 571,2 3276,3
King City Police Dept 676,3 3096,9
Kings County Sheriff Department 337,7 1374,6
Kingsburg Police Dept 121,9 3849,2
La CanadaFlintridge 118,6 2044,7
La Habra Police Dept 352,5 2447,3
Lamesa Police Dept 450,7 4231
La Mirada 229,3 2153,8
La Palma Police Dept 284,4 1870,9
La Puente 533,9 1806,1
La Quinta 469,3 3637,8
La Verne Police Dept 244,4 2447,2
Lafayette 100 1731,5
Laguna Beach Police Dept 202,4 2044,2
Laguna Hills 171 1998,6
Laguena Niguel 72,3 1022,4
Laguna Woods 16,4 502,4
Lake County Sheriff Department 318,8 1635
Lake Elsinore 383,8 3456,6
Lake Forest 121,8 1377,7
Lakewood 570,3 3092,2
Lancaster 909,1 3506
Lawndale 770,6 1553,7
Lemon Grove 670,3 2491,5
Lemoore Police Dept 336,7 3124,3
Lincoln Police Dept 114,3 965,4
Lindsay Police Dept 686,5 3716,2
Livermore Police Dept 210,6 2578,1
Livingston Police Dept 730,1 3003,2
Lodi Police Dept 363,8 4369
Loma Linda 129,4 2832,6
Lomita 603,7 2088,7
Lompoc Police Dept 685,2 2194,1
Long Beach Police Dept 722,8 2738,4
Los Alamitos Police Dept 290 2899,8
Los Altos Police Dept 65,6 1067,4
Los Angeles County Sheriff Department 784,3 2067,2
Los Angeles Police Dept 718,4 2621,3
Los Banos Dept Of Public Safety 393,1 2618,8
Los Gatos Police Dept 123,6 2206,9
Lynwood 1012,4 2593,5
Madera County Sheriff Department 423,5 1751,5
Madera Police Dept 730,7 2239,6
Malibu 218,7 2435,3
Manhattan Beach Police Dept 145,7 2771,1
Manteca Police Dept 367,5 4019,3
Marin County Sheriff Department 199,3 1260
Marina Dept Of Public Safety 277 3246,9
xiv
Bases de datos
BASE DE DATOS Nº10
Martinez Police Dept 343,3 3326
Marysville Police Dept 1403 4864,3
Maywood Police Dept 607,7 1548,8
Mendocino County Sheriff Department 527,5 1184
Menlo Park Police Dept 247,8 1875
Merced County Sheriff Department 540,7 2685,3
Merced Police Dept 781,5 4887,1
Mill Valley Police Dept 120,5 1385,5
Millbrae Police Dept 190,9 1684,2
Milpitas Police Dept 277,5 3262,1
Mission Viejo 86,2 1380,7
Modesto Police Dept 716,1 5781,8
Monrovia Police Dept 353,9 2951,7
Montclair Police Dept 654,7 6536,1
Montebello Police Dept 383,7 3088,6
Monterey County Sheriff Department 222,5 1983,6
Monterey Police Dept 578,9 4453,5
Monterey Park Police Dept 313,7 2064,9
Moorpark 113,1 1597
Moraga Police Dept 88,1 1497
Moreno Valley 538,2 3348,8
Morgan Hill Police Dept 230,7 2435,8
Morro Bay Police Dept 207,9 1514,9
Mountain View Police Dept 340 2170
City Of Murrieta Police Dept 120,3 1993,9
Napa County Sheriff Department 291,9 2076,8
Napa Police Dept 382,6 3123,6
National City Police Dept 683,9 3498,6
Nevada County Sheriff Department 197,1 891,3
Newark Police Dept 536,1 4119,1
Newman Police Dept 345 3162,1
Newport Beach Police Dept 214 2771,9
Norco 345,8 3429,3
Norwalk 576,3 2497,9
Novato Police Dept 301,5 2289,4
Oakdale Police Dept 246,4 5233,8
Oakland Police Dept 1917,8 5967,6
Oakley 399,3 2518,6
Oceanside 546,8 2756,8
Ontario Police Dept 486,5 3332,6
Orange County Sheriff Department 161,9 1347,3
Orange Police Dept 195,9 2244,9
Orinda 70,5 1669,5
Oroville Police Dept 1458,1 7570,5
Oxnard Police Dept 453,4 2293,9
Pacific Grove Police Dept 155,7 2626,6
Pacifica Police Dept 199,1 1683,9
Palm Desert 192,1 6083,1
Palm Springs Police Dept 632,4 7249,4
Palmdale 733,9 3027
Palo Alto Police Dept 110,9 2495,8
Palos Verdes Estates Police Dept 28,9 1178,8
Paradise Police Dept 208,5 2861,9
Paramount 854,7 3426,1
Parlier Police Dept 926 3278,3
Pasadena Police Dept 511,2 2957
Paso Robles Police Dept 372,1 3267,8
Patterson Police Dept 265 3109,1
Perris 625,6 4201,4
Petaluma Police Dept 413,7 1892,9
Pico Rivera 397,2 2418,9
Piedmont Police Dept 95,4 1975,6
Pinole Police Dept 594,4 4202,9
xv
BASE DE DATOS Nº10
Pittsburg Police Dept 391,2 3758,2
Placentia Police Dept 178,5 1407,9
Placer County Sheriff Department 227,8 1784
Placerville Police Dept 700,1 2317,1
Pleasant Hill Police Dept 376,1 4835,6
Pleasanton Police Dept 94,4 1939,8
Pomona Police Dept 795,9 3358,4
Port Hueneme Police Dept 426,5 1825,4
Porterville Police Dept 619,9 5038,5
Poway 212 1561,2
Rancho Cucamonga 211,6 2211,8
Rancho Mirage 156,1 6170,1
Rancho Palos Verdes 98 1283,3
Rancho Santa Margari 58,8 1054,4
Red Bluff Police Dept 970,9 4790,6
Redding Police Dept 498,2 2896,2
Redlands Police Dept 424,6 3510,5
Redondo Beach Police Dept 301,9 2406,2
Redwood City Police Dept 457,5 2300
Reedley Police Dept 588,8 3026,2
Rialto Police Dept 743,6 2270,8
Richmond Police Dept 1190,6 5374,2
Ridgecrest Police Dept 576,8 2356,6
Ripon Police Dept 245,2 2608,5
Riverbank 303,4 3967,6
Riverside County Sheriff Department 407 2709,7
Riverside Police Dept 632,5 3726,5
Rocklin Police Dept 193 2094,5
Rohnert Park Dept Of Public Safety 579,9 2322
Rosemead 456,6 2524,1
Roseville Police Dept 347,1 3551,7
Sacramento County Sheriff Department 465,4 2147,8
Sacramento Police Dept 1113,5 5297,8
Salinas Police Dept 794,5 4735,3
San Anselmo Police Dept 216,8 2342,6
San Bernardino County Sheriff Department 445,2 2274,1
San Bernardino Police Dept 1070,7 5024,7
San Bruno Police Dept 270,3 2057,1
San Carlos Police Dept 130,1 1676,5
San Clemente 132,3 1242
San Diego County Sheriff Department 393,8 1753,4
San Diego Police Dept 502,1 3502
San Dimas 229 2507,7
San Fernando Police Dept 533,3 1938,9
San Francisco Police Dept 874,1 4695,6
San Gabriel Police Dept 473,5 1869,6
San Jacinto Police Dept 426,4 3278,8
San Joaquin County Sheriff Department 711,7 3469
San Jose Police Dept 402,2 2574,7
San Juan Capistrano 191,6 1401
San Leandro Police Dept 703,2 5114,1
San Luis Obispo County Sheriff Department 217,4 1233,6
San Luis Obispo Police Dept 392,7 4315
San Marino Police Dept 122 2036,3
San Mateo County Sheriff Department 369,8 2483,2
San Mateo Police Dept 334,6 2267
San Pablo Police Dept 1008,3 5436,2
San Rafael Police Dept 500,1 3148,9
San Ramon 107,4 2091,7
Sanger Police Dept 367,4 2814
Santa Ana Police Dept 572,3 2291,7
Santa Barbara County Sheriff Department 150,7 1251,3
Santa Barbara Police Dept 522,7 2674,4
xvi
Bases de datos
BASE DE DATOS Nº10
Santa Clara County Sheriff Department 382,1 2091,5
Santa Clara Police Dept 211,1 3134,7
Santa Clarita 218,3 2219,1
Santa Cruz County Sheriff Department 208,6 1952,3
Santa Cruz Police Dept 880,5 4452,1
Santa Fe Springs 796,2 8804,6
Santa Maria Police Dept 704,1 3049,6
Santa Monica Police Dept 672,8 3508,5
Santa Paula Police Dept 347,1 2514,2
Santa Rosa Police Dept 497,6 2408,5
Santee 280,2 2172,9
Saratoga 96,5 997,8
Scotts Valley Police Dept 99 2420,4
Seal Beach Police Beach 151,7 1665,1
Seaside Police Dept 637,4 2081,6
Selma Police Dept 384 4595,5
Shafter Police Dept 446,9 4009,2
Shasta County Sheriff Department 441,6 1224,9
Sierra Madre Police Dept 99,7 1541,1
Signal Hill Police Dept 532,4 4037,3
Simi Valley Police Dept 147,5 1942,5
Solana Beach 206,3 2150,6
Soledad Police Dept 306 1614,4
Sonoma County Sheriff Department 364,1 1199,3
South El Monte 663,7 2954,5
South Gate Police Dept 584,6 2959,4
South Lake Tahoe Police Dept 682,8 2526
South Pasadena Police Dept 144,2 1746,3
South San Francisco Police Dept 288 2549,7
Stanislaus County Sheriff Department 715,4 3513,7
Stanton 448,7 1959,3
Stockton Police Dept 1418,7 6285
Suisun City Police Dept 533,1 2713,8
Sunnyvale Dept Of Public Safety 118,2 2017,2
Susanville Police Dept 373,8 2088,8
Sutter County Sheriff Department 403,8 3054,7
Tehama County Sheriff Department 473,1 1025,1
Temecula 221 2833,5
Temple City 220,5 1808,2
Thousand Oaks 116,6 1551,2
Torrance Police Dept 239,9 2229,1
Tracy Police Dept 161,6 3016
Truckee 359,7 1902
Tulare County Sheriff Department 327,7 1894,4
Tulare Police Dept 809,7 4202,3
Tuolumne County Sheriff Department 207,5 1680,9
Turlock Police Dept 708,9 5090,5
Tustin Police Dept 195,9 2251,8
TwentyNine Palms 311,4 1599
Twin Cities Police Dept 90,3 2636,6
Ukiah Dept Of Public Safety 872 3084,5
Union City Police Dept 643,6 2898,1
Upland Police Dept 393 3688,1
Vacaville Police Dept 282,3 2185,3
Vallejo Police Dept 932,7 5192,6
Ventura County Sheriff Department 208,6 1477,1
Ventura Police Dept 352,1 3661,4
Victorville 629,3 3851,4
Visalia Police Dept 571,2 4456,8
Walnut 177,9 1747,7
Walnut Creek Police Dept 141,6 4068,1
Watsonville Police Dept 809,7 4642
West Covina Police Dept 362,6 3575,5
xvii
BASE DE DATOS Nº10
West Hollywood 923,4 3906,7
West Sacramento Police Dept 802,2 2997,1
Westminster Police Dept 395,8 2962,1
Whittier Police Dept 404,6 2770,2
Windsor 339,4 1283,5
Woodland Police Dept 299,9 3518,6
Yorba Linda 66,4 1556,2
Yuba County Sheriff Dept 398,6 2043,4
Yuba City Police Dept 395,9 3091,4
Yucaipa 100,7 1770,5
Yucca Valley 354,7 2698,3
BASE DE DATOS Nº 11
Estado Y X
Alabama 32,2 70,5
Alaska 27 75,9
Arizona 25,5 76,8
Arkansas 29,5 70,2
California 24,2 76,6
Colorado 19,1 81,1
Connecticut 21,4 77,5
Delaware 27,7 75,8
District of Columbia 22,3 78,8
Florida 25,1 74
Georgia 27,8 76,9
Guam 27 73,6
Hawaii 23,1 80,4
Idaho 25,1 78,8
Illinois 26,8 72
Indiana 26,9 72,2
Iowa 26,7 74,9
Kansas 28 74,4
Kentucky 30,2 69,5
Louisiana 28,9 70,1
Maine 25,8 77,1
Maryland 26,6 76
Massachusetts 21,4 77,9
Michigan 29,5 74,8
Minnesota 25,1 81,9
Mississippi 33,3 67,4
Missouri 29 72,4
Montana 24,2 76,8
Nebraska 27,2 75,3
Nevada 25,6 72,4
New Hampshire 24,8 78,5
New Jersey 23,5 73
New Mexico 25,7 76
New York 25,1 73,6
North Carolina 29,5 75,3
North Dakota 27,7 74,4
Ohio 29,2 73,9
Oklahoma 30,9 68,5
Oregon 24,9 80,9
Pennsylvania 28,3 74,2
Rhode Island 22 75,7
South Carolina 30,6 72,8
South Dakota 28,1 73,1
Tennessee 31,2 71
Texas 28,9 71,5
Utah 23,1 80,2
Vermont 23,2 80,5
xviii
Bases de datos
BASE DE DATOS Nº 11
Virginia 25,7 76,4
Virgin Islands 26,5 66,8
Washington 26 80,6
West Virginia 31,9 68,9
Wisconsin 26 77,9
Wyoming 25,2 75,6
BASE DE DATOS Nº12
Municipio Y X X
Acacoyagua 0.483 0.41 18
Acala 0.356 9.93 27
Acapetahua 0.672 0.35 21
Altamirano 0.984 40.75 38
Amatán 1.745 14.76 34
Amatenango de la Frontera 0.723 2.91 25
Amatenango del Valle 2.002 53.48 47
Angel Albino Corzo 0.868 2.91 27
Arriaga 0.298 1.22 15
Bejucal de Ocampo 1.279 0.84 19
Bella Vista 0.761 1.11 13
Berriozábal 0.170 3.62 22
Bochil 0.470 42.07 30
El Bosque 1.065 63.79 43
Cacahoatán 0.091 1.8 19
Catazajá 0.494 1.8 20
Cintalapa 0.147 5.23 18
Coapilla 0.912 13.81 24
Comitán de Domínguez 0.422 3.58 18
La Concordia 1.082 5.24 28
Copainalá 0.443 9.17 17
Chalchihuitán 2.344 80.89 51
Chamula 1.872 82.74 58
Chanal 1.686 72.81 47
Chapultenango 0.815 66.62 30
Chenalho 1.781 69.35 43
Chiapa de Corzo 0.014 4.38 20
Chiapilla 0.781 4.39 37
Chicoasén 0.054 9.57 18
Chicomuselo 1.042 0.34 25
Chilón 2.143 64.86 46
Escuintla 0.595 0.56 19
Francisco León 1.589 64.3 36
Frontera Comalapa 0.130 1.72 16
Frontera Hidalgo 0.508 0.26 23
La Grandeza 0.915 1.46 15
Huehuetán 0.577 0.28 21
Huixtán 1.569 76.46 37
Huitiupan 1.653 58.59 38
Huixtla 0.157 0.62 15
La Independencia 0.636 3.77 22
Ixhuatan 0.864 35.34 30
Ixtacomitán 0.630 16.73 20
Ixtapa 0.493 20.36 26
Ixtapangajoya 1.218 11 24
Jiquipilas 0.258 4.42 17
Jitotol 0.946 60.31 35
Juarez 0.273 4.26 19
Larrainzar 1.654 63.04 41
La Libertad 0.489 1.38 16
Mapastepec 0.227 0.51 21
Las Margaritas 1.126 40.38 35
xix
BASE DE DATOS Nº12
Mazapa de Madero 0.689 3.61 12
Mazatán 0.626 0.44 19
Metapa 0.124 0.42 18
Mitontic 2.039 78.97 62
Motozintla 0.575 2.08 15
Nicolas Ruiz 1.287 0 0
Ocosingo 1.448 49.76 34
Ocotepec 1.609 80.11 49
Ocozocoautla de espinosa 0.419 14.54 21
Ostuacán 1.127 4.81 26
Osumacinta 0.055 8.72 13
Oxchuc 1.779 80.75 31
Palenque 0.597 33.6 24
Pantelhó 2.252 68.23 52
Pantepec 1.364 44.35 45
Pichucalco 0.250 1.64 21
Pijijiapan 0.487 1.11 20
El Porvenir 1.176 6.32 15
Villa Comaltitlán 0.764 0.73 21
Pueblo Nuevo Solistahuacán 1.176 39.75 42
Rayón 0.714 33.41 34
Reforma 0.780 0.97 12
Las Rosas 1.073 7.01 39
Sabanilla 1.510 63.72 36
Salto de Agua 1.683 69.18 40
San Cristobal de las Casas 0.626 32.02 18
San Fernando 0.279 1.77 23
Siltepec 1.290 0.44 25
Simojovel 1.344 48.61 45
Sitalá 3.345 44.77 60
Socoltenango 1.011 7.03 32
Solosuchiapa 0.906 13.18 26
Soyaló 0.545 26.32 31
Suchiapa 0.018 0.51 24
Suchiate 0.454 0.37 22
Sunuapa 1.046 0.83 26
Tapachula 0.442 1.18 12
Tapalapa 0.739 81.89 23
Tapilula 0.272 10.57 26
Tecpatán 0.807 18.97 22
Tenejapa 1.370 76.12 35
Teopisca 1.096 35.43 41
Tila 1.414 78.27 39
Tonalá 0.082 0.59 16
Totolapa 1.241 6.87 44
La Trinitaria 0.497 8.13 21
Tumbalá 1.814 74.13 45
Tuxtla Gutiérrez 1.263 2.14 8
Tuxtla Chico 0.420 0.22 22
Tuzantán 0.703 0.79 17
Tzimol 0.632 1.12 29
Unión Juárez 0.303 1.68 19
Venustiano Carranza 0.728 17.97 32
Villa Corzo 0.668 4.83 25
Villaflores 0.142 1.46 19
Yajalón 0.914 52.98 35
San Lucas 1.247 10.72 37
Zinacantán 1.797 82.34 54
San Juan Cancuc 1.966 76.42 52
Aldama 2.319 68.45 58
Benemérito de las Américas 1.120 25.95 27
Maravilla Tenejapa 1.518 33.12 31
Marqués de Comillas 1.602 30.1 30
xx
Bases de datos
BASE DE DATOS Nº12
Montecristo de Guerrero 1.118 0.71 28
San Andres Duraznal 1.489 66.9 46
Santiago el Pinar 2.209 63.57 68
BASE DE DATOS Nº13
Año Y X X
1986 3419 8658 4269,674
1987 3645 8852 4372,610
1988 3911 9144 4569,370
1989 4324 9586 4727,218
1990 4484 10133 4822,836
1991 4841 10664 4918,510
1992 5436 11285 5059,528
1993 5816 12101 5343,141
1994 6148 13019 5465,013
1995 6801 14103 5499,544
1996 7305 15383 5522,817
1997 7845 16778 5625,843
1998 8153 18228 5734,213
1999 8060 19381 5829,013
2000 8493 20256 5845,905
BASE DE DATOS Nº14
Año Y X X X X
1960 3294.7 8.8 12.6 74 50.5
1961 3436.8 7 8 106 62.5
1962 3496.1 8.1 19.7 106.6 77.9
1963 4385.1 7.9 16.3 118.8 62.2
1964 4015 7.8 13.2 109.8 110
1965 3537.5 8.4 15.5 97.5 95.2
1966 3407.9 10.6 11.5 96.9 98.5
1967 4056.3 10.8 14.4 117.8 104.7
1968 4183.7 5.5 17.4 142.8 112.6
1969 4786.4 9 20.6 170.9 158.9
1970 5365.2 8.8 19.6 188.4 181.7
1971 5089.3 11.4 26.6 171.2 162.9
1972 5420.5 13.5 34 190.1 192
1973 6060 12.2 46 262 251.8
1974 7144.7 14.8 45.2 277.8 344.5
1975 7474.2 13 47.1 302.5 316
1976 7615.1 11.5 47.2 294.9 337.4
1977 7225 15.8 49.1 323.1 355
1978 7506.1 15.5 53.9 359.5 351.8
1979 7996 17.5 59.5 407.5 351
1980 7941.4 20 67.2 460.6 364.9
BASE DE DATOS Nº15
Y X
3929214 1790
5308483 1800
7239881 1810
9638453 1820
12860702 1830
17063353 1840
23191876 1850
31443321 1860
38558371 1870
xxi
BASE DE DATOS Nº15
50189209 1880
62979766 1890
76212168 1900
92228496 1910
106021537 1920
123202624 1930
132164569 1940
151325798 1950
179323175 1960
BASE DE DATOS Nº16
Y X
29105 1987
36126 1988
43499 1989
49546 1990
60573 1991
79657 1992
79879 1993
73086 1994
69984 1995
61124 1996
49379 1997
43225 1998
41356 1999
39513 2000
BASE DE DATOS Nº17
Y X
23135 1994
25279 1995
29269 1996
34068 1997
38468 1998
41293 1999
39743 2000
34471 2001
30270 2002
28549 2003
27053 2004
BASE DE DATOS Nº18
PAÍS Y X
Afghanistan 151,95 800
Albania 18,62 6000
Algeria 27,73 6900
American Samoa 10,18 8000
Andorra 3,76 42500
Anguilla 3,52 8800
Antigua and Barbuda 16,25 19400
Argentina 11,44 14200
Armenia 20,21 6300
Aruba 13,79 21800
Australia 4,75 38200
Austria 4,42 40400
Azerbaijan 54,6 9500
Bahamas, The 23,17 30700
xxii
Bases de datos
BASE DE DATOS Nº18
Bahrain 15,25 37400
Bangladesh 59,02 1500
Barbados 12,29 18900
Belarus 6,43 11800
Belgium 4,44 37500
Belize 23,07 8400
Benin 64,64 1500
Bermuda 2,46 69900
Bhutan 49,36 5200
Bolivia 44,66 4500
Bosnia and Herzegovina 9,1 6500
Botswana 12,59 13900
Brazil 22,58 10200
British Virgin Islands 14,65 38500
Brunei 12,27 51300
Bulgaria 17,87 12900
Burkina Faso 84,49 1200
Burma 47,61 1200
Burundi 59,64 300
Cambodia 54,79 2000
Cameroon 63,34 2300
Canada 5,04 39200
Cape Verde 41,35 3800
Cayman Islands 6,94 43800
Central African Republic 80,62 700
Chad 98,69 1600
Chile 7,71 14900
China 20,25 6000
Colombia 18,9 9200
Comoros 66,57 1000
Congo, Democratic Republic of the 81,21 300
Congo, Republic of the 79,78 3900
Cook Islands 16,9 9100
Costa Rica 8,77 11600
Cote d'Ivoire 68,06 1700
Croatia 6,37 18400
Cuba 5,82 9500
Cyprus 6,6 21300
Czech Republic 3,79 25900
Denmark 4,34 37200
Djibouti 97,51 2700
Dominica 13,65 10000
Dominican Republic 25,96 8200
Ecuador 20,9 7500
Egypt 27,26 5800
El Salvador 21,52 6200
Eritrea 43,33 700
Estonia 7,32 21400
Ethiopia 80,8 900
European Union 5,72 33700
Faroe Islands 6,32 31000
Fiji 11,58 3800
Finland 3,47 37000
France 3,33 33300
French Polynesia 7,55 18000
Gabon 51,78 14200
Gambia, The 67,33 1300
Gaza Strip 18,35 2900
Georgia 16,22 4700
Germany 3,99 35500
Ghana 51,09 1500
Gibraltar 4,83 38200
Greece 5,16 32100
xxiii
BASE DE DATOS Nº18
Greenland 10,72 20000
Grenada 13,23 13200
Guatemala 27,84 5300
Guernsey 4,47 44600
Guinea 65,22 1100
GuineaBissau 99,82 600
Guyana 29,65 3900
Haiti 59,69 1300
Honduras 24,03 4400
Hong Kong 2,92 43800
Hungary 7,86 19800
Iceland 3,23 42300
India 30,15 2900
Indonesia 29,97 3900
Iran 35,78 12800
Iraq 43,82 3200
Ireland 5,05 45500
Isle of Man 5,37 35000
Israel 4,22 28600
Italy 5,51 31400
Jamaica 15,22 8600
Japan 2,79 34100
Jersey 4,73 57000
Jordan 14,97 5200
Kazakhstan 25,73 11500
Kenya 54,7 1600
Kiribati 43,48 5300
Korea, North 51,34 1800
Korea, South 4,26 27700
Kuwait 8,96 57500
Kyrgyzstan 31,26 2200
Laos 77,82 2100
Latvia 8,77 17300
Lebanon 21,82 11100
Lesotho 77,4 1600
Liberia 138,24 500
Libya 21,05 14200
Lithuania 6,47 17800
Luxembourg 4,56 81200
Macau 3,22 30000
Macedonia 9,01 9100
Madagascar 54,2 1000
Malawi 89,05 800
Malaysia 15,87 15200
Maldives 29,53 4500
Mali 102,05 1100
Malta 3,75 24600
Marshall Islands 25,45 2500
Mauritania 63,42 2100
Mauritius 12,2 12100
Mayotte 56,29 4900
Mexico 18,42 14300
Micronesia, Federated States of 26,1 2200
Moldova 13,13 2500
Monaco 5 30000
Mongolia 39,88 3200
Montserrat 16,08 3400
Morocco 36,88 4500
Mozambique 105,8 900
Namibia 45,51 6400
Nauru 9,25 5000
Nepal 47,46 1100
Netherlands 4,73 40500
xxiv
Bases de datos
BASE DE DATOS Nº18
Netherlands Antilles 9,09 16000
New Caledonia 7,05 15000
New Zealand 4,92 27900
Nicaragua 25,02 2900
Niger 116,66 700
Nigeria 94,35 2300
Northern Mariana Islands 6,59 12500
Norway 3,58 59500
Oman 16,88 20200
Pakistan 65,14 2500
Palau 13,14 8100
Panama 12,67 11800
Papua New Guinea 45,23 2300
Paraguay 24,68 4200
Peru 28,62 8500
Philippines 20,56 3300
Poland 6,8 17400
Portugal 4,78 22200
Puerto Rico 8,42 17800
Romania 22,9 12200
Russia 10,56 16100
Rwanda 81,61 900
Saint Helena 17,63 2500
Saint Kitts and Nevis 13,94 19100
Saint Lucia 13,43 11100
Saint Pierre and Miquelon 6,87 7000
Saint Vincent and the Grenadines 15,14 10200
Samoa 24,22 4700
San Marino 5,34 41900
Sao Tome and Principe 37,12 1300
Saudi Arabia 11,57 20500
Senegal 58,94 1600
Serbia 6,75 10800
Seychelles 12,3 21000
Sierra Leone 154,43 900
Singapore 2,31 51600
Slovakia 6,84 22000
Slovenia 4,25 29600
Solomon Islands 19,03 2700
Somalia 109,19 600
South Africa 44,42 10100
Spain 4,21 34600
Sri Lanka 18,57 4400
Sudan 82,43 2200
Suriname 18,81 8900
Swaziland 68,63 4400
Sweden 2,75 38200
Switzerland 4,18 42000
Syria 25,87 4600
Taiwan 5,35 31100
Tajikistan 41,03 1800
Tanzania 69,28 1400
Thailand 17,63 8400
TimorLeste 40,65 2300
Togo 56,24 900
Tonga 11,58 4600
Trinidad and Tobago 29,93 23600
Tunisia 22,57 7900
Turkey 25,78 11900
Turkmenistan 45,36 6500
Turks and Caicos Islands 13,89 11500
Tuvalu 18,43 1600
Uganda 64,82 1300
xxv
BASE DE DATOS Nº18
Ukraine 8,98 7400
United Arab Emirates 12,7 44600
United Kingdom 4,85 36700
United States 6,26 47500
Uruguay 11,32 12400
Uzbekistan 23,43 2600
Vanuatu 49,45 4600
Venezuela 21,54 13500
Vietnam 22,88 2800
Virgin Islands 7,56 14500
Wallis and Futuna 5,02 3800
West Bank 15,96 2900
Western Sahara 69,66 2500
Yemen 54,7 2500
Zambia 101,2 1500
Zimbabwe 32,31 200
BASE DE DATOS Nº19
Condado Y D D
Starr County 98,10 1 0
Maverick County 95,33 1 0
Webb County 94,40 1 0
Brooks County 92,00 1 0
Zavala County 91,39 1 0
Jim Hogg County 90,63 1 0
Hidalgo County 88,42 1 0
Duval County 88,16 1 0
Willacy County 86,11 1 0
Kenedy County 85,99 1 0
Dimmit County 85,31 1 0
Zapata County 84,94 1 0
Presidio County 84,76 1 0
Cameron County 84,47 1 0
El Paso County 78,27 1 0
La Salle County 77,29 1 0
Jim Wells County 75,92 1 0
Val Verde County 75,75 1 0
Hudspeth County 75,45 1 0
Frio County 73,92 1 0
Reeves County 73,59 1 0
Culberson County 72,34 1 0
Uvalde County 66,12 1 0
Kleberg County 65,56 1 0
Pecos County 61,09 1 0
Nueces County 55,71 1 0
Crockett County 55,09 1 0
Bee County 53,95 1 0
Terrell County 51,34 1 0
Kinney County 50,10 1 0
San Patricio County 49,40 1 0
Edwards County 45,61 1 0
Medina County 45,49 1 0
Brewster County 43,72 1 0
Live Oak County 37,95 1 0
Jeff Davis County 35,48 1 0
McMullen County 34,43 1 0
Real County 21,63 1 0
Castro County 51,83 0 1
Parmer County 49,83 0 1
Crosby County 48,84 0 1
Dawson County 48,09 0 1
xxvi
Bases de datos
BASE DE DATOS Nº19
Hale County 47,99 0 1
Bailey County 47,73 0 1
Floyd County 46,03 0 1
Yoakum County 45,92 0 1
Cochran County 45,04 0 1
Lynn County 44,32 0 1
Terry County 43,99 0 1
Lamb County 43,71 0 1
Martin County 41,49 0 1
Andrews County 40,11 0 1
Howard County 37,56 0 1
Hockley County 37,21 0 1
Garza County 37,15 0 1
Gaines County 35,79 0 1
Swisher County 35,37 0 1
Mitchell County 31,33 0 1
Titus County 28,40 0 1
Nolan County 27,90 0 1
Scurry County 27,82 0 1
Hall County 27,55 0 1
Lubbock County 27,44 0 1
Knox County 25,53 0 1
Dickens County 23,39 0 1
Briscoe County 22,74 0 1
Fisher County 21,71 0 1
Jones County 21,10 0 1
Haskell County 20,61 0 1
Wilbarger County 20,46 0 1
Childress County 20,32 0 1
Cottle County 18,91 0 1
Borden County 18,24 0 1
Taylor County 17,54 0 1
Foard County 16,21 0 1
Hardeman County 15,09 0 1
Camp County 14,45 0 1
Stephens County 14,17 0 1
Angelina County 14,08 0 1
Motley County 13,53 0 1
Cherokee County 13,25 0 1
Wichita County 12,13 0 1
Anderson County 12,00 0 1
Stonewall County 11,99 0 1
Nacogdoches County 11,32 0 1
Rockwall County 11,13 0 1
Smith County 11,10 0 1
Liberty County 10,92 0 1
Eastland County 10,75 0 1
Jefferson County 10,58 0 1
Young County 10,50 0 1
Kent County 10,24 0 1
Collin County 10,22 0 1
Polk County 9,65 0 1
Shelby County 9,48 0 1
Hopkins County 9,26 0 1
Baylor County 9,14 0 1
Gregg County 8,86 0 1
Franklin County 8,78 0 1
Rusk County 8,30 0 1
Shackelford County 8,24 0 1
Hunt County 8,19 0 1
Throckmorton County 7,84 0 1
Houston County 7,59 0 1
Henderson County 6,75 0 1
xxvii
BASE DE DATOS Nº19
Van Zandt County 6,73 0 1
Callahan County 6,22 0 1
King County 6,18 0 1
Fannin County 5,66 0 1
Harrison County 5,40 0 1
Wood County 5,38 0 1
Red River County 5,11 0 1
Archer County 4,57 0 1
Rains County 4,56 0 1
San Jacinto County 4,49 0 1
Bowie County 4,27 0 1
Trinity County 4,07 0 1
Jasper County 3,96 0 1
Upshur County 3,79 0 1
Newton County 3,71 0 1
Tyler County 3,65 0 1
Lamar County 3,54 0 1
Orange County 3,50 0 1
Morris County 3,46 0 1
Panola County 3,23 0 1
San Augustine County 2,96 0 1
Hardin County 2,45 0 1
Cass County 1,62 0 1
Sabine County 1,60 0 1
Marion County 1,40 0 1
Delta County 0,81 0 1
Atascosa County 58,70 0 0
Deaf Smith County 57,71 0 0
Bexar County 54,35 0 0
Sutton County 51,73 0 0
Reagan County 49,67 0 0
Karnes County 47,71 0 0
Moore County 47,39 0 0
Refugio County 44,69 0 0
Crane County 44,09 0 0
Winkler County 44,03 0 0
Schleicher County 43,61 0 0
Upton County 42,45 0 0
Ward County 42,41 0 0
Ector County 42,39 0 0
Concho County 41,65 0 0
Calhoun County 40,71 0 0
Caldwell County 40,60 0 0
Gonzales County 39,88 0 0
Victoria County 39,22 0 0
Wilson County 36,48 0 0
Goliad County 35,13 0 0
Guadalupe County 33,16 0 0
Harris County 32,95 0 0
Menard County 32,63 0 0
Hansford County 31,83 0 0
Ochiltree County 31,69 0 0
Matagorda County 31,30 0 0
Sterling County 31,30 0 0
Wharton County 31,23 0 0
Tom Green County 30,65 0 0
Dallas County 29,89 0 0
Glasscock County 29,87 0 0
Hays County 29,45 0 0
Runnels County 29,40 0 0
Midland County 28,93 0 0
Dallam County 28,48 0 0
Travis County 28,21 0 0
xxviii
Bases de datos
BASE DE DATOS Nº19
Potter County 28,18 0 0
Sherman County 27,97 0 0
DeWitt County 27,31 0 0
McCulloch County 26,63 0 0
Jackson County 25,07 0 0
Irion County 24,68 0 0
Bastrop County 23,99 0 0
Brazoria County 22,76 0 0
Comal County 22,60 0 0
San Saba County 21,66 0 0
Mason County 21,21 0 0
Fort Bend County 21,10 0 0
Comanche County 21,06 0 0
Kimble County 20,97 0 0
Collingsworth County 20,59 0 0
Aransas County 20,42 0 0
Colorado County 19,76 0 0
Tarrant County 19,73 0 0
Waller County 19,43 0 0
Lipscomb County 19,20 0 0
Kerr County 19,16 0 0
Milam County 18,98 0 0
Lee County 18,27 0 0
Ellis County 18,24 0 0
Galveston County 18,05 0 0
McLennan County 17,93 0 0
Loving County 17,91 0 0
Brazos County 17,86 0 0
Kendall County 17,73 0 0
Williamson County 17,21 0 0
Coke County 16,95 0 0
Bell County 16,68 0 0
Grimes County 16,25 0 0
Austin County 16,06 0 0
Gillespie County 15,99 0 0
Navarro County 15,89 0 0
Falls County 15,87 0 0
Madison County 15,80 0 0
Blanco County 15,29 0 0
Brown County 15,22 0 0
Hemphill County 15,10 0 0
Lampasas County 15,05 0 0
Erath County 14,98 0 0
Burnet County 14,76 0 0
Burleson County 14,64 0 0
Robertson County 14,56 0 0
Hutchinson County 14,47 0 0
Walker County 14,02 0 0
Hartley County 13,78 0 0
Somervell County 13,56 0 0
Bandera County 13,45 0 0
Hill County 13,44 0 0
Coleman County 13,43 0 0
Palo Pinto County 13,22 0 0
Gray County 12,98 0 0
Limestone County 12,98 0 0
Oldham County 12,81 0 0
Fayette County 12,65 0 0
Montgomery County 12,62 0 0
Coryell County 12,53 0 0
Mills County 12,48 0 0
Wheeler County 12,40 0 0
Bosque County 12,33 0 0
xxix
BASE DE DATOS Nº19
Denton County 12,09 0 0
Johnson County 12,01 0 0
Lavaca County 11,41 0 0
Kaufman County 11,12 0 0
Chambers County 10,89 0 0
Wise County 10,76 0 0
Randall County 10,28 0 0
Cooke County 9,82 0 0
Washington County 8,97 0 0
Freestone County 8,43 0 0
Jack County 7,92 0 0
Leon County 7,86 0 0
Hamilton County 7,50 0 0
Hood County 6,99 0 0
Parker County 6,96 0 0
Carson County 6,81 0 0
Grayson County 6,39 0 0
Donley County 5,80 0 0
Montague County 5,49 0 0
Llano County 5,14 0 0
Armstrong County 3,91 0 0
Clay County 3,07 0 0
Roberts County 1,35 0 0
BASE DE DATOS Nº20
Condado Y D D D
Anderson County 14,32 0 1 0
Andrews County 15,29 0 1 1
Angelina County 19,34 0 1 0
Aransas County 19,63 0 0 0
Archer County 8,21 0 1 0
Armstrong County 8,8 0 0 0
Atascosa County 20,13 0 0 1
Austin County 12,15 0 0 0
Bailey County 18,84 0 1 1
Bandera County 15,18 0 0 0
Bastrop County 15,27 0 0 0
Baylor County 16,74 0 1 0
Bee County 16,97 1 0 1
Bell County 15,2 0 0 0
Bexar County 18,3 0 0 1
Blanco County 11,11 0 0 0
Borden County 6,45 0 1 0
Bosque County 19,89 0 0 0
Bowie County 16,97 0 1 0
Brazoria County 11,42 0 0 0
Brazos County 27,1 0 0 0
Brewster County 16,95 1 0 1
Briscoe County 12,79 0 1 0
Brooks County 28,51 1 0 1
Brown County 18,13 0 0 0
Burleson County 15,62 0 0 0
Burnet County 12,5 0 0 0
Caldwell County 18,14 0 0 1
Calhoun County 15,28 0 0 1
Callahan County 13,79 0 1 0
Cameron County 39,11 1 0 1
Camp County 18,7 0 1 0
Carson County 8,18 0 0 0
Cass County 18,23 0 1 0
Castro County 17,31 0 1 1
xxx
Bases de datos
BASE DE DATOS Nº20
Chambers County 9,4 0 0 0
Cherokee County 18,12 0 1 0
Childress County 17,51 0 1 0
Clay County 11,98 0 0 0
Cochran County 19,54 0 1 1
Coke County 11,65 0 0 0
Coleman County 19,87 0 0 0
Collin County 9,13 0 1 0
Collingsworth County 17,75 0 0 0
Colorado County 14,43 0 0 0
Comal County 13,04 0 0 0
Comanche County 16,5 0 0 0
Concho County 13,46 0 0 1
Cooke County 14,26 0 0 0
Coryell County 11,23 0 0 0
Cottle County 17,38 0 1 0
Crane County 9,91 0 0 1
Crockett County 13,61 1 0 1
Crosby County 21,05 0 1 1
Culberson County 20,2 1 0 1
Dallam County 12,89 0 0 0
Dallas County 17,75 0 0 0
Dawson County 19,69 0 1 1
Deaf Smith County 20,31 0 0 1
Delta County 17,44 0 1 0
Denton County 9,87 0 0 0
DeWitt County 17,39 0 0 0
Dickens County 17,13 0 1 0
Dimmit County 31,08 1 0 1
Donley County 15,57 0 0 0
Duval County 23,52 1 0 1
Eastland County 17,72 0 1 0
Ector County 16,26 0 0 1
Edwards County 21,88 1 0 1
El Paso County 30,15 1 0 1
Ellis County 13,6 0 0 0
Erath County 16,02 0 0 0
Falls County 22,57 0 0 0
Fannin County 15,53 0 1 0
Fayette County 12,47 0 0 0
Fisher County 14,41 0 1 0
Floyd County 18,39 0 1 1
Foard County 15,47 0 1 0
Fort Bend County 11,91 0 0 0
Franklin County 16,55 0 1 0
Freestone County 13,12 0 0 0
Frio County 24,91 1 0 1
Gaines County 18,77 0 1 1
Galveston County 13,83 0 0 0
Garza County 18,04 0 1 1
Gillespie County 10,91 0 0 0
Glasscock County 8,61 0 0 0
Goliad County 16,05 0 0 1
Gonzales County 18,8 0 0 1
Gray County 13,51 0 0 0
Grayson County 13,12 0 0 0
Gregg County 16,48 0 1 0
Grimes County 16,4 0 0 0
Guadalupe County 11,95 0 0 1
Hale County 16,36 0 1 1
Hall County 23,8 0 1 0
Hamilton County 13,95 0 0 0
Hansford County 12,91 0 0 1
xxxi
BASE DE DATOS Nº20
Hardeman County 14,48 0 1 0
Hardin County 11,84 0 1 0
Harris County 18,62 0 0 1
Harrison County 16,35 0 1 0
Hartley County 7,28 0 0 0
Haskell County 17,66 0 1 0
Hays County 18,7 0 0 0
Hemphill County 8,71 0 0 0
Henderson County 16,41 0 1 0
Hidalgo County 41,91 1 0 1
Hill County 17,99 0 0 0
Hockley County 16,21 0 1 1
Hood County 12,57 0 0 0
Hopkins County 15,12 0 1 0
Houston County 20,39 0 1 0
Howard County 21,2 0 1 1
Hudspeth County 31,55 1 0 1
Hunt County 17,16 0 1 0
Hutchinson County 12,22 0 0 0
Irion County 7,96 0 0 0
Jack County 11,46 0 0 0
Jackson County 13,96 0 0 0
Jasper County 19,57 0 1 0
Jeff Davis County 13 1 0 1
Jefferson County 15,33 0 1 0
Jim Hogg County 21,23 1 0 1
Jim Wells County 22,76 1 0 1
Johnson County 13,04 0 0 0
Jones County 14,02 0 1 0
Karnes County 19,59 0 0 1
Kaufman County 14,58 0 0 0
Kendall County 11,11 0 0 0
Kenedy County 14,98 1 0 1
Kent County 7,33 0 1 0
Kerr County 17,19 0 0 0
Kimble County 17,57 0 0 0
King County 11,52 0 1 0
Kinney County 20,72 1 0 1
Kleberg County 22,46 1 0 1
Knox County 16,34 0 1 0
La Salle County 26,41 1 0 1
Lamar County 16,05 0 1 0
Lamb County 17,91 0 1 1
Lampasas County 15,69 0 0 0
Lavaca County 12,62 0 0 0
Lee County 12,31 0 0 0
Leon County 16,42 0 0 0
Liberty County 14,31 0 1 0
Limestone County 19,84 0 0 0
Lipscomb County 13,9 0 0 0
Live Oak County 14,24 1 0 1
Llano County 13,22 0 0 0
Loving County 16,42 0 0 0
Lubbock County 17,98 0 1 0
Lynn County 17,88 0 1 1
Madison County 17,28 0 0 0
Marion County 24,21 0 1 0
Martin County 15,63 0 1 1
Mason County 14,98 0 0 0
Matagorda County 21,57 0 0 1
Maverick County 32,49 1 0 1
McCulloch County 21,39 0 0 0
McLennan County 19,57 0 0 0
xxxii
Bases de datos
BASE DE DATOS Nº20
McMullen County 14,22 1 0 1
Medina County 15,81 1 0 1
Menard County 19,03 0 0 1
Midland County 15,42 0 0 0
Milam County 17,38 0 0 0
Mills County 15,98 0 0 0
Mitchell County 16,53 0 1 1
Montague County 15,02 0 0 0
Montgomery County 13,69 0 0 0
Moore County 12,38 0 0 1
Morris County 17,28 0 1 0
Motley County 14,45 0 1 0
Nacogdoches County 20,65 0 1 0
Navarro County 19,55 0 0 0
Newton County 17,87 0 1 0
Nolan County 19,47 0 1 0
Nueces County 19,24 1 0 1
Ochiltree County 13,35 0 0 1
Oldham County 19,91 0 0 0
Orange County 12,91 0 1 0
Palo Pinto County 15,77 0 0 0
Panola County 13,59 0 1 0
Parker County 10,17 0 0 0
Parmer County 14,15 0 1 1
Pecos County 17,94 1 0 1
Polk County 18,2 0 1 0
Potter County 25,15 0 0 0
Presidio County 24,92 1 0 1
Rains County 18,95 0 1 0
Randall County 9,62 0 0 0
Reagan County 8,66 0 0 1
Real County 19,3 1 0 0
Red River County 16,92 0 1 0
Reeves County 27,85 1 0 1
Refugio County 14,72 0 0 1
Roberts County 5,75 0 0 0
Robertson County 19,14 0 0 0
Rockwall County 8,45 0 1 0
Runnels County 16,89 0 0 0
Rusk County 12,62 0 1 0
Sabine County 15,39 0 1 0
San Augustine County 20,22 0 1 0
San Jacinto County 19,03 0 1 0
San Patricio County 17,55 1 0 1
San Saba County 17,36 0 0 0
Schleicher County 13,8 0 0 1
Scurry County 14,86 0 1 0
Shackelford County 11,63 0 1 0
Shelby County 19,47 0 1 0
Sherman County 12,62 0 0 0
Smith County 15,87 0 1 0
Somervell County 10,25 0 0 0
Starr County 36,81 1 0 1
Stephens County 16,74 0 1 0
Sterling County 11,2 0 0 1
Stonewall County 14,06 0 1 0
Sutton County 14,72 0 0 1
Swisher County 15,6 0 1 1
Tarrant County 14,21 0 0 0
Taylor County 15,47 0 1 0
Terrell County 17,3 1 0 1
Terry County 20,23 0 1 1
Throckmorton County 12,76 0 1 0
xxxiii
BASE DE DATOS Nº20
Titus County 14,93 0 1 0
Tom Green County 15,56 0 0 1
Travis County 17,1 0 0 0
Trinity County 18,19 0 1 0
Tyler County 16,89 0 1 0
Upshur County 16,62 0 1 0
Upton County 13,48 0 0 1
Uvalde County 23,94 1 0 1
Val Verde County 26,37 1 0 1
Van Zandt County 15,15 0 1 0
Victoria County 16,27 0 0 1
Walker County 17,99 0 0 0
Waller County 20,02 0 0 0
Ward County 14,11 0 0 1
Washington County 14,21 0 0 0
Webb County 36,08 1 0 1
Wharton County 15,28 0 0 1
Wheeler County 10,9 0 0 0
Wichita County 13,83 0 1 0
Wilbarger County 13,82 0 1 0
Willacy County 38,51 1 0 1
Williamson County 8,77 0 0 0
Wilson County 13,05 0 0 1
Winkler County 14,04 0 0 1
Wise County 11,2 0 0 0
Wood County 12,99 0 1 0
Yoakum County 17,17 0 1 1
Young County 16,29 0 1 0
Zapata County 37,19 1 0 1
Zavala County 39,71 1 0 1
BASE DE DATOS Nº21
DISTRITO Y X
Antrim 0 34,382
Ards 1 12,191
Armagh 0 47,297
Ballymena 1 19,081
Ballymoney 0 31,405
Banbridge 0 29,552
Belfast 1 41,977
Carrickfergus 0 7,645
Castlereagh 0 10,197
Coleraine 1 23,810
Cookstown 1 55,305
Craigavon 0 43,333
Derry 1 72,642
Down 1 60,345
Dungannon 1 57,930
Fermanagh 1 56,667
Larne 1 23,810
Limavady 1 55,068
Lisburn 0 28,643
Magherafelt 1 61,433
Moyle 1 54,730
Newry & Mourne 1 76,988
Newtownabbey 0 14,054
North Down 0 9,736
Omagh 1 66,812
Strabane 1 63,712
xxxiv
Bases de datos
BASE DE DATOS Nº22
PAÍS Y X X
Australia 243,33 1 39300
Austria 260,00 1 39600
Bahrain 240,00 1 37200
Belarus 133,33 0 12000
Belgium 243,33 1 38300
Canada 253,33 1 40200
Czech Republic 213,33 0 26800
Estonia 170,00 0 21900
Finland 256,67 1 38400
France 220,00 0 32700
Germany 240,00 1 34800
Greece 210,00 0 32800
Hungary 190,00 0 20500
Iceland 260,00 1 42600
Ireland 253,33 1 47800
Israel 223,33 1 28900
Italy 230,00 1 31000
Japan 206,67 0 35300
Latvia 156,67 0 18500
Lithuania 156,67 0 18400
Malta 250,00 1 24200
New Zealand 246,67 1 28500
Portugal 203,33 0 22000
Russia 143,33 0 15800
Slovenia 220,00 0 30800
Spain 233,33 1 34100
Sweden 256,67 1 39600
Switzerland 273,33 1 40900
United Kingdom 236,67 1 37400
United States 246,67 1 48000
xxxv