Análisis de regresión para sociólogos

149
Análisis de regresión para sociólogos con aplicaciones en R Registro de propiedad intelectual Nº 192374, CHILE. Christian Castro Navarro Sociólogo U. de Chile Santiago, 11 de Junio del 2010 [email protected]

description

El análisis de regresión es una herramienta estadística tradicionalmente utilizada por los economistas. Sin embargo, la utilidad de esta técnica trasciende disciplinas y resulta clave para el sociólogo-investigador al ayudarlo a predecir dentro de cierto rango de probabilidad la ocurrencia de alguna situación social o bien, determinar la influencia que múltiples variables ejercen sobre otra. La utilidad del análisis de regresión en sociología es amplia, siendo aplicable al estudio de los mercados, del comportamiento desviado, la ciencia política, la demografía, la epidemiología y la pobreza, entre otros (gran parte de los ejemplos se han hecho sobre estos temas).Siendo esto así, este texto intenta ser una referencia para estudiantes y profesionales de las ciencias sociales que en sus investigaciones necesiten aplicar un análisis de regresión a la multiplicidad de problemas que el complejo mundo social nos ofrece.El presente trabajo se divide en cuatro secciones. La primera aborda el análisis de regresión simple, explicándolo paso a paso junto con los diferentes test asociados a él. La segunda sección generaliza este análisis al modelo de regresión múltiple. La tercera sección está dedicada al estudio de los problemas que con más frecuencia se presentan en el análisis de regresión (autocorrelación, heterocedasticidad y multicolinealidad) y la final, desarrolla 3 aplicaciones (formas funcionales, variables dummy y modelos de regresión con respuesta cualitativa).

Transcript of Análisis de regresión para sociólogos

Page 1: Análisis de regresión para sociólogos

Análisis de regresión para sociólogos

con aplicaciones en RRegistro de propiedad intelectual Nº 192374, CHILE.

Christian Castro NavarroSociólogo U. de Chile

Santiago, 11 de Junio del [email protected]

Page 2: Análisis de regresión para sociólogos

Prefacio.

El análisis de regresión es una herramienta estadística tradicionalmente utilizada por los economistas. Sin embargo,   la  utilidad  de esta  técnica  trasciende disciplinas  y   resulta clave  para  el   sociólogo­investigador  al ayudarlo a predecir dentro de cierto rango de probabilidad la ocurrencia de alguna situación social o bien, determinar   la   influencia   que   múltiples   variables   ejercen   sobre   otra.   La   utilidad   del   análisis   de   regresión   en sociología es amplia,  siendo aplicable al  estudio de  los mercados, del comportamiento desviado,  la ciencia política, la demografía, la epidemiología y la pobreza, entre otros (gran parte de los ejemplos se han hecho sobre estos temas). 

Siendo esto así,  este texto  intenta ser una  referencia para estudiantes y profesionales de  las ciencias sociales que en sus investigaciones necesiten aplicar un análisis de regresión a la multiplicidad de problemas que el complejo mundo social nos ofrece.

El  presente  trabajo  se divide en cuatro  secciones.  La primera aborda el  análisis  de  regresión simple, explicándolo paso a paso junto con los diferentes test asociados a él. La segunda sección generaliza este análisis al modelo de regresión múltiple. La tercera sección está  dedicada al estudio de los problemas que con más frecuencia se presentan en el análisis de regresión (autocorrelación, heterocedasticidad y multicolinealidad) y la final,  desarrolla  3  aplicaciones   (formas   funcionales,  variables  dummy  y  modelos  de  regresión  con   respuesta cualitativa).

El  único requisito para comprender a cabalidad este texto es el  conocimiento de  las matemáticas y estadística elemental entregado en  la enseñanza media (herramientas de cálculo sólo han sido utilizadas al derivar las ecuaciones normales y al describir la distribución acumulativa normal como la integral de la función gaussiana).

Hemos   utilizado   para   el   tratamiento   computacional   de   datos   el   paquete   estadístico   R   (de   libre distribución en la página http://www.r­project.org). Se ha elegido porque es tanto un paquete estadístico como un lenguaje de programación, con lo que su versatilidad es amplia, su capacidad para generar gráficas de calidad es enorme y es gratuito. En negrita de color azul se han señalado todas las instrucciones con R así como también los ejemplos.

Christian Castro NavarroSantiago, 11 de Junio del 2010

Page 3: Análisis de regresión para sociólogos

A G.N.S., G.C.T. y G.C.N. 

Page 4: Análisis de regresión para sociólogos

Índice

ÍNDICE Pp

1 EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS) 1

1.1 INTRODUCCIÓN 11.1.1  Las presunciones del modelo de regresión. 1

1.2 PRIMERAS CONSIDERACIONES 2Ejemplo Nº1: Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países. 21.2.1 Primera interpretación de resultados. 31.2.2 Linealización de variables. 4

1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO) PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES 7Ejemplo Nº2: Robos por cada 1000 habitantes y % de población viviendo bajo la pobreza en condados 

     con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007.  71.3.1 Graficando los residuos estandarizados. 9

1.3.2 La varianza residual o cuadrado medio del error (CME):  S29

1.3.3 Algunas propiedades de la regresión obtenida por MCO. 101.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS 10

1.4.1 Varianza de los estimadores por MCO de los parámetros estimados  b0 y de  b1 10

Ejemplo Nº3: Suicidio y desempleo en Japón (1953­2004). 121.4.2 Test de significación para los parámetros estimados. 131.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de 

los parámetros reales. 141.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE 14

1.5.1  Intervalos de confianza para los parámetros estimados. 14Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños 

     viviendo en familias lideradas por un solo padre (2004). 151.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta. 161.5.3 Estimación del intervalo de predicción de los valores particulares de la variable respuesta. 18

1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN 191.6.1 El coeficiente de determinación:  R2 19

Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas del Gran Santiago (2006). 201.6.2 El coeficiente de correlación r. 211.6.3 Uso del análisis de varianza. 211.6.4 La estadística F. 22

1.7 PROPIEDADES DE LOS PARÁMETROS ESTIMADOS BAJO EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia. 24  1.7.1 Sesgo. 241.7.2 Eficiencia. 241.7.3 Consistencia. 25

1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE 25

2 EL ANÁLISIS DE REGRESIÓN MÚLTIPLE (ARM) 27

2.1 INTRODUCCIÓN 272.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables 

independientes o explicativas. 282.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices. 292.1.3 Ejemplo y trabajo con matrices en R. 30Ejemplo Nº6: Regresión lineal de los años de escolaridad sobre el % de pobreza, el resultado del SIMCE 

     en matemáticas para los segundos medios y el % de desocupación para las comunas de      Santiago el año 2006. 30

2.2 INTERVALOS DE CONFIANZA 31

2.2.1 La varianza residual: S231

2.2.2 La varianza de los parámetros estimados. 322.2.3 Los valores t de los parámetros estimados. 322.2.4 Construcción de los intervalos de confianza para los parámetros estimados. 33

2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE  332.3.1  R2  ajustado o  R2 34

2.4 PREDICCIÓN 352.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción 

toman los valores específicos  [1, X1i , X2i , ∙∙∙ , Xki] 35

2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R. 35Ejemplo Nº7: El índice de desarrollo humano. 352.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción 

toman los valores específicos [1, X1i , X2i ,∙ ∙∙ , Xki] 36

2.4.2.1 Cálculo de los intervalos de predicción usando el álgebra de matrices con R. 37

i

Page 5: Análisis de regresión para sociólogos

2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F 382.5.1 La estadística F. 38Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU. 382.5.2 Tabla ANOVA para el modelo lineal general. 402.5.3  Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R. 40

2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP) 412.7 ANÁLISIS DE LOS RESIDUOS 42

3.1 AUTOCORRELACIÓN 44

 3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN? 44

3.1.1.1 Autocorrelación en datos de sección transversal. 453.1.1.2 Autocorrelación en series de tiempo. 453.1.1.3 Algunos patrones de autocorrelación. 45

3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN? 463.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN? 47

3.1.3.1 La estadística d de Durbin­Watson. 473.1.3.1.1 Los pasos para aplicar la prueba d. 49

3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa. 493.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva. 51Ejemplo Nº9: Suicidio y desempleo en Japón (1953­2004). 52

3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN 543.1.4.1 Corrección de la autocorrelación de primer orden positiva. 55

3.2 HETEROCEDASTICIDAD 57

3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD? 573.2.1.1 Razones por las que puede ocurrir la heterocedasticidad. 57

3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD? 583.2.2.1 Método informal (gráfico). 583.2.2.2 Métodos formales. 59

3.2.2.2.1 El test de Park. 59Ejemplo Nº10 Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU 

      entre 1960 y el 2007. 593.2.2.2.2 El test de Goldfeld­Quandt.  60

Ejemplo Nº11: Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos       de policía de California durante el año 2007. 613.2.2.2.3 El test de Koenker­Bassett. 63

Ejemplo Nº12: Obesos versus actividad física. 633.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD  64

Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10. 65

3.3 MULTICOLINEALIDAD 66

3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD? 663.3.1.1 ¿Por qué se produce? 67

3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD. 673.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD? 68

3.3.3.1 El factor de inflación de la varianza. 68Ejemplo Nº14: Índice de marginación, población indígena y % de analfabetismo en los municipios del 

       Estado de Chiapas, México. 69Ejemplo Nº15: Función Cobb­Douglas de la economía chilena (1986­2000). 71Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (1960­1980). 72

3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD 74

4.1 FORMAS FUNCIONALES 76

4.1.1 INTRODUCCIÓN 764.1.2 FORMA DOBLE­LOG 76

4.1.2.1 La función Cobb­Douglas. 784.1.2.2 La definición de la elasticidad. 78 Ejemplo Nº17: Función Cobb­Douglas de la economía chilena (1986­2000). 79 

4.1.3 FORMA SEMI­LOG 80 Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960. 82

4.1.4 FORMA POLINOMIAL 83Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000. 85Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (1994­2004). 86

4.1.5 FORMA RECÍPROCA 87Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo 

      para 42 países. 89

ii

Page 6: Análisis de regresión para sociólogos

Índice

4.2 VARIABLES DUMMY 91

4.2.1 INTRODUCCIÓN 914.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA). 91

4.2.2.1 Modelos con solo una variable predictora cualitativa. 91Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU. 914.2.2.2 Modelos con dos variables predictoras cualitativas. 93Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de Texas. 93

4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA) 94Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas. 94

4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL 95Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre 

      la esperanza de vida y el PIB.   96   4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES DUMMY  98 

4.3 MODELOS DE ELECCIÓN BINARIOS 99

4.3.1 INTRODUCCIÓN 994.3.2 EL MODELO LOGIT 99

Ejemplo Nº26: Pobreza y religión en Irlanda del Norte. 1004.3.2.1 Interpretación de los coeficientes. 1014.3.2.2 Intervalos de confianza para los coeficientes estimados. 1014.3.2.3 Significación estadística de los coeficientes. 1014.3.2.4 Contraste de hipótesis para los coeficientes. 102

4.3.2.4.1 La función de verosimilitud. 1024.3.2.4.2 Estadístico de la Razón de Verosimilitud o chi2. 1024.3.2.4.3 Bondad del ajuste. 103

4.3.2.5 Características del modelo Logit. 1034.3.2.6 Algunas observaciones para el modelo Logit. 103

4.3.3 EL MODELO PROBIT 104Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países. 1044.3.3.1 Interpretación de los coeficientes. 1054.3.3.2 Intervalos de confianza para los parámetros estimados. 1064.3.3.3 Contraste de hipótesis del modelo. 106

4.3.4 Modelos logit y probit. ¿Cuál es preferible? 107

5 BIBLIOGRAFÍA 108

6 BASE DE DATOS i

iii

Page 7: Análisis de regresión para sociólogos

Análisis de regresión simple

EL ANÁLISIS DE REGRESIÓN SIMPLE (ARS)1.1 INTRODUCCIÓN

El   Análisis   de   Regresión   Simple   es   el   estudio   de   la   influencia   cuantitativa   que   sobre   una   variable dependiente (regresando o respuesta) denominada Y1, ejerce otra independiente X (regresor o estímulo). 

De  lo que se  trata es extraer  de grandes cantidades de datos  las  características esenciales de una relación que no es evidente, ajustando a ellos una ecuación empírica que sea razonablemente precisa para entre otras cosas, poder predecir el comportamiento de Y según varíe el de X. 

Suponemos esta relación lineal (asume la forma de la ecuación clásica de una línea recta) a la cual le adjuntamos un error asociado.

Como   no   se   espera   que   estas   variables   hayan   sido   observadas   bajo   condiciones   completamente controladas, para el análisis de regresión existen una multiplicidad de tests que prueban la confiabilidad de los resultados   obtenidos.   En   esta   sección   y   en   la   siguiente,   dedicada   al   Análisis   de   Regresión   Múltiple,   los estudiaremos uno a uno.

La ecuación de regresión simple se define de la siguiente manera: Y i= b0b1X ii (1)                 GRÁFICA Nº1

Ésta es la ecuación real a la cual sin embargo sólo nos podemos aproximar aplicando una metodología. Ésta  son  los Mínimos Cuadrados Ordinarios (MCO), con los cuales podemos hacer una estimación de  los parámetros o coeficientes reales

b0 y  b1 . Estos parámetros estimados se denominan b0

y b1 . La ecuación de regresión estimada resulta entonces:

Y i= b0b1X ie i

(2)

donde e i se denomina residuo. Más adelante lo estudiaremos en profundidad.

El   método   de   MCO   es   una   técnica   que   nos   permite encontrar las estimaciones de los parámetros en la ecuación de regresión,   minimizando   la   suma   de   los   cuadrados2  de   las diferencias entre los valores observados de la variable respuesta

Y i y aquellos proporcionados por la ecuación de predicciónY i

, esto es, minimizando la sumatoria de los cuadrados de los 

residuos.  Lo que se busca es ajustar  la mejor  línea recta a  la muestra de observaciones  X e Y.   Involucra minimizar   la   suma 

vertical3 de los cuadrados de las desviaciones de los puntos hacia la línea de regresión4.

1.1.1  Las presunciones del modelo de regresión.

El modelo de regresión lineal clásico (MRLC) necesita de 10 presunciones básicas:

Supuesto 1: El modelo de regresión es lineal en los parámetros (los bi de la ecuación de regresión), esto es, ningún parámetro en el modelo aparece como un exponente ni es multiplicado o dividido por cualquier otro parámetro.

Supuesto 2: Se asume que X no es aleatorio. Supuesto 3: El error i correspondiente a cualquier valor X i , posee media condicional cero. De esta 

manera, Y i= b0b1X i nos da el valor promedio de Y.Supuesto 4: Existe homocedasticidad, esto es, dado un valor de X i , la varianza condicional de i es 

1 El estudio de la regresión sobre una variable dependiente cualitativa lo haremos en la sección 4, capítulo 3: 'Modelos de elección binarios'.2 Consideramos los cuadrados en el método de MCO, pues de lo contrario las desviaciones de igual tamaño pero opuestas en signo se anularían. Además, con esto a las grandes desviaciones les entregamos un mayor peso que a las pequeñas.3 Se consideran las desviaciones verticales porque intentamos explicar o predecir  los movimientos en la variable dependiente Y, los cuales se miden a lo largo del eje vertical.4 Con la instrucción segments graficamos en R las líneas de los puntos a la recta de regresión estimada:>a1<­lm(a$V2~ a$V1)>segments(a$V1, fitted(a1), a$V1, a$V2, col="red")

1

Page 8: Análisis de regresión para sociólogos

la misma para todas las observaciones. Las poblaciones Y i correspondientes a los diversos valores X i  tienen la misma varianza: Var i= 2 con lo que los coeficientes de la regresión son eficientes5 y los test de hipótesis estadísticas sobre ellos no sesgados6.     

Los supuestos 3 y 4 nos indican que el error i se distribuye normalmente: N 0; 2 . Esto implica 

que también Y i y los parámetros de la regresión se distribuyen normalmente, lo que nos permite hacer pruebas de significación estadística.

Supuesto 5: No existe autocorrelación entre los errores. Esto es, dado dos valores X cualquiera X i y  X j

, la covarianza7 entre i y j es cero: Eij= 0 ∀ i≠ jSupuesto 6: i y X i    no están correlacionados. Así suponemos que cada Y se compone de un valor 

real y otro aleatorio no observable.         Supuesto 7: El número de observaciones n debe ser mayor que el número de parámetros a ser estimados. 

Alternativamente, el número de observaciones n debe ser mayor que el número de variables independientes.Supuesto 8: Debe existir una suficiente variabilidad en los valores tomados por los regresores. Supuesto 9: El modelo de regresión está correctamente especificado, esto es, posee una forma funcional 

correcta.   Así,  cualquier variación en Y que no pueda explicarse por medio de  la ecuación de regresión es exclusiva responsabilidad de un error aleatorio.

Supuesto 10: No existe ninguna relación lineal casi perfecta entre ningún regresor con otro. Caso contrario estamos  en presencia de multicolinealidad,  que  implica una casi  perfecta  relación  lineal  entre   las  variables independientes. Esto es un problema del análisis de regresión con varias variables independientes que veremos en detalle en la sección 3, capítulo 4: 'Problemas en el análisis de regresión: Multicolinealidad'.

1.2 PRIMERAS CONSIDERACIONES

  Supongamos   dos   conjuntos: {Y1, Y2 , ..., Yn} y {X1, X2, ... , Xn} que   representan   n   mediciones   de   una variable respuesta Yi que se han observado bajo un grupo de n mediciones de una variable de predicción Xi . El ARS se inicia con la conjetura de que existe linealidad en la relación entre Y i y X i , por lo que lo 

primero que haremos en el ARS, ya que nos es posible8, será graficar las Y i versus las X i para verificar este supuesto inicial y fundamental9.

Ejemplo Nº1:  Esperanza de vida y su relación con el PIB PPA para el año 2005 en 174 países.

Existe una relación entre el Producto Interno Bruto (PIB) per cápita de un país y la esperanza de vida para el   mismo   en   periodos   de   tiempo   próximos,   pues   a   mayor   PIB   per   cápita,   y   suponiendo   una   distribución razonablemente justa del ingreso, tenemos razones para creer que existe una mejor calidad y cobertura de la atención médica, que las condiciones de salubridad son mayores y que las necesidades de alimentación están bien cubiertas para una amplia mayoría de la población.

La base de datos Nº1 nos entrega los valores de la esperanza de vida en años al momento de nacer Yi y el PIB (corregido a paridad de poder adquisitivo) per cápita en US$ Xi al 2005 para 174 países.

Leamos los datos en R (que hemos almacenado bajo un editor de textos con el nombre a.txt en C:) y grafiquemos   la   esperanza   de   vida   como   variable   dependiente   y   el   PIB   PPA   per   cápita   como   variable independiente:

Los parámetros  a$V1  y  a$V2  representan  las variables de  las columnas Y y X respectivamente,  col  lo usamos para asignar a los puntos color, xlab e ylab los utilizamos para asignar nombres a las variables del gráfico y main lo utilizamos para el título del mismo.

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')>jpeg(file='a.jpeg', width=500, height=500)

5 Sus varianzas son mínimas en torno al valor verdadero  bi .6 El promedio de los  bi nos da el valor de  bi .

7 La covarianza refleja la relación lineal que existe entre dos variables y se define como: Cov XY = ∑ x iy i

n−1= ∑ Xi−X Y i−Y

n−18  Si  bien   se   puede  en   el  análisis   de   regresión  múltiple   tener  una  representación  gráfica   de  dos   variables   independientes  en   un  espacio tridimensional, esto ya resulta imposible para tres o más.9 Es importante que el lector esté consciente de que no es posible establecer una relación causa­efecto entre las Y y las X.

2

Page 9: Análisis de regresión para sociólogos

Análisis de regresión simple

>par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')>dev.off()10

                           GRÁFICA Nº2

                                                        GRÁFICA Nª3

Observemos   que   tenemos   dos   datos   aberrantes: Guinea Ecuatorial y Luxemburgo

Excluyámoslos,  grafiquemos  nuevamente,   tracemos   la línea de regresión asociada a las variables y apliquemos nuestro primer análisis de regresión a estos datos (con la instrucción lwd asignamos el grosor a una línea):

>abline(lm(a$V1~a$V2), lwd=3, col='red')>a1<­lm(a$V1~ a$V2)>summary(a1)

1.2.1 Primera interpretación de resultados.

1.   Los   valores   que   nos   entrega   R   como   coeficientes estimados (Coefficients Estimate) nos dan la intercepción de la recta de regresión con el eje Y (o lo que es lo mismo, cuando X= 0) que R denomina (Intercept) y el valor de la pendiente de la recta, denominado por R en este caso a$V2.

En   nuestro   ejemplo,   el   coeficiente   estimado   de intercepción con el eje Y es 60,15 y el coeficiente estimado de la pendiente de  la recta es 0,0007062. Este último valor es clave, pues nos  indica  la razón de cambio en  la variable dependiente por cada cambio en el valor de una unidad de la independiente. Así por cada cambio en US$ 1 del PIB PPA per cápita, los países del mundo aumentan 0,0007062 años su espectativa de vida al nacer (0,2578 dias o 6 horas). Para verlo de manera mas clara, por cada aumento de US$ 10000, la esperanza de vida aumenta 7,062 años.

60,15 y 0,0007062 son los parámetros estimados b0 y  b1 respectivamente.2.   Los   valores   t   (Coefficients   t   value)   son   importantes   porque   nos   permiten   probar   la   significación 

estadística de  los  coeficientes  estimados.  Este valor  debe compararse con el  valor   límite de  la  estadística  t asociada  a los grados de libertad11 y el nivel de significación elegido.

10 De ahora en adelante omitiremos las últimas 3 líneas, pues sólo nos sirven para guardar nuestros gráficos en C:.11 n­k donde n es el número de casos y k el número de parámetros a estimar.

3

FUENTES: PIB PPA per cápita 2005: http://www.imf.org/external/data.htm Espectativa de vida al nacer 2005: http://hdrstats.undp.org/es/indicators/2.html 

BASE DE DATOS Nº1

PAÍS

Albania 76,2 5323,118Algeria 71,7 7175,777Angola 41,7 2828,850Antigua y Barbuda 73,9 11604,383Argentina 74,8 13153,390

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Venezuela 73,2 5801,392Vietnam 73,7 2782,199Yemen 61,5 745,176Zambia 40,5 911,352Zimbabwe 40,9 2412,635

Y i Xi

Page 10: Análisis de regresión para sociólogos

Para nuestro ejemplo, a un 95% de significación y con  172  grados   de   libertad     (Hacemos   un   test  de  dos colas,   con   lo   que 1−/2 =  1   –   0,05/2   =   0,975) calculando con R obtenemos:

>qt(0.975,172)[1] 1.973852

Vemos   que   ambos   valores   de   t   (69,51   y   11,9), superan este  valor,   siendo por   tanto ambos  parámetros estimados significativos al 95%

3. El valor  R2 (Multiple R­squared) mide el grado de asociación lineal entre variables. Si todos los puntos de yacieran sobre la  línea de regresión estimada este valor valdría 1. Para nuestro ejemplo: R2

= 0,4546De   ahora   en   adelante   asociaremos   los   tres 

primeros resultados de la siguiente manera:

Y= 60,150,0007062X R2= 0,4546

69,51 11,9

4. La estadística F es un método para probar la hipótesis nula : H0 : b1= 0 , esto es, que no existe una relación lineal entre X e Y,  contra la alternativa H1: b1≠ 0 . Un valor pequeño de F implicará un ajuste pobre y sugerirá   la   ausencia   de   una   asociación   lineal   entre   X   e   Y.   Un   valor   alto   de   F   implicará   que   una   porción considerable de la variación en las observaciones es atribuíble a un efecto lineal de X sobre Y. De todas formas, debe compararse nuestro valor F con el valor límite tabulado al nivel de significación elegido y los grados de libertad determinados por el modelo, en este caso 1 y n­2 (mas adelante explicaremos el porqué estos valores).

En nuestro ejemplo: F­statistic: 141,7. Calculemos F con R:

>qf(0.95,1,172)[1] 3.896092 3,896 141,7 con lo que rechazamos la hipótesis nula.

5. Los valores Pr(>|t|) nos  indican el nivel de significación que posee cada parámetro estimado. Por ejemplo para el coeficiente 0,0007062 su Pr(>|t|) asociado es <2e­16,  lo que significa que este parámetro es significativo hasta un (1­2e­16)∙100%. Prácticamente un 100%.

Observemos que el  modelo a pesar  de poseer coeficientes estimados extremadamente significativos estadísticamente, posee un R2 demasiado bajo debido a que los puntos no presentan un claro patrón lineal. A continuación vamos a solucionar este problema.

1.2.2 Linealización de variables.

Podemos solucionar el  problema de  la no  linealidad de  los datos de este ejemplo,  transformándolos 

según alguna forma funcional del tipo recíproco  Y= b0b1

X o bien del tipo semi­log:  Y= b0b1 ln X , 

pues el patrón de los puntos así nos lo sugiere.En   el   primer   capítulo   de   la   sección   tercera:   'Formas   funcionales'   trataremos   con   detalle   estas 

transformaciones. Por el momento, sólo realicemos regresiones lineales según las dos transformaciones expuestas e interpretémoslas. Decidiremos cuál de las dos resulta la mejor forma funcional.

a)  Y= b0b1

X  Forma funcional recíproca.

Grafiquemos los puntos de la tabla Nº1 y la recta de regresión a ellos asociada:

>a <­ read.table('a.txt')>par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='1/PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre 1/PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')>abline(lm(a$V1~a$V2), lwd=3, col='red')

4

SALIDA Nº1

Call:lm(formula = a$V1 ~ a$V2)

Residuals:      Min        1Q    Median    3Q       Max    ­22.904   ­3.692    1.841    5.999    12.295 

Coefficients:                        Estimate        Std. Error        t value        Pr(>|t|)    (Intercept)        6.015e+01      8.653e­01        69.51         <2e­16 ***a$V2                7.062e­04       5.933e­05        11.90         <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 8.072 on 170 degrees of freedomMultiple R­squared: 0.4546, Adjusted R­squared: 0.4514 F­statistic: 141.7 on 1 and 170 DF,  p­value: < 2.2e­16 

Page 11: Análisis de regresión para sociólogos

Análisis de regresión simple

              GRÁFICA Nº4

Observemos que ahora   las   variables lucen   mucho   más linealizadas,   aunque   a medida   que   aumenta la   variable independiente   mayor es   la   dispersión   de   la dependiente. Éste es el fenómeno   de   la heterocedasticidad del cual   ya   hemos hablado.

Apliquemos   un análisis de regresión:

>a1<­lm(a$V1~ a$V2)>summary(a1)

Nuestra ecuación de regresión resulta entonces:

Y= 74,74−23790 Zi R2= 0,5703

101,89 −15,02

Donde  Z i= 1X i

El valor  R2 está mas cerca de 1 (0,5703), por lo que   concluímos   que   la   forma   funcional   recíproca propone una mejor  linealización de  las variables que el caso original, pero continúa siendo regular.

Grafiquemos   nuestras   variables   originales (excluyendo los dos datos aberrantes) y la curva que se 

obtiene de la expresión:  Y= 74,74−23790∙ 1Xi

                GRÁFICA Nº5 

     >a <­ read.table('a.txt') >x <­ seq( 0 ,50000,length = 100) >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >lines(x, 74.74 ­23790* 1/x, type='l', col= 'red', lwd=3)  

                                                          La   curva   obtenida   nos   da   información   precisa   del 

comportamiento de Y i a medida que varían las X i . Existe una línea asintótica representada por la recta Y= 74,74  b0

sobre la cual el valor de la esperanza de vida no es superado.

5

TABLA Nº1

PAÍS

Albania 76,2 0,00018786Algeria 71,7 0,00013936Angola 41,7 0,00035350Antigua y Barbuda 73,9 0,00008617Argentina 74,8 0,00007603

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Venezuela 73,2 0,00017237Vietnam 73,7 0,00035943Yemen 61,5 0,00134196Zambia 40,5 0,00109727Zimbabwe 40,9 0,00041448

Y i 1 /Xi

SALIDA Nº2

Call:lm(formula = a$V1 ~ a$V2)

Residuals:     Min       1Q      Median      3Q       Max   ­29.249  ­2.076     1.453       4.588   18.680 

Coefficients:                        Estimate       Std. Error     t value   Pr(>|t|)    (Intercept)       7.474e+01     7.336e­01     101.89   <2e­16 ***a$V2              ­2.379e+04    1.584e+03     ­15.02    <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 7.164 on 170 degrees of freedomMultiple R­squared: 0.5703, Adjusted R­squared: 0.5678 F­statistic: 225.6 on 1 and 170 DF,  p­value: < 2.2e­16 

Page 12: Análisis de regresión para sociólogos

b) Y= b0b1 ln X Forma funcional semi­log.

Grafiquemos los puntos de la tabla Nº2 y  la recta de regresión a ella asociada:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Ln PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el Ln PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red')

Y apliquemos un análisis de regresión:

>a1<­lm(a$V1~ a$V2)>summary(a1)

                GRÁFICA Nº6

 

                  GRÁFICA Nº7

Nuestra ecuación de regresión resulta entonces:

Y= 0,20747,7435 Zi R2= 0,644 Donde  Z i= ln Xi

0,054 17,535

Grafiquemos  nuestras  variables  originales   (excluyendo los   dos   datos   aberrantes)   y   la   curva   que   se   obtiene   de   la expresión:  Y= 0,20747,7435 ∙ lnX i

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el PIB PPA per cápita", "y la esperanza de vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >lines(x, 0.2074+7.7435*log(x), type='l', col= 'red', lwd=3)

El valor R2 está más cerca que el ejemplo anterior a 1 (0,644), por lo que concluímos que la forma funcional semi­log es una mejor linealización del modelo original que la recíproca.

6

SALIDA Nº3

Call:lm(formula = a$V1 ~ a$V2)

Residuals:      Min         1Q        Median        3Q         Max   ­25.5378   ­2.2021     0.8045       4.0142    12.0787 

Coefficients:                        Estimate   Std. Error   t value   Pr(>|t|)    (Intercept)           0.2074    3.8633       0.054     0.957    a$V2                   7.7435    0.4416      17.535   <2e­16 ***   ­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 6.522 on 170 degrees of freedomMultiple R­squared: 0.644, Adjusted R­squared: 0.6419 F­statistic: 307.5 on 1 and 170 DF,  p­value: < 2.2e­16 

TABLA Nº2

PAÍS

Albania 76,2 8,580Algeria 71,7 8,878Angola 41,7 7,948Antigua y Barbuda 73,9 9,359Argentina 74,8 9,484

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Venezuela 73,2 8,666Vietnam 73,7 7,931Yemen 61,5 6,614Zambia 40,5 6,815Zimbabwe 40,9 7,788

Y i ln Xi

Page 13: Análisis de regresión para sociólogos

Análisis de regresión simple

1.3 ESTIMACIÓN DE LOS PARÁMETROS POR EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MCO) PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES

Consideremos   un   modelo   de   la   forma Y i= b0b1X ii donde i= 1,2,... , n y b0 y b1 son   los parámetros reales pero desconocidos.

Y i es una variable aleatoria que es la suma de dos componentes, el término no aleatorio b0b1X i y la componente aleatoria i .

La sumatoria del cuadrado de la i­ésima desviación o error  i= Y i−b0b1 X i es:

∑ i2= ∑ Y i−b0−b1 X i

2 (3)

Los estimadores por  MCO de   b0 y   b1 se obtienen derivando parcialmente  la ecuación anterior respecto a b0 y b1 e igualando a cero cada una.

Primera ecuación normal:∂∑ i

2

∂ b0

= ∂∑ Y i−

b0−b1X i

2

∂ b0

= 0 −2∑ Yi−b0−

b1 X i= 0     ∑ Y i= n b0b1∑ X i (4)     

Segunda ecuación normal:∂∑ i

2

∂ b1

= ∂∑ Y i−

b0−b1X i

2

∂ b1

= 0 −2∑ Xi Y i−b0−

b1 X i= 0 ∑X i Y i= b0∑ X ib1∑ X i

2 (5)

Sustituyendo una ecuación normal dentro de la otra obtenemos el valor de los parámetros estimados.Despejemos  b0 de la primera ecuación normal:

∑ Y i= n b0b1∑ X i b0=

∑ Y i

n− b1

∑X i

nEsta expresión también puede escribir:

b0= Y− b1X   (6)

Sustituyendo el valor de  b0 en la segunda ecuación normal obtenemos:

  ∑X i Y i= b0∑ X ib1∑ X i

2 ∑X i Y i= [∑ Y i

n− b1

∑X i

n]∑ X i

b1∑ X i2

∑X i Y i= ∑Y i∑ X i

n−

b1∑X i2

n b1∑ Xi

2 b1 [∑X i2−∑ X i

2

n]= ∑ X i Y i−

∑ Yi∑X i

ny así:

b1= ∑ X i Y i−

∑ Yi∑X i

n

∑ X i2−∑ X i

2

n

(7)

Ejemplo Nº2: Robos   por   cada   1000   habitantes   y   %   de   población   viviendo   bajo   la   pobreza   en condados con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. (excluyendo los 6 condados más atípicos) (23 casos).

La Teoría de la Economía Alternativa Informal e ilegal (Cooper: 2000), afirma que los trabajos informales alternativos  e  ilegales  surgen en  la medida en que  la economía formal  no es capaz de otorgar  los puestos laborales   formales   necesarios   para   un   número   importante   de   personas.   Es   así   que   la   economía   informal alternativa e   ilegal  es  una  forma de obtener   ingresos  que permiten una subsistencia  inalcanzable  por  otros medios, esto al menos, en el caso de los ladrones comunes. 

La base de datos Nª2 nos entrega información del número de robos cada 1000 habitantes Y i y el % de población pobre Xi en condados con una población superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. (excluyendo los 6 condados más atípicos)

Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión lineal de la tasa de delitos sobre el % de población pobre.

7

Page 14: Análisis de regresión para sociólogos

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='% de población pobre', ylab='Tasa de robos', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre el % de población pobre", "y la tasa de robos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red')

>a1<­lm(a$V1~ a$V2)>summary(a1)

  GRÁFICA Nº8

Calculemos los coeficientes con nuestras fórmulas:

b1= ∑ X i Y i−

∑ Yi∑X i

n

∑ X i2−∑ X i

2

n

b1= 245,555−19,135 ∙237,79

23

2763,834−237,79 2

23b1=

245,555−197,8312763,83−2458,438

b1= 47,724305,392

b1= 0,156

b0= 0,832−0,156∙ 10,339 b0= −0,781b0= Y− b1

X

Y   vemos   que   coinciden   con   los   datos entregados por R.

8

SALIDA Nº4

Call:lm(formula = a$V1 ~ a$V2)

Residuals:      Min        1Q       Median      3Q       Max   ­0.7010   ­0.3391     ­0.1666    0.3231  1.0298 

Coefficients:                        Estimate    Std. Error    t value    Pr(>|t|)    

­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.5321 on 21 degrees of freedomMultiple R­squared: 0.5564, Adjusted R­squared: 0.5353 F­statistic: 26.34 on 1 and 21 DF,  p­value: 4.391e­05 

(Intercept)        ­0.78355     0.33377     ­2.348      0.0288 *  a$V2                 0.15626     0.03045      5.132     4.39e­05 ***  

BASE DE DATOS Nº2

CONDADO

Adams County 0,285 11,324Boone County 0,150 9,790DeKalb County 0,428 10,454DuPage County 0,277 4,725Kane County 0,538 7,782

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Tazewell County 0,267 7,789Vermilion County 1,762 17,839Whiteside County 0,237 10,982Will County 0,504 5,821Winnebago County 2,329 13,624

Y i Xi

FUENTES: Población viviendo bajo el nivel de la pobreza al 2007 en el Estado de Illinois: http://www.ers.usda.gov/Data/PovertyRates/Povlistnum.asp?TheState=IL%2CIllinois Tasa de robos por cada 100.000 en el Estado de Illinois al 2007: http://www.isp.state.il.us/crime/cii2007.cfm Estimación de la poblaci ón de los condados de Illinois al 1 de Julio del 2007:http://www.census.gov/popest/counties/CO­EST2008­01.html

TABLA Nº3

CONDADO

Adams County 0,285 11,324 3,222 128,243Boone County 0,150 9,790 1,471 95,838DeKalb County 0,428 10,454 4,473 109,296DuPage County 0,277 4,725 1,311 22,322Kane County 0,538 7,782 4,187 60,555

∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

Tazewell County 0,267 7,789 2,083 60,664Vermilion County 1,762 17,839 31,428 318,213Whiteside County 0,237 10,982 2,605 120,596Will County 0,504 5,821 2,933 33,880Winnebago County 2,329 13,624 31,727 185,605

19,135 237,790 245,555 2763,834

Y i Xi Xi Y i Xi2

∑Y i= 0,832 X i= 10,339

Page 15: Análisis de regresión para sociólogos

Análisis de regresión simple

1.3.1 Graficando los residuos estandarizados.

Los residuos e i son muy importantes debido a que proporcionan abundante información sobre lo que puede fallar en el modelo de regresión estimado.

Con el  siguiente comando graficamos  los  residuos estandarizados,  pero antes debemos descargar  la librería MASS e instalarla12:

>library(MASS) >a1 <­ (lm(a$V1~a$V2)) >par(bg = "Ivory 2") >plot(a$V2,stdres(a1), col=3, xlab='% de población pobre', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos estandarizados", "versus variable independiente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x <­ seq( 3, 19, length = 100)    >lines(x, x­x, type="l", col= 'red', lwd=3)                                                                                                                            GRÁFICA Nº9

El valor residual es la distancia vertical que existe entre una   observación   determinada   y   el   punto   sobre   la   recta estimada de regresión para la misma observación.

Un residuo representa la cantidad en la que un valor estimado falla para predecir  la media de la correspondiente observación. Por lo tanto, entre mayor sea un residuo, mayor tendería  a  ser   el   efecto  de  la   componente  aleatoria   en   el modelo.

1.3.2 La   varianza   residual   o   cuadrado   medio   del error (CME):  S2

Según los supuestos iniciales, la varianza de la variable respuesta Var Y i= 2 es igual a la varianza del error, que es constante para todos los valores de la variable de predicción

X i .   El   estimador   de   esta   varianza 2 es S2 y   se 

denomina varianza  residual  o  cuadrado medio del  error.   Se define formalmente como la sumatoria del cuadrado de  los residuos,   dividido   por   la   cantidad   de   datos   menos   los parámetros a estimar (los grados de libertad). En el caso del ARS, el denominador es n­2 ya que se pierden dos grados de libertad al tener que estimar los dos parámetros b0 y b1 antes de obtener  Y i  :

S2= ∑ Yi−

Y i2

n−2= ∑ e i

2

n−2(8)

(donde S se denomina desviación standard residual)Calculemos el cuadrado medio del error para el 

ejemplo ya visto:

S2= ∑ e i

2

n−2=

5,94621

= 0,283 S= 0,532 Que   vemos 

coincide   con   la   salida   en   R   llamada   error   standard residual.

Como  Y i estima la media de  Y i ,  Y i−Y i (el 

residuo)   es   la   desviación   de   Y i respecto   a   su   propia media. Por lo anterior es que S2 es una medida absoluta de que tan bien se ajusta la recta estimada de regresión a las medias de la observaciones de la variable respuesta. Mientras más pequeño sea el valor de  S2 , mayor ajuste tendrá el modelo.

12 Para instalar paquetes que aún no se tienen en las librerías de R, escribimos >install.packages(), seleccionamos un espejo desde el cual bajar los paquetes y lo llamamos con >library(packages).

9

TABLA Nº4

CONDADO

Adams County 0,285 11,324 0,986 0,701 0,492Boone County 0,150 9,790 0,746 0,596 0,355DeKalb County 0,428 10,454 0,850 0,422 0,178DuPage County 0,277 4,725 ­0,045 ­0,323 0,104Kane County 0,538 7,782 0,432 ­0,106 0,011

∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙

Tazewell County 0,267 7,789 0,434 0,166 0,028Vermilion County 1,762 17,839 2,004 0,242 0,059Whiteside County 0,237 10,982 0,932 0,695 0,483Will County 0,504 5,821 0,126 ­0,378 0,143Winnebago County 2,329 13,624 1,345 ­0,983 0,967

∑e i

2= 5,946

Y i XiY i

e i e i2

Page 16: Análisis de regresión para sociólogos

S2 es un estimador no sesgado de 2 mientras la forma del modelo de regresión sea la correcta.

1.3.3 Algunas propiedades de la regresión obtenida por MCO.

1  ∑ e i= 0

pues ∑ e i= ∑ Y i−Y i= ∑ Y i−

b0−b1 Xi= ∑ Yi−n b0−

b1∑ X i= n Y−n Y− b1X− b1n X= 0

2  ∑ Y i= ∑ Y i

ya que  ∑ Y i= ∑ b0b1X i= n b0

b1∑ X i y como ya hemos visto que la primera ecuación normal es  ∑ Y i= n b0

b1∑ X i ,  ∑ Y i= ∑ Y i

3  ∑X i e i= 0

pues  ∑X i e i= ∑ X iY i−Y i= ∑ X i Y i−∑X i

Y i= ∑X i Y i−∑ X ib0

b1 X i

= ∑ Xi Yi−b0∑ X i−

b1∑ X i2 Recordemos que la forma de la segunda ecuación normal es:

  ∑X i Y i= b0∑ X ib1∑ X i

2 , por lo que  ∑X i ei= 0

4  ∑ Y i e i= 0

∑ Y i ei= ∑ b0b1 Xie i= b0∑ e i

b1∑ X i ei y ya hemos visto que estas dos últimas expresiones son cero.

Las  dos últimas  propiedades  implican que  los   residuos  no están correlacionados  ni  con  las  variables predictoras ni con la predicha.

Verifiquemos   estas   propiedades   en   nuestro ejemplo:

1.4 TEST DE SIGNIFICACIÓN PARA LOS PARÁMETROS ESTIMADOS

En el modelo de regresión simple resulta más o menos evidente saber si  los parámetros estimados son coherentes comparando la recta de regresión obtenida con los puntos de las variables originales. Sin embargo, en el análisis de regresión múltiple que trataremos en la siguiente sección el problema no es tan trivial. En estos casos no tenemos una representación gráfica con la cual comparar, por lo que debemos establecer un test que evalúe la significación estadística de los estimadores de la regresión. Veamos esto para el caso del modelo lineal simple. La pregunta clave es: ¿son las estimaciones de los coeficientes obtenidos estadísticamente relevantes?

Para comenzar debemos obtener la varianza de  b0 y de  b1

1.4.1 Varianza de los estimadores por MCO de los parámetros estimados  b0 y de  b1

Definamos:   x i= X i−X y y i= Y i−Y (9)

entonces:

10

TABLA Nº5

CONDADO

Adams County 0,285 11,324 0,986 0,701 7,944 0,692Boone County 0,150 9,790 0,746 0,596 5,834 0,445DeKalb County 0,428 10,454 0,850 0,422 4,414 0,359DuPage County 0,277 4,725 ­0,045 ­0,323 ­1,525 0,015Kane County 0,538 7,782 0,432 ­0,106 ­0,822 ­0,046

∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙

Tazewell County 0,267 7,789 0,434 0,166 1,293 0,072Vermilion County 1,762 17,839 2,004 0,242 4,319 0,485Whiteside County 0,237 10,982 0,932 0,695 7,635 0,648Will County 0,504 5,821 0,126 ­0,378 ­2,200 ­0,048Winnebago County 2,329 13,624 1,345 ­0,983 ­13,399 ­1,323

19,135 19,135 0,000 0,001 0,000∑

Y i XiY i

e i Xi eiY ie i

Page 17: Análisis de regresión para sociólogos

Análisis de regresión simple

a) Var b0= 2∑ Xi

2

n∑ X i−X2 o bien Var b0=

2∑ X i

2

n∑ xi

2 (10)

Donde  2 es la varianza del error en la relación real entre Y i y X i que como hemos visto puede 

estimarse con la varianza residual S2 .

Demostración:

Hemos obtenido que: b1= ∑ X i Y i−

∑ Yi∑X i

n

[∑ X i2−∑ X i

2

n]

, pero lo anterior es equivalente a:∑ Xi−

XY i−Y

∑ Xi−X2

13

Entonces, si definimos:  Ci= X i−X

∑ X i−X2   bi= ∑Ci Y i (11)

(Notemos   que   en   la   expresión   anterior   da   lo   mismo   utilizar Yi−Y = y i o Y i ,   pues∑ Xi−

X Y i−Y= ∑ X i−

X Yi−Y∑ X i−

X= ∑ X i−X Yi ­Ya que  ∑ X i−

X = 0 ­.

Por otro lado b0= Y− b1X , entonces Var b0= VarY− b1

X (12)

Var b0= Var[∑ Yi

n−X∑Ci Y i]= Var [∑

Y i

n−XCi Y i]= Var[∑

1n−X Ci Yi]= ∑

1n−X Ci

2

VarY i

Puesto que: Var [∑ X ∙Y ]= ∑ X2Var Y 14 (13)

Var b0= 2∑ 1n2 −

2 XCi

nX2Ci

2= 2

∑ 1n2−

2 X∑ Ci

nX2∑Ci

2

Si ∑Ci= 0 (Recordemos que  ∑ X i−X = 0 ) y ∑Ci

2= 1

∑ X i−X 2y puesto que:  ∑a= n siendo 

a una constante:  ∑1n2

= 1n2 ∑ 1=

1n2

n= 1n

Var b0= 21n

X2

∑ X i−X2= 2

∑ Xi−

X 2n X2

n∑ X i−X2

Ya que:  ∑ X i−X2

= ∑ Xi2−2X i

XX2= ∑ Xi

2−2 X∑X i∑ X2

= ∑ Xi2−2n X2

n X2= ∑ X i

2−nX2

Var b0= 2∑X i

2−n X2

n X2

n∑ X i−X

2 = 2

∑X i2

n∑ X i−X2

13 Hagamos:  [∑ X iY i−∑ Y i∑ X i

n][∑ X i−X2 ] = [∑ X i−X Yi−Y ][∑ X i

2−∑ X i

2

n]

Desarrollemos la primera expresión para llegar a la segunda:

[∑ Xi Y i−∑ XiY ][∑ Xi

2−2 XiX X2 ] = ∑ X i

3Y i−Y∑ Xi3−2 X∑ X i

2Y i2 X Y∑ Xi2 X2∑ X iY i−

X2 Y∑ Xi =

∑ X i3Y i−Y∑ X i

3−X∑ X i2 Y iX Y∑ X i

2−X∑ Xi2 Y iX Y∑ Xi

2 X2∑ Xi Y i−X2 Y∑ X i = [∑ Xi

2−X∑ X i][∑ XiY i−Y∑ Xi−

X∑ Y iX Y ] =

= [∑ Xi2−∑ X i

2

n][∑ X iY i−Y X i−X Y iX Y ] = [∑ Xi

2−∑ X i

2

n][∑ Xi−X Y i−Y ]

14 La demostración de esta importante ecuación excede los propósitos de este texto.

11

Page 18: Análisis de regresión para sociólogos

Como   2 es  la varianza del error en  la relación real entre   X i y Y i que puede estimarse como 

S2 , un estimador de la desviación standard de  b0  es: S b0= S ∑ Xi2

n∑ X i−X2

(14)

b) Var b1=

2

∑ x i2 o bien Var b1=

2

∑ X i−X2(15)

Demostración:

Var b1= Var ∑Ci Y i= ∑Ci2 Var Y i= 2∑Ci

2 2∑Ci

2= 2

[∑ X i−

X 2

∑ X i−X 22 ]=

2

∑X i−X2

Entonces: S b1= S

∑ X i−X2 (16)

es la desviación standard del estimador de mínimos cuadrados de la pendiente.

Tenemos así que:

S2 b0=

S2∑X i2

n∑ xi

2 = ∑ e i

2∑ X i2

n−2 n∑ xi2

S2 b1= S2

∑ x i

2=

∑ e i2

n−2 ∑ xi2

(17)

Nótese que las varianzas de  b0 y b1 son funciones de la variable X.

Calculemos las varianzas de los parámetros estimados para el siguiente ejemplo:

Ejemplo Nº3: Suicidio y desempleo en Japón (1953­2004).

Es conocido que el deterioro de algunos factores económicos como la caída del empleo   o   las   recesiones   pueden   contribuir   a   un   aumento   de   la   tasa   de   suicidios. Wasserman   (1984)   mostró   que   en   los   Estados   Unidos   desde   1947   a   1977   los   periodos recesivos  se asocian a un aumento de  tasa de suicidios  y  que existe  una correlación estadística entre los suicidios y la duración promedio del desempleo.  Stuckler (2009) halló que por cada 1 por ciento de aumento del desempleo, existe casi un 0,8 por ciento de incremento en las tasas de suicidio en menores de 65 años estudiando 26 países de la Unión Europea.

Se  debe  tener  en consideración  sin  embargo,  que si  bien es  probado que el desempleo es un factor en la evolución de la tasa de suicidio también es cierto que entre los cesantes está sobrerepresentada la población de enfermos mentales y drogadictos, dado que ellos tienen mas dificultades para conservar su trabajo.

La base de datos Nº3 nos entrega información de la tasa de suicidios de hombresYi y la tasa de desempleo Xi entre los 

años 1953 y el 2003 en Japón.Para   orientarnos,   grafiquemos   los 

puntos, la recta de regresión a ellos asociada y ejecutemos una regresión lineal de la tasa de suicidios sobre la tasa de desempleo en Japón.

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre la tasa de desempleo", "y la tasa de suicidios en Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red')

>a1<­lm(a$V1~ a$V2)>summary(a1)

12

FUENTES: Número de suicidios de hombres en Japón (1953­2003): http://www.stat.go.jp/english/data/chouki/02.htmPoblación japonesa entre (1953­2003): http://www.stat.go.jp/english/data/chouki/02.htm% de desempleo en Japón: (1953­2003) :http://lysander.sourceoecd.org/vl=4326714/cl=22/nw=1/rpsv/factbook2009/06/02/01/index.htm

BASE DE DATOS Nº3

AÑO

1955 31,27 2,61956 29,85 2,31957 29,72 1,91958 30,82 2,21959 26,76 2,3

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

2000 34,87 4,92001 33,86 5,22002 34,80 5,52003 37,51 5,52004 35,20 4,9

Y i Xi

Page 19: Análisis de regresión para sociólogos

Análisis de regresión simple

Calculemos  S b0 y  S b1

De la salida de R tenemos que S2= 8,398 y como n= 50:

S2 b0=

S2∑X i2

n∑ xi

2 = 8,398∙371,04

50∙ 72,38= 0,861 S b0= 0,928

S2 b1=

S2

∑ xi

2=

8,39872,38

= 0,116 S b1= 0,341

  GRÁFICA Nº10

1.4.2 Test de significación para los parámetros estimados.

El test de significación de los parámetros estimados consiste en comparar el valor del cuociente entre el parámetro estimado y su respectiva desviación standard con el valor de la t de student correspondiente a los grados de libertad y el nivel de significación elegido. El parámetro clave del modelo es b1 ;  la significación estadística del parámetro estimado de la intersección con Y no tiene mayor relevancia. 

Nuestra hipótesis alternativa la establecemos así: 

Si Y se encuentra relacionada en forma lineal con X, entonces b1≠ 0  

Las variables aleatorias t0= b0−b0

S b0y t1=

b1−b1

S b1(18)

tienen una distribución t de student con n­2 grados de libertad, por lo que si queremos probar las hipótesis nulas 

H0: b0= 0 y  H0 : b1= 0 , debemos comparar  t0= b0

S b0 y t1=

b1

S b1(19)

13

SALIDA Nº5

Call:lm(formula = a$V1 ~ a$V2)

Residuals:     Min        1Q        Median      3Q      Max   ­3.9885  ­1.9864     ­0.8444    1.3186   7.7696 

Coefficients:                       Estimate   Std. Error   t value    Pr(>|t|)    (Intercept)        13.7994     0.9280      14.87    <2e­16 ***a$V2                 4.2900      0.3407      12.59    <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2.898 on 48 degrees of freedomMultiple R­squared: 0.7676, Adjusted R­squared: 0.7628 F­statistic: 158.6 on 1 and 48 DF,  p­value: < 2.2e­16 

TABLA Nº6

AÑO

1955 31,27 2,6 6,76 0,0241956 29,85 2,3 5,29 0,0211957 29,72 1,9 3,61 0,2961958 30,82 2,2 4,84 0,0601959 26,76 2,3 5,29 0,021

∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

2000 34,87 4,9 24,01 6,0322001 33,86 5,2 27,04 7,5962002 34,80 5,5 30,25 9,3392003 37,51 5,5 30,25 9,3392004 35,20 4,9 24,01 6,032

371,04 72,38

x i2Xi

2XiY i

∑X= 2,444

Page 20: Análisis de regresión para sociólogos

con la t correspondiente a los grados de libertad y el nivel de significación elegido.

Calculemos para nuestro ejemplo: t0= b0

S b0=

13,7990,928

= 14,872 t1= b1

S b1=

4,290,341

= 12,594

A un 95% de significación y  con 48  grados de  libertad  (hacemos un  test  de dos  colas,  con  lo que1−/2 = 1 – 0,05/2 = 0,975) calculando con R obtenemos nuestro t:

>qt(0.975,48)[1] 2.010635

Si t i −t o t ti ,  nuestro bi es estadísticamente significativo al  nivel  elegido,  lo  cual  es  nuestro caso, pues: 2.01 14,872 y 2.01 12,594

Así que se rechaza la hipótesis nula.

1.4.3 Demostración de que los parámetros estimados por MCO son estimadores no sesgados de los parámetros reales.

a) Demostración de que  b1 es un estimador no sesgado de  b1 :  E b1= b1 (20)

Se deben demostrar dos cosas:

1 Que  b1 es combinación lineal de  Y1 , ..., Yn

∑ X i−X Yi−

Y= ∑ Xi−X Yi−

Y∑ Xi−X = ∑ X i−

X Y i

Por definición  b1= ∑ X i−

XY i−Y

∑ X i−X2 =

∑ Xi−X y i

∑ X i−X2 Si Ci=

X i−X

∑ X i−X2 entonces  b1= ∑Ci y i

2 Que  E b1= b1

E b1= E∑ Ci Yi= ∑CiE Y i= ∑Cib0b1 Xi= b0∑Cib1∑Ci X i

2.1 ∑Ci= ∑ X i−X

∑ X i−X2

= 0

2.2  ∑Ci X i= ∑ X i−

XX i

∑X i−X2 =

∑ Xi2−XX i

∑ X i2−2n X2

n X2= 1 ya que X=

∑ X i

n ∑ Xi= n X y

∑ X i−X2

= ∑ Xi2−2X i

XX2= ∑ Xi

2−2 X∑X i∑ X2

= ∑ Xi2−2n X2

n X2= ∑ X i

2−nX2

Entonces queda así demostrado que  E b1= b1

b) Demostración de que  b0 es un estimador no sesgado de  b0 E b0= b0 (21)

Dado que el estimador de MCO de b0  es:  b0= Y− b1X , como  b1 es una combinación lineal de 

la observaciones  Y1, Y2, ... Yn entonces  b0 también es combinación lineal de las observaciones. Por otro lado:

E b0= EY− b1X = EY−XE b1=

∑Y i

n−X b1=

∑ b0b1X i

n−Xb1

nb0b1∑ X i

n−Xb1= b0b1

X−b1X= b0

1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE

1.5.1  Intervalos de confianza para los parámetros estimados.

14

Page 21: Análisis de regresión para sociólogos

Análisis de regresión simple

Un  intervalo de confianza para  los  parámetros  verdaderos b0 y b1 ­esto es,   la  región donde con cierta probabilidad se  encuentran,  al  nivel  de  significación  establecido y  para  cierto  grado de  libertad­   se construye   sumando   y   restando   al   parámetro   estimado   su   propia   desviación   standard   multiplicada   por   la estadística t asociada.

Para  b0 y b1 los intervalos de confianza entonces quedan como:

b0± t ∙ S b0 y b1± t ∙S b1       (22)

Como ya lo hemos visto, la variable aleatoria b1

S b1tiene una distribución t de student con n­2 grados 

de   libertad,   por   lo   que   la   probabilidad   de   que   b1 se   encuentre   dentro   del   intervalo [ b1− t1−/2,n−2 ∙ S b1; b1 t1−/2,n−2 ∙S b1] es P[ b1− t1−/2,n−2 ∙S b1 b1 b1 t1−/2, n−2 ∙ S b1]= 1−

Así nuestro intervalo es b1± t1−/2,n−2 ∙ S b1 (23)

Para el caso de  b0 procedemos de manera análoga.

Consideremos el siguiente ejemplo:

Ejemplo Nº4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporción de niños  (bajo 18 años) viviendo en familias lideradas por un solo padre (2004).

La presencia  o  ausencia   relativa  de   figuras  paternas  en  una comunidad,  parece estar   fuertemente correlacionada con la tasa de criminalidad.

En los Estados Unidos el 70% de los delincuentes juveniles, de los homicidas menores de 20 años y de los individuos arrestados por violación y otras ofensas sexuales graves crecieron sin padre. 

La   relación  entre  ausencia  del  padre   y   delincuencia   surge   de   numerosos   trabajos  de   investigación (Adams, Milner & Schrepf, 1984; Anderson, 1968; Chilton & Markle, 1972; Monahan, 1972; Mosher, 1969; Robins & Hill, 1966; Stevenson & Black, 1988; Wilson & Herrnstein, 1985; Bohman, 1971; Kellam, Ensminger & Turner, 1977). 

La base de datos Nº4 nos entrega la tasa de asesinatos por cada 100.000 habitantes al 2006  Y i y la proporción de niños (menores de 18 años) viviendo en familias uniparentales al 2004  Xi para los 50 Estados norteamericanos (excluímos Washington D.C.)

Para orientarnos, grafiquemos los puntos, la recta de regresión a ellos asociada y corramos una regresión de la tasa de asesinatos sobre la proporción de familias uniparentales:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Tasa de familias uniparentales', ylab='Tasa de homicidios', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre la tasa de familias uniparentales", "y la tasa de homicidios",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red')

>a1<­lm(a$V1~ a$V2)>summary(a1)

15

FUENTES: Proporción de niños (bajo 18 años) viviendo en familias lideradas por un solo padre (2004):http://www.thenationalcampaign.org/Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU:http://www.infoplease.com/ipa/A0004912.html

BASE DE DATOS Nº4

ESTADO

Alabama 8,3 37Alaska 5,4 30Arizona 7,5 33Arkansas 7,3 35California 6,8 31

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Virginia 5,2 29Washington 3,0 29West Virginia 4,1 31Wisconsin 3,0 28Wyoming 1,7 27

Y iXi

Page 22: Análisis de regresión para sociólogos

       GRÁFICA Nº11                          

         

Ahora calculemos los intervalos de confianza para los parámetros estimados según R:

>confint(a1, level= 0.95)

Hagamos nuestros propios cálculos y verifiquémoslo:

Hemos visto que para un 95% de significación y con 48 grados de libertad, calculando con R obtenemos:

>qt(0.975,48)[1] 2.010635 

Así:  b1± t1−/2, n−2 ∙ S b1= 0,39705± 2,010635∙ 0,04786 ­> [0,301; 0,493]

2.­ De R obtenemos que  b0= −7,50664 y S b0= 1,49841

Así:  b0± t1−/2,n−2 ∙S b0= −7,50664±2,010635∙1,49841 ­> [­10,519; ­4,494]

Vemos que ambos resultados coinciden con los entregados por R.

1.5.2 Estimación del intervalo de confianza para los valores promedios de la variable respuesta.

Un intervalo de confianza para los valores promedios de la variable respuesta es una región, donde a un nivel de significación determinado, la variable independiente yace. 

Para el modelo lineal simple, la recta de regresión estimada permite obtener un estimador para la media de  la  variable  respuesta para cada valor  de  la  variable de predicción   X i : Y i= b0

b1X i ,  por  otro   lado Y= b0

b1X implica que  b0= Y− b1

X por lo que  Y i= Y− b1X b1 X i Así: Y i= Y b1X i−X

Entonces la varianza del estimador de la variable respuesta es: Var Y i= S2 Y i= Var [ Y b1X i−

X]

Ya hemos visto que b1= ∑Ci y i entonces Var [∑ Yi

nXi−X ∑Ci Y i]= Var [∑

1nCi X i−X Y i]

Observemos que: Var [∑ 1nCiX i−

XY i]= ∑ 1nCiX i−

X 2

VarY i y desarrollemos:

16

SALIDA Nº6

Call:lm(formula = a$V1 ~ a$V2)

Residuals:      Min        1Q       Median      3Q        Max   ­3.7899   ­1.0143    ­0.2414    1.1005    4.5012 

Coefficients:                          Estimate    Std. Error   t value     Pr(>|t|)    (Intercept)          ­7.50664     1.49841    ­5.010     7.80e­06 ***a$V2                   0.39705     0.04786     8.297     7.87e­11 ***    ­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.669 on 48 degrees of freedomMultiple R­squared: 0.5892, Adjusted R­squared: 0.5806 F­statistic: 68.83 on 1 and 48 DF,  p­value: 7.873e­11 

SALIDA Nº72,5% 97,5%

(Intercept) ­10,5193867 ­4,4938931a$V2 0,3008243 0,4932663

Page 23: Análisis de regresión para sociólogos

Análisis de regresión simple

∑ [1nCi X i−X ]

2

Var Yi= 2[∑

1n2

2X i−X

n∑CiXi−X

2∑Ci2] Recordemos que ∑Ci= 0 y

  Ci= X i−X

∑ X i−X2 entonces: ∑Ci2= ∑ [

Xi−X

2

∑ X i−X4 ]=

∑ X i−X2

∑ X i−X4=

1

∑ X i−X2

Es así que la varianza del estimador de la variable respuesta resulta: S2 Y i= 2

[1n

Xi−X

2

∑ Xi−X

2 ] (24)

por lo que un estimador de la desviación standard de  Y i está dado por:  S Y i=S[ 1n

X i−X

2

∑ Xi−X

2] (25)

Tenemos entonces que Y i es un estimador no sesgado de la media de  Y i que tiene una distribución normal con:

media  EY i= b0b1X i= E b0b1 X i= E Y i y varianza   S2

Yi= 2[1n

X i−X2

∑ X i−X2 ]

Por otro lado, la distribución de muestreo de [ Y i−EY i]

S Y i(26)

es la t de student con n­ 2 grados de libertad. Por lo anterior, la probabilidad de que EY i se encuentre dentro del intervalo aleatorio: [ Yi− t1−/2, n−2 ∙ S Yi ; Y i t1−/2, n−2 ∙ S Y i] es 1− o bien,   el  intervalo de confianza 

del  1001−% para  Y i es: Y i± t1−/2,n−2 ∙S Y i (27)

Calculemos estos intervalos para el ejemplo Nº4:

Con la siguiente instrucción obtenemos los valores numéricos de los   límites   superior   e   inferior   del   intervalo   de   confianza   para   el   valor promedio de Y al 95% de significación:

>predict(a1,interval="confidence", level = 0.95) 

Corroboraremos lo anterior calculando los Y i± t1−/2, n−2 ∙ S Yi y graficando las curvas:

Y iSuperior , Inferior= b0b1 ∙ X i± t ∙S 1

n

X i−X

2

∑ X i−X

2para   el   rango   de 

X(15 ; 50).  Como b0= −7,50664 ; b1= 0,39705 ;  t= 2.010635; S= 1,669; 

n=   50; X= 30,92 y ∑ X i−X2

= 1215,68 ,   los   límites   superiores   e inferiores del intervalo de confianza para  Y i son:

Y iSuperior , Inferior= −7,506640,39705∙X i± 2,010635∙ 1,6690,02X i−30,92 2

1215,68

Introduciendo  los datos de   X i en  la ecuación anterior  obtenemos  los valores de  la tabla Nº7.

Grafiquemos estos intervalos haciendo los  X i continuos:

>x <­ seq( 15 ,50,length = 100) >lines(x, ­7.50664+0.39705 * x + 2.010635 * 1.669*  ((0.02+ {(x­30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3) >lines(x, ­7.50664+0.39705 * x ­ 2.010635 * 1.669*  ((0.02+ {(x­30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3) 

17

SALIDA Nº8

fit lwr upr1 7,1840353 6,4308025 7,93726812 4,4047183 3,9220763 4,88736043 5,5958542 5,0809145 6,11079384 6,3899447 5,7741304 7,00575915 4,8017636 4,3272468 5,2762805∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

46 4,0076731 3,4985194 4,516826747 4,0076731 3,4985194 4,516826748 4,8017636 4,3272468 5,276280549 3,6106278 3,0592219 4,162033750 3,2135825 2,6074666 3,8196984

TABLA Nº7

Inf Sup

6,431 7,9383,922 4,8885,081 6,1115,774 7,0063,499 4,517

∙ ∙∙ ∙∙ ∙

3,499 4,5173,499 4,5174,327 5,2773,059 4,1622,607 3,820

Y i Y i

Page 24: Análisis de regresión para sociólogos

                 GRÁFICA Nº121.5.3 Estimación   del   intervalo   de   predicción   de   los 

valores particulares de la variable respuesta.

Un intervalo de predicción para los valores de la variable respuesta   es   una   región,   donde   a   un   nivel   de   significación determinado,   la   variable   independiente   yace,   pero   esto, ampliado a cualquier valor de la variable independiente. 

Supongamos que un nuevo valor es observado después de   que   la   regresión   se   ha   ejecutado.   Como   la   nueva observación   es   independiente   de   las   observaciones   que   se utilizaron para ajustar el modelo, el  intervalo deberá   incluir el error   del   modelo   ajustado   y   el   error   asociado   con observaciones   futuras,   con   lo   que   la   varianza   de   este estimador   será   mayor.   Los   intervalos   de   predicción   para   las observaciones   individuales  de  la   respuesta  son mas  grandes que los correspondientes intervalos de confianza para la media de las mismas.

El valor estimado de la variable dependiente es el mismo que   para   la   estimación   del   promedio   y   está   dado   por

Y i= b0b1X i

, pero la varianza incluye la variación de una 

observación independiente.

Var YP= 2

2[1n

Xi−X

2

∑ Xi−X

2 ]= 2[11

n

X i−X2

∑ X i−X2] (28)

Y así: S Yp= S[1 1n

Xi−X

2

∑ Xi−X

2] (29)

Entonces, bajo la teoría normal, [ Yp−EYp]

S Yp(30)

tiene una distribución t de student con n­ 2 grados de libertad, por lo que para un dado, el intervalo de predicción para la observación  Yp

será: P[ Yp− t1−/2, n−2 ∙S Yp Yp Yp t1−/2, n−2 ∙ S Yp] = 1−

Un intervalo de predicción es análogo a un intervalo de confianza. Uno del 1001−% para   una   observación   particular   Yp es:

Yp± t1−/2, n−2 ∙ S Yp(31)

Con   la   siguiente   instrucción   obtenemos   los   valores numéricos de los límites superior e inferior del intervalo de confianza   para   el   valor   promedio   de   Y.   Calculémoslo para nuestro ejemplo:

>predict.lm(a1,interval="prediction", level = 0.95) 

Los límites superiores e inferiores del intervalo de predicción para  Y i son:

Y iSuperior , Inferior = −7,506640,39705∙X i± 2,010635∙1,66910,02X i−30,92 2

1215,68

Introduciendo  los datos de X i en  la ecuación anterior  obtenemos  los  valores de  la tabla Nº8:

18

SALIDA Nº9

fit lwr upr1 7,1840353 3,7456187 10,62245202 4,4047183 1,0152800 7,79415703 5,5958542 2,2016662 8,99004204 6,3899447 2,9789953 9,80089405 4,8017636 1,4134728 8,1900540∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

46 4,0076731 0,6143581 7,400988047 4,0076731 0,6143581 7,400988048 4,8017636 1,4134728 8,190054049 3,6106278 0,2107164 7,010539050 3,2135825 ­0,1956293 6,6227940

TABLA Nº8

Inf Sup

3,745 10,6231,015 7,7952,201 8,9912,978 9,8021,413 8,191

∙ ∙∙ ∙∙ ∙

0,614 7,4020,614 7,4021,413 8,1910,210 7,012­0,196 6,624

Y i Y i

Page 25: Análisis de regresión para sociólogos

Análisis de regresión simple

Grafiquemos estos intervalos haciendo los X i continuos (Gráfico Nº13):

>x <­ seq( 15 ,50,length = 100) >lines(x, ­7.50664+0.39705 * x + 2.010635 * 1.669*  ((1+0.02+ {(x­30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3) >lines(x, ­7.50664+0.39705 * x ­ 2.010635 * 1.669*  ((1+0.02+ {(x­30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3) 

Graficando los intervalos de confianza y de predicción tenemos  (Gráfico Nº14):

  GRÁFICA Nº13                                                                                      GRÁFICA Nº14

1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIÓN

1.6.1 El coeficiente de determinación:  R2

Consideremos la ecuación fundamental del análisis de regresión:       Variación                  Variación      Variación          total en Y             explicada de Y    residual de Y

∑ Yi−Y2 = ∑ Yi−

Y2 ∑ Y i−Yi

2 (32)        Suma total              Suma de los                      Suma de los  de los cuadrados            cuadrados de                     cuadrados

              la regresión                       del error

          STC                SCR      SCE /: STC

1= SCRSTC

SCESTC

o bien 1= R2 SCESTC

con lo que obtenemos R2= 1 −

SCESTC

(33)

SCR es la porción de la variación atribuíble a un efecto lineal de X sobre Y y R2 es la proporción de la variación en Y explicada por la regresión de Y sobre X.

Por otro lado:  R2= ∑ y i

2

∑ y i2=

SCRSTC

= 1 − ∑ ei

2

∑ y i2 = 1 −

SCESTC

donde: ∑ y i2= ∑ Yi−

Y 2

0 ≤ R2 ≤ 1       La ecuación de                Todos los puntos       regresión estimada                coinciden en la     no explica ninguna               línea de regresión

           variación en Y

R2 no mide la validez del modelo de regresión propuesto, sino cuanto se explica de la variación total mediante la ecuación de regresión estimada.

R2 ∙100  nos da el porcentaje en que la ecuación de regresión explica la variación total.Calculemos R para el siguiente ejemplo. Para esto determinemos primero la suma total de los cuadrados 

(STC), la suma de los cuadrados de la regresión (SCR) y la suma de los cuadrados del error (SCE).

19

Page 26: Análisis de regresión para sociólogos

Ejemplo Nº5: Nivel de pobreza y años de escolaridad para las comunas  del Gran Santiago (2006)

Diversos   estudios   han   establecido   la   clara   correlación   entre   el   nivel educativo de las personas con sus ingresos.

En América Latina, los datos históricos son contundentes sobre la incidencia de  la  educación en  la  distribución del   ingreso.  En  Brasil,  el  10 por  ciento de  la población con más   ingresos gana casi  60 veces más  que el  10 por  ciento con menos ingresos; en Uruguay, el país con menor desigualdad, esa relación es de 18 veces y en México es de 40 veces. Todos los países con menor desigualdad relativa –entre ellos Argentina, a pesar de la concentración del ingreso­. son aquellos que hicieron de la expansión educativa una prioridad política por lo menos durante los últimos 50 años. 

La base de datos Nº5 nos entrega información del % de pobres  Yi  y los años de escolaridad  Xi , para las comunas del gran Santiago al año 2006.

Para orientarnos, grafiquemos  los puntos,  la recta de regresión a ellos asociada y corramos una regresión lineal de la tasa de % de pobres sobre los años de escolaridad. 

>a <­read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Años de escolaridad', ylab='% de población pobre', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los años de escolaridad", "y el % de población pobre", sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')>abline(lm(a$V1~a$V2), lwd=3, col='red')

>a1<­lm(a$V1~ a$V2)>summary(a1)

Calculemos   la   suma   total  de   los  cuadrados     (STC),   la suma de los cuadrados de la regresión (SCR) y la suma de los cuadrados del error (SCE) (Tabla Nº9).                

Ahora calculemos  R2 :

R2= 1 − SCESTC

= 1 − 390,376860,802

= 0,546 o bien 

R2=

SCRSTC

= 470,436860,802

= 0,546 que coincide con el 0,5465 que obtuvimos en nuestra salida en R. 

                   GRÁFICA Nº15

    

20

SALIDA Nº10

Call:lm(formula = a$V1 ~ a$V2)

Residuals:      Min        1Q        Median         3Q        Max    ­6.8335   ­3.2591     0.2868        2.2141   7.5117 

Coefficients:                          Estimate   Std. Error    t value    Pr(>|t|)    (Intercept)           38.1007     4.5262       8.418    1.28e­09 ***a$V2                   ­2.5477      0.4103      ­6.210     5.92e­07 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 3.493 on 32 degrees of freedomMultiple R­squared: 0.5465, Adjusted R­squared: 0.5323 F­statistic: 38.56 on 1 and 32 DF,  p­value: 5.921e­07 

BASE DE DATOS Nº5

COMUNA

Santiago 7,3 13,1Cerrillos 8,3 10,4Cerro Navia 17,5 9,1Conchalí 8,0 10,1El Bosque 15,8 9,7

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

San Bernardo 20,9 9,7San Joaquín 7,4 10,7San Miguel 2,5 12,3San Ramón 16,7 9,6Vitacura 4,4 14,6

Y i Xi

FUENTES: % de pobres 2006 y años de escolaridad 2006: http://www.bcn.cl/siit/comunas_cifras

TABLA Nº9

COMUNA

Santiago 7,3 13,1 4,726 8,651 30,419 6,626Cerrillos 8,3 10,4 11,605 3,768 1,859 10,921Cerro Navia 17,5 9,1 14,917 52,690 21,860 6,674Conchal í 8,0 10,1 12,369 5,023 4,527 19,088El Bosque 15,8 9,7 13,388 30,900 9,903 5,818

∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙

San Bernardo 20,9 9,7 13,388 113,610 9,903 56,430San Joaquín 7,4 10,7 10,840 8,072 0,359 11,836San Miguel 2,5 12,3 6,764 59,926 12,091 18,182San Ramón 16,7 9,6 13,643 41,716 11,571 9,347Vitacura 4,4 14,6 0,904 34,119 87,178 12,220

860,802 470,436 390,376

Y i−Y i

2 Y i−Y2Y i−

Y2Y iXiY i

∑Y= 10,241

Page 27: Análisis de regresión para sociólogos

Análisis de regresión simple

1.6.2 El coeficiente de correlación r.

El coeficiente de correlación mide el grado de asociación entre variables. Supone que tanto X como Y son variables aleatorias.

Sea la distribución conjunta de X e Y la normal bivariada y sea X1 , Y1 ;X2 , Y2 ; ...;Xn, Yn una muestra aleatoria de tamaño n de esta distribución. En el caso de dos variables r es:

r X ,Y= ∑ X i−

X Y i−Y

∑ X i−X2 ∑Y i−Y2 −1 ≤ r ≤ 1 (34)

Para nuestro ejemplo:

r X ,Y= ∑ X i−X Y i−Y

∑ X i−X2 ∑ Y i−Y2=

−184,64972,478860,802

= −0,739

La   instrucción   para   obtener   el   coeficiente   de correlación en R nos entrega el siguiente resultado (Salida nº11):

 

>cor(a)

Como r mide el grado de asociación lineal entre X e Y y ya que   b1 es el  correspondiente estimador por MCO de  la pendiente para el modelo de regresión propuesto entre X e Y, entonces debe existir una relación entre r y   b1 . Esa relación es la siguiente:

b1= ∑ Yi−Y2

∑ Xi−X

2 ∙ r ya que  ∑ Y i−

Y2

∑ X i−X2

∑ X i−XY i−

Y

∑ X i−X2∑ Yi−

Y2= ∑ X i−

XY i−Y

∑ Xi−X

2= b1 (35)

El cuadrado del coeficiente de correlación es el coeficiente de determinación r= R2 donde:

r=­1:  perfecta correlación lineal negativa.r= 1:  perfecta correlación lineal positiva.

Para nuestro ejemplo:  R2= 0,5465 R2

= −0,739

Si bien r no indica causalidad o dependencia, no es sólo un medida del grado de asociación lineal entre dos variables, sino que puede emplearse una función de r como una medida de la bondad del ajuste para una ecuación estimada de regresión.

r 0 Implica que X e Y se mueven en direcciones contrarias, mientras que r0 Implica que X e Y se mueven en la misma dirección.

r por sí mismo no puede ni probar ni desmentir una relación causal entre X e Y, aún si r=±1 , lo cual es sólo posible a través de la comprensión de la relación natural que existente entre X e Y.

1.6.3 Uso del análisis de varianza.

Esta técnica es utilizada para probar la hipótesis nula de que la pendiente es cero, sin embargo, además permite   una   comprensión   natural   del   problema,   con   lo   que   facilita   el   análisis   de   modelos   mucho   más complicados que la regresión simple.

El objetivo es que la recta estimada de regresión explique la mayor cantidad posible de la variación total, por lo que la contribución del término b0b1X i debe ser substancial. 

Consideremos  la  desviación  de Y i respecto a Y .   Si   la  magnitud de   Y i−Y 0 ,  esta magnitud debería atribuirse a las componentes del modelo.

21

SALIDA Nº11

V1 V2V1 1 ­0,73925480V2 ­0,73925480 1

TABLA Nº10

COMUNA

Santiago 7,3 13,1 4,686 8,651 ­6,367Cerrillos 8,3 10,4 0,287 3,768 1,039Cerro Navia 17,5 9,1 3,368 52,690 ­13,322Conchalí 8,0 10,1 0,698 5,023 1,872El Bosque 15,8 9,7 1,526 30,900 ­6,867

∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙

San Bernardo 20,9 9,7 1,526 113,610 ­13,167San Joaquín 7,4 10,7 0,055 8,072 0,669San Miguel 2,5 12,3 1,862 59,926 ­10,564San Ramón 16,7 9,6 1,783 41,716 ­8,624Vitacura 4,4 14,6 13,430 34,119 ­21,406

72,478 860,802 ­184,649

Xi−X Y i−

Y Y i−Y2Xi−

X 2XiY i

Y= 10,241X= 10,935

SALIDA Nº11

V1 V2V1 1.0000000 ­0.7392548V2 ­0.7392548 1.0000000

Page 28: Análisis de regresión para sociólogos

Deduzcamos la ecuación fundamental del análisis de varianza:

Y i−Y= Yi−

Y Yi−Y i= Y i−

YYi−Y i/

2        Yi−Y

2= Y i−

Y22 Yi−

Y Y i−YiY i−

Y i2/ ∑

∑ Y i−Y2

= ∑ Yi−Y2

2∑ Y i−Y Yi−

Y i∑ Yi−Y i

2 Pero ya que ∑ Y i−Y Y i−Y i= 0 puesto que

∑ Yi−Y Yi−Y i= ∑ Y iY i−

Y i−Y∑Y i−Y i= ∑ Y iY i−

Yi (ya hemos visto que la segunda expresión es 0) y

∑ Y iY i−Y i= ∑ b0

b1 X iY i−Y i= b0∑ e i

b1∑X i e i= 0

∑ Yi−Y2

= ∑ Y i−Y2 ∑ Y i−

Yi2

          STC   SCR            SCE Suma total de     Suma de los         Suma de los los cuadrados    cuadrados de     cuadrados del                                la regresión              error

Notemos que también podemos calcular STC como: STC= ∑ Yi−Y

2= ∑ Y i

2−nY2 ya que:

∑ Y i−Y2

= ∑ Yi2−2Y i

YY2= ∑ Y i

2−2 Y∑ Y in Y2

= ∑ Yi2−2n Y2

n Y2= ∑ Y i

2−nY2

SCR   representa  la  variación  de  la  observación  que  es  atribuible  al  efecto  lineal  de X   sobre  Y.  Si   la pendiente de la recta estimada de regresión es cero, entonces SCR=0

SCE es  la variación de  las observaciones con respecto a la recta de regresión estimada. Si  todas  las observaciones se encuentran sobre esta recta, SCE=0 

          GRÁFICA Nº16

Grados de libertad.

Para STC es n­1, para SCE es n­2 y y como los grados de libertad son aditivos:

gl (SCR) = gl(STC) ­gl(SCE) lo que implica que el grado de libertad de SCR es 1.

1.6.4 La estadística F

La estadística F es utilizada en el  análisis  de regresión para probar  la hipótesis  nula  : H0: b1= 0 , esto es,  que no existe   una   relación   lineal   entre   X   e   Y,     contra   la   alternativa

H1 : b1≠ 0 .Si   suponemos   la   existencia   de   normalidad,   entonces 

bajo H0 las   observaciones Y i son   n   variables   aleatorias independientes normalmente distribuidas con la misma media y varianza 

2 .

Por lo anterior, puede demostrarse que:

SCR

2 ySCE

2 son   dos   variables   aleatorias   independientes   con   una   distribución 2 con   1   y   n­2 

grados de libertad respectivamente. De esta manera, la variable aleatoria:

SCR /2

1SCE/ 2

n−2

= SCR /1

SCE/n−2=

CMRCME

= F (36)

tiene una distribución F con 1 y n­2 grados de libertad.

(CMR: Cuadrado medio de la regresión; CME: Cuadrado medio del error.) Notemos que el cuadrado medio del error es igual a la varianza residual.

22

Page 29: Análisis de regresión para sociólogos

Análisis de regresión simple

Un valor  grande de CME comparado con CMR implicará un ajuste pobre y sugerirá   la ausencia de una asociación lineal entre X e Y. Un valor pequeño de CME implicará  que una porción considerable de  la variación en las observaciones es atribuíble a un efecto lineal de X sobre Y.

H0 ha   de   rechazarse   cuando   el   valor   de   F dado por  el  cuociente entre el  cuadrado medio de  la regresión   y   el   cuadrado   medio   del   error   se   encuentra dentro de la región crítica superior a la distribución F dada con 1 y n­2 grados de  libertad al  nivel  de  significación deseado.

En nuestro ejemplo:

F= CMRCME

= SCR /1

SCE/n−2=

470,4361 /1390,3759 /32

= 38,563

Calculemos F con R:>qf(0.95,1,32)[1] 4.149097  4,149 38,563 con lo que rechazamos la hipótesis nula.

Tabla ANOVA para el modelo lineal simple:

Tabla ANOVA para nuestro ejemplo:

Aplicación en R:

>anova(a1)

23

SALIDA Nº12

Call:lm(formula = a$V1 ~ a$V2)

Residuals:       Min        1Q        Median       3Q       Max     ­6.8335   ­3.2591     0.2868      2.2141   7.5117 

Coefficients:                    Estimate   Std. Error   t value    Pr(>|t|)    (Intercept)     38.1007     4.5262      8.418    1.28e­09 ***a$V2             ­2.5477      0.4103     ­6.210    5.92e­07 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 3.493 on 32 degrees of freedomMultiple R­squared: 0.5465, Adjusted R­squared: 0.5323 F­statistic: 38.56 on 1 and 32 DF,  p­value: 5.921e­07 

TABLA Nº11Fuente de  Grado de Suma de los  Cuadrados variación libertad Cuadrados Medios

 

∑ Y i−Y2

∑ Y i−Y i

2/n−2

∑ Y i−Y2

∑ Y i−Y i

2

∑ Y i−Y2

∑ Y i−Y2

∑ Y i−Y i

2

n−2

Regresión

Error

Total

1

n−2

n−1

F

TABLA Nº12Fuente de  Grado de Suma de los  Cuadrados variación libertad Cuadrados Medios

 38,563470,436

390,376

860,802

470,436

12,199

Regresión

Error

Total

1

32

33

F

SALIDA Nº13

Analysis of Variance Table

Response: a$V1                      Df     Sum Sq    Mean Sq     F value    Pr(>F)    a$V2               1      470.43      470.43       38.562   5.921e­07 ***Residuals         32     390.38      12.20                      ­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Page 30: Análisis de regresión para sociólogos

Existe una relación entre F con 1 y n­1 grados de libertad y la correspondiente estadística t de student para una hipótesis alternativa bilateral.

Considerando que la recta estimada es: Y i= Y b1X i−X Y i−Y= b1X i−

X / ∑ 2

∑ Y i−Y2

= b12∑ X i−

X2 SCR= bi2∑ Xi−

X 2

y que por otro lado: S2 b1= S2

∑ X i−X2=

CME

∑ Xi−X 2=

SCE/n−2

∑X i−X2(pues el cuadrado medio del error es 

igual a la varianza residual) tenemos que nuestra estadística F es:

F= CMRCME

= SCR /1

SCE/n−2 =

b12∑ X i−

X 2/1

S2b1∑ Xi−

X 2=

b1

Sb1

2

Verifiquemos esto en nuestro ejemplo: (37)

Tenemos que:  Sb1= 0,4103 y  b1= −2,5477  por lo tanto b1

Sb1

2

= −2,54770,4103

2

= 38,556

De acuerdo con  lo anterior,  si  una variable aleatoria  tiene una distribución F con 1 y n­2 grados de libertad, entonces: F= t2 Donde t es una variable aleatoria t de student con n­2 grados de libertad. La relación 

es: F1− , 1,n−2= t

1−/2, n−22 En nuestro ejemplo t para  b1 es  ­6.210, Así  t2

= 38,564 (38)

1.7 PROPIEDADES   DE   LOS   PARÁMETROS   ESTIMADOS   BAJO   EL   MÉTODO   DE   MÍNIMOS   CUADRADOS ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia.

Consideremos   todos   los   estimadores   no   sesgados   de b0 y b1 ( b0 y b1 )   los   cuales   son combinaciones   lineales  de  las  observaciones Y1, Y2 , ..., Yn .   Si  entre   todos  estos  estimadores  existen algunos cuyas varianzas son las más pequeñas de entre todos los demás estimadores no sesgados de b0 y b1 , éstos son denominados los mejores estimadores lineales insesgados (MELI) de b0 y b1 . Ahora, bajo los 10 supuestos requeridos y expuestos al inicio de este capítulo, los estimadores por MCO son los MELI. Lo anterior es conocido como el teorema de Gauss­Markov y representa la justificación más importante para usar MCO.

         1.7.1 Sesgo.

        GRÁFICA Nº17

Un   estimador   es   insesgado   si   el   promedio   de   su   distribución muestral es igual al parámetro verdadero.

Esto es:  E b=b (39)

El sesgo es definido como la diferencia entre el valor esperado del estimador y el parámetro verdadero, así:

sesgo=E b−b (40)

                                                GRÁFICA Nº18

1.7.2 Eficiencia.

El estimador eficiente o mejor insesgado se refiere al que tiene la menor varianza de entre los estimadores insesgados. Otra manera de decir  esto es  que un estimador eficiente tiene el  menor  intervalo de confianza y está más cercano a ser estadísticamente significativo que cualquier otro estimador.

La   gráfica   Nº18   muestra   la   distribución   de   dos   estimadores insesgados, uno de los cuales es eficiente:

El estimador por MCO es frecuentemente usado porque es el mejor estimador  lineal  insesgado, esto es,  entre todos  los estimadores lineales insesgados, es el que tiene la menor varianza. Sin embargo, los estimadores no lineales pueden ser superiores a los MCO.        

24

Page 31: Análisis de regresión para sociólogos

Análisis de regresión simple

1.7.3 Consistencia.

  GRÁFICA Nº19

Un estimador es considerado consistente cuando ocurre que:

1   a   medida   que   el   tamaño  de   la   muestra   se   incrementa,   el estimador   se   aproxima   más   y   más   al   parámetro   real   (esto   se denomina insesgación asintótica).

2 Cuando el tamaño de la muestra se aproxima al infinito en el límite,   la   distribución   muestral   del   estimador   debe   colapsar   o hacerse una línea vertical de altura 1 sobre el valor del parámetro verdadero.

1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE

Para los n pares  X1 ; Y1 ,X2 ; Y2 , ...,Xn ; Yn , el modelo lineal:

Y i=b0b1X ii i=1,2 ,... ,n son n ecuaciones lineales de la forma:

Y1 = b0b1X11

Y2 = b0b1X22

Yn = b0b1Xnn

Si definimos:

Y=[Y1

Y2

Yn] ;   X=[

1 X1

1 X2

⋮ ⋮

1 Xn] ;   b=[b0

b1] ;  entonces: Y = X b= [

b0 b1 X1

b0 b1 X2

⋮ ⋮

b0 b1 Xn]

Si asumimos la presencia de la normalidad, es un vector de variables aleatorias normales tales que: E=0; Var =

2 I Donde:

I : vector de identidad 2 : varianza del error constante.

Las ecuaciones normales son:

∑ Yi=n b0b1∑ X i

∑ Xi Yi=b0∑ X i

b1∑ X i2 lo que expresado en términos matriciales resultaría:

[ ∑ Y i

∑ X i Y i] =  [

b0

b1] [ n ∑ X i

∑ X i ∑X i2] notemos que: (41)

[ n ∑ X i

∑ X i ∑X i2]  =  [ 11...1 X1X2...Xn

X1X2...Xn X12X2

2...Xn2 ]  =  [ 1 1 ⋯ 1

X1 X2 ⋯ Xn] [

1 X1

1 X2

⋮ ⋮

1 Xn] =  X ' X

Además notemos de que:  [ ∑ Y i

∑ X i Y i] =  [ Y1Y2...Yn

X1 Y1X2 Y2...Xn Yn] =  [ 1 1 ⋯ 1

X1 X2 ⋯ Xn] [

Y1

Y2

⋮Yn

]  =  X ' Y

25

Page 32: Análisis de regresión para sociólogos

Tenemos entonces que las ecuaciones normales en forma matricial son: X ' X b= X ' Y

Si suponemos que la matriz  X ' X tiene inversa, entonces: X ' X−1X ' X b= X ' X

−1X ' Y

I b= X ' X−1X ' Y y el vector de parámetros estimados queda entonces como:

b= X ' X−1 X' Y (42)

Y la ecuación de regresión queda: Y= X b (43)

26

Page 33: Análisis de regresión para sociólogos

Análisis de regresión múltiple

EL ANÁLISIS DE REGRESIÓN MÚLTIPLE (ARM)2.1 INTRODUCCIÓN

El análisis de regresión múltiple (ARM) se utiliza para comprender la influencia de dos o más variables independientes Xki sobre una variable dependiente Y i  . Es el caso general del ARS. 

El modelo de regresión lineal con dos regresores puede escribirse como sigue:Y i= b0b1X1ib2 X2ii i= 1,2,... , n (44)

En términos generales: sean [ X1i, X2i, ... , Xki] k variables de predicción y Y i la i­ésima observación respuesta   asociada   a   ellas, i el   error   aleatorio   no   observable   asociado   con Y i y [ b0 , b1 , ... , bk ] k parámetros   lineales  desconocidos.  Entonces  el  modelo de  regresión  lineal  múltiple  (de primer  orden) para k variables de predicción independientes es:

  Y i= b0b1X1ib2 X2i...bk Xkii i= 1,2,... , n (45)

Lo anterior es una forma abreviada de la expresión:

Y1= b0b1 X11b2 X21...bk Xk11

Y2= b0b1 X12b2 X22...bk Xk22

.

.

.Yn= b0b1X1nb2 X2n...bk Xknn

Si suponemos presencia de normalidad,  las Y i son variables aleatorias independientes con medias y 

varianzas: EY i= b0b1X1i...bkXki Var Y i= 2i= 1,2,... , n (46)

y los errores aleatorios i se distribuyen según una curva normal N0,2 siendo independientes 

los unos de otros.Los   parámetros bk representan   el  cambio   en   la   respuesta  promedio   para   un  cambio   igual  a   una 

unidad de la correspondiente variable de predicción Xki , cuando todos los demás regresores se mantienen constantes. bk representa el efecto parcial de Xki sobre la respuesta.

Si  por ejemplo estamos en presencia de un modelo: Y i= b0b1X1ib2 X2ib3X1i X2ii , b3 refleja  la influencia sobre la variable respuesta ejercida por la interacción entre  X1i y X2i .

El   modelo   lineal   general   necesita   sólo   una   restricción   funcional:   que   sea   lineal   en   los   parámetros desconocidos. 

Así   surgen  muchas  alternativas  de  modelos.  Por  ejemplo,   si   se  define: X3i= X1i X2i i= 1,2,... , n la ecuación Y i= b0b1X1ib2 X2ib3X1i X2ii puede   reescribirse   como   un   modelo   de   primer   orden: 

Y i= b0b1X1ib2 X2ib3 X3ii .Otro caso se da cuando  X ji= Xi

ji= 1,2,... , n j= 1,2,... , k . Así el modelo lineal general toma la 

forma:

Y i= b0b1X ib2 X i2...bk X i

ki que es llamado modelo polinomial. (47)

En el modelo polinomial lo que se busca es el grado k que mejor se ajusta la curva de regresión.Muchas veces el modelo más preciso es el que incluye estas dos características, la forma polinomial y la 

interacción entre las múltiples variables de predicción. Por ejemplo, para 2 variables de predicción tenemos:

Y i= b0b1X1ib2 X2ib3X1i2b4 X2i

2b5 X1i X2ii (48)

que se denomina ecuación completa de segundo orden.Para  k≥2 variables de predicción distintas, una ecuación de regresión completa de segundo orden 

consiste en un término constante, k términos lineales, k términos cuadráticos y k k−1

2términos de interacción.

Para el ARM existe un supuesto adicional que para el análisis de regresión simple: no debe existir una relación   lineal   exacta   entre   las X i ,   pues   de   lo   contrario   las   ecuaciones   que   constituyen   el   sistema   de ecuaciones normales construido por MCO no son independientes.

Si dos o más X i  están alta pero no perfectamente correlacionados, los bi pueden ser calculados por MCO pero los efectos de cada Xk  respecto a Y no pueden ser aislados.

27

Page 34: Análisis de regresión para sociólogos

 2.1.1 Obtención de los estimadores por MCO de los parámetros con dos variables independientes o explicativas.

El método de MCO para obtener los parámetros estimados en el ARM opera, al  igual que en el ARS, minimizando la suma del cuadrado de los residuos:

∑ e i2= ∑ Y i−

Yi2= ∑ Y i−

b0−b1 X1i−

b2 X2i2 (49)

1∂∑ e i

2

∂ b0

= ∂∑ Y i−

b0−b1 X1i−

b2 X2i2

∂ b0

= 0 −2∑ Yi−b0−

b1X1i−b2 X2i= 0

∑ Y i= n b0b1∑ X1i

b2∑ X2i Primera ecuación normal (50)

2∂∑ e i

2

∂ b1

= ∂∑ Y i−

b0−b1 X1i−

b2 X2i2

∂ b1

= 0 −2∑ X1i Yi−b0−

b1X1i−b2 X2i= 0

∑ Y i X1i= b0∑ X1ib1∑ X1i

2 b2∑ X2i X1i Segunda ecuación normal (51)

3∂∑ e i

2

∂ b2

= ∂∑ Y i−

b0−b1 X1i−

b2 X2i2

∂ b2

= 0 −2∑ X2iYi−b0−

b1X1i−b2 X2i= 0

∑ Y i X2i= b0∑ X2ib2∑ X2i

2 b1∑ X1i X2i Tercera ecuación normal (52)

Para   el  caso   del   análisis  de   regresión  múltiple   con   dos  variables   independientes, b0 es  el   término constante de la intersección de la regresión y está dado por el valor estimado para Y i cuando X1i= X2i= 0 .

b1 mide el cambio en Y i para cada cambio de 1 unidad en X1i , mientras X2i se mantiene constante. El parámetro   b1 es un coeficiente de  regresión parcial  porque corresponde a  la derivada parcial  de Y con 

respecto a   X1i ∂ Y∂ X1i

. El caso de  b2 es análogo a  b1 .

Al expresar las ecuaciones normales en forma de desviación podemos obtener los parámetros estimados un poco más fácilmente:

Tenemos que Y i= b0b1X1i

b2 X2i y Y= b0b1X1

b2X2 , definamos  y i y y i :

y i= Yi−Y= b1X1i−X1b2X2i−X2 o lo que es lo mismo y i= b1 x1i

b2 x2i y y i= Yi−Y (53)

Por otro lado e i= y i− y i= y i−b1 x1i−

b2x2i . Entonces la suma del cuadrado de los residuos es:

∑ e i2= ∑ y i−

b1 x1i−b2 x2i

2 (54)

Los   parámetros   estimados   se   obtienen   derivando   la   expresión   anterior   respecto   a b1 y b2 e igualando a 0:

1.­ ∂∑ e i

2

∂ b1

= ∂∑ y i−

b1 x1i−b2 x2i

2

∂ b1

= 0 −2∑ x1iy i−b1 x1i−

b2 x2i= 0

∑ x1i y i= b1∑ x1i2 b2∑ x1i x2i

b1= ∑ x1i y i−

b2∑ x1i x2i

∑ x 1i2  Primera ecuación normal (55)

2.­ ∂∑ e i

2

∂ b2

= ∂∑ y i−

b1 x1i−b2 x2i

2

∂ b2

= 0 −2∑ x2iy i−b1x1i−

b2 x2i= 0

∑ x2i y i= b2∑ x2i2 b1∑ x1i x 2i

b2= ∑ x 2i y i−

b1∑ x1i x2i

∑ x2i2  Segunda ecuación normal (56)

Sustituyamos  b1= ∑ x1i y i−

b2∑ x1i x2i

∑ x 1i2

en  ∑ x2i y i= b2∑ x2i2 b1∑ x1i x 2i y obviemos los sub­i:

28

Page 35: Análisis de regresión para sociólogos

Análisis de regresión múltiple

∑ x2y= b2∑ x22∑ x1y− b2∑ x 1x 2

∑ x12

∑ x1x2 ∑ x2y∑ x12= b2∑ x 2

2∑ x 12∑ x1y− b2∑ x1 x2∑ x1 x2

∑ x2y∑ x12= ∑ x1 y∑ x1 x2−

b2[∑ x1 x22∑ x1

2∑ x22] Y así: b2=

∑ x 2y∑ x12−∑ x1y∑ x1 x2

∑ x12∑ x2

2−∑ x1 x2

2 (57)

Sustituyamos   b2= ∑ x 2i y i−

b1∑ x1i x2i

∑ x2i2 en  ∑ x1i y i= b1∑ x1i

2 b2∑ x1i x2i y obviemos los sub­i:

∑ x1y= b1∑ x12∑ x2y− b1∑ x1 x2

∑ x 22

∑ x1 x2 ∑ x1y∑ x22= b1∑ x1

2∑ x22∑ x2 y∑ x1x2−

b1∑ x1x 22

∑ x1y∑ x22= ∑ x2 y∑ x1x2−

b1[∑ x1 x22−∑ x1

2∑ x22] Y así: b1=

∑ x1 y∑ x 22−∑ x2y∑ x1 x2

∑ x12∑ x2

2−∑ x1 x2

2 (58)

Por otro lado con la ecuación: Y= b0b1X1

b2X2 obtenemos  b0 (59)

Hacer estos cálculos suele ser un proceso engorroso. El álgebra de matrices simplifica enormemente la situación. Así, lo anterior usando matrices en R se puede resumir con las siguientes instrucciones:

>a <­ read.table('a.txt') >am<­as.matrix(a) >x<­ cbind(1, am[,2],am[,3],am[,4])>y<­cbind(am[,1])>xt <­ t(x)>b<­solve(xt%*%x)%*%xt%*%y>b

Más adelante aplicaremos estas instrucciones en el ejemplo Nº6.

2.1.2 Desarrollo de técnicas de regresión para el ARM utilizando el álgebra de matrices.

Dada una muestra aleatoria de observaciones [ Y1 , Y2, ... , Yn ] en los puntos de observación:[ X11 , X21 , ... , Xk1, X12, X22 ,... , Xk2 , ... , X1n , X2n ,... , Xkn] respectivamente,   se   establecen   las   n   ecuaciones 

siguientes:Y1= b0b1 X11b2 X21...bk Xk11

Y2= b0b1 X12b2 X22...bk Xk22

.

.

.Yn= b0b1X1nb2X2n...bk Xknn

Lo que en forma matricial se expresa: Y= Xb+µ, donde: (59)

Y= [Y1

Y2

Yn] X= [

1 X11 X21 ⋯ Xk1

1 X12 X22 ⋯ Xk2

⋮ ⋮ ⋮ ⋮

1 X1n X2n ⋯ Xkn] b= [

b0

b1

bk] = [

1

2

n]

Si suponemos presencia de normalidad:Y N Xb,2 I y N0,2 I donde: Var Y= Var= 2 I (60)

Resulta   entonces   que  Y  y son   vectores1  de   variables   aleatorias   independientes   normalmente 

distribuidas.La estimación matricial de los parámetros por MCO, da para las ecuaciones normales la misma forma 

que para el análisis de regresión simple:

X 'X b= X 'Y Si  X 'X tiene inversa, entonces:  b= X 'X−1 X 'Y (61)

1 Matrices de sólo una columna.

29

Page 36: Análisis de regresión para sociólogos

Es así que la ecuación estimada de regresión es: Y= X b (62)

Las propiedades de los estimadores por MCO [ b0, b1 , ... , bk ] son extensiones de las propiedades de 

los estimadores del modelo lineal simple.

2.1.3 Ejemplo y trabajo con matrices en R.

Ejemplo Nº6: Regresión  lineal  de  los  años de escolaridad sobre el  % de pobreza,  el   resultado del  SIMCE en matemáticas para los segundos medios y el % de desocupación para las comunas de Santiago el año 2006.

Los años de escolaridad son un indicador importante del nivel de progreso cultural y económico de una sociedad. Suponemos que existen diversos factores que influyen en que una persona continúe sus estudios o los detenga, entre otros, el nivel de pobreza, los resultados académicos   a   nivel   de   enseñanza   media   y   el   porcentaje   de desocupación en una población. 

La base de datos Nº6 nos entrega información de los años de escolaridad Yi , el % de población pobre  X1i , los resultados de la prueba SIMCE en matemáticas para los 2º medios X2i y el % de desocupación X3i para las comunas del gran Santiago el año 2006.

Aplicaremos una regresión  lineal  de  los años de escolaridad sobre las variables ya enunciadas.

Obtengamos los coeficientes de la regresión:

>a <­ read.table('a.txt')   >a1 <­ (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1)

Con   lo   que   nuestra   ecuación   de   regresión   múltiple queda como:

Y i= 7,004−0,112∙X1i0,025∙ X2i−0,152X3i

−4,089 5 −2,251

Probemos   la   significación   estadística   de   nuestros parámetros estimados:Para un 95% de significación2 y con 30 grados de libertad (n­k= 34­4= 30), calculando con R obtenemos:

>qt(0.975,30)[1] 2.042272

Por lo que nuestros tres coeficientes son significativos al 95%.

Calcularemos ahora los parámetros estimados utilizando el álgebra de matrices en R, esto es,

b= X 'X−1 X 'Y

Construimos   la  matriz  X.   Para  esto  convertimos  el  data.frame  que   se   forma  mediante   la   instrucción read.table en una matriz con la instrucción  as.matrix  y añadimos una primera columna de 1's, tal como hemos 

2 Hacemos un test de dos colas, con lo que  1−

2= 1 – 0,05/2 = 0,975.

30

SALIDA Nº14

Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)

Residuals:    Min      1Q       Median      3Q       Max ­1.7851  ­0.3802    0.0646     0.3693  1.1437 

Coefficients:                      Estimate    Std. Error     t value      Pr(>|t|)    

­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.6573 on 30 degrees of freedomMultiple R­squared: 0.8212, Adjusted R­squared: 0.8033 F­statistic: 45.91 on 3 and 30 DF,  p­value: 2.504e­11 

(Intercept)      7.004017   1.572577       4.454      0.000108 ***a$V2             ­0.111553    0.027281     ­4.089      0.000299 ***a$V3              0.024663    0.004933      5.000      2.33e­05 ***a$V4             ­0.151626    0.067370     ­2.251      0.031895 *  

BASE DE DATOS Nº6

COMUNA

Santiago 13,1 7,3 283 6,2Cerrillos 10,4 8,3 259 9,3Cerro Navia 9,1 17,5 215 9,4Conchalí 10,1 8,0 236 4,9El Bosque 9,7 15,8 231 10,3

∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

San Bernardo 9,7 20,9 246 8,6San Joaquín 10,7 7,4 233 7,4San Miguel 12,3 2,5 237 4,6San Ramón 9,6 16,7 245 7,9Vitacura 14,6 4,4 325 3,2

Y i X1i X 2i X 3i

FUENTE: Años de escolaridad, % de población pobre,resultados simce en matemáticas para los 2º medios y % desocupados al 2006: http://www.bcn.cl/siit/comunas_cifras

Page 37: Análisis de regresión para sociólogos

Análisis de regresión múltiple

definido nuestra matriz X:

>am<­as.matrix(a) >x<­ cbind(1, am[,2],am[,3],am[,4])

Construimos la matriz Y:>y<­cbind(am[,1])

Calculamos la transpuesta de X:>xt <­ t(x)

Y   conociendo   que   la   inversa   de   una   matriz   la   obtenemos   con   la   instrucción  solve,   la   expresiónb= X 'X

−1 X 'Y tiene su equivalente en R como sigue:

>b<­solve(xt%*%x)%*%xt%*%y

Y llamamos al objeto b, obteniendo (Salida nº15):

>bQue como vemos coincide con los resultados ya obtenidos.

2.2 INTERVALOS DE CONFIANZA

2.2.1 La varianza residual: S2

La varianza residual en términos matriciales se define como: S2 = Y'Y− b 'X 'Y

n−k(63)

donde de manera análoga al  ARS, Y 'Y− b' X 'Y es  la  suma del  cuadrado de  los   residuos y n­k es  igual  al número de observaciones menos el número de parámetros que figuran en el modelo. 

Según R, el error standard residual del ejemplo Nº6 es: 0,6573.

Según la forma algebraica S2= ∑ e i

2

n−k. Verifiquémoslo: S2

= 12,96334−4

= 0,432 con lo que S= 0,657

Calculemos lo mismo pero en forma matricial con R:

Ya   hemos   construido   nuestras   matrices  Y,   la transpuesta de X y b

Obtengamos la transpuesta de Y y de  b :>yt <­ t(y)>bt <­ t(b)

Entonces las instrucciones en R análogas aY 'Y−b 'X 'Y

n−ky Y ' Y− b' X' Y

n−kpara los estimadores de 

la   varianza   residual   y   la   desviación   standard   residual respectivamente son3:

>(yt%*%y­bt%*%xt%*%y)/30 obteniendo:

3 R también es una calculadora.

31

SALIDA Nº 15

            [,1][1,]  7.00401718[2,] ­0.11155272[3,]  0.02466273[4,] ­0.15162602

TABLA Nº13

COMUNA

Santiago 13,1 7,3 283 6,2 12,229 0,758Cerrillos 10,4 8,3 259 9,3 11,056 0,430Cerro Navia 9,1 17,5 215 9,4 8,929 0,029Conchalí 10,1 8,0 236 4,9 11,189 1,186El Bosque 9,7 15,8 231 10,3 9,377 0,104

∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙

San Bernardo 9,7 20,9 246 8,6 9,436 0,070San Joaquín 10,7 7,4 233 7,4 10,803 0,011San Miguel 12,3 2,5 237 4,6 11,873 0,183San Ramón 9,6 16,7 245 7,9 9,986 0,149Vitacura 14,6 4,4 325 3,2 14,043 0,310

Y i X1i X 2iX 3i e i e i

2

∑e i2= 12,963

SALIDA Nº16

          [,1][1,] 0.4320875

Page 38: Análisis de regresión para sociólogos

y

>sqrt((yt%*% y­bt%*%xt%*%y)/30)  obteniendo:

2.2.2 La varianza de los parámetros estimados

1. Cada b j es un estimador insesgado de  b j .  E b j= b j para  j= 0,1,2,... , k y 

2. La varianza de los parámetros verdaderos es: Var b j= C j1

2 para j= 0,1,2,... , k donde  C j1  

es el elemento de la diagonal (j+1) de  X' X−1

Para nuestro ejemplo:

>solve(xt%*%x) = X 'X−1 =

Ahora, la varianza de los parámetros estimados es: Var b j= C j1

S2= S2

b j para  j= 0,1,2,... , k (64)

Calculemos la desviación standard para los parámetros estimados de nuestro ejemplo y comparemos con los que obtuvimos con R4.

S2 b0= C1S2

= 5,72337110 ∙0,4320875= 2,47299711 S b0= 1,57257658S2 b1= C2 S2

= 0,00172251∙ 0,4320875= 0,00074428 S b1= 0,02728147S2 b2= C3S2

= 0,00005631∙ 0,4320875= 0,00002433 S b2= 0,00493255S2 b3= C4S2

= 0,01050428 ∙0,4320875= 0,00453877 S b3= 0,06737039

Como   vemos,   todas   las   desviaciones   standard   de   los   parámetros   estimados   coinciden   con   los entregados por R.

2.2.3 Los valores t de los parámetros estimados.

b j−b j

S b jpara  j= 0,1,2,... , k (65)

es una variable aleatoria t de student con n­k grados de libertad.La estadística apropiada para probar la hipótesis nula: H0 : b j=0 contra cualquier hipótesis alternativa, 

es la t de student: t= b j−b j

S b j

b j

S b jpara  j= 0,1,2,... , k con n­k grados de libertad.

Calculemos y observemos que coinciden los valores obtenidos con R:

t0= b0

S b0=

7,004017181,57257658

= 4,454 t1= b1

S b1=−

0,111552720,02728147

=−4,089

t2= b2

S b2=

0,024662730,00493255

= 5 t3= b3

S b3=−

0,151626020,06737039

=−2,251

Ya hemos obtenido que para un 95% de significación y con 30 grados de libertad: t1−

0.052

,30= 2.042272 , 

así los cuatros coeficientes estimados son estadísticamente significativos al 95%.

4 Para evitar errores de redondeo utilizaremos 8 decimales.

32

SALIDA Nº17

          [,1][1,] 0.6573336

SALIDA Nº18

[1,] [2,] [3,] [4,][1,] 5,7233711000 ­0,0333771990 ­0,0173353265 ­0,1389501476[2,] ­0,0333772000 0,0017225115 0,0001005538 ­0,0012987022[3,] ­0,0173353300 0,0001005538 0,0000563115 0,0003028544[4,] ­0,1389501500 ­0,0012987022 0,0003028544 0,0105042786

Page 39: Análisis de regresión para sociólogos

Análisis de regresión múltiple

2.2.4 Construcción de los intervalos de confianza para los parámetros estimados.

El intervalo de confianza del 1001− % para el parámetro  b j resulta:

b j± t1−

2,n−k

∙ S b j j= 0,1,2,. .. , k entonces, como  t1−

0.0052

,30=2.042272 (66)

b0±t1−

0,052

,30 ∙ S b0= 7,00401718±2,042272∙ 1,57257658= [ 3,792 ;10,216 ]

 

b1± t1−

0,052

,30∙S b1= −0.11155272±2,042272∙ 0,02728142= [−0,167;−0,056 ]

b2± t1−

0,052

,30 ∙ S b2= 0.02466273±2,042272∙ 0,00493255= [ 0,015 ;0,035 ]

b3± t1−

0,052

,30 ∙ S b3= −0.15162602±2,042272∙ 0,06737039= [−0,289 ;−0,014 ]

En R, la instrucción con la que se obtienen los intervalos de confianza es  confint.  Comparemos con los resultados ya obtenidos.

>confint(a, level= 0.95) 

Vemos que ambos resultados coinciden.

2.3 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE 

Es definido como la proporción de  la variación total  en Y i explicada por  la regresión múltiple de Y sobre  X1i y  X2i (para el caso de dos variables independientes) y se calcula de la siguiente manera:

Establezcamos las variables en forma de desviación:

Sean:

xi= X i−X

y i= Yi−Y y

y i= Yi−Y

R2se define como  R2

= 1−∑ ei

2

∑ y i2 0≤ R2

≤ 1 (67)

Existen varias equivalencias:

R2= ∑ Yi−

Y 2

∑ Yi−Y 2=

∑ y i2

∑ y i2=

SCRSTC

= 1−∑ Yi−

Y i2

∑ Y i−Y2= 1−SCE

STC=

b1∑ Y X1b2∑ Y X2

∑ Yi2 (68)

Demostremos la última relación por ser la menos evidente:

∑ e i2= ∑ e i Yi−

Y i= ∑ e iY i−b1 X1i−

b2X2i= ∑ e i Y i−b1∑ e i X1i−

b2∑ e i X2i

Por el proceso de MCO:∂∑ e i

2

∂ b1

= −∑ ei X1i= 0 y∂∑ e i

2

∂ b2

= −∑ ei X2i= 0

Es entonces que:

∑ e i2= ∑ e i Y i= ∑ Yi−

Y iY i= ∑ Y iY i−b1 X1i−

b2X2i= ∑ Yi2− b1∑ Y i X1i−

b2∑ Yi X2i

Sustituyendo en:  R2= 1−

∑ ei2

∑ y i2 obtenemos:

R2= 1−

∑ Yi2− b1∑ Y i X1i−

b2∑ Y i X2i

∑ Y i2 o lo que es lo mismo: R2

= b1∑ Y i X1i

b2∑ Y i X2i

∑ Y i2

33

SALIDA Nº19

2,5% 97,5%(Intercept) 3,79238725 10,21564712

a$V2 ­0,16726880 ­0,05583663a$V3 0,01458882 0,03473665a$V4 ­0,28921469 ­0,01403736

Page 40: Análisis de regresión para sociólogos

La inclusión de variables independientes adicionales probablemente incremente el valor SCR para el mismo STC lo que hace que  R2 aumente.

R2 mide la proporción de la variación total de las observaciones con respecto a su media, atribuible a la ecuación de regresión estimada.

Por   si   solo, R2 no   puede   validar   el   modelo   propuesto,   como   tampoco   un R2≈ 1 implica 

necesariamente que la ecuación de regresión estimada sea apropiada para predecir.

Para nuestro ejemplo:

Tenemos   entonces   que:

R2= ∑ y i

2

∑ y i2=

SCRSTC

= 1−SCESTC

equivale 

para   nuestro   ejemplo   a:59,51672,477

= 1−12,96372,477

= 0,821 que 

coincide con el valor entregado por R.

2.3.1  R2  ajustado o  R2

El   problema   con R2 es   que   no   toma   en   consideración   los   grados   de   libertad. R2   se   usa   para incorporar el efecto tanto del tamaño de la muestra como del número de parámetros del modelo. R2 siempre es menor a R2 y no puede forzarse hacia 1 sólo por el hecho de agregar mas variables  independientes al modelo.

Por eso es preferible utilizar R2 que se define como:  R2= 1−1−R2

n−1n−k

donde: (69)

n : número de observaciones.k: : número de parámetros estimados.

Para nuestro ejemplo:  R2= 1−

1−R2n−1

n−k= 1−

1−0,821 3330

= 0,803 que coincide con el resultado 

de R cuadrado ajustado entregado por R.

El rango de valores para  R2 es: 

cuando k=1, n−1 n−k

= 1 y R2= R2 ;

cuando k>1, n−1 n−k

1 y R2 R2 ;

cuando n es grande, frente a un k dado, n−1 n−k

≈ 1 y  R2≈ R2 y

cuando k es grande en relación a n, R2 será mucho menor que R2 , pudiendo incluso ser negativo. (aún cuando 0≤ R2

≤ 1 )

La suma del cuadrado de los residuos ∑ e i2 , requerido para realizar los test de significación, puede 

ser   determinado   sin   antes   encontrar Y i :   Siendo   R2=

b1∑ Y i X1ib2∑ Y i X2i

∑ Y i2 ,   como R2

= 1−∑ ei

2

∑ y i2 ;

∑ e i2= 1−R2

∑ y i2 Este método implica muchos menos cálculos que utilizando Y i .

34

TABLA Nº14

COMUNA

Santiago 13,1 7,3 283 6,2 12,229 1,674 0,758 ­211,785Cerrillos 10,4 8,3 259 9,3 11,056 0,015 0,430 53,816Cerro Navia 9,1 17,5 215 9,4 8,929 4,025 0,029 186,898Conchalí 10,1 8,0 236 4,9 11,189 0,064 1,186 84,227El Bosque 9,7 15,8 231 10,3 9,377 2,429 0,104 125,055

∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙

San Bernardo 9,7 20,9 246 8,6 9,436 2,249 0,070 125,055San Joaquín 10,7 7,4 233 7,4 10,803 0,018 0,011 23,585San Miguel 12,3 2,5 237 4,6 11,873 0,879 0,183 ­134,608San Ramón 9,6 16,7 245 7,9 9,986 0,902 0,149 135,312Vitacura 14,6 4,4 325 3,2 14,043 9,661 0,310 ­353,041

59,516 12,963 72,477∑

Y i X1i X 2i X3iY i Y i−

Y2 Y i−Y i

2 Y i−Y2

Page 41: Análisis de regresión para sociólogos

Análisis de regresión múltiple

2.4 PREDICCIÓN

2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de predicción toman los valores específicos  [1, X1i , X2i , ∙∙∙ , Xki]

Si  X  es   la matriz  de  los valores  de  las  variables   independientes,   la cual  da origen a  la ecuación de regresión estimada, entonces un vector particular X i se puede denotar como  [1, X1i , X2i , ∙∙∙ , Xki] .

La respuesta promedio estimada Y i= X ib será por lo tanto: b0

b1X1b2X2... bk Xk y la estimación 

de la varianza real VarY i= 2 I será: S2 ∙ [X i'X' X

−1X i] donde S2 es , como ya hemos visto,  la varianza residual.

Asumiendo normalidad,  un  intervalo  de confianza del 1001− % para  la   respuesta promedio en 

X i es:Y i±t

1−

2,n−k

S ∙ [Xi'X ' X

−1 Xi ] (70)

2.4.1.1 Cálculo de los intervalos de confianza usando el álgebra de matrices con R.

La expresión que buscamos es:Y i±t

1−

2,n−k

S ∙ [Xi'X ' X

−1 Xi ] . Consideremos el siguiente ejemplo:

Ejemplo Nº7: El índice de desarrollo humano

El índice de desarrollo humano (IDH) mide el nivel que ha alcanzado un país en tres indicadores básicos de bienestar:  una vida  larga,  educación (ponderado en dos  tercios   la  tasa de alfabetización y un tercio el promedio de las tasas brutas de matrícula primaria, secundaria y terciaria) y un nivel de vida digno, medido por el PIB per cápita5  (estandarizado en paridad de poder adquisitivo en dólares norteamericanos). El valor de cada componente  se  expresa como un valor  entre  0  y  1  y   se  calcula  el   IDH como el  promedio  simple  de estos indicadores.  

La base de datos Nº7 nos entrega los valores de la espectativa de vida al nacer en años Yi , el PIB PPA per capita (US$) X1i , y el índice de educación X2i  para 175 países al 2007.

Ejecutemos una regresión lineal de la espectativa de vida al nacer sobre el PIB PPA per capita y el índice de educación.

>a <­ read.table('a.txt')   >a1 <­ (lm(a$V1~a$V2+a$V3)) >summary(a1)

5 Se ajusta el ingreso debido a que para lograr un nivel digno de desarrollo humano no se requiere un ingreso ilimitado. En consecuencia, se utiliza su logaritmo.

35

SALIDA Nº20

Call:lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:    Min      1Q  Median      3Q     Max ­21.344  ­2.199   1.216   3.632  12.576 

Coefficients:                    Estimate      Std. Error    t value   Pr(>|t|)    (Intercept)    3.680e+01   2.283e+00  16.120    < 2e­16 ***a$V2            1.794e­04    3.701e­05   4.847    2.79e­06 ***a$V3           3.665e+01    3.107e+00  11.794    < 2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 6.07 on 172 degrees of freedomMultiple R­squared: 0.6573,Adjusted R­squared: 0.6533 F­statistic: 164.9 on 2 and 172 DF,  p­value: < 2.2e­16

BASE DE DATOS Nº7

PAÍS

Afghanistan 43,6 1054 0,35Albania 76,5 7041 0,89Algeria 72,2 7740 0,75Angola 46,5 5385 0,67Argentina 75,2 13238 0,95

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

Vanuatu 69,9 3666 0,73Venezuela  73,6 12156 0,92Viet Nam 74,3 2600 0,81Yemen 62,5 2335 0,57Zambia 44,5 1358 0,68

Y iX1i X2i

FUENTE: http://hdrstats.undp.org/es/indicators

Page 42: Análisis de regresión para sociólogos

Nuestra ecuación de regresión múltiple queda como:

Y i= 36,80,0001794∙ X1i36,65∙ X2i

  16,12 4,847 11,794

Calculemos la estadística t al 95% de significación:>qt(0.975,172)[1] 1.973852

Con lo que nuestros parámetros estimados son estadísticamente significativos al 95%.

Obtengamos los valores de [Xi'X ' X

−1 Xi ]  utilizando el álgebra de matrices en R. El resultado de estas operaciones lo obtenemos en la salida Nº21.

>a <­ read.table('a.txt') >am<­as.matrix(a) >x<­ cbind(1, am[,2],am[,3])>xt <­ t(x)>sqrt(x%*%solve(xt%*%x)%*%xt)>ad<­diag(sqrt(x%*%solve(xt%*%x)%*%xt))>adt<­t(ad)>adt

Y conociendo que la  inversa de una matriz  la obtenemos con la  instrucción  solve,  la expresión b= X 'X

−1 X 'Y tiene su equivalente en R como sigue:

Hemos obtenido que  t1−

0.052

, 172= 1.973852 y de la salida de R  S= 6,07

En la tabla Nº15 hemos hecho los cálculos para obtener algebraicamente los valores de los intervalos de confianza para la variable respuesta estimada  Y i : 

La  instrucción en R para obtener  los  intervalos de confianza bajo el  contexto de un ARM al 95% de confianza es: predict.lm(a1,interval="confidence", level = 0.95) 

Comparemos con los resultados que ya hemos obtenido previamente:

>a<­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2+a$V3))>predict.lm(a1,interval="confidence", level = 0.95) 

2.4.2 Intervalo de predicción para la respuesta particular cuando las k variables de predicción toman los valores específicos [1, X1i , X2i ,∙ ∙∙ , Xki]

Si  X  es   la matriz  de  los valores  de  las  variables   independientes,   la cual  da origen a  la ecuación de regresión estimada, entonces un vector particular X i se puede denotar como  [1, X1i , X2i , ∙∙∙ , Xki] .

36

TABLA Nº15

PAÍS

Afghanistan 43,6 1054 0,35 49,963 0,210 47,442 52,484Albania 76,5 7041 0,89 70,535 0,107 69,257 71,813Algeria 72,2 7740 0,75 65,603 0,080 64,642 66,564Angola 46,5 5385 0,67 62,212 0,093 61,100 63,324Argentina 75,2 13238 0,95 73,846 0,109 72,539 75,153

∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙

Vanuatu 69,9 3666 0,73 64,139 0,089 63,073 65,205Venezuela  73,6 12156 0,92 72,735 0,101 71,524 73,947Viet Nam 74,3 2600 0,81 66,953 0,102 65,735 68,171Yemen 62,5 2335 0,57 58,256 0,122 56,799 59,713Zambia 44,5 1358 0,68 62,039 0,098 60,870 63,207

Y i X1i X 2iY i [Xi

' X'X −1 X i ]Y i−t

1−

2,n−k

S [Xi'X' X−1Xi ]

Y it1−

2,n−k

S [Xi'X' X−1Xi ]

SALIDA Nº21

0,21040090,10668460,08021090,09280630,1091066

∙∙∙

0,08899510,10109080,10162380,12158590,0975262

[X i'X 'X−1 Xi]

Page 43: Análisis de regresión para sociólogos

Análisis de regresión múltiple

La   respuesta   promedio   estimada Y i= X ib será   por   lo   tanto:

b0b1X1

b2X2... bk Xk y   la   estimación   de   la   varianza   real VarY i= 22 I será: S2 ∙ [1X i

'X ' X −1 X i] donde S2 es   ,   como ya hemos visto,  la varianza residual.

Asumiendo normalidad, un intervalo de predicción del 1001−

% para la respuesta promedio en  X i es:Y i±t

1−

2,n−k

S ∙

[1X i'X' X

−1X i] (71)

2.4.2.1 Cálculo de los  intervalos de predicción usando el álgebra de matrices con R.

La expresión que buscamos es:Y i±t

1−

2,n−k

S ∙ [1X i'X ' X

−1 X i] . 

Obtengamos los valores de  [1X i'X ' X

−1 X i] utilizando el álgebra de matrices en R. El resultado de esta operación lo obtenemos en la salida Nº23.

>a <­ read.table('a.txt') >am<­as.matrix(a) >x<­ cbind(1, am[,2],am[,3])>xt <­ t(x)>sqrt(1+x%*%solve(xt%*%x)%*%xt)>ad<­diag(sqrt(1+x%*%solve(xt%*%x)%*%xt))>adt<­t(ad)>adt

En la tabla Nº16 hemos hecho los cálculos para obtener algebraicamente los valores de los intervalos de predicción para la variable respuesta estimada  Y i : 

La   instrucción en R para obtener los   intervalos   de confianza   bajo   el contexto   de   un ARM   al   95%   de confianza es:

>predict.lm(a1,interval="p", level = 0.95) 

Comparemos   con   los   resultados   que   ya   hemos   obtenido previamente:

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2+a$V3))>predict.lm(a1,interval="p", level = 0.95) 

37

TABLA Nº16

PAÍS

Afghanistan 43,6 1054 0,35 49,963 1,022 37,720 62,207Albania 76,5 7041 0,89 70,535 1,006 58,486 82,584Algeria 72,2 7740 0,75 65,603 1,003 53,583 77,623Angola 46,5 5385 0,67 62,212 1,004 50,179 74,244Argentina 75,2 13238 0,95 73,846 1,006 61,793 85,898

∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙

Vanuatu 69,9 3666 0,73 64,139 1,004 52,110 76,168Venezuela  73,6 12156 0,92 72,735 1,005 60,693 84,778Viet Nam 74,3 2600 0,81 66,953 1,005 54,910 78,996Yemen 62,5 2335 0,57 58,256 1,007 46,186 70,326Zambia 44,5 1358 0,68 62,039 1,005 50,001 74,077

Y i−t1−

2,n−k

S [1Xi' X 'X −1X i ]

Y it1−

2,n−k

S[1Xi' X'X −1Xi ][1Xi

' X 'X −1 X i ]Y i X1i X 2iY i

SALIDA Nº22

fit lwr upr1 49,81284 47,29185 52,333832 70,67753 69,39925 71,955803 65,67201 64,71094 66,633094 62,31759 61,20560 63,429585 73,98820 72,68090 75,29549∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

171 64,20817 63,14185 65,27450172 72,69461 71,48336 73,90586173 66,94889 65,73125 68,16653174 58,10550 56,64868 59,56233175 61,96166 60,79312 63,13021

SALIDA Nº24

fit lwr upr1 49,81284 37,56866 62,057022 70,67753 58,62769 82,727363 65,67201 53,65169 77,692344 62,31759 50,28426 74,350925 73,98820 61,93525 86,04115∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

171 64,20817 52,17897 76,23737172 72,69461 60,65170 84,73752173 66,94889 54,90533 78,99244174 58,10550 46,03542 70,17559175 61,96166 49,92297 74,00035

SALIDA Nº23

1,02189501,00567501,00321201,00429701,0059350

∙∙∙

1,00395201,00509701,00515001,00736401,0047440

[1X i'X 'X−1 Xi]

Page 44: Análisis de regresión para sociólogos

2.5 EL TEST DE SIGNIFICACIÓN GENERAL DE LA REGRESIÓN: LA ESTADÍSTICA F

2.5.1 La estadística F.

La significación global para la regresión puede ser probada con la proporción de varianza explicada respecto a la inexplicada. Ésta sigue una distribución F con (k­1) y (n­k) grados de libertad donde:

Fk−1,n−k=

∑ y i2

k−1

∑ e i2

n−k

=

R2

k−11−R2

n−k

demostremos la última igualdad. (72)

Consideremos las variables en forma de desviación:

xi= X i−X

y i= Yi−Y

y i= Yi−Y

Resulta así que:

∑ y i2

k−1

∑ e i2

n−k

= ∑ y i

2n−k

∑ e i2k−1

=

∑ y i2

∑ y i2 n−k

∑ ei2

∑ y i2 k−1

= R2

1−R2

n−kk−1

=

R2

k−1

1−R2

n−k

Recordemos que: R2= ∑ yi

2

∑ y i2=

SCRSTC

ySCESTC

= ∑ e i

2

∑ y i2= 1−R2

donde:

n: número de observaciones.k: número de parámetros estimados.

Se establece el siguiente set de hipótesis: H0 : b1= b2= ...= bk= 0

La hipótesis nula H0 implica que ninguna de las variables independientes ayuda a explicar la variación de la variable dependiente (referida a su media).

La hipótesis alternativa resulta entonces H1 : bi≠ 0 al menos para un valor de  bi

Un valor alto de F sugiere una relación significativa entre la variable dependiente y las independientes, lo que nos lleva a rechazar  H0 .

Fórmulas para las varianzas explicada e inexplicada (esta última también llamada varianza residual):

Varianza Explicada:  ∑ Yi−Y

2

k−1=

SCRk−1

= ∑ y i

2

k−1(73)

Varianza Inexplicada: ∑ Yi−Y i

2

n−k=

SCEn−k

= ∑ e i

2

n−k(74)

Ejemplo Nº8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU

El embarazo adolescente es un problema mundial que acarrea múltiples consecuencias. Una de las más dramáticas es que éstas jóvenes en su gran mayoría deberán tener la responsabilidad de mantener solas a sus hijos bajo condiciones económicas muchas veces precarias, negando su propia adolescencia.

El bajo nivel educativo de los padres, las limitadas aspiraciones profesionales de las jóvenes, las actitudes ambivalentes o positivas hacia el embarazo de las adolescentes, las estudiantes con las calificaciones más bajas y   aquellas   quienes   se   involucran   en   actividades   delictivas   han   sido   identificadas   como   factores   claves   al momento de la iniciación sexual y el primer embarazo.

38

Page 45: Análisis de regresión para sociólogos

Análisis de regresión múltiple

Sin   embargo,   nosotros   relacionaremos   la   tasa   de   embarazo adolescente con otros dos factores quizás más relevantemente asociados: el consumo de alcohol y las familias monoparentales, pues se ha demostrado que vivir en un hogar con un solo padre o la ausencia del padre aumenta el riesgo  de  embarazo  prematuro  mientras  que   los  hijos  criados  por  ambos padres   disfrutan   de   estándares   de   bienestar   más   altos   en   casi   cualquier aspecto. Por otro lado, asimismo el consumo inadecuado de alcohol es uno de   los   factores   claramente   asociados   al   inicio   temprano   de   relaciones sexuales y por lo tanto al embarazo adolescente.

La base de datos Nº8 nos entrega los valores de la tasa de embarazo adolescente para mujeres entre los 15 y los 19 años para el año 2000 (cada 1000 habitantes) Y i , el % de personas entre los 12 y 17 años que reportó haber consumido alcohol el mes pasado para el año 2002  X1i , y el % de niños bajo los 18 años viviendo en familias con un solo padre al 2004  X2i , para   los   50   estados norteamericanos   más   Washington D.C.

Primero   ejecutemos   una regresión   lineal   para   obtener   los parámetros estimados:

>a <­ read.table('a.txt')   >a1 <­ (lm(a$V1~a$V2+a$V3)) >summary(a1)

Nuestra ecuación de regresión múltiple queda como:

Y= 88,5012−2,7093 ∙X11,1986∙ X2

4,714 −3,311 4,416

Fk−1,n−k=

∑ y i2

k−1

∑ e i2

n−k

= F2,48=

8107.662

10368.73648

= 18,766

Que vemos coincide con el resultado entregado por R:

Verifiquemos algebraicamente  las   relaciones  de F para nuestro ejemplo (Tabla Nº17).

39

SALIDA Nº25

Call:lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:     Min       1Q   Median       3Q      Max ­41.3044  ­7.1242  ­0.5424  11.4843  34.3829 

Coefficients:                 Estimate   Std. Error    t value    Pr(>|t|)    (Intercept)  88.5012     18.7750     4.714    2.12e­05 ***a$V2          ­2.7093       0.8183    ­3.311    0.00177 ** a$V3           1.1986       0.2714     4.416    5.69e­05 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 14.7 on 48 degrees of freedomMultiple R­squared: 0.4388, Adjusted R­squared: 0.4154 F­statistic: 18.77 on 2 and 48 DF,  p­value: 9.515e­07 

TABLA Nº17

ESTADO

Alabama  90 15,73 37 90,232 153,490 0,054 147,793Alaska  73 15,61 30 82,167 18,697 84,034 23,455Arizona  104 18,47 33 78,014 0,029 675,260 684,189Arkansas  93 15,65 35 88,052 104,217 24,486 229,735California  96 15,24 31 84,368 42,577 135,302 329,677

∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙

Virginia  72 18,28 29 73,735 16,879 3,009 34,141Washington  75 16,26 29 79,207 1,862 17,702 8,083West Virginia  67 20,12 62 108,303 927,829 1705,961 117,571Wisconsin  55 18,7 31 74,994 8,117 399,756 521,803Wyoming  77 18,99 28 70,612 52,282 40,802 0,711

8107,660 10368,736 18476,745∑

Y i−Y2Y i−

Y i2 Y i−

Y2Y iX 2iX1iY i

Y= 77,843

FUENTES: Tasa de embarazo adolescente en mujeres de 15­ a 19 a ños, 2000 (tasa por 1,000)http://www.thenationalcampaign.org/state­data/state­comparisions.asp?id=3&sID=18% de personas entre los 12 y 17 años que reportó haber consumido alcohol el pasado mes el a ño 2002http://www.drugabusestatistics.samhsa.gov/2k2State/html/appA.htmPorcentaje de niños bajo 18 años viviendo con familias lideradas por un solo padre 2004http://www.thenationalcampaign.org/state­data/state­comparisions.asp?id=8&sID=5

BASE DE DATOS Nº8

ESTADO

Alabama  90 15,73 37Alaska  73 15,61 30Arizona  104 18,47 33Arkansas  93 15,65 35California  96 15,24 31

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

Virginia  72 18,28 29Washington  75 16,26 29West Virginia  67 20,12 62Wisconsin  55 18,70 31Wyoming  77 18,99 28

Y i X1i X 2i

Page 46: Análisis de regresión para sociólogos

Si el valor F calculado excede el valor tabulado de la F específica al nivel de significación elegido y los grados de libertad dados, se acepta  H1 . En nuestro ejemplo, el valor F calculado para un 95% de significación con 2 y 48 grados de libertad es:

>qf(0.95,2,48)[1] 3.190727 3,191 < 18,766 con lo que aceptamos la hipótesis alternativa.

F   puede   ser   grande   y   sin   embargo   ninguno   de   los   parámetros   estimados   ser   estadísticamente significativos. Esto puede ocurrir cuando las variables independientes están altamente correlacionadas las unas con   las   otras   (este   problema,   denominado   multicolinealidad,   lo   estudiaremos   en   la   sección   3,   capítulo   4: Multicolinealidad).

2.5.2 Tabla ANOVA para el modelo lineal general.

2.5.3  Cálculo de la tabla ANOVA utilizando el álgebra de matrices en R.

Calculemos la matriz X, la Y, la traspuesta de X, la transpuesta de Y, b y la transpuesta de b:

>a <­ read.table('a.txt') >am<­as.matrix(a) >x<­ cbind(1, am[,2],am[,3])>y<­cbind(am[,1])>xt <­ t(x)>yt <­ t(y)>b<­solve(xt%*%x)%*%xt%*%y>bt <­ t(b)

Calculemos las siguientes expresiones para obtener los cuadrados medios:

Y'Y­b'X'Y  = yt%*%y­ bt%*%xt%*%y  =  10368.74b'X'Y  = bt%*%xt%*%y =  317145.3Y'Y = yt%*%y =  327514

Y como por otro lado obtenemos que: ∑ Yi2

n= 309036,165

40

TABLA Nº19

Suma de los cuadrados

= 18477,835

= 10368,74

= 8109,135−∑ Y i

2

nb' X' Y 'SCR=

Y 'Y−b' X 'YSCE=

−∑ Y i

2

nY 'YSTC=

TABLA Nº18Fuente de  Grado de Suma de los  Cuadrados variación libertad Cuadrados Medios

 

SCRk−1SCE

n−k

= CMRCME

Regresión

Error

Total

k−1

n−k

n−1

SCR=

SCE=

STC=

b' X' Y '−∑ Y i

2

n

Y 'Y−b' X 'Y

Y 'Y −∑ Y i

2

n

SCRk−1

SCEn−k

F

TABLA Nº20Fuente de  Grado de Suma de los  Cuadrados variación libertad Cuadrados Medios

 

Regresión

Error

Total

F

2

48

50

8109,135

10368,74

18477,835

317026,4862

10368,7448

CMRCME

= 18,77

Page 47: Análisis de regresión para sociólogos

Análisis de regresión múltiple

Si un valor de F es lo suficientemente grande, entonces una porción considerable de la variación en las observaciones puede atribuirse a la regresión de Y sobre las variables de predicción tal como se encuentran definidas por el modelo.

Hemos visto que F se relaciona con R de la siguiente manera: F=

∑ y i2

k−1

∑ e i2

n−k

=

R2

k−11−R2

n−k

Para nuestro ejemplo:  R2= 0,439

R2

k−1

1−R2

n−k

=

0,4392

0,56148

= 0,2195

0,0116875= 18,781= F

La   estadística   F   como   una   prueba   de   significación   del   poder   explicativo   de   todas   las   variables independientes  conjuntamente,  es  aproximadamente equivalente  a  probar   la   significación  de  la  estadística 

R2 . Si  H1 es aceptada podríamos esperar que  R2 y por lo tanto F sean altas.

2.6 LOS COEFICIENTES DE CORRELACIÓN PARCIAL (CCP)

Los CCP miden la correlación entre la variable dependiente y una variable independiente después de excluir la influencia común de las otras variables independientes en el modelo (manteniéndolas constantes). Los CCP son usados en el análisis  de regresión múltiple para determinar  la importancia relativa de cada variable independiente   en   el   modelo.   La   variable   independiente   con   el   mayor   CCP   con   respecto   a   la   variable dependiente es la que más contribuye al poder explicativo del modelo.

Por ejemplo,  rY X1X2es la correlación parcial entre Y y  X1 después de remover la influencia de X2

tanto de Y como de X1 .

Para el caso de un modelo con dos variables independientes:

rY X1X2=

r Y X1−rY X2

r X1 X2

1−rX1 X2

2 1−r YX2

2 y  rY X2X1=

r YX2−rY X1

r X1 X2

1−rX1 X2

2 1−r YX1

2 Donde: (75)

rY X1es el coeficiente de correlación simple entre Y y X1 ,

rY X2es el coeficiente de correlación simple entre Y y X2  y

rX1X2es el coeficiente de correlación simple entre  X1 y X2

Los coeficientes de correlación parcial  varían de ­1  a 1 (la misma variación que  los  coeficientes de correlación simple) y tienen el signo del parámetro estimado correspondiente ( rY X1X2

tiene el mismo signo que b1 y rY X2X1

tiene  el  mismo  signo  que b2 )   La  suma de  los  CCP entre   las  variables   independientes  y   la variable dependiente en el modelo no debe superar el valor de 1. 

Para nuestro ejemplo calculemos los coeficientes de correlación parcial:

La siguiente instrucción en R calcula una matriz de correlaciones con 1 en la diagonal, las correlaciones simples en el triángulo inferior y las correlaciones parciales en el triángulo superior. (Debemos bajar y llamar la librería ggm)

>a <­ read.table('a.txt') >library(ggm)>correlations(a)

rY X1X2= ­1 Se refiere al caso donde hay una perfecta relación lineal negativa entre Y y X1 después de 

remover la influencia común de X2 sobre Y y X1 .

41

SALIDA Nº26

V1 V2 V3 V4V1 1,0000000 ­0,5982236 0,6741887 ­0,3800718V2 ­0,7392548 1,0000000 0,2122357 ­0,0010714V3 0,8006118 ­0,5062053 1,0000000 ­0,0127640V4 ­0,6750090 0,4970814 ­0,5462974 1,0000000

Page 48: Análisis de regresión para sociólogos

rY X1X2= 1 Se refiere al caso donde hay una perfecta relación lineal positiva entre Y y X1 después de 

remover la influencia común de X2 sobre Y y X1 .rY X1 X2

= 0 Se refiere al caso en el que no existe una relación lineal entre Y y X1 después de remover la influencia común de X2 sobre Y y X1 . Por consiguiente  X1 puede ser omitido en la regresión.

Existe un método para remover la influencia de X2 tanto de Y como de X1 al encontrar rY X1 X2. 

Para remover la influencia de X2 sobre Y, hacemos una regresión de Y sobre X2   y encontramos el residuo e1= Y✳ . Para remover la influencia de X2 sobre X1 , hacemos una regresión de X1 sobre X2 y encontramos el residuo  e2= X1

Y✳ y X1✳ representan las variaciones en Y y X1 respectivamente sin la influencia de   X2 . Por lo 

tanto, el coeficiente de correlación parcial es simplemente el coeficiente de correlación simple entre los residuosY✳ y X1

✳ esto es,  rY X1X2= rY ✳ X1

✳ .

2.7 ANÁLISIS DE LOS RESIDUOS

El análisis  de  los  residuos es el  estudio más   importante dentro del modelo de regresión, pues de una manera muy efectiva podemos detectar sus posibles deficiencias. Asimismo, con este análisis podemos descubrir violaciones de las suposiciones subyacentes al modelo.

4 son las deficiencias más comunes en el análisis de regresión:

1. Que estemos en presencia de una relación no lineal.2. Que la varianza del error

2 no sea constante (heterocedasticidad).3. Que una o más de las variables de predicción que ejercen una influencia importante no estén incluídas 

en el modelo.4. Que existan observaciones discrepantes o aberrantes (aquellas cuyos valores se encuentran alejados del 

comportamiento general del resto de los datos).Recordemos que un residuo se define como: e i= Y i−

Y i ∀ i= 1,2,...n donde e i es una estimación del verdadero error no observable  i

Se grafican  los  valores  de Y i versus  los  residuos estandarizados: es= e i

Sdado que  la media de  los 

residuos es igual a cero y S es la desviación standard residual: CME (el error cuadrático medio es la varianza de los residuos, que es una estimación de  i

2 )El análisis de los residuos es un análisis de sus gráficas. Una ecuación de regresión correcta no develará 

ningún patrón entre los es y los Y i , los es tenderán a encontrarse dentro de una banda horizontal centrada alrededor del cero, sin ninguna tendencia a los positivos o los negativos y muy raramente más allá de ±3 . Si n es muy grande, la distribución de los es deberá encontrarse aproximada a una distribución normal standard. Situación contraria indicará una deficiencia en el modelo.

Examinemos tres casos:         GRÁFICA Nª 20

 

1. Acá existe un efecto cuadrático presente en una variable   de   predicción,   por   lo   cual,   esa   variable independiente   debe   introducirse   como   un   término cuadrático en el modelo.

42

Page 49: Análisis de regresión para sociólogos

Análisis de regresión múltiple

       GRÁFICA Nª 21

2. Modelos   con   varianza   del   error   no   constante (heterocedáticos)

Deben emplearse mínimos cuadrados con factores de peso (donde los pesos son inversamente proporcionales a la varianza   de   los   errores)   para   estimar   los   coeficientes   de regresión.

              GRÁFICA Nª 22 

3. Cuando una variable que se ha eliminado muestra una fuerte asociación lineal con los residuos   debe incluirse en el modelo de regresión.

Dos ideas importantes:1.   Una   de   las   suposiciones   de   la   estimación   por 

mínimos cuadrados es que el conjunto de datos con los que se trabaja es típico de la situación para la cual se  intenta identificar una buena ecuación de predicción.

2. En una ausencia clara de evidencia de error,  la observación   discrepante   (aberrante)   puede   ser   la   única información con respecto a la respuesta y ser vital para el entendimiento del fenómeno.

43

Page 50: Análisis de regresión para sociólogos

3.1 AUTOCORRELACIÓN GRÁFICA Nº23

 3.1.1 ¿QUÉ ES LA AUTOCORRELACIÓN?

Si   se   observa   la   tasa   de   desempleo   o   las semanas promedio en el desempleo en el mercado del trabajo en una economía, es común encontrar que esos indicadores suban o bajen a  lo  largo de  los meses en sucesión.   La   gráfica   nº23   nos   entrega  la   tasa   de desempleo y  la  duración en semanas del  mismo para EE.UU entre Enero de 1980 y Julio del 2009.  Obviamente en situaciones como ésta, el supuesto de no correlación serial de los errores subyacente al método de MCO no se cumple.

El supuesto de no correlación serial de los errores establece   que   éstos   (o   sus   estimaciones,   los   residuos) deben estar  distribuidos  aleatoriamente,  esto es,  cadai e i no está influenciado por el error (el residuo) 

de   cualquier   otra   observación   (Gráfica   nº24).   En lenguaje  formal,  esto  supone que  la covarianza1  entre cualquier par de errores es 0:

Et t s= 0 ∀ s≠0 (76)

GRÁFICA Nº24 Si estos errores (residuos) presentan algún tipo de patrón, se dice que existe autocorrelación, simbólicamente expresada como:

Et t s≠ 0 ∀ s≠0               (77)

pudiendo   existir   tanto   en   series   de   tiempo   (correlación   temporal), como en datos de sección transversal (correlación espacial), siendo el primer caso mucho mas común que el segundo. 

El  problema es que cuando  los estimadores de los parámetros son   obtenidos   en   presencia   de   autocorrelación,   dejan   de   ser eficientes, es decir,  dejan de ser  los que más  cercanos están a ser estadísticamente significativos que cualquier otro estimador (gráfica nº 25).

        GRÁFICA Nº25

          

Se   generan  así  errores   standard   sesgados2  y  por   lo tanto   pruebas   estadísticas   e   intervalos   de   confianza incorrectos.  

Cuando el supuesto de no autocorrelación es violado es necesario formular el modelo de regresión de modo más general   prescindiendo   de   esta   hipótesis.   Este   modelo   se denominará   modelo   de   regresión   lineal   generalizado   y   su estimación se hará  aplicando métodos distintos a los de los MCO. 

1 La covarianza refleja la relación lineal que existe entre dos variables y se define como: Cov XY= ∑ x iy i

n−1= ∑ X i−X Y i−Y

n−12 Esto es porque :  E b≠ b

44

Page 51: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Autocorrelación

3.1.1.1 Autocorrelación en datos de sección transversal.

La autocorrelación espacial ocurre cuando los errores están geográficamente relacionados. Por ejemplo, una ciudad ve un repunte en sus tasas de criminalidad por lo que decide aumentar su dotación policiaca. Al año siguiente su tasa de criminalidad baja notoriamente. Una ciudad vecina, que no aumentó su dotación policial, encuentra que presenta un repunte de su tasa de criminalidad sobre el mismo periodo.

Otro ejemplo: tenemos datos de corte transversal que consideran el gasto en consumo sobre el ingreso familiar. Un incremento del gasto de una familia puede afectar el gasto en consumo de otra, al estimular a esta familia a incrementar sus gastos si quiere 'mantenerse a la altura' de la otra.

Es importante recordar que en los análisis de sección transversal, el orden de los datos debe obedecer a cierta lógica para darle sentido sociológico a cualquier decisión de si hay presencia de autocorrelación espacial o no. 

3.1.1.2 Autocorrelación en series de tiempo.

Consideremos la serie temporal del número de homicidios en una ciudad en un lapso de tiempo. Existen razones para creer que la cantidad de estos delitos está influenciado por los que se han cometido en el pasado. (una sociedad puede volverse mas 'anómica' en con el transcurso del tiempo). Para tablas en las cuales los datos siguen un orden natural  sobre el  tiempo,  las observaciones sucesivas tienen una alta probabilidad de exhibir intercorrelación, especialmente cuando el intervalo entre las sucesivas observaciones es corto, como un día, una semana o un mes.

3.1.1.3 Algunos patrones de autocorrelación:

Tendencia cuadrática. Tendencia cíclica.

GRÁFICA Nº26                   GRÁFICA Nº27

Tendencia ascendente. Tendencias lineales y cuadráticas.

GRÁFICA Nº28 GRÁFICA Nº29

45

Page 52: Análisis de regresión para sociólogos

3.1.2 ¿POR QUÉ OCURRE LA AUTOCORRELACIÓN?

1.­ Por inercia: En sociología prácticamente no existen variables que cambien inmediatamente a medida que cambia otra relacionada a ella. Existe una tendencia que se opone al cambio, una 'inercia' que hace que valores pasados de un regresor influyan sobre los valores actuales del mismo, ya sea temporal o espacialmente. 

2.­ Cuando variables fundamentales en un modelo de regresión son excluídas. Al inicio de un análisis de regresión el investigador debe poseer un modelo verosímil, pero que muchas veces resulta no ser el mejor. Si al  graficar   los   residuos e i obtenidos de  la  regresión ajustada,  se observan patrones de autocorrelación,  esto puede sugerir que importantes variables que quizás fueron candidatas pero que no fueron incluidas en el modelo (por cualquier razón) deben ser incluídas. 

A  menudo  la   inclusión  de aquellas  variables   remueve el  patrón de correlación  observado entre   los residuos.

Por ejemplo, supongamos que tenemos el siguiente modelo válido en una serie de tiempo (por ello el subíndice t):

Y t= b0b1 X1tb2 X2tb3 X3t t pero que por alguna razón consideramos el siguiente:

Y t= b0b1 X1tb2X2t t donde t= b3 X3tt

El  error t revelará  un patrón sistemático, ya que los valores de X3t afectan a Y t ,  creando una autocorrelación falsa que desaparece al correr el modelo correcto.

3.­ Cuando no aplicamos una forma funcional correcta. Consideremos el siguiente modelo de regresión lineal:

Y t= b0b1 X1tb2 X1t2 t pero erróneamente ajustamos el modelo siguiente: Y t= b0b1 X1tt

GRÁFICA Nº30 donde t= b2X1t2 t

La curva que corresponde al modelo verdadero se muestra junto a la errónea recta de regresión asociada (gráfica nº30).

Entre A y B la la recta de regresión sobreestima el valor Y t , como así más allá de esos puntos lo subestima. Esto es esperado, puesto que el error es t= b2X1t

2 t y por lo tanto captura el efecto sistemático del término 

b2 X1t2 en   el   valor   de Y t

.   En   este   caso, tpresentará 

autocorrelación por el uso de una incorrecta forma funcional.

4.­ Decisiones implementadas en el regresando, producto de la influencia del comportamiento de los regresores3. Consideremos el modelo:

Qt= b0b1P t−1t donde Q es la cantidad y P es el precio de una mercancía.

Supóngase que al final del periodo t, el precio P t resulta ser inferior al P t−1 , por lo tanto, en el periodo t+1 los productores pueden decidir producir menos de lo que produjeron en el periodo t.

Obviamente, en esta situación no se espera que los errores t estén distribuidos aleatoriamente porque si los productores sobreproducen en el año t es probable que reduzcan su producción en t+1, lo que lleva a un patrón autorregresivo4.

5.­  Rezagos:   Se  ha  observado que   las  ventas  de  una mercancía  dependen,  además  del  gasto  en publicidad, de las ventas del periodo previo, esto es: Vt= b0b1Ptb2Vt−1 t donde Vt y Pt son las ventas y el gasto en publicidad en el periodo t, y  V t−1 las ventas en el periodo t­1. (Esquema autorregresivo)

Si no consideramos el término retrasado, el error resultante reflejará  un patrón sistemático debido a la influencia de la propaganda de las ventas pasadas sobre las ventas actuales.

3 Este fenómeno es conocido como el efecto cobweb.4 En modelos autorregresivos el error del modelo de regresión lineal esta relacionado con su valor pasado de la manera:: t= t−1

46

Page 53: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Autocorrelación

6.­ 'Manipulación' de los datos. 

En análisis  empíricos,  los datos en bruto son a menudo 'manipulados'.  Por ejemplo, en regresiones de series   de   tiempo   que   involucran   datos   trimestrales,   tales   datos   son   usualmente   derivados   desde   los   datos mensuales por la suma simple de tres observaciones mensuales divididas por 3.

Este promedio  introduce suavizamientos en  las   fluctuaciones  existentes  en  los  meses.  Por   lo   tanto,  el gráfico de los datos trimestrales  luce mucho mas suave que los datos mensuales y este suavizamiento podrá provocar un patrón sistemático en los errores, introduciendo así autocorrelación.

Otra forma de manipulación es la interpolación o extrapolación de datos. Por ejemplo, cada 10 años se practica un censo de población. Supongamos el último en el 2000 y el anterior en 1990. Si hay necesidad de obtener datos de algunos de los años del periodo intercensal (1990; 2000) una práctica común es interpolar sobre la base de un supuesto ad­hoc.

Todas estas técnicas de manipulación de datos pueden imponer sobre los datos patrones sistemáticos que podrían no existir en los datos originales.

7.­ La autocorrelación puede ser inducida como resultado de la transformación del modelo original.

Consideremos el siguiente modelo:

Y t= b0b1 Xtt donde: Y t = Gastos en consumo y Xt = Ingreso (78)

Si  la ecuación planteada resulta válida, también  lo será  para un periodo anterior, esto es, para (t­1). Entonces la ecuación queda como:

Y t−1= b0b1 X t−1 t−1 (Forma de nivel) (79)

Si restamos a la primera expresión la segunda tenemos:

Y t−Y t−1= b1Xt−Xt−1t− t−1= Y t= b1Xt t (Primera forma de diferencia), donde: : Primer operador de diferencia.

Para nuestros propósitos podemos escribir lo anterior como:  Y t= b1Xtt

Si en Y t−1= b0b1 Xt−1t−1 X e Y representan los logaritmos del gasto en consumo e ingreso, entonces en: Y t= b1Xt t , Y y X representarán cambios en sus respectivos logaritmos. Pero un cambio en el logaritmo de una variable es un cambio relativo o porcentual, si aquel es multiplicado por 100. Así en vez de estudiar relaciones entre variables en la forma de nivel, quizás estemos más interesados en sus relaciones en la forma de diferencia.

Si   el   término   del   error   en Y t= b0b1Xtt satisface   los   supuestos   standard   del   método   de   MCO (específicamente el de no autocorrelación) puede demostrarse que el error t está autocorrelacionado5.

Modelos   como Y t= b1Xtt son   conocidos   como   modelos   de   regresión   dinámicos,   esto   es, modelos que incluyen regresandos rezagados.

3.1.3 ¿CÓMO SE IDENTIFICA UNA AUTOCORRELACIÓN?

Recordemos que el supuesto de no autocorrelación del modelo clásico de regresión lineal se refiere a los errores t ,   los   cuales   no   son   directamente   observables.   Con   lo   que   contamos   en   vez   de   ellos   son   sus estimaciones, los residuos et , que obtenemos por el procedimiento usual de MCO.

A pesar de no ser los et lo mismo que los t , muy a menudo un examen visual de los residuos nos da algunas pistas sobre la probable presencia de autocorrelación en los t . Incluso, un examen visual de los et o

e t2 puede entregar información útil no solamente de autocorrelación, sino que también de heterocedasticidad 

(que veremos en el próximo capítulo) y sesgo de especificación6.

3.1.3.1 La estadística d de Durbin­Watson.

El test mas famoso para detectar autocorrelación es el Durbin­Watson, cuya gran ventaja es que se basa en los еt . Se define como como:

5 La demostración de esto excede los propósitos de este libro.6 Es el sesgo causado por la omisión de variables relevantes.

47

Page 54: Análisis de regresión para sociólogos

d= ∑t=2

n

et−et−12

∑t=1

n

et2

(80)

  d= ∑ еt−еt−1

2

∑ еt2 =

∑ еt2∑ еt−1

2−2∑ еt еt−1

∑ еt2 Como ∑ еt

2 y ∑ еt−12 difieren sólo en una observación, 

podemos considerarlos aproximadamente iguales, por lo que:

d≈ 21−∑ еt еt−1

∑ еt2 . Definamos: =

∑ еt еt−1

∑ еt2 como un estimador del coeficiente de autocorrelación 

de primer orden , entonces: d≈ 21− y como −1≤≤1 , esto implica que 0≤d≤4

Si no hay correlación lineal de primer orden =0 y d= 2.Si existe perfecta autocorrelación de primer orden positiva =1 y d= 0Si existe perfecta autocorrelación de primer orden negativa =−1 y d= 4

Debemos comparar la d que obtenemos con el valor tabulado de ella a los correspondientes grados de libertad dados y significación elegida.

Existen ciertos supuestos subyacentes a la estadística d:

1. El modelo de regresión incluye el término de intersección. Si este no está presente como en el caso de una regresión a través del origen, es esencial correr de nuevo la regresión incluyendo el término de intersección para obtener la suma de los cuadrados del error (SCE)

2. Las variables independientes son no estocásticas o ajustadas en muestras repetidas.3. Los errores t son generados por un patrón autorregresivo de primer orden:

t= t−1t  (81)

Por  lo tanto,  la estadística d no puede ser usada para detectar esquemas autorregresivos de orden superior.

4. Se supone que los errores t están normalmente distribuidos.5.  El  modelo de regresión no  incluye el  valor atrasado de  la variable dependiente como una de  las 

variables de predicción. Así el test es inaplicable a modelos de regresión dinámicos del tipo:

Y t= b0b1 X1tb2 X2t...bkXktY t−1t      (82)

donde Y t−1 es el valor de un atraso de Y t

6.­ No hay observaciones perdidas en los datos.

A diferencia de t, F o 2 , no existe un único valor crítico para aceptar o rechazar la hipótesis nula de 

que no existe correlación serial de primer orden en los errores i .Estos límites sólo dependen del número de observaciones n y el número de variables independientes k.Si existe autocorrelación positiva, los еt estarán agrupados y sus diferencias por lo tanto tenderán a ser 

pequeñas. Por el contrario, si existe autocorrelación negativa, un еt positivo será seguido por un еt−1 negativo con mucho mas frecuencia que en el caso anterior, lo que haría más grande el numerador que el denominador. 

Recordemos que d= ∑ еt−еt−1

2

∑ еt2

48

Page 55: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Autocorrelación

3.1.3.1.1 Los pasos para aplicar la prueba d:

1. Se corre una regresión por MCO y se obtienen los residuos.2. Se calcula d.3. Para el tamaño de la muestra y el número de variables independiente dados, se encuentran los valores 

críticos dInferior y dSuperior

4. Se toman decisiones de acuerdo a los siguientes sets de hipótesis:

4.1.H0 := 0H1 : 0

Se rechaza H0 al nivel si 0 d dinferior , esto es, si hay evidencia estadísticamente 

significativa de una autocorrelación positiva.

4.2.H0:= 0H1: 0 Se   rechaza H0 al   nivel si 4−dinferior d 4 ,   esto   es,   si   hay   evidencia 

estadísticamente significativa de una autocorrelación negativa.Notemos que la zona de indecisión donde d no es concluyente se estrecha  medida que el tamaño de la 

muestra se incrementa.Si bien el test Durbin­Watson es un test cuantitativo para determinar la presencia de autocorrelación de 

primer orden, el método gráfico es poderoso y sugestivo ­aunque por naturaleza subjetivo­.

3.1.3.2 Método informal (gráfico) para la autocorrelación de primer orden negativa.

Al graficar los residuos versus el tiempo, si éstos están autocorrelacionados negativamente, se obtendrá una  gráfica como la que muestra la figura nº31:

Autocorrelación negativa:

                 GRÁFICA Nº31                             GRÁFICA Nº32

Los   signos   de   los   residuos   en   el   tiempo   cambian continuamente.

Si   los   residuos   están correlacionados negativamente,   al   graficar los et contra   los e t−1

obtendremos   una   gráfica como   la   que   muestra   la figura nº32:

Notemos del gráfico lo siguiente: en el  cuadrante I se   ubican   los   residuos   que 

en el tiempo pasan de ser negativos a positivos y en el III, los que pasan de positivos a negativos. 

La tabla nº21 nos entrega los valores de residuos que están autocorrelacionados negativamente.

Asumamos   que   estos   residuos   están   estandarizados7, para   así   trabajar   con   números   puros8.   Grafiquemos   estos residuos contra el tiempo (gráfica nº33):

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos autocorrelacionados ","negativamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >lines(a$V1, lwd=3, col=4) >x <­ seq( 0, 30, length = 100) >lines(x, x­x, type="l", lwd=3, col= 'red') 

7 Los residuos estandarizados son simplemente los e t divididos por el error standard de la regresión, es decir:e t

8  Tengamos en cuenta que e t y están medidos en las unidades en las cuales el regresando Y i es medido, por lo que los residuos estandarizados son números puros (desprovistos  de unidad de medida) y pueden ser  comparados con  los   residuos estandarizados de otras regresiones. 

49

Page 56: Análisis de regresión para sociólogos

               GRÁFICA Nº33

Observemos que el signo de los residuos cambia sucesivamente.

Ahora grafiquemos los et versus los et−1 para nuestro ejemplo (tabla nº22) ­nótese que perdemos una observación­:

       

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='e t­1', ylab='e t', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuo", "versus su residuo anterior",sep="\n"), font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x <­ seq( ­3, 3, length = 100) >lines(x, x­x, type="l", lwd=3, col= 'red') >lines(x­x, x, type="l", lwd=3, col= 'red')

                            GRÁFICA Nº34

        

Calculemos   la  estadística  Durbin­Watson  para  determinar   la  existencia  de autocorrelación  en   forma algebraica (tabla nº23):

d= ∑t=2

n

et−et−12

∑t=1

n

et2

= 187,2367,85

= 2,759

Ahora, el valor tabulado de D­W para el tamaño n, el número de parámetros estimados y el nivel de significación elegido es:

n= 23, k= 1 al 95% de significación: dinf= 1,257 y  dS up= 1,437

     0          1,257         1,437                                     2,563         2,743            4                            

Como 2,743 < 2.759 existe autocorrelación negativa.

50

TABLA Nº23

1 0,7 0,492 ­2,0 0,7 4,00 7,293 1,9 ­2,0 3,61 15,214 ­2,8 1,9 7,84 22,095 1,8 ­2,8 3,24 21,16∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

19 ­1,6 2,1 2,56 13,6920 1,2 ­1,6 1,44 7,8421 ­2,2 1,2 4,84 11,5622 1,1 ­2,2 1,21 10,8923 ­2,4 1,1 5,76 12,25

­2,467,85 187,23

e t−e t−12e t

2

t e t−1 e t

TABLA Nº21

0,7 1­2,0 21,9 3­2,8 41,8 5∙ ∙∙ ∙∙ ∙

­1,6 191,2 20­2,2 211,1 22­2,4 23

e t t

TABLA Nº22

1 0,72 ­2,0 0,73 1,9 ­2,04 ­2,8 1,95 1,8 ­2,8∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

19 ­1,6 2,120 1,2 ­1,621 ­2,2 1,222 1,1 ­2,223 ­2,4 1,1

­2,4

t e t e t−1

Page 57: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Autocorrelación

3.1.3.3 Método informal (gráfico) para la autocorrelación de primer orden positiva.

                 GRÁFICA Nº35

Al   graficar   los   residuos   versus   el   tiempo,   si   éstos   están   autocorrelacionados positivamente, se obtendrá una gráfica como la que muestra la nº35:

         

      GRÁFICA Nº36

Autocorrelación positiva:

Los signos de los residuos en el tiempo cambian pocas veces.

Si  los residuos están correlacionados positivamente, al graficar   los et contra   los et−1 obtendremos   una   gráfica como la nº36:

Notemos del gráfico lo siguiente: en el cuadrante II se ubican   los   residuos   que   permanecen   positivos secuencialmente  y   en   el   IV,   los   que  permanecen  negativos secuencialmente. 

La tabla nº24 nos entrega los valores de residuos que están   autocorrelacionados   positivamente.   Asumamos   que están  estandarizados.   Grafiquemos   estos   residuos   contra   el tiempo (gráfica nº37):

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos autocorrelacionados", "positivamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >lines(a$V1, lwd=3, col=4) >x <­ seq( 0, 30, length = 100) >lines(x, x­x, type="l", lwd=3, col= 'red')

GRÁFICA Nº37

Observemos que   el   signo   de   los residuos   permanece agrupado   a intervalos.

Ahora grafiquemos   los et

versus   los et−1 para nuestro   ejemplo (Tabla nº25):

51

TABLA Nº25

1 ­1,22 ­1,9 ­1,23 ­2,4 ­1,94 ­0,3 ­2,45 ­1,6 ­0,3∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

19 ­2,2 ­0,620 ­1,3 ­2,221 ­0,9 ­1,322 ­2,1 ­0,923 ­0,3 ­2,1

­0,3

t e t e t−1

TABLA Nº24

­1,2 1­1,9 2­2,4 3­0,3 4­1,6 5

∙∙∙

­2,2 19­1,3 20­0,9 21­2,1 22­0,3 23

e t t

Page 58: Análisis de regresión para sociólogos

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='e t­1', ylab='e t', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x <­ seq( ­3, 3, length = 100) >lines(x, x­x, type="l", lwd=3, col= 'red') >lines(x­x, x, type="l", lwd=3, col= 'red')

               GRÁFICA Nº38       

      Calculemos 

algebraicamente   la estadística   Durbin­Watson para determinar la existencia de   autocorrelación   (tabla nº26):  

d= ∑t=2

n

et−et−12

∑t=1

n

et2

= 56,4962,57

d= 0,903

Ahora, el valor tabulado de D­W para el tamaño n, el número de parámetros estimados y el nivel de significación elegido es:

n= 23, k= 1 al 95% de significación:  dinf= 1,257 y  dS up= 1,437

       0           1,257         1,437                                     2,563         2,743           4        

                       Como 0,903 < 1,257 existe autocorrelación positiva.

Ejemplo Nº9:     Suicidio y desempleo en Japón (1953­2004)

El suicidio en Japón, al contrario que en occidente, no es tratado como un tabú, es más, muchas veces es considerado como un acto honorable, sobre todo en hombres de mediana edad que ya no son capaces de mantener económicamente a sus familias, pues en esta sociedad la vergüenza y la falta de prestigio asociadas al el hecho de no tener trabajo es enorme. 

Como   causas   del   suicidio   en   este   país   se   pueden   consideran   las   recesiones económicas ­que generan desempleo­, el fin del modelo japonés de bienestar, la crisis en las   estructuras   familiares   y   la   influencia   de   la   cultura   budista   ­imperante   entre   los japoneses­ que no estigmatiza el suicidio.

La base de datos nº3 nos entrega los valores la tasa de suicidio en hombres por cada 100.000  habitantes   Yi y  la   tasa de cesantía en % de  la   fuerza  laboral  para hombres mayores de 15 años Xi para Japón entre los años 1948 y 2004.

Para orientarnos, grafiquemos estas variables y la recta de regresión asociada a ellas (gráfica nº39):

52

FUENTE:http://www.stat.go.jp/english/data/chouki/index.htm

TABLA Nº26

1 ­1,2 1,442 ­1,9 ­1,2 3,61 0,493 ­2,4 ­1,9 5,76 0,254 ­0,3 ­2,4 0,09 4,415 ­1,6 ­0,3 2,56 1,69∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

19 ­2,2 ­0,6 4,84 2,5620 ­1,3 ­2,2 1,69 0,8121 ­0,9 ­1,3 0,81 0,1622 ­2,1 ­0,9 4,41 1,4423 ­0,3 ­2,1 0,09 3,24

­0,362,57 56,49∑

t e t e t−1 e t2

e t−e t−12

BASE DE DATOS Nº3

Año

1948 18,7 0,71949 20,9 1,11950 24,1 1,31951 21,8 1,11952 21,8 1,3

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

2000 35,2 4.92001 34,2 5.22002 35,2 5.52003 38,0 5,52004 35,6 4,9

Y iXi

Page 59: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Autocorrelación

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Relación entre las tasas de suicidio", "y desempleo en Japón",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

     GRÁFICA Nº39

Y determinemos la presencia de autocorrelación:

>library(lmtest)>library(MASS)>a1 <­  (lm(a$V1~a$V2)) >summary(a1)>dwtest (lm(a$V1~a$V2)) 

El valor tabulado para los valores límites de la estadística Durbin­Watson es para 50 grados de libertad, 1 variable independiente al 95% de significación:

                     

      0           1,503         1.585                                      2,597         2,415           4                        

Como 0,4026 < 1,503 existe autocorrelación positiva.

Grafiquemos los residuos estandarizados versus el tiempo (gráfica nº40):

>a <­ read.table('a.txt')9 >a1 <­ (lm(a$V1~a$V2))>par(bg = "Ivory 2") >plot(a$V2, stdres(a1), col=3, xlab='Tasa de desempleo', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') >lines(a$V2,stdres(a1), lwd=3, col=4) >x <­ seq( 0, 5.7, length = 100) >lines(x, x­x, type="l", col= 'red', lwd=3) >title(main=paste("Tasa de desempleo", "versus residuos estandarizados",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

                                             

Ahora grafiquemos los et versus los et−1 para la base datos nº3 (gráfica nº41):

Para esto convirtamos nuestros datos que contienen los residuos en una matriz:

9  Para trazar las lineas entre los puntos según un orden ascendente del valor X y no sobre el orden cronológico de años sucesivos, debemos  ordenar los datos según las X en orden ascendente, sino las líneas se unirán por año consecutivo.

53

SALIDA Nº27

Call:lm(formula = a$V1 ~ a$V2)

Residuals:    Min        1Q       Median       3Q       Max ­4.4460   ­2.2741    ­0.7309     1.8405   7.5832 

Coefficients:                 Estimate   Std. Error  t value   Pr(>|t|)    (Intercept)  14.6590     0.8453     17.34    <2e­16 ***a$V2           4.1432      0.3242     12.78    <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2.914 on 55 degrees of freedomMultiple R­squared: 0.748,Adjusted R­squared: 0.7434 F­statistic: 163.3 on 1 and 55 DF,  p­value: < 2.2e­16 

SALIDA Nº28

Durbin­Watson test

data:  lm(a$V1 ~ a$V2) DW = 0.4026, p­value = 2.934e­15alternative hypothesis: true autocorrelation is greater than 0 

Page 60: Análisis de regresión para sociólogos

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2)) >m<­as.matrix(stdres(a1)) 

Creemos dos vectores, uno que excluya la primera observación y el otro que excluya la última:

>m1<­m[­c(1)] >m2<­m[­c(50)] 

Y grafiquemos:

>par(bg = "Ivory 2") >plot(m1,m2, xlab='e t­1', ylab='e t', col=3, cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x <­ seq( ­2, 3, length = 100) >lines(x, x­x, type="l", col= 'red', lwd=3) >lines(x­x, x, type="l", col= 'red', lwd=3)

                  GRÁFICA Nº40                                                                                                                  GRÁFICA Nº41

                

 3.1.4 SOLUCIONANDO LA AUTOCORRELACIÓN

Tenemos 2 opciones dependiendo del caso:

¿La autocorrelación surge por errores en el modelo o es pura? 

1.­ A veces se observan patrones en  los   residuos porque el  modelo es  erróneo ­esto es,   se  han excluído importantes variables­ o porque la forma funcional es incorrecta.

2.­ Si se trata de autocorrelación pura, podemos hacer las transformaciones apropiadas al modelo original, para hacer que este modelo transformado no presente el problema de autocorrelación (pura). Usamos para esto el método de mínimos cuadrados generalizados (MCG).

La solución depende del conocimiento que tengamos de la naturaleza de la interdependencia entre los errores, esto es, sobre la estructura de la autocorrelación.

Consideremos el siguiente modelo de regresión de 2 variables:

Y t= b0b1 Xtt y asumamos que t sigue el siguiente patrón autorregresivo de primer orden :t= t−1t −1 1

Consideraremos sólo el caso cuando es conocido:

Acá, el problema de la autocorrelación es fácil de resolver. Si  Y t= b0b1 Xtt es cierto, también lo es que: Y t−1= b0b1 Xt−1 t−1

54

Page 61: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Autocorrelación

nuestro sistema de ecuaciones resulta entonces: Y t= b0b1 Xtt

Y t−1= b0b1 Xt−1 t−1

multipliquemos esta última expresión por  y restémosela a la primera. Nos queda:Y t− Y t−1= b01−b1X t−X t−1t donde:  t= t−t−1 (83)

La expresión anterior puede escribirse como:Y t

✴= b0

✴b1X t

✴t (ecuación de diferencias generalizada) (84)

Ya que t satisface  los   supuestos  usuales  del  método de MCO, podemos aplicar  este método    las variables transformadas  Y✳ y  X✳ y obtener los mejores estimadores lineales insesgados (MELI).

En el proceso de diferencias perdemos una observación, pues la primera no tiene un antecedente. Para evitar perder esta primera observación, las primeras   Y t

∗ y Xt∗ se transforman como sigue (transformaciones 

de Prais­Winsten):

Y1✴= Y11−

2 y X1✴= X11−

2 (85)

3.1.4.1 Corrección de la autocorrelación de primer orden positiva.

Método Durbin de dos etapas (un caso de mínimos cuadrados generalizados).

1 Se estima  aplicando una regresión:Y t= b01− Y t−1b1X t−b1X t−1 t

2 Se reestima la regresión con las variables transformadas:Y t− Y t−1= b01−b1X t−Xt−1t− t−1

Solución de la autocorrelación de nuestro ejemplo.

Corramos una regresión con los valores Y t , Y t−1 , Xt y Xt−1 de la tabla nº27:

>a <­ read.table('a.txt')>a1 <­  (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1)

Nuestra ecuación de regresión estimada resulta entonces:

Y t= 2,71390.8015Y t−14,5297X t−3,6384 Xt−1 t

9,594 5.535 −3,884

55

SALIDA Nº29

Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)

Residuals:    Min      1Q  Median      3Q     Max ­3.1328 ­1.1761 ­0.4511  0.7820  6.2941 

Coefficients:                  Estimate  Std. Error  t value   Pr(>|t|)    (Intercept)   2.71385    1.34622   2.016    0.048991 *  a$V2           0.80148    0.08354   9.594    4.27e­13 ***a$V3           4.52956    0.81830   5.535    1.03e­06 ***a$V4          ­3.63840    0.93665  ­3.884    0.000291 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.797 on 52 degrees of freedomMultiple R­squared: 0.9079,Adjusted R­squared: 0.9026 F­statistic: 170.8 on 3 and 52 DF,  p­value: < 2.2e­16

TABLA Nº27

18,7 0,720,9 18,7 1,1 0,724,1 20,9 1,3 1,121,8 24,1 1,1 1,321,8 21,8 1,3 1,1

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

35,2 36,5 4.9 4.834,2 35,2 5.2 4.935,2 34,2 5.5 5.238,0 35,2 5,5 5.535,6 38,0 4,9 5,5

35,6 4,9

Y tY t−1 Xt

X t−1

Page 62: Análisis de regresión para sociólogos

Estimemos 

Y t= b01− Y t−1b1X t−

b1 X t−1 t

= 0,8015

Reestimemos   la   regresión   con   las   variables transformadas:

Y ✴= Y t−Y t−1

X ✴= Xt−Xt−1

Para obtener las primeras observaciones que se pierden, apliquemos la transformación de Prais­Winsten:

Y1✴≈ Y11−

2 18,71−0,80152

= 11,1825

X1✴≈ X11−

2 0,71−0,80152

= 0,4186

Ahora apliquemos una regresión lineal a la tabla nº29:

>a <­ read.table('a.txt')>a1 <­  (lm(a$V1~a$V2)) >summary(a1)

El valor tabulado para los valores límites de la estadística Durbin­Watson es para 57 grados de libertad, 1 variable independiente al 95% de significación es:

                     

          0           1,528         1,601                                     2,399         2,472          4       

Determinemos la estadística d para la tabla nº29 con R:

>library(lmtest)>library(MASS)>a <­ read.table('a.txt')>dwtest (lm(a$V1~a$V2)) 

Como 1,601 < 1,6798 ya no existe autocorrelación.

56

SALIDA Nº30

Call:lm(formula = a$V1 ~ a$V2)

Residuals:    Min       1Q     Median    3Q      Max ­3.2466  ­1.3106  ­0.5588   0.6792  6.4643 

Coefficients:                 Estimate   Std. Error   t value   Pr(>|t|)    (Intercept)   2.8666      0.4526     6.334   4.62e­08 ***a$V2           4.4233      0.7076     6.251   6.31e­08 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.956 on 55 degrees of freedomMultiple R­squared: 0.4154,Adjusted R­squared: 0.4047 F­statistic: 39.07 on 1 and 55 DF,  p­value: 6.309e­08 

TABLA Nº28

18,7 0,720,9 18,7 1,1 0,7 5,912 0,53924,1 20,9 1,3 1,1 7,349 0,41821,8 24,1 1,1 1,3 2,484 0,05821,8 21,8 1,3 1,1 4,327 0,418

∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙

35,2 36,5 4.9 4.8 5,945 1,05334,2 35,2 5.2 4.9 5,987 1,27335,2 34,2 5.5 5.2 7,789 1,33238,0 35,2 5,5 5.5 9,787 1,09235,6 38,0 4,9 5,5 5,143 0,492

35,6 4,9

X t−1XtY t−1Y t Y ✴= Yt− Yt−1 X ✴= X t−X t−1

TABLA Nº29

11,1825 0,41865,9120 0,53907,3487 0,41842,4839 0,05814,3273 0,4184

∙ ∙∙ ∙∙ ∙

5,9453 1,05285,9872 1,27277,7887 1,33229,7872 1,09185,1430 0,4918

X ✴= X t−X t−1Y ✴= Yt− Yt−1

SALIDA Nº31

Durbin­Watson test

data:  lm(a$V1 ~ a$V2) DW = 1.6798, p­value = 0.09426alternative hypothesis: true autocorrelation is greater than 0 

Page 63: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Heterocedasticidad

3.2 HETEROCEDASTICIDAD3.2.1 ¿QUÉ ES LA HETEROCEDASTICIDAD?

Un   supuesto   básico   del   modelo   clásico   de   regresión   lineal   señala   que   los   errores i deben   ser homocedáticos, esto es, deben poseer igual varianza:

Var i= 2∀ i= 1,2,... , n (86)

    GRÁFICA Nº42

Para   un   modelo   de   regresión   de   2   variables: Y i= b0b1X ii en   el   que   a   medida   que   X   aumenta,   Y   en 

promedio   también,   la   homocedasticidad   es   representada   por   la gráfica nº 42, donde la varianza condicional de Y i (la cual es igual a la de i ) sobre una X i dada, permanece constante a lo largo de todas las X i . En otras palabras, la dispersión de los puntos sobre la recta de regresión permanece constante.

En contraste, una situación heterocedática: Var i≠ 2∀ i= 1,2,... , n (87)

se representa en las gráficas nº43 y nº44:

La varianza de Y i se incrementa   La varianza de Y i decrecea medida que aumenta X i . a medida que aumenta X i .

                       GRÁFICA Nº43                                                  GRÁFICA Nº44

3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad.

Hay varias razones por las que Var i≠ 2 , como por ejemplo:1. En modelos de medición del aprendizaje: En un proceso de aprendizaje, los errores de las personas 

disminuyen a medida que avanza el tiempo; la dispersión de los errores tiende a disminuir. En este sentido, se espera que Var i decrezca (gráfica nº43). 

2.   En   modelos   econométricos   del   tipo: Y i= b0b1X ii donde Y i representa   el   ahorro   y X i

representa los ingresos, a medida que el ingreso aumenta, las personas tienen mayor amplitud de decisión sobre si ahorrar o gastar, por lo tanto, es probable que i

2 se incremente a mayor ingreso. En este ejemplo, la propia teoría sugiere la forma o pauta de la heterocedasticidad:  la varianza del error depende positivamente de la renta (gráfica nº44). 

3. A medida que las técnicas de recolección de datos hacen que estos aumenten, es probable que i

2 decrezca. 4. La heterocedasticidad también se puede producir como resultado de la presencia de datos anómalos. 

Un dato anómalo es aquel que difiere mucho en relación al resto de los datos de la muestra.La inclusión o exclusión de aquella observación, especialmente si el tamaño de la muestra es pequeño, 

57

Page 64: Análisis de regresión para sociólogos

puede cambiar sustancialmente los resultados del análisis de regresión.5. Una forma funcional  incorrecta puede ser una fuerte fuente de heterocedasticidad. Este problema 

muy a menudo tiene que ver con el hecho de que variables importantes sean excluídas en el modelo. Así en una función de demanda de una mercancía si no se incluyen los precios de las mercancías complementarias con la mercancía en cuestión   (sesgo  de   la  variable  omitida),   los   residuos  obtenidos  de  la   regresión  quizás  den   la impresión de que la varianza del error no sea constante. Pero si las variables que han sido omitidas son incluídas en el modelo, esa impresión probablemente desaparecerá.

En   las   formas   funcionales   vimos   que,   por   ejemplo,   si   en   una   regresión   de Y i sobre X i podemos observar un patrón, pero al hacerla de Y i sobre X i y X i

2 podemos ver otro, concluímos que es una forma cuadrática, por lo que X i

2 debe incluirse en el modelo.6. Otra fuente de heterocedasticidad es la asimetría en la distribución de uno o más regresores incluidos 

en el modelo. Ejemplos de esto son las variables económicas como el ingreso, la salud y la educación. Es bien conocida la desigualdad del ingreso o la calidad de la salud en la mayoría de las sociedades, con el grueso del ingreso y calidad de salud agrupándose en los quintiles más acomodados.

El problema de la heterocedasticidad se da más comúnmente en datos de sección transversal que en series de tiempo.

3.2.2 ¿CÓMO SE IDENTIFICA LA HETEROCEDASTICIDAD?

No se posee una única y efectiva herramienta para detectar heterocedasticidad,  sino unos cuantos métodos  parciales.  Ésta situación es   inevitable,  porque i

2 sólo  puede ser  conocida si  conocemos toda  la población Y i correspondiente a las X i elegidas. Pero esta situación es mas bien la excepción que la regla en sociología.

3.2.2.1 Método informal (gráfico).

En   estudios   de   corte   transversal   que   involucran   unidades   heterogéneas   es   muy   común   encontrar heterocedasticidad, como es el caso de la regresión entre ingresos y escolaridad.

Si no hay información empírica o a priori sobre la naturaleza de la heterocedasticidad, en la práctica podemos hacer un análisis de regresión sobre la base de que no existe y entonces examinar el patrón en la relación de los residuos al cuadrado1 con Y i para ver si exhiben alguna sistematicidad.

En la gráfica nº 45 no se aprecia la existencia de una evidente heterocedasticidad, al contrario de lo que muestran las gráficas nº46, 47 y 48.

           GRÁFICA Nº45                    GRÁFICA Nº46          GRÁFICA Nº47                   GRÁFICA Nº48

GRÁFICA Nº49

También   se   puede   graficar e i2 versus   X,  que   para   el   caso   de   una   variable 

independiente exhibe el mismo patrón que e i2 versus  Y i . Para el caso de dos o 

más   variables   independientes e i2 se   puede   graficar   con   cualquier   regresor.   Por 

ejemplo,   la   gráfica   nº49   sugiere   que   la   varianza   heterocedática   quizás   sea proporcional a la X i en cuestión. Saber esto nos puede ayudar para transformar los datos de manera tal en la regresión, que en una nueva regresión sobre estos datos transformados la varianza de los errores se vuelva homocedática.

1 Utilizamos el cuadrado de los residuos para evitar consideraciones sobre sus posibles valores negativos.

58

Page 65: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Heterocedasticidad

3.2.2.2 Métodos formales.

3.2.2.2.1 El test de Park.

Park formalizó el método gráfico sugiriendo que i2 es alguna función de las variables independientes 

X i . La forma funcional que propuso fué:

i2= 2 X i

eVi o bien  lni

2= ln

2ln X iV i donde  V i es el error. (88)

Como   en   general   i2 es   desconocido,   Park   sugirió   usar e i

2 como   una   aproximación   y   correr   la 

siguiente regresión: lne i2= ln

2 lnX iV i= lnX iV i (89)

Si resulta ser estadísticamente significativo, se presume que hay presencia de heterocedasticidad en los datos. Si no lo es, podemos aceptar el supuesto de homocedasticidad.

El test de Park es entonces un procedimiento de dos etapas. En la primera corremos la regresión por MCO no considerando el  problema de  la heterocedasticidad.  Obtenemos e i de esta  regresión y  en  la  segunda etapa corremos la regresión siguiente: lne i

2= lnX iV i

Ejemplo Nº10: Relación entre la tasa de robos y de robo de vehículos cada 100.000 habitantes en EE.UU entre 1960 y el 2007.

La  base  de datos  nº9  nos  entrega como variable  dependiente Yi la cantidad   total   de   robos   de   vehículos   y   como   variable   independiente Xi la cantidad total de robos para EE.UU. entre los años 1960 y 2007.

Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos versus la variable independiente:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Robos', ylab='Robo de vehículos', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Relación de robos", "y robos de vehículos entre 1960 y el 2007 en EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

>library(lmtest) >library(MASS) >par(bg = "Ivory 2") >a1 <­ (lm(a$V1~a$V2)) >plot(a$V2, stdres(a1), col=3, xlab='Robos', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos estandarizados versus robos", "entre 1960 y el 2007 en EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x <­ seq( 100000, 700000, length = 100) >lines(x, x­x, type="l", col= 'red', lwd=3)

    GRÁFICA Nº 50                                GRÁFICA Nº 51

59

BASE DE DATOS Nº9

Año

1960 328200 1078401961 336000 1066701962 366800 1108601963 408300 1164701964 472800 130390

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

2003 1261226 4142352004 1237851 4014702005 1235859 4174382006 1192809 4474032007 1095769 445125

Y i X i

FUENTE:http://www.disastercenter.com/crime/uscrime.htm

Page 66: Análisis de regresión para sociólogos

Obtengamos nuestra recta estimada:

>summary(a1)

Y= 2003002,051 X R2=0,8625

3,719 17,198

Obtengamos  los  valores  de   e i , X i , lne i2 y

lnX i (tabla nº30) y corramos una  regresión de  lne i2

sobre  lnX i :

>a <­ read.table('a.txt')>a1 <­ lm(a$V1~a$V2)>summary(a1)

Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,46)[1] 2.012896 por lo que nuestro parámetro estimado es significativo al 5%: hay heterocedasticidad.

Aunque empíricamente atractivo, el test de Park adolece de ciertos problemas. Goldfeld y Quandt han argumentado que el error V i puede no satisfacer  los supuestos del método de MCO y puede ser él  mismo heterocedático. No obstante, como un método estrictamente exploratorio, el test de Park puede ser utilizado.

3.2.2.2.2 El test de Goldfeld­Quandt. 

El contraste de Goldfeld­Quant se utiliza para contrastar la homocedasticidad cuando la forma de la heterocedasticidad no es conocida, aunque se intuye que la varianza heterocedática i

2 guarda una relación monótona –creciente o decreciente– respecto a alguna variable exógena.

Por simplicidad consideremos el modelo de 2 variables usual: Y i= b0b1X ii

Supongamos que  i2 está relacionada positivamente con X i como sigue: i

2= 2 X i

2 donde 2

es una constante.El supuesto anterior postula que  i

2 es proporcional al cuadrado de X.

Para hacer este test explícito, Goldfeld y Quandt sugieren seguir los siguientes pasos:

60

SALIDA Nº32

Call:lm(formula = a$V1 ~ a$V2)

Residuals:    Min      1Q  Median      3Q     Max ­328441  ­83459   11419   99699  214231 

Coefficients:                   Estimate    Std. Error   t value   Pr(>|t|)    (Intercept)  2.003e+05  5.384e+04   3.719   0.000542 ***a$V2          2.051e+00  1.193e­01   17.198   < 2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 130500 on 46 degrees of freedomMultiple R­squared: 0.8654,Adjusted R­squared: 0.8625 F­statistic: 295.8 on 1 and 46 DF,  p­value: < 2.2e­16 

SALIDA Nº33

Call:lm(formula = a$V1 ~ a$V2)

Residuals:    Min       1Q     Median      3Q     Max ­4.9030  ­0.4599   0.2472    1.1756  2.3182 

Coefficients:                 Estimate  Std. Error t value   Pr(>|t|)   (Intercept)    5.422      6.120     0.886     0.3803   

­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.718 on 46 degrees of freedomMultiple R­squared: 0.1449,Adjusted R­squared: 0.1263 F­statistic: 7.795 on 1 and 46 DF,  p­value: 0.007607 

a$V2           1.329       0.476     2.792     0.0076 **

TABLA Nº30

­83018,57 106670 22,654 11,577­93218,1 107840 22,885 11,588­60811,78 110860 22,031 11,616­30817,25 116470 20,672 11,6655134,42 130390 17,087 11,778

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

69653,62 618950 22,303 13,336124579,61 639270 23,465 13,3689531,37 659870 18,325 13,40031369,69 672480 20,707 13,41950993,68 687730 21,679 13,441

e i Xi lne i2 ln Xi

Page 67: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Heterocedasticidad

1. Hacer un ranking de las observaciones X i comenzando con su menor valor. Si estamos en presencia de un modelo de regresión con 2 o más variables independientes, el primer paso del test, el orden por ranking, puede hacerse tomando cualquier X i . Si no estamos seguros cuál variable X i es apropiada, podemos hacer el test para cada una de las variables independientes.

2.   Omitir   c   observaciones   centrales,   donde   c   se   especifica   a   priori   y   divide   las   restantes   (n­c) observaciones en dos  grupos,  cada uno con  (n­c)/2  observaciones.   Las  observaciones  c  son omitidas  para agudizar  la diferencia entre el grupo de menor varianza SCR1 y el grupo de mayor varianza SCR 2 . La capacidad de éxito del test Goldfeld­Quandt depende de como sea elegido el valor c. c=4 si n=30 y c=10 si n=60 ha sido en la práctica satisfactoriamente encontrado.

3. Aplicar regresiones por el método de MCO a ambos grupos y obtener las respectivas sumas de los cuadrados   de   los   residuos SCR1 (referido   a   los   menores   valores   de X i ­el   grupo   de   menor   varianza­)   y 

SCR2 (referido a los mayores valores de X i ­el grupo de mayor varianza­)

SCR1 y  SCR2 tienenn−c

2−k grados de libertad (g.l.) siendo k es el número de parámetros a ser 

estimado incluyendo la intercepción y n el número de casos.

4 Calcular la siguiente fracción: = SCR2

SCR1

(90)

Si suponemos a i normalmente distribuido (lo que suele suceder), entonces puede demostrarse que 

sigue   una   distribución   F   con  n−c

2−k   grados   de   libertad   tanto   para   el   numerador   como   para   el 

denominador.Si existe heterocedasticidad, con la ordenación de la muestra, la varianza del error será mayor hacia el 

final de la muestra que al principio de la misma. Como el cuadrado de los residuos está asociado con la varianza de   los   mismos,   entonces SCR2 debería   ser   sensiblemente   mayor   que SCR1 .   Por   ello,   se   rechazará   la hipótesis   nula   de   homocedasticidad   siempre   que   el   valor   de exceda   el   valor   tabulado   al   nivel   de significación elegido y a los grados de libertad dados para F. en este caso se puede afirmar la existencia de heterocedasticidad.

Ejemplo Nº11:  Tasa de crímenes violentos versus crímenes contra la propiedad para los departamentos de policía de California durante el año 2007

La base de datos nº10 nos entrega como variable dependiente Yi la tasa de crímenes violentos y como variable independiente Xi la tasa de crímenes contra la propiedad por cada 100.000 habitantes entre los años 1960 y 2007 para 396 agencias de policía del Estado de Texas.

Grafiquemos los datos y la recta de regresión a ellos asociada y también los residuos versus la variable independiente:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Tasa de crímenes violentos', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Tasa de crímenes violentos", "versus crímenes contra la propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

>library(lmtest) >library(MASS) >a1 <­ (lm(a$V1~a$V2)) >par(bg = "Ivory 2") >plot(a$V2, stdres(a1), col=3, xlab='Tasa de crímenes contra la propiedad', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Residuos estandarizados versus ", "tasa de crímenes contra la propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >x <­ seq( 0, 9000, length = 100) >lines(x, x­x, type="l", col= 'red', lwd=3)

61

BASE DE DATOS Nº10

Agencia

Adelanto Police Dept 532,7 2639,4Agoura Hills 213,4 1515,3Alameda County Sheriff Dept 562,1 2357,2Alameda Police Dept 291 2805Albany Police Dept 283,2 4883,9

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Yorba Linda 66,4 1556,2Yuba County Sheriff Dept 398,6 2043,4Yuba City Police Dept 395,9 3091,4Yucaipa 100,7 1770,5Yucca Valley 354,7 2698,3

Y i Xi

FUENTE:http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm

Page 68: Análisis de regresión para sociólogos

        GRÁFICA Nº 52                  GRÁFICA Nº 53

Hagamos  un  ranking de  las  observaciones X i comenzando con  sus  menores  valores   (tabla  nº31)  y omitamos un sexto de las observaciones centrales (c=66) estableciendo dos grupos con 165 observaciones cada uno ((n­c)/2).

Obtengamos   las   respectivas   sumas   de   los   cuadrados   de   los   residuos SCR1 referida   a   los   menores valores  de X i ­el  grupo de menor varianza­,  y SCR2 ,   referida a  los  mayores valores de X i ­el  grupo de mayor varianza­) (tabla nº32 y nº33 respectivamente):

Para SCR1 :

>a<­ read.table('a.txt')>a1 <­ (lm(a$V1~a$V2)) >anova(a1)

62

TABLA Nº31

Agencia

Laguna Woods 16,4 502,4Avenal 256,2 774,4Hillsborough Police Dept 18,7 888,1Nevada County Sheriff Dept 197,1 891,3Corcoran Police Dept 189,8 910,8

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Desert Hot Springs 1155,3 7191,3Palm Springs Police Dept 632,4 7249,4Oroville Police Dept 1458,1 7570,5Commerce 1089,8 8316,3Santa Fe Springs 796,2 8804,6

Y iXi

TABLA Nº32

Agencia

Laguna Woods 16,4 502,4Avenal 256,2 774,4Hillsborough Police Dept 18,7 888,1Nevada County Sheriff Dept 197,1 891,3Corcoran Police Dept 189,8 910,8

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Duarte 377,4 2350Fontana Police Dept 507,7 2352,5Ridgecrest Police Dept 576,8 2356,6Alameda County Sheriff Dept 562,1 2357,2Farmersville Police Dept 538,2 2377,9

Y i X i

TABLA Nº33

Agencia

Loma Linda 129,4 2832,6Temecula 221 2833,5Auburn Police Dept 374,8 2853,4Paradise Police Dept 208,5 2861,9Redding Police Dept 498,2 2896,2

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Desert Hot Springs 1155,3 7191,3Palm Springs Police Dept 632,4 7249,4Oroville Police Dept 1458,1 7570,5Commerce 1089,8 8316,3Santa Fe Springs 796,2 8804,6

Yi Xi

SALIDA Nº34

Analysis of Variance Table

Response: a$V1                    Df        Sum Sq      Mean Sq         F value        Pr(>F)    a$V2            1         1235655      1235655         43.577      5.468e­10 ***

­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residuals     163        4621964       28356                      

Page 69: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Heterocedasticidad

Para SCR2 :

>a<­ read.table('a.txt')>a1 <­ (lm(a$V1~a$V2))>anova(a1)

siendo los grados de libertad de cada SCR:n−c

2−k=

396−66

2−2= 163

Calculemos la siguiente fracción: = SCR2

SCR1

= 123719074621964

= 2,677

Calculemos F con R con (k­1) y (n­k) grados de libertad:

>qf(0.95,1,394) [1] 3.865169  2,677< 3,8652

Así, con un 95% de confianza, no se puede afirmar la existencia de heteroscedasticidad.

3.2.2.2.3 El test de Koenker­Bassett.

El test de K­B se basa en el cuadrado de los residuos e i2 , pero en vez de correr la regresión sobre uno o 

más regresores, se hace sobre el cuadrado del valor estimado del regresando Y i2 .

Así, si el modelo original es: Y i= b0b1X1ib2 X2i...bk Xkii

Corremos una regresión obteniendo: Y i= b0b1X1i

b2 X2i... bkXkie i

Y corremos una regresión nuevamente pero de e i2 sobre  Y i

2 obteniendo:e i2= 12

Y i2V i (91)

La   hipótesis   nula   es 2= 0 .   Si   esta   es   rechazada   entonces   podemos   concluir   que   hay heterocedasticidad. Para el caso de una regresión lineal simple, la H0 puede ser probada con los test t o F (recordemos que  F1,k= tk

2 )Una ventaja del test de K­B es que es aplicable incluso si  el error en el modelo original i no está 

normalmente distribuído.

Ejemplo Nº12:  Obesos versus actividad física.

La   base   de   datos   nº11   nos   entrega   como   variable   dependiente,   el porcentaje de población obesa Yi y como  independiente, el  porcentaje de población que en una encuesta responde hacer ejercicios Xi para 53 Estados Norteamericanos2 para el año 2008. 

Grafiquemos los datos, la recta de regresión a ellos asociada y los residuos versus la variable independiente:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Cantidad de gente que hace ejercicios %', ylab='Cantidad de obesos %', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Relación ejercicio­obesidad"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

>a1 <­ (lm(a$V1~a$V2))>plot(a$V2,residuals(a1),   col=3,   xlab='%   de   población   que   hace   ejercicios',   ylab='Residuos', main='Residuos versus % de población que hace ejercicios')

2 Excluímos el Estado libre asociado de Puerto Rico.

63

SALIDA Nº35

Analysis of Variance Table

Response: a$V1                    Df        Sum Sq      Mean Sq       F value      Pr(>F)    a$V2             1        3179031      3179031        41.884     1.085e­09 ***

­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residuals      163      12371907      75901                      

BASE DE DATOS Nº 11

Estado

Alabama 32,2 70,5Alaska 27 75,9Arizona 25,5 76,8Arkansas 29,5 70,2California 24,2 76,6

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Virgin Islands 26,5 66,8Washington 26 80,6West Virginia 31,9 68,9Wisconsin 26 77,9Wyoming 25,2 75,6

Y i Xi

FUENTE:http://apps.nccd.cdc.gov/brfss

Page 70: Análisis de regresión para sociólogos

    GRÁFICA Nº 54                                                                             GRÁFICA Nº 55

Determinemos   los e i2 y   los 

Y i2 (tabla nº34):

>residuals(a1)*residuals(a1)>fitted(a1)*fitted(a1)

Corramos una regresión de e i2

sobre  Y i2 :

>a <­ read.table('a.txt')>a1 <­ (lm(a$V1~a$V2))>summary(a1)

Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,51)[1] 2.007584 Nuestro parámetro estimado no es significativo al 5%, por lo que hay homocedasticidad.

3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD                  GRÁFICA Nº56

La   heterocedasticidad   no   acaba   con   las   propiedades insesgadas y consistentes de los estimadores por MCO, pero no los hace los más eficientes, ni siquiera asintóticamente (por ejemplo en  una  muestra  de  gran   tamaño).   Esta   ausencia  de  eficiencia produce  estimaciones   sesgadas  de  los  errores   standard  (lo  que provoca   pruebas   estadísticas   e   intervalos   de   confianza incorrectos), por lo que esta situación debe ser remediada. 

Consideremos   el   modelo   de   regresión   de   dos   variables cuando la varianza no es conocida:

Y i= b0b1X ii

Supongamos que el patrón de heterocedasticidad sigue la forma:   Ei2= 2 X i

2 , esto es, la varianza del error es proporcional a  X i

2 (gráfica nº57).

64

SALIDA Nº36

Call:lm(formula = a$V1 ~ a$V2)

Residuals:     Min      1Q       Median     3Q     Max    ­4.696  ­3.512     ­2.346     1.772  19.032 

Coefficients:                  Estimate    Std. Error   t value   Pr(>|t|)(Intercept)  1.137880    4.669830    0.244      0.808

Residual standard error: 5.454 on 51 degrees of freedomMultiple R­squared: 0.00782,Adjusted R­squared: ­0.01163 F­statistic: 0.4019 on 1 and 51 DF,  p­value: 0.5289 

a$V2           0.004101   0.006468    0.634      0.529

TABLA Nº34

8,817 854,4280,934 677,7350,000 650,2730,008 864,8442,013 656,327

∙ ∙∙ ∙∙ ∙

24,219 987,2997,560 540,5872,965 910,7081,324 617,4811,022 687,014

e i2 Y i

2

Page 71: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Heterocedasticidad

               GRÁFICA Nº 57  Entonces podemos transformar el modelo original como sigue:

Y i= b0b1X ii /X i

Yi

Xi

= b0

X i

b1 i

X i

= b0

X i

b1V i (92)

donde  V i es el término del error transformado, igual a i

Xi

Resulta fácil verificar que:  EV i2= E

i

X i

2

= 1X i

2 E i2= 2

Por lo tanto ahora  V i es homocedática y podemos aplicar el método de MCO a la ecuación:

Yi

Xi

= b0

X i

b1 i

X i

corriendo una regresión de Yi

Xi

sobre 1Xi

Ejemplo Nº13: Solución de la heterocedasticidad del ejemplo 10.

Hemos   ya   comprobado   la   existencia   de   heterocedasticidad   en   el   ejemplo   nº10.   Apliquemos   la transformación   de   variables   propuesta   para   solucionar   este   problema   (tabla   nº35)   y,   con  el   test   de   Park verifiquemos que ahora éstas variables (tabla nº36) son homocedáticas.

Obtengamos los valores de e i2 , X i , lne i

2 y lnX i (tabla nº36) para la tabla nº35 y corramos una nueva regresión de lne i

2 sobre lnX i para obtener la salida nº37:

>a <­ read.table('a.txt') # Leemos los datos de la tabla nº35 #>a1 <­ lm(a$V1~a$V2)>residuals(a1)*residuals(a1) # Obtenemos los residuos al cuadrado#

>a <­ read.table('a.txt') # Leemos las dos últimas columnas de la tabla nº36 #>a1 <­ lm(a$V1~a$V2)>summary(a1)

Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,46)[1]   2.012896   por   lo   que   nuestro   parámetro   estimado   no   es significativo   al   5%   y   las   variables   no   presentan heterocedasticidad.

65

SALIDA Nº37

Call:lm(formula = a$V1 ~ a$V2)

Residuals:    Min      1Q  Median      3Q     Max ­5.5803 ­0.3668  0.3399  1.0647  2.7727 

Coefficients:                   Estimate  Std. Error  t value   Pr(>|t|)  (Intercept)     9.6211     6.8371    1.407      0.1661  

­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.919 on 46 degrees of freedomMultiple R­squared: 0.07237,Adjusted R­squared: 0.0522 F­statistic: 3.589 on 1 and 46 DF,  p­value: 0.06447 

a$V2            1.0072      0.5317     1.894      0.0645 .

TABLA Nº36

 

0,25904500 0,00000927 ­1,35075349 ­11,588403930,17397260 0,00000937 ­1,74885746 ­11,577495240,04288449 0,00000902 ­3,14924506 ­11,616023420,00278896 0,00000859 ­5,88208651 ­11,665389010,09481216 0,00000767 ­2,35585761 ­11,77828524

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

0,24663510 0,00000241 ­1,39984536 ­12,934188720,27404920 0,00000249 ­1,29444763 ­12,902888090,17136060 0,00000240 ­1,76398517 ­12,941891310,02041255 0,00000224 ­3,89160537 ­13,011215030,00396315 0,00000225 ­5,53071586 ­13,00611042

e i2 Xi lne i

2 ln Xi

BASE DE DATOS Nº9

Año

1960 328200 1078401961 336000 1066701962 366800 1108601963 408300 1164701964 472800 130390

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

2003 1261226 4142352004 1237851 4014702005 1235859 4174382006 1192809 4474032007 1095769 445125

Y i Xi

TABLA Nº35

3,04339763 0,000009273,14990157 0,000009373,30867761 0,000009023,50562377 0,000008593,62604494 0,00000767

∙ ∙∙ ∙∙ ∙

3,04471134 0,000002413,08329639 0,000002492,96058097 0,000002402,66607287 0,000002242,46171076 0,00000225

Y i

X i

1X i

Page 72: Análisis de regresión para sociólogos

3.3 MULTICOLINEALIDAD3.3.1 ¿QUÉ ES LA MULTICOLINEALIDAD?

Un supuesto importante del modelo de regresión lineal por MCO establece que  no existen relaciones lineales exactas entre los regresores o variables independientes (los regresores no son exactamente colineales). De haberlas, surge un problema llamado multicolinealidad perfecta1. Éste supuesto es necesario para el cálculo del   vector  de estimadores  de  los  parámetros  verdaderos,  ya que en caso  contrario X ' X será   singular   (no tendrá   inversa)   y   nos   resultará   imposible   determinar b= X 'X

−1 X 'Y .   Los   coeficientes   así   resultantes   serán indeterminados y sus errores standard infinitos. Cuando dos o más regresores están altamente correlacionados en la muestra, se hace muy difícil separar el efecto parcial de cada uno de ellos sobre la variable dependiente. 

Un   conjunto   k   de   variables   predictoras X1i , X2i , ... , Xki son   perfectamente   multicolineales   si   para   k constantes C0 , C1, C2, ... , Ck que no son cero simultáneamente, se cumple la siguiente condición:

C1X1iC2X2i...Ck Xki= C0 (93)

Asumamos que Ck≠ 0 , entonces, para el caso de perfecta multicolinealidad:

  Xki=

C0− ∑j=1

j=k−1

Cj X j

Ck

(94)

La expresión anterior muestra que  Xki es combinación lineal de todos los demás regresores. Se hace entonces así imposible calcular las estimaciones por MCO de los parámetros, porque el sistema de ecuaciones normales contendrá una o más ecuaciones que no son independientes.

               GRÁFICA Nº58La   multicolinealidad   perfecta   casi   no   ocurre   en   la 

práctica. Lo que si suele suceder es la existencia de una relación aproximadamente   lineal,   no   exacta,   entre   dos   o   más   variables exógenas.   Cuando   esto   ocurre,   los   estimadores   obtenidos   son poco precisos, aunque sus propiedades de insesgadez, eficiencia y consistencia no se ven afectadas, esto es,   los estimadores por MCO siguen  siendo  los  MELI.   Sin  embargo,  a  pesar  de  que   las varianzas  de  los  estimadores  por  MCO son  las  mínimas  posibles (son eficientes) son mayores que las que se lograrían en ausencia del problema de multicolinealidad. 

En   los   siguientes   gráficos   los   círculos   representan   las variaciones   tanto   de   las   variables   dependientes,   como   de   la independiente.   El  grado de  colinealidad puede   medirse   por   la extensión de las intersecciones entre los círculos X1 y  X2 .

                GRÁFICAS Nº 59

                No existe colinealidad                   Existe una baja colinealidad           Existe una alta colinealidad              Casi perfecta colinealidad

1  El efecto totalmente contrario a la multicolinealidad perfecta es la ortogonalidad, en el que el coeficiente de correlación simple entre dos  variables es cero. En la ortogonalidad, el efecto que una variable tiene sobre la respuesta se mide de manera totalmente independiente del efecto individual que otra variable tenga sobre la misma.

66

Page 73: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Multicolinealidad

La multicolinealidad puede afectar a dos regresores (el caso más simple de todos), a un subconjunto o incluso a todos, estando frecuentemente presente en series de tiempo (por ejemplo, la población y el PIB suelen estar altamente correlacionados)

3.3.1.1 ¿Por qué se produce?

La multicolinealidad es,  en cierto sentido, un fenómeno inevitable. En un sistema social  es muy difícil suponer la ausencia de relación entre sus distintos elementos. Por el contrario, la sociología se apoya en la idea de la existencia de interrelaciones entre las variables de los sistemas sociales analizados.                

Suele aparecer cuando:

1.   Ocurre   un   error   en   la   especificación   (los   regresores   no   son   importantes   en   la   explicación   del regresando:   se   omiten   variables   relevantes   o   bien   se   integran   aquellas   que   no   lo   son)   cometido   por   el investigador que ignora una igualdad o combinación lineal entre las variables independientes.

2. Se cae en la 'trampa de las dummies' que consiste en incluir un número tal de variables ficticias que todas ellas acaben por generar una combinación lineal entre sí. Si una variable independiente cualitativa tiene m categorías, debe representarse por medio de m­1 variables dummy, asignando a cada una de ellas los valores de 0 ó 12.

3. Se recolecta un limitado rango de los valores tomados por los regresores en la población.4. El modelo tiene más variables independientes que número de observaciones.5.   Especialmente   en   series   de   tiempo,   los   regresores   incluidos   en   el   modelo   presentan   tendencias 

comunes, esto es, se incrementan o decrecen a medida que transcurre el tiempo.

3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD.

Teniendo   en   consideración   que   las   consecuencias   de   la   multicolinealidad   están   directamente relacionadas con la magnitud con que se presenta, las más importantes son:

1. Se hace difícil cuantificar con precisión el efecto que cada regresor ejerce sobre el regresando, debido a que los errores estándar de los coeficientes estimados son elevados, es decir, tienden a ser mayores de lo que serían si no hubiera multicolinealidad. 

Producto de lo anterior, el valor del estadístico para realizar contrastes de significación individual: 

t= b j−b j

S b j

b j

S b j(95)

tiende a ser pequeño, aumentando así   la probabilidad de no rechazar   la hipótesis  nula. Es así  que se suele concluir que los coeficientes estimados no son significativas individualmente y llegar a la conclusión errónea de que la variable independiente X i no es importante en el modelo.. El problema no reside en que los contrastes no sean correctos estadísticamente, sino en que no estimamos con suficiente precisión esos efectos individuales.

En presencia de multicolinealidad es común obtener valores altos de R j2 aún cuando los valores de los 

estadísticos t de significación individual sean bajos. El problema reside en la identificación del efecto individual de cada variable explicativa, no tanto en su conjunto. Por eso, si se realiza un contraste de significación conjunta de las variables explicativas, el resultado normalmente será  rechazar la hipótesis nula aunque individualmente cada una de ellas no sea significativa.

2. En el caso de existencia de multicolinealidad exacta,  los parámetros no pueden estimarse ya que, al existir dentro de la matriz X de observaciones de variables exógenas una combinación lineal de éstas, no puede ser invertida, de esta manera, X ' X tampoco tendrá inversa haciendo imposible calcular la expresión del estimador mínimo cuadrático: b= X 'X −1 X 'Y

3. Pequeños   cambios   en   los   datos   o   en   la   especificación   provocan   grandes   cambios   en   las estimaciones de los coeficientes. Los parámetros sean muy inestables y fluctúan de forma importante al introducir nueva información. Efectivamente, al ser el parámetro más imperfecto, al presentar mayor rango de variación, una nueva estimación puede arrojar valores muy diferentes al anterior.

4. Las estimaciones de los coeficientes suelen presentar signo distintos a los esperados y magnitudes poco razonables.

2 Esta situación la estudiaremos en detalle en la sección 4, capítulo 1: '' Variables Dummy'.

67

Page 74: Análisis de regresión para sociólogos

 3.3.3 ¿CÓMO SE IDENTIFICA LA MULTICOLINEALIDAD?

La multicolinealidad es una característica de la muestra (está asociada a la configuración concreta de la matriz X )  y no de la población, por lo tanto, no existe un contraste estadístico que sea aplicable para su detección.  Además,  como hemos visto,   la multicolinealidad es una cuestión de grado y  no de presencia o ausencia. No obstante, podemos detectarla con algunas reglas prácticas (aunque no siempre fiables) o medirla para una muestra particular con el Factor de inflación de la varianza.

Debemos sospechar la existencia de multicolinealidad cuando:

1. Hay coeficientes de regresión significativos con valores muy grandes o de signo opuesto al esperado.2.   Los   coeficientes   estimados   asociados   a   las   variables   independientes   que   se   esperaba   fuesen 

importantes, tienen valores de t pequeños aunque F informe que 'existe modelo' y R2 sea alta. Este es un signo clásico de multicolinealidad.

3. La incorporación o eliminación de una fila o columna de la matriz X produce grandes cambios en la magnitud de los coeficientes.

4. Los coeficientes de correlación muestral simples entre todas las parejas de variables predictoras   son muy altas.   Las  correlaciones  entre variables  deben ser  bajas,  aunque no hay un  límite  fijo  a partir  del  cual podamos   hablar   de   multicolinealidad;   ese   límite   debe   establecerse   desde   el   sentido   común   y   según   las circunstancias de análisis específicas. Así por ejemplo un mismo valor de un coeficiente de correlación implica distinto  grado de  correlación  según  el   tamaño muestral;  en  muestras  de   tamaño  elevado,  una correlación aparentemente pequeña (0,3­0,4) implica la existencia de una evidente multicolinealidad o bien una correlación moderada pero no esperada a priori desde el punto de vista teórico puede estar avisando de algún defecto en la especificación o el tratamiento de los datos.

En todo caso, si se desea una regla general, una práctica habitual consiste en establecer la R2 del modelo   original   como   límite   de   la   correlación   observada   entre   dos   o   más   variables:   diremos   que   existe multicolinealidad cuando existan correlaciones entre las variables superiores al coeficiente de determinación del modelo. Sin embargo, debemos recordar nuevamente  las  limitaciones de cualquier  'receta'  de este tipo. Por ejemplo,   lógicamente  diremos   que  existe  multicolinealidad  cuando,  aún   sin   superar   la R j

2 del  modelo,   las correlaciones sean mayores de un 0,7.

Aunque es condición suficiente para que exista multicolinealidad el que todos estos coeficientes sean altos, lo contrario no es necesariamente cierto. Se puede dar el caso de tener una relación lineal casi perfecta entre tres o más variables y sin embargo las correlaciones simples entre pares de variables no ser mayores que 0,5.

Supongamos que tenemos un modelo de 4 variables:

Y i= b0b1X1ib2 X2ib3X3ii y   supongamos   que: X3i= 1X1i2X2i donde 2 y 3 son constantes distintas de cero.

X3 es una combinación lineal exacta de  X1 y  X2 dando  R3.122

= 1

Podemos escribir este   R2 como:   R3.122

= r31

2r 32

2−2r31r32r12

1−r122 pero como:   R3.12

2= 1 , a causa de una 

colinealidad perfecta, obtenemos: 1= r31

2r 32

2−2r31r32r12

1−r122 condición que puede ser satisfecha si:

r31= 0,5 ,  r32= 0,5 y  r12= −0,5 los cuales no son valores altos.

Por   lo   tanto,  en modelos  que  involucran más  de dos variables   independientes,   la correlación simple puede no proveer una infalible vía para detectar la presencia de multicolinealidad. Por supuesto, si solo existen dos variables independientes en el modelo, la correlación de orden cero es suficiente. 

5. Realizando la regresión de cada una de los regresores sobre el resto (regresión auxiliar) y analizar los coeficientes de determinación de cada regresión. Alguno o algunos de estos coeficientes de determinaciónR j

2 altos, estarían señalando la posible existencia de un problema de multicolinealidad.

3.3.3.1 El Factor de inflación de la varianza.

El   factor de  inflación de  la varianza cuantifica  la severidad de la multicolinealidad en un análisis  de regresión  lineal  por  MCO. Provee un  índice que mide en cuánto  la varianza de un coeficiente de  regresión estimado se incrementa debido a la multicolinealidad.

68

Page 75: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Multicolinealidad

Si consideramos el modelo de regresión lineal múltiple: Y i= b0b1X1i...b j X ji...bk Xki i

entonces se puede demostrar que la varianza del j­ésimo coeficiente de regresión estimado es:

Var b j=

2

S ii

1

1−R j2 (96)

Donde R j2 es el coeficiente de determinación (no ajustado) de la regresión lineal de X ji contra todas 

las demás variables predictoras y  Sii= ∑j=1

n

Xij− Xi 2

La   ecuación   (101)   separa   las   influencias  de   los   distintos   factores  que   intervienen   en   la  varianza  de coeficiente estimado. Así:

1. Cuanto mayor es 2 , esto es, cuanto mayor es la dispersión, mayor será la varianza del estimador.

2.  Al aumentar el tamaño de la muestra, se reduce la varianza del estimador.3.  Cuanto  menor   sea  la   varianza  muestral  del   regresor,  mayor   será   la  varianza  del  correspondiente 

coeficiente estimado.4. Cuanto mayor sea R j

2 ,  es decir,  cuanto mayor sea  la correlación del regresor con el resto de lo regresores, mayor será la varianza de b j

FIV j= 1

1−R j2 Se denomina j­ésimo factor de inflación de la varianza y representa el  (97)

incremento en la varianza debido a la presencia de multicolinealidad. Es la razón entre la varianza observada y la que habría sido en caso de que X j no estuviera correlacionada con el resto de regresores del modelo. Muestra en que medida  se  agranda  la  varianza del  estimador  como consecuencia  de  la  no  ortogonalidad de  los regresores. Debe tenerse presente que el FIV j no suministra ninguna información que pueda utilizarse para corregir el problema.

Si las variables independientes no son redundantes (ortogonales), entonces FIV j= 1 R j2= 0 3. Si los 

regresores son multicolineales, FIV j= ∞ R j2= 1 .

Si el  FIV j es grande (mayor que 10), entonces puede haber multicolinealidad.

La tolerancia se define como:  TOL j= 1

FIV j

= 1−R j2

(98)

La   utilización   de   los   coeficientes TOL j y VIF j para   detectar   la   presencia   de   multicolinealidad   ha recibido múltiples críticas, porque la conclusión obtenida con estos valores no siempre recoge adecuadamente la información de y problemas existentes en los datos. Tal y como hemos visto anteriormente, las varianzas de los estimadores   depende   del VIF j , 2 y ∑ X ji−

X j2 , por   lo   que   un   alto VIF j no   es   condición   suficiente   ni 

necesaria para que dichas varianzas sean elevadas.

Ejemplo Nº14 Índice de marginación, población indígena y  %   de   analfabetismo   en   los   municipios   del   Estado   de   Chiapas,  México.

La   base   de   datos   Nº12   nos   entrega   el   índice   de marginación por municipio para 2005 como variable dependienteYi   y  como  independientes el  % de   población hablante de 

lengua indígena de 5 años en adelante en el 2000 X1i y el % de analfabetismo X2i para   el   2000,   para   los   118   Municipios   del Estado de Chiapas (México). 

Grafiquemos  las  variables   (gráfica nº60)  y  obtengamos el resultado de aplicar una regresión de Yi sobre X1i y X2i

(salida nº38).

>a <­ read.table('a.txt') >plot(a, col=3)>a1 <­  (lm(a$V1~a$V2+a$V3)) >summary(a1) 

3 Recordemos que R2 indica la existencia de una relación lineal.

69

BASE DE DATOS Nº12

Municipio

0.483 0.41 180.356 9.93 270.672 0.35 210.984 40.75 381.745 14.76 34

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

1.518 33.12 311.602 30.1 301.118 0.71 281.489 66.9 462.209 63.57 68

Acacoyagua  Acala  Acapetahua  Altamirano  Amatán  

Maravilla Tenejapa  Marqués de Comillas  Montecristo de Guerrero  San Andres Duraznal  Santiago el Pinar  

Y i X1i X2i

FUENTE:

http://www.e­local.gob.mx/work/templates/enciclo/chiapas

Page 76: Análisis de regresión para sociólogos

              GRÁFICA Nº 60

Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,115)[1] 1.980808 

Determinemos la existencia de multicolinealidad.

En primer  lugar ejecutemos regresiones de Yi sobre   X1i (salida nº39)  y de   Yi sobre   X2i

(salida nº40)

         >a1 <­  (lm(a$V1~a$V2))         >a1 <­  (lm(a$V1~a$V3))          >summary(a1)         >summary(a1) 

Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes estimados de las variables independientes son muy significativos a un 95% en las regresiones de Yi sobre X1i y de Yi sobre X2i

(10,207 y 14,759 respectivamente), pero en la regresión múltiple original (salida nº38), el parámetro estimado deX1i resulta no ser significativo, siendo R2 relativamente alta (0,6595) y F= 111,3 informándonos la 'existencia' 

de modelo.

70

SALIDA Nº 38

Call:lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:     Min       1Q   Median       3Q      Max ­1.23973 ­0.27460 ­0.05131  0.25093  1.63512 

Coefficients:                   Estimate   Std. Error    t value    Pr(>|t|)    (Intercept)  ­0.347757   0.113054    ­3.076     0.00262 ** a$V2           0.003411   0.002227     1.532     0.12828    a$V3           0.039641   0.004997     7.932     1.56e­12 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.4271 on 115 degrees of freedomMultiple R­squared: 0.6595,Adjusted R­squared: 0.6535 F­statistic: 111.3 on 2 and 115 DF,  p­value: < 2.2e­16 

SALIDA Nº39

Call:lm(formula = a$V1 ~ a$V2)

Residuals:     Min          1Q         Median        3Q         Max ­1.74628    ­0.30991     0.02496     0.24031   2.12295 

Coefficients:                   Estimate    Std. Error    t value    Pr(>|t|)    (Intercept)   0.446136    0.065111     6.852    3.72e­10 ***a$V2           0.017329    0.001698    10.207   < 2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.5289 on 116 degrees of freedomMultiple R­squared: 0.4731,Adjusted R­squared: 0.4686 F­statistic: 104.2 on 1 and 116 DF,  p­value: < 2.2e­16 

SALIDA Nº40

Call:lm(formula = a$V1 ~ a$V3)

Residuals:     Min         1Q         Median         3Q         Max ­1.19279   ­0.29527    ­0.02594     0.26905   1.72302 

Coefficients:                   Estimate    Std. Error    t value   Pr(>|t|)    (Intercept)  ­0.435657    0.097975    ­4.447    2.01e­05 ***a$V3           0.045674    0.003095    14.759   < 2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.4296 on 116 degrees of freedomMultiple R­squared: 0.6525,Adjusted R­squared: 0.6495 F­statistic: 217.8 on 1 and 116 DF,  p­value: < 2.2e­16 

Page 77: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Multicolinealidad

Analicemos los coeficientes de correlación simple entre todas las parejas de variables predictoras:

>cor(a)La   correlación   entre   las   variables   es   alta   (0.808),   superando   el

R2= 0,6595 del modelo original.

Encontremos el factor de inflación de la varianza.

>a1 <­  (lm(a$V1~a$V2+a$V3)) >library(car)4 >vif(a1)

Ejemplo Nº15: Función Cobb­Douglas de la economía chilena (1986­2000).

La base de datos  Nº13  nos  entrega  los  valores  del  PIB Yi , stock  de capital X1i (ambos  en  miles  de millones  de pesos  al  año 1986) y la fuerza de trabajo X2i en miles de personas para Chile entre los años 1986 y 2000.

Grafiquemos   las   variables   (gráfica   nº61)  y   obtengamos   el resultado de aplicar una regresión de Yi sobre X1i y X2i (salida nº43).

>a <­ read.table('a.txt') >plot(a, col=3)

>a1 <­  (lm(a$V1~a$V2+a$V3)) >summary(a1)

                GRÁFICA Nº 61

Nuestro valor crítico t para un 95% de significación es:>qt(0.975,12)[1] 2.178813 

4  Debemos  instalar el  paquete car.  En R escribimos >install.packages(),   seleccionamos un espejo desde el  cual  bajarlo  y  lo   llamamos con >library(car). 

71

SALIDA Nº43

Call:lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:     Min        1Q       Median      3Q       Max   ­362.53   ­140.95    ­25.47     139.97   356.03 

Coefficients:                    Estimate     Std. Error    t value    Pr(>|t|)    (Intercept)  ­5.697e+03   1.062e+03   ­5.365    0.000169 ***a$V2            2.290e­01   3.957e­02    5.788     8.64e­05 ***a$V3           1.661e+00   2.957e­01     5.617     0.000113 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 212.3 on 12 degrees of freedomMultiple R­squared: 0.9877,Adjusted R­squared: 0.9857 F­statistic: 483.5 on 2 and 12 DF,  p­value: 3.393e­12

SALIDA Nº41

V1 V2 V3V1 1.0000000 0.6878547 0.8077816V2 0.6878547 1.0000000 0.7879961V3 0.8077816 0.7879961 1.0000000

SALIDA Nº42

a$V2 a$V32.638090 2.638090

BASE DE DATOS Nº13 

Año

1986 3419 8658 4269,6741987 3645 8852 4372,6101988 3911 9144 4569,3701989 4324 9586 4727,2181990 4484 10133 4822,836

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

1996 7305 15383 5522,8171997 7845 16778 5625,8431998 8153 18228 5734,2131999 8060 19381 5829,0132000 8493 20256 5845,905

Y i X1i X2i

FUENTES:

http://www.bcentral.cl/estudios/documentos­trabajo/pdf/dtbc133.pdf Pp16 Fuerza de trabajo.http://www.ine.cl/canales/chile_estadistico/mercado_del_trabajo/empleo/situacionfuerzatrabajo/sitexcel/ttpais.htm

PIB y stock de capital.

Page 78: Análisis de regresión para sociólogos

Determinemos la existencia de multicolinealidad.

Analicemos   los  coeficientes  de  correlación   muestral   simples   entre todas las parejas de variables predictoras:

>cor(a)

El valor 0,976 es menor que R2= 0,988 lo que nos indica una ausencia de multicolinealidad.

Ejecutemos   una   regresión   de   X1i sobre   X2i y analicemos   el   coeficiente   de   determinación   (salida nº45). 

>a <­ read.table ('a.txt')>a1 <­ (lm(a$V2~a$V3))

Encontremos el factor de inflación de la varianza.

>a1 <­  (lm(a$V1~a$V2+a$V3)) >library(car)>vif(a1)

Acá  podemos  apreciar   la   relatividad de   los   test  para detectar   multicolinealidad.   Aunque   el   FIV,   el Ri

2 y   la correlación entre regresores son altos,  la salida nº43 nos 

indica  una  casi   perfecta   relación   lineal R2= 0,9877 y    valores  de   lo   parámetros   estimados  coherentes.   La 

decisión final debe ser tomada por el sentido común del investigador.

Ejemplo Nº16: Crímenes contra la propiedad y crímenes violentos en el Estado de Nevada, EE.UU. (1960­1980).

Se   puede   especular   que   la   tasa   de   crímenes   contra   la propiedad   está   determinada   en   cierta   medida,   por   el   grado   de 'anomia' de una sociedad, expresada ésta en las tasas de crímenes violentos.

La base de datos nº14 nos entrega información de la tasa de crímenes   contra   la   propiedad Yi ,   la   tasa   de   asesinato   no negligente   y   homicidio   involuntario X1i ,   la   tasa   de   violación forzada X2i ,   la tasa de robo X3i y la tasa de asalto agravadoX4i en el  Estado de Nevada por  cada 100.000  habitantes  entre 

1960 y 1980. Grafiquemos   las   variables   (gráfica   nº62)  y   obtengamos   el 

resultado   de   aplicar   una   regresión   de Yi sobre X1i , X2i ,X3i y X4i (salida nº47).

>a <­ read.table('a.txt') >plot(a, col=3)

>a1 <­  (lm(a$V1~a$V2+a$V3+a$V4+a$V5)) >summary(a1) 

              Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,16)[1] 2.119905 

Resulta que sólo el coeficiente que acompaña a X4i es significativo y más sorprendente aún, el que acompaña a X1i tiene signo negativo. Esto no parece tener sentido al ver la gráfica nº62.

72

FUENTE:http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm

SALIDA Nº45

Call:lm(formula = a$V2 ~ a$V3)

Residuals:     Min       1Q       Median       3Q       Max  ­2251.4   ­909.9      ­221.7      1206.8   2399.6 

Coefficients:                   Estimate    Std. Error     t value   Pr(>|t|)    (Intercept)  ­2.289e+04  3.885e+03   ­5.891   5.31e­05 ***a$V3           6.969e+00  7.471e­01     9.328   4.01e­07 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1488 on 13 degrees of freedomMultiple R­squared:  0.87,Adjusted R­squared:  0.86 F­statistic: 87.01 on 1 and 13 DF,  p­value: 4.008e­07

SALIDA Nº44

V1 V2 V3V1 1.0000000 0.9775036 0.9764859V2 0.9775036 1.0000000 0.9327449V3 0.9764859 0.9327449 1.0000000

SALIDA Nº46

a$V2 a$V37.693082 7.693082

BASE DE DATOS Nº14

Año

1960 3294.7 8.8 12.6 74 50.51961 3436.8 7 8 106 62.51962 3496.1 8.1 19.7 106.6 77.91963 4385.1 7.9 16.3 118.8 62.21964 4015 7.8 13.2 109.8 110

∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙

1976 7615.1 11.5 47.2 294.9 337.41977 7225 15.8 49.1 323.1 3551978 7506.1 15.5 53.9 359.5 351.81979 7996 17.5 59.5 407.5 3511980 7941.4 20 67.2 460.6 364.9

Y i X1i X2i X3i X 4i

Page 79: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Multicolinealidad

                GRÁFICA Nº 62

Ejecutemos regresiones de Yi sobre X1i , X2i , X3i y X4i individualmente (salidas nº48, 49, 50 y 51 respectivamente).

        >a1 <­  (lm(a$V1~a$V2))     >a1 <­  (lm(a$V1~a$V3))        >summary(a1)    >summary(a1)

       >a1 <­  (lm(a$V1~a$V4))       >a1 <­  (lm(a$V1~a$V5))       >summary(a1)       >summary(a1)

 

73

SALIDA Nº47

Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4 + a$V5)

Residuals:      Min       1Q       Median       3Q       Max   ­324.76  ­226.37     ­60.68      191.86   706.62 

Coefficients:                  Estimate    Std. Error   t value   Pr(>|t|)    (Intercept)  2806.063    275.315    10.192   2.11e­08 ***a$V2          ­65.081      42.701      ­1.524    0.146999    a$V3           13.036      19.776       0.659    0.519152    a$V4           4.698        2.963        1.586     0.132395    a$V5           9.903        2.092        4.734     0.000224 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 305.3 on 16 degrees of freedomMultiple R­squared: 0.975,Adjusted R­squared: 0.9688 F­statistic: 156.2 on 4 and 16 DF,  p­value: 1.331e­12

SALIDA Nª48

Call:lm(formula = a$V1 ~ a$V2)

Residuals:      Min       1Q       Median       3Q       Max   ­1713.4   ­737.1      102.3        406.8    2147.4 

Coefficients:                  Estimate   Std. Error   t value    Pr(>|t|)    (Intercept)   1041.59     673.24      1.547      0.138    a$V2            384.88      56.51        6.811   1.67e­06 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 955.5 on 19 degrees of freedomMultiple R­squared: 0.7095,Adjusted R­squared: 0.6942 F­statistic: 46.39 on 1 and 19 DF,  p­value: 1.674e­06

SALIDA Nª49

Call:lm(formula = a$V1 ~ a$V3)

Residuals:      Min      1Q      Median     3Q      Max   ­917.30   ­278.33   55.66     277.33  960.79 

Coefficients:                 Estimate    Std. Error    t value   Pr(>|t|)    (Intercept)  2642.57     216.69        12.20   1.97e­10 ***a$V3           89.89         6.09          14.76   7.31e­12 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 502.1 on 19 degrees of freedomMultiple R­squared: 0.9198,Adjusted R­squared: 0.9156 F­statistic: 217.8 on 1 and 19 DF,  p­value: 7.314e­12

SALIDA Nª50

Call:lm(formula = a$V1 ~ a$V4)

Residuals:     Min        1Q        Median       3Q      Max ­1134.04   ­260.49      ­67.28      256.49  954.38 

Coefficients:                   Estimate    Std. Error   t value   Pr(>|t|)    (Intercept)   2363.1800   221.4738   10.67   1.83e­09 ***a$V4             14.5729     0.9368     15.56    2.90e­12 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 478.3 on 19 degrees of freedomMultiple R­squared: 0.9272,Adjusted R­squared: 0.9234 F­statistic:   242 on 1 and 19 DF,  p­value: 2.898e­12

SALIDA Nª51

Call:lm(formula = a$V1 ~ a$V5)

Residuals:     Min       1Q     Median      3Q     Max  ­572.29  ­130.76   ­13.15     181.92  927.54 

Coefficients:                   Estimate    Std. Error   t value    Pr(>|t|)    (Intercept)  2562.0368   146.8661     17.45   3.76e­13 ***a$V5            14.3974      0.6433       22.38   4.09e­15 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 338.9 on 19 degrees of freedomMultiple R­squared: 0.9635,Adjusted R­squared: 0.9615 F­statistic: 500.9 on 1 and 19 DF,  p­value: 4.087e­15

Page 80: Análisis de regresión para sociólogos

Podemos   sospechar   la   existencia   de   multicolinealidad,   ya   que   los   coeficientes   de   las   variables independientes   son   muy   significativos   a   un   95%   en   las   4   regresiones   anteriores   (6.811,   14.76,   15.56   Y   22.38 respectivamente).

Analicemos  los  coeficientes  de correlación     simples  entre   todas   las  parejas  de variables  predictoras (salida nº52):

>cor(a)La   correlación   entre   los   regresores   es   alta, 

superando   las   correlaciones   entre X2i y X3i el R2

del modelo original.

Encontremos el factor de inflación de la varianza

>a1 <­  (lm(a$V1~a$V2+a$V3+a$V4+a$V5))   >library(car)>vif(a1)

Los regresores  X2i X3i y  X4i presentan gran multicolinealidad.

3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD

Ya hemos señalado que el problema de la multicolinealidad es un problema de grados, por lo que las medidas que aquí se proponen deben tomarse siempre y cuando su severidad sea tan importante como para que   una   o   varias   variables   del   modelo   de   regresión   que   se   supone   sean   relevantes,   se   presenten   como estadísticamente no significativas. Si existe multicolinealidad en un grado leve,  puede continuarse el trabajo de análisis sin adoptar medidas para corregir el problema. 

Si se trata de un problema de multicolinealidad casi perfecta, es razonable pensar que ésta se debe a la incorporación de dos regresores que miden el mismo concepto pero de forma alternativa o bien están indicando un concepto más abstracto que el que se supone hacen independientemente cada una de ellas5. En el primer caso se sugiere revisar el proceso de operacionalización de los conceptos y suprimir la redundancia hallada, en el segundo, determinar un  índice mediante alguna técnica, desde  la más  simple, como un  índice sumatorio simple, hasta uno más complejo, como un índice calculado sobre la base de un análisis factorial para suprimir esta multicolinealidad.

 Los métodos más comunes son6:

1. Eliminación de variables:   Cuando nos encontramos con una fuerte multicolinealidad, una de las cosas más simples que se pueden hacer es desechar  las variables más colineales7.  El   inconveniente es que ésta es una medida que puede provocar otro tipo de problemas, ya que si la variables que eliminamos del modelo realmente sí   son   significativas8,   estamos   omitiendo   una   variable   relevante.   Por   consiguiente,   los   estimadores   de   los coeficientes del modelo y de su varianza serían sesgados y así la inferencia realizada no sería válida. 

Si   estamos   ante   un   problema   de   información   repetida,   una   solución   resulta   transformar   dos   o   más variables  correlacionadas en una combinación de  las  mismas.  A este  respecto es  útil   la  técnica del  análisis multivariable factorial.  2.  Aumento del  tamaño de  la muestra o cambiar de muestra: Teniendo en cuenta que un cierto grado de multicolinealidad acarrea problemas cuando aumenta ostensiblemente la varianza muestral de los estimadores, las soluciones deben ir encaminadas a reducir esta varianza introduciendo observaciones adicionales. Solución no siempre viable.

Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede ser que con nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea consiste en conseguir datos menos correlacionados que los anteriores. De todas formas, no siempre resulta   fácil obtener mejores datos por lo que muy probablemente debamos convivir  con el  problema teniendo cuidado con  la   inferencia  realizada y   las 

5  Por  ejemplo,   las   variables   independientes   como   alfabetización,   urbanización,   empleo   en   el   sector   el   servicios,   teléfonos   por   habitante, mortalidad infantil, etc., en el análisis de una región determinada, pueden presentar fuerte multicolinealidad porque representan conjuntamente el concepto más abstracto de “modernización”.6 La elección de estas alternativas depende de la severidad de la multicolinealidad encontrada.7 En presencia de multicolinealidad, una medida para resolver este problema bastante lógica puede ser quitar del modelo aquellas variables con más alto VIF ( o más baja tolerancia).8 Son variables que deben estar incluídas en el modelo de regresión.

74

SALIDA Nº52

V1 V2 V3 V4 V5V1 1.0000000 0.8422917 0.9590489 0.9629110 0.9815558V2 0.8422917 1.0000000 0.9044769 0.8938066 0.8612384V3 0.9590489 0.9044769 1.0000000 0.9767272 0.9562189V4 0.9629110 0.8938066 0.9767272 1.0000000 0.9537829V5 0.9815558 0.8612384 0.9562189 0.9537829 1.0000000

SALIDA Nº53

a$V2 a$V3 a$V4 a$V55.59514 28.52305 24.55465 13.03072

Page 81: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Multicolinealidad

conclusiones de la misma.3. Utilización de ratios: En lugar del regresando y los regresores del modelo original, se pueden utilizar ratios con respecto al regresor que posea mayor colinealidad. Esto puede hacer que la correlación entre los regresores del modelo disminuya. Pero se debe tener cuidado: estos ratios pueden ser heterocedáticos.4. Utilizando información a priori.

Consideremos el modelo: Y i= b0b1X1ib2 X2i i

Supongamos a  X1 y  X2 altamente colineales y supongamos que creemos que  b2= 0,1b1

Entonces: Y i= b0b1X1i0,1b1 X2ii= b0b1 X ii donde:  X i= X i10,1X2i

Una vez que obtenemos  b1 podemos estimar  b2 de la relación postulada entre  b1 y  b2 .

¿De donde obtenemos la información a priori? Puede provenir de trabajos empíricos previos en los que el problema de la colinealidad parezca ser menos serio o de teoría relevante subyacente al campo de estudio (como en el caso de los retornos a escala constantes).

75

Page 82: Análisis de regresión para sociólogos

4.1 FORMAS FUNCIONALES4.1.1 INTRODUCCIÓN

Frecuentemente en las ciencias sociales nos encontramos con variables cuyas relaciones entre sí no son lineales. Este es el caso por ejemplo, de la relación entre el PIB per cápita y la esperanza de vida en los países del mundo   o   la   tasa   de   crecimiento   demográfico   en   los   países   en   vías   de   desarrollo   durante   el   siglo   XX.   Al encontrarnos con estos casos, muchas veces podremos transformar las variables para obtener funciones lineales en   los  parámetros,   sobre   las   cuales  podremos  aplicar  el  método de  MCO  y   así  obtener   una  ecuación   de regresión lineal. 

Es importante señalar que el primer paso para escoger la forma funcional adecuada para una relación no lineal entre variables es recurrir a lo que la teoría social bajo la cual estudiamos nuestras variables señala.

Algunas   de   las   relaciones   no   lineales   más   comunes   entre   variables   y   sus   transformaciones   son   las siguientes:

4.1.2 FORMA DOBLE­LOG: Y= b0 Xb1e (99)

Esta forma aparece cuando nos encontramos con variables que crecen a un ritmo exponencial.Aplicando logaritmos la forma (76): lnY= lnb0b1 ln X o bien: Y= e

lnb0b1 ln X

Si   hacemos: lnY= Y✳ , lnb0= b0✳ y lnX= X✳ la   expresión   anterior   nos   queda Y✳

= b0✳b1 X✳

, ecuación a la que ya podemos aplicar el método de MCO ya conocidos. La ecuación de regresión así obtenida será:

Y✳= b0

✳ b1 X✳ o bien  lnY= lnb0

b1 lnX Aplicando un exponencial obtenemos: 

Y= e lnb 0

b1 ln X (100)

Aspectos teóricos.

Supongamos que nos encontramos con una relación matemática perfecta entre dos variables de la forma Y= e1−ln X , función que nos es desconocida. Tenemos sin embargo, los valores que estas dos variables asumen y que se muestran en la tabla Nº37. Grafiquemos con R los puntos y la recta de regresión lineal aplicada a ellos:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma doble­log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >jpeg(file='a.jpeg', width=500, height=500) >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma doble­log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') >dev.off()

y obtengamos los parámetros estimados de la regresión:

>a1 <­ (lm(a$V1~a$V2))>summary(a1) 

Y= 1,2519−0,0727X R2= 0,473

6,111 −4,249

Sospechamos que nos encontramos en presencia de una relación doble log. Lo que tenemos que hacer por lo tanto, es transformar ambas variables en sus respectivos logaritmos y correr una regresión sobre ellas.

76

TABLA Nº37

2,718 11,359 20,906 30,680 40,544 5

∙∙∙

0,170 160,160 170,151 180,143 190,136 20

Y i Xi

Page 83: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Formas funcionales

         GRÁFICA Nº63

Grafiquemos las nuevas variables (tabla nº38), la recta de regresión lineal aplicada sobre ellas y apliquemos una regresión para obtener los coeficientes:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='LnX', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma doble­log:", "LnY versus LnX",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

>a1 <­ (lm(a$V1~a$V2))>summary(a1) 

              GRÁFICA Nº64

Obtenemos la ecuación: Y✳= 1 − X✳ R2

=1 9,143e+15 −2,066e+16

77

SALIDA Nº54

Call:lm(formula = a$V1 ~ a$V2)

Residuals:        Min          1Q          Median         3Q          Max      ­0.3630    ­0.2853       ­0.1130       0.1592      1.5390 

Coefficients:                         Estimate    Std. Error     t value       Pr(>|t|)    (Intercept)         1.25194       0.20487       6.111       8.99e­06 ***a$V2                ­0.07266       0.01710      ­4.249       0.000483 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.441 on 18 degrees of freedomMultiple R­squared: 0.5007, Adjusted R­squared: 0.473 F­statistic: 18.05 on 1 and 18 DF,  p­value: 0.000483 

SALIDA Nº55

Call:lm(formula = a$V1 ~ a$V2)

Residuals:        Min            1Q             Median            3Q               Max ­3.045e­16     ­9.394e­17     ­4.092e­17      6.958e­17      3.105e­16 

Coefficients:                         Estimate       Std. Error        t value       Pr(>|t|)    (Intercept)              1           1.094e­16       9.143e+15   <2e­16 ***a$V2                     ­1           4.839e­17      ­2.066e+16   <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.714e­16 on 18 degrees of freedomMultiple R­squared:     1, Adjusted R­squared:     1 F­statistic: 4.27e+32 on 1 and 18 DF,  p­value: < 2.2e­16 

TABLA Nº38

1.000 0.0000.307 0.693­0.099 1.099­0.386 1.386­0.609 1.609

∙ ∙∙ ∙∙ ∙

­1.773 2.773­1.833 2.833­1.890 2.890­1.944 2.944­1.996 2.996

ln Y iln X i

Page 84: Análisis de regresión para sociólogos

Como Y✳= b0

✳ b1 X✳ es   equivalente   a Y= e

lnb 0b1 ln X ,   tenemos   para   nuestro   ejemplo   que

Y= e1−ln X = e /X

             GRÁFICA Nº65

Si   graficamos   nuestras   variables originales   y   esta   curva,   observamos   que coinciden   perfectamente   (gráfica   nº65):

     

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >x <­ seq( 0 ,20,length = 100) >lines(x, exp(1­log(x)), type='l', col= 'red', lwd=3) >title(main=paste("Forma doble­log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

           

4.1.2.1 La función Cobb­Douglas.

En economía, una forma funcional clásica es la función Cobb­Douglas. Es de las más usadas por ser una de las que más se acerca a la realidad económica.

Esta función resultó de la observación empírica de la distribución del PIB entre capital y trabajo en los EE.UU. Los datos mostraron evidencia de una relación de la forma:

  Q= A ∙Kb1 ∙Lb2 ∙ e donde:

Q =  Producción total (el valor monetario de todos los bienes y servicios producidos durante un año o PIB).

K =  Stock de capital.L =  Stock de trabajo.A =  Productividad total de los factores (o la tecnología en un momento dado en un sociedad), y

b1  y  b2  = Elasticidades del producto en relación al capital y al trabajo, respectivamente. 

(La   función   Cobb­Douglas   también   aparece   en   la   relación  entre   la   cantidad  demandada   de   una mercancía (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b0 ∙Pb1∙ Yb2 ∙e )

4.1.2.2 La definición de la elasticidad.

Al aplicar una regresión lineal a un modelo Cobb­Douglas, obtenemos que los parámetros estimados de la   ecuación   de   regresión   corresponden   a   las   elasticidades   de   la   variable   dependiente   respecto   a   las independientes. Derivemos las fórmulas de las elasticidades para la relación entre la cantidad demandada de una mercancía (Q), su precio (P) y el ingreso de los consumidores (Y):  Q= b0 ∙Pb1∙ Yb2 ∙e .

a) b1 es la elasticidad de la demanda respecto al precio o P

Por definición: P= ∂Q∂P

∙ PQ

La derivada parcial de la función Q respecto a P es ∂Q∂P

= b1b0Pb1−1 Yb2e= b1b0Pb1 Yb2 e

P−1= b1

QP

sustituyendo el valor de ∂Q∂P

dentro de la fórmula para  P obtenemos: P= b1QP

∙ PQ= b1

78

TABLA Nº39

2,718 11,359 20,906 30,680 40,544 5

∙∙∙

0,170 160,160 170,151 180,143 190,136 20

Y i= e /Xi Xi

Page 85: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Formas funcionales

b) b2 es la elasticidad de la demanda respecto al ingreso o Y

Por definición Y= ∂Q∂ Y

∙ YQ

La derivada parcial de la función Q respecto a Y es ∂Q∂ Y

= b2b0 Pb1 Yb2−1e= b2b0Pb1 Yb2 eY−1

= b2QY

sustituyendo el valor de ∂Q∂ Y

dentro de la fórmula para  Y obtenemos:  Y= b2QY

∙ YQ

= b2

Si para la función Cobb­Douglas, b2= 0,15 , un aumento del 1% en la cantidad de trabajo, provocaría un incremento aproximado del 0,15% en el volumen del producto.

Si esta función cumple el principio de los rendimientos constantes a escala, entonces si K y L aumentan cada  uno   el   20%,  Q   aumenta  también  el   20%.   Lo   anterior   se   expresa   en   términos   de   elasticidades  como: 

b1b2= 1 . Por otro lado, si b1b2 1 , hay retornos crecientes a escala esto es, un incremento de K y L de un 10% implicará que la salida se incremente un b1b2 ∙10 %

Ejemplo Nº17: Función Cobb­Douglas de la economía chilena (1986­2000).

La base de datos Nº13 nos entrega los valores del PIB Yi , stock de capital X1i (ambos en miles de millones de pesos al año 1986) y la fuerza de trabajo X2i en miles de personas para Chile entre los años 1986 y 2000. Consideremos la aplicación de una función Cobb­Douglas para estos datos de la economía chilena.

Apliquemos una regresión a los logaritmos de estos datos dados por la tabla Nº40:

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2+a$V3))>summary(a1) 

Nuestra ecuación de regresión resulta:

Q✳= −10,62520,4425K✳

1,7653L✳ R2= 0,9896

4,735 6,747

Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,13)[1] 2.160369 

por   lo   que   todos   nuestros parámetros   estimados   son significativos al 5%.

Consideremos: Q✳= b0

✳ b1K✳

b2L✳ o   lo   que   es   lo   mismo: lnQ= lnb0b1 lnK b2 lnL por   lo   que:

lnb0= −10,6252 y b0= e−10,6252= 0,000024296

79

SALIDA Nº56

lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:          Min             1Q            Median        3Q           Max      ­0.057389    ­0.016945     ­0.001807    0.022291   0.042643 

Coefficients:                       Estimate     Std. Error    t value    Pr(>|t|)    (Intercept)      ­10.62516      1.42407    ­7.461     7.62e­06 ***a$V2                0.44246       0.09345     4.735     0.000485 ***a$V3                1.76534       0.26166     6.747     2.05e­05 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.03204 on 12 degrees of freedomMultiple R­squared: 0.9911, Adjusted R­squared: 0.9896 F­statistic: 664.8 on 2 and 12 DF,  p­value: 5.123e­13 

TABLA Nº40

8,137 9,066 8,3598,201 9,088 8,3838,272 9,121 8,4278,372 9,168 8,4618,408 9,224 8,481

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

8,896 9,641 8,6178,968 9,728 8,6359,006 9,811 8,6548,995 9,872 8,6719,047 9,916 8,673

ln Y i lnX1i ln X2i

BASE DE DATOS Nº13 

Año

1986 3419 8658 4269,6741987 3645 8852 4372,6101988 3911 9144 4569,3701989 4324 9586 4727,2181990 4484 10133 4822,836

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

1996 7305 15383 5522,8171997 7845 16778 5625,8431998 8153 18228 5734,2131999 8060 19381 5829,0132000 8493 20256 5845,905

Y i X1i X2i

Page 86: Análisis de regresión para sociólogos

Como Q= b0 ∙Kb1∙ L

b2 nuestra ecuación de regresión final resulta:  Q= 0,000024296 ∙K0,4425 ∙ L1,7653

Notemos   que   0,4425+1,7653   >   1   por   lo   que   nuestra   economía   para   el   periodo   señalado   presentó rendimientos a escala crecientes.

4.1.3 FORMA SEMI­LOG: lnY= b0b1 X (101)

Esta forma funcional representa un crecimiento exponencial simple, con lo que la podemos asociar de una manera intuitivamente directa (si la variable independiente es el tiempo) a fenómenos como la oferta de mercancías  con  nuevas   tecnologías   en   países  desarrollados,  el   inicio   de   la  expansión  de  una enfermedad infecciosa, etc.

Si lnY= Y✳ , Y✳= b0b1 X con   lo   que   nuestra   ecuación   de   regresión   queda   de   la   siguiente 

manera: Y✳= b0

b1 X o bien, aplicando un exponencial Y= e b0

b1X (102)b1 mide el cambio relativo producido en Y, por unidad de cambio en X. 

Aspectos teóricos.

Supongamos que nos encontramos con una relación matemática perfecta entre dos 

variables de la forma: Y= e2 X

10 , función que nos es desconocida. Tenemos sin embargo, los 

valores que estas dos variables asumen y se muestran en la tabla Nº41:

Grafiquemos con R los puntos y la recta de regresión lineal aplicada sobre ellos:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma semi­log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

y obtengamos los parámetros estimados de la regresión:

>a1 <­ (lm(a$V1~a$V2))>summary(a1) 

Nuestra ecuación de regresión resulta:Y= −0,00830,4175 X R2

= 0,9306      GRÁFICA Nº66

−0,012 16,408

Podemos   especular   que   la   función   entre   las   variables   es   de   la   forma: Y= e b0

b1X ,   por   lo   que grafiquemos estas variables transformadas, la recta de regresión a ellas asociadas y apliquemos una regresión para obtener los coeficientes:

80

SALIDA Nº57

Call:lm(formula = AAR2a$V1 ~ AAR2a$V2)

Residuals:    Min          1Q      Median       3Q      Max  ­3.0762    ­1.1554     0.3879    1.4216  1.7673 

Coefficients:                    Estimate     Std. Error   t value    Pr(>|t|) (Intercept)    ­0.008332    0.706595   ­0.012       0.99    AAR2a$V2     0.417446    0.025442   16.408    1.12e­12 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.634 on 19 degrees of freedomMultiple R­squared: 0.9341 Adjusted R­squared: 0.9306 F­statistic: 269.2 on 1 and 19 DF,  p­value: 1.125e­12 

TABLA Nº41

7,389 08,166 19,025 29,974 311,023 4

∙∙∙

36,598 1640,447 1744,701 1849,402 1954,598 20

Y i Xi

Page 87: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Formas funcionales

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma semi­log:", "LnY versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

>a1 <­ (lm(a$V1~a$V2))>summary(a1) 

Obtenemos la ecuación:ln Y= 2 X/10 R2

=1 1,884e+16 1,102e+16

la cual es equivalente a  Y= e2 X

10

     GRÁFICA Nº67

   

Por último grafiquemos nuestras variables originales (tabla nº41) con esta recta de regresión:

                    GRÁFICA Nº68

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >x <­ seq( 0 ,20,length = 100) >lines(x, exp(2+(x/10)), type='l', col= 'red', lwd=3) >title(main=paste("Forma semi­log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

                  

81

SALIDA Nº58

Call:lm(formula = a$V1 ~ a$V2)

Residuals:       Min           1Q           Median        3Q            Max ­3.972e­16   ­1.709e­16   ­2.150e­17  1.594e­16   7.472e­16 

Coefficients:                        Estimate       Std. Error      t value       Pr(>|t|)    (Intercept)             2           1.061e­16     1.884e+16   <2e­16 ***a$V2                    0,1          9.078e­18    1.102e+16    <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2.519e­16 on 19 degrees of freedomMultiple R­squared:     1, Adjusted R­squared:     1 F­statistic: 1.213e+32 on 1 and 19 DF,  p­value: < 2.2e­16 

TABLA Nº42

2,0 02,1 12,2 22,3 32,4 4

∙∙∙

3,6 163,7 173,8 183,9 194,0 20

ln Y i Xi

Page 88: Análisis de regresión para sociólogos

Ejemplo Nº18: La explosión demográfica en EE.UU. entre 1790 y 1960.

En el siglo XX Estados Unidos experimentó una de las explosiones demográficas más grandes del mundo, que se explica, entre otras cosas, por una enorme inmigración.

La base de datos  Nº15  nos  entrega  los  valores  de  la  cantidad de poblaciónY i y el año X2i en EE.UU. entre 1790 y 1690.

Grafiquemos las variables, la recta de regresión a ellas asociada y calculemos los coeficientes sobre estos datos:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma semi­log:", "Número de habitantes versus Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

>a1 <­ (lm(a$V1~a$V2))>summary(a1) 

Obtenemos la ecuación:

Y= −1,83e+091,009e+06 R2= 0.9206

−13,6 14.07

GRÁFICA Nº69

Podemos especular que la función entre las variables es de la forma: Y= e b0

b1X , por lo   que   corramos   una   regresión   entre   las   siguientes   variables   transformadas   (tabla   nº43)   y grafiquemos la ecuación de regresión obtenida junto a las variables originales:

>a1 <­ (lm(a$V1~a$V2))>summary(a1) 

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de habitantes', cex.lab=1,family='NewCenturySchoolbook') >x <­ seq( 1780, 1970, length = 100) >lines(x, exp(­25.19 + 0.0227*(x)), type="l", col= 'red', lwd=3) >title(main=paste("Forma semi­log:", "Número de habitantes versus Años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

Nuestra ecuación de regresión resulta entonces: Y= e b0

b1X Y= e−25,190,0227 X

82

FUENTE:http://www.census.gov/

SALIDA Nº59

Call:lm(formula = a$V1 ~ a$V2)

Residuals:         Min              1Q          Median       3Q             Max     ­18776884    ­13317773    ­2941158    9177445    31141520 

Coefficients:                         Estimate      Std. Error      t value    Pr(>|t|)    (Intercept)       ­1.830e+09    1.345e+08     ­13.60    3.28e­10 ***a$V2                1.009e+06    7.173e+04      14.07    1.98e­10 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 15790000 on 16 degrees of freedomMultiple R­squared: 0.9252, Adjusted R­squared: 0.9206 F­statistic:   198 on 1 and 16 DF,  p­value: 1.982e­10 

BASE DE DATOS Nº15

3929214 17905308483 18007239881 18109638453 182012860702 1830

∙ ∙∙ ∙∙ ∙

106021537 1920123202624 1930132164569 1940151325798 1950179323175 1960

Y i Xi

TABLA Nº43

15.184 179015.485 180015.795 181016.081 182016.370 1830

∙ ∙∙ ∙∙ ∙

18.479 192018.629 193018.700 194018.835 195019.005 1960

ln Y i Xi

Page 89: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Formas funcionales

                          GRÁFICA Nº70

4.1.4 FORMA POLINOMIAL Y= b0b1 Xb2 X2 (103)

Si hacemos W= X2 la forma polinomial queda linealizada como: Y= b0b1 Xb2 W

y nuestra ecuación de regresión queda como : Y= b0b1 X b2 W (104)

Aspectos teóricos.

Supongamos que nos encontramos con una relación matemática perfecta entre dos variables   de   la   forma: Y=22 X3X3 ,   función   que   nos   es   desconocida.   Tenemos   sin embargo, los valores de estas dos variables asumen y que se muestran en la tabla nº44:

Grafiquemos   estos   datos   con   R,   junto   con  la   recta   de   regresión   y   obtengamos   los parámetros estimados:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma polinomial:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

>a1 <­ (lm(a$V1~a$V2))>summary(a1) 

La ecuación que obtenemos resulta:

Y= 2 199,4 X R2= 0,8371

0,017 10,186

83

SALIDA Nº60

Call:lm(formula = a$V1 ~ a$V2)

Residuals:    Min          1Q      Median       3Q         Max ­0.31942   ­0.15824   0.02600   0.17855   0.22418 

Coefficients:                        Estimate        Std. Error    t value       Pr(>|t|)    (Intercept)      ­2.519e+01     1.653e+00    ­15.24       6.00e­11 ***a$V2               2.271e­02      8.811e­04      25.78      1.85e­14 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1939 on 16 degrees of freedomMultiple R­squared: 0.9765, Adjusted R­squared: 0.975 F­statistic: 664.4 on 1 and 16 DF,  p­value: 1.855e­14 

SALIDA Nº61

Call:lm(formula = AAR7a$V2 ~ AAR7a$V1)

Residuals:         Min             1Q          Median           3Q           Max    ­1.026e+03  ­4.104e+02   ­5.476e­14    4.104e+02  1.026e+03 

Coefficients:                      Estimate    Std. Error     t value     Pr(>|t|)    (Intercept)         2.00         118.54        0.017        0.987    AAR7a$V1       199.40         19.58       10.186     3.91e­09 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 543.2 on 19 degrees of freedomMultiple R­squared: 0.8452, Adjusted R­squared: 0.8371 F­statistic: 103.7 on 1 and 19 DF,  p­value: 3.910e­09 

TABLA Nº44

­3018 ­10­2203 ­9­1550 ­8­1041 ­7­658 ­6

∙ ∙∙ ∙∙ ∙

662 61045 71554 82207 93022 10

Y i Xi

Page 90: Análisis de regresión para sociólogos

GRÁFICA Nº71

Podemos especular que la función entre las variables es de la forma: Y= b0

b1 X b2 W , por lo que grafiquemos las variables originales junto con la recta de regresión asociada a esta función .

Corramos una regresión sobre las variables señaladas en la tabla nº45 y grafiquemos la ecuación de regresión obtenida junto a los datos originales (tabla nº44):

 >a <­ read.table('a.txt')  >a1 <­ (lm(a$V1~a$V2+a$V3)) >summary(a1) 

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >x <­ seq( ­10, 10, length = 100) >lines(x, 2+2*x+3*x*x*x, type="l", lwd=3, col= 'red') >title(main=paste("Forma polinomial:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

                  GRÁFICA Nº72

Nuestra ecuación de regresión resulta entonces: 

Y i= 2 2 Xi 3X i2 R2

= 1 2,501e+142,2,689e+14

Y obtenemos exactamente la función que determina la relación entre las variables originales: Y= 22X3W

84

SALIDA Nº62

Call:lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:      Min              1Q           Median         3Q              Max ­1.727e­13    ­4.891e­14    1.020e­14    6.577e­14     1.344e­13 

Coefficients:                      Estimate       Std. Error      t value     Pr(>|t|)    (Intercept)     2.000e+00    1.921e­14    1.041e+14   <2e­16 ***a$V2             2.000e+00    7.997e­15    2.501e+14   <2e­16 ***a$V3             3.000e+00    1.116e­16    2.689e+16   <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 8.805e­14 on 18 degrees of freedomMultiple R­squared:     1, Adjusted R­squared:     1 F­statistic: 2.336e+33 on 2 and 18 DF,  p­value: < 2.2e­16 

TABLA Nº45

­3018 ­10 ­1000­2203 ­9 ­729­1550 ­8 ­512­1041 ­7 ­343­658 ­6 ­216

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

662 6 2161045 7 3431554 8 5122207 9 7293022 10 1000

Y i Xi Xi2

Page 91: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Formas funcionales

Ejemplo Nº19: Diagnosticados con VIH en Norteamérica entre 1987 y el 2000.

Se   estima   que   actualmente   más   de   un   millón   de   personas   han   sido diagnosticadas con VIH en los EE.UU., constituyendo este virus uno de los problemas de salud pública más importantes que afecta a ese país. No obstante, con el descubrimiento de terapias más eficaces, el mayor conocimiento por parte de la comunidad médica de las infecciones oportunistas y las campañas de uso del preservativo, a partir de 1995 tanto las   defunciones   por   SIDA   como   los   diagnosticados   con   VIH   se   han   reducido notablemente. 

La base de datos nº16 nos entrega los valores del número de diagnosticados con VIH Y i entre 1987 y el 2000 Xi en EE.UU.

Grafiquemos estos datos con R, y la recta de regresión a ellos asociada.

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH versus años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

    GRÁFICA Nº73

Podemos especular que la función entre las variables es de  la  forma: Y= b0

b1 X b2 W , por   lo  que corremos una regresión entre las variables de la tabla nº46: 

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2+a$V3))>summary(a1) 

85

FUENTE:http://www.avert.org/usastaty.htm

SALIDA Nº63

Call:lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:      Min      1Q      Median     3Q       Max    ­9863     ­4650     ­1131      3372     12036 

Coefficients:                         Estimate     Std. Error    t value     Pr(>|t|)    (Intercept)          11054.0       7020.3      1.575         0.144    a$V2                  15484.2        2153.1      7.191     1.77e­05 ***a$V3                  ­1009.4         139.6      ­7.229     1.69e­05 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 7535 on 11 degrees of freedomMultiple R­squared: 0.8274, Adjusted R­squared: 0.796 F­statistic: 26.37 on 2 and 11 DF,  p­value: 6.362e­05 

BASE DE DATOS Nº16

29105 198736126 198843499 198949546 199060573 1991

∙ ∙∙ ∙∙ ∙

61124 199649379 199743225 199841356 199939513 2000

Y i Xi

TABLA Nº46

29105 1 136126 2 443499 3 949546 4 1660573 5 25

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

61124 10 10049379 11 12143225 12 14441356 13 16939513 14 196

Y i Xi Xi2

Page 92: Análisis de regresión para sociólogos

       GRÁFICA Nº74

Obtenemos:

Y i= 1105415484,2 X i−1009,4X i2 R2

= 0,796   7,191 −7,229

Grafiquemos la ecuación de regresión obtenida junto a los datos originales ( Y i y X i de la tabla)1.

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de diagnoticados con VIH', cex.lab=1,family='NewCenturySchoolbook') >x <­ seq(1,14, length = 100) >lines(x, 11054 +15484.2*x­1009.4*x*x, type="l", col= 'red',lwd=3) >title(main=paste("Forma polinomial:", "Número de diagnoticados con VIH versus años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

Ejemplo Nº20: Evolución de los detenidos por drogas por la DEA en los EE.UU (1994­2004).

En ningún otro país  del mundo el problema de  las drogas es tan extendido e intenso como en los EE.UU. Graves problemas sociales como la criminalidad y el contagio de VIH se asocian a él. 

Un gran porcentaje  del  dinero gastado en el  combate a  las  drogas   se destina a  la represión,  en particular en arrestos, procesos judiciales y encarcelamiento de traficantes de poca monta. Aproximadamente 500.000 personas están encarceladas por delitos de drogas en los EE.UU. Las medidas vinculadas a la prevención o al tratamiento, han tenido poco éxito.

La base de datos Nº17 nos entrega los valores del número de arrestos por drogas Y i

entre 1994 y el 2004 Xi en EE.UU.           

       GRÁFICA Nº75

Grafiquemos estos datos con R y la recta de regresión a ellos asociada.

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados con drogas', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma polinomial: Número de arrestos", "relacionados con drogas versus años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

1 Es importante señalar que no es razonable incluir el valor de los años como variable independiente en la regresión, pues a este nivel la curva generada   entre   X   y X2 es   prácticamente   una   recta,   con   lo   que   las   variables   independientes   presentarán   una   multicolinealidad   total. Cambiamos por esto el valor de los años por números del 1 al 14.

86

Fuente:http://www.usdoj.gov/dea/statistics.html

BASE DE DATOS Nº17

23135 199425279 199529269 199634068 199738468 1998

∙ ∙∙ ∙∙ ∙

39743 200034471 200130270 200228549 200327053 2004

Y i Xi

Page 93: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Formas funcionales

Podemos   especular   que   la   función   entre   las   variables   es   de   la   forma:Y= b0

b1 X b2 W , por lo que corremos una regresión entre las variables de la tabla nº47: 

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2+a$V3))>summary(a1) 

Obtenemos:

Y i= 14394,637501,46 X i−596,52X i2 R2

= 0,8278        7,074 −6,931

Grafiquemos la ecuación de regresión obtenida junto a los datos originales.

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='Años', ylab='Número de arrestos relacionados con drogas', cex.lab=1,family='NewCenturySchoolbook') >x <­ seq(1,11, length = 100) >lines(x, 14394.63 +7501.46*x­596.52*x*x, type="l", col= 'red',lwd=3) >title(main=paste("Forma polinomial: Número de arrestos", " relacionados con drogas versus años",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

  GRÁFICA Nº76

4.1.5 FORMA RECÍPROCA Y= b0b1

X (105)

GRÁFICA Nº77

Si Z= b1

Xla ecuación  transformada queda Y= b0b1 Z , 

con lo que nuestra ecuación de regresión resulta:

  Y= b0b1 Z (106)

Este modelo tiene las siguientes características: A medida que X crece indefinidamente, el término b1 Z se aproxima a cero e Y se aproxima al límite asintótico  b0 .

Por lo tanto en estos modelos se constituye una asíntota o valor límite que la variable dependiente toma cuando cuando el valor de X crece indefinidamente, tal como se muestra en la gráfica Nº77.

87

SALIDA Nº64

Call:lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:    Min        1Q       Median      3Q      Max ­3319.6   ­1745.2      ­788.1    1951.5    3364.3 

Coefficients:                         Estimate     Std. Error    t value    Pr(>|t|)    (Intercept)        14394.63       2768.63      5.199    0.000823 ***a$V2                 7501.46       1060.41       7.074    0.000105 ***a$V3                 ­596.52          86.07       ­6.931    0.000121 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2521 on 8 degrees of freedomMultiple R­squared: 0.8622, Adjusted R­squared: 0.8278 F­statistic: 25.04 on 2 and 8 DF,  p­value: 0.0003601 

TABLA Nº47

23135 1 125279 2 429269 3 934068 4 1638468 5 25

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

39743 7 4934471 8 6430270 9 8128549 10 10027053 11 121

Y i Xi Xi2

Page 94: Análisis de regresión para sociólogos

Aspectos teóricos.

Supongamos   que   nos   encontramos   con   una   relación   matemática 

perfecta entre dos variables  de  la  forma: Y= 52 1X ,   función que nos es 

desconocida. Tenemos sin embargo, los valores que estas dos variables asumen y se muestran en la tabla nº48:

Grafiquemos estos datos con R y la recta de regresión a ellos asociada.

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma recíproca:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

Podemos especular  que  la   función entre  las  variables  es  de  la   forma: Y= b0b1

X ,  por   lo  que 

corremos una regresión entre las variables de la tabla nº49: 

               GRÁFICA Nº78

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2))>summary(a1) 

La ecuación que obtenemos resulta:

Y= 5 2∙ Z R2= 1

26536 2999

Grafiquemos   las   variables   originales   (tabla   nº48)   junto con la recta de regresión aquí obtenida.

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook') >x <­ seq( 1, 20, length = 100) >lines(x, 5+2*(1/x), type="l", lwd=3, col= 'red') >title(main=paste("Forma recíproca:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

         GRÁFICA Nº79         

88

SALIDA Nº65

Call:lm(formula = a$V1 ~ a$V2)

Residuals:        Min           1Q           Median           3Q             Max ­0.0008940   ­0.0004211    0.0001214    0.0001499    0.0011506 

Coefficients:                          Estimate    Std. Error   t value    Pr(>|t|)    (Intercept)         4.9998164  0.0001884    26536   <2e­16 ***a$V2                 2.0004648  0.0006670    2999     <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.0006496 on 18 degrees of freedomMultiple R­squared:     1, Adjusted R­squared:     1 F­statistic: 8.996e+06 on 1 and 18 DF,  p­value: < 2.2e­16 

TABLA Nº48

7,000 16,000 25,667 35,500 45,400 5

∙ ∙∙ ∙∙ ∙

5,125 165,118 175,111 185,105 195,100 20

Y i Xi

TABLA Nº49

7,000 1,0006,000 0,5005,667 0,3335,500 0,2505,400 0,200

∙ ∙∙ ∙∙ ∙

5,125 0,0635,118 0,0595,111 0,0565,105 0,0535,100 0,050

Y i Z i

Page 95: Análisis de regresión para sociólogos

Problemas en el análisis de regresión: Formas funcionales

Ejemplo Nº21: Tasa de mortalidad infantil y el PIB per cápita ajustado a paridad de poder adquisitivo  para 42 países.

La base de datos Nº18 nos entrega  los  valores   la  tasa de mortalidad infantil por cada 100 nacidos vivos Y i al 2009 y el PIB PPA per cápita Xi al 2008 para 219 países. Suponemos que a mayor PIB PPA baja dramáticamente la mortalidad infantil.

Grafiquemos estos puntos y la recta de regresión a ellos asociada:

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

       GRÁFICA Nº80

Nuestra suposición resulta verdadera porque a mayor PIB   PPA   la   gente   puede   disponer   de   más   recursos   para   el cuidado   de   la   salud,   asumiendo   que   los   demás   factores permanecen constantes. Observemos que a medida que el PIB   PPA   per   cápita   se   incrementa,   hay   inicialmente   una drástica caída de la mortalidad infantil pero que se estabiliza a medida que el PIB PPA per cápita continúa creciendo.

Podemos especular que la función entre las variables 

es de  la forma: Y= b0b1

X ,  por   lo  que corremos una 

regresión entre las variables de la tabla 50: 

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2))>summary(a1) 

La ecuación que obtenemos resulta:

Y= 19,35132177,613∙ Z R2= 0,3516

  10,13 10,92

Grafiquemos las variables originales junto con la recta de regresión aquí obtenida.

>a <­ read.table('a.txt') >par(bg = "Ivory 2") >plot(a$V2,a$V1, col=3, xlab='PIB PPA per cápita', ylab='Tasa de mortalidad infantil', cex.lab=1,family='NewCenturySchoolbook') >x <­ seq( 0, 120000, length = 100) >lines(x, 19.351+32177*(1/x), type="l", lwd=3, col= 'red') >title(main=paste("Forma recíproca:", "Tasa de mortalidad infantil versus PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

          

89

Fuente:http://www.cia.gov

BASE DE DATOS Nº18

Afghanistan 151,95 800Albania 18,62 6000Algeria 27,73 6900American Samoa 10,18 8000Andorra 3,76 42500

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

West Bank 15,96 2900Western Sahara 69,66 2500Yemen 54,7 2500Zambia 101,2 1500Zimbabwe 32,31 200

Y i Xi

TABLA Nº50

Afghanistan 151,95 0,001250Albania 18,62 0,000167Algeria 27,73 0,000145American Samoa 10,18 0,000125Andorra 3,76 0,000024

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

West Bank 15,96 0,000345Western Sahara 69,66 0,000400Yemen 54,7 0,000400Zambia 101,2 0,000667Zimbabwe 32,31 0,005000

Y i 1 /X i

Page 96: Análisis de regresión para sociólogos

                                               GRÁFICA Nº81

90

SALIDA Nº66

Call:lm(formula = a$V1 ~ a$V2)

Residuals:     Min        1Q      Median     3Q      Max ­147.929   ­14.768   ­7.359    10.422   99.330 

Coefficients:                  Estimate   Std. Error   t value   Pr(>|t|)    (Intercept)    19.351      1.911       10.13    <2e­16 ***a$V2         32177.613   2947.032   10.92    <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 24.39 on 217 degrees of freedomMultiple R­squared: 0.3546,Adjusted R­squared: 0.3516 F­statistic: 119.2 on 1 and 217 DF,  p­value: < 2.2e­16

Page 97: Análisis de regresión para sociólogos

Aplicaciones del análisis de regresión: Variables Dummy

4.2 VARIABLES DUMMY1

 4.2.1 INTRODUCCIÓN

Hasta  el   momento,  en  el   análisis  de   regresión   lineal   sólo  hemos   considerado  variables  cuantitativas continuas ­las cuales pueden tomar cualquier valor dentro de un intervalo específico de números­ tanto para los regresores como para el regresando. Sin embargo, en muchos casos, variables de naturaleza cualitativa pueden influenciar de manera decisiva a la variable dependiente2  (consideremos por ejemplo el sexo, la etnicidad, la religión,   etc.)   Para   estudiar   estos   casos   dentro   del   modelo   de   regresión   lineal   introduciremos   variables independientes cualitativas, llamadas también variables dummy.

Estas variables funcionan como un dispositivo de clasificación en categorías mutuamente excluyentes y se tratan como a cualquier otra variable cuantitativa. Son tantas como el número de categorías en que se divida la variable menos 1. Por ejemplo, si una variable posee dos categorías, como en el caso del sexo (hombre o mujer) se construye una variable dummy en la que 1 indica mujer y 0 hombre. Si utilizamos una variable que posee 3 categorías, como en el caso de la religión (católico, protestante o judío, por ejemplo) construimos dos variables dummy: (1 0) en el caso de católico, (0 1) en el caso de protestante y (0 0) en el caso de judío y así sucesivamente. En general diremos que a k categorías, utilizamos k­1 variables dummy.

Las variables dummy pueden ser   incorporadas en  los  modelos de  regresión tan fácilmente como las variables cuantitativas. De hecho, un modelo de regresión puede poseer regresores exclusivamente dummy. Estos modelos son llamados modelos de Análisis de Varianza (ANOVA) y los estudiaremos a continuación.

4.2.2 MODELOS SÓLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA).

4.2.2.1 Modelos con solo una variable predictora cualitativa.

La población latina en Texas.

Se proyecta que para el  2020  la  población blanca en el  Estado de Texas dejará  de  ser   la  mayoría absoluta pasando a constituir solo el 47%, mientras la población latina será el 37% ­por lejos, la segunda mayoría relativa­3, dándose en esta población los  índices más altos de pobreza. 'En 1999, más de 1.6 millones (25.4 por ciento) de hispanos en Texas eran pobres.  Su  ingreso  familiar  promedio era de $29,873,  muy por  debajo del promedio de Texas de $39,927'4.

Es así que a medida que pasa el tiempo, debido a la cada vez mayor cantidad de población hispana en Texas, una también cantidad cada vez mayor de población tejana se hará pobre. 

Texas debe reducir las disparidades económicas que subyacen aún en su población si desea un porvenir sustentable.

Ejemplo Nº22: % de población latina y su ubicación geográfica en el Estado de Texas, EE.UU.

Para comenzar a caracterizar a  la población latina de Texas, supongamos que queremos saber si  el porcentaje de ésta  sobre el total difiere en forma significativa entre tres zonas seleccionadas arbitrariamente de los 254 condados del Estado. 

Para esto, creamos dos variables dummy que nos indican la ubicación geográfica (gráfica nº82). De esta manera:

D1i D2i

1:  Frontera con México    (1     0)2:  Centro­oeste y este    (0     1) 3:  El resto del Estado    (0     0)

La base de datos nº19  muestra el porcentaje de población latina como variable dependiente Yi , como variables dummy D1i y  D2i  la ubicación geográfica para los 254 condados del Estado de Texas y el % promedio de población latina dentro de estos tres grupos. 

1 Estas variables también se conocen como indicadoras, categóricas, mudas o ficticias.2 Por ejemplo, existe evidencia empírica de que las mujeres ganan menos que los hombres por la misma actividad en el mercado del trabajo.3 http://www.cis.org/TexasImmigration­1970­20204 http://www.dallasfed.org/entrada/articles/2005/sp_fotexas_petersen.html

91

Page 98: Análisis de regresión para sociólogos

                        

                    GRÁFICA Nº 82

Los   promedios   de   población   latina   para   estas   tres regiones son:

Poblaciónlatina

1: Frontera con México : 69,08 %2: Centro­oeste y este : 17,93 %3: El resto del Estado : 22,15 %

¿Son estos  resultados significativamente diferentes unos de otros?

Existen varias técnicas estadísticas para comparar dos o más promedios, las cuales son generalmente llamadas análisis de varianza, pero el mismo objetivo puede lograrse dentro del contexto de un análisis de regresión.

Para ver esto, supongamos el siguiente modelo:

Y i= b0b1D1ib2D2ii (107)

y hagamos una regresión (salida nº67):

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2+a$V3))>summary(a1) 

Obtenemos la siguiente ecuación:

Y i= 22,1546,935D1i−4,225D2i R2= 0,5766

16,882 −2,052

Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,251)[1] 1.969460 por lo que nuestros parámetros estimados son significativos al 5%.

92

Fuente: http://geology.com/

FUENTE: http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html

% Población

Condado latinapromedio

Starr County  98,10 1 0Maverick County  95,33 1 0Webb County  94,40 1 0Brooks County  92,00 1 0Zavala County  91,39 1 0

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

Brewster County  43,72 1 0Live Oak County  37,95 1 0Jeff Davis County  35,48 1 0McMullen County  34,43 1 0Real County  21,63 1 0 69,08

Castro County  51,83 0 1Parmer County  49,83 0 1Crosby County  48,84 0 1Dawson County  48,09 0 1Hale County  47,99 0 1

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

Hardin County  2,45 0 1Cass County  1,62 0 1Sabine County  1,60 0 1Marion County  1,40 0 1Delta County  0,81 0 1 17,93

Atascosa County  58,70 0 0Deaf Smith County  57,71 0 0Bexar County  54,35 0 0Sutton County  51,73 0 0Reagan County  49,67 0 0

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

Montague County  5,49 0 0Llano County  5,14 0 0Armstrong County  3,91 0 0Clay County  3,07 0 0Roberts County  1,35 0 0 22,15

BASE DE DATOS Nº19

Y i D1i D2i

Page 99: Análisis de regresión para sociólogos

Aplicaciones del análisis de regresión: Variables Dummy

b0 es nuestro punto de control correspondiente a los valores de las variables dummy: (0 0) y nos entrega el promedio del  % de población  latina para  los  condados que se encuentran 'en el resto del Estado': 22,15%.

Reemplacemos los valores de las correspondientes dummy:

D1i : 1 y  D2i : 0 El  condado se encuentra en la frontera y nuestra ecuación queda:

Y i= 22,1546,935= 69,085

D1i : 0 y  D2i : 1 El  condado se encuentra en el centro­oeste y este y nuestra ecuación queda:

Y i= 22,15−4,225= 17,925

Vemos que hay una tremenda concentración de población latina en la frontera con México.

Los valores de  b1 y  b2 nos dicen en cuanto los porcentajes promedio de latinos en los condados de la frontera y del centro­oeste y el este difieren del promedio del porcentaje de latinos del 'resto del Estado'.

4.2.2.2 Modelos con dos variables predictoras cualitativas

Ejemplo Nº23: % de pobreza, ubicación geográfica y densidad de población latina en el Estado de  Texas.

La base de datos nª20 nos entrega como variable dependiente Yi el % de población pobre para los condados del Estado de Texas y como regresores, las dos variables dummy de ubicación espacial vistas en el ejemplo anterior   ( D1i y   D2i )y  una nueva variable dummy que categoriza  la  densidad de  la  población hispana:

1:  D3i = 1 condados con más del 30% de su población latina.2:  D3i = 0 condados con menos del 30% de su población latina.

Supongamos un modelo del tipo:

Y i= b0b1D1ib2D2ib3D3ii (108)

Y hagamos un análisis de regresión (salida nº68):

>a <­ read.table('a.txt')   >a1 <­ (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1) 

Nuestra ecuación resulta:

Y i= 14,43318,9935D1i1,5022D2i1,383 D3i

9,018 2,4 1,906Nuestro valor crítico t para un 95% de significación es:

>qt(0.95,252)

[1]   1.650923   por   lo   que   nuestros   parámetros   estimados   son significativos al 5%.

93

SALIDA Nº67

Call:lm(formula = a$V1 ~ a$V2 + a$V3)

Residuals:      Min       1Q       Median      3Q      Max   ­47.454  ­10.079     ­4.160      9.534   36.550 

Coefficients:                 Estimate   Std. Error   t value   Pr(>|t|)    (Intercept)   22.150      1.351      16.399   <2e­16 ***a$V2           46.935      2.780      16.882   <2e­16 ***a$V3           ­4.225       2.058     ­2.052      0.0412 *  ­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 14.98 on 251 degrees of freedomMultiple R­squared: 0.5799,Adjusted R­squared: 0.5766 F­statistic: 173.3 on 2 and 251 DF,  p­value: < 2.2e­16 

FUENTES:http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.htmlhttp://www.ers.usda.gov/Data/PovertyRates/PovListNum.asp?ST=TX&view=Number&Longname=TX

Condado

Anderson County  14,32 0 1 0Andrews County  15,29 0 1 1Angelina County  19,34 0 1 0Aransas County  19,63 0 0 0Archer County  8,21 0 1 0

∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

Wood County  12,99 0 1 0Yoakum County  17,17 0 1 1Young County  16,29 0 1 0Zapata County  37,19 1 0 1Zavala County  39,71 1 0 1

BASE DE DATOS Nº20

Y i D1i D2i D3i

Page 100: Análisis de regresión para sociólogos

Acá nuestro punto de referencia son los condados que se encuentran 'en el resto del Estado' y tienen menos de un   30%   de   su   población   latina.   Siendo   así,   todas   las comparaciones deben ser hechas en torno a este grupo.El % de población pobre para este grupo es, por lo tanto 

b0= 14,4331  Ahora, si en nuestra categoría 'resto del Estado' consideramos los condados que tienen más del 30% de su población latina, el % promedio de pobreza sube a:  Y i= 14,43311,383= 15,8161Observemos   ahora   nuestra   categoría   centro­oeste   y este.   Para   los   condados   con   menos   del   30%   de   su población   latina   el   promedio   de   %   de   pobreza   es: 

Y i= 14,43311,5022= 15,9353 .   Si   consideramos   los 

condados de esta categoría que poseen más  del 30% de su población latina el porcentaje de población pobre aumenta a:  Y i= 14,43311,50221,383= 17,3183Los   condados   de   la   categoría   'frontera   con   México' poseen todos más  del 30% de su población  latina y el promedio   de   pobreza   en   ellos   es   de 

Y i= 14,43318,99351,50221,383= 26,3118

4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA)

Ejemplo Nº24: % de pobreza, ubicación geográfica y % de población latina en el Estado de Texas

Las bases de datos nº19 y nº20 nos entregan el % de población pobre Yi y el % de población latinaXi .   Consideremos   también   la   ubicación   espacial   de   los   condados   de   Texas   tal   como   ya   los   hemos 

clasificado en los ejemplos anteriores.

Supongamos el siguiente modelo: Y i= b0b1X1b2D1ib3D2ii (109)

y hagamos una regresión del % de población pobre sobre las demás variables (salida nº69):

>a <­ read.table('a.txt')   >a1 <­ (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1) 

Obtenemos la siguiente recta de regresión:

Y i= 11,96710,1266 X i4,0627D1i1,997D2i

7,196 3,589 3,453

Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,252)[1]   1.969422,   por   lo   que     nuestros   parámetros   estimados   son significativos al 5%.

Obtengamos   nuestras   rectas   de   regresión   asociadas   a   cada categoría de la variable cualitativa: 'ubicación geográfica'.

Si el condado se encuentra en la frontera D1i=1 y D2i=0 : Y i= 16,02980,1266X i

Si el condado se encuentra en el centro­oeste y este D1i=0 y D2i=1 : Y i= 13,96410,1266 X i

Si el condado se encuentra en el resto del Estado D1i=0 y D2i=0 : Y i= 11,96710,1266 X i

94

SALIDA Nº68

Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)

Residuals:     Min        1Q      Median        3Q        Max ­11.8096  ­2.3544    ­0.1607      2.3598   17.1004 

Coefficients:                  Estimate   Std. Error   t value   Pr(>|t|)    (Intercept)   14.4331     0.4471     32.284   <2e­16 ***a$V2            8.9935      0.9973     9.018    <2e­16 ***a$V3            1.5022      0.6260     2.400     0.0171 *  a$V4            1.3830      0.7258     1.906     0.0579 .  ­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 4.553 on 250 degrees of freedomMultiple R­squared: 0.3688,Adjusted R­squared: 0.3612 F­statistic: 48.68 on 3 and 250 DF,  p­value: < 2.2e­16

BASES DE DATOS Nº19 y Nº20

Condado    

Anderson County  14,32 12,00 0 1Andrews County  15,29 40,11 0 1Angelina County  19,34 14,08 0 1Aransas County  19,63 20,42 0 0Archer County  8,21 4,57 0 1

∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

Wood County  12,99 5,38 0 1Yoakum County  17,17 45,92 0 1Young County  16,29 10,50 0 1Zapata County  37,19 84,94 1 0Zavala County  39,71 91,39 1 0

Y i X1i D1i D2i

Page 101: Análisis de regresión para sociólogos

Aplicaciones del análisis de regresión: Variables Dummy

Grafiquemos con R las tres ecuaciones anteriores y nuestros datos de % promedio de población pobre y % promedio de población latina para los condados de Texas (gráfica nº 83):

>x <­ seq( 0 ,100,length = 100) >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='% promedio de población latina', ylab='% promedio de población pobre', cex.lab=1,family='NewCenturySchoolbook') >lines(x, 16.0298+0.1266*(x), type='l', col= 'blue', lwd=2) >lines(x, 13.9641+0.1266*(x), type='l', col= 'red', lwd=3) >lines(x, 11.9671+0.1266*(x), type='l', col= 'Magenta 4', lwd=2) >title(main=paste("Población pobre versus", "población latina en los condados de Texas",sep="\n"), font.main=1,cex.main=1.5,family='NewCenturySchoolbook')  

                 GRÁFICA Nº 83

Las tres rectas de regresión representan a las 3 regiones en que hemos dividido el Estado de Texas. 

El   gráfico   se   interpreta   como   sigue:   La   línea   violeta representa   'el   resto   del   Estado',   la   línea   roja   representa   el centro­oeste   y   el   este,   y   la   azul   los   condados   que   se encuentran en la frontera con México.

Vemos que consecutivamente a medida que aumenta el % promedio de población latina es mayor el valor del % de población pobre, poseyendo los condados que se ubican en la frontera con México los más altos índices de pobreza.

4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL

Las variables dummy permiten determinar si  ha habido un cambio en  los parámetros del modelo de regresión, ya sea en la intercepción o en la pendiente. Para esto sólo debemos saber si los parámetros estimados asociados a las variables dummy son estadísticamente significativos.  

Consideremos el modelo general con una variable dummy: Y i= b0b1X1ib2 X iD1ib3D1i   (110)

donde: i= 1,...,n y definamos: D1i= 0 para la categoría o y D1i= 1 para la categoría p. 

De esta manera una vez ejecutada la regresión:

Y i= b0b1X i para la categoría o.

Y i= b0b3 b1

b2 Xi para la categoría p.

Hay cuatro casos posibles de acuerdo a que posean o no significación estadística cada uno de los parámetros estimados: 

95

SALIDA Nº69

Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)

Residuals:     Min       1Q      Median       3Q       Max ­11.9327  ­2.6806   ­0.2313     2.3717  14.6897 

Coefficients:                  Estimate   Std. Error   t value  Pr(>|t|)    (Intercept)  11.96711    0.54169    22.092  < 2e­16 ***a$V2           0.12656    0.01759     7.196   7.23e­12 ***a$V3           4.06270    1.13208     3.589   0.000400 ***a$V4           1.99695    0.57837     3.453   0.000652 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 4.174 on 250 degrees of freedomMultiple R­squared: 0.4695,Adjusted R­squared: 0.4631 F­statistic: 73.74 on 3 and 250 DF,  p­value: < 2.2e­16 

Page 102: Análisis de regresión para sociólogos

                  GRÁFICA Nº 84

1. b3 y  b2 no son significativas, por  lo que no hay cambio estructural. Las regresiones para las dos categorías son idénticas:  Y i= b0

b1X i para todo i.2. b3 es   significativa,   pero   b2 no.   Existen   dos 

regresiones   con   la   misma   pendiente   pero   con   distintas intercepciones.

Y i= b0b1X i para la categoría o.

Y i= b0b3

b1 X i para la categoría p.

               GRÁFICA Nº 85

3. b3 no   es   significativa,   pero b2 si.   Hay   dos regresiones   con   una   misma   intercepción   (concurrente)   pero con diferentes pendientes.

Y i= b0b1X i para la categoría o.

Y i= b0b1

b2X i para la categoría p.

                  GRÁFICA Nº 86

4. b3 y b2 son ambas estadísticamente significativas. Existen dos regresiones por completo distintas. 

Y i= b0b1X i para la categoría o.

Y i= b0b3 b1

b2 Xi para la categoría p.

Ilustremos este último caso con un ejemplo:

Ejemplo Nº25: Los efectos diferenciados para África y el resto del mundo de la correlación entre la esperanza de vida y el PIB.

Se supone la existencia de cierta correlación entre la esperanza de vida y el PIB per cápita a valores de paridad de poder adquisitivo en los países del mundo, como lo vimos en el ejemplo nº1 de este trabajo. Como África posee los más bajos PIB per cápita mundiales, para considerar los efectos regionales en la regresión, se introducirá una variable dummy: Di= 1 si el país es africano y Di= 0 si no lo es.

La tabla nº2 vista en la primera sección de este trabajo ­Análisis  de Regresión Simple­ nos muestra la esperanza de vida en años al 2005 Y i y el logaritmo del PIB per cápita a paridad de poder adquisitivo al 2005Xi . Añadamos la variable dummy definida anteriormente Di y esta misma multiplicada por la variable 

independiente Di X i para 164 países del mundo, 39 de los cuales son africanos. 

96

Page 103: Análisis de regresión para sociólogos

Aplicaciones del análisis de regresión: Variables Dummy

(excluímos   los   siguientes   datos   aberrantes   ­todos   países africanos­:   Angola,   Botswana,   Gabon,   Lesotho,   Namibia,   South Africa, Swaziland y Zimbabwe)

Apliquemos una regresión de la esperanza de vida sobre el logaritmo del PIB per cápita a paridad de poder adquisitivo:

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2)) >summary(a1)

Nuestra ecuación de regresión nos da:Y= 1,9627,652X R2

=0,764 22,987

Nuestro valor crítico t para un 95% de significación es:

>qt(0.975,160)[1]   1.974902,   por   lo   que   nuestros   parámetros   estimados   son significativos al 5%.

Apliquemos una regresión de la esperanza de vida, sobre el resto de variables independientes incluyendo las dummies:

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2+a$V3+a$V4)) >summary(a1)

Nuestra ecuación de regresión nos da:

Y= 25,4825,178X−47,501D5,256 X ∙D R2=0,852

14,015 −6,454 5,51Siendo   todos   nuestros   parámetros   estimados   son 

significativos al 5%.

Las ecuaciones resultan respectivamente:Y= 1,9627,652X para las variables originalesY= − 22,01910,434 X para África y  Y= 25,4825,178X para el resto del mundo.

Grafiquemos esta rectas (gráfica nº 87):

>a <­ read.table('a.txt') >x <­ seq( 5, 12, length = 1000) >par(bg = "Ivory 2") >plot(a$V2, a$V1, col=3, xlab='Ln del PIB PPA per cápita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook') >abline(lm(a$V1~a$V2), lwd=3, col='red') >lines(x, ­22.019 +10.434*(x), type="l", col= 'Magenta 4') >lines(x, 25.482 +5.178*(x), type="l", col= 'blue') >title(main=paste("Esperanza de vida", "versus ln del PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

La columna gruesa azul nos muestra la recta de regresión original. La línea verde representa al conjunto de países excluyendo África. Se aprecia con una pendiente menor y una intersección con el eje Y mayor. Lo anterior   implica   que   la   esperanza   de   vida   parte   siendo   alta   para   valores   bajos   del   PIB   y   se   incrementa suavemente a través del aumento del ln del PIB de los países.

La   línea   roja   interpreta   a   los   países   africanos,   y   muestra   que   la   esperanza   de   vida   para   éstos   se incrementa dramáticamente a medida que aumenta el PIB de los mismos.

97

SALIDA Nº71

Call:lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)

Residuals:     Min       1Q        Median       3Q       Max ­10.8277  ­1.9444     0.3835      2.3447   9.6967 

Coefficients:                  Estimate   Std. Error   t value   Pr(>|t|)    (Intercept)   25.4817     3.3735      7.554   3.06e­12 ***a$V2           5.1782       0.3695     14.015  < 2e­16 ***a$V3         ­47.5010      7.3604     ­6.454   1.24e­09 ***a$V4           5.2558       0.9540      5.510   1.41e­07 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 3.903 on 160 degrees of freedomMultiple R­squared: 0.8518,Adjusted R­squared: 0.849 F­statistic: 306.4 on 3 and 160 DF,  p­value: < 2.2e­16

SALIDA Nº70

Call:lm(formula = a$V1 ~ a$V2)

Residuals:     Min       1Q      Median       3Q       Max ­14.2331  ­2.4979   0.2952      3.2149  11.0504 

Coefficients:                 Estimate    Std. Error   t value    Pr(>|t|)    (Intercept)   1.9619       2.9153      0.673      0.502    a$V2           7.6520       0.3329     22.987    <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 4.88 on 162 degrees of freedomMultiple R­squared: 0.7653,Adjusted R­squared: 0.7639 F­statistic: 528.4 on 1 and 162 DF,  p­value: < 2.2e­16

TABLA Nº2

PAÍS

Albania 76,2 8,580 0 0,000Algeria 71,7 8,878 1 8,878Antigua y Barbuda 73,9 9,359 0 0,000Argentina 74,8 9,484 0 0,000Armenia 71,7 8,306 0 0,000

∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

Vanuatu 69,3 8,136 0 0,000Venezuela 73,2 8,666 0 0,000Vietnam 73,7 7,931 0 0,000Yemen 61,5 6,614 0 0,000Zambia 40,5 6,815 1 6,815

Y i Xi Di XiDi

Page 104: Análisis de regresión para sociólogos

        GRÁFICA Nº 87

4.2.5 ALGUNAS   PRECAUCIONES   EN   EL   USO   DE   VARIABLES  DUMMY  1. Si una variable cualitativa tiene m categorías, debe 

representarse por medio de m­1 variables dummy, asignando a cada una los valores de 0 ó 1. De no ser así ocurre el problema de  la multicolinealidad (que hemos analizado en  la sección precedente)5. 

Las siguientes precauciones están referidas a modelos ANOVA.

2. La categoría para la cual no es asignada ninguna variable   dummy   es   denominada   punto   de   referencia   o categoría omitida. Todas las comparaciones están hechas en relación al punto de referencia.

3.   El   valor   de   intercepción b0 representa   el   valor promedio del punto de referencia. 

Por   ejemplo,   consideremos   la   base   de   datos   Nº1 restringida al   los valores de  la esperanza de vida Yi junto con la dummy antes definida Di .

Ejecutemos una regresión de Y i sobre Di :

>a <­ read.table('a.txt') >a1 <­ (lm(a$V1~a$V2)) >summary(a1)

La recta de regresión obtenida es:

Y= 72.507−17,271 ∙Di R2=0,5365

−13,77

Para   los   países   no africanos Di= 0 el valor   promedio   de   la esperanza   de   vida   es 72,507.

4.   Los   coeficientes   bi son   conocidos   como   los coeficientes   de   intercepción   diferencial.   Nos   dicen   en cuanto varía el valor de la variable dependiente para la correspondiente   categoría   respecto   al   punto   de referencia.

En   nuestro   ejemplo,   72,507­17,271=   55,236  es   el   valor promedio   de   la   esperanza   de   vida   para   los   países africanos.

5.   Si   la   variable   cualitativa   tienen   más   que   una categoría, la elección del 'punto de referencia' queda a estricta elección del investigador.

5 Es posible evitar el problema de la multicolinealidad al tener m variables dummy para m categorías de una variables cualitativa omitiendo el término de intercepción y corriendo una regresión bajo el siguiente modelo supuesto: Y i= b1D1ib1D 2ib1D3i i . Suprimiendo la intercepción y utilizando una variable dummy para cada categoría, se obtienen directamente los valores medios para cada una de las categorías.

98

SALIDA Nº72

Call:lm(formula = a$V1 ~ a$V2)

Residuals:     Min       1Q      Median       3Q       Max ­18.6072  ­4.1394   ­0.0572     4.9678   18.2641 

Coefficients:                 Estimate   Std. Error   t value   Pr(>|t|)    (Intercept)  72.5072     0.6115     118.56   <2e­16 ***a$V2         ­17.2713     1.2540     ­13.77   <2e­16 ***­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 6.837 on 162 degrees of freedomMultiple R­squared: 0.5394,Adjusted R­squared: 0.5365 F­statistic: 189.7 on 1 and 162 DF,  p­value: < 2.2e­16

BASE DE DATOS Nº1

PAÍS

Albania 76.2 0Algeria 71.7 1Antigua y Barbuda 73.9 0Argentina 74.8 0Armenia 71.7 0

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Vanuatu 69.3 0Venezuela 73.2 0Vietnam 73.7 0Yemen 61.5 0Zambia 40.5 1

Y i Di

Page 105: Análisis de regresión para sociólogos

Aplicaciones del análisis de regresión: Modelos de elección binarios

4.3 MODELOS DE ELECCIÓN BINARIOS4.3.1 INTRODUCCIÓN

Hasta ahora, hemos considerado modelos de regresión en los que el regresando (variable dependiente o respuesta) es cuantitativa, mientras  las variables independientes son cuantitativas, cualitativas (dummy) o una mezcla de ambas. Sin embargo, algunas veces en el análisis de regresión sólo estamos interesados en el valor dicotómico que  pueda adoptar   la  variable   respuesta,  como por  ejemplo,  en  regresiones  donde deseamos averiguar de qué  manera  influye un set de variables  independientes en el  hecho de que una persona esté ocupada o desempleada, sea alfabeta o analfabeta, sea solvente o insolvente para un préstamo, etc. 

Existe   una   importante   diferencia   entre   un   modelo   de   regresión   donde   la   variable   dependiente   es cuantitativa y otro en la que es cualitativa. En el primer caso, nuestro objetivo es estimar la media del regresando, dados los valores de los regresores. En el segundo, nuestro objetivo es encontrar la probabilidad de que algo ocurra  o  no.  Es  por  esto que  los  modelos  de  regresión con variable  dependiente cualitativa  se  denominan también modelos de probabilidad.

Si en un modelo de regresión lineal la variable dependiente es una variable dicotómica1  (que adopta sólo   los   valores   0   ó   1),   una   regresión   por   el   método   de   MCO   no   es   apropiada,   pues   éste   puede   permitir predicciones mayores que 1 o menores que 0 dando un resultado absurdo. 

En este capítulo abordaremos dos metodologías para estudiar  los modelos de respuesta cualitativa: el Logit y el Probit.

  4.3.2 EL MODELO LOGIT

La función de distribución logística puede expresarse como:

Pi= EY= 1 /Xi= 1

1e− b0

b1 X io bien, si Z i= b0

b1 X i ; Pi= 1

1e−Z i=

eZ i

1eZ i

(111)

donde  Z i se denomina logit.

Z i varía   de −∞ a ∞ ,   por   lo   que Pi= e

Z i

1eZ i

varía   de   0   a   1.   Lo   que   se   intenta   es   llevar 

rápidamente a 0 ó a 1 los valores de Pi .              GRÁFICA Nº88

Existe   un   problema   de   estimación,   porque Pi no   es lineal ni en los X i ni en los bi , por lo que no podemos utilizar   el   método   de   MCO   para   estimar   los   parámetros. Debemos utilizar el logit.

Si Pi= e

Z i

1eZ i

es   la   probabilidad   de   poseer   cierto 

atributo,   entonces 1−Pi es   la   probabilidad   de   no 

poseerlo: 1−Pi= 1− eZ i

1eZ i=

11e

Z i(112)

Definamos como Oportunidad Relativa2 la razón entre la probabilidad de poseer un atributo y no poseerlo3:

Op Rel= Pi

1−Pi

= eZ i

1eZ i

∙ 1eZ i

1= eZ i= e

b0b1X i (113)

Aplicando logaritmos al odds ratio obtenemos Z i= ln Pi

1−P i

= b0b1 X i (114)

Siendo ahora el logit lineal en X y en los parámetros. Analicemos el siguiente ejemplo:

1 Tengamos presente que en el caso general, la variable respuesta puede ser politómica (poseer múltiples categorías).2 También llamada odds ratio.

3 Así, si P i= 0,8 esto significa que: Odds Ratio= 4 /5

1−4 /5=

4 /51 /5

= 41

esto es, que las probabilidades son 4 a 1 a favor de que encontremos la 

presencia del atributo buscado.

99

Page 106: Análisis de regresión para sociólogos

Ejemplo Nº26: Pobreza y religión en Irlanda del Norte.

La   base   de   datos   nº21   nos   da   información   para   los   26   distritos   de gobierno   local   de   Irlanda   del   norte,   siendo Y i una   variable   dependiente dicotómica que asume los valores Y i= 1 si el porcentaje de niños que viven bajo el 60% del ingreso medio es mayor del 25% para el 2008, Y i= 0 si no, y

X i es el porcentaje de población católica para la respectiva provincia para 1991. Podemos establecer el supuesto de que las provincias con alto predominio católico son las más pobres.

Apliquemos un análisis de regresión Logit a esta tabla (salida nº73):

>a <­ read.table('a.txt')>a1 <­ glm(a$V1 ~ a$V2,family=binomial(link=logit)) >summary(a1)

Nuestra   ecuación   logit   queda entonces:

Z i= −2,164970,07013 X i

Obtengamos el valor crítico para z al 95% de significación:

>qnorm(0.975) [1] 1.959964 Ambos coeficientes son estadísticamente significativos.

Grafiquemos   los   valores   del   logit Zi y   sus   valores   ajustados P i sobre   la   variable   independiente dados en la tabla nº51 (gráficas nº89 y nº90) .

 

>par(bg = "Ivory 2") >plot(a$V2, predict(a1), col='3', xlab='% de población católica', ylab='Valores del Logit', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los valores del Logit",   "y  el % de población católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

>par(bg = "Ivory 2") >plot(a$V2, fitted(a1), col='3', xlab='% de población católica', ylab='Valores ajustados del Logit', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los valores ajustados del Logit",   "y  el % de población católica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

100

SALIDA Nº73

Call:glm(formula = a$V1 ~ a$V2, family = binomial(link = logit))

Deviance Residuals:     Min       1Q     Median     3Q       Max  ­1.6891  ­0.7115   0.4149   0.5790   1.7600  

Coefficients:                  Estimate    Std. Error  z value  Pr(>|z|)  (Intercept)  ­2.16497     1.08133   ­2.002    0.0453 *a$V2           0.07013     0.02753    2.548    0.0108 *­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 34.646  on 25  degrees of freedomResidual deviance: 25.326  on 24  degrees of freedomAIC: 29.326

Number of Fisher Scoring iterations: 4

FUENTES:25% o más de niños que viven bajo el 60% del ingreso medio 2008http://www.niassembly.gov.uk/centre/2007mandate/reports/Report08_07_08r_vol1.htm % de población católica 1991http://www.wesleyjohnston.com/users/ireland/past/protestants_1861_1991.html

BASE DE DATOS Nº21

DISTRITO

Antrim 0 34,382Ards 1 12,191Armagh 0 47,297Ballymena 1 19,081Ballymoney 0 31,405

∙ ∙ ∙∙ ∙ ∙∙ ∙ ∙

Newry & Mourne  1 76,988Newtownabbey 0 14,054North Down 0 9,736Omagh 1 66,812Strabane 1 63,712

Y i Xi

TABLA Nº51

DISTRITO

Antrim 0 34,382 0,246 0,561Ards 1 12,191 ­1,310 0,212Armagh 0 47,297 1,152 0,760Ballymena 1 19,081 ­0,827 0,304Ballymoney 0 31,405 0,037 0,509

∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

Newry & Mourne  1 76,988 3,234 0,962Newtownabbey 0 14,054 ­1,179 0,235North Down 0 9,736 ­1,482 0,185Omagh 1 66,812 2,521 0,926Strabane 1 63,712 2,303 0,909

Y i Xi Z i P i

Page 107: Análisis de regresión para sociólogos

Aplicaciones del análisis de regresión: Modelos de elección binarios

        GRÁFICA Nº89                         GRÁFICA Nº90

4.3.2.1 Interpretación de los coeficientes: Z i= −2,164970,07013X i

El parámetro estimado de pendiente en la ecuación de salida es un coeficiente de pendiente parcial y mide el cambio en el Logit estimado para el cambio de 1 unidad en el valor del regresor dado (manteniendo todos los demás constantes).

La interpretación de los coeficientes logit puede ser difícil. En nuestro ejemplo, para el incremento de un 1% en X i , el logaritmo del odds ratio de que una provincia sea pobre se incrementa en 0,07. Es preferible elevar a e los coeficientes e interpretarlos como odd­ratios.

>exp(a1$coefficients)

Así para el incremento de un 1%  en X i , el odds ratio de que una provincia sea pobre se incrementa en un factor de 1,0726.

4.3.2.2 Intervalos de confianza para los coeficientes estimados

Notemos que el   intervalo de confianza que nos entrega R está referido a los parámetros estimados del logit.

>confint(a1)

4.3.2.3 Significación estadística de los coeficientes.

La significación estadística de cada uno de los coeficientes estimados la obtenemos de la división del respectivo coeficiente por su desviación estándar. Éste valor sigue una distribución normal:

Z i= b i

S b i(115)

Para nuestro ejemplo:

Z 0= b0

S b0= −

2,164971.08133

= −2,002 y Z1= b1

S b1=

0,070130,02753

= 2,547

El valor Pr(|z|) nos da el límite de la significación del parámetro estimado. Para  b1 el valor límite de significación es: Pr(|z|)= 0,0108, esto quiere decir que 1­0,0108/2= 0,9946 es el valor de la significación exacta.

101

SALIDA Nº74

(Intercept) a$V2  0.1147539    1.0726478

SALIDA Nº752.5 % 97.5 %

(Intercept) ­4.60906435 ­0.2316007a$V2 0.02276608 0.1344598

Page 108: Análisis de regresión para sociólogos

Verifiquémoslo:

 >qnorm(0.9946) 

[1] 2.549104 el cual es el valor de  Z1

4.3.2.4 Contraste de hipótesis el modelo.

4.3.2.4.1 La función de verosimilitud.

Observemos dos datos que nos entrega la salida nº73:  Null deviance y  Residual deviance. La primera es ­2 veces4 el logaritmo de la verosimilitud del modelo denominado nulo −2LnL0 , en el cual no se considera regresor  alguno y cuyas probabilidades Pi son las  probabilidades simples de que el  evento ocurra o no;  la segunda es ­2 veces el logaritmo de la verosimilitud del modelo incluyendo los regresores −2LnL .

El   logaritmo   de   la   función   de   verosimilitud   se define como:

∑i=1

N

[Y i ∙lnPi Z i1−Y i ∙ln 1−Pi Z i](116)

Calculemos el   logaritmo de  la verosimilitud del modelo nulo para nuestro ejemplo:−7,768−9,555= −17,323

Calculemos el   logaritmo de  la verosimilitud del modelo para nuestro ejemplo:−6,349−6,314= −12,663 Este último valor también lo 

obtenemos con la siguiente instrucción:

>logLik(a1)'log Lik.' ­12.66264 (df=2)

Verifiquemos   que   los datos  entregados  por   las   tablas nº52   y   nº53   coinciden   con   los entregados por la salida nº73:

  −2 ∙−12,663= 25,326 y

−2 ∙−17,323= 34,646

4.3.2.4.2Estadístico de la Razón de Verosimilitud o chi2.

Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el 

Estadístico de la Razón de Verosimilitud, definido como: ERV= −2lnL0−L = 34,646−25,326= 9,32 (117)

que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que este caso es 1. 

Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.

4 Pues la verosimilitud es un valor pequeño.

102

TABLA Nº52

DISTRITO

Antrim 0 0,615 0,385 0,000 ­0,956Ards 1 0,615 0,385 ­0,486 0,000Armagh 0 0,615 0,385 0,000 ­0,956Ballymena 1 0,615 0,385 ­0,486 0,000Ballymoney 0 0,615 0,385 0,000 ­0,956

∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙

Newry & Mourne  1 0,615 0,385 ­0,486 0,000Newtownabbey 0 0,615 0,385 0,000 ­0,956North Down 0 0,615 0,385 0,000 ­0,956Omagh 1 0,615 0,385 ­0,486 0,000Strabane 1 0,615 0,385 ­0,486 0,000

­7,768 ­9,555

1−Y i ∙ln 1−P iY i Y i ∙ lnP i1−P iP i

TABLA Nº53

DISTRITO

Antrim 0 34,382 0,246 ­0,246 0,561 0,439 0,000 ­0,824Ards 1 12,191 ­1,310 1,310 0,212 0,788 ­1,549 0,000Armagh 0 47,297 1,152 ­1,152 0,760 0,240 0,000 ­1,427Ballymena 1 19,081 ­0,827 0,827 0,304 0,696 ­1,190 0,000Ballymoney 0 31,405 0,037 ­0,037 0,509 0,491 0,000 ­0,712

∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙

Newry & Mourne  1 76,988 3,234 ­3,234 0,962 0,038 ­0,039 0,000Newtownabbey 0 14,054 ­1,179 1,179 0,235 0,765 0,000 ­0,268North Down 0 9,736 ­1,482 1,482 0,185 0,815 0,000 ­0,205Omagh 1 66,812 2,521 ­2,521 0,926 0,074 ­0,077 0,000Strabane 1 63,712 2,303 ­2,303 0,909 0,091 ­0,095 0,000

­6,349 ­6,314

1−Y i ∙ln 1−P i Z i Y i∙ lnP iZi1−P iZ i P iZ i−Z iZ iY i X i

Page 109: Análisis de regresión para sociólogos

Aplicaciones del análisis de regresión: Modelos de elección binarios

Calculemos chi2

>qchisq(0.95, df=1)

[1] 3.841459

3.841459 < 9,32 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.

4.3.2.4.3Bondad del ajuste.

Una medida de la bondad del ajuste es un 'estadístico­resumen' que indica la precisión con la cual un modelo se aproxima a los datos observados. Evalúa la idoneidad del modelo de regresión logística. 

Podemos estimar la bondad de ajuste mediante la comparación del número de casos observados con los esperados por el modelo estimado (eI porcentaje de distritos que coinciden con la alternativa predicha por el modelo).

En nuestro ejemplo los casos totales son 26 y los predichos por nuestro modelo correctamente (tomando como punto de corte 0,5) son 18, entonces:

X= 1826

∙100%= 69,231% y el modelo seleccionado ajusta los datos con un 69,231% de precisión.

4.3.2.5 Características del modelo Logit.         GRÁFICA Nº91

1. Si Pi varía de 0 a 1,  el  Logit Z i varía de −∞ a   ∞ , esto es, mientras las probabilidades yacen entre 0 y 1, los Logit no tienen límites.2.  Si  bien Z i es  lineal   sobre X,   las  probabilidades Pi sobre

X i no.3.   Podemos   agregar   tantos   regresores   (o   variables independientes) al modelo como nos lo indique la teoría.4.  Si Z i es negativo y se  incrementa en magnitud,  el  odds decrece   de   1   a   0   y   por   el   contrario,   si   se   incrementa positivamente,   el   odds   ratio   se   incrementa   de   1   al   infinito. (gráfica nº91)5.  b1 , la pendiente, mide el cambio en Z i producido por el   cambio   de   1   unidad   en   X,   esto   es,   nos   dice   cómo   los logaritmos de  los odds ratio en favor de Pi= 1 cambian a medida que la variable independiente se incrementa en una unidad.

La intercepción b0 es el valor del logaritmo del odds ratio a favor de Pi= 1 si la variable independiente es cero. 6. Dado un cierto valor de la variable independiente, si deseamos no estimar los odds ratio a favor de Pi= 1sino la probabilidad Pi= 1 , ésta se puede obtener directamente de:

Pi= 1

1e−Z i=

eZ i

1eZ i

una vez que los estimadores de  b0 y  b1 estén disponibles.

7. El modelo Logit asume que el logaritmo de los odds ratio está linealmente relacionado con  X i

4.3.2.6 Algunas observaciones para el modelo Logit.

1. Como usamos el método de máxima verosimilitud, el cual es generalmente un método de muestras grandes, los errores standard estimados son asintóticos. Como resultado, en vez de usar la estadística t para evaluar la significación  estadística de un coeficiente,  usamos  la  estadística z   (normal   standard).  Recordemos que si  el tamaño de la muestra es razonablemente grande, la distribución t converge a la distribución normal.2. En modelos de regresión binario, la bondad del ajuste tiene una importancia secundaria. Lo que importa son los signos esperados de los coeficientes de la regresión y su significación estadística.

103

Page 110: Análisis de regresión para sociólogos

4.3.3 EL MODELO PROBIT        GRÁFICA Nº92

La   función   de   distribución   acumulativa   normal   es también   utilizada   para   explicar   el   comportamiento   de   una variable  dependiente  dicotómica.   El   modelo  de  estimación que así surge se denomina modelo Probit o Normit.

En el modelo Probit, P es una función de distribución acumulada   de   la   normal   standard   que   se   expresa   como integral.

Pi= PY= 1 /X i es   la   probabilidad   de   que   un evento   ocurra   dado   los   valores   de   la(s)   variable(s) independiente(s) X i siendo Z i la variable normal standard 

ZN0,2 tal que si Z i= b0

b1 X i entonces:

Zi= 1

2e−z i

2

2 por lo que PZi= ∫−∞

z i

v dv (118) (119)

es la función de distribución acumulativa normal.

La probabilidad de que un  evento a ocurra Pa está representada por el área definida bajo la curva normal de  −∞ a  Za . 

Ejemplo 27: Satisfacción con la vida y PIB PPA per cápita para 30 países.

La base de datos nº22 nos muestra un set de datos para 30 países, que nos indica los datos del puntaje de satisfacción con la vida, como variable dependiente. El promedio de este indicador es 222,33. Categorizemos esta variable como Y i= 1   si  el país supera esta media y Y i= 0 si no. Como variable independiente X i

tenemos los datos del PIB PPA per cápita para los mismos.

Apliquemos   un   análisis   de   regresión   Probit   de Di sobre X i   (salida nº76):

>a <­ read.table('a.txt')>a1 <­ glm(a$V1~a$V2,family=binomial(link=probit)) >summary(a1)

Nuestra ecuación de regresión Probit resulta: Z i= −4,720,0001594 X i

Obtengamos el valor crítico para z al 95% de significación:

>qnorm(0.975) [1] 1.959964 

Ambos   coeficientes   son estadísticamente 

significativos.

Grafiquemos los valores ajustados del Probit y de Pi sobre la variable independiente que aparecen en la tabla nº54 (gráficas nº92 y nº 93):

104

FUENTES: PIB PPA per cápita 2005: http://www.imf.org/external/data.htm Índice de satisfacción con la vida 2006: Adrian G. White. University of Leicester

BASE DE DATOS Nº22

PAÍS

Australia  243,33 1 39300Austria  260,00 1 39600Bahrain  240,00 1 37200Belarus  133,33 0 12000Belgium  243,33 1 38300

∙ ∙ ∙ ∙∙ ∙ ∙ ∙∙ ∙ ∙ ∙

Spain  233,33 1 34100Sweden  256,67 1 39600Switzerland  273,33 1 40900United Kingdom  236,67 1 37400United States  246,67 1 48000

Y i Di Xi

TABLA Nº54

PAÍS

Australia  1 39300 1,544 0,939Austria  1 39600 1,592 0,944Bahrain  1 37200 1,210 0,887Belarus  0 12000 ­2,807 0,002Belgium  1 38300 1,385 0,917

∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙

Spain  1 34100 0,716 0,763Sweden  1 39600 1,592 0,944Switzerland  1 40900 1,799 0,964United Kingdom  1 37400 1,242 0,893United States  1 48000 2,931 0,998

Y iX i Z i P i

Page 111: Análisis de regresión para sociólogos

Aplicaciones del análisis de regresión: Modelos de elección binarios

>par(bg = "Ivory 2") >plot(a$V2, predict(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores del Probit', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los valores del Probit",   "y el PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

>par(bg = "Ivory 2") >plot(a$V2, fitted(a1), col='3', xlab='PIB PPA per cápita', ylab='Valores ajustados del Probit', cex.lab=1,family='NewCenturySchoolbook') >title(main=paste("Relación entre los valores ajustados del Probit",   "y el PIB PPA per cápita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook') 

        GRÁFICA Nº93    GRÁFICA Nº94

Con el siguiente comando obtenemos los  Pi del modelo de regresión probit.

> fitted.values(a1)

4.3.3.1 Interpretación de los coeficientes.

En este tipo de modelos no resulta posible interpretar directamente las estimaciones de los parámetros, ya que son modelos no lineales. Lo que haremos es fijarnos en el signo de los estimadores. Si el estimador es positivo, significará que incrementos en la variable asociada causan incrementos en P(Y = 1) (aunque desconocemos la magnitud   de   los   mismos).   Por   el   contrario,   si   el   estimador   muestra   un   signo   negativo,   ello   supondrá   que incrementos en la variable asociada causarán disminuciones en P(Y = 1).         El   PIB   PPA   per   cápita   tiene   un   impacto   positivo   en   el   Probit.   Aunque   el   hecho   de   que   valga aproximadamente cero, induce a pensar que un aumento unitario en el PIB PPA per cápita no causará un efecto apreciable sobre su la satisfacción con la vida consideremos que hablamos de dólares, por lo que tiene mas sentido decir que un aumento de diez mil dólares en el PIB PPA per cápita aumentael probit un 1,59.

105

SALIDA Nº76

Call:glm(formula = a$V1 ~ a$V2, family = binomial(link = probit))

Deviance Residuals:     Min       1Q     Median     3Q       Max  ­1.8455  ­0.3624   0.2337   0.4610   1.8103  

Coefficients:                   Estimate     Std. Error    z value   Pr(>|z|)   (Intercept)  ­4.720e+00  1.565e+00    ­3.017   0.00255 **a$V2           1.594e­04   4.891e­05     3.259   0.00112 **­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 40.381  on 29  degrees of freedomResidual deviance: 21.404  on 28  degrees of freedomAIC: 25.404

Number of Fisher Scoring iterations: 7

Page 112: Análisis de regresión para sociólogos

4.3.3.2 Intervalos de confianza para los coeficientes estimados

Los   intervalos   de   confianza   se   obtienen   con   la   siguiente instrucción en R:

>confint(a1)

4.3.3.3 Contraste de hipótesis el modelo.

Al igual que en el modelo Logit, para el Probit el   logaritmo de  la   función  de verosimilitud   se  define como:

∑i=1

N

[Y i ∙lnPi Z i1−Y i ∙ln 1−Pi Z i]

Calculemos el logaritmo de la verosimilitud del modelo nulo para nuestro ejemplo:

−9,195−10,995= −20,19

Calculemos el logaritmo de la verosimilitud del modelo para nuestro ejemplo:

−4,99−5,712= −10,702

Este   último   valor también   lo   obtenemos   con la siguiente instrucción:

>logLik(a1)'log Lik.' ­10.70192 (df=2)

Verifiquemos   que   los datos   entregados   por   las tablas nº64 y nº65 coinciden con   los   entregados   por   la salida nº76:

  −2 ∙−20,19= 40,38 y

−2 ∙−10,702= 21,404

Para evaluar la significación global del modelo (para el conjunto de coeficientes estimados) se utiliza el 

Estadístico de la Razón de Verosimilitud, definido como: ERV= −2lnL0−L = 40,38−21,404= 18,976 (120)

que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que este caso es 1. 

Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.

Calculemos chi2

>qchisq(0.95, df=1)

[1] 3.841459

3.841459 < 18,976 y concluímos que la inclusión del regresor mejora ostensiblemente la verosimilitud del modelo.

106

SALIDA Nº77

2.5% 97.5%(Intercept) ­8.554748e+00 ­2.0497822717

a$V2 7.561091e­05 0.0002806858

TABLA Nº64

PAÍS

Australia  1 0,6 0,4 ­0,511 0,000Austria  1 0,6 0,4 ­0,511 0,000Bahrain  1 0,6 0,4 ­0,511 0,000Belarus  0 0,6 0,4 0,000 ­0,916Belgium  1 0,6 0,4 ­0,511 0,000

∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙

Spain  1 0,6 0,4 ­0,511 0,000Sweden  1 0,6 0,4 ­0,511 0,000Switzerland  1 0,6 0,4 ­0,511 0,000United Kingdom  1 0,6 0,4 ­0,511 0,000United States  1 0,6 0,4 ­0,511 0,000

­9,195 ­10,995

Y i P i 1−P i Y i ∙ lnP i 1−Y i ∙ln 1−P i Z i

TABLA Nº65

PAÍS

Australia  1 39300 1,544 ­1,544 0,939 0,061 ­0,063 0,000Austria  1 39600 1,592 ­1,592 0,944 0,056 ­0,057 0,000Bahrain  1 37200 1,210 ­1,210 0,887 0,113 ­0,120 0,000Belarus  0 12000 ­2,807 2,807 0,002 0,998 0,000 ­0,003Belgium  1 38300 1,385 ­1,385 0,917 0,083 ­0,087 0,000

∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙

Spain  1 34100 0,716 ­0,716 0,763 0,237 ­0,271 0,000Sweden  1 39600 1,592 ­1,592 0,944 0,056 ­0,057 0,000Switzerland  1 40900 1,799 ­1,799 0,964 0,036 ­0,037 0,000United Kingdom  1 37400 1,242 ­1,242 0,893 0,107 ­0,113 0,000United States  1 48000 2,931 ­2,931 0,998 0,002 ­0,002 0,000

­4,990 ­5,712

Y i Xi −Z i 1−P iZ i Y i ∙ lnP i Zi 1−Y i ∙ln 1−P i Z i P iZ i Z i

Page 113: Análisis de regresión para sociólogos

Aplicaciones del análisis de regresión: Modelos de elección binarios

4.3.4 Modelos logit y probit. ¿Cuál es preferible?

Para muchas  aplicaciones,   los  modelos   son muy similares.  La principal  diferencia consiste  en que  la distribución  logística  se aproxima más   lentamente a 0 y  a 1 a medida que el   logit   se  desplaza de ­∞  a  ∞ respectivamente (gráfica nº95). Por consiguiente no existe una razón de peso para elegir entre una u otra.

En la práctica, muchos investigadores eligen el modelo Logit por su comparativamente mayor sencillez matemática (la facilidad de los cálculos cuando no están las tablas necesarias para encontrar la probabilidad acumulada).

>a1 <­ glm(a$V1~a$V2,family=binomial(link=logit)) >summary(a1)

                      GRÁFICA Nº95

Aunque los modelos son similares, debemos tener cuidado al interpretar los coeficientes estimados en ambos modelos.

Pueden ser diferentes. La razón de esto es que aunque las distribuciones logística standard (la base del modelo Logit) y normal standard (la base del modelo probit) tienen media 0 y sus varianzas son diferentes: 1 para 

la normal standard y 

2

3para la distribución logística.

Por   lo   tanto,   si   multiplicamos   el   coeficiente   Probit   por  

3,   obtendremos   aproximadamente   el 

coeficiente Logit.

bProbit ∙

3= bLogit bProbit ∙1,81= bLogit bProbit= 0,55 ∙bLogit (121)

Otros autores sugieren utilizar un coeficiente 0,625. Así:

bLogit ∙ 0,625= bProbit 1,6∙bProbit= bLogit

107

SALIDA Nº76

Call:glm(formula = a$V1 ~ a$V2, family = binomial(link = logit))

Deviance Residuals:     Min       1Q   Median       3Q      Max  ­1.8423  ­0.3925   0.2852   0.4796   1.8135  

Coefficients:              Estimate Std. Error z value Pr(>|z|)   (Intercept) ­7.805e+00  2.900e+00  ­2.691  0.00712 **a$V2         2.634e­04  9.127e­05   2.886  0.00390 **­­­Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 40.381  on 29  degrees of freedomResidual deviance: 21.841  on 28  degrees of freedomAIC: 25.841

Number of Fisher Scoring iterations: 5

Page 114: Análisis de regresión para sociólogos

Bibliografía

5. BIBLIOGRAFÍA1. Bernstein, Stephen; Bernstein Ruth. Elements of Statistics II: Inferential Statistics, Mc Graw­Hill, 1999, Cap. 

19: 'Regression and correlation', págs: 333­378.

2. Canavos, George.  Estadística y Probabilidades (Aplicaciones y Métodos),  McGrawHill, 1988,  Cap. 13: 'Análisis  de regresión: el modelo lineal simple',  págs: 443­502; Cap. 14:    'Análisis  de regresión: el modelo lineal general', págs: 503­571.

3. Chambers, John M. Software for Data Analysis Programming with R , Springer, 2008.

4. Chatterjee, Samprit; Hadi, Ali S. Regression Analysis by Example, Fourth Edition, John Wiley & Sons, 2006, Cap. 2: 'Simple Linear Regression', págs: 21­52; Cap. 3: 'Multiple Linear Regression', págs: 53­84; Cap. 5: 'Qualitative Variables as Predictors', págs: 121­150; Cap. 6: 'Transformation  of Variables', págs: 151­178; Cap. 8: 'The Problem of Correlated Errors ', págs:197­220; Cap. 9: 'Analysis of Collinear Data ', págs: 221­258; Cap. 12: 'Logistic Regression ', págs: 317­340.

5. Crawley, Michael J. The R Book, John Wiley & Sons, 2007. Cap. 10: 'Regression ', págs: 387­448.

6.  Gujarati,  Damodar.  Basic  Econometrics,  Fourth  Edition,  McGrawHill,  2004,  Cap.  9:   'Dummy variable regression models', págs: 297­333; Cap. 10: 'Multicollinearity: what happens if the regressors are correlated?', págs: 341­386; Cap. 11: 'Heteroscedasticity: what happens if the error variance is nonconstant?', págs: 387­440; Cap. 12: 'Autocorrelation: what happens if the error terms are correlated?', págs: 441­505; Cap. 15: 'Qualitative response regression models', págs: 580­635. 

7.   Montgomery,   Douglas   C;   Runger,   George  C.  Applied   Statistics   and   Probability   for   Engineers,  Third Edition,  John Wiley  & Sons,  2003,  Cap 11:   'Simple Linear  Regression and Correlation';  págs:  372­409;  Cap.  12: 'Multiple Linear Regression', págs: 410­467.

8. Salvatore, Dominick; Reagle, Derrick. Theory and problems of Statistics and Econometrics, McGrawHill, 2002, Cap. 6: 'Simple regression analysis', págs: 128­153; Cap 7: 'Multiple regression analysis', págs: 154­180; Cap 8: 'Further techniques and applications in regression analysis', págs: 181­205, Cap 9: 'Problems in regression analysis', págs: 206­227. 

9. Marques de Sá, Joaquim P.  Applied Statistics Using SPSS, STATISTICA, MATLAB and R ,  Second Edition, Springer, 2007, Cap 7: 'Data Regression', págs: 271­328.

10.   Verzani,   John.  Using   R   for   Introductory   Statistics,  Chapman   &   Hall/CRC,   2005,   Cap.   10:   'Linear regression', págs: 264­297.

108

Page 115: Análisis de regresión para sociólogos

Bases de datos

6. ANEXO: BASES DE DATOS.BASE DE DATOS Nº1

PAÍS Y X

Albania 76,2 5323,118

Algeria 71,7 7175,777

Angola 41,7 2828,850

Antigua y Barbuda 73,9 11604,383

Argentina 74,8 13153,390

Armenia 71,7 4048,132

Australia 80,9 31317,558

Austria 79,4 32802,003

Azerbaijan 67,1 4500,316

Bahamas, The 72,3 18725,849

Bahrain 75,2 19748,035

Bangladesh 63,1 1997,948

Barbados 76,6 17169,758

Belarus 68,7 7229,542

Belgium 78,8 31158,621

Belize 75,9 7635,294

Benin 55,4 1147,382

Bhutan 64,7 3329,786

Bolivia 64,7 2839,524

Bosnia and Herzegovina 74,5 5827,264

Botswana 48,1 10866,083

Brazil 71,7 8452,691

Brunei Darussalam 76,7 24825,708

Bulgaria 72,7 9204,530

Burkina Faso 51,4 1326,183

Burundi 48,5 753,236

Côte d'Ivoire 47,4 1492,703

Cambodia 58 2116,041

Cameroon 49,8 2283,608

Canada 80,3 34550,246

Cape Verde 71 6287,127

Central African Republic 43,7 1163,041

Chad 50,4 1744,093

Chile 78,3 11536,519

China 72,5 6193,421

Colombia 72,3 7309,397

Comoros 64,1 1716,934

Congo, Democratic Republic of 45,8 675,290

Congo, Republic of 54 1379,278

Costa Rica 78,5 10316,297

Croatia 75,3 12364,02

Cyprus 79 20668,584

Czech Republic 75,9 19488,401

Denmark 77,9 34717,573

Djibouti 53,9 1957,463

Dominica 75,6 6250,069

Dominican Republic 71,5 7042,452

Ecuador 74,7 4296,540

Egypt 70,7 4281,929

El Salvador 71,3 4525,095

Equatorial Guinea 50,4 50473,514

Eritrea 56,6 916,821

Estonia 71,2 16461,257

Ethiopia 51,8 859,202

Fiji 68,3 6282,052

Finland 78,9 30817,570

i

Page 116: Análisis de regresión para sociólogos

France 80,2 29019,288

Gabon 56,2 6976,653

Gambia, The 58,8 1999,430

Georgia 70,7 3037,713

Germany 79,1 30149,652

Ghana 59,1 2600,915

Greece 78,9 21529,166

Grenada 68,2 8410,763

Guatemala 69,7 4135,536

Guinea 54,8 1985,822

Guinea­Bissau 45,8 755,526

Guyana 65,2 4680,530

Haiti 59,5 1687,716

Honduras 69,4 2793,077

Hong Kong SAR 81,9 32292,182

Hungary 72,9 16627,455

Iceland 81,5 35686,217

India 63,7 3315,702

Indonesia 69,7 3939,515

Iran, Islamic Republic of 70,2 8065,119

Ireland 78,4 40002,741

Israel 80,3 22944,118

Italy 80,3 29218,079

Jamaica 72,2 4470,846

Japan 82,3 31405,673

Jordan 71,9 4614,515

Kazakhstan 65,9 8252,367

Kenya 52,1 1108,224

Korea 77,9 22665,654

Kuwait 77,3 16297,267

Kyrgyz Republic 65,6 2061,020

Lao People's Democratic Republic 63,2 2049,032

Latvia 72 13059,487

Lebanon 71,5 6205,325

Lesotho 42,6 2162,916

Libya 73,4 11353,605

Lithuania 72,5 14337,639

Luxembourg 78,4 66820,651

Macedonia, Former Yugoslav Republic of 73,8 7749,249

Madagascar 58,4 910,766

Malawi 46,3 595,857

Malaysia 73,7 11159,608

Maldives 67 7639,500

Mali 53,1 1084,444

Malta 79,1 20015,440

Mauritania 63,2 2307,076

Mauritius 72,4 13028,798

Mexico 75,6 10090,420

Moldova 68,4 2261,605

Mongolia 65,9 2045,544

Morocco 70,4 4578,292

Mozambique 42,8 1335,140

Myanmar 60,8 1417,007

Namibia 51,6 6657,765

Nepal 62,6 1471,227

Netherlands 79,2 30573,938

New Zealand 79,8 24881,583

Nicaragua 71,9 2778,888

Niger 55,8 896,472

Nigeria 46,5 1187,952

Norway 79,8 41940,513

Oman 75 16299,602

Pakistan 64,6 2549,284

Panama 75,1 7052,058

ii

Page 117: Análisis de regresión para sociólogos

Bases de datos

Papua New Guinea 56,9 2414,236

Paraguay 71,3 4663,165

Peru 70,7 5872,232

Philippines 71 4770,234

Poland 75,2 13439,814

Portugal 77,7 19388,399

Qatar 75 29606,696

Romania 71,9 8257,719

Russia 65 11209,393

Rwanda 45,2 1430,504

Samoa 70,8 6389,850

Sao Tome and Principe 64,9 1638,174

Saudi Arabia 72,2 14592,097

Senegal 62,3 1914,089

St. Kitts and Nevis 70 15049,644

St. Lucia 73,1 5516,483

St. Vincent and the Grenadines 71,1 7042,385

Seychelles 72,7 12135,151

Sierra Leone 41,8 900,777

Singapore 79,4 28227,954

Slovak Republic 74,2 16110,216

Slovenia 77,4 21694,983

Solomon Islands 63 1922,463

South Africa 50,8 11345,534

Spain 80,5 24803,458

Sri Lanka 71,6 4144,734

Sudan 57,4 2416,980

Suriname 69,6 5725,517

Swaziland 40,9 5181,153

Sweden 80,5 29536,787

Switzerland 81,3 33168,045

Syrian Arab Republic 73,6 3870,846

Tajikistan 66,3 1373,340

Tanzania 51 720,154

Thailand 69,6 8542,395

Togo 57,8 1599,533

Tonga 72,8 7689,927

Trinidad and Tobago 69,2 13957,584

Tunisia 73,5 8223,289

Turkey 71,4 7958,134

Turkmenistan 62,6 7853,975

Uganda 49,7 1817,451

Ukraine 67,7 7181,610

United Arab Emirates 78,3 23722,875

United Kingdom 79 30277,126

United States 77,9 41571,061

Uruguay 75,9 9619,364

Uzbekistan 66,8 1834,398

Vanuatu 69,3 3415,355

Venezuela 73,2 5801,392

Vietnam 73,7 2782,199

Yemen 61,5 745,176

Zambia 40,5 911,352

Zimbabwe 40,9 2412,635

BASE DE DATOS Nº2

CONDADO Y X

Adams County 0,285 11,324

Boone County 0,150 9,790

DeKalb County 0,428 10,454

DuPage County 0,277 4,725

Kane County 0,538 7,782

iii

Page 118: Análisis de regresión para sociólogos

Kankakee County 1,121 12,419

Kendall County 0,104 3,669

La Salle County 0,143 10,099

Lake County 0,504 6,167

Macon County 1,371 15,390

Madison County 0,610 11,113

McHenry County 0,137 5,265

McLean County 0,782 11,615

Ogle County 0,109 7,857

Peoria County 2,290 13,079

Rock Island County 0,952 12,816

Sangamon County 1,800 12,667

St. Clair County 2,436 15,506

Tazewell County 0,267 7,789

Vermilion County 1,762 17,839

Whiteside County 0,237 10,982

Will County 0,504 5,821

Winnebago County 2,329 13,624

BASE DE DATOS Nº3

AÑO Y X

1955 31,27 2,6

1956 29,85 2,3

1957 29,72 1,9

1958 30,82 2,2

1959 26,76 2,3

1960 24,85 1,6

1961 22,32 1,3

1962 20,42 1,2

1963 18,90 1,2

1964 17,47 1,1

1965 17,11 1,1

1966 17,38 1,2

1967 16,14 1,2

1968 16,43 1,2

1969 16,37 1,2

1970 17,06 1,2

1971 17,58 1,3

1972 19,37 1,5

1973 20,02 1,3

1974 19,72 1,4

1975 21,32 2,0

1976 21,10 2,2

1977 21,89 2,1

1978 21,89 2,4

1979 22,49 2,1

1980 22,17 2,0

1981 21,91 2,3

1982 22,61 2,4

1983 28,71 2,7

1984 27,47 2,7

1985 25,81 2,6

1986 27,60 2,7

1987 25,44 2,9

1988 23,70 2,5

1989 21,38 2,2

1990 20,29 2,0

1991 20,48 2,0

1992 22,10 2,1

1993 22,08 2,4

1994 22,88 2,8

1995 23,11 3,1

iv

Page 119: Análisis de regresión para sociólogos

Bases de datos

1996 24,07 3,3

1997 25,72 3,4

1998 36,07 4,2

1999 36,12 4,8

2000 34,87 4,9

2001 33,86 5,2

2002 34,80 5,5

2003 37,51 5,5

2004 35,20 4,9

BASE DE DATOS Nº4

ESTADO Y X

Alabama 8,3 37

Alaska 5,4 30

Arizona 7,5 33

Arkansas 7,3 35

California 6,8 31

Colorado 3,3 28

Connecticut 3,1 28

Delaware 4,9 34

Florida 6,2 35

Georgia 6,4 36

Hawaii 1,6 27

Idaho 2,5 21

Illinois 6,1 31

Indiana 5,8 32

Iowa 1,8 26

Kansas 4,6 28

Kentucky 4,0 33

Louisiana 12,4 41

Maine 1,7 31

Maryland 9,7 32

Massachusetts 2,9 28

Michigan 7,1 32

Minnesota 2,4 25

Mississippi 7,7 45

Missouri 6,3 32

Montana 1,8 25

Nebraska 2,8 25

Nevada 9,0 34

New Hampshire 1,0 25

New Jersey 4,9 28

New Mexico 6,8 37

New York 4,8 34

North Carolina 6,1 35

North Dakota 1,3 24

Ohio 4,7 33

Oklahoma 5,8 34

Oregon 2,3 29

Pennsylvania 5,9 31

Rhode Island 2,6 35

South Carolina 8,3 40

South Dakota 1,2 27

Tennessee 6,8 35

Texas 5,9 33

Utah 1,8 18

Vermont 1,9 29

Virginia 5,2 29

Washington 3,0 29

West Virginia 4,1 31

Wisconsin 3,0 28

Wyoming 1,7 27

v

Page 120: Análisis de regresión para sociólogos

BASE DE DATOS Nº5

COMUNA Y X

Santiago 7,3 13,1

Cerrillos 8,3 10,4

Cerro Navia 17,5 9,1

Conchalí 8,0 10,1

El Bosque 15,8 9,7

Estación Central 7,3 10,5

Huechuraba 14,5 9,9

Independencia 6,0 11,3

La Cisterna 8,6 11,6

La Florida 9,6 11,3

La Granja 14,2 9,5

La Pintana 17,2 8,8

La Reina 7,8 12,4

Las Condes 2,3 14,3

Lo Barnechea 8,1 11,1

Lo Espejo 20,1 9,7

Lo Prado 11,6 10,1

Macul 13,4 10,9

Maipú 9,1 11,4

Ñuñoa 4,3 13,4

Pedro Aguirre Cerda 6,3 9,8

Peñalolén 8,7 9,9

Providencia 3,5 13,8

Pudahuel 7,1 10,3

Puente Alto 10,6 10,7

Quinta Normal 10,8 10,5

Quilicura 6,7 11,1

Recoleta 12,4 10,2

Renca 19,2 10,0

San Bernardo 20,9 9,7

San Joaquín 7,4 10,7

San Miguel 2,5 12,3

San Ramón 16,7 9,6

Vitacura 4,4 14,6

BASE DE DATOS Nº6

COMUNA Y X X X

Santiago 13,1 7,3 283 6,2

Cerrillos 10,4 8,3 259 9,3

Cerro Navia 9,1 17,5 215 9,4

Conchalí 10,1 8,0 236 4,9

El Bosque 9,7 15,8 231 10,3

Estación Central 10,5 7,3 251 8,8

Huechuraba 9,9 14,5 238 9,1

Independencia 11,3 6,0 225 5,9

La Cisterna 11,6 8,6 237 7,8

La Florida 11,3 9,6 259 5,7

La Granja 9,5 14,2 240 10,2

La Pintana 8,8 17,2 233 11

La Reina 12,4 7,8 286 8,3

Las Condes 14,3 2,3 314 3,8

Lo Barnechea 11,1 8,1 296 3,4

Lo Espejo 9,7 20,1 205 6,8

Lo Prado 10,1 11,6 209 9,5

Macul 10,9 13,4 250 6,5

Maipú 11,4 9,1 261 7,3

Ñuñoa 13,4 4,3 265 5,3

vi

Page 121: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº6

Pedro Aguirre Cerda 9,8 6,3 235 11,6

Peñalolén 9,9 8,7 244 6,5

Providencia 13,8 3,5 319 5,5

Pudahuel 10,3 7,1 220 6,1

Puente Alto 10,7 10,6 246 6,3

Quinta Normal 10,5 10,8 237 8,9

Quilicura 11,1 6,7 243 7,9

Recoleta 10,2 12,4 242 6,6

Renca 10,0 19,2 250 6,7

San Bernardo 9,7 20,9 246 8,6

San Joaquín 10,7 7,4 233 7,4

San Miguel 12,3 2,5 237 4,6

San Ramón 9,6 16,7 245 7,9

Vitacura 14,6 4,4 325 3,2

BASE DE DATOS Nº7

PAÍS Y X X

Afghanistan 43,6 1054 0,35

Albania 76,5 7041 0,89

Algeria 72,2 7740 0,75

Angola 46,5 5385 0,67

Argentina 75,2 13238 0,95

Armenia 73,6 5693 0,91

Australia 81,4 34923 0,99

Austria 79,9 37370 0,96

Azerbaijan 70 7851 0,88

Bahamas 73,2 20253 0,88

Bahrain 75,6 29723 0,89

Bangladesh 65,7 1241 0,53

Barbados 77 17956 0,98

Belarus 69 10841 0,96

Belgium 79,5 34935 0,97

Belize 76 6734 0,76

Benin 61 1312 0,45

Bhutan 65,7 4837 0,53

Bolivia 65,4 4206 0,89

Bosnia and Herzegovina 75,1 7764 0,87

Botswana 53,4 13604 0,79

Brazil 72,2 9567 0,89

Brunei Darussalam 77 50200 0,89

Bulgaria 73,1 11222 0,93

Burkina Faso 52,7 1124 0,3

Burundi 50,1 341 0,56

Côte d'Ivoire 56,8 1690 0,45

Cambodia 60,6 1802 0,7

Cameroon 50,9 2128 0,63

Canada 80,6 35812 0,99

Cape Verde 71,1 3041 0,79

Central African Republic 46,7 713 0,42

Chad 48,6 1477 0,33

Chile 78,5 13880 0,92

China 72,9 5383 0,85

Colombia 72,7 8587 0,88

Comoros 64,9 1143 0,66

Congo 53,5 3511 0,74

Congo (Democratic Republic of the) 47,6 298 0,61

Costa Rica 78,7 10842 0,88

Croatia 76 16027 0,92

Cuba 78,5 6876 0,99

Cyprus 79,6 24789 0,91

Czech Republic 76,4 24144 0,94

vii

Page 122: Análisis de regresión para sociólogos

BASE DE DATOS Nº7

Denmark 78,2 36130 0,99

Djibouti 55,1 2061 0,55

Dominican Republic 72,4 6706 0,84

Ecuador 75 7449 0,87

Egypt 69,9 5349 0,7

El Salvador 71,3 5804 0,79

Equatorial Guinea 49,9 30627 0,79

Eritrea 59,2 626 0,54

Estonia 72,9 20361 0,96

Ethiopia 54,7 779 0,4

Fiji 68,7 4304 0,87

Finland 79,5 34526 0,99

France 81 33674 0,98

Gabon 60,1 15167 0,84

Gambia 55,7 1225 0,44

Georgia 71,6 4662 0,92

Germany 79,8 34401 0,95

Ghana 56,5 1334 0,62

Greece 79,1 28517 0,98

Grenada 75,3 7344 0,88

Guatemala 70,1 4562 0,72

Guinea 57,3 1140 0,36

Guinea­Bissau 47,5 477 0,55

Guyana 66,5 2782 0,94

Haiti 61 1155 0,59

Honduras 72 3796 0,81

Hong Kong, China (SAR) 82,2 42306 0,88

Hungary 73,3 18755 0,96

Iceland 81,7 35742 0,98

India 63,4 2753 0,64

Indonesia 70,5 3712 0,84

Iran (Islamic Republic of) 71,2 10955 0,79

Ireland 79,7 44613 0,99

Israel 80,7 26315 0,95

Italy 81,1 30353 0,97

Jamaica 71,7 6079 0,83

Japan 82,7 33632 0,95

Jordan 72,4 4901 0,87

Kazakhstan 64,9 10863 0,97

Kenya 53,6 1542 0,69

Korea (Republic of) 79,2 24801 0,99

Kuwait 77,5 47812 0,87

Kyrgyzstan 67,6 2006 0,92

Lao People's Democratic Republic 64,6 2165 0,68

Latvia 72,3 16377 0,96

Lebanon 71,9 10109 0,86

Lesotho 44,9 1541 0,75

Liberia 57,9 362 0,56

Libyan Arab Jamahiriya 73,8 14364 0,9

Lithuania 71,8 17575 0,97

Luxembourg 79,4 79485 0,98

Macedonia (the Former Yugoslav Rep. of) 74,1 9096 0,88

Madagascar 59,9 932 0,68

Malawi 52,4 761 0,69

Malaysia 74,1 13518 0,85

Maldives 71,1 5196 0,89

Mali 48,1 1083 0,33

Malta 79,6 23080 0,89

Mauritania 56,6 1927 0,54

Mauritius 72,1 11296 0,84

Mexico 76 14104 0,89

Moldova 68,3 2551 0,9

Mongolia 66,2 3236 0,91

viii

Page 123: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº7

Montenegro 74 11699 0,89

Morocco 71 4108 0,57

Mozambique 47,8 802 0,48

Myanmar 61,2 904 0,79

Namibia 60,4 5155 0,81

Nepal 66,3 1049 0,58

Netherlands 79,8 38694 0,99

New Zealand 80,1 27336 0,99

Nicaragua 72,7 2570 0,76

Niger 50,8 627 0,28

Nigeria 47,7 1969 0,66

Norway 80,5 53433 0,99

Oman 75,5 22816 0,79

Pakistan 66,2 2496 0,49

Panama 75,5 11391 0,89

Papua New Guinea 60,7 2084 0,52

Paraguay 71,7 4433 0,87

Peru 73 7836 0,89

Philippines 71,6 3406 0,89

Poland 75,5 15987 0,95

Portugal 78,6 22765 0,93

Qatar 75,5 74882 0,89

Romania 72,5 12369 0,92

Russian Federation 66,2 14690 0,93

Rwanda 49,7 866 0,61

Saint Lucia 73,6 9786 0,89

Saint Vincent and the Grenadines 71,4 7691 0,82

Samoa 71,4 4467 0,91

Sao Tome and Principe 65,4 1638 0,81

Saudi Arabia 72,7 22935 0,83

Senegal 55,4 1666 0,42

Serbia 73,9 10248 0,89

Sierra Leone 47,3 679 0,4

Singapore 80,2 49704 0,91

Slovakia 74,6 20076 0,93

Slovenia 78,2 26753 0,97

Solomon Islands 65,8 1725 0,68

South Africa 51,5 9757 0,84

Spain 80,7 31560 0,98

Sri Lanka 74 4243 0,83

Sudan 57,9 2086 0,54

Suriname 68,8 7813 0,85

Swaziland 45,3 4789 0,73

Sweden 80,8 36712 0,97

Switzerland 81,7 40658 0,94

Syrian Arab Republic 74,1 4511 0,77

Tajikistan 66,4 1753 0,9

Tanzania (United Republic of) 55 1208 0,67

Thailand 68,7 8135 0,89

Timor­Leste 60,7 717 0,55

Togo 62,2 788 0,53

Tonga 71,7 3748 0,92

Trinidad and Tobago 69,2 23507 0,86

Tunisia 73,8 7520 0,77

Turkey 71,7 12955 0,83

Turkmenistan 64,6 4953 0,91

Uganda 51,9 1059 0,7

Ukraine 68,2 6914 0,96

United Arab Emirates 77,3 54626 0,84

United Kingdom 79,3 35130 0,96

United States 79,1 45592 0,97

Uruguay 76,1 11216 0,96

Uzbekistan 67,6 2425 0,89

ix

Page 124: Análisis de regresión para sociólogos

BASE DE DATOS Nº7

Vanuatu 69,9 3666 0,73

Venezuela  73,6 12156 0,92

Viet Nam 74,3 2600 0,81

Yemen 62,5 2335 0,57

Zambia 44,5 1358 0,68

BASE DE DATOS Nº8

ESTADO Y X X

Alabama  90 15,73 37

Alaska  73 15,61 30

Arizona  104 18,47 33

Arkansas  93 15,65 35

California  96 15,24 31

Colorado  82 19,47 28

Connecticut  70 17,21 28

Delaware  93 18,26 34

District of Columbia  128 13,68 62

Florida  97 17,75 35

Georgia  95 14,36 36

Hawaii  93 16,11 27

Idaho  62 16,56 21

Illinois  87 18,95 31

Indiana  73 18,92 32

Iowa  55 20,50 26

Kansas  69 20,63 28

Kentucky  76 17,59 33

Louisiana  87 19,04 41

Maine  52 17,02 31

Maryland  91 18,33 32

Massachusetts  60 20,16 28

Michigan  75 19,57 32

Minnesota  50 19,45 25

Mississippi  103 17,18 45

Missouri  74 19,53 32

Montana  60 23,15 25

Nebraska  59 21,64 25

Nevada  113 18,69 34

New Hampshire  47 18,41 25

New Jersey  90 17,99 28

New Mexico  103 20,00 37

New York  91 19,13 34

North Carolina  95 17,27 35

North Dakota  42 24,67 24

Ohio  74 17,62 33

Oklahoma  86 15,42 34

Oregon  79 15,95 29

Pennsylvania  60 18,26 31

Rhode Island  67 23,22 35

South Carolina  89 14,68 40

South Dakota  54 23,22 27

Tennessee  89 14,04 35

Texas  101 17,57 33

Utah  53 11,79 18

Vermont  44 21,46 29

Virginia  72 18,28 29

Washington  75 16,26 29

West Virginia  67 20,12 62

Wisconsin  55 18,70 31

Wyoming  77 18,99 28

x

Page 125: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº9

Año Y X

1960 328200 107840

1961 336000 106670

1962 366800 110860

1963 408300 116470

1964 472800 130390

1965 496900 138690

1966 561200 157990

1967 659800 202910

1968 783600 262840

1969 878500 298850

1970 928400 349860

1971 948200 387700

1972 887200 376290

1973 928800 384220

1974 977100 442400

1975 1009600 470500

1976 966000 427810

1977 977700 412610

1978 1004100 426930

1979 1112800 480700

1980 1131700 565840

1981 1087800 592910

1982 1062400 553130

1983 1007900 506570

1984 1032200 485010

1985 1102900 497870

1986 1224137 542775

1987 1288674 517704

1988 1432900 542970

1989 1564800 578330

1990 1635900 639270

1991 1661700 687730

1992 1610800 672480

1993 1563100 659870

1994 1539300 618950

1995 1472400 580510

1996 1394200 535590

1997 1354189 498534

1998 1240754 446625

1999 1152075 409371

2000 1160002 408016

2001 1228391 423557

2002 1246646 420806

2003 1261226 414235

2004 1237851 401470

2005 1235859 417438

2006 1192809 447403

2007 1095769 445125

BASE DE DATOS Nº10

Y X

Agencia

Adelanto Police Dept 532,7 2639,4

Agoura Hills 213,4 1515,3

Alameda County Sheriff Dept 562,1 2357,2

Alameda Police Dept 291 2805

Albany Police Dept 283,2 4883,9

Alhambra Police Dept 324,9 2416,5

Aliso Viejo 74,4 1261,7

xi

Page 126: Análisis de regresión para sociólogos

BASE DE DATOS Nº10

American Canyon 299,1 2539,1

Anaheim Police Dept 424,6 2625,2

Anderson Police Dept 423,4 4120,8

Antioch Police Dept 843,4 3061,6

Apple Valley 377,8 2670,9

Arcadia Police Dept 273,8 2991,2

Arcata Police Dept 301,3 3095,3

Arroyo Grande Police Dept 157,7 2220,2

Artesia 517,9 2077,4

Arvin Police Dept 689,5 4222,5

Atascadero Police Dept 385,9 2057,2

Atwater Police Dept 371 3677,7

Auburn Police Dept 374,8 2853,4

Avenal 256,2 774,4

Azusa Police Dept 434,6 2685,5

Bakersfield Police Dept 615,2 5037,9

Baldwin Park Police Dept 356 2424,5

Banning Police Dept 692,9 2549,5

Barstow Police Dept 1406,7 5046,5

Beaumont Police Dept 152,9 2193,2

Bell Police Dept 467,7 1552,6

Bell Gardens Police Dept 479,6 1896,5

Bellflower 680,1 3385,9

Belmont Police Dept 97,5 1450,9

Benicia Police Dept 214,7 1789,5

Berkeley Police Dept 630,5 7021,7

Beverly Hills Police Dept 446,9 3327,4

Blythe Police Dept 436,2 2612,8

Brawley Police Dept 282,4 5126,6

Brea Police Dept 197,2 3875,4

Brentwood Police Dept 237,4 2433,1

Buena Park Police Dept 396,8 2576

Burbank Police Dept 261,3 2638,5

Burlingame Police Dept 207,4 3084,9

Butte County Sheriff Department 230,9 1598,6

Calabasas 70,5 1731,8

Calaveras County Sheriff Department 107,9 1422,7

Calexico Police Dept 241,5 3283

California City Police Dept 453,8 2239,1

Camarillo 148,6 1679,4

Campbell Police Dept 269,8 4045

Canyon Lake 199,2 1472,6

Carslbad Police Dept 334,5 2575,3

Carpinteria 209,1 1695

Carson 724,9 2760,7

Cathedral City Police Dept 378,1 3312,1

Ceres Dept Of Public Safety 442,1 4732,1

Cerritos 263 3583,5

Chico Police Dept 518,3 3303,4

Chino Police Dept 287,5 3097,9

Chino Hills 96,8 1452,6

Chowchilla Police Dept 111,9 1726

Chula Vista Police Dept 421,1 3328

Claremont Police Dept 246,8 2766

Clayton Police Dept 80 1466,4

Clearlake Police Dept 442,7 4321,7

Clovis Police Dept 143,6 3070,5

Coachella Police Dept 782,3 4041

Coalinga Police Dept 522,4 2797,6

Colton Police Dept 471,8 3715

Commerce 1089,8 8316,3

Compton Police Dept 1690,8 2922,2

Concord Police Dept 402,6 4089,9

xii

Page 127: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº10

Contra Costa County Sheriff Department 428,5 2253,5

Corcoran Police Dept 189,8 910,8

Corona Police Dept 221,5 2619,9

Coronado Police Dept 96,7 1989,7

Costa Mesa Police Dept 234,9 3037,3

Covina Police Dept 450,4 3846,9

Cudahy 573,1 2236,2

Culver City Police Dept 458,5 3696,1

Cupertino 100 1579,2

Cypress Police Dept 201,1 1925

Daly City Police Dept 291,2 2097,7

Dana Point 130,4 1531,2

Danville 53 1549,3

Davis Police Dept 276 3463,5

Delano Police Dept 541,8 3579,2

Desert Hot Springs 1155,3 7191,3

Diamond Bar 229,5 1825,6

Dinuba Police Dept 662,5 4762,6

Dixon Police Dept 408,2 4585,4

Downey Police Dept 470,6 3553,4

Duarte 377,4 2350

Dublin 173,7 1728

East Palo Alto Police Dept 785,9 2071,7

El Cajon Police Dept 541,1 4328,5

El Centro Police Dept 649,5 5059

El Cerrito Police Dept 786,2 5085,7

El Dorado County Sheriff Department 161,8 1394,5

El Monte Police Dept 552,4 2262,8

El Segundo Police Dept 217,7 4693,6

Encinitas 267,6 1925,1

Escondido Police Dept 492,4 3244,4

Eureka Police Dept 998,1 5984,9

Exeter Police Dept 203,7 3095

Fairfield Police Dept 595,7 4101,9

Farmersville Police Dept 538,2 2377,9

Fillmore 341,7 2010,6

Folsom Police Dept 143,4 2333,1

Fontana Police Dept 507,7 2352,5

Fortuna Police Dept 212,2 3332,7

Foster City Police Dept 76 1661

Fountain Valley Police Dept 198,3 2578

Fremont Police Dept 301 2569,6

Fresno County Sheriff Department 329,5 3464,3

Fresno Police Dept 644,5 4441

Fullerton Police Dept 348,9 3083,9

Galt Police Dept 392,2 3705,1

Garden Grove Police Dept 387,6 2495

Gardena Police Dept 747,3 2381,9

Gilroy Dept Of Public Safety 508,7 4085,7

Glendale Police Dept 187,5 1833,1

Glendora Police Dept 164,4 2958,7

Goleta 181,2 1289,2

Grand Terrace 178,4 1962,1

Grass Valley Police Dept 526,9 2938,1

Greenfield Police Dept 911,4 3728,3

Grover Beach Police Dept 697,4 2162,8

Half Moon Bay Police Dept 169,8 2069,5

Hanford Police Dept 303,9 3368,6

Hawaiian Gardens Police Dept 960,7 2624,1

Hawthorne Police Dept 893,6 2326,9

Hayward Police Dept 626,6 3319,3

Healdsburg Police Dept 173,4 2546,8

Hemet Police Dept 666,9 4339,7

xiii

Page 128: Análisis de regresión para sociólogos

BASE DE DATOS Nº10

Hercules Police Dept 198,9 1911,4

Hermosa Beach Police Dept 340,5 2805,4

Hesperia 371,2 2326,2

Highland 618,1 2540,8

Hillsborough Police Dept 18,7 888,1

Hollister Police Dept 541,7 2465,7

Humboldt County Sheriff Department 199,9 1313,8

Huntington Beach Police Dept 192,8 2068,5

Huntington Park Police Dept 968,4 4459,7

Imperial County Sheriff Department 338,1 3014,2

Imperial Police Dept 40 1663,2

Indio Police Dept 427,3 3455,1

Inglewood Police Dept 899,1 2592,4

Irvine Police Police 70,8 1612,9

Kerman Police Dept 218,8 2743,3

Kern County Sheriff Department 571,2 3276,3

King City Police Dept 676,3 3096,9

Kings County Sheriff Department 337,7 1374,6

Kingsburg Police Dept 121,9 3849,2

La Canada­Flintridge 118,6 2044,7

La Habra Police Dept 352,5 2447,3

Lamesa Police Dept 450,7 4231

La Mirada 229,3 2153,8

La Palma Police Dept 284,4 1870,9

La Puente 533,9 1806,1

La Quinta 469,3 3637,8

La Verne Police Dept 244,4 2447,2

Lafayette 100 1731,5

Laguna Beach Police Dept 202,4 2044,2

Laguna Hills 171 1998,6

Laguena Niguel 72,3 1022,4

Laguna Woods 16,4 502,4

Lake County Sheriff Department 318,8 1635

Lake Elsinore 383,8 3456,6

Lake Forest 121,8 1377,7

Lakewood 570,3 3092,2

Lancaster 909,1 3506

Lawndale 770,6 1553,7

Lemon Grove 670,3 2491,5

Lemoore Police Dept 336,7 3124,3

Lincoln Police Dept 114,3 965,4

Lindsay Police Dept 686,5 3716,2

Livermore Police Dept 210,6 2578,1

Livingston Police Dept 730,1 3003,2

Lodi Police Dept 363,8 4369

Loma Linda 129,4 2832,6

Lomita 603,7 2088,7

Lompoc Police Dept 685,2 2194,1

Long Beach Police Dept 722,8 2738,4

Los Alamitos Police Dept 290 2899,8

Los Altos Police Dept 65,6 1067,4

Los Angeles County Sheriff Department 784,3 2067,2

Los Angeles Police Dept 718,4 2621,3

Los Banos Dept Of Public Safety 393,1 2618,8

Los Gatos Police Dept 123,6 2206,9

Lynwood 1012,4 2593,5

Madera County Sheriff Department 423,5 1751,5

Madera Police Dept 730,7 2239,6

Malibu 218,7 2435,3

Manhattan Beach Police Dept 145,7 2771,1

Manteca Police Dept 367,5 4019,3

Marin County Sheriff Department 199,3 1260

Marina Dept Of Public Safety 277 3246,9

xiv

Page 129: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº10

Martinez Police Dept 343,3 3326

Marysville Police Dept 1403 4864,3

Maywood Police Dept 607,7 1548,8

Mendocino County Sheriff Department 527,5 1184

Menlo Park Police Dept 247,8 1875

Merced County Sheriff Department 540,7 2685,3

Merced Police Dept 781,5 4887,1

Mill Valley Police Dept 120,5 1385,5

Millbrae Police Dept 190,9 1684,2

Milpitas Police Dept 277,5 3262,1

Mission Viejo 86,2 1380,7

Modesto Police Dept 716,1 5781,8

Monrovia Police Dept 353,9 2951,7

Montclair Police Dept 654,7 6536,1

Montebello Police Dept 383,7 3088,6

Monterey County Sheriff Department 222,5 1983,6

Monterey Police Dept 578,9 4453,5

Monterey Park Police Dept 313,7 2064,9

Moorpark 113,1 1597

Moraga Police Dept 88,1 1497

Moreno Valley 538,2 3348,8

Morgan Hill Police Dept 230,7 2435,8

Morro Bay Police Dept 207,9 1514,9

Mountain View Police Dept 340 2170

City Of Murrieta Police Dept 120,3 1993,9

Napa County Sheriff Department 291,9 2076,8

Napa Police Dept 382,6 3123,6

National City Police Dept 683,9 3498,6

Nevada County Sheriff Department 197,1 891,3

Newark Police Dept 536,1 4119,1

Newman Police Dept 345 3162,1

Newport Beach Police Dept 214 2771,9

Norco 345,8 3429,3

Norwalk 576,3 2497,9

Novato Police Dept 301,5 2289,4

Oakdale Police Dept 246,4 5233,8

Oakland Police Dept 1917,8 5967,6

Oakley 399,3 2518,6

Oceanside 546,8 2756,8

Ontario Police Dept 486,5 3332,6

Orange County Sheriff Department 161,9 1347,3

Orange Police Dept 195,9 2244,9

Orinda 70,5 1669,5

Oroville Police Dept 1458,1 7570,5

Oxnard Police Dept 453,4 2293,9

Pacific Grove Police Dept 155,7 2626,6

Pacifica Police Dept 199,1 1683,9

Palm Desert 192,1 6083,1

Palm Springs Police Dept 632,4 7249,4

Palmdale 733,9 3027

Palo Alto Police Dept 110,9 2495,8

Palos Verdes Estates Police Dept 28,9 1178,8

Paradise Police Dept 208,5 2861,9

Paramount 854,7 3426,1

Parlier Police Dept 926 3278,3

Pasadena Police Dept 511,2 2957

Paso Robles Police Dept 372,1 3267,8

Patterson Police Dept 265 3109,1

Perris 625,6 4201,4

Petaluma Police Dept 413,7 1892,9

Pico Rivera 397,2 2418,9

Piedmont Police Dept 95,4 1975,6

Pinole Police Dept 594,4 4202,9

xv

Page 130: Análisis de regresión para sociólogos

BASE DE DATOS Nº10

Pittsburg Police Dept 391,2 3758,2

Placentia Police Dept 178,5 1407,9

Placer County Sheriff Department 227,8 1784

Placerville Police Dept 700,1 2317,1

Pleasant Hill Police Dept 376,1 4835,6

Pleasanton Police Dept 94,4 1939,8

Pomona Police Dept 795,9 3358,4

Port Hueneme Police Dept 426,5 1825,4

Porterville Police Dept 619,9 5038,5

Poway 212 1561,2

Rancho Cucamonga 211,6 2211,8

Rancho Mirage 156,1 6170,1

Rancho Palos Verdes 98 1283,3

Rancho Santa Margari 58,8 1054,4

Red Bluff Police Dept 970,9 4790,6

Redding Police Dept 498,2 2896,2

Redlands Police Dept 424,6 3510,5

Redondo Beach Police Dept 301,9 2406,2

Redwood City Police Dept 457,5 2300

Reedley Police Dept 588,8 3026,2

Rialto Police Dept 743,6 2270,8

Richmond Police Dept 1190,6 5374,2

Ridgecrest Police Dept 576,8 2356,6

Ripon Police Dept 245,2 2608,5

Riverbank 303,4 3967,6

Riverside County Sheriff Department 407 2709,7

Riverside Police Dept 632,5 3726,5

Rocklin Police Dept 193 2094,5

Rohnert Park Dept Of Public Safety 579,9 2322

Rosemead 456,6 2524,1

Roseville Police Dept 347,1 3551,7

Sacramento County Sheriff Department 465,4 2147,8

Sacramento Police Dept 1113,5 5297,8

Salinas Police Dept 794,5 4735,3

San Anselmo Police Dept 216,8 2342,6

San Bernardino County Sheriff Department 445,2 2274,1

San Bernardino Police Dept 1070,7 5024,7

San Bruno Police Dept 270,3 2057,1

San Carlos Police Dept 130,1 1676,5

San Clemente 132,3 1242

San Diego County Sheriff Department 393,8 1753,4

San Diego Police Dept 502,1 3502

San Dimas 229 2507,7

San Fernando Police Dept 533,3 1938,9

San Francisco Police Dept 874,1 4695,6

San Gabriel Police Dept 473,5 1869,6

San Jacinto Police Dept 426,4 3278,8

San Joaquin County Sheriff Department 711,7 3469

San Jose Police Dept 402,2 2574,7

San Juan Capistrano 191,6 1401

San Leandro Police Dept 703,2 5114,1

San Luis Obispo County Sheriff Department 217,4 1233,6

San Luis Obispo Police Dept 392,7 4315

San Marino Police Dept 122 2036,3

San Mateo County Sheriff Department 369,8 2483,2

San Mateo Police Dept 334,6 2267

San Pablo Police Dept 1008,3 5436,2

San Rafael Police Dept 500,1 3148,9

San Ramon 107,4 2091,7

Sanger Police Dept 367,4 2814

Santa Ana Police Dept 572,3 2291,7

Santa Barbara County Sheriff Department 150,7 1251,3

Santa Barbara Police Dept 522,7 2674,4

xvi

Page 131: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº10

Santa Clara County Sheriff Department 382,1 2091,5

Santa Clara Police Dept 211,1 3134,7

Santa Clarita 218,3 2219,1

Santa Cruz County Sheriff Department 208,6 1952,3

Santa Cruz Police Dept 880,5 4452,1

Santa Fe Springs 796,2 8804,6

Santa Maria Police Dept 704,1 3049,6

Santa Monica Police Dept 672,8 3508,5

Santa Paula Police Dept 347,1 2514,2

Santa Rosa Police Dept 497,6 2408,5

Santee 280,2 2172,9

Saratoga 96,5 997,8

Scotts Valley Police Dept 99 2420,4

Seal Beach Police Beach 151,7 1665,1

Seaside Police Dept 637,4 2081,6

Selma Police Dept 384 4595,5

Shafter Police Dept 446,9 4009,2

Shasta County Sheriff Department 441,6 1224,9

Sierra Madre Police Dept 99,7 1541,1

Signal Hill Police Dept 532,4 4037,3

Simi Valley Police Dept 147,5 1942,5

Solana Beach 206,3 2150,6

Soledad Police Dept 306 1614,4

Sonoma County Sheriff Department 364,1 1199,3

South El Monte 663,7 2954,5

South Gate Police Dept 584,6 2959,4

South Lake Tahoe Police Dept 682,8 2526

South Pasadena Police Dept 144,2 1746,3

South San Francisco Police Dept 288 2549,7

Stanislaus County Sheriff Department 715,4 3513,7

Stanton 448,7 1959,3

Stockton Police Dept 1418,7 6285

Suisun City Police Dept 533,1 2713,8

Sunnyvale Dept Of Public Safety 118,2 2017,2

Susanville Police Dept 373,8 2088,8

Sutter County Sheriff Department 403,8 3054,7

Tehama County Sheriff Department 473,1 1025,1

Temecula 221 2833,5

Temple City 220,5 1808,2

Thousand Oaks 116,6 1551,2

Torrance Police Dept 239,9 2229,1

Tracy Police Dept 161,6 3016

Truckee 359,7 1902

Tulare County Sheriff Department 327,7 1894,4

Tulare Police Dept 809,7 4202,3

Tuolumne County Sheriff Department 207,5 1680,9

Turlock Police Dept 708,9 5090,5

Tustin Police Dept 195,9 2251,8

Twenty­Nine Palms 311,4 1599

Twin Cities Police Dept 90,3 2636,6

Ukiah Dept Of Public Safety 872 3084,5

Union City Police Dept 643,6 2898,1

Upland Police Dept 393 3688,1

Vacaville Police Dept 282,3 2185,3

Vallejo Police Dept 932,7 5192,6

Ventura County Sheriff Department 208,6 1477,1

Ventura Police Dept 352,1 3661,4

Victorville 629,3 3851,4

Visalia Police Dept 571,2 4456,8

Walnut 177,9 1747,7

Walnut Creek Police Dept 141,6 4068,1

Watsonville Police Dept 809,7 4642

West Covina Police Dept 362,6 3575,5

xvii

Page 132: Análisis de regresión para sociólogos

BASE DE DATOS Nº10

West Hollywood 923,4 3906,7

West Sacramento Police Dept 802,2 2997,1

Westminster Police Dept 395,8 2962,1

Whittier Police Dept 404,6 2770,2

Windsor 339,4 1283,5

Woodland Police Dept 299,9 3518,6

Yorba Linda 66,4 1556,2

Yuba County Sheriff Dept 398,6 2043,4

Yuba City Police Dept 395,9 3091,4

Yucaipa 100,7 1770,5

Yucca Valley 354,7 2698,3

BASE DE DATOS Nº 11

Estado Y X

Alabama 32,2 70,5

Alaska 27 75,9

Arizona 25,5 76,8

Arkansas 29,5 70,2

California 24,2 76,6

Colorado 19,1 81,1

Connecticut 21,4 77,5

Delaware 27,7 75,8

District of Columbia 22,3 78,8

Florida 25,1 74

Georgia 27,8 76,9

Guam 27 73,6

Hawaii 23,1 80,4

Idaho 25,1 78,8

Illinois 26,8 72

Indiana 26,9 72,2

Iowa 26,7 74,9

Kansas 28 74,4

Kentucky 30,2 69,5

Louisiana 28,9 70,1

Maine 25,8 77,1

Maryland 26,6 76

Massachusetts 21,4 77,9

Michigan 29,5 74,8

Minnesota 25,1 81,9

Mississippi 33,3 67,4

Missouri 29 72,4

Montana 24,2 76,8

Nebraska 27,2 75,3

Nevada 25,6 72,4

New Hampshire 24,8 78,5

New Jersey 23,5 73

New Mexico 25,7 76

New York 25,1 73,6

North Carolina 29,5 75,3

North Dakota 27,7 74,4

Ohio 29,2 73,9

Oklahoma 30,9 68,5

Oregon 24,9 80,9

Pennsylvania 28,3 74,2

Rhode Island 22 75,7

South Carolina 30,6 72,8

South Dakota 28,1 73,1

Tennessee 31,2 71

Texas 28,9 71,5

Utah 23,1 80,2

Vermont 23,2 80,5

xviii

Page 133: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº 11

Virginia 25,7 76,4

Virgin Islands 26,5 66,8

Washington 26 80,6

West Virginia 31,9 68,9

Wisconsin 26 77,9

Wyoming 25,2 75,6

BASE DE DATOS Nº12

Municipio Y X X

Acacoyagua   0.483 0.41 18

Acala   0.356 9.93 27

Acapetahua   0.672 0.35 21

Altamirano   0.984 40.75 38

Amatán   1.745 14.76 34

Amatenango de la Frontera   0.723 2.91 25

Amatenango del Valle   2.002 53.48 47

Angel Albino Corzo  0.868 2.91 27

Arriaga   ­0.298 1.22 15

Bejucal de Ocampo   1.279 0.84 19

Bella Vista   0.761 1.11 13

Berriozábal   0.170 3.62 22

Bochil   0.470 42.07 30

El Bosque   1.065 63.79 43

Cacahoatán   0.091 1.8 19

Catazajá   0.494 1.8 20

Cintalapa   0.147 5.23 18

Coapilla   0.912 13.81 24

Comitán de Domínguez   ­0.422 3.58 18

La Concordia   1.082 5.24 28

Copainalá   0.443 9.17 17

Chalchihuitán   2.344 80.89 51

Chamula   1.872 82.74 58

Chanal   1.686 72.81 47

Chapultenango   0.815 66.62 30

Chenalho   1.781 69.35 43

Chiapa de Corzo   ­0.014 4.38 20

Chiapilla   0.781 4.39 37

Chicoasén   0.054 9.57 18

Chicomuselo   1.042 0.34 25

Chilón   2.143 64.86 46

Escuintla   0.595 0.56 19

Francisco León   1.589 64.3 36

Frontera Comalapa   0.130 1.72 16

Frontera Hidalgo   0.508 0.26 23

La Grandeza   0.915 1.46 15

Huehuetán   0.577 0.28 21

Huixtán   1.569 76.46 37

Huitiupan   1.653 58.59 38

Huixtla   ­0.157 0.62 15

La Independencia   0.636 3.77 22

Ixhuatan   0.864 35.34 30

Ixtacomitán   0.630 16.73 20

Ixtapa   0.493 20.36 26

Ixtapangajoya   1.218 11 24

Jiquipilas   0.258 4.42 17

Jitotol   0.946 60.31 35

Juarez   0.273 4.26 19

Larrainzar   1.654 63.04 41

La Libertad   0.489 1.38 16

Mapastepec   0.227 0.51 21

Las Margaritas   1.126 40.38 35

xix

Page 134: Análisis de regresión para sociólogos

BASE DE DATOS Nº12

Mazapa de Madero   0.689 3.61 12

Mazatán   0.626 0.44 19

Metapa   0.124 0.42 18

Mitontic   2.039 78.97 62

Motozintla   0.575 2.08 15

Nicolas Ruiz   1.287 0 0

Ocosingo   1.448 49.76 34

Ocotepec   1.609 80.11 49

Ocozocoautla de espinosa   0.419 14.54 21

Ostuacán   1.127 4.81 26

Osumacinta   0.055 8.72 13

Oxchuc   1.779 80.75 31

Palenque   0.597 33.6 24

Pantelhó   2.252 68.23 52

Pantepec   1.364 44.35 45

Pichucalco   0.250 1.64 21

Pijijiapan   0.487 1.11 20

El Porvenir   1.176 6.32 15

Villa Comaltitlán   0.764 0.73 21

Pueblo Nuevo Solistahuacán   1.176 39.75 42

Rayón   0.714 33.41 34

Reforma   ­0.780 0.97 12

Las Rosas   1.073 7.01 39

Sabanilla   1.510 63.72 36

Salto de Agua   1.683 69.18 40

San Cristobal de las Casas   ­0.626 32.02 18

San Fernando   0.279 1.77 23

Siltepec   1.290 0.44 25

Simojovel   1.344 48.61 45

Sitalá   3.345 44.77 60

Socoltenango   1.011 7.03 32

Solosuchiapa   0.906 13.18 26

Soyaló   0.545 26.32 31

Suchiapa   ­0.018 0.51 24

Suchiate   0.454 0.37 22

Sunuapa   1.046 0.83 26

Tapachula   ­0.442 1.18 12

Tapalapa   0.739 81.89 23

Tapilula   0.272 10.57 26

Tecpatán   0.807 18.97 22

Tenejapa   1.370 76.12 35

Teopisca   1.096 35.43 41

Tila   1.414 78.27 39

Tonalá   ­0.082 0.59 16

Totolapa   1.241 6.87 44

La Trinitaria   0.497 8.13 21

Tumbalá   1.814 74.13 45

Tuxtla Gutiérrez   ­1.263 2.14 8

Tuxtla Chico   0.420 0.22 22

Tuzantán   0.703 0.79 17

Tzimol   0.632 1.12 29

Unión Juárez   0.303 1.68 19

Venustiano Carranza   0.728 17.97 32

Villa Corzo   0.668 4.83 25

Villaflores   0.142 1.46 19

Yajalón   0.914 52.98 35

San Lucas   1.247 10.72 37

Zinacantán   1.797 82.34 54

San Juan Cancuc   1.966 76.42 52

Aldama   2.319 68.45 58

Benemérito de las Américas   1.120 25.95 27

Maravilla Tenejapa   1.518 33.12 31

Marqués de Comillas   1.602 30.1 30

xx

Page 135: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº12

Montecristo de Guerrero   1.118 0.71 28

San Andres Duraznal   1.489 66.9 46

Santiago el Pinar   2.209 63.57 68

BASE DE DATOS Nº13

 

Año Y X X

1986 3419 8658 4269,674

1987 3645 8852 4372,610

1988 3911 9144 4569,370

1989 4324 9586 4727,218

1990 4484 10133 4822,836

1991 4841 10664 4918,510

1992 5436 11285 5059,528

1993 5816 12101 5343,141

1994 6148 13019 5465,013

1995 6801 14103 5499,544

1996 7305 15383 5522,817

1997 7845 16778 5625,843

1998 8153 18228 5734,213

1999 8060 19381 5829,013

2000 8493 20256 5845,905

BASE DE DATOS Nº14

Año Y X X X X

1960 3294.7 8.8 12.6 74 50.5

1961 3436.8 7 8 106 62.5

1962 3496.1 8.1 19.7 106.6 77.9

1963 4385.1 7.9 16.3 118.8 62.2

1964 4015 7.8 13.2 109.8 110

1965 3537.5 8.4 15.5 97.5 95.2

1966 3407.9 10.6 11.5 96.9 98.5

1967 4056.3 10.8 14.4 117.8 104.7

1968 4183.7 5.5 17.4 142.8 112.6

1969 4786.4 9 20.6 170.9 158.9

1970 5365.2 8.8 19.6 188.4 181.7

1971 5089.3 11.4 26.6 171.2 162.9

1972 5420.5 13.5 34 190.1 192

1973 6060 12.2 46 262 251.8

1974 7144.7 14.8 45.2 277.8 344.5

1975 7474.2 13 47.1 302.5 316

1976 7615.1 11.5 47.2 294.9 337.4

1977 7225 15.8 49.1 323.1 355

1978 7506.1 15.5 53.9 359.5 351.8

1979 7996 17.5 59.5 407.5 351

1980 7941.4 20 67.2 460.6 364.9

BASE DE DATOS Nº15

Y X

3929214 1790

5308483 1800

7239881 1810

9638453 1820

12860702 1830

17063353 1840

23191876 1850

31443321 1860

38558371 1870

xxi

Page 136: Análisis de regresión para sociólogos

BASE DE DATOS Nº15

50189209 1880

62979766 1890

76212168 1900

92228496 1910

106021537 1920

123202624 1930

132164569 1940

151325798 1950

179323175 1960

BASE DE DATOS Nº16

Y X

29105 1987

36126 1988

43499 1989

49546 1990

60573 1991

79657 1992

79879 1993

73086 1994

69984 1995

61124 1996

49379 1997

43225 1998

41356 1999

39513 2000

BASE DE DATOS Nº17

Y X

23135 1994

25279 1995

29269 1996

34068 1997

38468 1998

41293 1999

39743 2000

34471 2001

30270 2002

28549 2003

27053 2004

BASE DE DATOS Nº18

PAÍS Y X

Afghanistan 151,95 800

Albania 18,62 6000

Algeria 27,73 6900

American Samoa 10,18 8000

Andorra 3,76 42500

Anguilla 3,52 8800

Antigua and Barbuda 16,25 19400

Argentina 11,44 14200

Armenia 20,21 6300

Aruba 13,79 21800

Australia 4,75 38200

Austria 4,42 40400

Azerbaijan 54,6 9500

Bahamas, The 23,17 30700

xxii

Page 137: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº18

Bahrain 15,25 37400

Bangladesh 59,02 1500

Barbados 12,29 18900

Belarus 6,43 11800

Belgium 4,44 37500

Belize 23,07 8400

Benin 64,64 1500

Bermuda 2,46 69900

Bhutan 49,36 5200

Bolivia 44,66 4500

Bosnia and Herzegovina 9,1 6500

Botswana 12,59 13900

Brazil 22,58 10200

British Virgin Islands 14,65 38500

Brunei 12,27 51300

Bulgaria 17,87 12900

Burkina Faso 84,49 1200

Burma 47,61 1200

Burundi 59,64 300

Cambodia 54,79 2000

Cameroon 63,34 2300

Canada 5,04 39200

Cape Verde 41,35 3800

Cayman Islands 6,94 43800

Central African Republic 80,62 700

Chad 98,69 1600

Chile 7,71 14900

China 20,25 6000

Colombia 18,9 9200

Comoros 66,57 1000

Congo, Democratic Republic of the 81,21 300

Congo, Republic of the 79,78 3900

Cook Islands 16,9 9100

Costa Rica 8,77 11600

Cote d'Ivoire 68,06 1700

Croatia 6,37 18400

Cuba 5,82 9500

Cyprus 6,6 21300

Czech Republic 3,79 25900

Denmark 4,34 37200

Djibouti 97,51 2700

Dominica 13,65 10000

Dominican Republic 25,96 8200

Ecuador 20,9 7500

Egypt 27,26 5800

El Salvador 21,52 6200

Eritrea 43,33 700

Estonia 7,32 21400

Ethiopia 80,8 900

European Union 5,72 33700

Faroe Islands 6,32 31000

Fiji 11,58 3800

Finland 3,47 37000

France 3,33 33300

French Polynesia 7,55 18000

Gabon 51,78 14200

Gambia, The 67,33 1300

Gaza Strip 18,35 2900

Georgia 16,22 4700

Germany 3,99 35500

Ghana 51,09 1500

Gibraltar 4,83 38200

Greece 5,16 32100

xxiii

Page 138: Análisis de regresión para sociólogos

BASE DE DATOS Nº18

Greenland 10,72 20000

Grenada 13,23 13200

Guatemala 27,84 5300

Guernsey 4,47 44600

Guinea 65,22 1100

Guinea­Bissau 99,82 600

Guyana 29,65 3900

Haiti 59,69 1300

Honduras 24,03 4400

Hong Kong 2,92 43800

Hungary 7,86 19800

Iceland 3,23 42300

India 30,15 2900

Indonesia 29,97 3900

Iran 35,78 12800

Iraq 43,82 3200

Ireland 5,05 45500

Isle of Man 5,37 35000

Israel 4,22 28600

Italy 5,51 31400

Jamaica 15,22 8600

Japan 2,79 34100

Jersey 4,73 57000

Jordan 14,97 5200

Kazakhstan 25,73 11500

Kenya 54,7 1600

Kiribati 43,48 5300

Korea, North 51,34 1800

Korea, South 4,26 27700

Kuwait 8,96 57500

Kyrgyzstan 31,26 2200

Laos 77,82 2100

Latvia 8,77 17300

Lebanon 21,82 11100

Lesotho 77,4 1600

Liberia 138,24 500

Libya 21,05 14200

Lithuania 6,47 17800

Luxembourg 4,56 81200

Macau 3,22 30000

Macedonia 9,01 9100

Madagascar 54,2 1000

Malawi 89,05 800

Malaysia 15,87 15200

Maldives 29,53 4500

Mali 102,05 1100

Malta 3,75 24600

Marshall Islands 25,45 2500

Mauritania 63,42 2100

Mauritius 12,2 12100

Mayotte 56,29 4900

Mexico 18,42 14300

Micronesia, Federated States of 26,1 2200

Moldova 13,13 2500

Monaco 5 30000

Mongolia 39,88 3200

Montserrat 16,08 3400

Morocco 36,88 4500

Mozambique 105,8 900

Namibia 45,51 6400

Nauru 9,25 5000

Nepal 47,46 1100

Netherlands 4,73 40500

xxiv

Page 139: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº18

Netherlands Antilles 9,09 16000

New Caledonia 7,05 15000

New Zealand 4,92 27900

Nicaragua 25,02 2900

Niger 116,66 700

Nigeria 94,35 2300

Northern Mariana Islands 6,59 12500

Norway 3,58 59500

Oman 16,88 20200

Pakistan 65,14 2500

Palau 13,14 8100

Panama 12,67 11800

Papua New Guinea 45,23 2300

Paraguay 24,68 4200

Peru 28,62 8500

Philippines 20,56 3300

Poland 6,8 17400

Portugal 4,78 22200

Puerto Rico 8,42 17800

Romania 22,9 12200

Russia 10,56 16100

Rwanda 81,61 900

Saint Helena 17,63 2500

Saint Kitts and Nevis 13,94 19100

Saint Lucia 13,43 11100

Saint Pierre and Miquelon 6,87 7000

Saint Vincent and the Grenadines 15,14 10200

Samoa 24,22 4700

San Marino 5,34 41900

Sao Tome and Principe 37,12 1300

Saudi Arabia 11,57 20500

Senegal 58,94 1600

Serbia 6,75 10800

Seychelles 12,3 21000

Sierra Leone 154,43 900

Singapore 2,31 51600

Slovakia 6,84 22000

Slovenia 4,25 29600

Solomon Islands 19,03 2700

Somalia 109,19 600

South Africa 44,42 10100

Spain 4,21 34600

Sri Lanka 18,57 4400

Sudan 82,43 2200

Suriname 18,81 8900

Swaziland 68,63 4400

Sweden 2,75 38200

Switzerland 4,18 42000

Syria 25,87 4600

Taiwan 5,35 31100

Tajikistan 41,03 1800

Tanzania 69,28 1400

Thailand 17,63 8400

Timor­Leste 40,65 2300

Togo 56,24 900

Tonga 11,58 4600

Trinidad and Tobago 29,93 23600

Tunisia 22,57 7900

Turkey 25,78 11900

Turkmenistan 45,36 6500

Turks and Caicos Islands 13,89 11500

Tuvalu 18,43 1600

Uganda 64,82 1300

xxv

Page 140: Análisis de regresión para sociólogos

BASE DE DATOS Nº18

Ukraine 8,98 7400

United Arab Emirates 12,7 44600

United Kingdom 4,85 36700

United States 6,26 47500

Uruguay 11,32 12400

Uzbekistan 23,43 2600

Vanuatu 49,45 4600

Venezuela 21,54 13500

Vietnam 22,88 2800

Virgin Islands 7,56 14500

Wallis and Futuna 5,02 3800

West Bank 15,96 2900

Western Sahara 69,66 2500

Yemen 54,7 2500

Zambia 101,2 1500

Zimbabwe 32,31 200

BASE DE DATOS Nº19

Condado Y D D

Starr County  98,10 1 0

Maverick County  95,33 1 0

Webb County  94,40 1 0

Brooks County  92,00 1 0

Zavala County  91,39 1 0

Jim Hogg County  90,63 1 0

Hidalgo County  88,42 1 0

Duval County  88,16 1 0

Willacy County  86,11 1 0

Kenedy County  85,99 1 0

Dimmit County  85,31 1 0

Zapata County  84,94 1 0

Presidio County  84,76 1 0

Cameron County  84,47 1 0

El Paso County  78,27 1 0

La Salle County  77,29 1 0

Jim Wells County  75,92 1 0

Val Verde County  75,75 1 0

Hudspeth County  75,45 1 0

Frio County  73,92 1 0

Reeves County  73,59 1 0

Culberson County  72,34 1 0

Uvalde County  66,12 1 0

Kleberg County  65,56 1 0

Pecos County  61,09 1 0

Nueces County  55,71 1 0

Crockett County  55,09 1 0

Bee County  53,95 1 0

Terrell County  51,34 1 0

Kinney County  50,10 1 0

San Patricio County  49,40 1 0

Edwards County  45,61 1 0

Medina County  45,49 1 0

Brewster County  43,72 1 0

Live Oak County  37,95 1 0

Jeff Davis County  35,48 1 0

McMullen County  34,43 1 0

Real County  21,63 1 0

Castro County  51,83 0 1

Parmer County  49,83 0 1

Crosby County  48,84 0 1

Dawson County  48,09 0 1

xxvi

Page 141: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº19

Hale County  47,99 0 1

Bailey County  47,73 0 1

Floyd County  46,03 0 1

Yoakum County  45,92 0 1

Cochran County  45,04 0 1

Lynn County  44,32 0 1

Terry County  43,99 0 1

Lamb County  43,71 0 1

Martin County  41,49 0 1

Andrews County  40,11 0 1

Howard County  37,56 0 1

Hockley County  37,21 0 1

Garza County  37,15 0 1

Gaines County  35,79 0 1

Swisher County  35,37 0 1

Mitchell County  31,33 0 1

Titus County  28,40 0 1

Nolan County  27,90 0 1

Scurry County  27,82 0 1

Hall County  27,55 0 1

Lubbock County  27,44 0 1

Knox County  25,53 0 1

Dickens County  23,39 0 1

Briscoe County  22,74 0 1

Fisher County  21,71 0 1

Jones County  21,10 0 1

Haskell County  20,61 0 1

Wilbarger County  20,46 0 1

Childress County  20,32 0 1

Cottle County  18,91 0 1

Borden County  18,24 0 1

Taylor County  17,54 0 1

Foard County  16,21 0 1

Hardeman County  15,09 0 1

Camp County  14,45 0 1

Stephens County  14,17 0 1

Angelina County  14,08 0 1

Motley County  13,53 0 1

Cherokee County  13,25 0 1

Wichita County  12,13 0 1

Anderson County  12,00 0 1

Stonewall County  11,99 0 1

Nacogdoches County  11,32 0 1

Rockwall County  11,13 0 1

Smith County  11,10 0 1

Liberty County  10,92 0 1

Eastland County  10,75 0 1

Jefferson County  10,58 0 1

Young County  10,50 0 1

Kent County  10,24 0 1

Collin County  10,22 0 1

Polk County  9,65 0 1

Shelby County  9,48 0 1

Hopkins County  9,26 0 1

Baylor County  9,14 0 1

Gregg County  8,86 0 1

Franklin County  8,78 0 1

Rusk County  8,30 0 1

Shackelford County  8,24 0 1

Hunt County  8,19 0 1

Throckmorton County  7,84 0 1

Houston County  7,59 0 1

Henderson County  6,75 0 1

xxvii

Page 142: Análisis de regresión para sociólogos

BASE DE DATOS Nº19

Van Zandt County  6,73 0 1

Callahan County  6,22 0 1

King County  6,18 0 1

Fannin County  5,66 0 1

Harrison County  5,40 0 1

Wood County  5,38 0 1

Red River County  5,11 0 1

Archer County  4,57 0 1

Rains County  4,56 0 1

San Jacinto County  4,49 0 1

Bowie County  4,27 0 1

Trinity County  4,07 0 1

Jasper County  3,96 0 1

Upshur County  3,79 0 1

Newton County  3,71 0 1

Tyler County  3,65 0 1

Lamar County  3,54 0 1

Orange County  3,50 0 1

Morris County  3,46 0 1

Panola County  3,23 0 1

San Augustine County  2,96 0 1

Hardin County  2,45 0 1

Cass County  1,62 0 1

Sabine County  1,60 0 1

Marion County  1,40 0 1

Delta County  0,81 0 1

Atascosa County  58,70 0 0

Deaf Smith County  57,71 0 0

Bexar County  54,35 0 0

Sutton County  51,73 0 0

Reagan County  49,67 0 0

Karnes County  47,71 0 0

Moore County  47,39 0 0

Refugio County  44,69 0 0

Crane County  44,09 0 0

Winkler County  44,03 0 0

Schleicher County  43,61 0 0

Upton County  42,45 0 0

Ward County  42,41 0 0

Ector County  42,39 0 0

Concho County  41,65 0 0

Calhoun County  40,71 0 0

Caldwell County  40,60 0 0

Gonzales County  39,88 0 0

Victoria County  39,22 0 0

Wilson County  36,48 0 0

Goliad County  35,13 0 0

Guadalupe County  33,16 0 0

Harris County  32,95 0 0

Menard County  32,63 0 0

Hansford County  31,83 0 0

Ochiltree County  31,69 0 0

Matagorda County  31,30 0 0

Sterling County  31,30 0 0

Wharton County  31,23 0 0

Tom Green County  30,65 0 0

Dallas County  29,89 0 0

Glasscock County  29,87 0 0

Hays County  29,45 0 0

Runnels County  29,40 0 0

Midland County  28,93 0 0

Dallam County  28,48 0 0

Travis County  28,21 0 0

xxviii

Page 143: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº19

Potter County  28,18 0 0

Sherman County  27,97 0 0

DeWitt County  27,31 0 0

McCulloch County  26,63 0 0

Jackson County  25,07 0 0

Irion County  24,68 0 0

Bastrop County  23,99 0 0

Brazoria County  22,76 0 0

Comal County  22,60 0 0

San Saba County  21,66 0 0

Mason County  21,21 0 0

Fort Bend County  21,10 0 0

Comanche County  21,06 0 0

Kimble County  20,97 0 0

Collingsworth County  20,59 0 0

Aransas County  20,42 0 0

Colorado County  19,76 0 0

Tarrant County  19,73 0 0

Waller County  19,43 0 0

Lipscomb County  19,20 0 0

Kerr County  19,16 0 0

Milam County  18,98 0 0

Lee County  18,27 0 0

Ellis County  18,24 0 0

Galveston County  18,05 0 0

McLennan County  17,93 0 0

Loving County  17,91 0 0

Brazos County  17,86 0 0

Kendall County  17,73 0 0

Williamson County  17,21 0 0

Coke County  16,95 0 0

Bell County  16,68 0 0

Grimes County  16,25 0 0

Austin County  16,06 0 0

Gillespie County  15,99 0 0

Navarro County  15,89 0 0

Falls County  15,87 0 0

Madison County  15,80 0 0

Blanco County  15,29 0 0

Brown County  15,22 0 0

Hemphill County  15,10 0 0

Lampasas County  15,05 0 0

Erath County  14,98 0 0

Burnet County  14,76 0 0

Burleson County  14,64 0 0

Robertson County  14,56 0 0

Hutchinson County  14,47 0 0

Walker County  14,02 0 0

Hartley County  13,78 0 0

Somervell County  13,56 0 0

Bandera County  13,45 0 0

Hill County  13,44 0 0

Coleman County  13,43 0 0

Palo Pinto County  13,22 0 0

Gray County  12,98 0 0

Limestone County  12,98 0 0

Oldham County  12,81 0 0

Fayette County  12,65 0 0

Montgomery County  12,62 0 0

Coryell County  12,53 0 0

Mills County  12,48 0 0

Wheeler County  12,40 0 0

Bosque County  12,33 0 0

xxix

Page 144: Análisis de regresión para sociólogos

BASE DE DATOS Nº19

Denton County  12,09 0 0

Johnson County  12,01 0 0

Lavaca County  11,41 0 0

Kaufman County  11,12 0 0

Chambers County  10,89 0 0

Wise County  10,76 0 0

Randall County  10,28 0 0

Cooke County  9,82 0 0

Washington County  8,97 0 0

Freestone County  8,43 0 0

Jack County  7,92 0 0

Leon County  7,86 0 0

Hamilton County  7,50 0 0

Hood County  6,99 0 0

Parker County  6,96 0 0

Carson County  6,81 0 0

Grayson County  6,39 0 0

Donley County  5,80 0 0

Montague County  5,49 0 0

Llano County  5,14 0 0

Armstrong County  3,91 0 0

Clay County  3,07 0 0

Roberts County  1,35 0 0

BASE DE DATOS Nº20

Condado Y D D D

Anderson County  14,32 0 1 0

Andrews County  15,29 0 1 1

Angelina County  19,34 0 1 0

Aransas County  19,63 0 0 0

Archer County  8,21 0 1 0

Armstrong County  8,8 0 0 0

Atascosa County  20,13 0 0 1

Austin County  12,15 0 0 0

Bailey County  18,84 0 1 1

Bandera County  15,18 0 0 0

Bastrop County  15,27 0 0 0

Baylor County  16,74 0 1 0

Bee County  16,97 1 0 1

Bell County  15,2 0 0 0

Bexar County  18,3 0 0 1

Blanco County  11,11 0 0 0

Borden County  6,45 0 1 0

Bosque County  19,89 0 0 0

Bowie County  16,97 0 1 0

Brazoria County  11,42 0 0 0

Brazos County  27,1 0 0 0

Brewster County  16,95 1 0 1

Briscoe County  12,79 0 1 0

Brooks County  28,51 1 0 1

Brown County  18,13 0 0 0

Burleson County  15,62 0 0 0

Burnet County  12,5 0 0 0

Caldwell County  18,14 0 0 1

Calhoun County  15,28 0 0 1

Callahan County  13,79 0 1 0

Cameron County  39,11 1 0 1

Camp County  18,7 0 1 0

Carson County  8,18 0 0 0

Cass County  18,23 0 1 0

Castro County  17,31 0 1 1

xxx

Page 145: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº20

Chambers County  9,4 0 0 0

Cherokee County  18,12 0 1 0

Childress County  17,51 0 1 0

Clay County  11,98 0 0 0

Cochran County  19,54 0 1 1

Coke County  11,65 0 0 0

Coleman County  19,87 0 0 0

Collin County  9,13 0 1 0

Collingsworth County  17,75 0 0 0

Colorado County  14,43 0 0 0

Comal County  13,04 0 0 0

Comanche County  16,5 0 0 0

Concho County  13,46 0 0 1

Cooke County  14,26 0 0 0

Coryell County  11,23 0 0 0

Cottle County  17,38 0 1 0

Crane County  9,91 0 0 1

Crockett County  13,61 1 0 1

Crosby County  21,05 0 1 1

Culberson County  20,2 1 0 1

Dallam County  12,89 0 0 0

Dallas County  17,75 0 0 0

Dawson County  19,69 0 1 1

Deaf Smith County  20,31 0 0 1

Delta County  17,44 0 1 0

Denton County  9,87 0 0 0

DeWitt County  17,39 0 0 0

Dickens County  17,13 0 1 0

Dimmit County  31,08 1 0 1

Donley County  15,57 0 0 0

Duval County  23,52 1 0 1

Eastland County  17,72 0 1 0

Ector County  16,26 0 0 1

Edwards County  21,88 1 0 1

El Paso County  30,15 1 0 1

Ellis County  13,6 0 0 0

Erath County  16,02 0 0 0

Falls County  22,57 0 0 0

Fannin County  15,53 0 1 0

Fayette County  12,47 0 0 0

Fisher County  14,41 0 1 0

Floyd County  18,39 0 1 1

Foard County  15,47 0 1 0

Fort Bend County  11,91 0 0 0

Franklin County  16,55 0 1 0

Freestone County  13,12 0 0 0

Frio County  24,91 1 0 1

Gaines County  18,77 0 1 1

Galveston County  13,83 0 0 0

Garza County  18,04 0 1 1

Gillespie County  10,91 0 0 0

Glasscock County  8,61 0 0 0

Goliad County  16,05 0 0 1

Gonzales County  18,8 0 0 1

Gray County  13,51 0 0 0

Grayson County  13,12 0 0 0

Gregg County  16,48 0 1 0

Grimes County  16,4 0 0 0

Guadalupe County  11,95 0 0 1

Hale County  16,36 0 1 1

Hall County  23,8 0 1 0

Hamilton County  13,95 0 0 0

Hansford County  12,91 0 0 1

xxxi

Page 146: Análisis de regresión para sociólogos

BASE DE DATOS Nº20

Hardeman County  14,48 0 1 0

Hardin County  11,84 0 1 0

Harris County  18,62 0 0 1

Harrison County  16,35 0 1 0

Hartley County  7,28 0 0 0

Haskell County  17,66 0 1 0

Hays County  18,7 0 0 0

Hemphill County  8,71 0 0 0

Henderson County  16,41 0 1 0

Hidalgo County  41,91 1 0 1

Hill County  17,99 0 0 0

Hockley County  16,21 0 1 1

Hood County  12,57 0 0 0

Hopkins County  15,12 0 1 0

Houston County  20,39 0 1 0

Howard County  21,2 0 1 1

Hudspeth County  31,55 1 0 1

Hunt County  17,16 0 1 0

Hutchinson County  12,22 0 0 0

Irion County  7,96 0 0 0

Jack County  11,46 0 0 0

Jackson County  13,96 0 0 0

Jasper County  19,57 0 1 0

Jeff Davis County  13 1 0 1

Jefferson County  15,33 0 1 0

Jim Hogg County  21,23 1 0 1

Jim Wells County  22,76 1 0 1

Johnson County  13,04 0 0 0

Jones County  14,02 0 1 0

Karnes County  19,59 0 0 1

Kaufman County  14,58 0 0 0

Kendall County  11,11 0 0 0

Kenedy County  14,98 1 0 1

Kent County  7,33 0 1 0

Kerr County  17,19 0 0 0

Kimble County  17,57 0 0 0

King County  11,52 0 1 0

Kinney County  20,72 1 0 1

Kleberg County  22,46 1 0 1

Knox County  16,34 0 1 0

La Salle County  26,41 1 0 1

Lamar County  16,05 0 1 0

Lamb County  17,91 0 1 1

Lampasas County  15,69 0 0 0

Lavaca County  12,62 0 0 0

Lee County  12,31 0 0 0

Leon County  16,42 0 0 0

Liberty County  14,31 0 1 0

Limestone County  19,84 0 0 0

Lipscomb County  13,9 0 0 0

Live Oak County  14,24 1 0 1

Llano County  13,22 0 0 0

Loving County  16,42 0 0 0

Lubbock County  17,98 0 1 0

Lynn County  17,88 0 1 1

Madison County  17,28 0 0 0

Marion County  24,21 0 1 0

Martin County  15,63 0 1 1

Mason County  14,98 0 0 0

Matagorda County  21,57 0 0 1

Maverick County  32,49 1 0 1

McCulloch County  21,39 0 0 0

McLennan County  19,57 0 0 0

xxxii

Page 147: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº20

McMullen County  14,22 1 0 1

Medina County  15,81 1 0 1

Menard County  19,03 0 0 1

Midland County  15,42 0 0 0

Milam County  17,38 0 0 0

Mills County  15,98 0 0 0

Mitchell County  16,53 0 1 1

Montague County  15,02 0 0 0

Montgomery County  13,69 0 0 0

Moore County  12,38 0 0 1

Morris County  17,28 0 1 0

Motley County  14,45 0 1 0

Nacogdoches County  20,65 0 1 0

Navarro County  19,55 0 0 0

Newton County  17,87 0 1 0

Nolan County  19,47 0 1 0

Nueces County  19,24 1 0 1

Ochiltree County  13,35 0 0 1

Oldham County  19,91 0 0 0

Orange County  12,91 0 1 0

Palo Pinto County  15,77 0 0 0

Panola County  13,59 0 1 0

Parker County  10,17 0 0 0

Parmer County  14,15 0 1 1

Pecos County  17,94 1 0 1

Polk County  18,2 0 1 0

Potter County  25,15 0 0 0

Presidio County  24,92 1 0 1

Rains County  18,95 0 1 0

Randall County  9,62 0 0 0

Reagan County  8,66 0 0 1

Real County  19,3 1 0 0

Red River County  16,92 0 1 0

Reeves County  27,85 1 0 1

Refugio County  14,72 0 0 1

Roberts County  5,75 0 0 0

Robertson County  19,14 0 0 0

Rockwall County  8,45 0 1 0

Runnels County  16,89 0 0 0

Rusk County  12,62 0 1 0

Sabine County  15,39 0 1 0

San Augustine County  20,22 0 1 0

San Jacinto County  19,03 0 1 0

San Patricio County  17,55 1 0 1

San Saba County  17,36 0 0 0

Schleicher County  13,8 0 0 1

Scurry County  14,86 0 1 0

Shackelford County  11,63 0 1 0

Shelby County  19,47 0 1 0

Sherman County  12,62 0 0 0

Smith County  15,87 0 1 0

Somervell County  10,25 0 0 0

Starr County  36,81 1 0 1

Stephens County  16,74 0 1 0

Sterling County  11,2 0 0 1

Stonewall County  14,06 0 1 0

Sutton County  14,72 0 0 1

Swisher County  15,6 0 1 1

Tarrant County  14,21 0 0 0

Taylor County  15,47 0 1 0

Terrell County  17,3 1 0 1

Terry County  20,23 0 1 1

Throckmorton County  12,76 0 1 0

xxxiii

Page 148: Análisis de regresión para sociólogos

BASE DE DATOS Nº20

Titus County  14,93 0 1 0

Tom Green County  15,56 0 0 1

Travis County  17,1 0 0 0

Trinity County  18,19 0 1 0

Tyler County  16,89 0 1 0

Upshur County  16,62 0 1 0

Upton County  13,48 0 0 1

Uvalde County  23,94 1 0 1

Val Verde County  26,37 1 0 1

Van Zandt County  15,15 0 1 0

Victoria County  16,27 0 0 1

Walker County  17,99 0 0 0

Waller County  20,02 0 0 0

Ward County  14,11 0 0 1

Washington County  14,21 0 0 0

Webb County  36,08 1 0 1

Wharton County  15,28 0 0 1

Wheeler County  10,9 0 0 0

Wichita County  13,83 0 1 0

Wilbarger County  13,82 0 1 0

Willacy County  38,51 1 0 1

Williamson County  8,77 0 0 0

Wilson County  13,05 0 0 1

Winkler County  14,04 0 0 1

Wise County  11,2 0 0 0

Wood County  12,99 0 1 0

Yoakum County  17,17 0 1 1

Young County  16,29 0 1 0

Zapata County  37,19 1 0 1

Zavala County  39,71 1 0 1

BASE DE DATOS Nº21

DISTRITO Y X

Antrim 0 34,382

Ards 1 12,191

Armagh 0 47,297

Ballymena 1 19,081

Ballymoney 0 31,405

Banbridge 0 29,552

Belfast 1 41,977

Carrickfergus 0 7,645

Castlereagh 0 10,197

Coleraine 1 23,810

Cookstown 1 55,305

Craigavon 0 43,333

Derry 1 72,642

Down 1 60,345

Dungannon 1 57,930

Fermanagh 1 56,667

Larne 1 23,810

Limavady 1 55,068

Lisburn 0 28,643

Magherafelt 1 61,433

Moyle 1 54,730

Newry & Mourne  1 76,988

Newtownabbey 0 14,054

North Down 0 9,736

Omagh 1 66,812

Strabane 1 63,712

xxxiv

Page 149: Análisis de regresión para sociólogos

Bases de datos

BASE DE DATOS Nº22

PAÍS Y X X

Australia  243,33 1 39300

Austria  260,00 1 39600

Bahrain  240,00 1 37200

Belarus  133,33 0 12000

Belgium  243,33 1 38300

Canada  253,33 1 40200

Czech Republic  213,33 0 26800

Estonia  170,00 0 21900

Finland  256,67 1 38400

France  220,00 0 32700

Germany  240,00 1 34800

Greece  210,00 0 32800

Hungary  190,00 0 20500

Iceland  260,00 1 42600

Ireland  253,33 1 47800

Israel  223,33 1 28900

Italy  230,00 1 31000

Japan  206,67 0 35300

Latvia  156,67 0 18500

Lithuania  156,67 0 18400

Malta  250,00 1 24200

New Zealand  246,67 1 28500

Portugal  203,33 0 22000

Russia  143,33 0 15800

Slovenia  220,00 0 30800

Spain  233,33 1 34100

Sweden  256,67 1 39600

Switzerland  273,33 1 40900

United Kingdom  236,67 1 37400

United States  246,67 1 48000

xxxv