COMANDOS+DE+STATA+PARA+MODELOS+DE+REGRESION+LINEAL

12
COMANDOS DE STATA PARA MODELOS DE REGRESIÓN LINEAL (junio 2012) Arístides Torche Supóngase que se desea calcular las elasticidades precio, ingreso y población de una curva de demanda. En primer lugar es necesario preguntarse que información se requiere. Las variables que habitualmente se han considerado son las siguientes: cantidad consumida (demandada), precio del bien, precio de sustitutos y complementos, ingreso per cápita, población y otras variables de acuerdo al bien cuya demanda se desee calcular. Un segundo punto se refiere a la ecuación con que se relacionaran las variables. Las más conocidas son la lineal y la doble logarítmica. En este caso se harán ambas regresiones Para calcular el modelo lineal se emplearán las cifras que se presentan en el cuadro adjunto: Obs años Q Pb PSUS POB YCAP 1 1264 2201,0 2,5 120 3560 2 1329 2359,4 2,5 122 3850 3 1394 2401,2 2,5 124 4005 4 1459 2450,4 2,5 127 4165 5 1527 2506,8 2,5 129 4331 6 1591 2570,3 2,5 131 4505 7 1654 2641,0 2,5 134 4685 8 1719 2718,9 2,5 136 4872 9 1788 3436,5 3,5 141 5270 10 1848 3550,0 3,5 143 5480 11 1915 3672,9 3,5 146 5700 12 1982 3805,6 3,5 149 5928 13 2044 4265,3 3,5 154 6411 14 2110 5241,2 3,9 163 7074 15 2174 5378,0 3,9 165 7286 16 2241 5887,7 3,9 171 7730 17 2303 6054,5 3,9 175 7962 18 2371 7756,7 4,2 187 8961 19 2436 7991,8 4,2 191 9230 20 2500 8874,3 5,1 194 9507 21 2565 9673,5 5,9 198 9792 22 2630 10241,0 6,3 202 10086 23 2696 11012,9 7 205 10388 24 2759 11513,6 7,2 209 10700 Para calcular el modelo doble logarítmico se construirá la base de datos con los logaritmos de las variables tal como se presenta en el cuadro siguiente.

description

stata 13

Transcript of COMANDOS+DE+STATA+PARA+MODELOS+DE+REGRESION+LINEAL

  • COMANDOS DE STATA PARA MODELOS DE REGRESIN LINEAL (junio 2012)

    Arstides Torche

    Supngase que se desea calcular las elasticidades precio, ingreso y poblacin de una curva de demanda. En primer lugar es necesario preguntarse que informacin se requiere. Las variables que habitualmente se han considerado son las siguientes: cantidad consumida (demandada), precio del bien, precio de sustitutos y complementos, ingreso per cpita, poblacin y otras variables de acuerdo al bien cuya demanda se desee calcular. Un segundo punto se refiere a la ecuacin con que se relacionaran las variables. Las ms conocidas son la lineal y la doble logartmica. En este caso se harn ambas regresiones Para calcular el modelo lineal se emplearn las cifras que se presentan en el cuadro adjunto:

    Obs aos Q Pb PSUS POB YCAP 1 1264 2201,0 2,5 120 3560 2 1329 2359,4 2,5 122 3850 3 1394 2401,2 2,5 124 4005 4 1459 2450,4 2,5 127 4165 5 1527 2506,8 2,5 129 4331 6 1591 2570,3 2,5 131 4505 7 1654 2641,0 2,5 134 4685 8 1719 2718,9 2,5 136 4872 9 1788 3436,5 3,5 141 5270

    10 1848 3550,0 3,5 143 5480 11 1915 3672,9 3,5 146 5700 12 1982 3805,6 3,5 149 5928 13 2044 4265,3 3,5 154 6411 14 2110 5241,2 3,9 163 7074 15 2174 5378,0 3,9 165 7286 16 2241 5887,7 3,9 171 7730 17 2303 6054,5 3,9 175 7962 18 2371 7756,7 4,2 187 8961 19 2436 7991,8 4,2 191 9230 20 2500 8874,3 5,1 194 9507 21 2565 9673,5 5,9 198 9792 22 2630 10241,0 6,3 202 10086 23 2696 11012,9 7 205 10388 24 2759 11513,6 7,2 209 10700

    Para calcular el modelo doble logartmico se construir la base de datos con los logaritmos de las

    variables tal como se presenta en el cuadro siguiente.

  • LQ LPb LPSUS LPOB LYCAP 3,10184853 3,3426209 0,39794001 2,07918125 3,55145 3,12362393 3,37279758 0,39794001 2,08692902 3,58551668 3,14430034 3,38042577 0,39794001 2,0946768 3,60255002 3,1640935 3,38923386 0,39794001 2,10242458 3,61958336

    3,18382668 3,39911902 0,39794001 2,11017236 3,63661669 3,20156252 3,40999132 0,39794001 2,11792014 3,65365003 3,21864385 3,42177162 0,39794001 2,12566791 3,67068337 3,23535596 3,43438996 0,39794001 2,13341569 3,68771671 3,25232182 3,53611355 0,54406804 2,14891125 3,72178339 3,26671132 3,55022806 0,54406804 2,15665903 3,73881673 3,28222941 3,56501315 0,54406804 2,1644068 3,75585007 3,29719802 3,58042403 0,54406804 2,17215458 3,77288341 3,31052861 3,62995167 0,54406804 2,18765014 3,80695009 3,32426986 3,71943403 0,59106461 2,21089347 3,84965788 3,33721506 3,73061985 0,59106461 2,21864125 3,8624951 3,35035185 3,76994758 0,59106461 2,23413681 3,88816955 3,36236028 3,78207578 0,59106461 2,24188458 3,90100677 3,37501433 3,88967561 0,62324929 2,2728757 3,95235567 3,38663789 3,90264418 0,62324929 2,28062347 3,9651929 3,39792107 3,94813241 0,70757018 2,28878115 3,97803012 3,40902207 3,98558573 0,77085201 2,29652892 3,99086735 3,41991196 4,0103403 0,79934055 2,3042767 4,00370457 3,43079904 4,04190242 0,84509804 2,31202448 4,0165418 3,44073011 4,06120929 0,8573325 2,31977226 4,02937902

    Luego es conveniente familiarizarse con las caractersticas de las variables. Para ello existen varios

    comandos:

    list para verlas todas en conjunto.

    Summarize para ver sus caractersticas estadsticas

    graph para ver su comportamiento en el tiempo o en relacin con otras variables.

    correlate para determina las relaciones lineales entre ellas.

    El comando list entrega los valores de las variables consideradas

    Nota estos comandos se aplicaran a las variables de la primera base de datos.

    . list q pb psus pob ycap

    q pb psus pob_mile ycap

    1. 1264.295 2201.004 2.5 120 3560

    2. 1329.303 2359.378 2.5 122.16 3850.496

    3. 1394.121 2401.186 2.5 124.3589 4004.516

  • 4. 1459.128 2450.382 2.5 126.5973 4164.696

    5. 1526.957 2506.796 2.5 128.8761 4331.284

    6. 1590.606 2570.344 2.5 131.1959 4504.536

    7. 1654.413 2641.02 2.5 133.5574 4684.717

    8. 1719.317 2718.879 2.5 135.9614 4872.106

    9. 1787.812 3436.478 3.5 140.9001 5269.669

    10. 1848.04 3549.998 3.5 143.4363 5480.457

    11. 1915.267 3672.934 3.5 146.0181 5699.675

    12. 1982.431 3805.608 3.5 148.6465 5927.662

    13. 2044.225 4265.32 3.5 154.0459 6411.359

    14. 2109.939 5241.24 3.9 162.515 7073.883

    15. 2173.777 5377.988 3.9 165.4403 7286.1

    16. 2240.536 5887.726 3.9 171.4497 7729.823

    17. 2303.352 6054.465 3.9 174.5358 7961.718

    18. 2371.452 7756.675 4.2 187.4458 8960.983

    19. 2435.779 7991.792 4.2 190.8198 9229.813

    20. 2499.891 8874.266 5.1 194.438 9506.707

    21. 2564.614 9673.547 5.9 197.9379 9791.908

    22. 2629.735 10240.95 6.3 201.5008 10085.67

    23. 2696.491 11012.92 7 205.1278 10388.24

    24. 2758.863 11513.55 7.2 208.8201 10699.88

    Para computar las medidas de posicin y dispersin ms usadas se emplea:

    summarize q pb psus pob ycap lq lpb lpsus lpob lycap

    Variable | Obs Mean Std. Dev. Min Max

    -------------+--------------------------------------------------------

    q | 24 2012.458 459.7719 1264 2759

    pb | 24 5341.854 3078.482 2201 11513.6

    psus | 24 3.875 1.449813 2.5 7.2

    pob | 24 159 29.72482 120 209

    ycap | 24 6728.25 2357.715 3560 10700

    -------------+--------------------------------------------------------

    lq | 24 3.292353 .102952 3.101849 3.44073

    lpb | 24 3.660569 .2451508 3.342621 4.061209

    lpsus | 24 .5622838 .1498288 .39794 .8573325

    lpob | 24 2.194192 .0804336 2.079181 2.319772

    lycap | 24 3.801727 .1550955 3.55145 4.029379

    Cuando se desea obtener mas informacin de una sola variable por ejemplo

    precio (pb) se emplea el comando summmarize con el agregado detail

    Summarize pb, detail

    Pb

    -------------------------------------------------------------

    Percentiles Smallest

    1% 2201 2201

    5% 2359.4 2359.4

    10% 2401.2 2401.2 Obs 24

    25% 2605.65 2450.4 Sum of Wgt. 24

  • 50% 4035.45 Mean 5341.854

    Largest Std. Dev. 3078.482

    75% 7874.25 9673.5

    90% 10241 10241 Variance 9477051

    95% 11012.9 11012.9 Skewness .7345044

    99% 11513.6 11513.6 Kurtosis 2.139824

    Los grficos permiten ver el comportamiento intertemporal de una, dos o

    tres variables a la vez. Por ejemplo, cantidad e ingreso per cpita.

    Para construir el grfico es necesario en primer lugar crear una variable

    tiempo.

    gener tiempo = [_n]

    Luego se escribe:

    graph twoway line q ycap tiempo

    Las correlaciones permiten determinar el grado de asociacin entre las

    variables. As por ejemplo:

    200

    04

    00

    06

    00

    08

    00

    01

    00

    00

    0 5 10 15 20 25tiempo

    Q YCAP

  • correlate pb psus pob ycap

    (obs=24)

    | pb psus pob ycap

    -------------+------------------------------------

    pb | 1.0000

    psus | 0.9679 1.0000

    pob | 0.9821 0.9304 1.0000

    ycap | 0.9814 0.9301 0.9998 1.0000

    Se presenta en primer trmino una regresin con las variables originales

    y sus resultados son los siguientes:

    regress q pb psus pob ycap

    Source | SS df MS Number of obs = 24

    -------------+------------------------------ F( 4, 19) = 1713.91

    Model | 4848536.55 4 1212134.14 Prob > F = 0.0000

    Residual | 13437.4087 19 707.232037 R-squared = 0.9972

    -------------+------------------------------ Adj R-squared = 0.9967

    Total | 4861973.96 23 211390.172 Root MSE = 26.594

    ------------------------------------------------------------------------------

    q | Coef. Std. Err. t P>|t| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    pb | -.1908073 .0159062 -12.00 0.000 -.2240993 -.1575154

    psus | 152.6666 17.11665 8.92 0.000 116.841 188.4921

    pob | 22.00833 10.96962 2.01 0.059 -.9513557 44.96801

    ycap | .0723776 .1345184 0.54 0.597 -.2091726 .3539279

    _cons | -1546.159 832.4968 -1.86 0.079 -3288.594 196.2772

    Ahora presentaremos el modelo en logaritmos

    regress lq lpb lpsus lpob lycap Source | SS df MS Number of obs = 24

    ---------+------------------------------ F( 4, 19) = .

    Model | .243777785 4 .060944446 Prob > F = 0.0000

    Residual | 1.9009e-06 19 1.0004e-07 R-squared = 1.0000

    ---------+------------------------------ Adj R-squared = 1.0000

    Total | .243779686 23 .010599117 Root MSE = .00032

    ------------------------------------------------------------------------------

    lq | Coef. Std. Err. t P>|t| [95% Conf. Interval]

    ---------+--------------------------------------------------------------------

    lpb | -.8032228 .0059815 -134.284 0.000 -.8157422 -.7907033

    lpsus | .3012374 .0022254 135.362 0.000 .2965795 .3058952

    lpob | 1.004204 .0261102 38.460 0.000 .9495549 1.058853

    lycap | 1.121931 .0072423 154.915 0.000 1.106773 1.137089

    _cons | -.4054682 .0154435 -26.255 0.000 -.4377919 -.3731446

  • Para el clculo de las caracteristicas de las variables asociadas a una

    regresin se usar el modelo inicial

    regress q pb psus pob ycap

    Source | SS df MS Number of obs = 24

    -------------+------------------------------ F( 4, 19) = 1713.91

    Model | 4848536.55 4 1212134.14 Prob > F = 0.0000

    Residual | 13437.4087 19 707.232037 R-squared = 0.9972

    -------------+------------------------------ Adj R-squared = 0.9967

    Total | 4861973.96 23 211390.172 Root MSE = 26.594

    ------------------------------------------------------------------------------

    q | Coef. Std. Err. t P>|t| [95% Conf. Interval]

    -------------+----------------------------------------------------------------

    pb | -.1908073 .0159062 -12.00 0.000 -.2240993 -.1575154

    psus | 152.6666 17.11665 8.92 0.000 116.841 188.4921

    pob | 22.00833 10.96962 2.01 0.059 -.9513557 44.96801

    ycap | .0723776 .1345184 0.54 0.597 -.2091726 .3539279

    _cons | -1546.159 832.4968 -1.86 0.079 -3288.594 196.2772

    ------------------------------------------------------------------------------

    predict e, resid

    *Medidas resumenes de las variables y de los indicadores

    estat sum

    Estimation sample regress Number of obs = 24

    -------------------------------------------------------------

    Variable | Mean Std. Dev. Min Max

    -------------+-----------------------------------------------

    q | 2012.458 459.7719 1264 2759

    pb | 5341.854 3078.482 2201 11513.6

    psus | 3.875 1.449813 2.5 7.2

    pob | 159 29.72482 120 209

    ycap | 6728.25 2357.715 3560 10700

    -------------------------------------------------------------

    estat vce

    Covariance matrix of coefficients of regress model

    e(V) | pb psus pob ycap _cons

    -------------+-----------------------------------------------------------

    -

    pb | .00025301

    psus | -.21581374 292.97955

    pob | -.05662578 41.862678 120.33261

    ycap | .00051301 -.4187138 -1.4682237 .0180952

  • _cons | 5.0365854 -3821.4049 -9114.0396 110.58063 693050.9

    estat ic /*entrega criterios de akaike AIC y de Schwartz BIC */

    -----------------------------------------------------------------------------

    Model | Obs ll(null) ll(model) df AIC BIC

    -------------+---------------------------------------------------------------

    . | 24 -180.6813 -109.9875 5 229.9749 235.8652

    -----------------------------------------------------------------------------

    *Tests para ver si se cumplen los supuestos del modelo MICO

    *Multicolinealidad

    vif

    Variable | VIF 1/VIF

    -------------+----------------------

    pob | 3457.70 0.000289

    ycap | 3271.24 0.000306

    pb | 77.98 0.012824

    psus | 20.03 0.049931

    -------------+----------------------

    Mean VIF | 1706.74

    *Normalidad de errores

    sktest e

    swilk e

    Skewness/Kurtosis tests for Normality

    ------- joint ------

    Variable | Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2

    -------------+---------------------------------------------------------------

    e | 24 0.5481 0.4423 1.02 0.5999

    Shapiro-Wilk W test for normal data

    Variable | Obs W V z Prob>z

    -------------+--------------------------------------------------

    e | 24 0.97129 0.774 -0.521 0.69896

    *Test de Ramsey de variables omitidas

    Ovtest

    Ramsey RESET test using powers of the fitted values of q

    Ho: model has no omitted variables

    F(3, 16) = 24.34

    Prob > F = 0.0000

  • *Test de Heteroscedasticidad bajo el supuesto que ycap produce la

    heteroscedasticidad

    estat hettest ycap /* Breusch-Pagan / Cook-Weisberg test for

    heteroskedasticity */

    Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

    Ho: Constant variance

    Variables: ycap

    chi2(1) = 3.71

    Prob > chi2 = 0.0542

    estat hettest, rhs /* Breusch-Pagan / Cook-Weisberg test for

    heteroskedasticity. Testea todas las variables del lado derecho */

    Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: pb psus pob ycap chi2(4) = 7.47 Prob > chi2 = 0.1129 estat imtest /* permite testear asimetra kurtosis y

    heteroscedasticidad pero no acepta ponderaciones */

    Cameron & Trivedi's decomposition of IM-test

    ---------------------------------------------------

    Source | chi2 df p

    ---------------------+-----------------------------

    Heteroskedasticity | 15.90 14 0.3197

    Skewness | 2.98 4 0.5614

    Kurtosis | 0.08 1 0.7796

    ---------------------+-----------------------------

    Total | 18.95 19 0.4598

    ---------------------------------------------------

    estat imtest, white /* permite usar el test de White pero no acepta

    ponderaciones */

    White's test for Ho: homoskedasticity

    against Ha: unrestricted heteroskedasticity

    chi2(14) = 15.90

    Prob > chi2 = 0.3197

    Cameron & Trivedi's decomposition of IM-test

  • ---------------------------------------------------

    Source | chi2 df p

    ---------------------+-----------------------------

    Heteroskedasticity | 15.90 14 0.3197

    Skewness | 2.98 4 0.5614

    Kurtosis | 0.08 1 0.7796

    ---------------------+-----------------------------

    Total | 18.95 19 0.4598

    ---------------------------------------------------

    *Tests de autocorrelacin para series de tiempo. En primer trmino es

    necesario generar una variable de paso del tiempo (t) y referir todas las

    otras variables a ella (tsset t)

    gener t=_n

    tsset t

    estat dwatson

    Durbin-Watson d-statistic( 5, 24) = 1.173594

    estat durbinalt /* se emplea en modelos autorregresivos */

    Durbin's alternative test for autocorrelation

    ---------------------------------------------------------------------------

    lags(p) | chi2 df Prob > chi2

    -------------+-------------------------------------------------------------

    1 | 2.951 1 0.0858

    ---------------------------------------------------------------------------

    H0: no serial correlation

    estat bgodfrey /* test de Breusch-Godfrey para autocorrelacin */

    Breusch-Godfrey LM test for autocorrelation

    ---------------------------------------------------------------------------

    lags(p) | chi2 df Prob > chi2

    -------------+-------------------------------------------------------------

    1 | 3.380 1 0.0660

    ---------------------------------------------------------------------------

    H0: no serial correlation

    * Test para identificar cambio estructural en series de tiempo. Test cusum y cusum cuadrado

    cusum6 q pb psus pob ycap

  • CU

    SU

    M

    t

    CUSUM

    7 24

    0 0

    CU

    SU

    M s

    qua

    red

    t

    CUSUM squared

    7 24

    0

    1

  • *TEST DE HIPOTESIS Se puede calcular nuevamente la regresin para estar seguro cual es el modelo del que se calculan los tests regress q pb psus pob ycap

    Test de significancia conjunta de las variables psus y pob test (psus=0) (pob=0) /* test conjunto */ ( 1) psus = 0 ( 2) pob = 0 F( 2, 19) = 39.78 Prob > F = 0.0000 test (psus=0) (pob=0), mtest /* test separado y conjunto */ ( 1) psus = 0 ( 2) pob = 0 | F(df,19) df p -------+------------------------------- (1) | 79.55 1 0.0000 # (2) | 4.03 1 0.0593 # -------+------------------------------- all | 39.78 2 0.0000 --------------------------------------- # unadjusted p-values . Test de igualdad de parmetros test pob=ycap ( 1) pob - ycap = 0 F( 1, 19) = 3.90 Prob > F = 0.0629

  • Test de combinaciones lineales de parmetros lincom pob+psu ( 1) psus + pob = 0 ------------------------------------------------------------------------------ q | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- (1) | 174.6749 22.29434 7.83 0.000 128.0123 221.3375 ------------------------------------------------------------------------------ *Test no lineales nlcom _b[sexo]/8*_b[esc]-1 /* test no lineales */ _nl_1: _b[pob]/8*_b[ycap]-1 ------------------------------------------------------------------------------ q | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- _nl_1 | -.8008861 .2714997 -2.95 0.008 -1.369142 -.2326307 ------------------------------------------------------------------------------