601-380-99_4

7/24/2019 601-380-99_4

1/12

EST DISTIC ESP OLNm. 99 1983 p gs. 61 a 72

Estimadores de raz n y de regresi n en poblac onesf tas modelos de superpoblaci

por J. SANTIAGO MURGUI IZQUIERDO niversidad de alencia

RESUMEN

En este trabajo se estudian, desde un punto de vista bayesiano, los esti-

madores de razn yregresin. Se proponen dos modelos de superpo-

blacin que describen tipos de relaciones entre una variable de inters para

el investigador) y una variable auxiliar, cuyos valores son conocidos para

cada una de las unidades que constituyen la poblacin finita bajo estudio.

Para el primer modelo, se obtiene que el estimador razn junto a un

diseo intencionado, que selecciona las unidades de la poblacin con valores

ms altos de la variable auxiliar, es una estrategia ptima. La estrategia

ptima para el segundo modelo consiste en el estimador de regresin y el

diseo intencionado que elige una muestra entre equilibrada y con va-

rianza muestral grande de la variable auxil iar.

Palabras elave Estimadores de razn y regresin, inferencia bayesiana,

modelos de superpoblacin, poblacin infinita.

INTRODUCCION

Los problemas de eleccin de la muestra y estimacin en las encuestas suelen presen-

tarse dentro del siguiente marco terico: los elementos de una poblacin U de tamao N

7/24/2019 601-380-99_4

2/12

E:STAD^STIC A FSPA()i__A

son identiticados mediante una lista . Se supone qe el investigador est interesado en

estimar una funcin poblacional r (x ), donde z= x, ,..., xN) es el vector cuyas compo-nentes son los valores x que toma una caracteristca X sobre cada unidad de la lista. Para

estimar y x), se procede a ia obtencin de una muestra s o subconjuntc de , utilizando

un ciiseo aleatorio p. Si adrraiiimos que el tamao n de la muestra ha sido previamente

fijado atendiendo a los recursos econmicos disponibles, dicho diseop es una medida de

probabilidad sobre el conjunto de las partes de , tal que p s ) vale cero si el cardinal de s

es distinto de n. I_a eleccin de una fur cin c .zs) de las observaciones de la muestra

proporcionar entonces un estimador para la funcin poblacional f x).

Es corriente que antes de iniciar la encuesta sea conocido un vector v= y, ,..., _y N),formado por los valores que sobre las unidades de toma una caracterstica auxiliar Y. En

tal caso la identificacin de las unidades de la poblacin a travs de la lista permitir

establecer relaciones entre ambas caracteristicas. La incorporacin de la informacinproporcionada pory servir no slo para proponer estimadores sino incluso permitir- en

muchos c sos elegir un diseo p. Como ejemplo de esto ltimo b st consider r l

utilizacin de y para estratificar la poblacin con la subsiguiente adopcin del diseo ms

adecuado al caso.

Este planteamiento de las encuestas por muestreo ha sido recientemente criticado por

numerosos autores Casel, C. M., y otros, 1977; Royall, 1976; Royall y Cumberland,

1981 }, entre otros. Destaquemos aqu dos importantes limitaciones. En primer lugar, la

elec in de estirnadores de funciones tan usuales camo la media de la poblacin, contiene

en ocasiones un alto grado de arbitrariedad pensemos, por ejemplo, en los estimadores

de razn yregresin). EI mismo defecto presentan los estimadores de los errores

estndar en ,gran nmero de diseos. En segundo lugar, ciertas encuestas, como la En-

cuesta Permanente de Consumo 1NE), reducen el rea de estudio a una subpoblacin

que previamente ha manifestado su disposicin a colaborar. La representatividad de

esta subpoblacin y la eleccin de una muestra a partir de la misma que sea representa-

tiva, no aparece entonces justificada dentro del marco terico expuesto.

Las limitaciones de los mtodos clsicos han conducido a desarrollar una nueva

metodologa Basulto y Murgui, 1982), fundamentada en los Modelos de Superpobla-

cin. En esencia, la idea cansiste en considerar a z como un vector aleatorio, propo- niendo un modelo probabilstico M X/y) que especifique las relaciones entre las caracte-

rstcas de nters y auxiliar. Por ejemplo, si por y; denotamos el nmero conocido) de

habitantes de ur a ciudad en un ao t y por X; el mismo nmero desconocido) pero

referido al ao t + k), un modelo adecuado para un colectivo de N ciudades seria el

expresado por x; = ay; + E;,

7/24/2019 601-380-99_4

3/12

ESTI MA[3ORES DE R.l.(:)N Y DE REtGRESION E N F'OBI..ACA O*^IE S t IN I TAS f

__y ^

El problema de elegir la muestra es resuelto ahora a partir del modelo Tv (X/ ) y la^ ^

estimacin de ` {X) se efectd mediante la obtencin de un predictor c (X ) c funcin que^

depende de X nicamente a travs de las componentes asociadas con las unidades mue -

trales.

El trabajo estd estructurado en secciones, as en la seccin 2 introducimas un modelo

de superpoblacin que describe una relacin lineal por el origen entre las caractersticas

consideradas; en la seccin 3 se obtiene la distribucin que nos permite hacer estimacio-

nes sobre la media poblacional del carcter X, resolviendo en la seccin 4 el problema de

seleccionar la muestra; en la seccin 5 se extiende lo anterior a un modelo lineal ms

general. Por ltimo, en la seccin 6, se discuten las ideas expuestas.

2. DESCRIPCION DEL MODELO

Sea U una poblacin bnita de tamao N, identificada sobre una lista { r^ ... u N} en

la que pretendemos in ve stigar los valores (X, ,..., XN ), que una caracterstica de inters

toma sobre sus unidades. Para ello suponemos conocidos los valores (y, ,..., y N) de

una caracterstica auxiliar, sobr e los que admitimos la restriccin y; ? 0, i=l, ... , N

Considerado el vector poblacional de inters X como aleatorio, podremos entonces

expresar la informacin inicial que sobre el mismo se disponga a travs de la forrnaliza-

cin de un modelo probabilistico. Supongamos que esta informacin viene recogida en las

siguientes hiptesis:

i El vector X es parcialmente intercambiable respecto de v, en el sentido de que su

distribucin de probabilidad verifica la condicin:

PX, ..., XNV, ..., yN r Xc(1)+ Xn N)Vn i )+. . . , ynr))

cualquiera que sea la permutacin n del conjunto { 1, 2, ..., N} que define la lista .

L.a hiptesis equivale (Sugden, 1978) a suponer que en la inferencia de una funcin

poblacional simtrica, tal como la media X, las unidades quedan identificadas a travs de

su valor auxiliar asociado y;.

ii) Admitimos la existencia de una relacin lineal por el origen entre las caractersti-

cas de inters y auxiliar, expresada a travs de la distribucin condicional:

h X;^y, , x, h -.- N X^ ^^y; ,

[

siendo h/z; la precisin, z; una funcin conocida de y generalmente, z _ ; con r= U

y 2 y{x, / parmetros desconacidos.

7/24/2019 601-380-99_4

4/12

Fs?A[)ISTlCA ESNA^V )C,.A

L.a especiticacin de una disiribucin P x, h) sobre los parmetros y las dos hiptesis^

anteriores inducen ( Ericson, 1969) d pruponer la siguiente Jistribucin inicial sobre X:

N

P(X,, ..., XNI =

j j^x ,/v^,x, h P x, iz } dxdh

[2jR R ;^

Centrando nuestro inters en estimar la media pablacional, la adopc;in inicial de(x, /r -.^ I^it^[x, h ^x , l1 , a', b' j en el modelo j2), proporciona la distribucin:

N h u

h; +Ny2 6

siendo N ^ ; y Nv

;^

3. ESTIMACIC)N DE LA MED1A

[

Con el tin de recabar informacin acerca de la variable de inters , se selecciona

una muestra s de tamao n, de la que, por la primera hiptesis, nicamente ser

relevante pra la inferencia el vector vs = (y;, iEs) de valores auxiliares. Sobre susunidades se observa ta caracterstica de inters, obteniendo como datos D para la

inferencia, las componentes del vector zs.La distribucin final de los parmetros viene entonces dada {Ericson, 1969) por una

N r[x, h x , h , u , b j donde

siendo

^^ ^c Kxy

h + Ky=

it =h +Ky=

u - u +n

1

b -- b' + j?' ( x; - x y; )Z / 4 1+ Ky= Kx= - K^ Kv= iE.c ^

xy = x V ^ Z

s

Kx: _ Z

{ = _ ^ y ^ z; s

7/24/2019 601-380-99_4

5/12

ESTIMAC3ORES DE RAl.ON Y DE REGRESI(lN EN F'C)BI.ACIC)NES F-ir l fAS fi5

Conocidos los datos, pociemos descomponer la media de la poblacin en la forma

X N ^,^ + N - n ^,^]

en la que xs expresa la media muestral y ,,,. la media aleataria} de la poblacin no

bservada.

La distribucin final de es obtenida de la integral

P X ,,/D) = P ,,l c, h) P x, h/D)dxdh ^

a partir de la cual es fcil deducir la distribucin de inters

/D - Ti ^z

N h U n.^s + 1V n ) ^ c r ^ ^ , ,) ,

N N - n )h (h s + (N - n ) )[ ]

La adopcin de una funcin de prdida cuadrtica conduce a considerar como

estimador ptimo de la rnedia poblacional la media de la distribucin [4] . En particularsi sobre los parmetros se asigna la distribucin de referencia P ^c h) h 1, los

estimadores que se obtienen son

_ -Xs

t ti^1

si:;=yi;parai=1,...,N

t2=-ns+{Nn Y^N

^ ^ s

si zi = y?; para 1, ..., N. EI primero es el estimador de razn que aparece en los

textos clsicos Cochran, 1963}, utiiizado con un diseo aleatorio simple, y el segundo

presenta una ligera modificacin al propuesto por Hartley y Ross (1954). Ambo^ coinci-

den con los estimadores mnimo-cuadrticos ohtenidos por Brewer 19b3), con la res-

triccin de linealidad. Las varianzas de las distribuciones finales en los cios casos

anteriores son respec tivamente

N n. vy y,^ x2/y; x i^s _

Nn n - 3) y S

Nn Nn22 ^ y; 4 ^- 3 Nn n i^s n ^iEs

_

ni F

7/24/2019 601-380-99_4

6/12

ESTADISTICA SNAiVQI.,A

4. Ei_..ECION DE LA MUESTRA

En la 5eccin 3 se ha resuelto el problerna de estimar la media poblacional, indepen-

dientemente del criteria utilizado en la seleccin de la muestra En esta seccin nosplanteamos el problema de selecc ionar una muestra s como un problema de dec isin,

donde las posibles acciones son todas las anteriores de tamao n, y la funcin de riesgo

es el valor esperado de la varianza de la distribucin condicionada [4]. La decisin

ptima consistir en elegir aquella muestra s* para la que se minimice E[ V(S^^ D)], donde la esperanza es tomada respecto de la predictiva P(Xs).

Es evidente que, p or la hiptesis de intercambiabilidad parcial, la muestra ptima

vendr determinada a travs del vector v de valores auxiliares asociados, lo que nus

lleva a considerar la posibilidad de que tal muestra no sea nica.

Supongamos seleccionada una muestra s, y sea ys el vector auxiliar asociado.

Marginalizando en [2] se obtiene la distribucin

u^ y T X1^ ys, H u^

donde

h ^s, ys, ysiys,H - - ...

h y s ; . y s^ h z s , ^ .Y

De [S] se deducen, al operar, las siguientes expresiones tiles para el clculo

[S l

^ X -- a yi)2/Zi = n K = [6]

iEs Q -- 2h

E[ K^,] = K= 1+ 1 + x' 2 K= [ ] _ y h,

b'E [ Kx=] = Q - ^ n + Ky=/h ) + x ^ K = [ 8 ]

De [6], [ y [S] se deduce

nE[ 6 ] = b' 1+ [ 9]

a` 2

7/24/2019 601-380-99_4

7/12

ESTIMADORES DE RAI.I~.)N Y DE REGRESION EN F'UBLACIONES F-lNITAS

Y teniendo en cuenta que la varianza de la distribucin final [4 nicamente depende de

los datos a travs de b , se sigue

E[V(X/D)] _b

N2(a -- 2)

Y ;

sn f +

h' + y/z;

^oj

Es fcil ver que para los tres casos ms usuales de valores de z;: 1, y; y y? ( i=

= 1, .. ., N , la ex resin l alcanza su mnimo cuando ^: es mxi mo, or Io ue,[ ^j y P qteniendo en cuenta la restriccin inicial y; 0 i = l,..., N , la muestra ptima ser

la formada por aquellas unidades de la poblacin sobre las que la caracteristica auxiliar

toma los valores ms grandes

N OTA

El planteamiento anterior puede ser extendido cuando son considerados mtodos

aleatorios de seleccin muestral. Asi, si p es un diseo que establece una distribucin

de probabilidad sobre el espacio de muestras de tamao n, la minimizacin de

Ep(E[ V(X/ D)j ), donde la primera esperanza es tomada respecto a la distribucin defi-

nida por p, proporcionar el diseo ptimo mediante el que seleccionar la muestra.

Sin embargo, es fcil ver que si s* minimiza el interior del corchete, la solucin ptima

consistir en elegir un diseo p* que asigne probabilidad uno a s*, siendo nula la proba-

bilidad de elegir cualquier otra muestra. La importancia de este resultado se pone de

manifiesto aJ descubrir que mientras no se efecten criticas al modelo, los mtodos

aleatorios de seleccin muestral no permiten mejorar la inferencia efectuada a partir de

una muestra intenciondamente seleccionada.

EXTENSION A UN MODELO DE REGRESION LINEAL SIMPLE

Consideremos ahora un modelo ms ger eral que el especificado en el apartado 2. En

zl mismo, supondremos que la relacin establecida entre las caracteristicas de inters y

auxiliar no es necesariamente lineal por el origen, viniendo expresada por la distribu-

cin condicional

X;1y;, a, , h) N[X ^ + y;, h/z;l

^C.a adopcin de una ciistribucin sobre el vector de inters X, anloga a la [ 2] , con

una inicial sobre los parmetros definida por

u

3 a, h - ,N2 . a hH C h

7/24/2019 601-380-99_4

8/12

K

^ c^n

ESTA[ IST1C/ FSF ^ )E_r 1

H

proporciona para ia media anterior media: ^3 +x, y varianza:

h

a 2 N

ir , il I

ir,^ h:

una distribucin T con u' grados de libertad,

i,v+2yir,i +h

h h2 - h i i

Seleccionada una muestra s de valores auxiliares asociados j s, y observados los

datos zs, se deduce {Murgui, 19K2) a siguiente distribucin na para os parmetros

( ^ , ^c , h / D> ^ N 2 , { rH" '

x x

siendo

u = u + n

.t

i^

h =b' + K 2-- KX _ K Kx,, - ,x E{y 2

K K{ K Ky= - Ky )

H- h, Khy Kyh ^ K y h 2-t- ^{y=

^ = Q R ti? h i - h^zh,zj+^c'(h^12h ' h`h `2) +

+ Ky2 ^{x Ky K,^ ( Kh 2-^{yh ^`2) + K K.,^, -- K^ KyK K,,2 - Ky i{ Ky= - Ky

x _ h' it - h' ir +x' h' h - h' h )+Q a^ ^^ ^ z ^ z ,

+ K y 2 K x Ky Kxy ( K h - Kh )K K = - [ { y =

y i i z

o

Kx - . X^ zts

K - y; / z;rs

Kyh - Ky=h , z)

K KXy - KX Ky ( K_h -

K K^,2 - Ky y

K = 1 /z;;Es

Q ={h h h 2^ - E

2 a

7/24/2019 601-380-99_4

9/12

ESTIMADC)RE5 DE RA/ON Y DE REGRESION EN PC)B[.A(. iONES F-IhITAS fi9

De la integral

^ ^ ,P( # D) = N[^C I^3 + ary, , N - n)h/z )N2 ^ , hH

R+

ur h I 2, 2 ^i d^ccih

se sigue que la distribucin final, despus de ser observados los datos, del factor

aleatorio ^ , , de la media poblacional, es una T con W grados de libertad, rnedia (3 +

+ ac y , y varianza

b ^^ h y^ - 2h; 2v + h2+- 2 N- n Q

Con la adopcin de una funcin de prdida cuadrtica, e1 estimador ptimo de 1a

media pobiacional viene dado por la expresin

E [ X / Dj = n^ s + ( N - n ) 3 + ( N - n ) x )

N

En particular, asignando sobre los parrnetros la distribucin inicial de referencia

P(R, x, h x h-l, el estimador ptimo en el caso ; = l, l, ..., N, es el de regre-sin, t3 = xs + c y -_`v ), utilizado con un diseo aleatorio simple en los textosclsicos Cochran, 1963), siendo

x;y - - nx ys s

_ 2^i n .ys

s

el coeficiente de regresin de ia caracterstica de inters sobre la auxiliar en la muestra.

La varianza de la distribucin final en este caso viene expresada por

(N -n n N + C3s - y 1)ZSZ_ zsx ^

N2 n - 4) n(N - n) n S j 12)

siendo p el coeficiente de correlacin en la muestra y S x y S y las varianzas muestrales

respectivas.

7/24/2019 601-380-99_4

10/12

7 E.STADI5.TIC A ESF APl{)t..A

Pl intead e pre)hlemti de eieccin muestral cc mc en el apartado 4, clculos labo-

riosos cunciucen a la sig iente expresin para la varianza final esperada

Ej V(X/ D)]1 ^ n2 h ; ^ ^ h^ ; ^ ^ ^ - - 2 f i; 2 y - ^ 2

^ - (13]N t 2 N rZ Q

tomando ahora lmites p ara h;, fi y fr ^ -, tendiendo a cero siendo 6 y(u - 2)

intinitsimos equivalentes en el caso ; r= 1 para i= l, ..., N, la expresin [ 13] se reduce

a

N_ n2 N{ ,s _ ,^ z

+N N-- n S

[ l

que coincide con el error cuadrtic medio del estimador lineal mnimo-cuadrtico, ob-

tenido en Roy. .ll (1970),

La minimizacin de [ 14 nos induce a seleccionar aquella muestra s*, para la cual se

minimice

s_ v )

n sy

para ello necesitamos maximizar la va rianza muestral de la caracterstica auxiliar, pro-curando al mismo tiernpo que la media fi en la muestra se mantenga, aproximadamente,

igual a la de toda la poblacin. E1 criterio podra consistir en elegir las unidades con

valores auxiliares extremos, manteniendo una cierta acotacin para la diferencia entre

las medias.

bsrvese que si existiera una muestra equilibrada, en el sentido de que verificase

la condicin s = v , ia expresin [ 14] alcanzara su valor mnimo, siendo entonces el

estimador cptimo la media muestral . s y la varianza de la distribucin f nal ( l2j se

reduciria a

N- ns X 1 - E^ )

N(n - 4>

valor que coincide con la varianza propuesta por Basulto 1980) cuando los vectores

aleatorios (X; , Y; ), 1. .. ., N, sc n intercambiables. Tambin no es muy pequeo

dicho valor coincide con la varianza estimada del estimador dP regresin cuando la

muestra ha sido seleccionada mediante un cliseo aleatorio simple.

7/24/2019 601-380-99_4

11/12

ES TIMAC)RES DE RAl.[i1 V Y DE REGRESI )N EN YC)F3LAC IONES ) -IN17 AS 7

b. DISCUSI ^N

En la seccn 3 se ha visto que el estimador de razn es ptimo, para estimar la

media poblacionai de una caracterstica X, en el caso de que Id poblac n sea descrita purun modelo de regresin por el origen con varianza proporcional a la caracterstica auxiliar

Y. EI diseo intencionado obtenido en la seccin 4, aunque ptimo bajo el modelo

propuesto, puede ser inadecuado para protegernos frente a errores cometidos en la espe-

cificacin del rnodelo. Como consecuencia de esto ltimo, Royall y Herson 1973) intro-

ducen los dseos equilibrados que nos protegen frente a cierta tipo de errores cometi-

dos al elegir el modelo. Igualmente, en la seccin S, se ha visto que el estmador de

regresin es ptimo en el caso de que la po blacin es descrita por un modelo de

regresin simple. En cuanto al diseo intencionado hallado, si ei modelo no es adecuado

porque la relacin entre ambas caractersticas presenta ciertas dosis de curvatura, enton-

ces los diseos equilibrados pueden muy bien protegernos frente a estas eventualida-des.

El uso de diseos intencionados no implica el rechazo de los diseos aleatorios. Estosltimos tienen una serie de funciones que han sido analizadas claramente eri Ro-

yal l 1976) .

Finalmente, si modelizar una poblacin finita rnediante un diseo aleatorio es objetivo

segn algunos autores), tambin modelizar una poblacin mediante un rnodelo de su-

perpoblacin no deja de ser igual de objetivo. La cuestin fundamental a resolver por

tales autores debera consistir en encontrar en cada caso el diseo aleatorio que recoja laestructura de la poblacin bajo estudio.

AGRADEC IM IENTOS

AI profesor J. Basulta, de Ia Universidad de Sevilla, por su valiosa colaboracin en ladiscusin y critica del trabajo.

REFERENCIAS BIBLIUGRAFICAS

BASUro, J.: uUn modeio predictivo bivariante para poblaciones finitas y homgneas. stacl trc aEspaola 84 y 8S, pp. 43-51, l ga.

BASULTO, J., y MuRGV1, J. S.: Diseo inferencia y robustez en pohluciones finitas. Uniwersidad deSevilla. No publicado, 1982.

BREWER, K. R. V t.: Ratio estimation and inite populations: Some results deducible from assump-tion of an underlying stoc hastic pracess Aust. J. Statists 5, pginas 93-104, 1963.

7/24/2019 601-380-99_4

12/12

ES TADIS i lC:A ESE'AO1._A

CASSEL, C. M.; SARNDAL. C. c., y WRET:MAN, J. H.: Fnundatic^ns , inf rence in sun^Py sclm-

plinK. Wiley. New York, I977.

C 7CHRAN, W. G.: ScamplinR TPChniyu^ s. Wi1ey, New York, 19fi3.

ERI SON W. A.: Subjetive bayesian models in sampling finite populations ..I. R. Statist. Soc. B.31, pp. 195- 24, 199.

NARTLEY, H. O. y Ross, A.: Unbased ratio estimates . NUture 174, pp. 270-271, 1954.

MuRGU , J. S.: Diser e inf Prencia en polacivnes^nitas: Mr^detos de superpoblaeivn. Tesis doc:to-

ra{. Universidad de Valencia, l982.

ROYALL, R. M.: C n a finite population sampling theory under certain linear regression models .

Biumetrika, 57, pp. 377387, 1974.

RflY1LL, R. M.: KCurrent advances in sampling theory: Implications for human observational stu-

dies Amer. J. vf Epidemiuln y 104, n m. 4 pp. 463-473, 1976.

RoYwi-L, R. M. y CUMBERLAND, W. G.: And empiricai study af the ratio estimator and estimators

of its variance. J. Am^r. Stutist. Asnc,, 76, nm. 373, pp. 66-HK, 1981.

ROYALL, R. M. y HER9oN J.: Robust estimation in finite populations l. J. Arner. Stc tist.

Asoc. 68, nm. 344, pp. 88U-889, 1973.

SUGDEN, R. A.: Exchungeubility und the f^^undations ^f^surt^ey sumplin g. Unpublished Ph. D. thesis.

University of Southarnpton, 1978.

SUMMARY

n this essay, the ratio and regression estimators are studied from a

bayesian point of view. Two models of superpoblations between a variable

(of interest for the researcher) and an auxiliary variabie (whose values are

know for every unit which integrate the finite population under study) are

proposed. 1~or the first model, the ratio estimator and the purposive

design, that selects the population units with higher values of the auxiliary

vdriable, is shown to be on optimum strategy. The optimum strategy for

the second model consists of the regresson estimator plus the purposive

design that chooses a sampie such that it is between abaCanced sample

and a sample with high sampling varianc of the auxiliary variable.

Key wvrds: Ratio and regression estimators, bayesian inference, superpopu-

lation models, finite population.

AMS, 1970. Subject classitication: primaria, 62D05; secundaria, 62F15.

601-380-99_4

Documents

Transcript of 601-380-99_4