601-380-99_4
-
Upload
willianluza -
Category
Documents
-
view
215 -
download
0
Transcript of 601-380-99_4
-
7/24/2019 601-380-99_4
1/12
EST DISTIC ESP OLNm. 99 1983 p gs. 61 a 72
Estimadores de raz n y de regresi n en poblac onesf tas modelos de superpoblaci
por J. SANTIAGO MURGUI IZQUIERDO niversidad de alencia
RESUMEN
En este trabajo se estudian, desde un punto de vista bayesiano, los esti-
madores de razn yregresin. Se proponen dos modelos de superpo-
blacin que describen tipos de relaciones entre una variable de inters para
el investigador) y una variable auxiliar, cuyos valores son conocidos para
cada una de las unidades que constituyen la poblacin finita bajo estudio.
Para el primer modelo, se obtiene que el estimador razn junto a un
diseo intencionado, que selecciona las unidades de la poblacin con valores
ms altos de la variable auxiliar, es una estrategia ptima. La estrategia
ptima para el segundo modelo consiste en el estimador de regresin y el
diseo intencionado que elige una muestra entre equilibrada y con va-
rianza muestral grande de la variable auxil iar.
Palabras elave Estimadores de razn y regresin, inferencia bayesiana,
modelos de superpoblacin, poblacin infinita.
INTRODUCCION
Los problemas de eleccin de la muestra y estimacin en las encuestas suelen presen-
tarse dentro del siguiente marco terico: los elementos de una poblacin U de tamao N
-
7/24/2019 601-380-99_4
2/12
E:STAD^STIC A FSPA()i__A
son identiticados mediante una lista . Se supone qe el investigador est interesado en
estimar una funcin poblacional r (x ), donde z= x, ,..., xN) es el vector cuyas compo-nentes son los valores x que toma una caracteristca X sobre cada unidad de la lista. Para
estimar y x), se procede a ia obtencin de una muestra s o subconjuntc de , utilizando
un ciiseo aleatorio p. Si adrraiiimos que el tamao n de la muestra ha sido previamente
fijado atendiendo a los recursos econmicos disponibles, dicho diseop es una medida de
probabilidad sobre el conjunto de las partes de , tal que p s ) vale cero si el cardinal de s
es distinto de n. I_a eleccin de una fur cin c .zs) de las observaciones de la muestra
proporcionar entonces un estimador para la funcin poblacional f x).
Es corriente que antes de iniciar la encuesta sea conocido un vector v= y, ,..., _y N),formado por los valores que sobre las unidades de toma una caracterstica auxiliar Y. En
tal caso la identificacin de las unidades de la poblacin a travs de la lista permitir
establecer relaciones entre ambas caracteristicas. La incorporacin de la informacinproporcionada pory servir no slo para proponer estimadores sino incluso permitir- en
muchos c sos elegir un diseo p. Como ejemplo de esto ltimo b st consider r l
utilizacin de y para estratificar la poblacin con la subsiguiente adopcin del diseo ms
adecuado al caso.
Este planteamiento de las encuestas por muestreo ha sido recientemente criticado por
numerosos autores Casel, C. M., y otros, 1977; Royall, 1976; Royall y Cumberland,
1981 }, entre otros. Destaquemos aqu dos importantes limitaciones. En primer lugar, la
elec in de estirnadores de funciones tan usuales camo la media de la poblacin, contiene
en ocasiones un alto grado de arbitrariedad pensemos, por ejemplo, en los estimadores
de razn yregresin). EI mismo defecto presentan los estimadores de los errores
estndar en ,gran nmero de diseos. En segundo lugar, ciertas encuestas, como la En-
cuesta Permanente de Consumo 1NE), reducen el rea de estudio a una subpoblacin
que previamente ha manifestado su disposicin a colaborar. La representatividad de
esta subpoblacin y la eleccin de una muestra a partir de la misma que sea representa-
tiva, no aparece entonces justificada dentro del marco terico expuesto.
Las limitaciones de los mtodos clsicos han conducido a desarrollar una nueva
metodologa Basulto y Murgui, 1982), fundamentada en los Modelos de Superpobla-
cin. En esencia, la idea cansiste en considerar a z como un vector aleatorio, propo- niendo un modelo probabilstico M X/y) que especifique las relaciones entre las caracte-
rstcas de nters y auxiliar. Por ejemplo, si por y; denotamos el nmero conocido) de
habitantes de ur a ciudad en un ao t y por X; el mismo nmero desconocido) pero
referido al ao t + k), un modelo adecuado para un colectivo de N ciudades seria el
expresado por x; = ay; + E;,
-
7/24/2019 601-380-99_4
3/12
ESTI MA[3ORES DE R.l.(:)N Y DE REtGRESION E N F'OBI..ACA O*^IE S t IN I TAS f
__y ^
El problema de elegir la muestra es resuelto ahora a partir del modelo Tv (X/ ) y la^ ^
estimacin de ` {X) se efectd mediante la obtencin de un predictor c (X ) c funcin que^
depende de X nicamente a travs de las componentes asociadas con las unidades mue -
trales.
El trabajo estd estructurado en secciones, as en la seccin 2 introducimas un modelo
de superpoblacin que describe una relacin lineal por el origen entre las caractersticas
consideradas; en la seccin 3 se obtiene la distribucin que nos permite hacer estimacio-
nes sobre la media poblacional del carcter X, resolviendo en la seccin 4 el problema de
seleccionar la muestra; en la seccin 5 se extiende lo anterior a un modelo lineal ms
general. Por ltimo, en la seccin 6, se discuten las ideas expuestas.
2. DESCRIPCION DEL MODELO
Sea U una poblacin bnita de tamao N, identificada sobre una lista { r^ ... u N} en
la que pretendemos in ve stigar los valores (X, ,..., XN ), que una caracterstica de inters
toma sobre sus unidades. Para ello suponemos conocidos los valores (y, ,..., y N) de
una caracterstica auxiliar, sobr e los que admitimos la restriccin y; ? 0, i=l, ... , N
Considerado el vector poblacional de inters X como aleatorio, podremos entonces
expresar la informacin inicial que sobre el mismo se disponga a travs de la forrnaliza-
cin de un modelo probabilistico. Supongamos que esta informacin viene recogida en las
siguientes hiptesis:
i El vector X es parcialmente intercambiable respecto de v, en el sentido de que su
distribucin de probabilidad verifica la condicin:
PX, ..., XNV, ..., yN r Xc(1)+ Xn N)Vn i )+. . . , ynr))
cualquiera que sea la permutacin n del conjunto { 1, 2, ..., N} que define la lista .
L.a hiptesis equivale (Sugden, 1978) a suponer que en la inferencia de una funcin
poblacional simtrica, tal como la media X, las unidades quedan identificadas a travs de
su valor auxiliar asociado y;.
ii) Admitimos la existencia de una relacin lineal por el origen entre las caractersti-
cas de inters y auxiliar, expresada a travs de la distribucin condicional:
h X;^y, , x, h -.- N X^ ^^y; ,
[
siendo h/z; la precisin, z; una funcin conocida de y generalmente, z _ ; con r= U
y 2 y{x, / parmetros desconacidos.
-
7/24/2019 601-380-99_4
4/12
Fs?A[)ISTlCA ESNA^V )C,.A
L.a especiticacin de una disiribucin P x, h) sobre los parmetros y las dos hiptesis^
anteriores inducen ( Ericson, 1969) d pruponer la siguiente Jistribucin inicial sobre X:
N
P(X,, ..., XNI =
j j^x ,/v^,x, h P x, iz } dxdh
[2jR R ;^
Centrando nuestro inters en estimar la media pablacional, la adopc;in inicial de(x, /r -.^ I^it^[x, h ^x , l1 , a', b' j en el modelo j2), proporciona la distribucin:
N h u
h; +Ny2 6
siendo N ^ ; y Nv
;^
3. ESTIMACIC)N DE LA MED1A
[
Con el tin de recabar informacin acerca de la variable de inters , se selecciona
una muestra s de tamao n, de la que, por la primera hiptesis, nicamente ser
relevante pra la inferencia el vector vs = (y;, iEs) de valores auxiliares. Sobre susunidades se observa ta caracterstica de inters, obteniendo como datos D para la
inferencia, las componentes del vector zs.La distribucin final de los parmetros viene entonces dada {Ericson, 1969) por una
N r[x, h x , h , u , b j donde
siendo
^^ ^c Kxy
h + Ky=
it =h +Ky=
u - u +n
1
b -- b' + j?' ( x; - x y; )Z / 4 1+ Ky= Kx= - K^ Kv= iE.c ^
xy = x V ^ Z
s
Kx: _ Z
{ = _ ^ y ^ z; s
-
7/24/2019 601-380-99_4
5/12
ESTIMAC3ORES DE RAl.ON Y DE REGRESI(lN EN F'C)BI.ACIC)NES F-ir l fAS fi5
Conocidos los datos, pociemos descomponer la media de la poblacin en la forma
X N ^,^ + N - n ^,^]
en la que xs expresa la media muestral y ,,,. la media aleataria} de la poblacin no
bservada.
La distribucin final de es obtenida de la integral
P X ,,/D) = P ,,l c, h) P x, h/D)dxdh ^
a partir de la cual es fcil deducir la distribucin de inters
/D - Ti ^z
N h U n.^s + 1V n ) ^ c r ^ ^ , ,) ,
N N - n )h (h s + (N - n ) )[ ]
La adopcin de una funcin de prdida cuadrtica conduce a considerar como
estimador ptimo de la rnedia poblacional la media de la distribucin [4] . En particularsi sobre los parmetros se asigna la distribucin de referencia P ^c h) h 1, los
estimadores que se obtienen son
_ -Xs
t ti^1
si:;=yi;parai=1,...,N
t2=-ns+{Nn Y^N
^ ^ s
si zi = y?; para 1, ..., N. EI primero es el estimador de razn que aparece en los
textos clsicos Cochran, 1963}, utiiizado con un diseo aleatorio simple, y el segundo
presenta una ligera modificacin al propuesto por Hartley y Ross (1954). Ambo^ coinci-
den con los estimadores mnimo-cuadrticos ohtenidos por Brewer 19b3), con la res-
triccin de linealidad. Las varianzas de las distribuciones finales en los cios casos
anteriores son respec tivamente
N n. vy y,^ x2/y; x i^s _
Nn n - 3) y S
Nn Nn22 ^ y; 4 ^- 3 Nn n i^s n ^iEs
_
ni F
-
7/24/2019 601-380-99_4
6/12
ESTADISTICA SNAiVQI.,A
4. Ei_..ECION DE LA MUESTRA
En la 5eccin 3 se ha resuelto el problerna de estimar la media poblacional, indepen-
dientemente del criteria utilizado en la seleccin de la muestra En esta seccin nosplanteamos el problema de selecc ionar una muestra s como un problema de dec isin,
donde las posibles acciones son todas las anteriores de tamao n, y la funcin de riesgo
es el valor esperado de la varianza de la distribucin condicionada [4]. La decisin
ptima consistir en elegir aquella muestra s* para la que se minimice E[ V(S^^ D)], donde la esperanza es tomada respecto de la predictiva P(Xs).
Es evidente que, p or la hiptesis de intercambiabilidad parcial, la muestra ptima
vendr determinada a travs del vector v de valores auxiliares asociados, lo que nus
lleva a considerar la posibilidad de que tal muestra no sea nica.
Supongamos seleccionada una muestra s, y sea ys el vector auxiliar asociado.
Marginalizando en [2] se obtiene la distribucin
u^ y T X1^ ys, H u^
donde
h ^s, ys, ysiys,H - - ...
h y s ; . y s^ h z s , ^ .Y
De [S] se deducen, al operar, las siguientes expresiones tiles para el clculo
[S l
^ X -- a yi)2/Zi = n K = [6]
iEs Q -- 2h
E[ K^,] = K= 1+ 1 + x' 2 K= [ ] _ y h,
b'E [ Kx=] = Q - ^ n + Ky=/h ) + x ^ K = [ 8 ]
De [6], [ y [S] se deduce
nE[ 6 ] = b' 1+ [ 9]
a` 2
-
7/24/2019 601-380-99_4
7/12
ESTIMADORES DE RAI.I~.)N Y DE REGRESION EN F'UBLACIONES F-lNITAS
Y teniendo en cuenta que la varianza de la distribucin final [4 nicamente depende de
los datos a travs de b , se sigue
E[V(X/D)] _b
N2(a -- 2)
Y ;
sn f +
h' + y/z;
^oj
Es fcil ver que para los tres casos ms usuales de valores de z;: 1, y; y y? ( i=
= 1, .. ., N , la ex resin l alcanza su mnimo cuando ^: es mxi mo, or Io ue,[ ^j y P qteniendo en cuenta la restriccin inicial y; 0 i = l,..., N , la muestra ptima ser
la formada por aquellas unidades de la poblacin sobre las que la caracteristica auxiliar
toma los valores ms grandes
N OTA
El planteamiento anterior puede ser extendido cuando son considerados mtodos
aleatorios de seleccin muestral. Asi, si p es un diseo que establece una distribucin
de probabilidad sobre el espacio de muestras de tamao n, la minimizacin de
Ep(E[ V(X/ D)j ), donde la primera esperanza es tomada respecto a la distribucin defi-
nida por p, proporcionar el diseo ptimo mediante el que seleccionar la muestra.
Sin embargo, es fcil ver que si s* minimiza el interior del corchete, la solucin ptima
consistir en elegir un diseo p* que asigne probabilidad uno a s*, siendo nula la proba-
bilidad de elegir cualquier otra muestra. La importancia de este resultado se pone de
manifiesto aJ descubrir que mientras no se efecten criticas al modelo, los mtodos
aleatorios de seleccin muestral no permiten mejorar la inferencia efectuada a partir de
una muestra intenciondamente seleccionada.
EXTENSION A UN MODELO DE REGRESION LINEAL SIMPLE
Consideremos ahora un modelo ms ger eral que el especificado en el apartado 2. En
zl mismo, supondremos que la relacin establecida entre las caracteristicas de inters y
auxiliar no es necesariamente lineal por el origen, viniendo expresada por la distribu-
cin condicional
X;1y;, a, , h) N[X ^ + y;, h/z;l
^C.a adopcin de una ciistribucin sobre el vector de inters X, anloga a la [ 2] , con
una inicial sobre los parmetros definida por
u
3 a, h - ,N2 . a hH C h
-
7/24/2019 601-380-99_4
8/12
K
^ c^n
ESTA[ IST1C/ FSF ^ )E_r 1
H
proporciona para ia media anterior media: ^3 +x, y varianza:
h
a 2 N
ir , il I
ir,^ h:
una distribucin T con u' grados de libertad,
i,v+2yir,i +h
h h2 - h i i
Seleccionada una muestra s de valores auxiliares asociados j s, y observados los
datos zs, se deduce {Murgui, 19K2) a siguiente distribucin na para os parmetros
( ^ , ^c , h / D> ^ N 2 , { rH" '
x x
siendo
u = u + n
.t
i^
h =b' + K 2-- KX _ K Kx,, - ,x E{y 2
K K{ K Ky= - Ky )
H- h, Khy Kyh ^ K y h 2-t- ^{y=
^ = Q R ti? h i - h^zh,zj+^c'(h^12h ' h`h `2) +
+ Ky2 ^{x Ky K,^ ( Kh 2-^{yh ^`2) + K K.,^, -- K^ KyK K,,2 - Ky i{ Ky= - Ky
x _ h' it - h' ir +x' h' h - h' h )+Q a^ ^^ ^ z ^ z ,
+ K y 2 K x Ky Kxy ( K h - Kh )K K = - [ { y =
y i i z
o
Kx - . X^ zts
K - y; / z;rs
Kyh - Ky=h , z)
K KXy - KX Ky ( K_h -
K K^,2 - Ky y
K = 1 /z;;Es
Q ={h h h 2^ - E
2 a
-
7/24/2019 601-380-99_4
9/12
ESTIMADC)RE5 DE RA/ON Y DE REGRESION EN PC)B[.A(. iONES F-IhITAS fi9
De la integral
^ ^ ,P( # D) = N[^C I^3 + ary, , N - n)h/z )N2 ^ , hH
R+
ur h I 2, 2 ^i d^ccih
se sigue que la distribucin final, despus de ser observados los datos, del factor
aleatorio ^ , , de la media poblacional, es una T con W grados de libertad, rnedia (3 +
+ ac y , y varianza
b ^^ h y^ - 2h; 2v + h2+- 2 N- n Q
Con la adopcin de una funcin de prdida cuadrtica, e1 estimador ptimo de 1a
media pobiacional viene dado por la expresin
E [ X / Dj = n^ s + ( N - n ) 3 + ( N - n ) x )
N
En particular, asignando sobre los parrnetros la distribucin inicial de referencia
P(R, x, h x h-l, el estimador ptimo en el caso ; = l, l, ..., N, es el de regre-sin, t3 = xs + c y -_`v ), utilizado con un diseo aleatorio simple en los textosclsicos Cochran, 1963), siendo
x;y - - nx ys s
_ 2^i n .ys
s
el coeficiente de regresin de ia caracterstica de inters sobre la auxiliar en la muestra.
La varianza de la distribucin final en este caso viene expresada por
(N -n n N + C3s - y 1)ZSZ_ zsx ^
N2 n - 4) n(N - n) n S j 12)
siendo p el coeficiente de correlacin en la muestra y S x y S y las varianzas muestrales
respectivas.
-
7/24/2019 601-380-99_4
10/12
7 E.STADI5.TIC A ESF APl{)t..A
Pl intead e pre)hlemti de eieccin muestral cc mc en el apartado 4, clculos labo-
riosos cunciucen a la sig iente expresin para la varianza final esperada
Ej V(X/ D)]1 ^ n2 h ; ^ ^ h^ ; ^ ^ ^ - - 2 f i; 2 y - ^ 2
^ - (13]N t 2 N rZ Q
tomando ahora lmites p ara h;, fi y fr ^ -, tendiendo a cero siendo 6 y(u - 2)
intinitsimos equivalentes en el caso ; r= 1 para i= l, ..., N, la expresin [ 13] se reduce
a
N_ n2 N{ ,s _ ,^ z
+N N-- n S
[ l
que coincide con el error cuadrtic medio del estimador lineal mnimo-cuadrtico, ob-
tenido en Roy. .ll (1970),
La minimizacin de [ 14 nos induce a seleccionar aquella muestra s*, para la cual se
minimice
s_ v )
n sy
para ello necesitamos maximizar la va rianza muestral de la caracterstica auxiliar, pro-curando al mismo tiernpo que la media fi en la muestra se mantenga, aproximadamente,
igual a la de toda la poblacin. E1 criterio podra consistir en elegir las unidades con
valores auxiliares extremos, manteniendo una cierta acotacin para la diferencia entre
las medias.
bsrvese que si existiera una muestra equilibrada, en el sentido de que verificase
la condicin s = v , ia expresin [ 14] alcanzara su valor mnimo, siendo entonces el
estimador cptimo la media muestral . s y la varianza de la distribucin f nal ( l2j se
reduciria a
N- ns X 1 - E^ )
N(n - 4>
valor que coincide con la varianza propuesta por Basulto 1980) cuando los vectores
aleatorios (X; , Y; ), 1. .. ., N, sc n intercambiables. Tambin no es muy pequeo
dicho valor coincide con la varianza estimada del estimador dP regresin cuando la
muestra ha sido seleccionada mediante un cliseo aleatorio simple.
-
7/24/2019 601-380-99_4
11/12
ES TIMAC)RES DE RAl.[i1 V Y DE REGRESI )N EN YC)F3LAC IONES ) -IN17 AS 7
b. DISCUSI ^N
En la seccn 3 se ha visto que el estimador de razn es ptimo, para estimar la
media poblacionai de una caracterstica X, en el caso de que Id poblac n sea descrita purun modelo de regresin por el origen con varianza proporcional a la caracterstica auxiliar
Y. EI diseo intencionado obtenido en la seccin 4, aunque ptimo bajo el modelo
propuesto, puede ser inadecuado para protegernos frente a errores cometidos en la espe-
cificacin del rnodelo. Como consecuencia de esto ltimo, Royall y Herson 1973) intro-
ducen los dseos equilibrados que nos protegen frente a cierta tipo de errores cometi-
dos al elegir el modelo. Igualmente, en la seccin S, se ha visto que el estmador de
regresin es ptimo en el caso de que la po blacin es descrita por un modelo de
regresin simple. En cuanto al diseo intencionado hallado, si ei modelo no es adecuado
porque la relacin entre ambas caractersticas presenta ciertas dosis de curvatura, enton-
ces los diseos equilibrados pueden muy bien protegernos frente a estas eventualida-des.
El uso de diseos intencionados no implica el rechazo de los diseos aleatorios. Estosltimos tienen una serie de funciones que han sido analizadas claramente eri Ro-
yal l 1976) .
Finalmente, si modelizar una poblacin finita rnediante un diseo aleatorio es objetivo
segn algunos autores), tambin modelizar una poblacin mediante un rnodelo de su-
perpoblacin no deja de ser igual de objetivo. La cuestin fundamental a resolver por
tales autores debera consistir en encontrar en cada caso el diseo aleatorio que recoja laestructura de la poblacin bajo estudio.
AGRADEC IM IENTOS
AI profesor J. Basulta, de Ia Universidad de Sevilla, por su valiosa colaboracin en ladiscusin y critica del trabajo.
REFERENCIAS BIBLIUGRAFICAS
BASUro, J.: uUn modeio predictivo bivariante para poblaciones finitas y homgneas. stacl trc aEspaola 84 y 8S, pp. 43-51, l ga.
BASULTO, J., y MuRGV1, J. S.: Diseo inferencia y robustez en pohluciones finitas. Uniwersidad deSevilla. No publicado, 1982.
BREWER, K. R. V t.: Ratio estimation and inite populations: Some results deducible from assump-tion of an underlying stoc hastic pracess Aust. J. Statists 5, pginas 93-104, 1963.
-
7/24/2019 601-380-99_4
12/12
ES TADIS i lC:A ESE'AO1._A
CASSEL, C. M.; SARNDAL. C. c., y WRET:MAN, J. H.: Fnundatic^ns , inf rence in sun^Py sclm-
plinK. Wiley. New York, I977.
C 7CHRAN, W. G.: ScamplinR TPChniyu^ s. Wi1ey, New York, 19fi3.
ERI SON W. A.: Subjetive bayesian models in sampling finite populations ..I. R. Statist. Soc. B.31, pp. 195- 24, 199.
NARTLEY, H. O. y Ross, A.: Unbased ratio estimates . NUture 174, pp. 270-271, 1954.
MuRGU , J. S.: Diser e inf Prencia en polacivnes^nitas: Mr^detos de superpoblaeivn. Tesis doc:to-
ra{. Universidad de Valencia, l982.
ROYALL, R. M.: C n a finite population sampling theory under certain linear regression models .
Biumetrika, 57, pp. 377387, 1974.
RflY1LL, R. M.: KCurrent advances in sampling theory: Implications for human observational stu-
dies Amer. J. vf Epidemiuln y 104, n m. 4 pp. 463-473, 1976.
RoYwi-L, R. M. y CUMBERLAND, W. G.: And empiricai study af the ratio estimator and estimators
of its variance. J. Am^r. Stutist. Asnc,, 76, nm. 373, pp. 66-HK, 1981.
ROYALL, R. M. y HER9oN J.: Robust estimation in finite populations l. J. Arner. Stc tist.
Asoc. 68, nm. 344, pp. 88U-889, 1973.
SUGDEN, R. A.: Exchungeubility und the f^^undations ^f^surt^ey sumplin g. Unpublished Ph. D. thesis.
University of Southarnpton, 1978.
SUMMARY
n this essay, the ratio and regression estimators are studied from a
bayesian point of view. Two models of superpoblations between a variable
(of interest for the researcher) and an auxiliary variabie (whose values are
know for every unit which integrate the finite population under study) are
proposed. 1~or the first model, the ratio estimator and the purposive
design, that selects the population units with higher values of the auxiliary
vdriable, is shown to be on optimum strategy. The optimum strategy for
the second model consists of the regresson estimator plus the purposive
design that chooses a sampie such that it is between abaCanced sample
and a sample with high sampling varianc of the auxiliary variable.
Key wvrds: Ratio and regression estimators, bayesian inference, superpopu-
lation models, finite population.
AMS, 1970. Subject classitication: primaria, 62D05; secundaria, 62F15.