Casella Español

142
Inferencia Estadística Ms. Carlos López de Castilla Vásquez 1 20 de enero de 2012 1 Si tienes comentarios envíalos al siguiente correo electrónico: [email protected]

Transcript of Casella Español

Page 1: Casella Español

Inferencia Estadística

Ms. Carlos López de Castilla Vásquez1

20 de enero de 2012

1Si tienes comentarios envíalos al siguiente correo electrónico:[email protected]

Page 2: Casella Español

Índice general

1. Teoría de la probabilidad 11.1. Teoría de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Fundamentos de la teoría de la probabilidad . . . . . . . . . . 4

1.2.1. Axiomas de la probabilidad . . . . . . . . . . . . . . . 41.2.2. Cálculo de probabilidades . . . . . . . . . . . . . . . . 41.2.3. Conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.4. Puntos igualmente probables . . . . . . . . . . . . . . . 7

1.3. Probabilidad condicional e independencia . . . . . . . . . . . . 71.4. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 81.5. Función de distribución acumulada . . . . . . . . . . . . . . . 81.6. Función de probabilidad y densidad . . . . . . . . . . . . . . 9

2. Transformaciones y esperanza 102.1. Transformaciones para variables aleatorias . . . . . . . . . . . 10

2.1.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . 112.1.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . 11

2.2. Valores esperados . . . . . . . . . . . . . . . . . . . . . . . . . 162.3. Momentos y función generatriz de momentos . . . . . . . . . . 192.4. Derivación bajo el signo de la integral . . . . . . . . . . . . . . 26

3. Familias de distribuciones 313.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . 313.2. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . 363.3. Familias exponenciales . . . . . . . . . . . . . . . . . . . . . . 423.4. Familias de locación y escala . . . . . . . . . . . . . . . . . . . 463.5. Desigualdades e identidades . . . . . . . . . . . . . . . . . . . 48

3.5.1. Desigualdades para probabilidades . . . . . . . . . . . 483.5.2. Identidades . . . . . . . . . . . . . . . . . . . . . . . . 48

i

Page 3: Casella Español

ÍNDICE GENERAL ii

4. Variables aleatorias múltiples 494.1. Distribución conjunta y marginal . . . . . . . . . . . . . . . . 494.2. Distribuciones condicionales e independencia . . . . . . . . . . 544.3. Transformaciones bivariadas . . . . . . . . . . . . . . . . . . . 61

4.3.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . 614.3.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . 62

4.4. Modelos jerárquicos y distribuciones mixtas . . . . . . . . . . 664.5. Covarianza y correlación . . . . . . . . . . . . . . . . . . . . . 714.6. Distribuciones multivariadas . . . . . . . . . . . . . . . . . . . 754.7. Transformaciones sobre un vector aleatorio . . . . . . . . . . . 804.8. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.8.1. Desigualdades numéricas . . . . . . . . . . . . . . . . . 81

5. Propiedades en una muestra aleatoria 835.1. Conceptos básicos sobre muestras aleatorias . . . . . . . . . . 835.2. Sumas de variables aleatorias a partir de una muestra aleatoria 845.3. Muestreo desde la distribución Normal . . . . . . . . . . . . . 88

5.3.1. Propiedades de la media y variancia muestral . . . . . 885.3.2. Distribuciones derivadas: t de Student y F de Snedecor 89

5.4. Estadísticas de orden . . . . . . . . . . . . . . . . . . . . . . 905.5. Conceptos de convergencia . . . . . . . . . . . . . . . . . . . . 94

5.5.1. Convergencia en probabilidad . . . . . . . . . . . . . . 945.5.2. Convergencia casi segura . . . . . . . . . . . . . . . . . 955.5.3. Convergencia en distribución . . . . . . . . . . . . . . 96

6. Principios de reducción de la data 1006.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1006.2. El principio de suficiencia . . . . . . . . . . . . . . . . . . . . 100

6.2.1. Estadística suficiente . . . . . . . . . . . . . . . . . . . 1016.2.2. Estadística minimal suficiente . . . . . . . . . . . . . . 1046.2.3. Estadística ancillar . . . . . . . . . . . . . . . . . . . . 1056.2.4. Estadística suficiente, ancillar y completa . . . . . . . . 106

7. Estimación puntual 1087.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 1087.2. Métodos para encontrar estimadores . . . . . . . . . . . . . . 108

7.2.1. Métodos de momentos . . . . . . . . . . . . . . . . . . 1087.2.2. Estimadores de máxima verosimilitud . . . . . . . . . . 110

Page 4: Casella Español

ÍNDICE GENERAL iii

7.3. Métodos de evaluación de estimadores . . . . . . . . . . . . . 1127.3.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . 1127.3.2. Mejores estimadores insesgados . . . . . . . . . . . . . 1147.3.3. Suficiencia e insesgabilidad . . . . . . . . . . . . . . . . 1177.3.4. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 119

7.4. Otras consideraciones . . . . . . . . . . . . . . . . . . . . . . . 1217.4.1. Variancia asintótica de los estimadores de máxima verosimil-

itud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1217.4.2. Aproximación por series de Taylor . . . . . . . . . . . 121

8. Prueba de hipótesis 1238.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1238.2. Métodos para encontrar pruebas . . . . . . . . . . . . . . . . . 124

8.2.1. Prueba de razón de verosimilitud . . . . . . . . . . . . 1248.3. Métodos para evaluar pruebas . . . . . . . . . . . . . . . . . . 125

8.3.1. Probabilidades de error y potencia de prueba . . . . . . 1258.4. Pruebas óptimas para hipótesis compuestas . . . . . . . . . . 126

8.4.1. Familias exponenciales . . . . . . . . . . . . . . . . . . 1268.4.2. Familias con la propiedad de razón de verosimilitud

monótona . . . . . . . . . . . . . . . . . . . . . . . . . 1278.4.3. Distribución asintótica de la prueba de razón de verosimil-

itud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

9. Estimación por intervalos 1309.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1309.2. Métodos para encontrar estimadores de intervalos . . . . . . . 131

9.2.1. Invirtiendo una prueba estadística . . . . . . . . . . . . 1319.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . 1339.2.3. Garantizado un invervalo . . . . . . . . . . . . . . . . . 134

9.3. Métodos de evaluación de estimadores por intervalos . . . . . 1369.3.1. Tamaño y probabilidad de cobertura . . . . . . . . . . 136

9.4. Otras consideraciones . . . . . . . . . . . . . . . . . . . . . . . 1379.4.1. Intervalos aproximados por máxima verosimilitud . . . 1379.4.2. Otros intervalos aproximados . . . . . . . . . . . . . . 138

Page 5: Casella Español

Capítulo 1

Teoría de la probabilidad

1.1. Teoría de conjuntosDefinición 1.1.1 El conjunto S de todos los posibles resultados de un exper-imento aleatorio es llamado el espacio muestral. Un espacio muestral puedeser numerable o no numerable.

Si los elementos del espacio muestral pueden ser puestos en correspon-dencia 1-1 con algún subconjunto de los números enteros entonces se diceque es numerable, de otro modo el espacio muestral es no numerable.

Definición 1.1.2 Un evento es cualquier colección de posibles resultados deun experimento aleatorio, es decir cualquier subconjunto de S (incluyéndolo).

Sean A y B eventos definidos en S:

A ⊂ B ⇔ x ∈ A⇒ x ∈ B

A = B ⇔ A ⊂ B y B ⊂ A

La unión de A y B, definida como A ∪ B, es el evento formado por loselementos de S que pertenecen por lo menos a uno de los eventos.

A ∪B = {x : x ∈ A o x ∈ B}

La intersección de A y B, definida como A∩B, es el evento formado porlos elementos de S que pertenecen a ambos eventos.

1

Page 6: Casella Español

CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD 2

A ∩B = {x : x ∈ A y x ∈ B}

El complemento de A, definido como Ac, es el evento formado por loselementos de S que no pertenecen a A.

Ac = {x : x /∈ A}

Ejemplo 1.1.1 Considere el experimento que consiste en elegir al azar unacarta de una baraja. Si se está interesado en la figura obtenida en la carta elespacio muestral es:

S = {♣,♦,♥,♠}

Algunos posibles eventos son:

A = {♣,♦} y B = {♦,♥,♠}

A partir de estos eventos se pueden formar:

A ∪B = {♣,♦,♥,♠, }, A ∩B = {♦} y Ac = {♥,♠}

Además, notar que A ∪ B = S y (A ∪B)c = φ, que denota el conjuntovacío.

Teorema 1.1.1 Sean A, B y C eventos definidos en un espacio muestral S,

a. Conmutatividad:A ∪B = B ∪ A

A ∩B = B ∩ A

b. Asociatividad:A ∪ (B ∪ C) = (A ∪B) ∪ C

A ∩ (B ∩ C) = (A ∩B) ∩ C

c. Leyes distributivas:

A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C)

A ∪ (B ∩ C) = (A ∪B) ∩ (A ∪ C)

Page 7: Casella Español

CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD 3

d. Leyes de DeMorgan:(A ∪B)c = Ac ∩Bc

(A ∩B)c = Ac ∪Bc

Las operaciones de unión e intersección pueden ser extendidas hacia colec-ciones infinitas de eventos. Si A1, A2, . . . es una colección infinita de eventosdefinidos sobre un espacio muestral S, entonces

∞⋃i=1

Ai = {x ∈ S : x ∈ Ai para algún i}

∞⋂i=1

Ai = {x ∈ S : x ∈ Ai para todo i}

Ejemplo 1.1.2 Sea S = (0, 1] y se define Ai = [(1/i) , 1]. Entonces ⋃∞i=1Ai =(0, 1] y ⋂∞i=1Ai = {1}.

También es posible definir uniones e intersecciones sobre una colección nonumerable de eventos. Si Γ es un conjunto de índices, entonces

⋃α∈Γ

Aα = {x ∈ S : x ∈ Aα para algún α}

⋂α∈Γ

Aα = {x ∈ S : x ∈ Aα para todo α}

Ejemplo 1.1.3 Si se toma Γ = {Todos los números reales positivos} y Aa =(0, a] entonces ⋃α∈Γ Aα = (0,∞) es una unión no numerable.

Definición 1.1.3 Dos eventosA yB son disjuntos (omutumente excluyentes)si A ∩ B = φ. Los eventos A1, A2, . . . son disjuntos por pares si Ai ∩ Aj = φpara todo i 6= j.

Ejemplo 1.1.4 La colección Ai = [i, i+ 1), i = 0, 1, . . . consiste de eventosdisjuntos por pares. Notar también que ⋃∞i=0Ai = [0,∞).

Definición 1.1.4 Si A1, A2, . . . son disjuntos por pares y ⋃∞i=1Ai = S en-tonces la colección A1, A2, . . . forma una partición de S.

Ejemplo 1.1.5 Los eventos Ai = [i, i+ 1) foman una partición de S =[0,∞) para i = 0, 1, . . . .

Page 8: Casella Español

CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD 4

1.2. Fundamentos de la teoría de la probabil-idad

1.2.1. Axiomas de la probabilidadPara cada evento A definido en el espacio muestral S es posible asociarle

un número entre cero y uno llamado la probabilidad de A y denotado porPr (A).

Definición 1.2.1 Una colección de subconjuntos de S es llamada un sigmaálgebra (o conjunto de Borel), denotada por B, si satisface las siguientespropiedades:

1. φ ∈ B (el conjunto vacío es un elemento de B).

2. Si A ∈ B entonces Ac ∈ B (B es cerrado bajo complementos).

3. Si A1, A2, . . . ∈ B entonces ⋃∞i=1Ai ∈ B (B es cerrado bajo unionesnumerables).

Definición 1.2.2 Dado un espacio muestral S y un sigma álgebra asociadoB, una función de probabilidad es una función Pr con dominio en B quesatisface:

1. Pr (A) ≥ 0 para todo A ∈ B.

2. Pr (S) = 1.

3. SiA1, A2, . . . ∈ B son eventos disjuntos por pares, entonces Pr (⋃∞i=1 Ai) =∑∞i=1 Pr (Ai).

1.2.2. Cálculo de probabilidadesTeorema 1.2.1 Si Pr es una función de probabilidad y A es cualquier eventoen B, entonces:

a. Pr (φ) = 0 , donde φ es el conjunto vacío.

b. Pr (A) ≤ 1.

c. Pr (Ac) = 1− Pr (A).

Page 9: Casella Español

CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD 5

Teorema 1.2.2 Si Pr es una función de probabilidad, A y B son eventos enB, entonces:

a. Pr (B ∩ Ac) = Pr (B)− Pr (A ∩B).

b. Pr (A ∪B) = Pr (A) + Pr (B)− Pr (A ∩B).

c. Si A ⊂ B entonces Pr (A) ≤ Pr (B).

Teorema 1.2.3 Si Pr es una función de probabilidad, entonces:

a. Pr (A) = ∑∞i=1 Pr (A ∩ Ci) para cualquier partición C1, C2, . . .

b. Pr (∪∞i=1Ai) ≤∑∞i=1 Pr (Ai) para eventos cualesquiera A1, A2, . . . (De-

sigualdad de Boole’s).

1.2.3. ConteoEjemplo 1.2.1 La Tinka es una modalidad de juego de lotería electrónicaque consiste en la extracción de seis bolillas sin reemplazo desde un bolillerocerrado que contiene cuarenta y cinco bolillas numeradas del 1 al 45. Paracalcular la probabilidad de ganar en este juego es necesario saber cuantosgrupos diferentes de seis números pueden escogerse a partir de los cuarentay cinco.

Ejemplo 1.2.2 En un torneo de eliminación simple, como el torneo abiertode tenis, los participantes avanzan hacia la final solo si ganan. Si se tienen16 participantes se podría estar interesados en la secuencia de oponentes quedebe enfrentar un participante para llegar a la final del torneo.

Teorema 1.2.4 Si un trabajo consistente en k actividades separadas, lai−ésima operación puede realizarse de ni formas, i = 1, 2, · · · , k, entonces eltrabajo completo puede realizarse de n1 × n2 × · · · × nk formas.

Definición 1.2.3 Para un entero positivo n, el factorial de n, denotado porn!, es el producto de todos los enteros positivos menores o iguales a n. Esdecir:

n! = n× (n− 1)× (n− 2)× · · · × 3× 2× 1

Además, se define 0! = 1.

Page 10: Casella Español

CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD 6

Definición 1.2.4 Para dos enteros no negativos n y r, n ≥ r, se define elsímbolo

(nr

)como: (

n

r

)= n!r! (n− r)!

Para saber el número total de jugadas necesarias para ganar el juego dela Tinka podrían considerarse las siguientes posibilidades:

1. Sin reemplazo y considerando que el orden es importante. Usando elteorema 1.2.4 el primer número puede ser elegido de 45 formas, el se-gundo de 44, etc. Es decir, existen:

45× 44× 43× 42× 41× 40 = 5864443200

posibles jugadas.

2. Con reemplazo y considerando que el orden es importante. Como cadanúmero puede ser elegido de 45 formas, existen:

45× 45× 45× 45× 45× 45 = 456 = 8303765625

posibles jugadas.

3. Sin reemplazo y considerando que el orden no es importante. Luego dehallar el número de jugadas considerando que el orden es importantehay que dividir el resultado entre las jugadas redundantes. Nuevamentepor el teorema 1.2.4 seis números pueden ser dispuestos de 6× 5× 4×3× 2× 1 formas, luego el número total de jugadas es:

45× 44× 43× 42× 41× 406× 5× 4× 3× 2× 1 = 45!

6!39! = 8145060

4. Con reemplazo y considerando que el orden no es importante. Pararealizar el proceso de conteo en este caso se puede considerar que hay45 casilleros para los números en los que hay que colocar 6 bolillas,digamos B, tal como se muestra a continuación:

Tabla 1.1: 45 casilleros y 6 bolillas

B BB B · · · B B1 2 3 4 5 · · · 42 43 44 45

Page 11: Casella Español

CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD 7

El número de jugadas posibles es igual al número de formas en quepueden colocarse las 6 bolillas en los 45 casilleros. El trabajo puederesultar menos complicado si consideramos la disposición de las bolillasy las paredes de las cajas sin tomar en cuenta la de los extremos. Luegodebe contarse el número total de arreglos de 46 paredes y 6 bolillas. Setienen 52 objetos que pueden disponerse de 52! formas y para eliminarlos ordenamientos redundantes luego hay que dividir entre 6! y 46!dando un total de:

52!6!46! = 20358520

Las cuatro situaciones anteriores se resumen a continuación:

Tabla 1.2: Número de posibles arreglos de tamaño r a partir de n objetos

Sin reemplazo Con reemplazoEl orden es importante n!

(n−r)! nr

El orden no es importante(nr

) (n+r−1

r

)

1.2.4. Puntos igualmente probablesSuponga que S = {s1, · · · , sN} es un espacio muestral finito. Se dice que

los puntos en S son igualmente probables si Pr ({si}) = 1N, para todo punto

si. Luego, usando (3) de la definición de probabilidad, se tiene que para todoevento A:

Pr (A) =∑si∈A

1N

= Número de elementos en ANúmero de elementos en S

1.3. Probabilidad condicional e independen-cia

Definición 1.3.1 Si A y B son eventos en S y Pr (B) > 0, entonces laprobabilidad condicional de A dado B, representada por Pr (A|B), es:

Pr (A|B) = Pr (A ∩B)Pr (B) (1.3.1)

Page 12: Casella Español

CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD 8

Teorema 1.3.1 (Regla de Bayes) Sean A1, A2, · · · una partición del es-pacio muestral S y sea B un evento definido también en S. Entonces, paracada i = 1, 2, · · ·

Pr (Ai|B) = Pr (B|Ai) Pr (Ai)∞∑j=1

Pr (B|Aj) Pr (Aj)

Definición 1.3.2 Dos eventos A y B son estadísticamente independientessi:

Pr (A ∩B) = Pr (A) Pr (B) (1.3.2)

Teorema 1.3.2 Si A y B son eventos independientes, entonces los siguientespares también lo son:

a. A y Bc.

b. Ac y B.

c. Ac y Bc.

Definición 1.3.3 Una colección de eventos A1, · · · , An son mutuamente in-dependientes si para cualquier subcolección Ai1 , · · · , Aik se tiene:

Pr(

k⋂i=1

Aij

)=

k∏j=1

Pr(Aij)

1.4. Variables aleatoriasDefinición 1.4.1 Una variable aleatoria es una función que se define desdeun espacio muestral S hacia los números reales.

1.5. Función de distribución acumuladaDefinición 1.5.1 La función de distribución acumulada de una variablealeatoria X, denotada por FX (x), se define por:

FX (x) = Pr (X ≤ x) , para todo x

Page 13: Casella Español

CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD 9

Teorema 1.5.1 La función FX (x) es una función de distribución acumuladasi y solo si se cumplen las tres condiciones siguientes:a. lım

x→−∞F (x) = 0 y lım

x→∞F (x) = 1.

b. F (x) es una función no decreciente de x.

c. F (x) es contínua hacia la derecha; esto es, para todo número x0,lımx↓x0

F (x) = F (x0).

Definición 1.5.2 Una variable aleatoria X es contínua si FX (x) es unafunción contínua de x. Una variable aleatoria X es discreta si FX (x) es unafunción paso de x.

Definición 1.5.3 Las variables aleatorias X y Y son identicamente dis-tribuidas si para cada evento A ∈ B, Pr (X ∈ A) = Pr (Y ∈ A).

Teorema 1.5.2 Las dos afirmaciones siguientes son equivalentes:a. Las variables aleatorias X y Y son identicamente distribuidas.

b. FX (x) = FY (x), para todo x.

1.6. Función de probabilidad y densidadDefinición 1.6.1 La función de probabilidad de una variable aleatoria disc-reta X esta dada por:

fX (x) = Pr (X = x) , para todo xDefinición 1.6.2 La función de densidad, fX (x) , de una variable aleatoriacontínua X es la función que satisface:

FX (x) =xˆ

−∞

fX (t) dt, para todo x

Teorema 1.6.1 Una función fX (x) es una función de probabilidad o funciónde densidad para una variable aleatoria X si y solo si:a. fX (x) ≥ 0 para todo x.

b. ∑x fX (x) = 1 si X es variable aleatoria discreta y´∞−∞ fX (x) dx = 1

si X es variable aleatoria contínua.

Page 14: Casella Español

Capítulo 2

Transformaciones y esperanza

2.1. Transformaciones para variables aleato-rias

Si X es una variable aleatoria con función de distribución acumuladaFX (x), entonces cualquier función de X es también una variable aleatoria.Si se define Y = g(X) es posible describir el comportamiento probabilisticode Y en términos de X.

Formalmente, y = g(x) define un mapa desde el espacio muestral de X ,X , al espacio muestral de Y , Y . Es decir:

g (x) : X −→ Y

Se asocia a g un mapa inverso, denotado por g−1, definido por:

g−1 (A) = {x ∈ X : g (x) ∈ A} (2.1.1)

g−1 (A) es el conjunto de puntos en X tal que g (x) pertenece al conjuntoA. Si el conjunto A es unitario, digamos A = {y}, entonces:

g−1 ({y}) = {x ∈ X : g (x) = y}

En este caso podria escribirse g−1 (y) en lugar de g−1 ({y}). Si existe unúnico x tal que g (x) = y, entonces g−1 (y) es el conjunto unitario {x} yademás g−1 (y) = x.

Si se define Y = g (X), entonces para cualquier conjunto A ⊂ Y :

10

Page 15: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 11

Pr (Y ∈ A) = Pr (g (X) ∈ A)= Pr ({x ∈ X : g (x) ∈ A}) (2.1.2)= Pr

(X ∈ g−1 (A)

)2.1.1. Caso discreto

Si X es una variable aleatoria discreta entonces X es numerable. El espa-cio muestral para Y = g(X) es Y = {y : y = g (x) , x ∈ X} el cual también esun conjunto numerable. Usando la ecuación 2.1.2 la función de probabilidadde Y es:

fY (y) = Pr (Y = y) =∑

x∈g−1(y)Pr (X = x) =

∑x∈g−1(y)

fX (x)

Ejemplo 2.1.1 Sea X ∼ BI (n, p) cuya función de probabilidad es:

fX (x) = Pr (X = x) =(n

x

)px (1− p)n−x , (2.1.3)

para x = 0, 1, · · · , n y 0 ≤ p ≤ 1. Considere la variable aleatoria Y =g (X) = n − X, entonces X = {0, 1, · · · , n} y Y = {0, 1, · · · , n}. Luegog−1 (y) es el conjunto unitario x = n− y, tal que:

fY (y) =∑

x∈g−1(y)fX (x)

= fX (n− y)

=(

n

n− y

)pn−y (1− p)n−(n−y)

=(n

y

)(1− p)y pn−y

es decir, Y ∼ BI (n, 1− p).

2.1.2. Caso continuoSi X y Y = g (X) son variables aleatorias continuas es posible encontrar

fórmulas para obtener la función de distribución acumulada y la función dedensidad de Y en términos de FX , fX y la función g.

Page 16: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 12

La función de distribución acumulada de Y = g (X) es:

FY (y) = Pr (Y ≤ y)= Pr (g (X) ≤ y)= Pr ({x ∈ X : g (x) ≤ y}) (2.1.4)

=ˆ{x∈X :g(x)≤y}

fX (x) dx

Suelen existir algunas dificultades en identificar {x ∈ X : g (x) ≤ y} y ll-evar a cabo el proceso de integración de fX (x) sobre esta región. Suele serconveniente utilizar:

X = {x : fX (x) > 0} y Y = {y : y = g (x) para algúnx ∈ X} (2.1.5)

La función de densidad de la variable aleatoria X es positiva solo sobreX llamado el conjunto soporte de la distribución. Esta terminología tambiénes aplicable a una función de probabilidad.

Es sencillo trabajar con funciones g (x) que son monótonas, es decir, aque-llas que satisfacen alguna de las siguientes relaciones:

u > v ⇒ g (u) > g (v) (creciente) o u < v ⇒ g (u) > g (v) (decreciente)

Si la transformación x → g (x) es monótona entonces es uno a uno ysobreyectiva. La transformación es uno a uno si cada x permite obtener unúnico y y cada y se obtiene con a lo más un x. La transformación es sobreyec-tiva si para cada y ∈ Y , definido en 2.1.5, existe un x ∈ X tal que g (x) = y.Si g es monótona, entonces g−1es unitario; es decir, g−1 (y) = x si y solo siy = g (x).

Si g es creciente, esto implica que:

{x ∈ X : g (x) ≤ y} ={x ∈ X : g−1 (g (x)) ≤ g−1 (y)

}=

{x ∈ X : x ≤ g−1 (y)

}(2.1.6)

y usando 2.1.4, se tiene que:

FY (y) =ˆ{x∈X :x≤g−1(y)}

fX (x) dx =g−1(y)ˆ−∞

fX (x) dx = FX(g−1 (y)

)

Page 17: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 13

Si g es decreciente, entonces:

{x ∈ X : g (x) ≤ y} ={x ∈ X : g−1 (g (x)) ≥ g−1 (y)

}=

{x ∈ X : x ≥ g−1 (y)

}(2.1.7)

se tiene que:

FY (y) =∞

g−1(y)

fX (x) dx = 1− FX(g−1 (y)

)

Se resumen los resultados anteriores en el siguiente teorema.

Teorema 2.1.1 Sea X una variable aleatoria con función de distribuciónacumulada FX (x). Se define Y = g (X) y los espacios muestrales X y Ysegún 2.1.5.a. Si g es una función creciente sobre X , entonces FY (y) = FX (g−1 (y))

para y ∈ Y .

b. Si g es una función decreciente sobre X y X es una variable aleatoriacontinua, entonces FY (y) = 1− FX (g−1 (y)) para y ∈ Y .

Ejemplo 2.1.2 Suponga que X tiene función de densidad f (x) = 1 si 0 <x < 1, luego FX (x) = x. Si se realiza la transformación Y = g (X) =− logX, entonces g (x) es una función decreciente y Y = (0,∞). Para y > 0,y = − log x implica x = g−1 (y) = e−y, luego:

FY (y) = 1− FX(g−1 (y)

)= 1− FX

(e−y

)= 1− e−y

además FY (y) = 0 para y ≤ 0.

La función de densidad de Y puede obtenerse derivando su función dedistribución acumulada. La expresión resultante se presenta en el siguienteteorema.

Teorema 2.1.2 Sea X con función de densidad fX (x) y sea Y = g (X),donde g es una función monótona. Sean X y Y tal como se definieron en 2.1.5.Suponga que fX (x) es continua sobre X y que g−1 (y) tiene una derivadacontinua sobre Y . Entonces la función de densidad de Y es:

fY (y) =

fX (g−1 (y))∣∣∣ ddyg−1 (y)

∣∣∣ y ∈ Y0 de otro modo

(2.1.8)

Page 18: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 14

Demostración: Usando el teorema 2.1.1 y la regla de la cadena se tiene:

fY (y) = d

dyFY (y) =

fX (g−1 (y)) ddyg−1 (y) si g es creciente

−fX (g−1 (y)) ddyg−1 (y) si g es decreciente

Ejemplo 2.1.3 Sea fX (x) la función de densidad gamma:

fX (x) = 1(n− 1)!βnx

n−1e−x/β, 0 < x <∞

donde β > 0 y n es un entero positivo. Suponga que se desea encontrarla función de densidad de g (X) = 1/X. Notar que X = Y = (0,∞). Siy = g (x), entonces g−1 (y) = 1/y y d

dyg−1 (y) = −1/y2. Aplicando el teorema

anterior:

fY (y) = fX(g−1 (y)

) ∣∣∣∣∣ ddyg−1 (y)∣∣∣∣∣

= 1(n− 1)!βn

(1y

)n−1

e−1/(βy) 1y2

= 1(n− 1)!βn

(1y

)n+1

e−1/(βy)

se obtiene un caso especial de una función de densidad conocida comogamma inversa.

En muchas aplicaciones la función g podría no ser creciente ni decre-ciente, por consiguiente no prodrian aplicarse los resultados anteriores. Sinembargo es común el caso en el que la función g es monótona sobre ciertossubintervalos, los que permiten obtener una expresión para Y = g (X).

Ejemplo 2.1.4 Suponga que X es una variable aleatoria continua. La fun-ción de distribución acumulada de Y = X2, para y > 0, es:

FY (y) = Pr (Y ≤ y) = Pr(X2 ≤ y

)= Pr (−√y ≤ X ≤ √y)

Como X es variable aleatoria continua se tiene:

FY (y) = Pr (−√y < X ≤ √y)= Pr (X ≤ √y)− Pr (X ≤ −√y)= FX (√y)− FX (−√y)

Page 19: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 15

La función de densidad de Y puede obtenerse derivando su función dedistribución acumulada:

fY (y) = d

dyFY (y)

= d

dy[FX (√y)− FX (−√y)]

y usando la regla de la cadena para derivar FX(√y) y FX(−√y) se tiene:

fY (y) = 12√yfX (√y) + 1

2√yfX (−√y) (2.1.9)

Notar que la función de densidad anterior esta expresada como la sumade dos componentes sobre los intervalos donde g (x) = x2 es monótona.

Teorema 2.1.3 Sea X con función de densidad fX (x), Y = g (X) y elespacio muestral X definido en 2.1.5. Suponga que existe una particiónA0, A1, · · · , Ak de X tal que Pr (X ∈ A0) = 0 y fX (x) es continua sobrecada Ai. Suponga además que existen funciones g1 (x) , · · · , gk (x) definidassobre A1, · · · , Ak respectivamente, que satisfacen:

a. g (x) = gi (x) para x ∈ Ai,

b. gi (x) es monótona sobre Ai,

c. El conjunto Y = {y : y = gi (x) para algún x ∈ Ai} es el mismo paracada i = 1, · · · , k .

d. g−1i (y) tiene una derivada continua en Y , para cada i = 1, · · · , k .

Entonces:

fY (y) =

∑ki=1 fX

(g−1i (y)

) ∣∣∣ ddyg−1i (y)

∣∣∣ y ∈ Y0 de otro modo

Es importante notar que cada gi (x) es una transformación uno a unodesde Ai hacia Y . Además, g−1

i (y) es una función uno a uno desde Y haciaAi, tal que, para y ∈ Y , g−1

i (y) permite obtener un único x = g−1i (y) ∈ Ai

para el cual gi (x) = y.

Page 20: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 16

Ejemplo 2.1.5 Sea X con distribución normal estándar,

fX (x) = 1√2πe−x

2/2, −∞ < x <∞

Si Y = X2, la función g (x) = x2 es monótona sobre (−∞, 0) y (0,∞)con lo que Y = (0,∞). Aplicando el teorema 2.1.3 se tiene A0 = {0} y

A1 = (−∞, 0) g1 (x) = x2 g−11 (y) = −√y

A2 = (0,∞) g2 (x) = x2 g−12 (y) = √y

La función de densidad de Y es:

fY (y) = 1√2πe−(−√y)2

/2∣∣∣∣∣− 1

2√y

∣∣∣∣∣+ 1√2πe−(√y)2

/2∣∣∣∣∣ 12√y

∣∣∣∣∣= 1√

2π1√ye−y/2, 0 < y <∞

la cual es conocida como la distribución chi cuadrado con 1 grado delibertad.

Teorema 2.1.4 Sea X cuya función de distribución acumulada, FX (x), escontinua. Si se define la variable aleatoria Y = FX (x), entonces Y tienedistribución uniforme en el intervalo (0, 1).

Demostración: Si Y = FX (x) entonces 0 < y < 1,

Pr (Y ≤ y) = Pr (FX (X) ≤ y)= Pr

(F−1X [FX (X)] ≤ F−1

X (y))

= Pr(X ≤ F−1

X (y))

= FX(F−1X (y)

)= y

2.2. Valores esperadosDefinición 2.2.1 El valor esperado o media de una variable aleatoria g (X),denotado por E [g (X)], es:

E [g (X)] =

∑x∈X g (x) fX (x) siX es discreta´∞−∞ g (x) fX (x) dx siX es continua

(2.2.1)

Page 21: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 17

siempre que la integral o suma exista. Si E [|g (X)|] = ∞ se dice queE [g (X)] no existe.

Ejemplo 2.2.1 Suponga que X ∼ E (λ) , entonces su función de densidades:

fX (x) = 1λe−x/λ

para 0 ≤ x <∞ y λ > 0. Luego:

E [X] =∞

0

x1λe−x/λdx = λ

Ejemplo 2.2.2 Si X ∼ BI (n, p), entonces:

E [X] =n∑x=0

x

(n

x

)px(1− p)n−x =

n∑x=1

x

(n

x

)px(1− p)n−x

Usando la identidad x(nx

)= n

(n−1x−1

)se tiene:

E [X] =n∑x=1

n

(n− 1x− 1

)px(1− p)n−x

=n−1∑y=0

n

(n− 1y

)py+1(1− p)n−(y+1)

= npn−1∑y=0

(n− 1y

)py(1− p)n−1−y

= np

Ejemplo 2.2.3 Un ejemplo clásico de una variable aleatoria cuyo valor es-perado no existe corresponde a la distribución de Cauchy cuya función dedensidad es:

fX (x) = 1π

11 + x2 , −∞ < x <∞

Es fácil verificar que´∞−∞ fX (x) dx = 1, pero con respecto a su valor

esperado:

E [|X|] =ˆ ∞−∞

|x|π

11 + x2dx = 2

π

ˆ ∞0

x

1 + x2dx

Page 22: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 18

Para cualquier número positivo M ,ˆ M

0

x

1 + x2dx = 12 log

(1 + x2

) ∣∣∣∣M0

= 12 log

(1 +M2

)Luego,

E [|X|] = lımM→∞

ˆ M

0

x

1 + x2dx = 1π

lımM→∞

log(1 +M2

)=∞

y por consiguiente el E [X] de esta distribución no existe.

Teorema 2.2.1 Sea X una variable aleatoria y sean a, b y c constantes. En-tonces para funciones cualesquiera g1(x) y g2(x) cuyo valor esperado exista,

a. E [ag1(X) + bg2(X) + c] = aE [g1(X)] + bE [g2(X)] + c.

b. Si g1(x) ≥ 0 para todo x, entonces E [g1(X)] ≥ 0.

c. Si g1(x) ≥ g2(x) para todo x, entonces E [g1(X)] ≥ E [g2(X)].

d. Si a ≤ g1(x) ≤ b para todo x, entonces a ≤ E [g1(X)] ≤ b.

Ejemplo 2.2.4 Suponga que se mide la distancia entre una variable aleato-ria X y una constante b mediante (X − b)2. Mientras más cerca esté b de Xmás pequeña sera dicha cantidad. El objetivo es determinar el valor de b queminimize E

[(X − b)2

].

E[(X − b)2

]= E

[(X − E [X] + E [X]− b)2

]= E

[((X − E [X]) + (E [X]− b))2

]= E

[(X − E [X])2

]+ E

[(E [X]− b)2

]ya que E [(X − E [X])(E [X]− b)] = 0. Además (E [X] − b) es una con-

stante. Luego:

E[(X − b)2

]= E

[(X − E [X])2

]+ (E [X]− b)2

Como no se tiene control sobre el primer término del lado derecho y elsegundo término puede ser mayor o igual a 0, el menor valor se obtiene cuandob = E[X]. Entonces:

mınb

E[(X − b)2

]= E

[(X − E [X])2

]

Page 23: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 19

2.3. Momentos y función generatriz de mo-mentos

Definición 2.3.1 Para cada entero n, el n-ésimo momento de X, µ′n, es:

µ′

n = E [Xn]

El n-ésimo momento central de X, µn, es:

µn = E [(X − µ)n]

donde µ = µ′1 = E [X].

Definición 2.3.2 La varianza de una variable aleatoria X es su segundomomento central, Var (X) = E [(X − µ)2]. La raíz cuadrada positiva de lavarianza es conocida como desviación estándar.

Ejemplo 2.3.1 Si X ∼ E (λ), entonces:

Var (X) = E[(X − µ)2

]=∞

0

(x− λ)2 1λe−x/λdx = λ2

Teorema 2.3.1 Si X es una variable aleatoria con varianza finita, entoncespara constantes cualesquiera a y b:

Var (aX + b) = a2Var (X)

Demostración: Usando la definición de varianza:

Var (aX + b) = E[((aX + b)− E [(aX + b)])2

]= E

[(aX − aE [X])2

]= a2E

[(X − E [X])2

]= a2Var (X)

La siguiente forma de calcular la varianza es bastante útil:

Var (X) = E[X2]− E2 [X] (2.3.1)

Page 24: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 20

Ejemplo 2.3.2 Si X ∼ BI (n, p), entonces:

E[X2]

=n∑x=0

x2(n

x

)px(1− p)n−x

pero:

x2(n

x

)= x

n!(x− 1)!(n− x)! = xn

(n− 1x− 1

)luego,

E[X2]

=n∑x=1

xn

(n− 1x− 1

)px(1− p)n−x

= nn−1∑y=0

(y + 1)(n− 1y

)py+1(1− p)n−1−y

= np(n− 1)p+ np

Finalmente:

Var [X] = n2p2 − np2 + np− (np)2 = np(1− p)

.

Definición 2.3.3 Sea X una variable aleatoria. La función generatriz demomentos de X, denotada por MX (t), es:

MX (t) = E[etX

]sujeto a que el valor esperado exista para t en alguna vecindad de 0. Es

decir, existe h > 0 tal que, para todo t en −h < t < h, E[etX

]existe.

Más explícitamente:

MX (t) =

∑x e

txfX (x) siX es discreta´∞−∞ e

txfX (x) dx siX es continua

Teorema 2.3.2 Si X tiene función generatríz de momentosMX(t) entonces:

E [X] = M(1)X (0)

donde M (n)X (0) = dn

dtnMX(t)

∣∣∣t=0

.

Page 25: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 21

Prueba: Asumiendo que es posible intercambiar la derivada con la inte-gral, se tiene:

d

dtMX(t) = d

dt

ˆ ∞−∞

etxfX(x)dx

=ˆ ∞−∞

(d

dtetx)fX(x)dx

=ˆ ∞−∞

xetxfX(x)dx

= E[XetX

]luego d

dtMX(t)

∣∣∣t=0

= E[XetX

]∣∣∣t=0

= E [X]. Trabajando de manera análo-ga, se puede establecer que:

dn

dtnMX(t)

∣∣∣t=0

= E[XnetX

]∣∣∣t=0

= E [Xn]

Ejemplo 2.3.3 En el ejemplo 2.1.3 se usó un caso especial de la función dedensidad gamma:

f(x) = 1Γ(α)βαx

α−1e−x/β, 0 < x <∞, α > 0, β > 0

donde Γ(α) denota la función gamma cuyas propiedades se mencionan enla sección 3.2. La función generatriz de momentos de la distribución gammaesta dada por:

MX(t) = 1Γ(α)βα

ˆ ∞0

etxxα−1e−x/βdx

= 1Γ(α)βα

ˆ ∞0

xα−1e−x((1/β)−t)dx

= 1Γ(α)βα

ˆ ∞0

xα−1e−x/(β

1−βt)dx

= 1Γ(α)βαΓ(α)

1− βt

=(

11− βt

Page 26: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 22

y existe solo si t < 1/β. La media de la distribución gamma es:

E [X] = d

dtMX(t)

∣∣∣t=0

= αβ

(1− βt)α+1

∣∣∣t=0

= αβ

Los otros momentos pueden calcularse de forma similar.

Ejemplo 2.3.4 Si X ∼ BI (n, p), entonces:

MX(t) =n∑x=0

etx(n

x

)px(1− p)n−x

=n∑x=0

(n

x

)(pet)x(1− p)n−x

= [pet + (1− p)]n

recordando que ∑nx=0

(nx

)uxvn−x = (u+ v)n.

Si la función generatriz de momentos existe, entonces caracteriza un con-junto infinito de momentos. La pregunta natural es si la condición anteriordetermina una función de distribución acumulada única.

Ejemplo 2.3.5 Considere las siguientes funciones de densidad dadas por:

f1(x) = 1√2πx

e−(log x)2/2, 0 ≤ x <∞

f2(x) = f1(x) [1 + sin(2π log x)] , 0 ≤ x <∞

La función de densidad f1(x) es un caso especial de la función de densidadlognormal. Se puede probar que si X1 ∼ f1(x) entonces:

E [Xr1 ] = er

2/2, r = 0, 1, 2, · · ·es decir, X1 tiene todos sus momentos. Ahora si X2 ∼ f2(x) se tiene:

E [Xr2 ] =

ˆ ∞0

xrf1(x) [1 + sin(2π log x)] dx

= E [Xr1 ] +ˆ ∞

0xrf1(x) sin(2π log x)dx

La transformación y = log(x) − r muestra que la última integral sobreuna función impar en (−∞,∞) es igual a cero para r = 0, 1, 2, · · · . Es decir,que aunque X1 y X2 tienen diferentes funciones de densidad sus momentosson iguales para todo r. Las dos funciones de densidad son graficadas en lafigura 2.1.

Page 27: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 23

Teorema 2.3.3 Sean FX(x) y FY (y) dos funciones de distribución acumu-lada tal que todos sus momentos existen.

a. Si FX y FY tienen soporte acotado, entonces FX(u) = FY (u) para todou si y solo si E [Xr] = E [Y r] para todo entero r = 0, 1, 2, · · · .

b. Si las funciones generatrices de momentos existen y MX(t) = MY (t)para todo t en alguna vecindad de cero, entonces FX(u) = FY (u) paratodo u.

Teorema 2.3.4 Suponga {Xi, i = 1, 2, · · · } es una secuencia de variablesaleatorias cuya función generatriz de momentos es MXi(t). Además:

lımi→∞

MXi(t) = MX(t) para todo t en una vencidad de cero

dondeMX(t) es una función generatriz de momentos. Entonces existe unaúnica función de distribución acumulada FX cuyos momentos estan definidospor MX(t) y, para todo x donde FX(x) es continua, se tiene:

lımi→∞

FXi(x) = FX(x)

Es decir, la convergencia, para |t| < h, de funciones generatrices de mo-mentos en una función generatriz de momentos implica convergencia de fun-ciones de distribución acumulada.

Page 28: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 24

Figura 2.1: Dos funciones de densidad con los mismos momentos

Ejemplo 2.3.6 Una aproximación usada en cursos elementales de estadís-tica permite aproximar las probabilidades binomiales usando la distribuciónde Poisson. Esta aproximación es válida cuando n es grande y np es pequeño.

La función de probabilidad de Poisson es:

Pr(Y = y) = e−λλy

y! , y = 0, 1, 2, · · ·

donde λ es una constante positiva. La aproximacion es tal que si X tienedistribución binomial(n, p) y Y tiene distribución de Poisson(λ) con λ = np,entonces:

Pr(X = x) ≈ Pr(Y = x)

Page 29: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 25

Recordar que:MX(t) = [pet + (1− p)]n

es la función generatriz de momentos de la distribución binomial. Parala distribución de Poisson se puede demostrar que su función generatriz demomentos es:

MY (t) = eλ(et−1)

Como λ = np, entonces:

MX(t) =[1 + p(et − 1)

]n=

[1 + 1

n(et − 1)λ

]nLema 2.3.1 Sean a1, a2, · · · una secuencia de números que convergen haciaa, es decir lımn→∞ an = a, entonces:

lımn→∞

(1 + an

n

)n= ea

Demostración: La demostración de este lema puede encontrarse en lostextos de cálculo.

Luego, si se toma an = λ(et − 1) = a entonces:

lımn→∞

MX(t) = eλ(et−1) = MY (t)

es la función generatriz de momentos de la distribución de Poisson.

Teorema 2.3.5 Sean a y b constantes, la función generatriz de momentosde la variable aleatoria aX + b está dada por:

MaX+b(t) = ebtMX(at)

Prueba: Por definición:

MaX+b(t) = E[e(aX+b)t

]= E

[e(aX)tebt

]= ebtE

[e(aX)t

]= ebtMX(at)

Page 30: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 26

2.4. Derivación bajo el signo de la integralTeorema 2.4.1 (Regla de Leibnit’z) Si f(x, θ), a(θ) y b(θ) son diferen-ciables con respecto a θ, entonces:

d

ˆ b(θ)

a(θ)f(x, θ)dx = f(b(θ), θ) d

dθb(θ)− f(a(θ), θ) d

dθa(θ) +

ˆ b(θ)

a(θ)

∂θf(x, θ)dx

Notar que si a(θ) y b(θ) son constantes, se tiene un caso especial de laregla anterior:

d

ˆ b

a

f(x, θ)dx =ˆ b

a

∂θf(x, θ)dx

El rango en la integral anterior es finito, en caso contrario podrian surgircomplicaciones.

Teorema 2.4.2 Suponga que la función h(x, y) es continua en y0 para todox, y existe una función g(x) que satisface:

a. |h(x, y)| ≤ g(x) para todo x y y,

b.´∞−∞ g(x)dx <∞,

entonces:lımy→y0

ˆ ∞−∞

h(x, y)dx =ˆ ∞−∞

lımy→y0

h(x, y)dx

Es posible aplicar el teorema anterior para el caso en que h(x, y) se iden-tifique con la diferencia (f(x, θ + δ)− f(x, θ))/δ.

Teorema 2.4.3 Suponga que f(x, θ) es diferenciable en θ = θ0, es decir,

lımδ→0

f(x, θ + δ)− f(x, θ)δ

= ∂

∂θf(x, θ)

∣∣∣∣θ=θ0

para todo x, y que existen una función g(x, θ0) y una constante δ0 > 0tales que:

a.∣∣∣∣f(x,θ+δ)−f(x,θ)

δ

∣∣∣∣ ≤ g(x, θ0) para todo x y |δ| ≤ δ0,

b.´∞−∞ g(x, θ0)dx <∞,

Page 31: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 27

entonces:d

ˆ ∞−∞

f(x, θ)dx∣∣∣∣θ=θ0

=ˆ ∞−∞

[∂

∂θf(x, θ)

∣∣∣∣θ=θ0

]dx (2.4.1)

A menudo no se hace hincapié en la distinción entre θ y θ0, luego 2.4.1 seescribe como:

d

ˆ ∞−∞

f(x, θ)dx =ˆ ∞−∞

∂θf(x, θ)dx (2.4.2)

Corolario 2.4.1 Suponga f(x, θ) es diferenciable en θ y existe una funcióng(x, θ) tal que:∣∣∣∣ ∂∂θf(x, θ)

∣∣∣θ=θ/

∣∣∣∣ ≤ g(x, θ)para todo θ/ tal que∣∣∣θ/ − θ∣∣∣ ≤ δ0

y´∞−∞ g(x, θ)dx <∞, entonces se cumple 2.4.2.

Ejemplo 2.4.1 Sea X ∼ E(λ). Suponga que se desea calcular:

d

dλE [Xn] = d

ˆ ∞0

xn(1λ

)e−x/λdx

para n > 0 número entero. Si se desea intercambiar la derivada con laintegral, se tiene:

d

dλE [Xn] =

ˆ ∞0

d

dλxn(1λ

)e−x/λdx

=ˆ ∞

0

xn

λ2

(x

λ− 1

)e−x/λdx

= 1λ2E

[Xn+1

]− 1λE [Xn]

Para justificar el intercambio anterior, se acota la derivada de xn(

)e−x/λ,

∣∣∣∣∣ ∂∂λ(xne−x/λ

λ

)∣∣∣∣∣ = xne−x/λ

λ2

∣∣∣∣(xλ − 1)∣∣∣∣ ≤ xne−x/λ

λ2

(x

λ− 1

)

desde que x/λ > 0. Para alguna constante δ0 que satisface 0 < δ0 < λ, setoma:

g(x, λ) = xne−x/(λ+δ0)

(λ− δ0)2

(x

λ− δ0+ 1

)

Page 32: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 28

entonces:∣∣∣∣∣ ∂∂λ(xne−x/λ

λ

) ∣∣∣∣λ=λ/

∣∣∣∣∣ ≤ g(x, λ) para todoλ/ tal que∣∣∣λ/ − λ∣∣∣ ≤ δ0

Como la distribución exponencial tiene todos sus momentos, se cumple´∞−∞ g(x, θ)dx < ∞ siempre que λ − δ0 > 0, de manera que se justifica elcambio de la derivada con la integral.

La propiedad ilustrada para la distribución exponencial se cumple parauna gran clase de densidades de la sección 3.2.

Ejemplo 2.4.2 Sea X ∼ N (µ, σ2 = 1) y considere su función generatriz demomentos:

MX(t) = E[etX

]= 1√

ˆ ∞−∞

etxe−(x−µ)2/2dx

entonces:d

dtMX(t) = d

dtE[etX

]= E

[∂

∂tetX

]= E

[XetX

]Ejemplo 2.4.3 Sea X ∼ GE (θ) tal que:

Pr(X = x) = θ(1− θ)x x = 0, 1, · · · 0 < θ < 1

luego:

d

∞∑x=0

θ(1− θ)x =∞∑x=0

d

dθθ(1− θ)x

=∞∑x=0

[(1− θ)x − θx(1− θ)x−1

]= 1

θ

∞∑x=0

θ(1− θ)x − 11− θ

∞∑x=0

xθ(1− θ)x

como ∑∞x=0 θ(1− θ)x = 1, para todo 0 < θ < 1, su derivada es cero,

0 = 1θ− 1

1− θ

∞∑x=0

xθ(1− θ)x

= 1θ− 1

1− θE [X]

entonces E [X] = 1−θθ.

Page 33: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 29

Teorema 2.4.4 Suponga que la serie ∑∞x=0 h(θ, x) converge para todo θ enun intervalo (a, b) de números reales y:a. ∂

∂θh(θ, x) es continua en θ para cada x,

b. ∑∞x=0∂∂θh(θ, x) converge uniformemente sobre cada subintervalo cerrado

y acotado de (a, b),entonces:

d

∞∑x=0

h(θ, x) =∞∑x=0

∂θh(θ, x)

Ejemplo 2.4.4 (Continuación del ejemplo 2.4.3) Para aplicar el teore-ma 2.4.4 se identifica:

h(θ, x) = θ(1− θ)x

y ∂∂θh(θ, x) = (1 − θ)x − θx(1 − θ)x−1 para verificar que ∑∞x=0

∂∂θh(θ, x)

converge uniformemente. Se define Sn(θ) por:

Sn(θ) =∞∑x=0

[(1− θ)x − θx(1− θ)x−1

]La convergencia será uniforme en [c, d] ⊂ (0, 1) si, dado ε > 0, se puede

encontrar N tal que:n > N ⇒ |Sn(θ)− S∞(θ)| < ε para todo θ ∈ [c, d]

Recordar la suma parcial de la serie geométrica. Si y 6= 1, entonces:n∑k=0

yk = 1− yn+1

1− yluego:

n∑x=0

(1− θ)x = 1− (1− θ)n+1

θn∑x=0

θx(1− θ)x−1 = θn∑x=0− ∂

∂θ(1− θ)x

= −θ ddθ

n∑x=0

(1− θ)x

= −θ ddθ

[1− (1− θ)n+1

θ

]

= (1− (1− θ)n+1)− (n+ 1)θ(1− θ)nθ

Page 34: Casella Español

CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA 30

finalmente:

Sn(θ) = 1− (1− θ)n+1

θ− (1− (1− θ)n+1)− (n+ 1)θ(1− θ)n

θ= (n+ 1)(1− θ)n

Es claro que, para 0 < θ < 1, S∞ = lımn→∞ Sn(θ) = 0. Como Sn(θ)es continua la convergencia es uniforme sobre cualquier intervalo cerrado yacotado. Luego, las series de derivadas convergen uniformemente y el inter-cambio de la derivada con la integral está justificada.

Teorema 2.4.5 Suponga que la serie ∑∞x=0 h(θ, x) converge uniformementeen [a, b] y que para cada x h(θ, x) es una función continua de θ, entonces:

ˆ b

a

∞∑x=0

h(θ, x)dθ =∞∑x=0

ˆ b

a

h(θ, x)dθ

Page 35: Casella Español

Capítulo 3

Familias de distribuciones

3.1. Distribuciones discretasUna variable aleatoriaX se dice tiene una distribución discreta si su rango

es numerable.

Distribución uniforme discretaUna variable aleatoria X tiene distribución uniforme discreta (1, N) si:

Pr(X = x|N) = 1N, x = 1, 2, · · · , N (3.1.1)

donde N es un número entero. La media y varianza de la distribuciónuniforme discreta son:

E[X] = N + 12 Var (X) = (N + 1)(N − 1)

12

Si el espacio muestral es cualquier rango de enteros N0, N0 + 1, · · · , N1,entonces la función de probabilidad es:

Pr(X = x|N0, N1) = 1N0 −N1 + 1

Distribución hipergeométricaUna variable aleatoria X tiene distribución hipergeométrica (N,M, n) si:

31

Page 36: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 32

Pr(X = x|N,M, n) =

(M

x

)(N −Mn− x

)(N

n

) (3.1.2)

La media y varianza de la distribución hipergeométrica son:

E[X] = nM

NVar (X) = nM

N

((N −M)(N − n)

N(N − 1)

)

Ejemplo 3.1.1 Un ingeniero de control de calidad inspecciona una muestratomada al azar de dos calculadoras manuales de cada lote de tamaño 18.El lote sera aceptado si ambas calculadoras están en buenas condiciones detrabajo de otra manera se inspecciona todo el lote y el costo se carga alvendedor. ¿Cuál es la probabilidad de que un lote se acepte sin tener quehacer una inspección total si éste contiene cuatro calculadoras que no estánen buenas condiciones de trabajo? Aplicando la distribución hipergeométricacon N = 18, M = 14 y n = 2. Usando R, se tiene:

> dhyper(x = 2, m = 14, n = 4, k = 2)[1] 0.5947712

Notar que R considera los parámetros de la distribucion hipergeométrica(N,M, n) como (m+ n,m, k).

Distribución binomialUna variable aleatoria tiene distribución Bernoulli(p) si:

X =

1 con probabilidad p0 con probabilidad 1− p

con 0 ≤ p ≤ 1. El valor de X = 1 es comunmente llamado éxito y p laprobabilidad de éxito. La media y varianza de la distribución Bernoulli son:

E[X] = p Var (X) = p(1− p)

Si se tiene una secuencia de variables aleatorias con distribución Bernoulli(p),es decir X1, X2, · · · , Xn tal que:

Page 37: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 33

Xi =

1 con probabilidad p0 con probabilidad 1− p

entonces la variable aleatoria Y = ∑ni=1Xi tiene distribución binomial(n, p)

y su función de probabilidad es :

Pr(Y = y|n, p) =(n

y

)py(1− p)n−y, y = 0, 1, 2, · · · , n (3.1.3)

La media y varianza de la distribución binomial son:

E[X] = np Var (X) = np(1− p)

Ejemplo 3.1.2 Suponga que se esta interesado en calcular la probabilidadde obtener al menos un seis en cuatro lanzamientos de un dado regular. Esteexperimento puede ser modelado como una secuencia de cuatro ensayos deBernoulli con probabilidad de éxito p = 1/6. Si se define la variable aleatoriacomo X = número de lanzamientos en los que se obtuvo seis, entonces X ∼binomial(n = 4, p = 1/6). Usando R, se tiene:

> 1-dbinom(x = 0, size = 4, prob = 1/6)[1] 0.5177469

Distribución PoissonUna variable aleatoria X que toma valores en los enteros no negativos

tiene distribución Poisson(λ) si:

Pr(X = x|λ) = e−λλx

x! , x = 0, 1, 2, · · · (3.1.4)

La media y varianza de la distribución Poisson son:

E[X] = λ Var (X) = λ

Ejemplo 3.1.3 Considere un operador telefónico que recibe, en promedio,cinco llamadas cada tres minutos según un proceso de Poisson. ¿Cual esla probabilidad de no recibir llamadas en el siguiente minuto? ¿Cual es la

Page 38: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 34

probabilidad de recibir al menos dos llamadas? Sea X = número de llamadastelefónicas recibidas en un minuto, entonces X ∼ P (λ = 5/3). Usando R setiene:

> dpois(x=0, lambda=5/3)[1] 0.1888756> 1-ppois(q=1, lambda=5/3)[1] 0.4963317

Distribución binomial negativaLa distribución binomial cuenta el número de éxitos en un número fijo

de ensayos de Bernoulli. Suponga que se desea contar el número de ensayosnecesarios para obtener un número fijo de éxitos.

En una secuencia de ensayos independientes de Bernoulli(p) sea la variablealeatoria X definida como el ensayo en el que se obtiene el r-ésimo éxito,donde r es un entero, entonces:

Pr(X = x|r, p) =(x− 1r − 1

)pr(1− p)x−r, x = r, r + 1, · · · (3.1.5)

y se dice que X tiene distribución binomial negativa(r, p).La distribución binomial negativa también se define en términos de la

variable aleatoria Y = número de fracasos antes del r-ésimo éxito, es decirY = X−r. Luego, la fórmula alternativa de la distribución binomial negativaes:

Pr(Y = y|r, p) =(r + y − 1

y

)pr(1− p)y, y = 0, 1, 2, · · · (3.1.6)

A no ser que se indique lo contrario, nos referimos a la distribución bi-nomial negativa(r, p) usando la función de probabilidad anterior. La mediay varianza de la distribución binomial negativa son:

E[Y ] = r(1− p)p

Var (Y ) = r(1− p)p2

Page 39: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 35

Ejemplo 3.1.4 Una técnica conocida como muestreo binomial inverso sueleusarse en poblaciones biológicas. Si la proporción de individuos que poseecierta característica es p y se realiza el proceso de muestreo hasta observarr de tales individuos, entonces el número de individuos muestreados es unavariable aleatoria con distribución binomial negativa. Por ejemplo, supongaque en una población de moscas de la fruta se esta interesado en la proporciónque tienen alas vestigiales y se decide muestrear hasta encontrar 100 de estasmoscas. La probabilidad que se tenga que examinar al menos N moscas es:

Pr (X ≥ N) =∞∑x=N

(x− 1

99

)p100 (1− p)x−100

= 1−N−1∑x=100

(x− 1

99

)p100 (1− p)x−100

Dados p y N es posible evaluar la expresión anterior para determinar elvalor más probable para la cantidad observada de moscas de la fruta.

Distribución geométricaLa distribución geométrica es un caso especial de la distribución binomial

negativa. Si se toma r = 1 en 3.1.5 se tiene:

Pr(X = x|p) = p(1− p)x−1, x = 1, 2, · · · (3.1.7)la que define la función de probabilidad de una variable aleatoria X con

distribución geométrica(p) que se puede interpretar como el ensayo en el quese obtiene el primer éxito.

La media y varianza de X puede obtenerse usando las fórmulas de labinomial negativa cuando X = Y + 1. Luego:

E[X] = E[Y ] + 1 = 1p

Var (X) = 1− pp2

La distribución geométrica tiene una propiedad interesante conocida comola propiedad de falta de memoria. Para enteros s > t se tiene:

Pr(X > s|X > t) = Pr(X > s− t) (3.1.8)

Ejemplo 3.1.5 La distribución geométrica es usada para modelar el tiempode falla de un componente. Por ejemplo, si la probabilidad que una bombilla

Page 40: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 36

de luz falle en un dia cualquiera es 0.01, entonces la probabilidad que labombilla dure al menos 30 días es:

Pr (X ≥ 30) =∞∑

x=300,001 (0,999)x−1

y usando R, se tiene:> 1-pgeom(q=29, prob=0.001)[1] 0.970431

3.2. Distribuciones continuas

Distribución uniformeLa distribución uniforme continua se define sobre el intervalo [a, b] con la

siguiente función de densidad:

f(x|a, b) =

1b−a a ≤ x ≤ b

0 de otro modo(3.2.1)

La media y varianza de la distribución uniforme continua son:

E[X] = a+ b

2 Var (X) = (b− a)2

12

Distribución gammaLa distribución gamma es una familia flexible de distribuciones sobre

[0,∞). Si α es una constante positiva, la integral:ˆ ∞

0tα−1e−tdt

es finita. Solo si α es un entero positivo la integral anterior puede expre-sarse en forma cerrada. En cualquier caso su valor define la función gamma:

Γ(α) =ˆ ∞

0tα−1e−tdt (3.2.2)

Esta función satisface muchas relaciones útiles, en particular:

Page 41: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 37

Γ(α + 1) = αΓ(α), α > 0 (3.2.3)Combinando 3.2.3 se tiene que para cualquier entero n > 0:

Γ(n) = (n− 1)! (3.2.4)como la integral en 3.2.2 es positiva, se tiene que:

f(t) = tα−1e−t

Γ(α) , 0 < t <∞ (3.2.5)

es una función de densidad. Si se define la variable aleatoria X = βT ,donde β es una constante positiva se obtiene la familia gamma(α, β):

f(x|α, β) = 1Γ(α)βαx

α−1e−x/β, 0 < x <∞ (3.2.6)

donde α > 0 es llamado el parámetro de forma y β > 0 el parámetro deescala. La media y varianza de la distribución gamma son:

E[X] = αβ Var (X) = αβ2

La función generatriz de momentos de la distribución gamma(α, β) es:

MX(t) =(

11− βt

para t < 1/β. Existe una relación interesante entre la distribución gammay Poisson. Si X es una variable aleatoria gamma(α, β), donde α es un entero,entonces para todo X,

Pr(X ≤ x) = Pr(Y ≥ α) (3.2.7)donde Y ∼ P(x/β).Existen dos casos importantes de la distribución gamma. Si se toma α =

p/2, donde p es un entero y β = 2, entonces la función de densidad gammase convierte en:

f(x|p) = 1Γ(p/2)2p/2x

p/2−1e−x/2, 0 < x <∞ (3.2.8)

que es conocida como la función de densidad chi-cuadrado con p gradosde libertad.

Page 42: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 38

Otro caso especial se obtiene cuando α = 1, es decir:

f(x|β) = 1βe−x/β, 0 < x <∞ (3.2.9)

conocida como la función de densidad exponencial con parámetro de es-cala β. La distribución exponencial comparte la propiedad de pérdida dememoria de la geométrica. Si X ∼ E (β) entonces para s > t ≥ 0:

Pr(X > s|X > t) = Pr(X > s− t)Otra distribución relacionada a la familia gamma y exponencial es la

distribución Weibull. Si X ∼ E (β) entonces Y = X1/γ tiene distribuciónWeibull(γ, β):

fY (y|γ, β) = γ

βyγ−1e−y

γ/β, 0 < y <∞ (3.2.10)

donde γ > 0 y β > 0.

Distribución normalLa función de densidad de la distribución normal con media µ y varianza

σ2 es dada por:

f(x|µ, σ2) = 1√2πσ

e−(x−µ)2

2σ2 , −∞ < x <∞ (3.2.11)

donde:

E[X] = µ Var (X) = σ2

Si X ∼ N (µ, σ2) entonces la variable aleatoria Z = (X − µ)/σ tienedistribución N (0, 1) conocida como distribución normal estándar.

Se puede probar que la función de densidad normal 3.2.11 toma su valormáximo en x = µ y que sus puntos de inflección (donde la curva cambia decóncava a convexo) son x = µ± σ. La probabilidad que X este contenida en1, 2 ó 3 desviaciones estándar alrededor de su media es:

Pr(|X − µ| ≤ σ) = Pr(|Z| ≤ 1) = 0,6826

Pr(|X − µ| ≤ 2σ) = Pr(|Z| ≤ 2) = 0,9544

Page 43: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 39

Pr(|X − µ| ≤ 3σ) = Pr(|Z| ≤ 3) = 0,9974La distribución normal es usada como aproximación de otras distribu-

ciones. Por ejemplo, si X ∼ BI(n, p) entonces E[X] = np, Var (X) = np(1−p) y bajo ciertas condiciones favorables, la distribución de X puede aproxi-marse a la distribución normal con media µ = np y varianza σ2 = np(1− p).Estas condiciones son n grande y p no debe estar cerca de 0 ó 1.

Si X ∼ BI(n, p) y Y ∼ N (np, np(1− p)) entonces:

Pr(X ≤ x) ≈ Pr(Y ≤ x+ 1/2)

Pr(X ≥ x) ≈ Pr(Y ≥ x− 1/2)

Figura 3.1: Aproximación binomial a la distribución normal

Distribución betaLa familia de distribuciones beta es una familia continua en (0, 1) index-

ada por dos parámetros. La función de densidad beta(α, β) es:

Page 44: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 40

f(x|α, β) = 1B(α, β)x

α−1(1− x)β−1, 0 < x < 1 (3.2.12)

donde α > 0, β > 0 y B(α, β) denota la función beta:

B(α, β) =ˆ 1

0xα−1(1− x)β−1dx

Figura 3.2: Densidades beta

La función beta está relacionada con la función gamma a través de lasiguiente identidad:

B(α, β) = Γ(α)Γ(β)Γ(α + β) (3.2.13)

El cálculo de los momentos para esta distribución se obtiene a través dela siguiente expresión:

E[Xn] = B(α + n, β)B(α, β) = Γ(α + n)Γ(α + β)

Γ(α + β + n)Γ(α) (3.2.14)

Page 45: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 41

Usando 3.2.3 y 3.2.14 con n = 1 y n = 2 se obtiene:

E[X] = α

α + βVar (X) = αβ

(α + β)2(α + β + 1) (3.2.15)

Distribución CauchyLa distribución Cauchy es una distribución simétrica con forma de cam-

pana sobre (−∞,∞) cuya función de densidad es:

f(x|θ) = 1π

11 + (x− θ)2 , −∞ < x <∞ (3.2.16)

Tal como se mencionó en el capítulo 2, la media de la distribución deCauchy no existe, esto es:

E[|X|] =ˆ ∞−∞

|x|1 + (x− θ)2dx =∞ (3.2.17)

por lo que tampoco existen los momentos para esta distribución. En par-ticular, la función generatriz de momentos no existe.

Distribución log-normalSi X es una variable aleatoria cuyo logaritmo tiene distribución normal,

es decir logX ∼ N (µ, σ2) entonces X tiene distribución log-normal. La fun-ción de densidad de X se obtiene mediante una transformación directa de lafunción de densidad normal usando el teorema 2.1.2:

f(x|µ, σ2) = 1√2πσ

1xe−

(log x−µ)2

2σ2 , −∞ < x <∞ (3.2.18)

−∞ < µ < ∞ y σ > 0, conocida como la función de densidad log-normal. Los momentos de X pueden obtenerse usando 3.2.18 o la relacióncon la distribución normal:

E[X] = eµ+σ2/2 Var (X) = e2(µ+σ2) − e2µ+σ2 (3.2.19)

Page 46: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 42

Distribución doble exponencialLa distribución doble exponencial se toma reflejando la distribución ex-

ponencial alrededor de su media. Su función de densidad esta dada por:

f(x|µ, σ) = 12σe

−|x−µ|/σ, −∞ < x <∞ (3.2.20)

−∞ < µ < ∞ y σ > 0. La distribución doble exponencial proporcionauna distribución simétrica con colas más pesadas. La media y varianza deesta distribución son:

E[X] = µ Var (X) = 2σ2

3.3. Familias exponencialesUna familia de funciones de densidad o probabilidad es llamada una fa-

milia exponencial si puede expresarse como:

f(x|θ) = h(x)c(θ) exp{

k∑i=1

wi(θ)ti(x)}

(3.3.1)

donde h(x) ≥ 0, t1(x), · · · , tk(x) son funciones de las observaciones x,c (θ) ≥ 0 y w1(θ), · · · , wk(θ) son funciones del vector de parámetros θ.

Muchas familias mencionadas en la sección anterior son familias expo-nenciales. Estas incluyen las familias continuas normal, gamma, beta y lasfamilias discretas binomial, Poisson y binomial negativa.

Para verificar si una familia de funciones de probabilidad o densidad esuna familia exponencial, se deben identificar las funciones h(x), c(θ), wi(θ)y ti(x) para demostrar que la familia tiene la forma 3.3.1.

Ejemplo 3.3.1 Considere la familia BI(n, p) con 0 < p < 1 y n conocido.

Page 47: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 43

Entonces la función de probabilidad es:

f (x|p) =(n

x

)px (1− p)n−x

=(n

x

)(1− p)n

(p

1− p

)x

=(n

x

)(1− p)n exp

{log

(p

1− p

)x}

=(n

x

)(1− p)n exp

{log

(p

1− p

)x

}

Se define:h (x) =

(n

x

)c (p) = (1− p)n

w1(p) = log{

p

1− p

}y t1(x) = x

entonces se tiene:

f(x|p) = h(x)c(p) exp {w1(p)t1(x)} (3.3.2)que es de la forma 3.3.1 con k = 1.

Ejemplo 3.3.2 Sea f(x|µ, σ2) la familia de distribuciones N (µ, σ2) dondeθ = (µ, σ2), −∞ < µ <∞ y σ > 0. Entonces:

f(x|µ, σ2) = 1√2πσ

exp{−(x− µ)2

2σ2

}

= 1√2πσ

exp{− µ2

2σ2

}exp

{− x2

2σ2 + µx

σ2

}

Se define:h(x) = 1

c(θ) = c(µ, σ2) = 1√2πσ

exp{− µ2

2σ2

}

w1(µ, σ2) = 1σ2 w2(µ, σ2) = µ

σ2

Page 48: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 44

t1(x) = −x2/2 y t2(x) = x

luego f(x|µ, σ2) = h(x)c(µ, σ) exp {w1(µ, σ)t1(x) + w2(µ, σ)t2(x)} tienela forma 3.3.1 con k = 2.

El rango de la distribución no puede depender de θ en una familia ex-ponencial. La definición completa de la función de probabilidad o densidaddebe incluir el rango a través del uso de una función indicadora.

Definición 3.3.1 La función indicadora de un conjunto A, denotado porIA(x), es la función:

IA(x) =

1 x ∈ A0 x /∈ A

Así en el ejemplo 3.3.2 la función de densidad normal puede ser escritacomo:

f(x|µ, σ2) = h(x)c(µ, σ) exp {w1(µ, σ)t1(x) + w2(µ, σ)t2(x)} I(−∞,∞)(x)

ya que la función indicadora depende solo de x, puede incorporarse enh(x) mostrando que la función de densidad tiene la forma de una familiaexponencial.

Ejemplo 3.3.3 La función de densidad dada por:

f(x|θ) = θ−1 exp {1− (x/θ)} , x > θ (3.3.3)

no es una familia exponencial aún cuando pueda escribirse como:

exp {1} θ−1 exp{θ−1x

}= h(x)c(θ) exp {w(θ)t(x)}

donde h(x) = exp {1}, c(θ) = θ−1, w(θ) = θ−1 y t(x) = −x, ya que:

f(x|θ) = θ−1 exp {1− (x/θ)} I(θ,∞)(x)

La función indicadora no puede incorporarse en ninguna de las funcionesde 3.3.1 desde que no es función solamente de x o θ. Luego la función dedensidad 3.3.3 no pertenece a una familia exponencial.

Page 49: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 45

Una familia exponencial puede reparametrizarse como:

f(x|η) = h(x)c∗(η) exp{

k∑i=1

ηiti(x)}

donde las funciones h(x) y ti(x) son las mismas en la parametrización original3.3.1. El conjunto:

H = η ={

(η1, · · · , ηk) :ˆ ∞−∞

h(x) exp{

k∑i=1

ηiti(x)}dx <∞

}

es llamado el espacio paramétrico natural de la familia. La integral sereemplaza por la suma si X es discreta.

Para los valores de η ∈ H, se tiene que:

c∗(η) =[ˆ ∞−∞

h(x) exp{

k∑i=1

ηiti(x)}dx

]−1

lo cual asegura que la integral de la función de densidad sea uno. Luego,el conjunto:

{η = (w1(θ), · · · , wk(θ)) : θ ∈ Θ}debe ser un subconjunto del espacio natural de parámetros.

Ejemplo 3.3.4 Para determinar el espacio natural paramétrico de la familianormal, se reemplaza wi(µ, σ) con ηi en 3.3.2 y se obtiene:

f(x|η1, η2) =√η1√2π

exp{− η2

22η1

}exp

{−η1x

2

2 + η2x

}

=√η1√2π

exp

−η1

2

(x− η2

η1

)2

La integral será finita si y solo si el término dentro de la función expo-nencial es negativo lo cual significa que η1 debe ser positivo sin importar elvalor que tome η2. Luego el espacio paramétrico natural es:

{(η1, η2) : η1 > 0,−∞ < η2 <∞}.

Identificando, se tiene que η2 = µ/σ2 y η1 = 1/σ2.

Page 50: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 46

3.4. Familias de locación y escalaEn esta sección se discutirán tres técnicas para construir familias de dis-

tribuciones. Estos tipos son: familias de locación, escala y locación-escala.Cada familia se construye especificando una función de densidad simple, dig-amos f(x), llamada la función de densidad estándar de la familia. Luegotodas las funciones de densidad en la familia se generan transformando lafunción de densidad estándar en la forma prescrita.

Teorema 3.4.1 Sea f(x) una función de densidad y sean µ y σ > 0 con-stantes, entonces:

g(x|µ, σ) = 1σf(x− µσ

)es una función de densidad.

Definición 3.4.1 Sea f(x) una función de densidad. Entonces la familia defunciones de densidad f(x − µ) indexada por el parámetro −∞ < µ < ∞,−∞ < µ < ∞, es llamada la familia de locación con función de densidadestándar f(x) y µ es el parámetro de locación para la familia.

Ejemplo 3.4.1 Sea f(x) = e−x, x ≥ 0. Para formar la familia de locaciónse reemplaza x con x− µ:

f(x|µ) =

e−(x−µ) x− µ ≥ 00 x− µ < 0

=

e−(x−µ) x ≥ µ

0 x < µ

Definición 3.4.2 Sea f(x) una función de densidad. Entonces para todoσ > 0, la familia de funciones de densidad (1/σ)f(x/σ) indexada por elparámetro σ, es llamada la familia de escala con función de densidad estándarf(x) y σ es el parámetro de escala de la familia.

Ejemplo 3.4.2 La distribución gamma con α fijo y la distribución normalcon µ = 0 son ejemplos de familias de escala. En cada caso la función dedensidad estándar se obtiene tomando el parámetro de escala igual a 1.

Definición 3.4.3 Sea f(x) una función de densidad. Entonces la familia defunciones de densidad (1/σ)f ((x− µ)/σ), −∞ < µ <∞ y σ > 0, indexadapor los parámetros (µ, σ) es llamada la familia de locación-escala con función

Page 51: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 47

de densidad estándar f(x), µ es el parámetro de locación y σ es el parámetrode escala.

Ejemplo 3.4.3 La distribución normal y la distribución exponencial sonejemplos de familias de locación-escala.

Teorema 3.4.2 Sea f(.) una función de densidad. Si µ ∈ < y σ > 0, en-toncesX es una variable aleatoria con función de densidad (1/σ)f ((x− µ)/σ)si y solo si existe una variable aleatoria Z con función de densidad f(z) yX = σZ + µ.

Prueba: Se define z = g(x) = (x − µ)/σ entonces g−1(z) = σz + µ y|dg−1(z)/dz| = σ. Aplicando el teorema 2.1.1 la función de densidad de Z es:

fZ(z) = fX(g−1(z))∣∣∣∣∣ ddz g−1(z)

∣∣∣∣∣ = 1σf

((σz + µ)− µ

σ

)σ = f(z)

Se define x = g(z) = σz+µ entonces g−1 (x) = (x−µ)/σ, y |dg−1(x)/dx| =1/σ. Aplicando el teorema 2.1.1 la función de densidad de X es:

fX(x) = fZ(g−1(x))∣∣∣∣∣ ddxg−1(x)

∣∣∣∣∣ = f(x− µσ

) 1σ

Teorema 3.4.3 Sea Z una variable aleatoria con función de densidad f(z).Suponga que E[Z] y Var (Z) existen. Si X es una variable aleatoria confunción de densidad (1/σ)f((x− µ)/σ), entonces:

E[X] = σE[Z] + µ y Var (X) = σ2Var (Z)

En particular si, E[Z] = 0 y Var (Z) = 1 entonces E[X] = µ y Var (X) =σ2.

El cálculo de una probabilidad para cualquier miembro de una familia delocación escala puede obtenerse en términos de la variable estandarizada Zya que:

Pr(X ≤ x) = Pr(X − µσ

≤ x− µσ

)= Pr

(Z ≤ x− µ

σ

)El cálculo de las probabilidades para la distribución normal usando la

distribución normal estándar es un claro ejemplo.

Page 52: Casella Español

CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 48

3.5. Desigualdades e identidades

3.5.1. Desigualdades para probabilidadesTeorema 3.5.1 (Desigualdad de Chebyschev) SeaX una variable aleato-ria y sea g(x) una función no negativa. Entonces, para todo r > 0:

Pr(g(X) ≥ r) ≤ E [g(X)]r

Ejemplo 3.5.1 Si Z tiene distribución normal estándar, entonces para todot > 0:

Pr (|Z| ≥ t) ≤√

e−t2/2

t

3.5.2. IdentidadesTeorema 3.5.2 Sea Xα,β denota una variable aleatoria con distribuciónG (α, β) con función de densidad f (x/α, β), donde α > 1. Entonces paraconstantes cualesquiera a y b:

Pr(a < Xα,β < b) = β (f (a/α, β)− f (b/α, β)) + Pr(a < Xα−1,β < b)

Lema 3.5.1 (Lema de Stein) Sea X ∼ N (θ, σ2) y sea g una funcióndiferenciable que satisface E

[g/ (X)

]<∞, entonces:

E [g (X) (X − θ)] = σ2E[g/ (X)

]Teorema 3.5.3 Sea χ2

p que denota una variable aleatoria con distribuciónchi-cuadrado con p grados de libertad. Para toda función h (x), siempre quesu valor esperado exista:

E[h(χ2p

)]= pE

h(χ2p+2

)χ2p+2

Page 53: Casella Español

Capítulo 4

Variables aleatorias múltiples

4.1. Distribución conjunta y marginalDefinición 4.1.1 Un vector aleatorio n-dimensional es una función que vade un espacio muestral S a un espacio euclediano n-dimensional <n.

Ejemplo 4.1.1 Considere el experimento de lanzar 2 veces un dado. El es-pacio muestral para este experimento tiene 36 puntos igualmente probables.Sean las variables aleatorias X = suma de los dados, y Y =|diferencia delos dados|, entonces el vector aleatorio (X, Y ) es llamado vector aleatoriodiscreto ya que solo tiene un número finito de posibles valores.

Definición 4.1.2 Sea (X, Y ) un vector aleatorio discreto bivariado. En-tonces la función f(X, Y ), que va de <2 hacia <, definido por f(x, y) =Pr(X = x, Y = y) es llamado la función de probabilidad conjunta de (X, Y ).

Tabla 4.1: Valores de la función de probabilidad conjunta f(x, y)x

2 3 4 5 6 7 8 9 10 11 120 1

36136

136

136

136

136

1 118

118

118

118

118

y 2 118

118

118

118

3 118

118

118

4 118

118

5 118

49

Page 54: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 50

La función de probabilidad conjunta puede usarse en el cálculo de prob-abilidades para cualquier evento definido en términos de (X, Y ). Sea A unsubconjunto de <2. Entonces:

Pr ((X, Y ) ∈ A) =∑

(X,Y )∈Af(x, y)

Ejemplo 4.1.2 Para (X, Y ) cuya función de probabilidad conjunta se en-cuentra en la tabla 4.1, suponga que A = {(x, y) : x = 7, y ≤ 4}, entonces:

Pr(X = 7, Y ≤ 4) = Pr((X, Y ) ∈ A) = f(7, 1) + f(7, 3) = 118 + 1

18 = 19

Sea g(x, y) una función de valor real definido para todos los posibles val-ores (x, y) de vector aleatorio discreto (X, Y ). Entonces g(X, Y ) es tambiénuna variable aleatoria y su valor esperado se define por:

E[g(X, Y )] =∑

(x,y)∈<2

g(x, y)f(x, y)

Ejemplo 4.1.3 Usando la tabla 4.1 el valor esperado de g(X, Y ) = XY,

E[g(X, Y )] =∑

xyf(x, y) = (2)(0) 136 + · · ·+ (7)(5) 1

18 = 131118

Las propiedades vistas en el teorema 2.2.1 son válidas al reemplazar xpor (x, y). Por ejemplo si g1(x, y), g2(x, y) son dos funciones; a, b y c sonconstantes, entonces:

E[ag1(X, Y ) + bg2(X, Y ) + c] = aE[g1(X, Y )] + bE[g2(X, Y )] + c

La función de probabilidad conjunta del vector aleatorio (X, Y ) debecumplir con f(x, y) ≥ 0, para todo (x, y). Además:

∑(x,y)∈<2

f(x, y) = Pr((X, Y ) ∈ <2) = 1.

Page 55: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 51

Ejemplo 4.1.4 Se define f(w, z) por:

f(0, 0) = f(0, 1) = 16

f(1, 0) = f(1, 1) = 13

f(w, z) = 0 para cualquier otro (w, z)

Si S es el espacio muestral formado por los 36 puntos que resultan delanzar dos dados. Sean:

W =

0 si el 1ero es como máximo 21 si el 1ero es más de 2

Z =

0 si el 2do es impar1 si el 2do es par

Luego f(w, z) es la función de probabilidad conjunta para (W,Z).

Teorema 4.1.1 Sea (X, Y ) un vector aleatorio discreto cuya función deprobabilidad conjunta es f(x, y), entonces la función de probabilidad marginalde X, fX(x) = Pr(X = x), y de Y , fY (y) = Pr(Y = y), estan dadas por:

fX(x) =∑y∈<

f(x, y) y fY (y) =∑x∈<

f(x, y)

Prueba: Para todo x ∈ <, sea Ax = {(x, y) : −∞ < y < ∞}. Es decir, Axes la línea en el plano con primer coordenada igual a x. Entonces:

fX(x) = Pr(X = x)= Pr(X = x,−∞ < y <∞)= Pr ((X, Y ) ∈ Ax)=

∑(X,Y )∈Ax

f(x, y)

=∑y∈<

f(x, y)

Page 56: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 52

Ejemplo 4.1.5 Usando el teorema 4.1.1 se puede calcular las distribucionesmarginales de X e Y a partir de la distribución conjunta de la tabla 4.1:

fY (0) = 16 fY (1) = 5

18 fY (2) = 29 fY (3) = 1

6 fY (4) = 19 fY (5) = 1

18Ejemplo 4.1.6 Usando la función de probabilidad marginal de Y se puedecalcular:

Pr(Y < 3) = 23 E[Y 3] = 2011

18

Definición 4.1.3 Una función f(x, y) que va de <2 hacia < es llamada fun-ción de densidad conjunta del vector aleatorio bivariado continuo (X, Y ) si,para todo A ⊂ <2:

Pr ((X, Y ) ∈ A) =¨A

f(x, y)dxdy

Si g(x, y) es una función de valor real, entonces el valor esperado deg(X, Y ) se define por:

E[g(X, Y )] =ˆ ∞−∞

ˆ ∞−∞

g(x, y)f(x, y)dxdy (4.1.1)

Las funciones de densidad marginales de X y Y son definidas, reem-plazando las sumatorias por las integrales. Estas funciones pueden usarsepara calcular probabilidades o valores esperados que involucran solo a X o Y .Simplificando, las funciones de densidad marginales de X y Y son definidaspor:

fX(x) =ˆ ∞−∞

f(x, y)dy, −∞ < x <∞

fY (y) =ˆ ∞−∞

f(x, y)dx, −∞ < y <∞(4.1.2)

Toda función f(x, y) que satisface f(x, y) ≥ 0, para todo (X, Y ) ∈ <2, y:ˆ ∞−∞

ˆ ∞−∞

f(x, y)dxdy = 1

se dice que es la función de densidad conjunta para algún vector aleatoriobivariado (X, Y ).

Page 57: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 53

Ejemplo 4.1.7 Se define la función de densidad conjunta por:

f(x, y) =

6xy2 0 < x < 1, 0 < y < 10 de otro modo

Si se desea calcular Pr(X+Y ≥ 1), sea A = {(x, y) : x+y ≥ 1} entonces:

Pr(X + Y ≥ 1) =¨A

f(x, y)dxdy =ˆ y=1

y=0

ˆ x=1

x=1−y6xy2dxdy = 9

10

Usando 4.1.2 puede obtenerse la función de densidad marginal de X y Y :

fX(x) =ˆ ∞−∞

f(x, y)dxdy =ˆ y=1

y=06xy2dy = 2xy3

∣∣∣∣y=1

y=0= 2x

Esta función de densidad de X puede ser usada para calcular probabili-dades, por ejemplo:

Pr(1/2 < X < 3/4) =ˆ x=3/4

x=1/22xdx = 5

10

Ejemplo 4.1.8 Sea f(x, y) = e−y, 0 < x < y. Aparentemente f(x, y) nodepende de X sin embargo:

f(x, y) = e−yI{0<x<y}(x, y)

Para calcular Pr(X + Y ≥ 1) se define A = {(x, y) : x + y ≥ 1}. Elproceso de integración es mucho más sencillo si se hace sobre el conjuntoB = {(x, y) : x+ y < 1}:

Pr(X + Y ≥ 1) = 1− Pr(X + Y < 1)

= 1−ˆ x=1/2

x=0

ˆ y=1−x

y=xe−ydydx

= 1−ˆ 1/2

0(e−x − e−(1−x))dx

= 0,845182

Page 58: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 54

Figura 4.1: Región para el ejemplo 4.1.8

La función de densidad conjunta de (X, Y ) puede describirse completa-mente usando la función de distribución acumulada conjunta F (x, y) definidapor:

F (x, y) = Pr(X ≤ x, Y ≤ y) =ˆ x

−∞

ˆ y

−∞f(s, t)dtds

para todo (x, y) ∈ <2. Usando el teorema fundamental del cálculo:

∂2F (x, y)∂x∂y

= f(x, y) (4.1.3)

para todos los puntos de continuidad de f(x, y).

4.2. Distribuciones condicionales e indepen-dencia

Definición 4.2.1 Sea (X, Y ) un vector aleatorio bivariado discreto con fun-ción de probabilidad conjunta f(x, y) y funciones de probabilidad marginales

Page 59: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 55

fX(x) y fY (y). Para todo x tal que fX(x) > 0, la función de probabilidadcondicional de Y dado X = x es la función de y denotada por f(y|x) ydefinida por:

f(y|x) = Pr(Y = y|X = x) = f(x, y)fX(x)

Para todo y tal que fY (y) > 0, la función de probabilidad condicional dex dado que Y = y es la función de x denotada por f(x|y) y definida por:

f(x|y) = Pr(X = x|Y = y) = f(x, y)fY (y)

Ejemplo 4.2.1 Se define la función de probabilidad conjunta de (X, Y ) por:

y

x 10 20 30 fX(x)0 2

18218 0 4

181 3

18418

318

1018

2 0 0 418

418

fY (y) 518

618

718

f(Y = y|X = 0) =

12 si y = 1012 si y = 200 de otro modo

f(Y = y|X = 1) =

310 si y = 10410 si y = 20310 si y = 300 de otro modo

f(Y = y|X = 2) =

1 si y = 300 de otro modo

También puede calcularse probabilidades condicionales, por ejemplo:

Pr(Y > 10|X = 1) = f(20|1) + f(30|1) = 710

Page 60: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 56

Pr(Y > 10|X = 0) = f(20|0) = 12

Definición 4.2.2 Sea (X, Y ) un vector aleatorio continuo bivariado con fun-ción de densidad conjunta f(x, y) y funciones de densidad marginales fX(x)y fY (y). Para todo x tal que fX(x) > 0, la función de densidad condicionalde Y dado que X = x es la función de y denotada por f(y|x) y definida por:

f(y|x) = f(x, y)fX(x)

Para todo y tal que fY (y) > 0, la función de densidad condicional de Xdado que Y = y es la función de x denotada por f(x|y) y definida por:

f(x|y) = f(x, y)fY (y)

Si g(Y ) es una función de Y , entonces el valor esperado condicional deg(Y ) dado que X = x se denota por E[g(Y )|x] y se define por:

E[g(Y )|x] =∑y

g(y)f(y|x) y E[g(Y )|x] =ˆ ∞−∞

g(y)f(y|x)dy

El valor esperado condicional tiene todas las propiedades del valor esper-ado vistas en el teorema 2.2.1.

Ejemplo 4.2.2 Como en el ejemplo 4.1.8, sea un vector aleatorio continuo(X, Y ) con función de densidad conjunta f(x, y) = e−y, 0 < x < y. Supongase desea calcular la función de densidad condicional de Y dado X = x. Lafunción de densidad marginal de X se puede calcular como sigue:

fX(x) =ˆ ∞−∞

f(x, y)dy =ˆ y=∞

y=xe−ydy = e−x, x > 0

entonces X ∼ E(β = 1). Luego:

f(y|x) = f(x, y)fX(x) = e−y

e−x= e−(y−x), y > x

Dado X = x, la distribución de Y es exponencial donde x es el parámetrode locación y β = 1 es el parámetro de escala. La distribución condicional deY es diferente para cada valor de x. Además:

Page 61: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 57

E[Y |X = x] =ˆ y=∞

y=xye−(y−x)dy = 1 + x

La variancia de la función de densidad f(y|x) es llamada variancia condi-cional de Y dado X = x. Usando la notación Var(Y |X) se tiene:

Var (Y |X) = E[Y 2|X]− (E[Y |X])2

=ˆ ∞x

y2e−(y−x)dy −(ˆ ∞

x

ye−(y−x)dy

)2

= 1

En este caso la variancia condicional de Y dado X = x es la misma paratodos los valores de x. Esta variancia condicional puede compararse con lavariancia no condicional de Y . La distribución marginal de Y es G (2, 1), lacual tiene Var(Y ) = 2. Dado el valor X = x, la variabilidad en Y se reduceconsiderablemente.

Definición 4.2.3 Sea (X, Y ) un vector aleatorio bivariado con función deprobabilidad o función de densidad conjunta f(x, y) y funciones de proba-bilidad o densidad marginales fX(x) y fY (y). Entonces X y Y son llamadasvariables aleatorias independientes si, para todo x ∈ < y y ∈ <,

f(x, y) = fX(x)fY (y) (4.2.1)

SiX y Y son independientes, la función de probabilidad o densidad condi-cional Y dado X = x es:

f(x|y) = f(x, y)fY (y) = fX(x)fY (y)

fY (y) = fX(x)

para cualquier valor de x. Así, para todo A ⊂ < y x ∈ <,

Pr(Y ∈ A|x) =ˆA

f(y|x)dy =ˆA

fY (y)dy = Pr(Y ∈ A)

El saber que X = x no brinda información adicional acerca de Y .

Ejemplo 4.2.3 Sea el vector aleatorio bivariado discreto (X, Y ) con funciónde probabilidad conjunta dada por:

Page 62: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 58

y

x 1 2 3 fX(x)10 1

1015

15

510

20 110

110

310

510

fY (y) 210

310

510

Las variables aleatorias X y Y no son independientes debido a que 4.2.1no se cumple para todo(x, y). Por ejemplo:

f(3, 10) = 15 6=

12 ×

12 = fX(3)fY (10)

Notar que f(10, 1) = 110 = 1

2 ×15 = fX(10)fY (1). El hecho de que 4.2.1

sea verdadera para algunos valores de (x, y) no aseguran que X y Y seanindependientes.

Lema 4.2.1 Sea (X, Y ) un vector aleatorio bivariado con función de proba-bilidad o densidad conjunta f(x, y). Entonces X y Y son variables aleatoriasindependientes sí y solo si existen funciones g(x) y h(y) tales que, para todox ∈ < y y ∈ <,

f(x, y) = g(x)h(y)Prueba: Si se define g(x) = fX(x) y h(y) = fY (y) y usando 4.2.1 es fácil

probar una de las direcciones. Para probar la otra dirección, suponga quef(x, y) = g(x)h(y). Se define

´∞−∞ g(x)dx = c y

´∞−∞ h(y)dy = d, donde las

constantes c y d satisfacen:

cd =ˆ ∞−∞

ˆ ∞−∞

g(x)h(y)dxdy =ˆ ∞−∞

ˆ ∞−∞

f(x, y)dxdy (4.2.2)

Además, las funciones de densidad marginales están dadas por:

fX(x) =ˆ ∞−∞

g(x)h(y)dy = g(x)d

fY (y) =ˆ ∞−∞

g(x)h(y)dx = h(y)c(4.2.3)

Luego, usando 4.2.2 y 4.2.3, se tiene:

f(x, y) = g(x)h(y) = g(x)h(y)cd = fX(x)fY (y)

Page 63: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 59

demostrando que X y Y son independientes. Reemplazando las integralespor sumatorias se prueba el lema para vectores aleatorios discretos.

Ejemplo 4.2.4 Considere la función de densidad conjunta:

f(x, y) = 1384x

2y4e−y−(x/2), x > 0, y > 0

Si se definen:

g(x) =

x2e−x/2 x > 00 x ≤ 0

h(y) =

y4e−y/384 y > 00 y ≤ 0

entonces f(x, y) = g(x)h(y) para todo x ∈ < y y ∈ <. Por el lema 4.2.1,se concluye que X y Y son variables aleatorias independientes. Notar que nofué necesario calcular las funciones de densidad marginales.

Teorema 4.2.1 Sean X y Y variables aleatorias independientes:

a. Para todo A ⊂ < y B ⊂ <, Pr(X ∈ A, Y ∈ B) = Pr(X ∈ A) Pr(Y ∈B), esto es, los eventos {X ∈ A} y {Y ∈ B} son independientes.

b. Sea g(x) una función que depende sólo de x y h(y) una función quedepende sólo y. Entonces:

E[g(X)h(Y )] = E[g(X)]E[h(Y )]

Prueba: Notar que:

E[g(X)h(Y )] =ˆ ∞−∞

ˆ ∞−∞

g(x)h(y)f(x, y)dxdy

=ˆ ∞−∞

ˆ ∞−∞

g(x)h(y)fX(x)fY (y)dxdy

=ˆ ∞−∞

h(y)fY (y)ˆ ∞−∞

g(x)fX(x)dxdy

=(ˆ ∞−∞

g(x)fX(x)dx)(ˆ ∞

−∞h(y)fY (y)dy

)= E[g(X)]E[h(Y )]

Page 64: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 60

Sea g(x) la función indicadora del conjunto A y sea h(y) la función in-dicadora del conjunto B. Notar que g(x)h(y) es la función indicadora delconjunto C ⊂ <2 definido por C = {(x, y) : x ∈ A, y ∈ B}. Notar quepara una función indicadora como g(x), E[g(X)] = Pr(X ∈ A). Usando elresultado anterior se tiene:

Pr(X ∈ A, Y ∈ B) = Pr ((X, Y ) ∈ C) = E[g(X)h(Y )]= E[g(X)]E[h(Y )] = Pr(X ∈ A) Pr(Y ∈ B)

Ejemplo 4.2.5 Sean X y Y variables aleatorias independientes con dis-tribución E (1). Por el teorema 4.3.2 se tiene:

Pr(X ≥ 4, Y < 3) = Pr(X ≥ 4) Pr(Y < 3)Sean g(x) = x2 y h(y) = y, se tiene que:

E[X2Y ] = E[X2]E[Y ] =(Var (X) + E[X]2

)E[Y ] = (1 + 12)1 = 2

Teorema 4.2.2 Sean X y Y variables aleatorias independientes con fun-ciones generatrices de momentos MX(t) y MY (t) respectivamente. Entoncesla función generatriz de momentos de la variable aleatoria Z = X + Y es:

MZ(t) = MX(t)MY (t)Prueba: Usando la definición de función generatriz de momentos:

MZ(t) = E[etZ ] = E[et(X+Y )] = E[etXetY ] = E[etX ]E[etY ] = MX(t)MY (t)

Ejemplo 4.2.6 Algunas veces el teorema 4.2.2 puede usarse para encontrarfácilmente la distribución de Z = X + Y a partir de las distribuciones deX y Y . Por ejemplo, sea X ∼ N (µ, σ2) y Y ∼ N (γ, τ 2) variables aleatoriasindependientes. Las funciones generatrices de momentos de X y Y son:

MX(t) = exp{µt+ σ2t2/2

}y MY (t) = exp

{γt+ τ 2t2/2

}Luego:

MZ(t) = MX(t)MY (t) = exp{

(µ+ γ)t+ (σ2 + τ 2)t2/2}

La función generatriz de momentos de Z corresponde a una variablealeatoria con distribución normal con media (µ+ γ) y varianza (σ2 + τ 2).

Page 65: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 61

4.3. Transformaciones bivariadasSea (X, Y ) un vector aleatorio bivariado con una distribución conoci-

da. Considere un nuevo vector aleatorio bivariado (U, V ) definido por U =g1(X, Y ) y V = g2(X, Y ) donde g1(x, y) y g2(x, y) son funciones especí-ficas. Si B es cualquier subconjunto de <2, entonces (U, V ) ∈ B sí y so-lo si (X, Y ) ∈ A, donde A = {(x, y) : (g1(x, y), g2(x, y)) ∈ B}. LuegoPr ((U, V ) ∈ B) = Pr(X, Y ) ∈ A) y la distribución conjunta de (U, V ) se de-termina completamente usando la distribución conjunta de (X, Y ).

4.3.1. Caso discretoSi (X, Y ) es un vector aleatorio bivariado discreto, entonces existe solo

un conjunto numerable de valores para los que la función de probabilidadconjunta de (X, Y ) es positiva, digamos el conjunto A. Se define el conjuntoB = {(u, v) : u = g1(x, y), v = g2(x, y) para algún (x, y) ∈ A}. Entonces Bes el conjunto numerable de posibles valores para el vector aleatorio discreto(U, V ). Si para todo (u, v) ∈ B, Auv se define como {(x, y) ∈ A : g1(x, y) =u, g2(x, y) = v} entonces la función de probabilidad conjunta de (U, V ),fU,V (u, v), puede calcularse a partir de la función de probabilidad conjuntade (X, Y ) por:

fU,V (u, v) = Pr((x, y) ∈ Auv) =∑

(x,y)∈AuvfX,Y (x, y) (4.3.1)

Ejemplo 4.3.1 Sean X ∼ P (θ) y Y ∼ P (λ) variables aleatorias indepen-dientes. La función de probabilidad conjunta de (X, Y ) es:

fX,Y (x, y) = θxeθ

x!λye−λ

y! , x = 0, 1, 2, · · · ; y = 0, 1, 2, · · ·

El conjunto A = {(x, y) : x = 0, 1, 2 · · · ; y = 0, 1, 2, · · · }. Se define U =X + Y y V = Y . El conjunto B = {(u, v) : v = 0, 1, · · · ;u = v, v + 1, · · · } .Para todo (u, v) ∈ B, el único valor (x, y) que satisface x+ y = u y y = v esx = u−v e y = v. El conjunto Auv consiste de los puntos (u−v, v), entonces:

fU,V (u, v) = fX,Y (u− v, v) = θu−veθ

(u− v)!λve−λ

v! , v = 0, 1, · · · ;u = v, v + 1, · · ·

Page 66: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 62

En este ejemplo sería interesante calcular la función de probabilidad marginalde U . Para todo entero no negativo u, fU,V (u, v) > 0 solo si v = 0, 1, · · · , u.Es decir:

fU(u) =u∑v=0

θu−veθ

(u− v)!λve−λ

v! = e−(θ+λ)u∑v=0

θu−v

(u− v)!λv

v! , u = 0, 1, 2, · · ·

Lo anterior puede simplificarse multiplicando y dividiendo cada término entreu! y usando el teorema binomial:

fU(u) = e−(θ+λ)

u!

u∑v=0

(u

v

)λuθu−v = e−(θ+λ)

u! (θ + λ)u, u = 0, 1, 2, · · ·

Luego U ∼ P (θ + λ).

Teorema 4.3.1 Si X ∼ P (θ) y Y ∼ P (λ) son variables aleatorias indepen-dientes, entonces X + Y ∼ P (θ + λ).

4.3.2. Caso continuoSi (X, Y ) es un vector aleatorio continuo con función de densidad conjunta

fX,Y (x, y), entonces la función de densidad conjunta de (U, V ) puede espre-sarse en términos de fX,Y (x, y), en forma análoga a 2.1.1. Sea A = {(x, y) :fX,Y (x, y) > 0} y B = {(u, v) : u = g1(x, y), v = g2(x, y) para todo (x, y) ∈A}. La función de densidad conjunta fU,V (u, v) será positiva sobre el conjuntoB. Si se asume que u = g1(x, y) y v = g2(x, y) definen transformaciones uno auno de A hacia B entonces dichas transformaciones seran sobreyectivas segúnla definición de B. Entonces para todo (u, v) ∈ B existe solo un (x, y) ∈ Atal que (u, v) = (g1(x, y), g2(x, y)). Para cada transformación uno a uno ysobreyectiva, se pueden resolver las ecuaciones u = g1(x, y) y v = g2(x, y)para x y y en términos de u y v. Denotemos estas transformaciones inversaspor x = h1(u, v) y y = h2(u, v).

El rol que tuvo la derivada en el caso univariado ahora lo asume unacantidad llamada el Jacobiano de la transformación. Esta función de (u, v),denotada por J , es el determinante de la matriz de derivadas parciales. Sedefine por:

Page 67: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 63

J =∣∣∣∣∣ ∂x∂u

∂x∂v

∂y∂u

∂y∂v

∣∣∣∣∣ = ∂x

∂u

∂y

∂v− ∂y

∂u

∂x

∂v

donde:

∂x

∂u= ∂h1(u, v)

∂u,∂x

∂v= ∂h1(u, v)

∂v,∂y

∂u= ∂h2(u, v)

∂uy ∂y

∂v= ∂h2(u, v)

∂v

Se asume que J es diferente de cero sobre B. Entonces la función dedensidad conjunta de (U, V ) está dada por:

fU,V (u, v) = fX,Y (h1(u, v), h2(u, v)) |J | (4.3.2)donde |J | es el valor absoluto de J .

Ejemplo 4.3.2 Sea X ∼ BE (α, β) y Y ∼ BE(α + β, γ) variables aleatoriasindependientes. La función de densidad conjunta de (X, Y ) es:

fX,Y (x, y) = Γ(α + β)Γ(α)Γ(β)x

α−1(1− x)β−1 Γ(α + β + γ)Γ(α + β)Γ(γ)y

α+β−1(1− y)γ−1

Considere las transformaciones U = XY y V = X. Estas transfor-maciones van de A = {(x, y) : 0 < x < 1, 0 < y < 1} al conjuntoB = {(u, v) : 0 < u < v < 1} y son uno a uno. Para todo (u, v) ∈ B, las ecua-ciones u = xy y v = x puede resolverse unicamente para x = h1(u, v) = v yy = h2(u, v) = u/v.

J =∣∣∣∣∣ 0 1

1v− uv2

∣∣∣∣∣ = −1v

Luego por 4.3.2 la función de densidad conjunta es:

fU,V (u, v) = Γ(α + β + γ)Γ(α)Γ(β)Γ(γ)v

α−1(1− v)β−1(u

v

)α+β−1 (1− u

v

)γ−1 1v

para 0 < u < v < 1. La distribución marginal de V = X es BE(α, β). Ladistribución de U también lo es:

fU(u) =ˆ 1

u

fU,V (u, v)dv

= Γ(α + β + γ)Γ(α)Γ(β)Γ(γ)u

α−1ˆ 1

u

(u

v− u

)β−1 (1− u

v

)γ−1 ( uv2

)dv

Page 68: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 64

Sea w = (u/v − u) /(1− u) tal que dw = −u/[v2(1− u)]dv

fU(u) = Γ(α + β + γ)Γ(α)Γ(β)Γ(γ)u

α−1(1− u)β+γ−1ˆ 1

0wβ−1(1− w)γ−1dw

= Γ(α + β + γ)Γ(α)Γ(β)Γ(γ)u

α−1(1− u)β+γ−1 Γ(β)Γ(γ)Γ(β + γ)

= Γ(α + β + γ)Γ(α)Γ(β + γ)u

α−1(1− u)β+γ−1, 0 < u < 1

Luego U ∼ BE (α, β + γ).

Ejemplo 4.3.3 Sean X y Y variables aleatorias independientes con dis-tribución Z. Hallar f(u, v) si U = X + Y , V = X − Y y probar que sonvariables aleatorias independientes.

Teorema 4.3.2 Sean X y Y variables aleatorias independientes. Sea g(x)una función que depende sólo de x y h(y) una función que sólo depende de y.Entonces las variables aleatorias U = g(X) y V = h(Y ) son independientes.

Prueba: Asumiendo que U y V son variables aleatorias continuas. Paratodo u ∈ < y v ∈ < se define:

Au = {x : g(x) ≤ u} y Bv = {y : h(y) ≤ v}

La función de distribución acumulada conjunta de (U, V ) es:

FU,V (u, v) = Pr(U ≤ u, V ≤ v)= Pr(X ∈ Au, Y ∈ Bv)= Pr(X ∈ Au) Pr(Y ∈ Bv)

La función de densidad conjunta de (U, V ) es:

fU,V (u, v) = ∂2

∂u∂vFU,V (u, v) =

(d

duPr(X ∈ Au)

)(d

dvPr(Y ∈ Bv)

)

Luego U y V son independientes.

En muchas situaciones las transformaciones de interés no son uno a uno.Sea A = {(x, y) : fX,Y (x, y) > 0}. Suponga que A0, A1, · · · , Ak forma una

Page 69: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 65

partición de A. El conjunto A0, que podría ser vacio, satisface Pr((X, Y ) ∈A0) = 0. Las transformaciones U = g1(X, Y ) y V = g2(X, Y ) son uno a uno,desde Ai hacia B para cada i = 1, 2, · · · , k. Entonces para cada i se puedenhallar las funciones inversas desde B hacia Ai. Si se denotan las i-ésimasinversas por x = h1i(u, v) e y = h2i(u, v), éstas dan para (u, v) ∈ B un único(x, y) ∈ Ai tal que (u, v) = (g1(x, y), g2(x, y)). Sea Ji el Jacobiano calculadoa partir de las i-ésimas inversas. Entonces se tiene la siguiente representaciónde la función de densidad conjunta fU,V (u, v):

fU,V (u, v) =k∑i=1

fX,Y (h1i(u, v), h2i(u, v)) |Ji| (4.3.3)

Ejemplo 4.3.4 Sean X y Y variables aleatorias independientes con dis-tribución Z. Considere las transformaciones U = X/Y y V = |Y |. Sean:

A1 = {(x, y) : y > 0}, A2 = {(x, y) : y < 0} yA0 = {(x, y) : y = 0}

A0, A1 y A2 forman una partición de A = <2 y Pr((X, Y ) ∈ A0) =Pr(Y = 0) = 0. Para cada A1 o A2, si (x, y) ∈ Ai, v = |y| > 0 y u = x/y ∈ <.Luego, B = {(u, v) : v > 0} es la imagen de A1 y A2 bajo la transformación.Además las transformaciones inversas desde B hacia A1 y desde B haciaA2 son: x = h11(u, v) = uv, y = h21(u, v) = v, y x = h12(u, v) = −uv,y = h22(u, v) = −v. Luego:

fX,Y (x, y) = 12πe

−x2/2e−y2/2

Usando 4.3.3

fU,V (u, v) = 12πe

−(uv)2/2e−v2/2 |v|+ 1

2πe−(−uv)2/2e−(−v)2/2 |v|

= v

πe−(u2+1)v2/2

Page 70: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 66

para −∞ < u <∞ y 0 < v <∞. La distribución marginal de U es:

fU(u) =ˆ ∞

0

v

πe−(u2+1)v2/2dv

= 12π

ˆ ∞0

e−(u2+1)z/2dz

= 12π

2(u2 + 1)

= 1π(u2 + 1)

para −∞ < u <∞, entonces U ∼ C (0, 1).

4.4. Modelos jerárquicos y distribuciones mix-tas

Ejemplo 4.4.1 Un insecto pone un número grande de huevos, cada unocon probabilidad de supervivencia p. En promedio, ¿cuántos huevos sobre-vivirán? Sean X = Número de huevos sobrevivientes, y Y = Número dehuevos puestos. Luego se tiene el siguiente modelo jerárquico:

X|Y ∼ BI(Y, p), Y ∼ P(λ)

La variable de interés, X = Número de huevos sobrevivientes, tiene lasiguiente distribución:

Pr(X = x) =∞∑y=0

Pr(X = x, Y = y)

=∞∑y=0

Pr(X = x|Y = y) Pr(Y = y)

=∞∑y=x

[(y

x

)px(1− p)y−x

] [e−λλy

y!

]

Page 71: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 67

ya que la probabilidad condicional es cero si y < x, entonces:

Pr(X = x) = (λp)xe−λx!

∞∑y=x

((1− p)λ)y−x(y − x)!

= (λp)xe−λx!

∞∑t=0

((1− p)λ)tt!

= (λp)xe−λx! e(1−p)λ

= (λp)xe−λpx!

es decir que X ∼ P(λp). Luego, todo proceso de inferencia marginal sobreX se hace a través de la distribución de Poisson, en la que Y no es partedel proceso. La respuesta a la pregunta inicial es E[X] = λp, es decir, enpromedio, sobrevivirán λp huevos.

Teorema 4.4.1 Si X y Y son variables aleatorias, entonces:

E[X] = E[E[X|Y ]] (4.4.1)siempre que los esperados existan.Prueba: Sea f(x, y) la función de densidad de X y Y . Por definición se

tiene:

E[X] =ˆy

ˆx

xf(x, y)dxdy

=ˆy

[ˆx

xf(x|y)dx]fY (y)dy

=ˆy

E [X|Y ] fY (y)dy

= EY [EX [X|Y ]]

Volviendo al ejemplo anterior:

E[X] = E[E[X|Y ]] = E[Y p] = pE[Y ] = pλ

Definición 4.4.1 Una variable aleatoria X se dice que tiene distribuciónmixta si la distribución de X depende de una cantidad que también tienedistribución.

Page 72: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 68

En el ejemplo 4.4.1 la distribución P(λp) es una distribución mixta yaque es el resultado de combinar una BI(Y, p) con Y ∼ P(λ). En general, sepuede afirmar que los modelos jerárquicos dan lugar a distribuciones mixtas.

Ejemplo 4.4.2 Considere una generalización del ejemplo 4.4.1:

X|Y ∼ BI(Y, p), Y |∧ ∼ P(∧) ∧ ∼ E(β)Entonces:

E[X] = E [E[X|Y ]] = E[pY ] = pE [E[Y |∧]] = pE[∧] = pβ

Notar que este modelo de tres niveles puede ser expresado como unode dos jerarquías combinando los últimos dos estados. Si Y |∧ ∼ P(∧) y∧ ∼ E(β), luego:

Pr(Y = y) =ˆ ∞

0f(y, λ)dλ

=ˆ ∞

0f(y|λ)f(λ)dλ

=ˆ ∞

0

e−λλy

y!1βe−λ/βdλ

= 1βy!

ˆ ∞0

λye−λ(1+β−1)dλ

= 1βy!Γ(y + 1)

(1

1 + β−1

)y+1

= 11 + β

1 + β

)yLa expresión para la función de probabilidad de Y es de la familia 3.1.5, es

decir, binomial negativa. Luego, la jerarquía de tres estados de este ejemploes equivalente a la jerarquía de dos estados:

X|Y ∼ BI(Y, p) Y ∼ BN (p = 11 + β

, r = 1)

Una mixtura útil es la Poisson-gamma, que es una generalización de unaparte del modelo anterior. Si se toma la jerarquía:

Y |∧ ∼ P(∧), ∧ ∼ G(α, β)

Page 73: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 69

entonces Y ∼ BN .

Los modelos jerárquicos pueden hacer más sencillos los cálculos. Por ejem-plo, una distribución que aparece con frecuencia en estadística es la distribu-ción chi-cuadrado no central con p grados de libertad y parámetro de nocentralidad λ cuya función de densidad es:

f(X|λ, p) =∞∑k=0

xp/2+k−1e−x/2

Γ(p/2 + k)2p/2+kλke−λ

k! (4.4.2)

Calcular el E[X] puede ser tarea complicada. Sin embargo, si se examinadetenidamente la función de densidad puede observarse que se trata de unadistribución mixta, obtenida de una densidad chi-cuadrado central y unadistribución de Poisson. Es decir:

X|K ∼ χ2p+2K , K ∼ P(λ)

entonces la distribución marginal de X está dada por 4.4.2. Luego:

E[X] = E[E[X|K]] = E[p+ 2K] = p+ 2λun cálculo bastante directo. La variancia puede ser calculada de la mismaforma.

Ejemplo 4.4.3 Una generalización para ensayos de Bernoulli considera quela probabilidad de éxito no sea constante de ensayo a ensayo, manteniendolos ensayos independientes. Un modelo estándar para esta situación es:

Xi|pi ∼ B(pi), i = 1, 2, · · · , n pi ∼ BE(α, β)Este modelo puede ser apropiado, por ejemplo, si se mide el éxito de una

droga en n pacientes y debido a que cada paciente es diferente no es posibleasumir que la probabilidad de éxito sea constante. Una variable aleatoria deinterés es Y = ∑n

i=iXi, el número de éxitos, cuya media es:

E[Y ] =n∑i=1

E[Xi] =n∑i=1

E [E[Xi|pi]] =n∑i=1

E[pi] =n∑i=1

α

α + β= nα

α + β

Teorema 4.4.2 Sean X y Y dos variables aleatorias, entonces:

Var (X) = E [Var (X|Y )] + Var (E[X|Y ]) (4.4.3)

Page 74: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 70

Prueba: Por definición:

Var[X] = E[(X − E[X])2

]= E

[(X − E[X|Y ] + E[X|Y ]− E[X])2

]= E

[(X − E[X|Y ])2

]+ E

[(E[X|Y ]− E[X])2

]+2E [(X − E[X|Y ])(E[X|Y ]− E[X])]

= E[(X − E[X|Y ])2] + E[(E[X|Y ]− E[X])2

]= E [Var (X|Y )] + Var (E[X|Y ])

Ejemplo 4.4.4 Para calcular Var(Y ) del ejemplo 4.4.3:

Var(Y ) = Var(

n∑i=1

Xi

)=

n∑i=1

Var (Xi)

ya que las Xi son independientes. Usando 4.4.3:

Var(Xi) = Var (E [Xi|pi]) + E [Var(Xi|pi)]

como E(Xi|pi) = pi y pi ∼ BE(α, β):

Var (E [Xi|pi]) = Var(pi) = αβ

(α + β)2(α + β + 1)También, Xi|pi ∼ B(pi), Var(Xi|pi) = pi(1− pi):

E [Var(Xi|pi)] = E [pi(1− pi)]

= Γ(α + β)Γ(α)Γ(β)

ˆ 1

o

pi(1− pi)pα−1i (1− pi)β−1dpi

= Γ(α + β)Γ(α)Γ(β)

Γ(α + 1)Γ(β + 1)Γ(α + β + 2)

= αβ

(α + β)(α + β + 1)

Como Var(Xi) no depende de i, entonces:

Var(Y ) = nαβ

(α + β)2

Page 75: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 71

4.5. Covarianza y correlaciónDefinición 4.5.1 La covarianza de X y Y es el número definido por:

Cov(X, Y ) = E [(X − µX)(Y − µY )]

Definición 4.5.2 La correlación de X y Y es el número definido por:

ρXY = Cov(X, Y )σXσY

El valor ρXY también es llamado coeficiente de correlación.

Teorema 4.5.1 Sean X y Y dos variables aleatorias, entonces:

Cov(X, Y ) = E [XY ]− µXµY

Ejemplo 4.5.1 Sea la función de densidad conjunta:

f(x, y) = 1 0 < x < 1 x < y < x+ 1

La distribución marginal de X es U (0, 1), luego µX = 1/2 y σ2X = 1/12. La

distribución marginal de Y es:

fY (y) =

y 0 < y < 12− y 1 ≤ y < 2

con µY = 1 y σ2Y = 1/6. Además:

E[XY ] =ˆ 1

0

ˆ x+1

x

xydydx = 712

Luego Cov(X, Y ) = 712 − (1

2)(1) = 112 . El coeficiente de correlación es:

ρXY = Cov(X, Y )σXσY

= 1/12√1/12

√1/6

= 1√2

Teorema 4.5.2 Si X y Y son variables aleatorias independientes, entoncesCov(X, Y ) = 0 y ρXY = 0.

Page 76: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 72

Teorema 4.5.3 Si X y Y son variables aleatorias, a y b son constantes,entonces:

Var(aX + bY ) = a2Var(X) + b2Var(Y ) + 2abCov(X, Y )

Si X y Y son variables aleatorias independientes, entonces:

Var(aX + bY ) = a2Var(X) + b2Var(Y )

Teorema 4.5.4 Para dos variables aleatorias X y Y :

a. −1 ≤ ρXY ≤ 1

b. |ρXY | = 1 sí y solo si existen números a 6= 0 y b tales que Pr(Y =aX + b) = 1. Si ρXY = 1 entonces a > 0 y si ρXY = −1 entonces a < 0.

Ejemplo 4.5.2 Sean X ∼ U(0, 1) y Z ∼ U(0, 1/10) variables aleatoriasindependientes. Sea Y = X + Z y considere el vector aleatorio (X, Y ). Ladistribución conjunta de (X, Y ) puede obtenerse a partir de la función dedensidad conjunta de (X,Z) usando las técnicas de la sección 4.3. La funciónde densidad conjunta de (X, Y ) es:

f(x, y) = 10 0 < x < 1 x < y < x+ 110

El resultado anterior tambien puede justificarse como sigue. DadosX = x,Y = x + Z, la distribución condicional de Z dado X = x es U(0, 1

10) ya queX y Z son independientes. Así x sirve como parámetro de locación en ladistribución condicional de Y dado X = x, y esta distribución marginales U(x, x + 1

10). Multiplicando esta función de densidad condicional por lafunción de densidad marginal de X, que es U(0, 1), se obtiene la función dedensidad conjunta anterior.

Esta representación Y = X + Z hace fácil el cálculo de la covariancia yel coeficiente de correlación :

E[X] = 12 E[Y ] = E[X + Z] = E[X] + E[Z] = 1

2 + 120 = 11

20

Page 77: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 73

Cov(X, Y ) = E[XY ]− E[X]E[Y ]= E[X(X + Z)]− E[X]E[X + Z]= E[X2] + E[XZ]− (E[X])2 − E[X]E[Z]

= σ2X = 1

12

Además σ2Y = Var(X + Z) = Var (X) + Var (Z) = 1

12 + 11200 . Luego:

ρXY =112√

112

√112 + 1

1200

=√

100101

que es mucho mayor que ρXY = 1/√

2 del ejemplo 4.5.1. ¿Por qué?

Figura 4.2: Regiones para las que f(x, y) > 0 de los ejemplos 4.5.1 y 4.5.2

Ejemplo 4.5.3 Sean X ∼ U(−1, 1) y Z ∼ U(0, 1/10) variables aleatoriasindependientes. Sea Y = X2 + Z y considere el vector aleatorio (X, Y ).Tal como en el ejemplo 4.5.2, dado X = x, Y = x2 + Z y la distribucióncondicional de Y dado X = x es U(x2, x2 + 1

10). La función de densidadconjunta de X y Y , el producto de esta condicional y la función de densidadmarginal de X, es:

f(x, y) = 5 −1 < x < 1 x2 < y < x2 + 110

Page 78: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 74

El conjunto sobre el que f(x, y) > 0 se muestra en la figura 4.5.3. Existeuna fuerte relación entreX y Y , tal como lo indica la distribución condicionalde Y dado X = x, pero la relación no es lineal.

Figura 4.3: Región donde f(x, y) > 0 del ejemplo 4.5.3

Como X ∼ U(−1, 1) entonces E[X] = E[X3] = 0 y como X y Z sonindependientes, E[XZ] = E[X]E[Z]. Luego:

Cov(X, Y ) = E[X(X2 + Z)]− E[X]E[X2 + Z]= E[X3] + E[XZ]− E[X]E[X2 + Z]= 0

y ρX,Y = 0.

Definición 4.5.3 Sean −∞ < µX < ∞, −∞ < µY < ∞, 0 < σX , 0 < σY ,y −1 < ρ < 1 números reales. La función de densidad normal bivariada conmedias µX , µY varianzas σ2

X , σ2Y y coeficiente de correlación ρ esta dada

por:

Page 79: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 75

f(x, y) = 12πσXσY

√1− ρ2 exp

− 12(1− ρ2)

(x− µXσX

)2−

− 2ρ(x− µXσX

)(y − µYσY

)+(y − µYσY

)2

para −∞ < x < ∞,−∞ < y < ∞. Algunas de las propiedades de lafunción de densidad conjunta anterior son:

a. La distribución marginal de X es N (µX , σ2X).

b. La distribución marginal de Y es N (µY , σ2Y ).

c. El coeficiente de correlación entre X y Y es ρX,Y = ρ.

d. Para a y b constantes, la distribución de aX + bY es:

N (aµX + bµY , a2σ2

X + b2σ2Y + 2abρσXσY )

e. Todas las distribuciones condicionales también son normales. Por ejem-plo:

f(Y/X = x) ∼ N(µY + ρ

(σYσX

)(x− µX), σ2

Y (1− ρ2))

4.6. Distribuciones multivariadasEl vector aleatorio X = (X1, · · · , Xn) tiene un espacio muestral que es

subconjunto de <n. Si (X1, · · · , Xn) es un vector aleatorio discreto (el espa-cio muestral es numerable) entonces la función de probabilidad conjunta de(X1, · · · , Xn) es la función definida por f(x) = f(x1, · · · , xn) = Pr(X1 =x1, · · · , Xn = xn) para cada (x1, · · · , xn) ∈ <n. Entonces para todo A ⊂ <n,

Pr(X ∈ A) =∑x∈A

f(x) (4.6.1)

si (X1, · · · , Xn) es un vector aleatorio continuo, entonces la función dedensidad conjunta de (x1, · · · , xn) es la función f(x1, · · · , xn) que satisface:

Page 80: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 76

Pr(X ∈ A) =ˆ· · ·ˆA

f(x)dx =ˆ· · ·ˆA

f(x1, · · · , xn)dx1 · · · dxn (4.6.2)

Sea g(x) = g(x1, · · · , xn) una función de valor real definida sobre el espaciomuestral de X. Entonces g(X) es una variable aleatoria y su valor esperadoes:

E[g(X)] =∑

x∈<ng(x)f(x) y E[g(X)] =

ˆ ∞−∞· · ·ˆ ∞−∞

g(x)f(x)dx (4.6.3)

en el caso discreto y continuo respectivamente.La función de probabilidad marginal o función de densidad marginal para

algún subconjunto de coordenadas de (X1, · · · , Xn) puede calcularse suman-do o integrando la función de probabilidad o función de densidad conjun-ta sobre las otras coordenadas. Por ejemplo, la distribución marginal de(X1, · · · , Xk), las primeras k-coordenadas de (X1, · · · , Xn), está dada porla función de probabilidad o función de densidad:

f(x1, · · · , xk) =∑

(xk+1,··· ,xn)∈<n−kf(x1, · · · , xn) (4.6.4)

f(x1, · · · , xk) =ˆ ∞−∞· · ·ˆ ∞−∞

f(x1, · · · , xn)dxk+1 · · · dxn (4.6.5)

para todo (x1, · · · , xk) ∈ <k. La función de probabilidad o función de den-sidad condicional de un subconjunto de coordenadas de (x1, · · · , xn), dadoslos valores de las coordenadas restantes, se obtiene dividiendo la función deprobabilidad o función de densidad conjunta por la función de probabilidado función de densidad marginal de las coordenadas restantes. Así, por ejem-plo, si f(x1, · · · , xn) > 0, la función de probabilidad o función de densidadcondicional de (xk+1, · · · , xn) dados X1 = x1, · · · , Xk = xk es la función de(xk+1, · · · , xn) definida por:

f(xk+1, · · · , xn|x1, · · · , xk) = f(x1, · · · , xn)f(x1, · · · , xk)

(4.6.6)

Ejemplo 4.6.1 Sea la función de densidad conjunta:

Page 81: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 77

f(x1, x2, x3, x4) =

34(x2

1 + x22 + x2

3 + x24) 0 < xi < 1

0 de otro modo

del vector aleatorio (X1, · · · , X4). Se puede obtener la función de densidadmarginal de (X1, X2) integrando las variables X3 y X4:

f(x1, x2) =ˆ ∞−∞

ˆ ∞−∞

f(x1, · · · , x4)dx3dx4

=ˆ 1

0

ˆ 1

0

34(x2

1 + x22 + x2

3 + x24)dx3dx4

= 34(x2

1 + x22) + 1

2para 0 < x1 < 1, 0 < x2 < 1. Cualquier probabilidad o valor esperado que

incluya solo X1 y X2 puede calcularse usando esta función de distribuciónmarginal. Por ejemplo:

E[X1X2] =ˆ ∞−∞

ˆ ∞−∞

x1x2f(x1, x2)dx1dx2

=ˆ 1

0

ˆ 1

0x1x2

(34(x2

1 + x22) + 1

2

)dx1dx2

= 516

Para todo (x1, x2) con 0 < x1 < 1, 0 < x2 < 1, f(x1, x2) > 0 y lafunción de densidad condicional de (X3, X4) dados X1 = x1 y X2 = x2 puedeobtenerse usando 4.6.6:

f(x3, x4|x1, x2) = f(x1, x2, x3, x4)f(x1, x2)

=34(x2

1 + x22 + x2

3 + x24)

34(x2

1 + x22) + 1

2

= x21 + x2

2 + x23 + x2

4x2

1 + x22 + 2

3

Definición 4.6.1 Sean n y m enteros positivos y sean p1, · · · , pn númerostales que 0 ≤ pi ≤ 1, i = 1, · · · , n y ∑n

i=1 pi = 1. Entonces el vector aleatorio(X1, · · · , Xn) tiene distribución multinomial con m ensayos y probabilidadesde celda p1, · · · , pn si su función de probabilidad conjunta es:

Page 82: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 78

f(x1, · · ·xn) = m!x1! · · ·xn!p

x11 · · · pxnn = m!

n∏i=1

pxiixi!

sobre el conjunto de (x1, · · · , xn) tal que cada xi es un entero no negativo y∑ni=1 xi = m. El factor m!/(x1! · · ·xn!) es llamado coeficiente multinomial.

Ejemplo 4.6.2 Considere el experiento aleatorio que consiste en lanzar 10veces un dado. Suponga que el dado no se encuentra balanceado, tal que laprobabilidad de observar i es i

21 . Sea el vector aleatorio (X1, · · · , X6) tal queXi representa el número de lanzamientos en los que se observó el númeroi, entonces su distribución es multinomial con m = 10 lanzamientos, n = 6posibles resultados y probabilidades de celda p1 = 1

21 , p2 = 221 , · · · , p6 = 6

21 .La fórmula anterior puede usarse para calcular la probabilidad de obtenerel número 6 en cuatro lanzamientos, el número 5 en tres lanzamientos, elnúmero 4 en dos lanzamientos y el número 3 en solo un lanzamiento:

f(0, 0, 1, 2, 3, 4) = 10!0!0!1!2!3!4!

( 121

)0 ( 221

)0 ( 321

)1 ( 421

)2 ( 521

)3 ( 621

)4

= 5910000

Teorema 4.6.1 (Teorema Multinomial) Sean m y n enteros positivos.Sea A el conjunto de vectores x = (x1, · · · , xn) tal que cada xi es un enterono negativo y ∑n

i=1 xi = m. Entonces, para números reales p1, p2, · · · , pn:

(p1 + · · ·+ pn)m =∑x∈A

m!x1! · · · xn!p

x11 · · · pxnn

Definición 4.6.2 Sean X1, · · · ,Xn vectores aleatorios con función de prob-abilidad o función de densidad conjunta f(x1, · · · ,xn). Sea fXi

(xi) la funciónde probabilidad o función de densidad marginal de Xi. Entonces X1, · · · ,Xn

son vectores aleatorios mutuamente independientes si, para todo (x1, · · · ,xn):

f(x1, · · · ,xn) = fX1(x1) · · · fXn(xn) =n∏i=1

fXi(xi)

si todas las Xi’s son unidimensionales, entonces X1, · · · , Xn son llamadasvariables aleatorias mutuamente independientes.

Page 83: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 79

Teorema 4.6.2 Sean X1, · · · , Xn variables aleatorias mutuamente indepen-dientes. Sean g1, · · · , gn funciones de valor real tales que gi(xi) es una funciónsolo de xi, i = 1, 2, · · · , n, entonces:

E [g1(X1) · · · gn(Xn)] = E [g1(X1)] · · ·E [gn(Xn)]

Teorema 4.6.3 (Generalización del teorema 4.2.2) Sean X1, · · · , Xn

variables aleatorias mutuamente independientes con funciones generatricesde momentos MX1(t), · · · ,MXn(t). Si Z = X1 + · · ·+Xn, entonces la funcióngeneratriz de momentos de Z es:

MZ(t) = MX1(t) · · ·MXn(t)En particular, si las variables aleatorias X1, · · · , Xn tienen la misma distribu-ción, con función generatriz de momentos MX(t), entonces:

MZ(t) = [MX(t)]n

Ejemplo 4.6.3 Suponga X1, · · · , Xn son variables aleatorias mutuamenteindependientes y la distribución de Xi ∼ G(αi, β). La función generatriz demomentos de una G(α, β) es MX(t) = (1 − βt)−α. Si Z = X1 + · · · + Xn sufunción generatriz de momentos es:

MZ(t) = MX1(t) · · ·MXn(t)= (1− βt)−α1 · · · (1− βt)−αn

= (1− βt)−(α1+···+αn)

entonces Z ∼ G(α1 + · · ·+ αn, β).

Corolario 4.6.1 Sean X1, · · · , Xn variables aleatorias mutuamente inde-pendientes con funciones generatrices de momentos MX1(t), · · · ,MXn(t). Sia1, · · · , an y b1, · · · , bn son constantes, entonces la función generatriz de mo-mentos de Z = (a1X1 + b1) + · · ·+ (anXn + bn) es:

MZ(t) =(et(∑

bi))MX1(a1t) · · ·MXn(ant)

Ejemplo 4.6.4 Sean X1, · · · , Xn variables aleatorias mutuamente indepen-dientes con Xi ∼ N (µi, σ2

i ) . Si a1, · · · , an y b1, · · · , bn son constantes, en-tonces:

Page 84: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 80

Z =n∑i=1

(aiXi + bi) ∼ N(

n∑i=1

(aiµi + bi),n∑i=1

a2iσ

2i

)

Teorema 4.6.4 (Generalización del teorema 4.3.2) Sean X1, · · · ,Xn

vectores aleatorios independientes. Sea gi(xi) una función que solo dependede xi, i = 1, · · · , n. Entonces las variables aleatorias Ui = gi(Xi) son mutua-mente independientes.

4.7. Transformaciones sobre un vector aleato-rio

Sea (X1, · · · ,Xn) un vector aleatorio con función de densidad fX(x).Sea A = {x : fX(x) > 0}. Considere un nuevo vector aleatorio (U1, · · · , Un)definido por Ui = gi(X1, · · · ,Xn), i = 1, · · · , n. Suponga que A0, A1, · · · , Akforman una partición de A. El conjunto A0, el cual podría ser vacio, satisfacePr((X1, · · · ,Xn) ∈ A0) = 0. La transformación (U1, · · · , Un) es una trans-formación 1 - 1 desde Ai hacia B . Entonces para cada i, se puede obtenerlas funciones inversas desde B hacia Ai.

Denote la i-ésima inversa por x1 = h1i(u1, · · · , un), x2 = h2i(u1, · · · , un), · · · , xn =hni(u1, · · · , un). Estas inversas dan un único (x1, · · · , xn) ∈ Ai tal que (u1, · · · , un) =(g1(x1, · · · , xn), · · · , gn(x1, · · · , xn)). Sea Ji el jacobiano calculado desde lai-ésima inversa, es decir:

Ji =

∣∣∣∣∣∣∣∣∣∣∣

∂x1∂u1

∂x1∂u2

· · · ∂x1∂un

∂x2∂u1

∂x2∂u2

· · · ∂x2∂un... ... . . . ...

∂xn∂u1

∂xn∂u2

· · · ∂xn∂un

∣∣∣∣∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣∣∣∣∣

∂h1i(u)∂u1

∂h1i(u)∂u2

· · · ∂h1i(u)∂un

∂h2i(u)∂u1

∂h2i(u)∂u2

· · · ∂h2i(u)∂un... ... . . . ...

∂hni(u)∂u1

∂hni(u)∂u2

· · · ∂hni(u)∂un

∣∣∣∣∣∣∣∣∣∣∣es el determinante de la matriz n×n. Luego la función de densidad conjunta,fU(u1, · · · , un) para u ∈ B es:

fU(u1, · · · , un) =k∑i=1

fX (hi1(u1, · · · , un)) , · · · , (hn1(u1, · · · , un)) |Ji| (4.7.1)

Ejemplo 4.7.1 Sea (X1, X2, X3, X4) con función de densidad conjunta:

Page 85: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 81

fX(x1, x2, · · · , x4) = 24e−x1−x2−x3−x4 , 0 < x1 < x2 < x3 < x4 <∞

Considere las transformaciones:

U1 = X1, U2 = X2 −X1, U3 = X3 −X2, U4 = X4 −X3

que van del conjunto A sobre el conjunto B = {u : 0 < ui <∞} para i =1, 2, 3, 4. Además son transformaciones 1 - 1, luego k = 1 y la inversa es:

X1 = U1, X2 = U1 + U2, X3 = U1 + U2 + U3, X4 = U1 + U2 + U3 + U4

El Jacobiano de la inversa es:

J =

∣∣∣∣∣∣∣∣∣1 0 0 01 1 0 01 1 1 01 1 1 1

∣∣∣∣∣∣∣∣∣ = 1

Luego:

fU(u1, · · · , u4) = 24e−u1−(u1+u2)−(u1+u2+u3)−(u1+u2+u3+u4)

= 24e−4u1−3u2−2u3−u4 sobreB

Además fU(ui) = (5− i)e−(5−i)ui , ui > 0, es decir Ui ∼ E(1/(5− i)). Delteorema 4.3.2 se puede observar que U1, U2, · · · , U4 son variables aleatoriasmutuamente independientes.

4.8. Desigualdades

4.8.1. Desigualdades numéricasLema 4.8.1 Sean a, b números positivos y p, q números positivos mayoresque 1 que satisfacen:

1p

+ 1q

= 1 (4.8.1)

entonces:1pap + 1

qbq ≥ ab (4.8.2)

Page 86: Casella Español

CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES 82

Teorema 4.8.1 (Desigualdad de Holder) Sean X y Y son variablesaleatorias que satisfacen 4.8.1, entonces:

|E [XY ]| ≤ E [|XY |] ≤ (E [|X|p])1/p (E [|Y |q])1/q (4.8.3)

Teorema 4.8.2 (Desigualdad de Cauchy-Schwarz) Si X y Y son vari-ables aleatorias, entonces:

|E [XY ]| ≤ E [|XY |] ≤(E[|X|2

])1/2 (E[|Y |2

])1/2(4.8.4)

Page 87: Casella Español

Capítulo 5

Propiedades en una muestraaleatoria

5.1. Conceptos básicos sobre muestras aleato-rias

Definición 5.1.1 X1, · · · , Xn son llamadas una muestra aleatoria de tamañon de una población f(x) si son variables aleatorias mutuamente independi-entes y la función de probabilidad o densidad marginal de cada Xi es f(x).Alternativamente, X1, · · · , Xn son llamadas variables aleatorias independi-entes e identicamente distribuidas con función de probabilidad o densidadf(x).

Si la función de probabilidad o densidad es miembro de una familiaparamétrica f(x|θ), entonces la función de probabilidad o densidad conjuntaes:

f(x1, · · · , xn|θ) =n∏i=1

f(xi|θ) (5.1.1)

Ejemplo 5.1.1 Sea X1, · · · , Xn una muestra aleatoria de una poblaciónE(β) que corresponden al tiempo de funcionamiento (en años) de n circuitosidénticos sometidos a prueba. La función de densidad conjunta de la muestraes:

83

Page 88: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 84

f(x1, · · · , xn|β) =n∏i=1

f(xi|β) =n∏i=1

1βe−xi/β = 1

βne−(x1+···+xn)/β

La probabilidad que todos los circuitos funcionen al menos dos años es:

Pr(X1 > 2, · · · , Xn > 2) =ˆ ∞

2· · ·ˆ ∞

2

1βne−(x1+···+xn)/βdx1 · · · dxn

= e−2/βˆ ∞

2· · ·ˆ ∞

2

1βn−1 e

−(x2+···+xn)/βdx2 · · · dxn

= (e−2/β)n = e−2n/β

Usando independencia:

Pr(X1 > 2, · · · , Xn > 2) = Pr(X1 > 2) · · ·Pr(Xn > 2)= (e−2/β)n = e−2n/β

Ejemplo 5.1.2 Suponga {1, · · · , 1000} es una población finita, es decir N =1000. Si se elige una muestra sin reemplazo de tamaño n = 10, ¿cuál esla probabilidad que los 10 valores sean mayores a 200? Si se asume queX1, · · · , X10 son independientes:

Pr(X1 > 200, · · · , X10 > 200) = Pr(X1 > 200) · · ·Pr(X10 > 200)

=( 800

1000

)10= 0,107374

Sea Y = número de valores en la muestra que son mayores a 200, entoncesY ∼ H(N = 1000,M = 800, k = 10). Luego:

Pr(X1 > 200, · · · , X10 > 200) = Pr(Y = 10)

=

(80010

)(2000

)(

100010

) = 0,106164

5.2. Sumas de variables aleatorias a partir deuna muestra aleatoria

Definición 5.2.1 SeaX1, · · · , Xn una muestra aleatoria de tamaño n de unapoblación y sea T (X1, · · · , Xn) una función cuyo dominio incluye el espacio

Page 89: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 85

muestral de (X1, · · · , Xn), entonces la variable aleatoria Y = T (X1, · · · , Xn)es llamada una estadística cuya distribución es llamada la distribución demuestreo de Y .

Definición 5.2.2 Lamedia muestral es el promedio aritmético de los valoresen la muestra aleatoria. Usualmente se denota por:

X = X1 + · · ·+Xn

n= 1n

n∑i=1

Xi

Definición 5.2.3 La varianza muestral es la estadística definida por:

S2 = 1n− 1

n∑i=1

(Xi −X)2

La desviación estándar muestral es la estadística definida por S =√S2 .

Teorema 5.2.1 Sean x1, · · · , xn números cualesquiera y x = (x1 + · · · +xn)/n, entonces:

a. mın∑ni=1(xi − a)2 = ∑n

i=1(xi − x)2

b. (n− 1)s2 = ∑ni=1(xi − x)2 = ∑n

i=1 x2i − nx2

Lema 5.2.1 Sea X1, · · · , Xn una muestra aleatoria de una población y seag(x) una función tal que E[g(X1)] y Var (g(X1)) existen, entonces:

E[n∑

i=1g(Xi)

]= nE [g(X1)] y Var

(n∑

i=1g(Xi)

)= nVar (g(X1)) (5.2.1)

Teorema 5.2.2 SeaX1, · · · , Xn una muestra aleatoria de una población conmedia µ y varianza σ2 <∞, entonces:

a. E[X] = µ

b. Var(X)

= σ2

n

c. E[S2] = σ2

Page 90: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 86

Teorema 5.2.3 Sea X1, · · · , Xn una muestra aleatoria de una poblacióncon función generatriz de momentos MX(t), entonces la función generatrizde momentos de la media muestral es:

MX(t) = [MX(t/n)]n

Ejemplo 5.2.1 Sea X1, · · · , Xn una muestra aleatoria de una poblaciónN (µ, σ2). La función generatriz de momentos de la media muestral es:

MX(t) =[exp

{µt

n+ σ2 (t/n)2

2

}]n

= exp{µt+ (σ2/n)t2

2

}

entonces, X ∼ N (µ, σ2/n).

Ejemplo 5.2.2 Sea X1, · · · , Xn una muestra aleatoria de una poblaciónG(α, β). La función generatriz de momentos de la media muestral es:

MX(t) =[(

11− β(t/n)

)α]n

=(

11− (β/n)t

)nα

entonces, X ∼ G(nα, β/n).

Si el teorema 5.2.3 no es aplicable puede usarse el método de la transfor-mación para hallar la función de densidad de Y = (X1 + · · · + Xn) y luegola de X. En estos casos la siguiente fórmula es útil.

Teorema 5.2.4 Si X y Y son variables aleatorias continuas independientescon función de densidad fX(x) y fY (y), entonces la función de densidad deZ = X + Y es:

fZ(z) =ˆ ∞−∞

fX(w)fY (z − w)dw (5.2.2)

Ejemplo 5.2.3 Suponga que desea obtener la distribución de Z, la media deZ1, · · · , Zn observaciones independientes e identicamente distribuidas según

Page 91: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 87

C(0, 1). Aplicando 5.2.2 se puede demostrar que Z1 + · · · + Zn tiene dis-tribución C(0, n) y Z ∼ C(0, 1), es decir la media muestral tiene la mismadistribución de las observaciones individuales.

Suponga X1, · · · , Xn es una muestra de (1/σ)f((x−µ)/σ) un miembro deuna familia de locación-escala. Entonces la distribución de X tiene relacióncon la distribución de Z, la media muestral a partir de la función de densidadestándar f(z). Recordar que según el teorema 3.4.2 existen variables aleato-rias Z1, · · · , Zn tales que Xi = σZi + µ y la función de densidad de cada Zies f(z). Además se tiene que Z1, · · · , Zn son mutuamente independientes porlo que se trata de una muestra aleatoria de f(z). Las medias muestrales X yZ estan relacionadas por:

X = 1n

n∑i=1

Xi = 1n

n∑i=1

(σZi + µ) = σZ + µ

Luego, aplicando nuevamente el teorema 3.4.2, se tiene que si g(z) es la fun-ción de densidad de Z, entonces (1/σ)g((x−µ)/σ) es la función de densidadde X.

Ejemplo 5.2.4 Si Z1, · · · , Zn es una muestra aleatoria de una distribuciónde C(0, 1), entonces Z ∼ C(0, 1). Luego si X1, · · · , Xn ∼ C(µ, σ) entoncesX ∼ C(µ, σ). Es importante notar que la dispersión de X medida por σ, es lamisma sin tomar en cuenta el tamaño de muestra n, lo cual entra en aparentecontradicción con el teorema 5.2.2 ya que la distribucion de Cauchy no tienevarianza finita.

Cuando se muestrea a partir de una familia exponencial la distribuciónde muestreo de la suma es fácil de encontrar. Las estadísticas T1, · · · , Tk enel siguiente teorema son medidas de resumen importantes, tal como se verámás adelante.

Teorema 5.2.5 Suponga X1, · · · , Xn es una muestra aleatoria tomada deuna función de probabilidad o densidad f(x|θ) donde:

f(x|θ) = h(x)c(θ) exp{

k∑i=1

wi(θ)Ti(x)}

es un miembro de una familia exponencial. Se definen las estadísticasT1, · · · , Tk por:

Page 92: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 88

Ti(X1, · · · , Xn) =n∑j=1

Ti(Xj), i = 1, · · · , k.

Suponga que:

{(w1(θ), · · · , wk(θ) : θ ∈ Θ}y

{(T1(x1, · · · , xn), · · · , Tk(x1, · · · , xn)) : xj ∈ X}donde n ≥ k, Θ es el espacio parámetrico y X es el espacio muestral deXj.

Luego, la distribución de (T1, . . . , Tk) es miembro de una familia exponencialde la forma:

fT (t1, · · · , tk|θ) = H(t1, · · · , tk)[c(θ)]n exp{

k∑i=1

wi(θ)ti}

Ejemplo 5.2.5 Suponga que X1, · · · , Xn es una muestra aleatoria de unadistribución B(p) que pertenece a una familia exponencial con k = 1, c(p) =(1 − p), w1(p) = log(p/(1 − p)) y t1(x) = x. Luego T1 = X1 + · · · + Xn ∼BI(n, p) que pertenece a una familia exponencial con w1(p) y c(p) = (1− p).

5.3. Muestreo desde la distribución Normal

5.3.1. Propiedades de la media y variancia muestralTeorema 5.3.1 Sea X1, · · · , Xn una muestra aleatoria de la distribuciónN (µ, σ2) y sean X = 1

n

∑ni=1Xi y S2 = 1

n−1∑ni=1(Xi −X)2. Entonces:

a. X y S2 son variables aleatorias independientes.

b. X ∼ N (µ, σ2/n).

c. (n− 1)S2/σ2 ∼ χ2n−1.

Lema 5.3.1 Sea χ2p una variable aleatoria con distribución chi-cuadrado con

p grados de libertad.

a. Si Z ∼ N (0, 1) entonces Z2 ∼ χ21.

Page 93: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 89

b. Si X1, · · · , Xn son independientes y Xi ∼ χ2pientonces X1 + · · ·+Xn ∼

χ2p1+···+pn .

Lema 5.3.2 Sea Xj ∼ N (µj, σ2j ), j = 1, · · · , n independientes. Para con-

stantes aij y brj (i = 1, · · · , k; r = 1, · · · ,m) donde k +m ≤ n, se define:

Ui =n∑j=1

aijXj, i = 1, · · · , k

Vr =n∑j=1

brjXj, r = 1, · · · ,m

a. Las variables aleatorias Ui y Vr son independientes si y solo si Cov(Ui, Vr) =Σnj=1aijbrjσ

2j = 0.

b. Los vectores aleatorios (U1, · · · , Uk) y (V1, · · · , Vm) son independientessí y solo si Ui es independiente de Vr para todos los pares i, r (i =1, · · · , k; r = 1, · · · ,m).

5.3.2. Distribuciones derivadas: t de Student y F deSnedecor

Si X1, · · · , Xn es una muestra aleatoria de la distribución N (µ, σ2) sesabe que:

X − µσ/√n

(5.3.1)

tiene distribución N (0, 1). Muchas veces σ no se conoce, en este caso elproceso de inferencia se realiza sobre:

X − µS/√n

(5.3.2)

Definición 5.3.1 Sea X1, · · · , Xn es una muestra aleatoria de una distribu-ción N (µ, σ2). La cantidad X−µ

S/√ntiene distribución t-student con n−1 grados

de libertad. Equivalentemente, una variable aleatoria T tiene distribución tde student con p grados de libertad, y se denota por T ∼ tp, si tiene lasiguiente función de densidad:

Page 94: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 90

fT (t) =Γ(p+1

2 )Γ(p2)

1(pπ)1/2

1(1 + t2/p)(p+1)/2 , −∞ < t <∞ (5.3.3)

Si p = 1 entonces 5.3.3 se convierte en la distribución Cauchy, lo cual ocurrecuando el tamaño de muestra es 2.

La distribución t de student no tiene función generatriz de momentos yaque no todos sus momentos existen. De hecho, si existen p grados de libertad,entonces solo existen p− 1 momentos. Por lo tanto, t1 no tiene media, t2 notiene variancia, etc. Es fácil chequear que si Tp es una variable aleatoria condistribución tp entonces:

E[Tp] = 0 si p > 1

Var (Tp) = p

p− 2 si p > 2 (5.3.4)

Definición 5.3.2 Sea X1, · · · , Xn una muestra aleatoria de una poblaciónN (µX , σ2

X) y sea Y1, · · ·Ym una muestra aleatoria de una población inde-pendiente N (µY , σ2

Y ). La variable aleatoria F = (S2X/σ

2X)/(S2

Y /σ2Y ) tiene

distribución F de Snedecor con n − 1 y m − 1 grados de libertad. Equiva-lentemente, la variable aleatoria F tiene distribución F con p y q grados delibertad, si su función de densidad es:

fF (x) =Γ(p+q2 )

Γ(p2)Γ( q2)

(p

q

)p/2x(p/2)−1

[1 + (p/q)x](p+q)/2 , 0 < x <∞ (5.3.5)

Teorema 5.3.2 Usando la técnica de la transformación es posible establecerlos siguientes resultados:

a. Si X ∼ Fp,q entonces 1/X ∼ Fq,p.

b. Si X ∼ tq entonces X2 ∼ F1,q.

c. Si X ∼ Fp,q entonces (p/q)X/(1 + (p/q)X) ∼ BE(p/2, q/2).

5.4. Estadísticas de ordenDefinición 5.4.1 Las estadísticas de orden de una muestra X1, · · · , Xn sonlos valores puestos en orden ascendente y se denotan por X(1), · · · , X(n).

Page 95: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 91

Las estadísticas de orden son variables aleatorias que satisfacen X(1) ≤· · · ≤ X(n). En particular:

X(1) = mın1≤i≤n

Xi

X(2) = segundo valor más pequeñoXi

...X(n) = max

1≤i≤nXi

El rango muestral, R = X(n) − X(1) es la diferencia entre la observaciónmás grande y pequeña. La mediana muestral, denotada por M , es el númerotal que aproximadamente la mitad de las observaciones son menores que My la otra mitad es mayor. En términos de las estadísticas de orden, M sedefine por:

M =

X((n+1)/2) sin es impar(X(n/2) +X(n/2+1))/2 sin es par

(5.4.1)

Para todo número p entre 0 y 1, el percentil muestral 100p es la obser-vación tal que aproximadamente np de las observaciones son menores que elmencionado percentil y n (1− p) de las observaciones restantes son mayores.El percentil muestral 50 es la mediana muestral. Para otros valores de p, sepuede definir de forma precisa los percentiles muestrales en términos de lasestadísticas de orden.

Definición 5.4.2 La notación {b}, cuando aparezca como subíndice, se de-fine como el número b redondeado al entero más cercano, es decir, si i es unnúmero entero y i− 0,5 ≤ b < i+ 0,5, entonces {b} = 1.

El percentil 100p es X({np}) si 12n < p < 0,5 y X(n+1−{n(1−p)}) si 0,5 <

p < 1− 12n . Por ejemplo, si n = 12 y se desea hallar el percentil 65, se tiene

12(1− 0,65) = 4,2 y 12 + 1− 4 = 9. Luego el percentil 65 es X(9).

Teorema 5.4.1 Sea X1, · · · , Xn una muestra aleatoria de una distribucióndiscreta con función de probabilidad fX(xi) = pi donde x1 < x2 < · · · son

Page 96: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 92

los posibles valores de X en orden ascendente. Se definen:

P0 = 0P1 = p1

P2 = p1 + p2...

Pi = p1 + p2 + · · ·+ pi

Sean X(1), · · · , X(n) las estadísticas de orden de la muestra, entonces:

Pr(X(j) ≤ xi) =n∑k=j

(n

k

)P ki (1− Pi)n−k (5.4.2)

y

Pr(X(j) = xi) =n∑k=j

(n

k

) [P ki (1− Pi)n−k − P k

i−1(1− Pi−1)n−k]

(5.4.3)

Teorema 5.4.2 SeanX(1), · · · , X(n) las estadísticas de orden de una muestraaleatoria de una población continua con función de distribución acumuladaFX(x) y función de densidad fX(x). Entonces la función de densidad de X(j)es:

fX(j)(u) = n!(j − 1)!(n− j)!fX(u)[FX(u)]j−1[1− FX(u)]n−j (5.4.4)

Ejemplo 5.4.1 Sean X1, · · · , Xn variables aleatorias independientes e iden-ticamente distribuidas como U(0, 1), tal que fX(x) = 1 y FX(x) = x parax ∈ (0, 1). Usando el teorema 5.4.2 se tiene que la función de densidad de laj-ésima estadística de orden es:

fX(j)(u) = n!(j − 1)!(n− j)!u

j−1(1− u)n−j

= Γ(n+ 1)Γ(j)Γ(n− j + 1)u

j−1(1− u)(n−j+1)−1

Es decir, X(j) ∼ BE(j, n− j + 1). Luego:

E[X(j)] = j

n+ 1 y Var(X(j)

)= j(n− j + 1)

(n+ 1)2(n+ 2)

Page 97: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 93

Teorema 5.4.3 Sean X(1), · · · , X(n) las estadísticas de orden de una mues-tra aleatoria X1, · · · , Xn de una población continua con función de distribu-ción acumulada FX(x) y función de densidad fX(x). Entonces la función dedensidad conjunta de X(i) y X(j), 1 ≤ i < j ≤ n, es:

fX(i),X(j)(u, v) = n!(i− 1)!(j − 1− i)!(n− j)!fX(u)fX(v)[FX(u)]i−1

[FX(v)− FX(u)]j−1−i[1− FX(v)]n−j(5.4.5)

para −∞ < u < v <∞.

Es posible obtener la función de densidad conjunta de tres o más estadísti-cas de orden usando argumentos similares pero más complicados. La funciónde densidad conjunta de todas las estadísticas de orden está dada por:

fX(1),··· ,X(n)(x1, · · · , xn) =

n!fX(x1) · · · fX(xn) −∞ < x1 < · · · < xn <∞0 de otro modo

Ejemplo 5.4.2 Sean X1, · · · , Xn variables aleatorias independientes e iden-ticamente distribuidas según U(0, a) y sean X(1), · · · , X(n) las estadísticas deorden. El rango muestral fue definido como R = X(n)−X(1). El rango medio osemirango es una medida de localización como la mediana o media muestral,y se define por S = (X(1) + X(n))/2. Se pide hallar la función de densidadconjunta de R y S a partir de la función de densidad conjunta de X(1) y X(n).De 5.4.5 se tiene que:

fX(1),X(n)(u, v) = n(n− 1)(v − u)n−2

an, 0 < u < v < a

Resolviendo para X(1)y X(n) se obtiene:

X(1) = S −R/2

X(n) = S +R/2

Las transformaciones anteriores son 1-1 y van desde A = {(u, v) : 0 <u < v < a} hacia B = {(r, s) : 0 < r < a, r/2 < s < a − r/2}. El jacobianoes:

J =∣∣∣∣∣ 1 −1

21 1

2

∣∣∣∣∣ = 1

Page 98: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 94

La función de densidad conjunta de (R, S) es:

fR,S(r, s) = n(n− 1)rn−2

an, 0 < r < a, r/2 < s < a− r/2

La función de densidad marginal de R es:

fR(r) =ˆ a−r/2

r/2

n(n− 1)rn−2

ands = n(n− 1)rn−2(a− r)

an(5.4.6)

Si a = 1, se tiene que r ∼ BE(n − 1, 2). Se puede probar que R/a tienedistribución beta, donde a es el parámetro de escala. La función de densidadmarginal de S es:

fS(s) =ˆ 2s

0

n(n− 1)rn−2

andr = n(2s)n−1

an, 0 < s ≤ a/2

y

fS(s) =ˆ 2(a−s)

0

n(n− 1)rn−2

andr = n [2(a− s)]n−1

an, a/2 < s ≤ a

5.5. Conceptos de convergencia

5.5.1. Convergencia en probabilidadDefinición 5.5.1 Una secuencia de variables aleatorias X1, X2, · · · convergeen probabilidad hacia la variable aleatoria X, si para todo ε > 0

lımn→∞

Pr (|Xn −X| ≥ ε) = 0 ó lımn→∞

Pr (|Xn −X| < ε) = 1

Las variables aleaorias X1, X2, · · · en la definición 5.5.1, y en las otrasdefiniciones de esta sección, no son necesariamente independientes e identi-camente distribuidas como en una muestra aleatoria.

Frecuentemente se tiene que la secuencia de variables aleatorias corre-sponde a medias muestrales y que la variable aleatoria límite es constante.El resultado más famoso es el siguiente.

Page 99: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 95

Teorema 5.5.1 (Ley débil de los grandes números) Sean X1, X2, · · ·variables aleatorias independientes e identicamente distribuidas con E[Xi] =µ y Var(Xi) = σ2 <∞. Si se define Xn = (1/n)∑n

i=1Xi entonces, para todoε > 0:

lımn→∞

Pr(∣∣∣Xn − µ

∣∣∣ < ε)

= 1

es decir, Xn converge en probabilidad hacia µ.

Ejemplo 5.5.1 Suponga se tiene la secuenciaX1, X2, · · · de variables aleato-rias independientes e identicamente distribuidas con E[Xi] = µ y Var (Xi) =σ2 <∞. Si se define:

S2n = 1

n− 1

n∑i=1

(Xi −Xn)2

Si se desea probar la ley débil de los grandes números para S2n se usa la

desigualdad de Chebychev:

Pr(∣∣∣S2

n − σ2∣∣∣ ≥ ε

)≤ E [(S2

n − σ2)2]ε2

= Var (S2n)

ε2

Una condición suficiente para que S2n converja en probabilidad a σ2 es

que Var (S2n)→ 0 conforme n→∞.

Teorema 5.5.2 Si X1, X2, · · · converge en probabilidad hacia la variablealeatoria X y h es una función continua, entonces h(X1), h(X2), · · · convergeen probabilidad hacia h(X).

5.5.2. Convergencia casi seguraDefinición 5.5.2 Una secuencia de variables aleatorias,X1, X2, · · · convergede manera casi segura hacia la variable aleatoria X si, para todo ε > 0

Pr(

lımn→∞

(|Xn −X| ≥ ε))

= 1

Ejemplo 5.5.2 Sea el espacio muestral S = [0, 1] con distribución de prob-abilidad uniforme. Se definen las variables aleatorias Xn(s) = s + sn yX(s) = s. Para todo s ∈ [0,1], sn → 0 conforme n→∞ yXn(s)→ s = X(s).Sin embargo, Xn(1) = 2 para todo n tal que Xn(1) no converge a X(1) = 1.

Page 100: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 96

Pero como la convergencia ocurre en el conjunto [0, 1] y Pr ([0, 1]) = 1, Xn

converge de forma casi segura hacia X.

Teorema 5.5.3 (Ley fuerte de los grandes números) Sean X1, X2, · · ·variables aleatorias independientes e identicamente distribuidas con E[Xi] =µ y Var (Xi) = σ2 <∞ y se define Xn = (1/n)∑n

i=1Xi. Entonces, para todoε > 0,

Pr(

lımn→∞

∣∣∣Xn − µ∣∣∣ < ε

)= 1

es decir, Xn converge de forma casi segura hacia µ.

5.5.3. Convergencia en distribuciónDefinición 5.5.3 Una secuencia de variables aleatorias,X1, X2, · · · convergeen distribución a la variable aleatoria X si:

lımn→∞

FXn(x) = FX(x)

en todos los puntos x donde FX(x) es continua.

Ejemplo 5.5.3 SeanX1, X2, · · · variables aleatorias con distribución U(0, 1)y sea X(n) = max1≤i≤n {Xi}. Conforme n→∞ se espera que X(n) se encuen-tre cerca de 1, entonces para todo ε > 0:

Pr(∣∣∣X(n) − 1

∣∣∣ ≥ ε)

= Pr(X(n) ≥ 1 + ε

)+ Pr

(X(n) ≤ 1− ε

)= Pr

(X(n) ≤ 1− ε

)= Pr (Xi ≤ 1− ε, i = 1, · · · , n)= (1− ε)n

luego X(n) converge en probabilidad hacia 1. Además, si se toma ε = t/nse tiene:

Pr(X(n) ≤ 1− t/n

)= (1− t/n)n → e−t

lo cual es equivalente a:

Pr(n(1−X(n)

)≤ t

)→ 1− e−t

es decir, la variable aleatoria n(1−X(n)

)converge en distribución a la

variable aleatoria E (1).

Page 101: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 97

Teorema 5.5.4 (Teorema central del límite) Sea X1, X2, · · · variablesaleatorias independientes e identicamente distribuidas cuyas funciones gener-atrices de momentos existen en alguna vecindad de 0 (esto es, MXi(t) existepara |t| < h para algún h positivo). Sea E[Xi] = µ y Var (Xi) = σ2 > 0 (µ yσ2 son finitos desde que la función generatriz de momentos existe). Se defineXn = (1/n)∑n

i=1Xi y sea Gn(x) la función de distribución acumulada de√n(Xn − µ)/σ. Entonces para −∞ < x <∞:

lımn→∞

Gn(x) =ˆ x

−∞

1√2πe−y

2/2dy

esto es,√n(Xn − µ)/σ tiene distribución límite normal estándar.

Prueba: Se probará que para| t |< h, la función generatriz de momentosde√n(Xn − µ)/σ converge hacia et2/2, la función generatriz de momentos

de una variable aleatoria N(0, 1). Se define Yi = (Xi − µ)/σ y sea MY (t) lafunción generatriz de momentos de las Y ′i s, las cuales existen para | t |< σh.Sea W tal que:

W =√n(X − µ)

σ= 1√

n

n∑i=1

Yi

Luego:

MW (t) = M 1√n

∑n

i=1 Yi(t) = M∑n

i=1 Yi(t/√n) =

[MY (t/

√n)]n

Se expande MY (t/√n) en una serie de potencias de Taylor alrededor de

0. Entonces:

MY (t/√n) =

∞∑k=0

M(k)Y (0)(t/

√n)k

k! donde M (k)Y (0) = dk

dtkMY (t)

∣∣∣∣t=0

Como la función generatriz de momento existe para | t |< h, la expresiónen serie de potencias es válida si t <

√nσh. Usando el hecho que M (0)

Y = 1,M

(1)Y = 0 y M (2)

Y = 1, ya que por construcción la media y varianza de Y son0 y 1 respectivamente. Entonces:

MY (t/√n) = M

(0)Y (0)(t/

√n)0

0! + · · ·+M(2)Y (0)(t/

√n)2

2! +RY (t/√n)

= 1 + (t/√n)2

2 +RY (t/√n)

Page 102: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 98

donde RY es el residuo en la expansión de Taylor. Una aplicación delteorema 7.4.1 de Taylor muestra que , para t 6= 0 fijo, se tiene:

lımn→∞

RY (t/√n)

(t/√n)2 = 0 entonces lım

n→∞nRY (t/

√n) = 0

Luego:

lımn→∞

[MY (t/

√n)]n

= lımn→∞

[1 + (t/

√n)2

2 +RY (t/√n)]n

= lımn→∞

[1 + 1

n

(t2

2 + nRY (t/√n))]n

y usando el lema 2.3.1 se tiene:

lımn→∞

[MY (t/

√n)]n

= et2/2

que es la función generatriz de momentos de la distribución N (0, 1).

Teorema 5.5.5 (Forma fuerte del teorema central del límite) SeanX1, X2, · · · variables aleatorias independientes e identicamente distribuidascon E[Xi] = µ y Var[Xi] = σ2 < ∞. Se define Xn = (1/n)∑n

i=1Xi y seaGn(x) la función de distribución acumulada de

√n(Xn − µ)/σ. Entonces

para −∞ < x <∞:

lımn→∞

Gn(x) =ˆ x

−∞

1√2πe−y

2/2dy

esto es,√n(Xn − µ)/σ tiene distribución límite normal estándar.

Ejemplo 5.5.4 Suponga que X1, · · · , Xn es una muestra aleatoria de unadistribución BN (r, p). Recordar que:

E[X] = r(1− p)p

y Var (X) = r(1− p)p2

El teorema central del límite dice que:√n(X − r(1− p)/p)√

r(1− p)/p2

Page 103: Casella Español

CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 99

tiene distribución aproximada N (0, 1). Por ejemplo si r = 10, p = 1/2 yn = 30 entonces:

Pr(X ≤ 11) = Pr( 30∑i=1

Xi ≤ 330)

=330∑i=1

(300 + x− 1

x

)(12

)300 (12

)x= 0,8916

ya que ∑ni=1Xi ∼ BN (nr, p). Usando el teorema central de límite:

Pr(X ≤ 11) = Pr(√

30(X − 10)√20

≤√

30(11− 10)√20

)∼= Pr(Z ≤ 1,2247)∼= 0,8888

Teorema 5.5.6 (Teorema de Slutsky) Si Xn → X en distribución yYn → a en probabilidad, donde a es constante, entonces:

a. YnXn → aX en distribución.

b. Xn + Yn → X + a en distribucion.

Ejemplo 5.5.5 Suponga que:√n(Xn − µ)

σ→ N (0, 1)

pero el valor de σ no se conoce. Como se vió en el ejemplo 5.5.1, si lımn→∞ S2n =

0, entonces S2n → σ2 en probabilidad. Se puede probar que σ/Sn → 1 en

probabilidad y según el teorema de Slutsky:√n(Xn − µ)

Sn= σ

Sn

√n(Xn − µ)

σ→ N (0, 1)

Page 104: Casella Español

Capítulo 6

Principios de reducción de ladata

6.1. IntroducciónUn experimentador usa la información en una muestra X1, · · · , Xn para

realizar el proceso de inferencia sobre algun parámetro desconocido θ. Si eltamaño de muestra es grande entonces los valores observados en la mues-tra x1, · · · , xn podrían ser difíciles de interpretar de forma individual. Esnecesario resumir la información en la muestra para determinar algunas car-acterísticas de interés a través del cálculo de estadísticas como la media, lavarianza, el máximo, el mínimo, la mediana, etc.

6.2. El principio de suficienciaUna estadística suficiente para un parámetro θ es una estadística que,

de cierta forma, captura toda la informacion acerca de θ contenida en lamuestra. No es posible obtener información adicional en la muestra, ademásdel valor de la estadística suficiente. Estas consideraciones nos llevan a latécnica de reducción de datos conocida como el principio de suficiencia: “siT (X) es una estadística suficiente para θ, entonces el proceso de inferenciasobre θ depende de la muestra X solo a través del valor T (X)”.

100

Page 105: Casella Español

CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA 101

6.2.1. Estadística suficienteDefinición 6.2.1 Una estadística T (X) es una estadística suficiente para θsi la distribución de la muestra X dado el valor de T (X) no depende de θ.

Teorema 6.2.1 Si f(x|θ) es la función de probabilidad o densidad conjuntade X, y q(t|θ) es la función de probabilidad o densidad de T (X), entoncesT (X) es una estadística suficiente para θ si y solo si:

f(x|θ)q (T (x|θ))

no depende de θ para todo X.

Ejemplo 6.2.1 Sean X1, · · · , Xn variables aleatorias independientes e iden-ticamente distribuidas según B(θ), 0 < θ < 1. Para probar que T (X) =X1 +X2 + · · ·+Xn es una estadística suficiente para θ hay que recordar queT (X) ∼ BI(n, θ). Si se define t = ∑

xi:f(x|θ)

q (T (x|θ)) =∏ni=1 θ

xi(1− θ)1−xi(nt

)θt(1− θ)n−t

= θ∑

xi(1− θ)n−∑

xi(nt

)θt(1− θ)n−t

= 1(nt

)entonces T (X) = X1 +X2 + · · ·+Xn es una estadística suficiente para θ.

Ejemplo 6.2.2 Sean X1, · · · , Xn variables aleatorias independientes e iden-ticamente distribuidas segúnN (µ, σ2), donde σ2 es conocido. Se desea probarsi T (X) = X es una estadística suficiente para µ, entonces:

f(x|µ) =n∏i=1

(2πσ2)−1/2 exp{− 1

2σ2 (xi − µ)2}

= (2πσ2)−n/2 exp{− 1

2σ2

n∑i=1

(xi − µ)2}

= (2πσ2)−n/2 exp{− 1

2σ2

n∑i=1

(xi − x+ x− µ)2}

= (2πσ2)−n/2 exp{− 1

2σ2

(n∑i=1

(xi − x)2 + n(x− µ)2)}

Page 106: Casella Español

CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA 102

además X ∼ N (µ, σ2

n), luego:

f(x|θ)q(T (x|θ)) =

(2πσ2)−n/2 exp{− 1

2σ2 (∑ni=1(xi − x)2 + n(x− µ)2)

}n1/2(2πσ2)−1/2 exp

{−n(x−µ)2

2σ2

}= n−1/2(2πσ2)−(n−1)/2 exp

{− 1

2σ2

n∑i=1

(xi − x)2}

entonces X es una estadística suficiente para µ.

Teorema 6.2.2 (Teorema de Factorización) Sea f(x|θ) la función deprobabilidad o densidad conjunta de la muestra X. La estadística T (X) essuficiente para θ si y solo si existen funciones g(t|θ) y h(x) tales que:

f(x|θ) = g(T (x)|θ)h(x) (6.2.1)

Ejemplo 6.2.3 Considere nuevamente el ejemplo 6.2.2:

f(x|µ) = (2πσ2)−n/2 exp{− 1

2σ2

n∑i=1

(xi − x)2}

exp{−n(x− µ)2

2σ2

}= h(x)g(T (x)|µ)

entonces X es una estadística suficiente para µ.

Ejemplo 6.2.4 Sean X1, · · · , Xn variables aleatorias independientes e iden-ticamente distribuidas según U(0, θ) cuya función de densidad es:

f(x|θ) = 1θ, 0 ≤ x ≤ θ

luego:

f(x|θ) =n∏i=1

1θI(0,θ)(xi)

= 1θn

n∏i=1

I(0,θ)(xi)

= 1θnI(0,θ)(x(n))

entonces T (X) = X(n) es una estadística suficiente para θ.

Page 107: Casella Español

CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA 103

Ejemplo 6.2.5 Nuevamente asuma que X1, · · · , Xn son variables aleatoriasindependientes e identicamente distribuidas según N (µ, σ2), donde ambosparámetros son desconocidos, es decir θ = (µ, σ2). Según el teorema de fac-torización:

f(x|µ, σ2) = (2πσ2)−n/2 exp{− 1

2σ2

(n∑i=1

(xi − x)2 + n(x− µ)2)}

= (2πσ2)−n/2 exp{− 1

2σ2

(n(x− µ)2 + (n− 1)s2

)}Si T1(x) = x y T2(x) = s2, entonces:

f(x|µ, σ2) = (2πσ2)−n/2 exp{− 1

2σ2

(n(t1 − µ)2 + (n− 1)t2

)}= g(T1(x), T2(x)|µ, σ2)h(x)

luego T (x) = (T1(x), T2(x)) = (X,S2) es una estadística suficiente parael modelo normal.

Teorema 6.2.3 Sean X1, · · · , Xn observaciones independientes e identica-mente distribuidas según la función de probabilidad o densidad f(x|θ). Supon-ga que f(x|θ) proviene de una familia exponencial dada por:

f(x|θ) = h(x)c(θ) exp{

k∑i=1

wi(θ)ti(x)}

donde θ = (θ1, θ2, · · · , θd), d ≤ k. Entonces:

T (X) = n∑j=1

t1(Xj), · · · ,n∑j=1

tk(Xj)

es una estadística suficiente para θ.

Ejemplo 6.2.6 Sean X1, · · · , Xn observaciones independientes e identica-mente distribuidas según P(λ) cuya función de probabilidad pertenece a unafamilia exponencial:

f(x|λ) = e−λλx

x! = 1x!e−λ exp {x log λ}

entonces T (X) = ∑ni=1Xi es una estadística suficiente para λ.

Page 108: Casella Español

CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA 104

6.2.2. Estadística minimal suficienteComo es posible encontrar muchas estadísticas suficientes en un mismo

problema sera necesario establecer cuál es la mejor. Recordar que el propósitode una estadística suficiente es lograr resumir la data sin pérdida de informa-ción acerca del parámetro θ, es decir que se debe buscar aquella estadísticaque logre la mayor reducción de data reteniendo aún toda la informaciónsobre θ.

Definición 6.2.2 Una estadística suficiente T (X) es llamada estadística min-imal suficiente si, para cualquier otra estadística suficiente T ′(X), T (x) esfunción de T ′(x).

Ejemplo 6.2.7 SeanX1, · · · , Xn independientes e identicamente distribuidassegún N (µ, σ2) donde σ2 es conocido. Se sabe que T (X) = X es una estadís-tica suficiente para µ y T ′(X) = (X,S2) es una estadística suficiente paraµ en el mismo problema. Claramente T (X) logra una mayor reducción dedata que T ′(X). Puede escribirse T (X) como función de T ′(X) a través der(a, b) = a entonces:

T (x) = x = r(x, s2) = rT′(x)

Teorema 6.2.4 Sea f(x|θ) la función de probabilidad o densidad de unamuestra X. Suponga que existe una función T (X) tal que, para dos puntosmuestrales x y y, el ratio f(x|θ)/f(y|θ) no depende de θ si y solo si T (x) =T (y). Entonces T (X) es una estadística minimal suficiente para θ.

Ejemplo 6.2.8 SeanX1, · · · , Xn independientes e identicamente distribuidassegún N (µ, σ2) ambos parámetros desconocidos. Sean x y y dos muestrastales que (x, s2

X) y (y, s2Y ) son las medias y varianzas muestrales respectiva-

mente. Entonces, usando 6.2.4:

f(x|µ, σ2)f(y|µ, σ2) =

(2πσ2)−n/2 exp{− 1

2σ2 (n(x− µ)2 + (n− 1)s2X)}

(2πσ2)−n/2 exp{− 1

2σ2 (n(y − µ)2 + (n− 1)s2Y )}

= exp{− 1

2σ2

(−n(x2 − y2) + 2nµ(x− y)− (n− 1)(s2

X − s2Y ))}

El ratio anterior no dependerá de µ y σ2 si y solo si x = y y s2X = s2

Y .Luego por el teorema 6.2.4 (X,S2) es una estadística minimal suficiente para(µ, σ2).

Page 109: Casella Español

CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA 105

Ejemplo 6.2.9 Suponga X1, · · · , Xn independientes e identicamente dis-tribuidas según U(θ, θ + 1), −∞ < θ < ∞ entonces la función de densidadconjunta de X es:

n∏i=1

I(θ,θ+1)(xi) = I(x(n)−1,x(1))(θ)

Luego:

f(x|θ)f(y|θ) =

I(x(n)−1,x(1))(θ)I(y(n)−1,y(1))(θ)

no depende de θ si x(n) = y(n) y x(1) = y(1). Luego T (X) = (X(1), X(n)) esuna estadística minimal suficiente.

Una estadística minimal suficiente no es única. Cualquier función uno auno de una estadística minimal suficiente es también una estadística minimalsuficiente. Luego, T ′(X) = (X(n) −X(1), (X(1) +X(n))/2) es también una es-tadística minimal suficiente en el ejemplo 6.2.9 y T ′(X) = (∑n

i=1Xi,∑ni=1X

2i )

es también una estadística minimal suficiente en el ejemplo 6.2.8.

6.2.3. Estadística ancillarEn las secciones anteriores se consideraron las estadísticas suficientes que

contienen toda la información sobre θ en la muestra. En esta sección se intro-duce un tipo diferente de estadística que tiene un propósito complementario.

Definición 6.2.3 Una estadística S(X) cuya distribución no depende delparamétro θ es llamada estadística ancillar.

Ejemplo 6.2.10 SeanX1, · · · , Xn independientes e identicamente distribuidassegún U(θ, θ+1). Sean X(1) < · · · < X(n) las estadísticas de orden de la mues-tra. Si R = X(n) −X(1) se tiene que:

F (x|θ) =

0 x ≤ θ

x− θ θ < x < θ + 11 x ≥ θ + 1

La función de densidad conjunta de X(1) y X(n) es:

fX(1),X(n)(u, v|θ) =

n(n− 1)(v − u)n−2 θ < u < v < θ + 10 de otro modo

Page 110: Casella Español

CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA 106

Usando las transformaciones R = X(n) −X(1) y M = (X(1) + X(n))/2 setiene X(1) = (2M −R)/2 y X(n) = (2M +R)/2 tal que J = 1. Luego:

fR,M(r,m|θ) =

n(n− 1)rn−2 θ + (r/2) < m < θ + 1− (r/2)0 de otro modo

La distribución marginal:

fR(r|θ) =θ+1−(r/2)ˆ

θ+(r/2)

n(n− 1)rn−2dm = n(n− 1)rn−2(1− r), 0 < r < 1

Es decir, R tiene distribución BE(α = n − 1, β = 2) y no depende de θpor lo que R es una estadística ancillar.

6.2.4. Estadística suficiente, ancillar y completaDefinición 6.2.4 Sea f(t|θ) una familia con función de probabilidad o den-sidad para una estadística T (X). La familia de distribución de probabilidad esllamada completa si Eθ[g(T )] = 0 para todo θ implica que Prθ [g(T ) = 0] = 1para todo θ. Equivalentemente, T (X) es llamada una estadística completa.

Ejemplo 6.2.11 Sea T ∼ BI(n, p), 0 < p < 1. Sea g una función tal queEp[g(T )] = 0, es decir:

Ep[g(T )] =n∑t=0

g(t)(n

t

)pt(1− p)n−t = (1− p)n

n∑t=0

g(t)(n

t

)(p

1− p

)t

luego ∑nt=0 g(t)

(nt

)( p

1−p)t = 0 entonces g(t) = 0 para t = 0, 1, 2, · · · , n yPrp(g(T ) = 0) = 1, para todo p. Luego T es una estadística completa.

Ejemplo 6.2.12 Sean X1, · · · , Xn observaciones independientes e identica-mente distribuidas como U(0, θ), 0 < θ < ∞. Se tiene que T (X) = X(n) esuna estadística suficiente y que su función de densidad es:

f(t/θ) =

ntn−1θ 0 < t < θ

0 de otro modo

Page 111: Casella Español

CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA 107

Suponga g(t) es una función que satisface Eθ [g(T )] = 0 para todo θ.Como Eθ [g(T )] = 0 es una función constante su derivada con respecto a θ escero, entonces se tiene:

0 = d

dθEθ [g(T )] = d

θˆ

0

g(t)ntn−1θ−ndt

Para toda función Riemman integrable ddθ

´ θ0 g(t)dt = g(θ). Luego:

= d

dθθ−n

θˆ

0

g(t)ntn−1

= θ−nd

θˆ

0

g(t)ntn−1dt+ ( ddθθ−n)

θˆ

0

ng(t)tn−1dt

= (θ−n)g(θ)nθn−1 + 0

= 1θg(θ)n = 0

entonces g(θ) = 0, luego T es una estadística completa.

Teorema 6.2.5 Sean X1, · · · , Xn observaciones independientes e identica-mente distribuidas de una familia exponencial con función de probabilidad odensidad o función de probabilidad de la forma:

f(x|θ) = h(x)c(θ) exp

k∑j=1

wj(θ)tj(x)

donde θ = (θ1, θ2, · · · , θk), entonces la estadística

T (X) =(

n∑i=1

t1(Xi), · · · ,n∑i=1

tk(Xi))

es completa si {(w1 (θ) , · · · , wk (θ) : θ ∈ Θ)} contiene un conjunto abier-to en <k.

Ejemplo 6.2.13 En el ejemplo 6.2.6 T (X) = ∑ni=1Xi es una estadística

suficiente y completa para λ.

Page 112: Casella Español

Capítulo 7

Estimación puntual

7.1. IntroducciónDefinición 7.1.1 Un estimador puntual es cualquier funciónW (X1, · · · , Xn)de la muestra. Es decir, cualquier estadística es una estimador puntual.

Se debe tener clara la diferencia entre estimador y estimación. Un esti-mador es una función de una muestra, mientras que una estimación es elvalor obtenido al aplicar un estimador a los datos de una muestra. Es decir,un estimador es una función de las variables aleatorias X1, · · · , Xn mientrasque una estimación es una función de los valores muestrales x1, · · · , xn.

7.2. Métodos para encontrar estimadoresEn muchos casos habrá un candidato evidente o natural para ser el es-

timador puntual de un parámetro particular y a menudo la intuición puedeinducirnos a obtener buenos estimadores. Por ejemplo, la media muestral esun candidato natural para estimar la media poblacional.

7.2.1. Métodos de momentosSea X1, · · · , Xn una muestra de una población con función de probabili-

dad o densidad f(x|θ1, · · · , θk). Los estadísticos por el método de momentosse encuentran igualando los k primeros momentos muestrales a sus corre-spondientes k momentos poblacionales y resolviendo simultáneamente las

108

Page 113: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 109

ecuaciones. Es decir, se definen:

m1 = 1n

n∑i=1

X1i , µ1 = E[X1]

m2 = 1n

n∑i=1

X2i , µ2 = E[X2]

...

mk = 1n

n∑i=1

Xki , µk = E[Xk]

El momento poblacional µj es, por lo general, una función de θ1, · · · , θkdigamos µj(θ1, · · · , θk). El estimador por el método de momentos (θ1, · · · θk)de (θ1, · · · , θk) se obtiene resolviendo el siguiente sistema de ecuaciones entérminos de (m1, · · · ,mk):

m1 = µ1(θ1, · · · , θk)m2 = µ2(θ1, · · · , θk)

...mk = µk(θ1, · · · , θk)

Ejemplo 7.2.1 Suponga X1, · · · , Xn independientes e identicamente dis-tribuidas según N (µ, σ2). Se tiene m1 = X = µ1 , m2 = 1

n

∑ni=1X

2i = µ2

y resolviendo:µ = X y σ2 = 1

n

n∑i=1

(Xi −X)2

En este caso, el estimador por el método de momentos coincide con nues-tra intuición sobre el candidato natural para µ.

Ejemplo 7.2.2 Suponga X1, · · · , Xn independientes e identicamente dis-tribuidas según BI(k, p), ambos parámetros desconocidos:

m1 = 1n

n∑i=1

Xi = kp = E[X]

m2 = 1n

n∑i=1

X2i = kp(1− p) + k2p2 = E[X2]

resolviendo :

Page 114: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 110

k = X2

X − 1n

∑ni=1(Xi −X)2 y p = X

k

7.2.2. Estimadores de máxima verosimilitudDefinición 7.2.1 Sea f(x|θ) que denota la función de probabilidad o den-sidad conjunta de la muestra X = (X1, · · · , Xn). Entonces, dado que X = xes observado, la función de θ definida por:

L(θ|x) = f(x|θ)

es llamada función de verosimilitud.Si X1, · · · , Xn es una muestra independiente e identicamente distribuida

de una población con función de probabilidad o densidad f(x|θ1, · · · , θk), lafunción de verosimilitud se define por:

L(θ|x) = L(θ1, · · · , θk|x1, · · · , xn) =n∏i=1

f(xi|θ1, · · · , θk) (7.2.1)

Definición 7.2.2 Para cada punto muestral x, sea θ(x) el valor del parámetroen que L(θ|x) toma su máximo valor como función de θ, con x fijo. Un esti-mador de máxima verosimilitud del parámetro θ basado en la muestra X esθ(X).

Si la función de verosimilitud es diferenciable en θi, los posibles candidatospara estimadores de máxima verosimilitud son los valores de (θ1, · · · , θk) queresuelven:

∂θiL(θ|x) = 0, i = 1, · · · , k (7.2.2)

Ejemplo 7.2.3 Suponga X1, · · · , Xn independientes e identicamente dis-tribuidas según N (θ, σ2 = 1) entonces:

L(θ|x) =n∏i=1

1(2π)1/2 e

− 12 (xi−θ)2 = 1

(2π)n/2 e− 1

2∑n

i=1(xi−θ)2

Como ddθL(θ|x) = 0 se reduce a ∑n

i=1(xi − θ) = 0 entonces θ = x es unposible candidato. Luego verificando que:

Page 115: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 111

d2

dθ2L(θ|x)∣∣∣∣∣θ=x

< 0

se concluye que θ = X es el estimador de máxima verosimilitud.

En muchos casos es fácil trabajar con el logaritmo natural de L(θ|x)conocido como logaritmo de la verosimilitud. Lo anterior es posible debido aque la función log-verosimilitud es estrictamente decreciente sobre (0,∞).

Ejemplo 7.2.4 Sea X1, · · · , Xn independientes e identicamente distribuidassegún B(p):

L(p|x) =p∏i=1

pxi(1− p)1−xi = p∑n

i=1 xi(1− p)n−∑n

i=1 xi

El logaritmo de la verosimilitud es:

logL(p|x) =n∑i=1

xi log p+ (n−n∑i=1

xi) log(1− p)

Luego ddp

logL(p|x) = 0, entonces p = x es el candidato a estimador demáxima verosimilitud. Luego, verificando que:

d2

dp2 logL(p|x)∣∣∣∣∣p=x

< 0

se concluye que p = X es el estimador de máxima verosimilitud.

Teorema 7.2.1 (Propiedad de invariancia) Si θ es el estimador de máx-ima verosimilitud de θ, entonces para toda función τ(θ), su estimador demáxima verosimilitud es τ(θ) .

Usando el teorema anterior, se puede establecer que en el problema 7.2.3el estimador de máxima verosimilitud de θ2 es X2. Además, el estimador demáxima verosimilitud de

√p(1− p) es

√X(1−X) en el problema 7.2.4.

Ejemplo 7.2.5 Suponga X1, · · · , Xn independientes e identicamente dis-tribuidas según N (θ, σ2), ambos parámetros desconocidos. Entonces:

L(θ, σ2|x) = (2πσ2)−n/2e−1

2σ2∑n

i=1(xi−θ)2

Page 116: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 112

logL(θ, σ2|x) = −n2 log(2π)− n

2 log σ2 − 12σ2

n∑i=1

(xi − θ)2

las derivadas parciales con respecto a θ y σ2 son:

∂θlogL = 1

σ2

n∑i=1

(xi − θ) = 0 y ∂

∂σ2 logL = − n

2σ2 + 12σ4

n∑i=1

(xi − θ)2 = 0

entonces θ = x y σ2 = n−1∑ni=1(xi − x)2, pero ¿se trata de un máximo

global? Para eso al menos una derivada parcial de segundo orden deber sernegativa:

∂2

∂θ2 logL∣∣∣∣θ=x

= 1σ2

n∑i=1

(−1) = − n

σ2 < 0

y además el Jacobiano debe ser positivo:∣∣∣∣∣∂2

∂θ2 logL ∂∂θ∂σ2 logL

∂∂θ∂σ2 logL ∂

∂(σ2)2 logL

∣∣∣∣∣Luego:

=∣∣∣∣∣ − n

σ2 − 1σ4∑ni=1(xi − θ)2

− 1σ4∑ni=1(xi − θ)2 n

σ4 − 1σ4∑ni=1(xi − θ)2

∣∣∣∣∣θ = θ, σ2 = σ2

= 1σ6n2

2

∣∣∣∣∣θ = θ, σ2 = σ2

= 1σ6n2

2 > 0

Finalmente, θ = X y σ2 = n−1∑ni=1(Xi − X)2 son los estimadores de

máxima verosimilitud.

7.3. Métodos de evaluación de estimadores

7.3.1. Error cuadrático medioDefinición 7.3.1 El error cuadrático medio del estimadorW de un parámetroθ se define por Eθ[(W − θ)2]. Se puede probar que:

Page 117: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 113

Eθ[(W − θ)2] = Varθ (W ) + Sesgo2θ[W ] (7.3.1)

Definición 7.3.2 El sesgo del estimador puntual W del parámetro θ, es ladiferencia entre su valor esperado y θ. Es decir, Sesgoθ[W ] = Eθ[W ] − θ.Un estimador cuyo sesgo es cero es llamado insesgado. Para estimadoresinsesgados se tiene Eθ[(W − θ)2] = Varθ (W ).

Ejemplo 7.3.1 Suponga X1, · · · , Xn independientes e identicamente dis-tribuidas según N (µ, σ2). Las estadísticas X y S2 son ambos estimadoresinsesgados ya que:

E[X] = µ y E[S2] = σ2

Lo anterior es cierto aún sin el supuesto de normalidad. El error cuadráticomedio de estos estadísticos es:

E[(X − µ)2] = Var(X)

= σ2

n

E[(S2 − σ2)2] = Var(S2)

= 2σ4

n− 1un estimador alternativo para σ2 es el estimador de máxima verosimilitudσ2 = 1

n

∑ni=1(xi − x)2 = (n−1)

ns2, entonces:

E[σ2] = E[n− 1n

S2]

= n− 1n

σ2

es decir, σ2 es un estadístico sesgado de σ2. La variancia de σ2 puedecalcularse como:

Var(σ2)

= Var(n− 1n

S2)

=(n− 1n

)2Var

(S2)

= 2(n− 1)n2 σ4

Luego:ECM[σ2] = E[(σ2 − σ2)2]

= Var(σ2)

+ Sesgo2[σ2]

= 2(n− 1)n2 σ4 +

(n− 1n

σ2 − σ2)2

=(2n− 1

n2

)σ4

Page 118: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 114

Finalmente:

ECM[σ2] =(2n− 1

n2

)σ4 <

( 2n− 1

)σ4 = ECM[S2]

7.3.2. Mejores estimadores insesgadosDefinición 7.3.3 Un estimadorW ∗ es el mejor estimador insesgado de τ(θ)si satisface que Eθ[W ∗] = τ(θ), para todo θ y para cualquier otro estimadorW con Eθ[W ] = τ(θ) se tiene Varθ (W ∗) ≤ Varθ (W ) para todo θ.W ∗ tambiénes llamado estimador insesgado uniforme de mínima variancia de τ(θ).

Ejemplo 7.3.2 SeanX1, · · · , Xn independientes e identicamente distribuidassegún P(λ) y sean X y S2. Recordar que para la función de probabilidad dePoisson, la media y la varianza son iguales a λ. Luego aplicando el teorema5.2.2 se tiene:

Eλ[X] = λ

Eλ[S2] = λ

es decir que ambos son estimadores insesgados de λ. Para determinar cuáles mejor se comparan las varianzas, aplicando nuevamente el teorema 5.2.2,obteniendose que Varλ

(X)≤ Varλ (S2). Aún considerando que X es mejor

que S2, considere la siguiente clase de estimadores:

Wa(X,S2) = aX + (1− a)S2

para toda constante a, Eλ[Wa(X,S2)] = λ, es decir se tienen infinitosestimadores insesgados de λ. La pregunta es, aún siendo X mejor estimadorque S2, ¿X es mejor que Wa(X,S2) para todo a?

Teorema 7.3.1 (Cramér-Rao) Sea X1, · · ·Xn una muestra con funciónde probabilidad o densidad f(x|θ) y sea W (X) = W (X1, · · · , Xn) algúnestimador donde Eθ[W (X)] es una función diferenciable de θ. Suponga quela función de densidad conjunta f(x|θ) = f(x1, · · · , xn|θ) satisface:

d

ˆ· · ·ˆh(x)f(x|θ)dx1 · · · dxn =

ˆ· · ·ˆh(x) ∂

∂θf(x|θ)dx1 · · · dxn

(7.3.2)

Page 119: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 115

para cualquier función h(x) con Eθ[|h(X)|] <∞. Entonces:

Varθ (W (X)) ≥

(ddθEθ[W (X)]

)2

Eθ[(

∂∂θ

log f(X|θ))2] (7.3.3)

Corolario 7.3.1 (Crámer-Rao caso independiente e identicamentedistribuido) Sean X1, · · · , Xn independientes e identicamente distribuidoscon función de probabilidad o densidad f(x|θ) y seaW (X) = W (X1, · · · , Xn)cualquier estadística tal que Eθ[W (X)] es una función diferenciable de θ. Sila función de densidad conjunta f(x|θ) = ∏

f(xi|θ) satisface 7.3.2 :

Varθ (W (X)) ≥

(ddθEθ[W (X)]

)2

nEθ[(

∂∂θ

log f(X|θ))2]

La cantidad Eθ[ ∂∂θ log∏ni=1 f(Xi|θ))2] es llamada número de información

o información de Fisher de la muestra.

Lema 7.3.1 Si f(x|θ) satisface:

d

dθEθ[∂

∂θlog f(X|θ)

]=ˆ

∂θ

[(∂

∂θlog f(x|θ)f(x|θ)

)]dx

lo cual es verdadero para una familia exponencial, entonces:

( ∂

∂θlog f(X|θ)

)2 = −Eθ

[∂2

∂θ2 log f(X|θ)]

Ejemplo 7.3.3 Volviendo al ejercicio de la distribución de Poisson:

Varλ (W (X)) ≥

(ddλEλ[W (X)]

)2

nEλ[( ∂∂λ

log f(X|λ))2]

Si consideramos cualquier estimador insesgado:

Varλ (W (X)) ≥

(ddλ

(λ))2

nEλ[( ∂∂λ

log f(X|λ))2]

≥ 1nEλ

[( ∂∂λ

log f(X|λ))2]

Page 120: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 116

y como la distribución de Poisson pertenece a una familia exponencial:

Varλ (W (X)) ≥ 1−nEλ

[∂2

∂λ2 log f(X|λ)]

≥ 1−n(− 1

λ)

≥ λ

n

Como Varλ(X)

= λ/n, entonces X es el mejor estimador insesgado deλ.

Es importante recordar que un supuesto clave en el teorema de Crámer-Rao es la posibilidad de derivar bajo el signo de la integral, algo que es encierto modo restrictivo pero que se satisface si la densidad pertenece a unafamilia exponencial.

Ejemplo 7.3.4 Sean X1, · · · , Xn independientes e identicamente distribui-dos según N (µ, σ2). Considere el problema de estimar σ2 cuando µ es cono-cido. La función de densidad cumple con las condiciones del teorema deCrámer-Rao y el lema 7.3.2, luego:

∂2

∂(σ2)2 log f = 12σ4 −

(x− µ)2

σ6

−E[

∂2

∂(σ2)2 log f]

= −E[

12σ4 −

(X − µ)2

σ6

]= 1

2σ4

Para todo estimador insesgado W de σ2 se tiene:

Var(W |µ, σ2) ≥ 2σ4

n

En el ejemplo 7.3.1 se vió que:

Var(S2|µ, σ2) ≥ 2σ4

n− 1es decir que S2 no alcanza la cota inferior de Crámer-Rao. La pregunta

ahora es, ¿existe algún estimador insesgado de σ2 cuya varianza alcance lacota mencionada?

Page 121: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 117

Corolario 7.3.2 Sean X1, · · · , Xn independientes e identicamente distribui-dos como f(x|θ) tal que satisface las condiciones del teorema Crámer-Rao.Sea L(θ|x) = ∏n

i=1 f(xi|θ) denota la función de verosimilitud. Si W (X) =W (X1, · · · , Xn) es cualquier estimador insesgado de τ(θ), entonces W (X)alcanza la cota inferior real de Crámer-Rao sí y solo si:

a(θ)[W (x)− τ(θ)] = ∂

∂θlogL(θ|x) (7.3.4)

para alguna función a(θ).

Ejemplo 7.3.5 Retomando el ejemplo 7.3.4 se tiene:

L(µ, σ2|x) = 1(2πσ2)n/2 e

− 12σ2 Σni=1(xi−µ)2

y además:

∂σ2 logL(µ, σ2|x) = n

2σ4

(n∑i=1

(xi − µ)2

n− σ2

)

Luego:

a(σ2)(

n∑i=1

(xi − µ)2

n− σ2

)= n

2σ4

(n∑i=1

(xi − µ)2

n− σ2

)entonces:

a(σ2) = n

2σ4

Es decir, el mejor estimador insesgado de σ2 es ∑(xi−µ)2/n y puede sercalculado solo si µ es conocido, en caso contrario no puede alcanzarse la cota.

7.3.3. Suficiencia e insesgabilidadRecordar que si X y Y son dos variables aleatorias cualesquiera entonces,

siempre que los esperados existan, se tiene:

E[X] = E[E[X|Y ]]

Var[X] = Var (E[X|Y ]) + E[Var(X/|Y )]

Page 122: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 118

Teorema 7.3.2 (Rao-Blackwell) Sea W un estimador insesgado de τ(θ)y sea T una estadística suficiente para θ. Se define φ(T ) = E[W |T ]. EntoncesEθ[φ(T )] = τ(θ) y Varθ (φ(T )) ≤ Varθ (W ) para todo θ, es decir, φ(T ) es elmejor estimador insesgado uniforme de τ(θ) .

Teorema 7.3.3 Si W es el mejor estimador insesgado de τ(θ), entonces Wes único.

Teorema 7.3.4 Sea T una estadística suficiente y además completa para unparámetro θ y sea φ(T ) algún estimador basado sólo en T . Entonces φ(T ) esel único mejor estimador insesgado de su valor esperado.

Ejemplo 7.3.6 Sean X1, · · · , Xn variables aleatorias independientes e iden-ticamente distribuidas según BI(k, θ). Se desea estimar la probabilidad deobtener un éxito, es decir:

τ(θ) = Prθ

(X = 1) = kθ(1− θ)k−1

Además Σni=1Xi ∼ BI(kn, θ) es una estadística suficiente y completa. El

siguiente estimador:

h(X1) =

1 siX1 = 10 de otro modo

satisface Eθ[h(X1)] = kθ(1 − θ)k−1 por lo que se trata de un estimadorinsesgado de τ(θ). Luego:

φ

(n∑i=1

Xi

)= E

[h(X1)|

n∑i=1

Xi

]

es el mejor estimador insesgado de τ(θ). Suponga que se observa∑ni=1Xi =

t, entonces:

φ(t) = E[h(X1)|

n∑i=1

Xi = t

]= Pr

θ(X1 = 1|

n∑i=1

Xi = t)

aplicando la definición de probabilidad condicional:

Page 123: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 119

φ(t) = Prθ(X1 = 1,∑ni=1 Xi = t)

Prθ(∑ni=1Xi = t)

= Prθ(X1 = 1,∑ni=2Xi = t− 1)

Prθ(∑ni=1Xi = t)

= Prθ(X1 = 1) Prθ(∑ni=2Xi = t− 1)

Prθ(∑ni=1Xi = t)

Además Xi ∼ BI(k, θ) y ∑ni=2Xi ∼ BI(k(n− 1), θ). Entonces:

φ(t) =

[kθ(1− θ)k−1

] (k(n−1)t−1

)θt−1(1− θ)k(n−1)−(t−1)(

knt

)θt(1− θ)kn−t

= k

(k(n−1)t−1

)(knt

)es el mejor estimador insesgado de τ(θ) = Pr(X = 1).

7.3.4. ConsistenciaDefinición 7.3.4 Una secuencia de estimadores Wn = Wn(X1, · · · , Xn) esuna secuencia consistente de estimadores del parámetro θ si, para todo ε > 0y todo θ ∈ Θ:

lımn→∞

Prθ

(| Wn − θ |< ε) = 1 (7.3.5)

Ejemplo 7.3.7 SeanX1, · · · , Xn independientes e identicamente distribuidassegún N (θ, 1) y considere la secuencia:

Xn = 1n

n∑i=1

Xi

Page 124: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 120

recodando que Xn ∼ N (θ, 1n) se tiene:

Prθ

(| Xn − θ |< ε

)=

xn=θ+εˆ

xn=θ−ε

( n2π ) 12 e−

n2 (xn−θ)2

dxn

=y=εˆ

y=−ε

(n

) 12e−

n2 y

2dy (y = xn − θ)

=t=ε√nˆ

t=−ε√n

( 12π

) 12e−

12 tdt (t = y

√n)

= Prθ

(−ε√n < Z < ε

√n)→ 1

cuando n → ∞. Luego Xn es una secuencia consistente de estimadoresde θ.

Teorema 7.3.5 Si Wn es una secuencia de estimadores del parámetro θ quesatisfacen

a. lımn→∞Varθ[Wn] = 0.

b. lımn→∞ Sesgoθ[Wn] = 0 .

entonces Wn es una secuencia consistente de estimadores de θ.

Ejemplo 7.3.8 Como:

Eθ[Xn] = θ y Varθ(Xn

)= 1n

satisfacen las condiciones del teorema 7.3.5, luego la secuencia Xn es consis-tente. Además, del teorema 5.2.2, Xn proveniene de un muestreo independi-ente e identicamente distribuido de cualquier población con media θ por loque es consistente para dicho parámetro siempre que la varianza sea finita.

Teorema 7.3.6 SiWn una secuencia consistente de estimadores del parámetroθ. Sean a1, a2, · · · y b1, b2, · · · secuencias de constantes que satisfacen:

a. lımn→∞ an = 1.

Page 125: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 121

b. lımn→∞ bn = 0 .

entonces, Un = anWn + bn es una secuencia consistente de estimadores de θ.

Teorema 7.3.7 (Consistencia de los estimadores de máxima verosimil-itud) Sean X1, · · · , Xn variables aleatorias independientes e identicamentedistribuidas de f(x|θ), y sea L(θ|x) = ∏n

i=1 f(xi|θ) la función de verosimil-itud. Sea θ el estimador de máxima verosimilitud de θ y τ(θ) una funcióncontinua de θ. Bajo ciertas condiciones de reguralidad sobre f(x|θ), y porconsiguiente L(θ|x), para todo ε > 0 y θ ∈ Θ,

lımn→∞

Prθ

(| τ(θ)− τ(θ) |≥ ε

)= 0

es decir, τ(θ) es un estimador consistente de τ(θ).

7.4. Otras consideraciones

7.4.1. Variancia asintótica de los estimadores de máx-ima verosimilitud

Definición 7.4.1 Una secuencia de estimadores Wn es asintóticamente efi-ciente para un parámetro τ(θ) si:

lımn→∞

Varθ (Wn)[[τ ′(θ)]2

nEθ[( ∂∂θ log f(x|θ))2]

] = 1

esto es, Wn alcanza la cota inferior de Crámer-Rao conforme n→∞.

7.4.2. Aproximación por series de TaylorDefinición 7.4.2 Si una función g(x) tiene derivadas de orden r, es decir queexiste g(r)(x) = dr

dxrg(x), entonces para cualquier constante a, la polinomial

de Taylor de orden r alrededor de a es:

Tr(x) =r∑i=0

g(i)(a)i! (x− a)i

Page 126: Casella Español

CAPÍTULO 7. ESTIMACIÓN PUNTUAL 122

Teorema 7.4.1 (Taylor) Si g(r)(a) = dr

dxrg(x) |x=a existe, entonces:

lımx→a

g(x)− Tr(x)(x− a)r = 0

Page 127: Casella Español

Capítulo 8

Prueba de hipótesis

8.1. IntroducciónDefinición 8.1.1 Una hipótesis es una afirmación acerca de un parámetro.

Definición 8.1.2 Las dos hipótesis complementarias en un problema deprueba de hipótesis son llamadas hipótesis nula e hipótesis alternativa y sedenotan por H0 y H1 respectivamente.

El objetivo de una prueba de hipótesis es decidir, en base a una muestraextraída a partir de la población, cuál de las dos hipótesis complementariases verdadera.

Definición 8.1.3 Una prueba de hipótesis es una regla que especifíca:

a. Para que valores muestrales la decisión es no rechazar H0 y suponerque es verdadera.

b. Para que valores muestrales la decisión es rechazar H0 y aceptar H1como verdadera.

El subconjunto del espacio muestral para el que se rechaza H0 se denominaregión de rechazo o región critica. El complemento de la región de rechazo esllamado la región de no rechazo.

123

Page 128: Casella Español

CAPÍTULO 8. PRUEBA DE HIPÓTESIS 124

8.2. Métodos para encontrar pruebas

8.2.1. Prueba de razón de verosimilitudSi X1, · · · , Xn es una muestra aleatoria de una población con función de

probabilidad o función de densidad f(x|θ) entonces la función de verosimili-tud es:

L(θ|x1, · · · , xn) = L(θ|x) =n∏i=1

f(xi|θ)

Definición 8.2.1 La prueba estadística de razón de verosimilitud para pro-bar H0 : θ ∈ Θ0 versus H1 : θ ∈ Θc

0 es:

λ(x) = supΘ0 L(θ|x)supΘ L(θ|x)

donde Θ denota el espacio paramétrico completo. Una prueba de razónde verosimilitud es aquella con región de rechazo de la forma {x : λ(x) ≤ c},donde 0 ≤ c ≤ 1.

Suponga que θ es el estimador de máxima verosimilitud de θ sin restric-ción. Considerar además que θ0 es el estimador de máxima verosimilitudde θ asumiendo que el espacio paramétrico restringido es Θ0, es decir θ0 esel valor de θ ∈ Θ0 que maximiza L(θ|x). Entonces, la prueba de razón deverosimilitud es:

λ(x) = L(θ0|x)L(θ|x)

Ejemplo 8.2.1 Sea X1, · · · , Xn una muestra aleatoria de una poblaciónN (θ, 1). Considerar la hipótesis H0 : θ = θ0 versus H1 : θ 6= θ0 donde θ0es una constante específicada a priori por el experimentador. Como existe unsolo valor de θ especificado por H0 el numerador de λ(x) es L(θ0|x). El esti-mador de máxima verosimilitud no restringido de θ es x, entonces la pruebade razon de verosimilitud es:

λ(x) = (2π)−n/2 exp {−Σni=1(xi − θ0)2/2}

(2π)−n/2 exp {−Σni=1(xi − x)2/2}

= exp{

12

(−

n∑i=1

(xi − θ0)2 +n∑i=1

(xi − x)2)}

Page 129: Casella Español

CAPÍTULO 8. PRUEBA DE HIPÓTESIS 125

además:n∑i=1

(xi − θ0)2 =n∑i=1

(xi − x)2 + n(x− θ0)2

Luego,

λ(x) = exp{−n(x− θ0)2/2

}La región de rechazo {x : λ(x) ≤ c} se puede escribir como:{

x :| x− θ0 |≥√−2 log c/n

}

8.3. Métodos para evaluar pruebas

8.3.1. Probabilidades de error y potencia de pruebaUna prueba de hipótesis para H0 : θ ∈ Θ0 vs H1 : θ ∈ Θc

0 puede conducira dos tipos de error.

DecisiónHipótesis verdadera No se rechaza H0 Se rechaza H0

H0 Decisión correcta Error tipo IH1 Error tipo II Decisión correcta

Suponga que R denota la región de rechazo de una prueba, entonces:

Prθ

(X ∈ R) =

Pr (Cometer error tipo I) si θ ∈ Θ0

1− Pr (Cometer error tipo II) si θ ∈ Θc0

Definición 8.3.1 La función potencia de una prueba de hipótesis con regiónde rechazo R es la función de θ definida por β(θ) = Prθ(X ∈ R).

Ejemplo 8.3.1 Sea X1, · · · , Xn una muestra aleatoria de una poblaciónN (µ, σ2), σ2conocido. Una prueba de razón de verosimilitud para H0 : θ ≤ θ0versus H1 : θ > θ0 rechaza H0 si (x− θ0)/(σ/

√n) > c . La constante c puede

Page 130: Casella Español

CAPÍTULO 8. PRUEBA DE HIPÓTESIS 126

ser cualquier número positivo. La función potencia para esta prueba es:

β (θ) = Prθ

(X − θ0

σ/√n> c

)

= Prθ

(X − θσ/√n> c+ θ0 − θ

σ/√n

)

= Prθ

(Z > c+ θ0 − θ

σ/√n

)

Conforme θ se incrementa desde −∞ a ∞ es fácil ver que esta probabili-dad se incrementa de cero a uno, es decir que β (θ) es una función crecientede θ con:

lımθ→−∞

β (θ) = 0, lımθ→∞

β (θ) = 1 y β (θ0) = α si Pr (Z > c) = α

donde α es la probabilidad de cometer error tipo I o nivel de significaciónde la prueba. El gráfico de β (θ) para c = 1,28 se muestra a continuación.

8.4. Pruebas óptimas para hipótesis compues-tas

8.4.1. Familias exponencialesTeorema 8.4.1 Sea X1, · · · , Xn una muestra aleatoria de una función deprobabilidad o densidad de la forma f (x|θ) = h(x)c(θ) exp {w(θ)t(x)}. SiT (x) = ∑n

i=1 t (xi) y se desea probar H0 : θ ≤ θ0 versus H1 : θ > θ0.

a. Si w (θ) es monótona creciente entonces:

ϕ (x) =

1 si T (x) ≥ c

0 otro modo

es una prueba uniformemente más poderosa.

b. Si w (θ) es monótona decreciente entonces:

ϕ (x) =

1 si T (x) ≤ c

0 otro modo

es una prueba uniformemente más poderosa.

Page 131: Casella Español

CAPÍTULO 8. PRUEBA DE HIPÓTESIS 127

Teorema 8.4.2 Sea X1, · · · , Xn una muestra aleatoria de una función deprobabilidad o densidad de la forma f (x|θ) = h(x)c(θ) exp {w(θ)t(x)}. SiT (x) = ∑n

i=1 t (xi) y se desea probar H0 : θ ≥ θ0 versus H1 : θ < θ0.a. Si w (θ) es monótona creciente entonces:

ϕ (x) =

1 si T (x) ≤ c

0 otro modo

es una prueba uniformemente más poderosa.

b. Si w (θ) es monótona decreciente entonces:

ϕ (x) =

1 si T (x) ≥ c

0 otro modo

es una prueba uniformemente más poderosa.

Ejemplo 8.4.1 Sea X1, · · · , X5 una muestra aleatoria a partir de la dis-tribución N (2, θ). Hallar la prueba uniformemente más poderosa de tamañoα = 0,05 para probar las hipótesis H0 : θ ≤ 0,8 versus H1 : θ > 0,8.

8.4.2. Familias con la propiedad de razón de verosimil-itud monótona

Definición 8.4.1 Una familia de densidades tiene la propiedad de razón deverosimilitud monótona si para todo θ1 < θ2:

ψ =∏ni=1 f (xi|θ1)∏ni=1 f (xi|θ2)

es una función creciente o decreciente en T (x).

Teorema 8.4.3 Sea X1, · · · , Xn una muestra aleatoria de una función dedensidad que pertenece a una familia con la propiedad de razón de verosimil-itud monótona en T (x) y se desea probar H0 : θ ≤ θ0 versus H1 : θ > θ0.a. Si la razón de verosimilitud monótona es creciente en T (x) entonces:

ϕ (x) =

1 si T (x) ≤ c

0 otro modo

es una prueba uniformemente más poderosa.

Page 132: Casella Español

CAPÍTULO 8. PRUEBA DE HIPÓTESIS 128

b. Si la razón de verosimilitud monótona es decreciente en T (x) entonces:

ϕ (x) =

1 si T (x) ≥ c

0 otro modo

es una prueba uniformemente más poderosa.

Teorema 8.4.4 Sea X1, · · · , Xn una muestra aleatoria de una función dedensidad que pertenece a una familia con la propiedad de razón de verosimil-itud monótona en T (x) y se desea probar H0 : θ ≥ θ0 versus H1 : θ < θ0.

a. Si la razón de verosimilitud monótona es creciente en T (x) entonces:

ϕ (x) =

1 si T (x) ≥ c

0 otro modo

es una prueba uniformemente más poderosa.

b. Si la razón de verosimilitud monótona es decreciente en T (x) entonces:

ϕ (x) =

1 si T (x) ≤ c

0 otro modo

es una prueba uniformemente más poderosa.

Ejemplo 8.4.2 Sea X1, · · · , Xn una muestra aleatoria a partir de la dis-tribución f (x|θ) = 2x/θ2, 0 < x < θ. Hallar la prueba uniformementemás poderosa de tamaño α para probar las hipótesis H0 : θ ≥ θ0 versusH1 : θ < θ0.

8.4.3. Distribución asintótica de la prueba de razón deverosimilitud

Teorema 8.4.5 Sea X1, · · · , Xn una muestra aleatoria de una función deprobabilidad o densidad f(x|θ). Bajo ciertas condiciones de regularidad so-bre el modelo f(x|θ) y si θ ∈ Θ0 entonces la distribución del estadístico−2 log λ(X) converge a la distribución χ2 conforme n → ∞. Los gradosde libertad de la distribución límite se obtienen como la diferencia entreel número de parámetros libres especificados por θ ∈ Θ0 y el número deparámetros libres especificados por θ ∈ Θ.

Page 133: Casella Español

CAPÍTULO 8. PRUEBA DE HIPÓTESIS 129

Ejemplo 8.4.3 Sea X1, · · · , Xn una muestra aleatoria a partir de la dis-tribución N (θ, 1). Use la prueba de razón de verosimilitud monótona detamaño α = 0,05 para probar las hipótesis H0 : θ = 3 versus H1 : θ 6= 3.

Page 134: Casella Español

Capítulo 9

Estimación por intervalos

9.1. IntroducciónDefinición 9.1.1 Una estimación por intervalo de un parámetro θ es algúnpar de funciones de la muestra, L(x1, · · · , xn) y U(x1, · · · , xn), que satisfacenL(x) ≤ U(x) para todo x ∈ X . El intervalo aleatorio [L(X), U(X)] es llamadoun estimador por intervalo.

Ejemplo 9.1.1 Para una muestra X1, · · · , X4 de la distribución N(µ, 1) unestimador por intervalo de µ es [X − 1, X + 1].

Definición 9.1.2 Sea [L(X), U(X)] un estimador por intervalo de θ, la prob-abilidad de cobertura de [L(X), U(X)] es la probabilidad que el intervaloaleatorio cubra al paramétro θ, es decir, Prθ(θ ∈ [L(X), U(X)]) .

Ejemplo 9.1.2 En el ejemplo anterior la probabilidad que µ sea cubiertopor [X − 1, X + 1] es 0,9544.

Definición 9.1.3 Sea [L(X), U(X)] un estimador por intervalo para θ, elcoeficiente de confianza es el ínfimo de las probabilidades de cobertura, esdecir ınfθ Prθ(θ ∈ [L(X), U(X)]).

Los estimadores de intervalo junto con una medida de confianza, usual-mente un coeficiente de confianza, son conocidos como intervalos de confian-za.

130

Page 135: Casella Español

CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS 131

Ejemplo 9.1.3 Sea X1, · · · , Xn una muestra aleatoria de una poblaciónunifome(0, θ) y sea X(n) el máximo. Se está interesado en un estadístico porintervalo de θ. Si consideramos los siguientes candidatos:

[aX(n), bX(n)]1≤a<b

y [X(n) + c,X(n) + d]0≤c<d

donde a, b, c y d son constantes. Notar que θ es necesariamente mayorque X(n). Para el primer intervalo se tiene:

Prθ

(θ ∈ [aX(n), bX(n)]

)= Pr

θ

(aX(n) ≤ θ ≤ bX(n)

)= Pr

(1b≤X(n)

θ≤ 1a

)

= Pr(1b≤ T ≤ 1

a

)=

(1a

)n−(1b

)ny no depende del parámetro. Para el segundo intervalo:

Prθ

(θ ∈ [X(n) + c,X(n) + d]

)= Pr

θ

(X(n) + c ≤ θ ≤ X(n) + d

)= Pr

(1− d

θ≤ T ≤ 1− c

θ

)

=(

1− c

θ

)n−(

1− d

θ

)ny depende del parámetro.

9.2. Métodos para encontrar estimadores deintervalos

9.2.1. Invirtiendo una prueba estadísticaEjemplo 9.2.1 SeanX1, · · · , Xn independientes e identicamente distribuidassegún N(µ, σ2). Considere las hipótesis H0 : µ = µ0 versus H1 : µ 6= µ0. Paraun nivel α, se tiene la región de rechazo {x :| x− µ0 |> z1−α/2σ/

√n}. Notar

que H0 no se rechaza si | x− µ0 |≤ z1−α/2σ/√n, o equivalentemente:

Page 136: Casella Español

CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS 132

x− z1−α/2σ√n≤ µ0 ≤ x+ z1−α/2

σ√n

Como la prueba tiene tamaño α, esto significa que Pr(H0 se rechaza /µ =µ0) = α, o visto de otra forma Pr(No rechazarH0/µ = µ0) = 1− α. Luego:

Pr(X − z1−α/2

σ√n≤ µ0 ≤ X + z1−α/2

σ√n

∣∣∣∣∣µ = µ0

)= 1− α

Pero lo anterior es verdadero para todo µ0, entonces:

Prµ

(X − z1−α/2

σ√n≤ µ ≤ X + zα/2

σ√n

)= 1− α

Teorema 9.2.1 Para todo θ0 ∈ Θ, sea A(θ0) la región de no rechazo parauna prueba con nivel α de H0 : θ = θ0. Para cada x ∈ X se define el conjuntoC(x) en el espacio paramétrico por:

C(x) = {θ0 : x ∈ A(θ0)} (9.2.1)Entonces el conjunto aleatorio C(X) es un conjunto de confianza 1 − α.

Inversamente, sea C(X) un conjunto de confianza 1 − α. Para todo θ0 ∈ Θ,se define:

A(θ0) = {x : θ0 ∈ C(x)}Entonces A(θ0) es la región de no rechazo de una prueba a un nivel α de

H0 : θ = θ0.

Ejemplo 9.2.2 Suponga que se desea un intervalo de confianza para la me-dia λ de una población exponencial usando la prueba H0 : λ = λ0 versusH1 : λ 6= λ0 a un nivel α:

λ(x) =1λn0e−∑

xi/λ0

supλ 1λne−∑

xi/λ=

1λn0e−∑

xi/λ0

1(∑xi/n)n e

−n =(

Σxinλ0

)nene−

∑xi/λ0

Para λ0 fijo la región de no rechazo es:

A(λ0) ={

x :(

Σxinλ0

)ne−∑

xi/λ0 ≥ c

}

Page 137: Casella Español

CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS 133

donde c es la constante que satisface Prλ0(x ∈ A(λ0)) = 1 − α. Invirtiendola región de no rechazo se obtiene el conjunto de confianza 1− α:

C(x) ={λ :

(Σxiλ

)ne−∑

xi/λ ≥ c

}

9.2.2. Cantidades pivotalesDefinición 9.2.1 Una variable aleatoria Q(X, θ) = Q(X1, · · · , Xn, θ) es unacantidad pivotal, o pivote, si la distribución de Q(X, θ) es independiente detodo parámetro. Es decir, si X ∼ F (x/θ) entonces Q(X, θ) tiene la mismadistribución para todos los valores de θ.

Ejemplo 9.2.3 En los casos de las familias de locación y escala existenmuchas cantidades pivotales

Forma Tipo Cantidad pivotalf(x− µ) Locación X − µ

1σf(xσ

)Escala X

σ1σf(x−µσ

)Locación-escala X−µ

S

Ejemplo 9.2.4 Suponga queX1, · · · , Xn son independientes e identicamentedistribuidos según la exponencial(λ). Entonces T = ∑

Xi es una estadísticasuficiente para λ y T ∼ gamma(n, λ), luego Q(T, λ) = 2T/λ ∼ X2

2n es unpivote. Recordar además que la distribución gamma es una familia de escala.

Ejemplo 9.2.5 En el ejemplo 9.2.2 se obtuvo un intervalo de confianza parala media invirtiendo la prueba de nivel α, H0 : λ = λ0 versus H1 : λ 6=λ0. Si se tiene una muestra aleatoria X1, · · · , Xn y se define T = ΣXi yQ(T, λ) = 2T/λ ∼ χ2

2n, pueden escogerse las constantes a y b que satisfacenPr(a ≤ χ2

2n ≤ b) = 1− α, entonces:

Pr(a ≤ Q(T, λ) ≤ b) = Pr(a ≤ 2t

λ≤ b

)= Pr

(2tb≤ λ ≤ 2t

a

)= 1− α

Page 138: Casella Español

CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS 134

Ejemplo 9.2.6 SiX1, · · · , Xn son independientes e identicamente distribuidassegún N(µ, σ2), entonces X−µ

σ/√nes un pivote cuando σ2 es conocido y puede

utilizarse para calcular un intervalo de confianza para µ:

Pr(−a ≤ X − µ

σ/√n≤ a

)= Pr(−a ≤ Z ≤ a)

entonces: {µ : x− a σ√

n≤ µ ≤ x+ a

σ√n

}

9.2.3. Garantizado un invervaloTeorema 9.2.2 Sea T una estadística con función de distribución acumula-da FT (t/θ) y 0 < α < 1 una constante fija. Suponga que para cada t ∈ T ,las funciones θL(t) y θU(t) se definen como:

a. Si FT (t/θ) es una función decreciente de θ para cada t, se define θL(t)y θU(t) por:

FT (t/θU(t)) = α/2, FT (t/θL(t)) = 1− α/2

b. Si FT (t/θ) es una función creciente de θ para cada t, se define θL(t) yθU(t) por:

FT (t/θU(t)) = 1− α/2, FT (t/θL(t)) = α/2

Entonces, el intervalo aleatorio [θL(T ), θU(T )] es un intervalo de confianza1− α para θ.

Ejemplo 9.2.7 Si X1, · · · , Xn son independientes con función de densidadf(xi/θ) = e−(x−θ)I[θ,∞)(x), entonces T = X(1) es una estadística suficientepara θ con función de densidad:

fT (t/θ) = ne−n(t−θ)I[θ,∞)(t)

cuya función de distribución acumulada:

FT (t/θ) = 1− e−n(t−θ)

Page 139: Casella Español

CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS 135

es una función decreciente de θ. Entonces, fijado α y definidos θL(t) yθU(t) que satisfacen las ecuaciones:

FT (t/θU(t)) = 1−e−n(t−θU (t)) = α

2 , FT (t/θL(t)) = 1−e−n(t−θL(t)) = 1−α/2

cuyas soluciones son:

θU(t) = t+ 1n

log(

1− α

2

), θL(t) = t+ 1

nlog

2

)Luego:

C(X(1)) ={θ : X(1) + 1

nlog

2

)≤ θ ≤ X(1) + 1

nlog

(1− α

2

)}es un intervalo de confianza (1− α) para θ.

Teorema 9.2.3 Sea T una estadística discreta con función de probabilidadacumulada FT (t/θ) = Pr(T ≤ t/θ) y 0 < α < 1 un valor fijo. Suponga quepara todo t ∈ T , θL(t) y θU(t) pueden definirse como sigue:

a. Si FT (t/θ) es una función decreciente de θ para cada t, se define θL(t)y θU(t) por:

Pr(T ≤ t/θU(t)) = α/2, Pr(T ≥ t/θL(t)) = α/2

b. Si FT (t/θ) es una función creciente de θ para cada t, se define θL(t) yθU(t) por:

Pr(T ≥ t/θU(t)) = α/2, Pr(T ≤ t/θL(t)) = α/2Entonces, el intervalo aleatorio [θL(T ), θU(T )] es un intervalo de confianza

1− α para θ.

Ejemplo 9.2.8 Sea X1, · · · , Xn una muestra aleatoria de una poblaciónPoisson con parámetro λ y se define la estadística suficiente Y = ∑

Xi

cuya distribución es Poisson(nλ). Aplicando el método anterior si se observaY = y0 esto conduce a resolver las ecuaciones:

y0∑k=0

e−nλ(nλ)kk! = α

2 y∞∑

k=y0

e−nλ(nλ)kk! = α

2

Page 140: Casella Español

CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS 136

Recordando la identidad 3.2.7 entre las familias Poisson y gamma se tiene:

α

2 =y0∑k=0

e−nλ(nλ)kk! = Pr(Y ≤ y0/λ) = Pr(χ2

2(y0+1) > 2nλ)

cuya solución es λ = 12nχ

22(y0+1),α/2 . De manera similar para la segunda

ecuación se obtiene:

α

2 =∞∑

k=y0

e−nλ(nλ)kk! = Pr(Y ≤ y0/λ) = Pr(χ2

2(y0+1) < 2nλ)

Finalmente, el intervalo de confianza 1− α para λ es:{λ : 1

2nχ22y0,1−α/2 ≤ λ ≤ 1

2nχ22(y0+1),α/2

}Si y0 = 0, se define χ2

0,1−α/2 = 0.

9.3. Métodos de evaluación de estimadorespor intervalos

9.3.1. Tamaño y probabilidad de coberturaEjemplo 9.3.1 SeanX1, · · · , Xn independientes y distribuidas según N(µ, σ2)donde σ2 es conocida. Usando el método de la sección 9.2.2 y además:

Z = X − µσ/√n

es un pivote con distribución normal estándar. Considerando a y b quesatisfacen:

Pr(a ≤ Z ≤ b) = 1− α

permite obtener el intervalo de confianza 1− α{µ : x− b σ√

n≤ µ ≤ x− a σ√

n

}¿Qué elección a y b es la mejor? ¿que elección de a y bminimiza la longitud

del intervalo de confianza manteniendo la cobertura 1− α?

Page 141: Casella Español

CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS 137

Teorema 9.3.1 Sea f(x) una función de densidad unimodal. Si el intervalo[a, b] satisface:

a.´ baf(x)dx = 1− α.

b. f(a) = f(b) > 0, y

c. a ≤ x∗ ≤ b, donde x∗ es una moda de f(x).

entonces [a, b] es el más pequeño entre todos los intervalos con cobertura1− α.

Ejemplo 9.3.2 Para intervalos de la distribución normal basados en la can-tidad pivotal X−µ

S/√nse sabe que el intervalo de confianza 1 − α de longitud

más pequeña es de la forma:

x− b s√n≤ µ ≤ x− a s√

n

La longitud del intervalo es una función de s:

Longitud(s) = (b− a) s√n

Aplicando el teorema 9.3.1 se llega a que a = −tn−1;α/2 y b = tn−1;α/2permite obtener el intervalo óptimo.

9.4. Otras consideraciones

9.4.1. Intervalos aproximados por máxima verosimili-tud

Si X1, · · · , Xn son independientes distribuidas según f(x/θ) y θ es elestimador de máxima verosimilitud para θ, entonces de 7.4.1 la varianza deuna función h(θ) puede ser aproximada por:

Var(h(θ)/θ) ≈ [h′(θ)]2 |θ=θ− ∂2

∂θ2 logL(θ/x) |θ=θLuego, para un valor de θ arbitrario pero fijo y bajo condiciones generales

de regularidad se tiene:

Page 142: Casella Español

CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS 138

h(θ)− h(θ)√Var(h(θ)/θ)

−→ N(0, 1)

lo cual permite obtener el intervalo aproximado de confianza:

h(θ)− zα/2√Var(h(θ)/θ) ≤ h(θ) < h(θ) + zα/2

√Var(h(θ)/θ)

Ejemplo 9.4.1 Se tiene un muestra aleatoria X1, · · ·Xn de una poblaciónBernoulli(p). Si se desea estimar la razón de odds p/(1− p) puede utilizarsep/(1− p) donde p es el estimador de máxima verosimilitud. Luego:

Var(

p

1− p

)≈ [h′(θ)]2 |θ=θ− ∂2

∂θ2 logL(θ/x) |θ=θ=

[1

(1−p)2

]2n

p(1−p)= p

n(1− p)3

Finalmente, se puede construir el intervalo de confianza aproximado:

p

1− p − zα/2

√√√√Var(

p

1− p

)≤ p

1− p ≤p

1− p + zα/2

√√√√Var(

p

1− p

)

9.4.2. Otros intervalos aproximadosSi se tienen las estadísticas W ,V y un paramétro θ tal que cuando n→

∞,

W − θV

→ N(0, 1)

entonces se puede construir un intervalo de confianza aproximado para θpor:

W − zα/2V ≤ θ ≤ W + zα/2V