Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis...

62
Estudio de la Robustez del Estad´ ıstico T 2 de Hotelling para el Caso de Una y Dos Poblaciones cuando los Datos Provienen de una Distribuci´ on Normal Sesgada Diana Marcela P´ erez Valencia Director: Juan Carlos Correa Morales Ph.D University of Kentucky Profesor Asociado, Escuela de Estad´ ıstica Universidad Nacional de Colombia Trabajo presentado como requisito para optar al t´ ıtulo de Mag´ ıster en Estad´ ıstica Escuela de Estad´ ıstica Facultad de Ciencias Universidad Nacional de Colombia Sede Medell´ ın 2009

Transcript of Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis...

Page 1: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Estudio de la Robustez del Estadıstico T 2 deHotelling para el Caso de Una y Dos

Poblaciones cuando los Datos Provienen deuna Distribucion Normal Sesgada

Diana Marcela Perez Valencia

Director: Juan Carlos Correa Morales

Ph.D University of Kentucky

Profesor Asociado, Escuela de Estadıstica

Universidad Nacional de Colombia

Trabajo presentado como requisito para optar

al tıtulo de Magıster en Estadıstica

Escuela de Estadıstica

Facultad de Ciencias

Universidad Nacional de Colombia

Sede Medellın

2009

Page 2: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

A mi familia y amigos, a la Escuela de Estadıstica y muy especialmente ami maestro y director de tesis por confiar siempre en mi :)

Page 3: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Resumen

Uno de los problemas mas importantes en la estadıstica aplicada es el de la compara-cion del vector de medias entre una o mas poblaciones. En el caso multivariable existensoluciones, una de ellas es el estadıstico T 2 de Hotelling, el cual depende del supuesto denormalidad de las poblaciones. La distribucion Normal Sesgada Multivariable ha probadoser un modelo util en algunas situaciones practicas importantes, por ejemplo en la medicionde ciertas variables antropometicas. Se pretende construir una prueba de hipotesis paracomparar el vector de medias de poblaciones normales sesgadas. Tambien se estudiara elcomportamiento de esta prueba y se comparara con el estadıstico que asume normalidadmediante un estudio de simulacion. De igual forma se ilustrara su uso utilizando la baseantropometrica ACOPLA95.

Palabras clave: Robustez, Estadıstico T 2 de Hotelling, Distribucion Normal Sesgada

Universidad Nacional de Colombia 3

Page 4: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Abstract

One of the most important problems in applied statistics is the means vector compa-rison among one or more populations. In some practical situations, the Multivarate SkewNormal Distribution could be an useful model, for example when we have anthropometricvariables. We pretend to build a hypothesis test to compare the means of skew normalpopulations. By simulation, we also study the performance of these test and we compare itwith the statistic that assume normality. With some variables of an anthropometric database (ACOPLA95) we illustrate the use of these hypotheses test.

Keywords: Robustness, Hotelling’s T 2 Test, Skew Normal Distribution

Universidad Nacional de Colombia 4

Page 5: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Indice general

1. Introduccion 91.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.1.1. Prueba T 2 de Hotelling . . . . . . . . . . . . . . . . . . 101.1.2. Distribucion Normal Sesgada . . . . . . . . . . . . . . 13

1.2. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Robustez del Estadıstico T 2 182.1. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2. Resultados y Conclusiones . . . . . . . . . . . . . . . . . . . . 20

3. LRT Aproximada para Verificar H0 bajo la Distribucion NSM 38

4. Estudio de Simulacion 424.1. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.2. Resultados y Conclusiones . . . . . . . . . . . . . . . . . . . . 43

5. Aplicacion: ACOPLA95 48

6. Conclusiones y Recomendaciones 51

A. Programa en R 54

5

Page 6: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Indice de figuras

1.1. Funcion de Densidad de una distribucion NS(γ = 8). Casounivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2. Grafico de Contorno de la Funcion de Densidad de una NS-Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1. Distribuciones muestreadas. La grafica de la derecha hace re-ferencia a la distribucion Normal Sesgada (NS), con diferentesvalores para el parametro de sesgamiento, γ . . . . . . . . . . 19

2.2. Porcentaje de muestras que exceden el nivel de significancianominal α =0.01, para comparaciones con una poblacion, con-siderando las distribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼N(0, 1), SN(1), SN(5), SN(10) . . . . . . . . . . . . . . . . . 23

2.3. Porcentaje de muestras que exceden el nivel de significancianominal α =0.05, para comparaciones con una poblacion, con-siderando las distribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼N(0, 1), SN(1), SN(5), SN(10) . . . . . . . . . . . . . . . . . 24

2.4. Porcentaje de muestras que exceden el nivel de significancianominal α =0.1, para comparaciones con una poblacion, con-siderando las distribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼N(0, 1), SN(1), SN(5), SN(10) . . . . . . . . . . . . . . . . . 25

2.5. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.01, usando los grados delibertad dados en la ecuacion 1.6 y los propuestos por Mardia 27

2.6. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.05, usando los grados delibertad dados en la ecuacion 1.6 y los propuestos por Mardia 28

2.7. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.1, usando los grados delibertad dados en la ecuacion 1.6 y los propuestos por Mardia 29

6

Page 7: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

4.1. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.01, usando la T 2 de Hote-lling y la LRT bajo la distribucion normal sesgada . . . . . . . 44

4.2. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.05, usando la T 2 de Hote-lling y la LRT bajo la distribucion normal sesgada . . . . . . . 45

4.3. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.1, usando la T 2 de Hote-lling y la LRT bajo la distribucion normal sesgada . . . . . . . 46

5.1. Contornos de la Funcion de Densidad Bivariada de Masa Cor-poral vs. Estatura para hombres . . . . . . . . . . . . . . . . . 49

Universidad Nacional de Colombia 7

Page 8: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Indice de tablas

2.1. Porcentaje de muestras que exceden el nivel de significancianominal α, para comparaciones con una poblacion, conside-rando las distribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼N(0, 1), SN(1), SN(5), SN(10) . . . . . . . . . . . . . . . . . 26

2.2. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α, usando los grados de libertaddados en la ecuacion 1.6 y los propuestos por Mardia . . . . . 30

2.3. Medidas de Sesgo y Kurtosis multivariadas de Mardia para lasdiferentes distribuciones muestreadas . . . . . . . . . . . . . . 31

2.4. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 2 33

2.5. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 5 34

2.6. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 10 35

2.7. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 15 36

2.8. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 20 37

4.1. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α, usando la T 2 de Hotelling yla LRT bajo la distribucion normal sesgada . . . . . . . . . . . 47

5.1. Prueba de normalidad multivariada . . . . . . . . . . . . . . . 495.2. Comparacion entre la prueba T 2 de Hotelling y la LRTSN para

verificar H0 : µ = µ0 a un nivel de significancia del 0.05 condatos de masa corporal y estatura de hombres . . . . . . . . . 50

8

Page 9: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Capıtulo 1

Introduccion

Una de las tareas que el usuario de la estadıstica realiza con regularidades hacer pruebas de hipotesis acerca del vector de medias de una poblaciono la comparacion entre los vectores de medias de dos poblaciones. En el casoen el que las poblaciones provienen de distribuciones normales, el estadısticoT 2 de Hotelling es la mejor opcion. Sin embargo, hay situaciones en las quelos datos se ajustan mejor a distribuciones multivariables diferentes y se hacenecesario evaluar el comportamiento de la prueba T 2 ante cambios distribu-cionales de los datos.

Se pretende estudiar la robustez del estadıstico T 2 de Hotelling ante cambiosen la distribucion de los datos, especıficamente se trabajara en el caso dedatos normales sesgados. Esto se desea lograr al buscar comparar la pruebade razon de verosimilitud de comparacion de medias de poblaciones normalessesgadas, deducida de manera analıtica y la prueba usando el estadıstico T 2

de Hotelling.

En el capıtulo 1 se hace una revision sobre los conceptos basicos de la pruebaT 2 de Hotelling tanto para el caso de una poblacion como el de dos po-blaciones y sobre la distribucion normal sesgada multivariada. Ademas, semuestran algunos de los autores que han trabajado sobre la robustez de esteestadıstico y las conclusiones a las que llegaron. En el capıtulo 2 se desarro-lla un estudio de simulacion basado en la extension del trabajo de Everitt(1979), al considerar resultados para la distribucion normal sesgada con di-ferentes parametros de sesgo. En el capıtulo 3 se hace el desarrollo analıticode la prueba de razon de verosimilitud bajo el supuesto de que los datosprovienen de distribuciones normales sesgadas. Esta prueba de razon de ve-rosimilitud es comparada vıa simulacion con la prueba T 2 de Hotelling en

9

Page 10: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

el capıtulo 4. Finalmente, en el capıtulo 6 se muestran las conclusiones masrelevantes halladas a partir de los resultados de este trabajo y se planteanalgunas recomendaciones para trabajos futuros en el tema.

1.1. Marco Teorico

En esta seccion se presentan algunos conceptos basicos sobre la PruebaT 2 de Hotelling, la distribucion Normal Sesgada y algunas conclusiones im-portantes de investigaciones realizadas sobre la robustez del estadıstico T 2

de Hotelling.

1.1.1. Prueba T 2 de Hotelling

En muchas ocasiones estamos interesados en saber que tan parecidas sondos poblaciones en promedio, teniendo en cuenta varias caracterısticas decada poblacion simultaneamente. Por ejemplo, considere el caso en el cual sedesea saber si los hombres (Poblacion 1) y las mujeres (Poblacion 2) tienen,en promedio, la misma estatura, peso, ındice de masa corporal e ındice cintu-ra cadera, es decir, estamos interesados en probar la hipotesis H0 : µH = µM ,donde µi = (µest.i µpeso.i µimc.i µicc.i)

′, i = H, M .

Hotelling (1931), propuso una generalizacion del estadıstico t de Student,en el cual se pasa de comparaciones para la media de una caracterıstica enuna poblacion, a comparaciones simultaneas en una o dos poblaciones nor-males. Gracias a este gran aporte, ahora podemos dar respuesta a problemascomo el planteado anteriormente, donde las variables pueden estar o no corre-lacionadas.

La prueba T 2 de Hotelling parte del supuesto que las poblaciones a compa-rar son muestras p-variadas de n observaciones independientes, normalmentedistribuidas y con matrices de varianzas-covarianzas iguales, Σ1 = Σ2.

La prueba T 2 de Hotelling es la Prueba de Razon de Verosimilitud (LRT) denivel α de H0 : µ = µ0, para el caso de una poblacion normal, o H0 : µ1 = µ2,para el caso de dos poblaciones normales. Una de las propiedades mas impor-tantes de este estadıstico es que es invariante1 ante transformaciones lineales

1(Definicion tomada de Casella & Berger (2002)). Sea F = f(x|θ) : θ ∈ Θ un conjuntode pdf’s para X, y sea G el grupo de transformaciones del espacio muestral χ. EntoncesF es invariante bajo el grupo G si para cada θ ∈ Θ y g ∈ G existe un unico θ′ ∈ Θ tal que

Universidad Nacional de Colombia 10

Page 11: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

de las variables.

A continuacion se presenta, de forma general, la construccion de la prue-ba para los dos casos arriba mencionados.

Prueba T 2 para una Muestra (H0 : µ = µ0)

Sea x1,x2, ...,xn una muestra aleatoria p-variada de una Np(µ, Σ). Laprueba de razon de verosimilitud (Likelihood Ratio Test, LRT) que rechazaH0, se puede construir como,

λ =

supH0

L(µ, Σ)

supH0∪Ha

L(µ, Σ)=

supH0

L(µ0, Σ0)

supH0∪Ha

L(µ, Σ)< k (1.1)

donde k es desconocido tal que la prueba tiene un nivel de significancia α, ylos estimadores maximo verosımiles de µ, Σ0 y Σ, quedan dados por:

µ =1

n

n∑i=1

xi = x (1.2)

Σ0 =1

n

n∑i=1

(xi − µ0)(xi − µ0)′ (1.3)

Σ =1

n

n∑i=1

(xi − µ)(xi − µ)′ =n− 1

nS (1.4)

Desarrollando λ, se puede llegar a la forma del estadıstico T 2 de Hotelling,dada por

T 20 = n(x− µ0)

′S−1(x− µ0) ∼ T 2p,n−1 (1.5)

Puesto que no se tienen tablas para la T 2, entonces se recurre a la relacioncon la distribucion F . Ası rechazamos H0, a un nivel α si

F0 =n− p

p(n− 1)T 2

0 > F1−α,p,n−p (1.6)

Y = g(X) tiene la distribucion f(y|θ′) si X tiene la distribucion f(x|θ).

Universidad Nacional de Colombia 11

Page 12: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Prueba T 2 para dos Muestras (H0 : µ1 = µ2, con Σ1 = Σ2)

Sea x1,x2, ...,xn una muestra aleatoria p-variada de una Np(µ1, Σ) y seay1,y2, ...,ym una muestra aleatoria p-variada de una Np(µ2, Σ). La pruebaLRT que rechaza H0, se puede construir como,

λ =

supH0

L(µ, Σ)

supH0∪Ha

L(µ, Σ)=

supH0

L(µ, Σ0)

supH0∪Ha

L(µ1, µ2, Σ)< q (1.7)

donde q es desconocido tal que la prueba tiene un nivel de significancia α, ylos estimadores maximo verosımiles de µ, µ1, µ2, Σ0 y Σ, quedan dados por:

µ =nx + my

n + m(1.8)

µ1 =1

n

n∑i=1

xi = x (1.9)

µ2 =1

m

m∑i=1

yi = y (1.10)

Σ0 =nΣ10 + mΣ20

n + m=

n∑i=1

(xi − µ)(xi − µ)′ +n∑

i=1

(yi − µ)(yi − µ)′

n + m(1.11)

Σ =nΣ1 + mΣ2

n + m=

nPi=1

(xi − µ1)(xi − µ1)′ +nP

i=1(yi − µ2)(yi − µ2)′

n + m=

n + m− 2

n + mS (1.12)

Desarrollando λ, se puede llegar a la forma del estadıstico T 2 de Hote-lling, dada por

T 20 =

nm

n + m(x1 − x2)

′S−1(x1 − x2) ∼ T 2p,n−p−1 (1.13)

El cual se puede aproximar con una F , rechazando H0 a un nivel α si

F0 =n− p− 1

p(n− 2)T 2

0 > F1−α,p,n−p−1 (1.14)

Universidad Nacional de Colombia 12

Page 13: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

1.1.2. Distribucion Normal Sesgada

Azzalini & Dalla-Valle (1996), elaboran una descripcion sobre la distri-bucion Normal Segada 2 (NS) y sus propiedades, hacen un desarrollo sobreel calculo de su funcion de densidad para el caso p-variado y muestran unaaplicacion a partir de datos reales provenientes de una distribucion bivariada.La distribucion Normal Sesgada es una familia de distribuciones que inclu-yen la normal, con un parametro adicional de sesgamiento, γ. Ası, en el casounivariado, Z ∼ NS(γ), si su funcion de densidad esta dada por (ver ejemploen Figura 1.1.),

φ(z; γ) = 2φ(z)Φ(γz) (z ∈ R) (1.15)

donde,

φ(z): funcion de densidad de una N(0, 1)

Φ(z): funcion de distribucion de una N(0, 1)

γ: parametro de sesgamiento (−∞,∞)

Observe que cuando γ = 0, la densidad resultante corresponde a la deuna N(0, 1).

Azzalini (1985), deriva algunas propiedades de interes sobre la distribucionNormal Sesgada, entre ellos,

Z2 ∼ χ21 (1.16)

E[Z] =

(2

π

)1/2

δ, donde δ =γ

(1 + γ2)1/2(1.17)

V [Z] = 1− 2

πδ2 (1.18)

(Indice de Sesgamiento)

γ1 = 12(4− π)

E[Z]3

V [Z]3/2, −0,995 < γ1 < 0,995 (1.19)

2En el software estadıstico R Development Core Team (2007), Azzalini (2007) hacetodo un desarrollo computacional de la distribucion Normal Sesgada en el paquete sn, elcual posee varias funciones para el caso univariado y multivariado, incluyendo funcionesde graficacion.

Universidad Nacional de Colombia 13

Page 14: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 1.1: Funcion de Densidad de una distribucion NS(γ = 8). Caso univaria-do

Ahora, si consideramos el caso multivariado, Azzalini & Dalla-Valle (1996),muestran que cuando cada una de las componentes de z = (z1 z2 ... zp)′ esNS, entonces

zi = δi|x0|+ (1− δ2i )

1/2xi ∼ NS(γ(δi)) (1.20)

donde las x′is ∼ N(0, 1) independientes (con matriz de correlacion Ψp×p, si(δ1, ..., δp) estan entre -1 y 1). Ası la funcion de densidad resultante quedadada por (ver ejemplo en Figura 1.2.),

fp(z) = 2φp(z; Σ)Φ(γ′z) (1.21)

Luego Z ∼ NSp(γ, Σ), con γ vector de parametros de forma y parametrode dependencia Σ y cuya funcion generadora de momentos, valor esperado yvarianza, respectivamente, son:

M(t) = 2 exp

(1

2(t′Σt)

(γ′Σγ

(1 + γ′Σγ)1/2

)(1.22)

µz = E(Z) =

(2

π

)1/2

δ (1.23)

V[Z] = Σ− µzµ′z (1.24)

Universidad Nacional de Colombia 14

Page 15: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 1.2: Grafico de Contorno de la Funcion de Densidad de una NS-Bivariada

Azzalini & Capitanio (1999), justifican el uso de este tipo de distribucionesal mostrar algunas dificultades a las que se enfrentan los analistas cuandodesean lograr normalidad multivariada. Dentro de estas dificultades cabemencionar:

Puesto que las transformaciones se hacen sobre cada componente porseparado, es difıcil esperar una normalidad conjunta.

Las variables transformadas son mas difıciles de interpretar, especial-mente cuando cada variable es transformada empleando una funciondiferente.

Las transformaciones para normalidad y heteroscedasticidad son, confrecuencia, diferentes.

Es ası como se trata de extender algunos de los metodos clasicos a la clasede distribuciones Normales Sesgadas, la cual parece tener gran exito en casosen los que los datos presentan una distribucion unimodal con cierto sesgo.

Universidad Nacional de Colombia 15

Page 16: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

1.2. Estado del Arte

Entre los autores que han trabajado sobre el tema de la robustez del es-tadıstico T 2 de Hotelling, se encuentra Srivastava (1958), quien estudia elefecto de la no normalidad al tratar de controlar los errores tipo I y II eninferencias con muestras univariadas. Estudia el efecto del sesgo y la kurtosisen poblaciones no-normales. Los resultados de este estudio muestran comolas medidas del sesgo y la kurtosis afectan la potencia de la prueba, espe-cialmente la del sesgo. Tambien verifica que cuando se tienen tamanos demuestra grandes disminuye el efecto de la no-normalidad sobre la potenciade la prueba.

Holloway & Dunn (1967), estudian, vıa simulacion, la robustez del estadısticoT 2 ante cambios en las matrices de varianzas-covarianzas y en tamanos demuestra de las poblaciones, teniendo como base muestras de distribucionesnormales multivariadas y una potencia dada. Ellos concluyeron que a medidaque se incremente el numero de variables o a medida que el tamano de lasmuestras disminuye, el nivel de significancia aumenta. Tal y como lo mostra-ron Hopkins & Clay (1963), el nivel de significancia de la prueba es cercanoal nivel real cuando los tamanos de las muestras de las dos poblaciones soniguales, aunque no ayuden mucho a mantener la potencia de la prueba.

Chase & Bulgren (1971), estudian la robustez del estadıstico T 2 para unamuestra proveniente de diferentes distribuciones bivariadas, incluyendo mues-tras de poblaciones sesgadas y correlacionadas. Se concluye que las distribu-ciones altamente sesgadas no se aproximan bien por medio la T 2 de Hotelling.

Mardia (1975), estudia las interrelaciones entre las medidas del sesgo y lakurtosis multivariadas al expresarlas en terminos de los angulos y las distan-cias de Mahalanobis. Mardia muestra como estas medidas dan un significadoal interpretar varios estudios Monte Carlo sobre el efecto de la no-normalidaden el estadıstico T 2 de Hotelling. Por ejemplo, en el caso de una y dos mues-tras de tamanos pequenos concluye que:

La prueba T 2 de Hotelling es robusta.

La prueba T 2 de Hotelling para una muestra es mas sensible al sesgoque a la kurtosis.

La prueba T 2 de Hotelling para dos muestras es mas sensible al sesgosi n1 6= n2.

Universidad Nacional de Colombia 16

Page 17: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Everitt (1979), muestra como el estadıstico T 2 de Hotelling es mas robustopara el caso de dos muestras (se quiere probar H0 : µ1 = µ2) que para elcaso de una muestra (se quiere probar H0 : µ = µ0), cuando se relajan lossupuestos de normalidad. Este resultado se logra a traves de un estudio desimulacion, en el que se emplean diferentes distribuciones para generar datosp-variados.

Por otra parte, Fujikoshi (1997), obtiene una expansion asintotica para ladistribucion del estatıstico T 2 de Hotelling bajo no-normalidad cuando lostamanos de muestra son grandes (bajo la teorıa normal, cuando n → ∞,T 2 ∼ χ2

p), usando la expansion de Edgeworth al expandir la funcion carac-terıstica del T 2; y Wu et al. (2006) proponen un nuevo estadıstico de prueba(PCT, Pooled Component Test) para casos en los que es difıcil calcular elestadıstico T 2 de Hotelling, como por ejemplo, cuando los tamanos de losgrupos para las dos muestras (n1 y n2) son pequenos y el numero de varia-bles es grande, o cuando hay datos faltantes. Este estadıstico, basado en ladistribucion chi-cuadradada escalada, sirve para probar la igualdad entre dosvectores de medias.

Universidad Nacional de Colombia 17

Page 18: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Capıtulo 2

Robustez del Estadıstico T 2

En la investigacion estadıstica los estudios de robustez son de gran impor-tancia pues hacen referencia a caracterısticas deseables sobre ciertos procedi-mientos estadısticos. Es ası como se dira que un procedimiento es robusto sino sufre ninguna alteracion ante violaciones de los modelos que lo sustentan.Para el caso especıfico del estadıstico T 2, sobre el cual se supone que los da-tos provienen de distribuciones Normales, se desea estudiar su robustez antecambios en las distribuciones de los datos, especialmente cuando se tratande distribuciones sesgadas.

2.1. Metodologıa

Everitt (1979), investigo el efecto de la no normalidad sobre el calculodel estadıstico T 2 para una y dos poblaciones vıa simulacion. Con base en elestudio de este autor, en este trabajo se realiza una extension al considerar lacomparacion con la distribucion Normal Sesgada. Los factores que se tuvieronen cuenta en el proceso de simulacion, ası como sus respectivos niveles, sedescriben a continuacion:

Tamano de muestra de las poblaciones (n): 10, 30, 50, 100, 200 y 500

Numero de variables medidas en cada poblacion (p): 2, 5, 10, 15 y 20.

Numero de simulaciones (N): Para el caso de una poblacion, se consi-deraron 3000 simulaciones y para el caso con dos poblaciones se consi-deraron 2000.

Nivel de significancia nominal de la prueba (α): 0.01, 0.05 y 0.1

18

Page 19: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Distribucion de los datos: Se generaron p variables aleatorias indepen-dientes de las siguientes distribuciones (ver Figura 2.1):

Figura 2.1: Distribuciones muestreadas. La grafica de la derecha hace referenciaa la distribucion Normal Sesgada (NS), con diferentes valores parael parametro de sesgamiento, γ

• Distribucion Normal:

xi ∼ N(0, 1), i = 1, ..., p

donde E[xi] = µ = 0

• Distribucion Uniforme:

xi ∼ U(0, 1), i = 1, ..., p

donde E[xi] = a+b2

= 0,5

• Distribucion Exponencial:

xi ∼ Exp(1), i = 1, ..., p

donde E[xi] = λ = 1

Universidad Nacional de Colombia 19

Page 20: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

• Distribucion Lognormal:

log xi ∼ N(0, 1), i = 1, ..., p

donde E[xi] = exp(µ + σ2/2) = exp(0,5)

• Distribucion Normal Sesgada:

xi ∼ SN(γ = 1); i = 1, ..., p

donde

E[xi] =

(2

π

)1/2

δ = 0,564

conδ =

γ

(1 + γ2)1/2= 0,7071068

Tambien se tuvieron en cuenta valores de 5 y 10 para γ

La variable respuesta es α0, porcentaje de muestras que exceden el verda-dero nivel de significancia nominal, α, alcanzado por la prueba T 2 de Hote-lling para las distintas distribuciones dadas las combinaciones de los nivelesde los factores arriba mencionados. Se dira entonces, que α0 excede el nivelnominal si sobrepasa la siguiente cota propuesta por Everitt (1979):

α± 2

(α(1− α)

N

)1/2

(2.1)

2.2. Resultados y Conclusiones

Los resultados de estas simulaciones se muestran en las Figuras 2.2, 2.3,2.4, 2.5, 2.6 y 2.7 y en las Tablas 2.4, 2.5, 2.6, 2.7 y 2.8. De aquı se puededecir que:

1. Comparaciones sobre el vector de medias de una poblacion (Figuras2.2, 2.3, 2.4, 2.5, 2.6 y 2.7, y Tablas 2.1 y 2.2):

El porcentaje de muestras que exceden el nivel de significancianominal alcanzado por la prueba T 2 de Hotelling es menor cuandose incrementa el tamano de la muestra y cuando el numero devariables a comparar es pequeno.

La potencia de la prueba disminuye cuando aumentamos su nivelde confianza.

Universidad Nacional de Colombia 20

Page 21: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Con los tres parametros de sesgo empleados en las simulaciones dela distribucion normal sesgada los resultados dieron muy similaresa los obtenidos con distribuciones simetricas como la normal y launiforme.

La lognormal y la exponencial fueron las distribuciones con lastasas de rechazo mas altas. Si observa en la Figura 2.1, una de lasdiferencias de estas dos distribuciones con la normal sesgada es laforma de la cola de la distribucion.

Autores como Srivastava (1958), Chase & Bulgren (1971) y Mar-dia (1975), concluyeron que la prueba T 2 de Hotelling es sensibleal sesgo de la distribucion. Sin embargo, esta conclusion deberıareplantearse mejor en terminos de la sensibilidad de la prueba ala forma de la cola de las distribuciones.

Rojo (1996) hace una categorizacion de las distribuciones segun elcomportamiento de las colas. Ası, por ejemplo, la distribucion log-normal es de cola larga, la exponencial de cola media y la normalde cola corta. Como introduccion a este problema, en la Tabla 2.3se presentan las medidas de sesgo para cada una de las diferentesdistribuciones muestreadas en este trabajo, note como la distribu-cion lognormal es la que tiene medidas mas grandes. Como trabajofuturo se deja la categorizacion de la cola de la distribucion nor-mal sesgada y justificar su comportamiento con la prueba T 2 deHotelling en este sentido.

Ahora bien, en la discusion hecha en el artıculo de Everitt (1979), semuestra un estadıstico de prueba ajustado, propuesto por Mardia, paraprobar H0 : µ = µ0. En el caso de datos no normales, este estadıstico selogra al modificar los grados de libertad para la distribucion F dadosen la ecuacion 1.6 por δp y δ(n− p), donde

δ = 1 +1

n

{b2,p − p(p + 2)

p

}(2.2)

y b2,p es una medida de kurtosis multivariada de Mardia, dada por,

b2,p =1

n

n∑i=1

{(xi − x)′S−1(xi − x)

}2(2.3)

En la Figura ?? se muestran las diferencias entre los porcentajes simu-lados de muestras que exceden el nivel de significancia nominal usando

Universidad Nacional de Colombia 21

Page 22: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

los grados de libertad dados en la ecuacion 1.6 y los propuestos porMardia. Estas diferencias son comparadas con la cota que se presentaen la ecuacion 2.1.Puesto que el interes en este trabajo esta mas concen-trado en el comportamiento de la prueba para distribuciones sesgadas,del ejercicio de simulacion se puede concluir que no hay un gran aporteen el calculo del porcentaje de muestras que exceden el nivel de signi-ficancia nominal usando los grados de libertad propuestos por Mardia,y por tanto no se considera necesario trabajar con este estadıstico deprueba ajustado.

Universidad Nacional de Colombia 22

Page 23: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 2.2: Porcentaje de muestras que exceden el nivel de significancia nominalα =0.01, para comparaciones con una poblacion, considerando lasdistribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼ N(0, 1), SN(1),SN(5), SN(10)

Universidad Nacional de Colombia 23

Page 24: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 2.3: Porcentaje de muestras que exceden el nivel de significancia nominalα =0.05, para comparaciones con una poblacion, considerando lasdistribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼ N(0, 1), SN(1),SN(5), SN(10)

Universidad Nacional de Colombia 24

Page 25: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 2.4: Porcentaje de muestras que exceden el nivel de significancia nominalα =0.1, para comparaciones con una poblacion, considerando lasdistribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼ N(0, 1), SN(1),SN(5), SN(10)

Universidad Nacional de Colombia 25

Page 26: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Tabla

2.1

:Por

cent

aje

dem

uest

rasqu

eex

cede

nel

nive

lde

sign

ifica

ncia

nom

inal

α,p

ara

com

para

cion

esco

nun

apo

blac

ion,

cons

ider

ando

las

dist

ribu

cion

esN

(0,1

),U

(0,1

),E

xp(1

),lo

g(x)∼

N(0

,1),

SN

(1),

SN

(5),

SN

(10)

np

N(0

,1)

U(0

,1)

Exp(1

)lo

g(x

)∼

N(0

,1)

SN

(1)

SN

(5)

SN

(10)

5%

10

%5

%10%

5%

10

%5%

10%

5%

10

%5%

10

%5%

10

%2

0,0

53

0,0

98

0,0

47

0,1

01

0,0

92

0,1

34

0,1

56

0,2

14

0,0

48

0,1

02

0,0

60

0,1

15

0,0

58

0,1

14

50,0

52

0,1

09

0,0

55

0,1

03

0,1

10

0,1

76

0,2

41

0,3

34

0,0

49

0,0

99

0,0

70

0,1

17

0,0

65

0,1

25

30

10

0,0

52

0,1

04

0,0

56

0,0

96

0,1

33

0,1

95

0,3

11

0,4

22

0,0

48

0,1

04

0,0

68

0,1

20

0,0

71

0,1

28

15

0,0

47

0,0

98

0,0

42

0,1

05

0,1

34

0,2

05

0,3

23

0,4

34

0,0

49

0,1

05

0,0

59

0,1

06

0,0

76

0,1

22

20

0,0

57

0,0

96

0,0

51

0,0

96

0,1

12

0,1

95

0,3

02

0,4

20

0,0

46

0,0

97

0,0

53

0,1

10

0,0

61

0,1

18

20,0

53

0,1

01

0,0

50

0,1

00

0,0

83

0,1

32

0,1

33

0,1

90

0,0

50

0,0

95

0,0

54

0,1

10

0,0

57

0,1

08

50,0

46

0,1

04

0,0

51

0,0

97

0,0

95

0,1

49

0,2

08

0,2

76

0,0

51

0,0

99

0,0

57

0,1

18

0,0

60

0,1

18

50

10

0,0

49

0,0

98

0,0

49

0,1

09

0,1

10

0,1

96

0,2

59

0,3

52

0,0

47

0,1

04

0,0

64

0,1

12

0,0

65

0,1

09

15

0,0

51

0,0

84

0,0

51

0,1

08

0,1

18

0,1

88

0,3

00

0,3

88

0,0

49

0,1

07

0,0

54

0,1

21

0,0

68

0,1

20

20

0,0

62

0,0

94

0,0

51

0,1

08

0,1

16

0,1

96

0,3

11

0,4

27

0,0

53

0,1

09

0,0

60

0,1

17

0,0

64

0,1

25

20,0

52

0,1

03

0,0

47

0,0

95

0,0

66

0,1

09

0,1

05

0,1

58

0,0

57

0,0

90

0,0

61

0,0

94

0,0

56

0,1

05

50,0

49

0,0

98

0,0

51

0,1

00

0,0

77

0,1

27

0,1

45

0,2

01

0,0

53

0,0

90

0,0

52

0,1

06

0,0

62

0,1

05

100

10

0,0

44

0,1

11

0,0

49

0,1

04

0,0

86

0,1

45

0,1

90

0,2

65

0,0

52

0,0

97

0,0

61

0,1

08

0,0

53

0,1

05

15

0,0

54

0,1

08

0,0

45

0,0

97

0,0

87

0,1

44

0,2

16

0,3

12

0,0

54

0,1

03

0,0

64

0,1

11

0,0

60

0,1

08

20

0,0

53

0,0

96

0,0

60

0,1

02

0,0

99

0,1

50

0,2

54

0,3

61

0,0

53

0,0

99

0,0

58

0,1

12

0,0

64

0,1

12

20,0

55

0,0

99

0,0

50

0,1

04

0,0

54

0,0

96

0,0

89

0,1

43

0,0

47

0,1

08

0,0

52

0,0

99

0,0

59

0,0

99

50,0

47

0,0

97

0,0

48

0,0

88

0,0

58

0,1

17

0,1

14

0,1

72

0,0

50

0,1

11

0,0

53

0,1

10

0,0

54

0,1

04

200

10

0,0

49

0,1

09

0,0

47

0,1

02

0,0

74

0,1

21

0,1

36

0,2

11

0,0

44

0,0

95

0,0

54

0,0

98

0,0

51

0,1

14

15

0,0

42

0,1

02

0,0

43

0,0

94

0,0

59

0,1

32

0,1

67

0,2

41

0,0

49

0,0

96

0,0

48

0,1

07

0,0

64

0,1

03

20

0,0

39

0,1

04

0,0

50

0,0

99

0,0

74

0,1

33

0,1

76

0,2

54

0,0

58

0,1

01

0,0

51

0,1

01

0,0

53

0,1

08

20,0

54

0,1

01

0,0

54

0,0

95

0,0

54

0,0

99

0,0

75

0,1

26

0,0

45

0,0

94

0,0

50

0,1

02

0,0

51

0,0

95

50,0

48

0,1

03

0,0

44

0,0

99

0,0

58

0,1

09

0,0

86

0,1

33

0,0

57

0,0

97

0,0

48

0,1

05

0,0

49

0,1

06

500

10

0,0

51

0,0

94

0,0

53

0,1

01

0,0

62

0,1

13

0,0

98

0,1

68

0,0

51

0,0

96

0,0

57

0,0

86

0,0

50

0,1

03

15

0,0

50

0,0

97

0,0

57

0,1

00

0,0

62

0,1

19

0,1

07

0,1

74

0,0

48

0,0

98

0,0

50

0,1

08

0,0

51

0,1

07

20

0,0

47

0,1

13

0,0

56

0,1

02

0,0

60

0,1

06

0,1

06

0,1

89

0,0

52

0,1

06

0,0

48

0,1

02

0,0

48

0,0

98

Universidad Nacional de Colombia 26

Page 27: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 2.5: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.01, usando los grados de libertad dadosen la ecuacion 1.6 y los propuestos por Mardia

Universidad Nacional de Colombia 27

Page 28: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 2.6: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.05, usando los grados de libertad dadosen la ecuacion 1.6 y los propuestos por Mardia

Universidad Nacional de Colombia 28

Page 29: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 2.7: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.1, usando los grados de libertad dados enla ecuacion 1.6 y los propuestos por Mardia

Universidad Nacional de Colombia 29

Page 30: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Tabla

2.2

:D

ifere

ncia

sen

tre

los

porc

enta

jes

dem

uest

ras

que

exce

den

elni

vel

desi

gnifi

canc

iano

min

alα,

usan

dolo

sgr

ados

delib

erta

dda

dos

enla

ecua

cion

1.6

ylo

spr

opue

stos

por

Mar

dia

np

N(0

,1)

U(0

,1)

Exp(1

)lo

g(x

)∼

N(0

,1)

SN

(1)

SN

(5)

SN

(10)

5%

10

%5%

10

%5%

10

%5%

10

%5%

10

%5%

10

%5%

10

%2

0,0

11

-0,0

03

-0,0

09

0,0

05

-0,0

01

-0,0

08

-0,0

07

0,0

12

0,0

00

0,0

06

0,0

00

0,0

02

-0,0

06

0,0

11

50,0

01

0,0

10

0,0

04

-0,0

04

-0,0

08

-0,0

05

0,0

02

0,0

32

-0,0

01

-0,0

01

-0,0

02

-0,0

11

0,0

04

0,0

03

30

10

0,0

03

0,0

04

-0,0

06

-0,0

20

-0,0

09

-0,0

20

-0,0

01

0,0

28

-0,0

06

0,0

05

0,0

01

0,0

01

-0,0

03

0,0

05

15

-0,0

03

-0,0

07

-0,0

07

0,0

00

0,0

09

0,0

06

-0,0

05

-0,0

13

0,0

01

0,0

01

-0,0

04

-0,0

17

0,0

01

0,0

04

20

-0,0

01

-0,0

08

0,0

07

-0,0

08

-0,0

02

0,0

05

0,0

06

-0,0

12

0,0

06

0,0

04

-0,0

12

-0,0

07

0,0

00

-0,0

05

20,0

05

-0,0

03

-0,0

02

-0,0

05

0,0

12

0,0

08

0,0

04

-0,0

06

0,0

01

0,0

08

-0,0

08

0,0

02

-0,0

01

0,0

04

50,0

02

0,0

03

-0,0

04

-0,0

03

-0,0

11

0,0

00

-0,0

02

0,0

06

0,0

04

-0,0

05

-0,0

05

0,0

15

-0,0

06

0,0

07

50

10

-0,0

01

0,0

00

-0,0

04

0,0

02

0,0

01

0,0

15

-0,0

03

0,0

05

-0,0

03

0,0

03

-0,0

05

-0,0

07

0,0

02

-0,0

15

15

0,0

06

-0,0

16

-0,0

06

-0,0

10

0,0

02

0,0

03

0,0

05

-0,0

18

0,0

04

0,0

16

-0,0

11

0,0

11

0,0

04

0,0

01

20

0,0

12

-0,0

04

-0,0

05

0,0

04

0,0

09

0,0

00

-0,0

02

0,0

00

-0,0

05

0,0

08

0,0

06

0,0

00

0,0

00

0,0

03

2-0

,002

0,0

04

-0,0

03

-0,0

02

-0,0

04

0,0

07

-0,0

03

-0,0

05

0,0

08

-0,0

05

0,0

11

0,0

01

0,0

02

0,0

04

50,0

04

-0,0

02

0,0

01

0,0

00

0,0

04

0,0

05

-0,0

07

-0,0

24

0,0

02

-0,0

10

0,0

02

0,0

02

0,0

03

-0,0

08

100

10

-0,0

06

0,0

14

-0,0

16

0,0

16

0,0

04

0,0

03

-0,0

12

-0,0

16

0,0

05

-0,0

05

0,0

06

0,0

07

-0,0

04

-0,0

01

15

0,0

04

0,0

09

-0,0

07

-0,0

01

0,0

01

-0,0

11

-0,0

09

-0,0

01

0,0

02

0,0

03

0,0

08

-0,0

05

-0,0

06

-0,0

02

20

0,0

05

0,0

00

0,0

13

0,0

06

0,0

13

-0,0

09

0,0

10

0,0

20

0,0

04

-0,0

06

0,0

01

-0,0

11

0,0

02

-0,0

06

20,0

08

-0,0

03

0,0

05

0,0

10

-0,0

13

-0,0

11

-0,0

03

0,0

04

-0,0

01

0,0

18

0,0

04

-0,0

16

0,0

10

-0,0

05

50,0

05

-0,0

08

0,0

00

-0,0

11

-0,0

01

0,0

03

0,0

07

0,0

04

0,0

01

0,0

10

-0,0

01

0,0

03

0,0

06

0,0

06

200

10

-0,0

01

0,0

03

0,0

03

0,0

04

0,0

01

0,0

02

-0,0

12

-0,0

05

-0,0

01

-0,0

01

-0,0

03

-0,0

13

-0,0

02

0,0

03

15

-0,0

11

-0,0

04

-0,0

04

-0,0

05

-0,0

11

0,0

04

0,0

08

0,0

13

-0,0

04

-0,0

09

-0,0

12

-0,0

01

0,0

10

-0,0

03

20

-0,0

10

0,0

07

-0,0

01

-0,0

06

-0,0

05

0,0

06

0,0

07

-0,0

03

0,0

06

-0,0

04

-0,0

04

-0,0

08

-0,0

12

0,0

00

20,0

05

-0,0

03

0,0

03

-0,0

08

0,0

10

-0,0

02

0,0

15

-0,0

04

-0,0

02

-0,0

01

-0,0

07

0,0

11

0,0

01

-0,0

13

50,0

00

0,0

05

-0,0

02

-0,0

05

0,0

03

-0,0

01

0,0

00

-0,0

02

0,0

13

-0,0

07

-0,0

08

0,0

04

-0,0

08

0,0

11

500

10

0,0

05

-0,0

10

0,0

04

0,0

05

0,0

04

0,0

09

0,0

01

0,0

15

0,0

02

-0,0

06

0,0

09

-0,0

29

0,0

03

-0,0

05

15

0,0

01

-0,0

11

0,0

13

-0,0

04

-0,0

08

0,0

06

-0,0

03

-0,0

07

-0,0

07

0,0

00

-0,0

04

0,0

13

-0,0

04

0,0

10

20

-0,0

02

0,0

16

0,0

15

0,0

08

-0,0

05

-0,0

15

0,0

00

0,0

22

0,0

04

0,0

04

-0,0

08

-0,0

13

-0,0

01

0,0

02

Universidad Nacional de Colombia 30

Page 31: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Tabla

2.3

:M

edid

asde

Sesg

oy

Kur

tosi

sm

ulti

vari

adas

deM

ardi

apa

rala

sdi

fere

ntes

dist

ribu

cion

esm

uest

read

asn

pN

(0,1)

U(0

,1)

Ex

p(1

)lo

g(x

)∼

N(0

,1)

SN

(1)

SN

(5)

SN

(10)

Sesg

oK

urt

osi

sSesg

oK

urt

osi

sSesg

oK

urt

osi

sSesg

oK

urt

osi

sSesg

oK

urt

osi

sSesg

oK

urt

osi

sSesg

oK

urt

osi

s10

21,8

19

5,7

60

1,8

76

5,6

35

1,7

80

5,2

52

1,3

06

5,4

83

1,1

78

5,3

70

1,3

67

5,2

12

1,1

27

4,8

80

512,0

70

23,4

52

8,6

43

21,7

46

16,5

31

25,8

15

9,3

49

22,3

40

9,3

72

22,0

12

14,3

28

25,4

28

9,8

57

22,5

73

20,2

51

7,7

46

0,2

20

5,9

45

2,8

67

8,8

88

20,4

69

27,6

15

0,7

71

7,2

56

0,7

66

6,1

71

3,4

04

10,6

96

54,3

84

27,8

63

2,9

58

27,5

47

16,5

642,0

52

29,1

23

52,3

36

7,2

56

31,0

71

8,1

50

31,3

56

6,5

89

32,8

70

30

10

32,9

10

102,9

87

33,1

42

104,0

91

50,6

15

114,6

48

76,9

51

135,5

07

36,8

67

106,5

76

49,3

87

114,8

44

41,5

94

109,2

34

15

105,5

33

218,9

56

100,9

53

217,5

21

124,9

24

229,9

17

176,1

14

259,1

61

124,3

36

232,8

24

106,0

81

219,4

56

102,0

95

217,5

13

20

252,4

27

384,2

25

238,3

96

379,3

16

258,6

15

387,8

72

272,8

62

393,1

12

258,7

68

388,2

14

251,0

45

385,5

10

246,0

26

382,5

11

21,3

67

8,8

99

0,3

83

5,3

54

4,5

79

12,2

65

10,4

39

20,4

56

0,5

29

7,5

86

3,4

97

11,4

53

2,6

81

10,0

25

53,6

39

31,2

16

4,2

06

30,5

19

18,4

31

48,0

64

42,7

42

74,5

36

2,9

17

32,8

11

2,9

79

30,3

28

12,9

80

41,9

84

50

10

21,3

95

108,9

63

16,4

44

101,6

75

54,9

16

136,8

40

133,5

97

207,4

53

21,7

26

110,0

23

27,4

17

113,6

36

33,7

49

119,0

86

15

65,1

87

229,3

46

64,1

64

230,1

07

114,0

96

265,2

56

142,2

17

281,6

17

69,4

49

232,5

97

78,6

74

242,3

98

81,8

26

241,5

59

20

157,9

11

402,2

54

163,5

95

402,7

66

190,6

26

422,6

51

277,7

96

471,8

52

164,1

88

405,3

64

163,9

69

404,2

59

180,6

29

414,0

13

20,2

10

7,1

61

0,3

44

5,8

66

13,1

57

26,8

68

19,5

39

33,1

42

0,1

90

6,9

20

1,6

79

8,8

86

3,0

40

10,9

35

51,4

54

31,9

41

1,0

38

28,5

28

14,7

22

44,9

644,6

26

86,4

71

2,0

96

33,2

69

7,2

97

41,2

62

8,0

51

39,7

50

100

10

10,8

24

113,6

35

9,5

33

107,4

68

47,2

85

148,0

77

130,5

83

238,8

515,8

54

120,6

34

17,4

64

118,8

47

19,7

27

123,2

04

15

35,8

33

238,9

05

33,3

29

236,2

11

94,9

61

298,2

92

224,4

81

415,4

48

37,0

20

242,5

95

46,3

15

247,9

24

52,4

28

255,0

80

20

81,9

07

414,6

85

76,4

6407,1

55

158,5

85

485,7

27

426,4

41

694,8

32

78,6

58

420,7

15

100,7

06

433,2

69

96,5

23

431,5

13

20,0

43

7,8

28

0,0

51

5,7

49

4,1

84

11,4

00

25,9

15

43,8

39

0,2

74

8,0

04

1,6

07

8,7

81

2,3

54

10,4

38

51,0

58

34,6

59

0,5

80

28,7

05

16,3

80

49,1

75

139,3

45

192,4

70

1,6

11

34,5

29

3,8

31

35,3

64

6,0

39

39,1

72

200

10

6,6

64

118,1

20

4,8

47

106,3

47

41,1

25

158,5

33

219,9

69

395,0

38

5,7

92

115,8

83

14,7

33

128,2

24

14,3

77

120,7

83

15

18,1

37

248,1

50

15,1

44

235,7

23

87,2

88

333,0

73

456,9

34

722,7

49

18,3

73

250,4

67

29,3

11

260,8

51

33,0

80

260,1

69

20

45,1

22

429,3

36

38,9

78

412,8

09

127,2

49

522,8

18

326,7

54

735,8

36

45,4

13

428,3

54

62,1

26

443,7

92

62,9

46

447,7

12

20,0

12

7,3

26

0,0

31

5,6

80

8,8

71

19,4

62

71,9

56

126,6

10

0,0

69

8,0

72

1,4

36

8,9

22

1,8

64

10,2

41

50,4

54

36,3

68

0,3

37

29,0

22

19,0

48

61,8

75

163,6

96

256,8

32

0,5

30

35,4

33

3,9

86

36,5

83

4,9

81

38,6

95

500

10

2,1

35

116,4

12

2,2

74

107,8

07

46,0

81

181,4

61

275,9

30

515,6

97

3,1

44

122,3

66

8,2

68

121,5

65

10,4

98

123,0

39

15

8,4

56

252,8

84

6,2

38

235,8

49

65,2

49

316,3

92

273,0

90

615,0

92

8,0

76

251,3

25

16,5

49

254,1

93

20,3

15

263,8

68

20

17,8

55

429,2

88

16,2

20

414,0

77

91,5

85

531,5

99

785,5

67

1448,7

16

18,9

26

437,8

34

30,8

76

445,8

21

35,5

54

453,7

02

Universidad Nacional de Colombia 31

Page 32: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

2. Comparaciones entre los vectores de medias de dos poblaciones (Tabla2.4-2.8):

La prueba T 2 de Hotelling es mas robusta para el caso de compa-raciones de vectores de medias entre dos poblaciones.

Como en el caso de comparaciones del vector de medias para unapoblacion, la distribucion lognormal (que es de cola larga), es laque presenta mayor porcentaje de muestras que exceden el nivel designificancia nominal. A pesar que la distribucion normal sesgadatiene un parametro de sesgo, para este caso tambien muestra unbuen comportamiento.

Para el caso de la distribucion lognormal, α0 > α cuando lostamanos de muestra de las dos poblaciones son desbalanceados,especialmente cuando uno de los tamanos de muestra es muy pe-queno con respecto a otro y cuando aumenta el numero de varia-bles involucradas.

Universidad Nacional de Colombia 32

Page 33: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Tabla

2.4

:Por

cent

aje

dem

uest

ras

que

exce

den

elni

velde

sign

ifica

ncia

nom

inal

,α,pa

raco

mpa

raci

ones

con

dos

pobl

a-ci

ones

con

p=

2n

1n

2N

(0,1

)U

(0,1

)E

xp(1

)lo

g(x

)∼

N(0

,1)

SN

(1)

SN

(5)

SN

(10)

5%

10%

5%

10%

5%

10%

5%

10%

5%

10%

5%

10%

5%

10%

10

0,0

54

0,1

02

0,0

55

0,1

09

0,0

42

0,0

80

0,0

27

0,0

84

0,0

56

0,1

01

0,0

50

0,0

94

0,0

50

0,1

04

30

0,0

47

0,0

96

0,0

43

0,1

03

0,0

52

0,0

88

0,0

45

0,0

94

0,0

51

0,0

94

0,0

40

0,0

97

0,0

38

0,0

97

10

50

0,0

43

0,1

00

0,0

61

0,1

05

0,0

63

0,0

93

0,0

55

0,1

03

0,0

43

0,1

02

0,0

53

0,0

94

0,0

50

0,1

06

100

0,0

54

0,0

95

0,0

48

0,0

93

0,0

54

0,0

92

0,0

60

0,1

02

0,0

44

0,0

99

0,0

50

0,1

08

0,0

53

0,0

94

200

0,0

52

0,1

01

0,0

51

0,0

96

0,0

59

0,0

91

0,0

77

0,0

85

0,0

52

0,1

00

0,0

55

0,0

99

0,0

56

0,1

01

500

0,0

49

0,0

93

0,0

49

0,1

09

0,0

52

0,0

91

0,0

66

0,0

90

0,0

51

0,1

03

0,0

57

0,0

88

0,0

39

0,1

11

10

0,0

52

0,1

09

0,0

55

0,1

05

0,0

41

0,0

94

0,0

45

0,0

92

0,0

55

0,0

99

0,0

40

0,0

97

0,0

42

0,1

04

30

0,0

54

0,0

96

0,0

55

0,0

96

0,0

44

0,0

89

0,0

39

0,0

93

0,0

58

0,1

06

0,0

54

0,0

90

0,0

48

0,0

91

30

50

0,0

56

0,0

98

0,0

55

0,0

91

0,0

58

0,1

01

0,0

37

0,0

95

0,0

53

0,1

07

0,0

49

0,0

94

0,0

44

0,0

97

100

0,0

50

0,0

86

0,0

49

0,0

97

0,0

54

0,0

94

0,0

44

0,0

99

0,0

50

0,0

99

0,0

51

0,0

98

0,0

54

0,0

91

200

0,0

46

0,0

99

0,0

44

0,1

06

0,0

52

0,1

12

0,0

56

0,1

03

0,0

44

0,0

90

0,0

61

0,1

05

0,0

44

0,1

08

500

0,0

40

0,1

01

0,0

50

0,1

06

0,0

61

0,0

99

0,0

59

0,0

96

0,0

48

0,1

07

0,0

56

0,0

95

0,0

53

0,1

02

10

0,0

53

0,1

01

0,0

56

0,0

91

0,0

53

0,0

96

0,0

48

0,1

03

0,0

50

0,0

93

0,0

51

0,1

16

0,0

50

0,1

01

30

0,0

44

0,0

92

0,0

53

0,1

06

0,0

54

0,0

99

0,0

42

0,0

81

0,0

50

0,0

90

0,0

38

0,1

03

0,0

53

0,0

94

50

50

0,0

53

0,1

03

0,0

48

0,1

06

0,0

47

0,0

99

0,0

48

0,0

95

0,0

50

0,0

99

0,0

47

0,1

07

0,0

51

0,1

05

100

0,0

45

0,0

96

0,0

61

0,1

06

0,0

43

0,1

02

0,0

44

0,0

90

0,0

55

0,1

10

0,0

50

0,0

93

0,0

45

0,1

07

200

0,0

49

0,1

05

0,0

37

0,1

02

0,0

54

0,0

85

0,0

52

0,0

85

0,0

49

0,0

99

0,0

45

0,1

03

0,0

48

0,0

99

500

0,0

42

0,1

04

0,0

48

0,1

02

0,0

56

0,0

97

0,0

55

0,0

98

0,0

51

0,0

96

0,0

48

0,0

91

0,0

53

0,0

98

10

0,0

47

0,0

87

0,0

44

0,1

11

0,0

50

0,1

05

0,0

71

0,0

93

0,0

50

0,0

98

0,0

49

0,1

01

0,0

56

0,0

97

30

0,0

45

0,1

07

0,0

52

0,1

05

0,0

49

0,1

07

0,0

46

0,0

93

0,0

52

0,1

09

0,0

49

0,1

09

0,0

38

0,1

08

100

50

0,0

41

0,0

97

0,0

50

0,0

93

0,0

48

0,1

01

0,0

45

0,0

99

0,0

47

0,1

08

0,0

53

0,1

04

0,0

53

0,0

84

100

0,0

42

0,0

91

0,0

46

0,0

99

0,0

54

0,1

08

0,0

46

0,1

00

0,0

50

0,1

02

0,0

51

0,0

99

0,0

47

0,1

13

200

0,0

55

0,0

94

0,0

45

0,1

05

0,0

42

0,0

90

0,0

54

0,0

95

0,0

58

0,0

99

0,0

51

0,0

90

0,0

54

0,1

05

500

0,0

46

0,1

03

0,0

51

0,1

04

0,0

49

0,1

05

0,0

52

0,0

95

0,0

51

0,1

00

0,0

49

0,1

10

0,0

46

0,1

14

10

0,0

45

0,1

04

0,0

42

0,0

92

0,0

55

0,0

98

0,0

65

0,0

90

0,0

49

0,0

96

0,0

56

0,0

91

0,0

50

0,1

11

30

0,0

43

0,1

10

0,0

46

0,1

03

0,0

44

0,0

92

0,0

51

0,1

01

0,0

54

0,1

03

0,0

54

0,0

93

0,0

54

0,1

00

200

50

0,0

52

0,1

05

0,0

55

0,1

08

0,0

53

0,0

99

0,0

40

0,0

95

0,0

53

0,0

89

0,0

50

0,1

11

0,0

54

0,0

95

100

0,0

43

0,0

90

0,0

56

0,1

04

0,0

50

0,1

02

0,0

41

0,0

94

0,0

51

0,0

90

0,0

52

0,0

97

0,0

54

0,0

95

200

0,0

47

0,0

92

0,0

51

0,1

04

0,0

46

0,1

06

0,0

48

0,0

92

0,0

55

0,1

09

0,0

50

0,0

81

0,0

52

0,1

02

500

0,0

57

0,0

99

0,0

48

0,1

04

0,0

51

0,1

02

0,0

50

0,0

98

0,0

48

0,1

04

0,0

48

0,0

95

0,0

45

0,0

90

10

0,0

44

0,1

05

0,0

44

0,1

02

0,0

37

0,0

88

0,0

68

0,0

95

0,0

45

0,1

03

0,0

40

0,0

90

0,0

42

0,0

94

30

0,0

48

0,1

02

0,0

51

0,1

01

0,0

51

0,0

95

0,0

63

0,0

85

0,0

44

0,0

95

0,0

47

0,1

04

0,0

52

0,1

06

500

50

0,0

46

0,1

12

0,0

50

0,1

03

0,0

47

0,0

91

0,0

51

0,1

07

0,0

57

0,1

02

0,0

47

0,1

08

0,0

51

0,0

97

100

0,0

47

0,1

11

0,0

51

0,0

98

0,0

47

0,0

97

0,0

50

0,0

92

0,0

51

0,1

00

0,0

46

0,1

04

0,0

47

0,1

08

200

0,0

45

0,0

98

0,0

51

0,0

91

0,0

43

0,1

07

0,0

51

0,0

96

0,0

48

0,0

90

0,0

56

0,0

92

0,0

53

0,0

90

500

0,0

49

0,1

06

0,0

46

0,0

91

0,0

50

0,1

08

0,0

50

0,0

93

0,0

52

0,0

97

0,0

45

0,0

95

0,0

54

0,0

97

Universidad Nacional de Colombia 33

Page 34: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Tabla

2.5

:Por

cent

aje

dem

uest

ras

que

exce

den

elni

velde

sign

ifica

ncia

nom

inal

,α,pa

raco

mpa

raci

ones

con

dos

pobl

a-ci

ones

con

p=

5n

1n

2N

(0,1

)U

(0,1

)E

xp(1

)lo

g(x

)∼

N(0

,1)

SN

(1)

SN

(5)

SN

(10)

5%

10

%5%

10

%5%

10

%5%

10%

5%

10

%5%

10

%5%

10

%10

0,0

51

0,1

03

0,0

50

0,1

04

0,0

48

0,0

76

0,0

38

0,0

77

0,0

57

0,1

06

0,0

52

0,1

03

0,0

51

0,0

88

30

0,0

45

0,0

84

0,0

50

0,0

99

0,0

51

0,0

97

0,0

46

0,1

09

0,0

49

0,0

89

0,0

46

0,0

91

0,0

53

0,1

02

10

50

0,0

49

0,0

98

0,0

50

0,1

02

0,0

53

0,1

01

0,0

56

0,1

00

0,0

49

0,0

92

0,0

48

0,0

99

0,0

47

0,0

90

100

0,0

42

0,0

95

0,0

45

0,0

89

0,0

49

0,1

06

0,0

81

0,1

16

0,0

42

0,1

01

0,0

47

0,0

99

0,0

52

0,1

00

200

0,0

55

0,0

97

0,0

47

0,0

99

0,0

53

0,1

08

0,0

86

0,1

28

0,0

40

0,0

94

0,0

48

0,1

04

0,0

53

0,1

04

500

0,0

47

0,1

08

0,0

50

0,1

04

0,0

60

0,0

96

0,0

81

0,1

15

0,0

47

0,1

06

0,0

43

0,1

06

0,0

46

0,1

04

10

0,0

50

0,1

02

0,0

50

0,0

93

0,0

48

0,0

91

0,0

43

0,0

89

0,0

52

0,0

99

0,0

52

0,1

03

0,0

49

0,1

13

30

0,0

52

0,1

03

0,0

58

0,1

12

0,0

52

0,0

98

0,0

33

0,0

80

0,0

41

0,1

04

0,0

58

0,0

91

0,0

58

0,0

84

30

50

0,0

52

0,1

07

0,0

42

0,1

02

0,0

55

0,1

24

0,0

38

0,0

87

0,0

58

0,0

90

0,0

45

0,1

01

0,0

53

0,1

00

100

0,0

55

0,0

94

0,0

51

0,1

08

0,0

52

0,1

00

0,0

48

0,0

93

0,0

40

0,1

07

0,0

44

0,1

04

0,0

51

0,0

90

200

0,0

54

0,0

95

0,0

44

0,0

95

0,0

55

0,0

90

0,0

73

0,1

06

0,0

42

0,1

12

0,0

48

0,0

85

0,0

36

0,1

08

500

0,0

53

0,0

92

0,0

50

0,0

99

0,0

60

0,1

02

0,0

70

0,1

08

0,0

39

0,1

02

0,0

48

0,0

95

0,0

61

0,1

04

10

0,0

56

0,1

01

0,0

52

0,0

98

0,0

50

0,0

92

0,0

65

0,1

09

0,0

55

0,1

02

0,0

54

0,1

06

0,0

52

0,0

97

30

0,0

44

0,1

09

0,0

52

0,1

03

0,0

52

0,1

04

0,0

42

0,0

84

0,0

51

0,1

10

0,0

52

0,1

09

0,0

50

0,0

89

50

50

0,0

60

0,0

91

0,0

52

0,0

99

0,0

41

0,0

96

0,0

41

0,0

91

0,0

52

0,0

98

0,0

39

0,0

89

0,0

44

0,0

99

100

0,0

58

0,1

11

0,0

54

0,1

02

0,0

48

0,0

97

0,0

49

0,0

95

0,0

54

0,0

93

0,0

43

0,0

94

0,0

52

0,0

94

200

0,0

57

0,1

09

0,0

61

0,0

92

0,0

50

0,1

12

0,0

52

0,0

99

0,0

45

0,0

99

0,0

53

0,1

06

0,0

48

0,0

99

500

0,0

47

0,1

01

0,0

52

0,1

04

0,0

38

0,1

06

0,0

62

0,1

18

0,0

52

0,0

96

0,0

61

0,1

03

0,0

58

0,0

95

10

0,0

42

0,1

02

0,0

46

0,1

03

0,0

52

0,1

04

0,0

73

0,1

37

0,0

47

0,1

12

0,0

52

0,1

03

0,0

48

0,1

00

30

0,0

43

0,0

96

0,0

50

0,0

92

0,0

48

0,1

02

0,0

54

0,0

84

0,0

44

0,0

93

0,0

45

0,0

87

0,0

56

0,1

09

100

50

0,0

60

0,0

94

0,0

46

0,0

97

0,0

52

0,0

94

0,0

45

0,0

95

0,0

48

0,1

01

0,0

51

0,1

02

0,0

51

0,1

05

100

0,0

55

0,0

96

0,0

52

0,1

01

0,0

50

0,0

97

0,0

40

0,0

95

0,0

52

0,1

04

0,0

52

0,1

02

0,0

49

0,1

09

200

0,0

45

0,0

92

0,0

49

0,1

02

0,0

48

0,0

98

0,0

47

0,1

05

0,0

51

0,1

06

0,0

53

0,0

97

0,0

51

0,0

95

500

0,0

53

0,1

05

0,0

47

0,0

95

0,0

52

0,0

96

0,0

45

0,1

05

0,0

55

0,0

97

0,0

51

0,1

01

0,0

51

0,1

06

10

0,0

55

0,1

08

0,0

50

0,1

02

0,0

60

0,1

01

0,0

81

0,1

30

0,0

48

0,1

14

0,0

45

0,1

05

0,0

59

0,1

10

30

0,0

54

0,0

99

0,0

48

0,0

87

0,0

48

0,0

95

0,0

61

0,0

92

0,0

51

0,1

04

0,0

48

0,1

02

0,0

49

0,0

89

200

50

0,0

55

0,0

92

0,0

49

0,1

06

0,0

49

0,0

98

0,0

55

0,1

00

0,0

46

0,0

94

0,0

50

0,1

05

0,0

55

0,1

01

100

0,0

51

0,0

93

0,0

48

0,0

88

0,0

44

0,0

89

0,0

43

0,1

00

0,0

58

0,1

07

0,0

49

0,1

08

0,0

47

0,1

05

200

0,0

61

0,1

04

0,0

49

0,1

04

0,0

60

0,1

01

0,0

44

0,0

93

0,0

49

0,1

05

0,0

50

0,1

10

0,0

49

0,0

94

500

0,0

53

0,1

04

0,0

54

0,0

98

0,0

49

0,0

93

0,0

50

0,0

97

0,0

53

0,1

01

0,0

53

0,0

94

0,0

47

0,1

07

10

0,0

43

0,0

94

0,0

43

0,0

90

0,0

56

0,1

04

0,0

83

0,1

24

0,0

51

0,1

18

0,0

60

0,1

08

0,0

56

0,0

96

30

0,0

47

0,0

96

0,0

53

0,1

00

0,0

61

0,0

97

0,0

68

0,1

15

0,0

48

0,1

14

0,0

53

0,1

01

0,0

54

0,1

02

500

50

0,0

53

0,0

99

0,0

51

0,1

19

0,0

47

0,1

04

0,0

60

0,1

10

0,0

55

0,1

08

0,0

48

0,1

00

0,0

52

0,1

04

100

0,0

51

0,0

88

0,0

49

0,0

97

0,0

50

0,1

05

0,0

59

0,1

00

0,0

52

0,1

05

0,0

54

0,1

10

0,0

46

0,0

97

200

0,0

50

0,0

95

0,0

47

0,0

90

0,0

54

0,0

89

0,0

55

0,0

98

0,0

53

0,0

89

0,0

46

0,0

93

0,0

54

0,1

16

500

0,0

50

0,0

96

0,0

41

0,1

05

0,0

38

0,0

97

0,0

45

0,1

03

0,0

53

0,0

90

0,0

50

0,1

11

0,0

51

0,0

96

Universidad Nacional de Colombia 34

Page 35: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Tabla

2.6

:Por

cent

aje

dem

uest

ras

que

exce

den

elni

velde

sign

ifica

ncia

nom

inal

,α,pa

raco

mpa

raci

ones

con

dos

pobl

a-ci

ones

con

p=

10n

1n

2N

(0,1

)U

(0,1

)E

xp(1

)lo

g(x

)∼

N(0

,1)

SN

(1)

SN

(5)

SN

(10)

5%

10

%5%

10

%5%

10

%5%

10%

5%

10

%5%

10

%5%

10

%10

0,0

47

0,1

03

0,0

59

0,1

11

0,0

40

0,0

90

0,0

35

0,0

78

0,0

47

0,1

06

0,0

48

0,0

98

0,0

49

0,0

86

30

0,0

49

0,0

94

0,0

57

0,0

98

0,0

49

0,1

02

0,0

46

0,0

99

0,0

47

0,0

92

0,0

42

0,1

06

0,0

51

0,1

20

10

50

0,0

53

0,1

15

0,0

49

0,1

06

0,0

53

0,1

04

0,0

57

0,1

17

0,0

50

0,1

02

0,0

45

0,0

84

0,0

51

0,0

97

100

0,0

47

0,1

09

0,0

57

0,1

03

0,0

52

0,1

05

0,0

82

0,1

37

0,0

58

0,0

99

0,0

47

0,1

16

0,0

56

0,0

96

200

0,0

53

0,1

03

0,0

50

0,0

95

0,0

63

0,1

14

0,0

98

0,1

40

0,0

52

0,0

91

0,0

58

0,1

07

0,0

56

0,1

01

500

0,0

43

0,0

88

0,0

39

0,0

94

0,0

57

0,1

01

0,1

13

0,1

53

0,0

51

0,1

03

0,0

48

0,1

09

0,0

37

0,1

04

10

0,0

41

0,0

93

0,0

49

0,0

99

0,0

51

0,0

97

0,0

53

0,1

00

0,0

52

0,0

93

0,0

52

0,1

07

0,0

43

0,0

97

30

0,0

48

0,1

04

0,0

47

0,1

01

0,0

45

0,0

97

0,0

42

0,0

84

0,0

50

0,0

94

0,0

53

0,1

10

0,0

49

0,0

97

30

50

0,0

52

0,1

04

0,0

61

0,1

13

0,0

40

0,1

00

0,0

36

0,0

83

0,0

53

0,1

00

0,0

48

0,1

02

0,0

56

0,0

96

100

0,0

52

0,1

05

0,0

47

0,0

88

0,0

45

0,1

04

0,0

45

0,0

91

0,0

53

0,1

06

0,0

50

0,0

94

0,0

50

0,0

89

200

0,0

49

0,0

98

0,0

61

0,0

98

0,0

52

0,1

01

0,0

63

0,1

20

0,0

53

0,0

93

0,0

46

0,0

94

0,0

57

0,0

94

500

0,0

44

0,1

06

0,0

43

0,1

01

0,0

55

0,0

99

0,0

85

0,1

25

0,0

48

0,0

94

0,0

54

0,1

01

0,0

47

0,0

89

10

0,0

49

0,0

97

0,0

48

0,1

03

0,0

54

0,1

11

0,0

70

0,1

18

0,0

44

0,0

98

0,0

50

0,1

01

0,0

49

0,1

09

30

0,0

50

0,1

04

0,0

47

0,1

00

0,0

47

0,0

89

0,0

43

0,0

86

0,0

45

0,1

11

0,0

46

0,1

03

0,0

51

0,0

98

50

50

0,0

51

0,1

03

0,0

53

0,0

88

0,0

42

0,0

93

0,0

36

0,0

81

0,0

52

0,1

07

0,0

65

0,1

01

0,0

51

0,1

09

100

0,0

40

0,1

03

0,0

57

0,1

00

0,0

59

0,1

05

0,0

40

0,0

87

0,0

43

0,0

97

0,0

44

0,0

94

0,0

52

0,0

99

200

0,0

54

0,1

06

0,0

38

0,1

15

0,0

57

0,1

06

0,0

41

0,0

99

0,0

60

0,1

06

0,0

49

0,0

90

0,0

52

0,0

87

500

0,0

56

0,0

98

0,0

47

0,1

05

0,0

52

0,1

02

0,0

61

0,1

16

0,0

48

0,1

03

0,0

56

0,0

90

0,0

52

0,1

05

10

0,0

54

0,1

06

0,0

46

0,1

01

0,0

59

0,1

20

0,0

80

0,1

32

0,0

48

0,0

99

0,0

45

0,0

98

0,0

57

0,0

83

30

0,0

48

0,1

05

0,0

52

0,1

04

0,0

53

0,1

08

0,0

50

0,0

93

0,0

50

0,0

86

0,0

58

0,1

03

0,0

52

0,0

92

100

50

0,0

53

0,1

02

0,0

51

0,1

06

0,0

44

0,1

04

0,0

47

0,0

96

0,0

48

0,1

05

0,0

45

0,0

99

0,0

50

0,0

99

100

0,0

52

0,0

97

0,0

45

0,0

96

0,0

34

0,1

01

0,0

43

0,0

93

0,0

52

0,1

02

0,0

53

0,1

07

0,0

49

0,0

98

200

0,0

51

0,0

94

0,0

44

0,0

99

0,0

51

0,1

03

0,0

43

0,0

83

0,0

49

0,0

96

0,0

46

0,1

03

0,0

54

0,0

93

500

0,0

52

0,1

09

0,0

55

0,1

06

0,0

47

0,1

07

0,0

56

0,1

00

0,0

49

0,0

87

0,0

51

0,1

10

0,0

52

0,0

91

10

0,0

45

0,1

03

0,0

51

0,0

95

0,0

68

0,1

09

0,0

98

0,1

48

0,0

46

0,1

00

0,0

48

0,1

06

0,0

40

0,1

10

30

0,0

48

0,0

96

0,0

48

0,1

05

0,0

46

0,1

08

0,0

65

0,1

01

0,0

44

0,1

08

0,0

53

0,1

02

0,0

44

0,0

93

200

50

0,0

62

0,0

89

0,0

51

0,1

03

0,0

48

0,1

04

0,0

50

0,1

06

0,0

50

0,1

00

0,0

52

0,0

97

0,0

43

0,1

02

100

0,0

53

0,1

01

0,0

39

0,1

09

0,0

53

0,1

10

0,0

43

0,0

97

0,0

52

0,1

09

0,0

44

0,1

01

0,0

52

0,1

08

200

0,0

57

0,0

99

0,0

48

0,1

00

0,0

42

0,0

93

0,0

40

0,1

01

0,0

60

0,0

96

0,0

57

0,1

04

0,0

43

0,0

92

500

0,0

46

0,0

97

0,0

55

0,0

94

0,0

44

0,1

03

0,0

48

0,1

03

0,0

43

0,1

05

0,0

50

0,1

05

0,0

48

0,1

03

10

0,0

55

0,0

99

0,0

41

0,0

99

0,0

59

0,1

08

0,1

17

0,1

44

0,0

51

0,1

03

0,0

47

0,0

98

0,0

59

0,1

01

30

0,0

51

0,0

99

0,0

55

0,1

04

0,0

57

0,0

95

0,0

69

0,1

15

0,0

63

0,1

07

0,0

48

0,0

99

0,0

53

0,1

04

500

50

0,0

56

0,1

08

0,0

56

0,0

95

0,0

46

0,0

97

0,0

64

0,1

17

0,0

40

0,1

11

0,0

41

0,1

05

0,0

52

0,0

94

100

0,0

52

0,1

00

0,0

50

0,1

12

0,0

58

0,1

02

0,0

59

0,0

89

0,0

63

0,0

98

0,0

49

0,0

92

0,0

54

0,0

89

200

0,0

41

0,0

96

0,0

52

0,0

95

0,0

49

0,0

93

0,0

49

0,0

97

0,0

43

0,0

86

0,0

46

0,0

93

0,0

47

0,0

93

500

0,0

48

0,0

99

0,0

46

0,0

97

0,0

43

0,1

05

0,0

45

0,1

00

0,0

54

0,1

00

0,0

48

0,0

96

0,0

47

0,1

00

Universidad Nacional de Colombia 35

Page 36: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Tabla

2.7

:Por

cent

aje

dem

uest

ras

que

exce

den

elni

velde

sign

ifica

ncia

nom

inal

,α,pa

raco

mpa

raci

ones

con

dos

pobl

a-ci

ones

con

p=

15n

1n

2N

(0,1

)U

(0,1

)E

xp(1

)lo

g(x

)∼

N(0

,1)

SN

(1)

SN

(5)

SN

(10)

5%

10

%5%

10

%5%

10

%5%

10%

5%

10

%5%

10

%5%

10

%10

0,0

43

0,1

00

0,0

53

0,0

98

0,0

43

0,0

88

0,0

47

0,0

97

0,0

58

0,0

98

0,0

51

0,1

06

0,0

54

0,1

03

30

0,0

53

0,1

03

0,0

45

0,1

06

0,0

53

0,1

00

0,0

54

0,0

96

0,0

50

0,1

01

0,0

52

0,0

97

0,0

40

0,1

05

10

50

0,0

52

0,0

95

0,0

55

0,1

01

0,0

64

0,0

97

0,0

72

0,1

04

0,0

52

0,1

01

0,0

47

0,1

03

0,0

62

0,0

98

100

0,0

54

0,1

00

0,0

46

0,1

12

0,0

54

0,1

21

0,0

80

0,1

32

0,0

41

0,0

95

0,0

50

0,0

96

0,0

60

0,1

07

200

0,0

53

0,1

12

0,0

52

0,1

02

0,0

67

0,1

19

0,1

02

0,1

56

0,0

50

0,0

93

0,0

44

0,0

97

0,0

51

0,1

04

500

0,0

44

0,1

07

0,0

45

0,0

94

0,0

73

0,1

15

0,1

18

0,1

49

0,0

44

0,1

10

0,0

59

0,1

05

0,0

49

0,0

95

10

0,0

48

0,0

96

0,0

58

0,1

13

0,0

48

0,0

87

0,0

53

0,0

94

0,0

58

0,1

04

0,0

49

0,0

99

0,0

47

0,1

11

30

0,0

47

0,1

02

0,0

56

0,1

03

0,0

47

0,0

96

0,0

33

0,0

85

0,0

47

0,0

94

0,0

47

0,0

88

0,0

51

0,0

99

30

50

0,0

57

0,1

06

0,0

51

0,0

96

0,0

58

0,0

93

0,0

33

0,0

87

0,0

47

0,1

01

0,0

53

0,1

00

0,0

54

0,1

09

100

0,0

50

0,0

96

0,0

44

0,0

96

0,0

50

0,1

10

0,0

43

0,1

02

0,0

46

0,1

10

0,0

53

0,1

08

0,0

49

0,0

98

200

0,0

56

0,1

11

0,0

57

0,0

90

0,0

50

0,0

95

0,0

58

0,1

05

0,0

54

0,0

91

0,0

45

0,1

01

0,0

45

0,1

07

500

0,0

60

0,0

95

0,0

54

0,0

88

0,0

63

0,1

15

0,0

74

0,1

36

0,0

48

0,0

99

0,0

59

0,1

00

0,0

52

0,1

05

10

0,0

48

0,1

04

0,0

46

0,1

11

0,0

62

0,1

07

0,0

61

0,1

11

0,0

50

0,1

00

0,0

57

0,0

89

0,0

48

0,0

99

30

0,0

38

0,1

15

0,0

52

0,1

03

0,0

57

0,1

03

0,0

43

0,0

92

0,0

40

0,1

01

0,0

50

0,1

05

0,0

50

0,1

02

50

50

0,0

46

0,1

00

0,0

50

0,1

08

0,0

46

0,0

89

0,0

40

0,1

02

0,0

50

0,0

97

0,0

50

0,1

00

0,0

50

0,0

87

100

0,0

46

0,0

97

0,0

53

0,0

93

0,0

48

0,0

89

0,0

44

0,0

86

0,0

45

0,0

98

0,0

51

0,1

05

0,0

42

0,1

04

200

0,0

54

0,0

92

0,0

46

0,1

02

0,0

50

0,1

03

0,0

46

0,1

06

0,0

48

0,0

99

0,0

49

0,1

03

0,0

52

0,0

93

500

0,0

42

0,0

88

0,0

49

0,0

97

0,0

59

0,1

03

0,0

70

0,1

20

0,0

41

0,0

98

0,0

49

0,1

01

0,0

45

0,0

95

10

0,0

51

0,0

89

0,0

48

0,1

10

0,0

57

0,1

01

0,0

69

0,1

45

0,0

57

0,0

92

0,0

50

0,0

94

0,0

51

0,1

02

30

0,0

57

0,1

02

0,0

44

0,0

95

0,0

51

0,1

03

0,0

48

0,1

01

0,0

50

0,1

01

0,0

56

0,1

02

0,0

48

0,1

09

100

50

0,0

49

0,0

86

0,0

47

0,1

00

0,0

49

0,0

94

0,0

40

0,1

01

0,0

54

0,1

12

0,0

53

0,1

06

0,0

51

0,1

04

100

0,0

47

0,0

96

0,0

46

0,0

96

0,0

55

0,0

97

0,0

33

0,0

87

0,0

45

0,1

00

0,0

51

0,0

95

0,0

53

0,1

06

200

0,0

55

0,0

95

0,0

52

0,0

90

0,0

43

0,1

07

0,0

40

0,0

83

0,0

50

0,1

08

0,0

49

0,0

86

0,0

59

0,0

96

500

0,0

52

0,1

05

0,0

53

0,0

99

0,0

54

0,0

97

0,0

52

0,1

06

0,0

38

0,0

86

0,0

57

0,1

03

0,0

55

0,1

04

10

0,0

49

0,1

01

0,0

45

0,0

95

0,0

67

0,1

11

0,0

98

0,1

50

0,0

43

0,1

01

0,0

41

0,1

08

0,0

52

0,1

07

30

0,0

52

0,1

09

0,0

49

0,0

92

0,0

55

0,0

96

0,0

55

0,1

00

0,0

55

0,1

17

0,0

53

0,0

94

0,0

55

0,1

03

200

50

0,0

49

0,1

06

0,0

50

0,1

00

0,0

45

0,0

91

0,0

60

0,1

04

0,0

52

0,1

00

0,0

54

0,0

95

0,0

53

0,0

99

100

0,0

49

0,0

93

0,0

49

0,1

06

0,0

52

0,1

04

0,0

37

0,0

94

0,0

47

0,0

92

0,0

53

0,0

96

0,0

58

0,1

05

200

0,0

48

0,0

92

0,0

49

0,0

97

0,0

65

0,1

01

0,0

38

0,0

78

0,0

46

0,0

92

0,0

54

0,1

02

0,0

43

0,1

10

500

0,0

46

0,1

07

0,0

55

0,0

98

0,0

51

0,0

98

0,0

55

0,1

03

0,0

54

0,1

00

0,0

57

0,1

00

0,0

54

0,1

04

10

0,0

48

0,1

04

0,0

53

0,1

02

0,0

71

0,1

31

0,1

13

0,1

62

0,0

48

0,1

03

0,0

51

0,1

07

0,0

54

0,1

00

30

0,0

55

0,1

03

0,0

50

0,0

99

0,0

56

0,0

97

0,0

72

0,1

39

0,0

50

0,1

11

0,0

51

0,1

07

0,0

55

0,1

00

500

50

0,0

51

0,1

04

0,0

62

0,0

96

0,0

52

0,0

99

0,0

62

0,1

00

0,0

47

0,1

06

0,0

50

0,1

02

0,0

61

0,1

02

100

0,0

56

0,0

98

0,0

51

0,0

95

0,0

56

0,0

97

0,0

53

0,1

07

0,0

47

0,1

03

0,0

54

0,1

02

0,0

53

0,0

92

200

0,0

57

0,1

06

0,0

51

0,0

95

0,0

48

0,1

08

0,0

41

0,0

89

0,0

49

0,0

94

0,0

53

0,0

95

0,0

42

0,0

88

500

0,0

44

0,0

99

0,0

43

0,1

09

0,0

48

0,1

08

0,0

35

0,0

94

0,0

50

0,1

06

0,0

39

0,1

01

0,0

49

0,0

95

Universidad Nacional de Colombia 36

Page 37: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Tabla

2.8

:Por

cent

aje

dem

uest

ras

que

exce

den

elni

velde

sign

ifica

ncia

nom

inal

,α,pa

raco

mpa

raci

ones

con

dos

pobl

a-ci

ones

con

p=

20n

1n

2N

(0,1

)U

(0,1

)E

xp(1

)lo

g(x

)∼

N(0

,1)

SN

(1)

SN

(5)

SN

(10)

5%

10

%5%

10

%5%

10

%5%

10%

5%

10

%5%

10

%5%

10

%30

0,0

54

0,1

13

0,0

50

0,1

17

0,0

49

0,1

00

0,0

27

0,0

95

0,0

44

0,0

90

0,0

53

0,0

90

0,0

51

0,1

03

50

0,0

51

0,1

09

0,0

50

0,1

04

0,0

45

0,0

99

0,0

47

0,0

84

0,0

56

0,0

97

0,0

44

0,1

05

0,0

55

0,1

01

30

100

0,0

51

0,0

95

0,0

46

0,0

97

0,0

46

0,1

00

0,0

44

0,0

93

0,0

58

0,0

97

0,0

44

0,0

88

0,0

50

0,0

99

200

0,0

55

0,1

06

0,0

46

0,0

96

0,0

49

0,1

00

0,0

73

0,1

07

0,0

50

0,0

92

0,0

56

0,1

01

0,0

57

0,0

92

500

0,0

43

0,1

01

0,0

54

0,1

03

0,0

59

0,1

10

0,0

81

0,1

29

0,0

45

0,0

97

0,0

47

0,0

95

0,0

41

0,1

06

30

0,0

51

0,0

93

0,0

48

0,0

98

0,0

47

0,1

00

0,0

43

0,0

96

0,0

54

0,0

97

0,0

40

0,0

94

0,0

53

0,1

05

50

0,0

50

0,0

92

0,0

50

0,1

05

0,0

50

0,0

91

0,0

43

0,0

93

0,0

52

0,1

03

0,0

48

0,1

00

0,0

50

0,0

99

50

100

0,0

50

0,0

97

0,0

53

0,0

97

0,0

52

0,0

96

0,0

45

0,0

86

0,0

51

0,0

98

0,0

55

0,1

07

0,0

48

0,1

13

200

0,0

47

0,1

02

0,0

54

0,1

11

0,0

43

0,1

03

0,0

53

0,1

03

0,0

48

0,1

05

0,0

53

0,1

04

0,0

49

0,0

97

500

0,0

44

0,0

96

0,0

56

0,0

86

0,0

57

0,1

02

0,0

60

0,1

12

0,0

48

0,1

03

0,0

46

0,0

92

0,0

51

0,1

05

30

0,0

45

0,0

88

0,0

50

0,0

98

0,0

51

0,0

97

0,0

49

0,1

04

0,0

54

0,1

03

0,0

56

0,0

87

0,0

50

0,0

95

50

0,0

51

0,1

02

0,0

53

0,0

97

0,0

55

0,1

01

0,0

35

0,0

91

0,0

45

0,1

00

0,0

48

0,0

87

0,0

53

0,0

97

100

100

0,0

55

0,0

85

0,0

46

0,1

10

0,0

39

0,1

04

0,0

40

0,0

93

0,0

45

0,0

87

0,0

48

0,1

12

0,0

59

0,0

98

200

0,0

53

0,1

12

0,0

47

0,0

99

0,0

50

0,1

05

0,0

41

0,0

80

0,0

46

0,1

03

0,0

57

0,0

95

0,0

54

0,1

09

500

0,0

45

0,0

99

0,0

54

0,0

94

0,0

53

0,1

09

0,0

56

0,0

98

0,0

50

0,0

89

0,0

44

0,0

90

0,0

46

0,0

97

30

0,0

59

0,0

97

0,0

46

0,0

91

0,0

52

0,1

12

0,0

66

0,1

17

0,0

59

0,0

97

0,0

43

0,0

93

0,0

58

0,0

95

50

0,0

57

0,0

85

0,0

50

0,0

97

0,0

48

0,1

15

0,0

56

0,1

05

0,0

50

0,1

06

0,0

48

0,0

98

0,0

51

0,1

01

200

100

0,0

44

0,0

94

0,0

46

0,0

99

0,0

53

0,1

10

0,0

36

0,0

99

0,0

47

0,1

01

0,0

52

0,0

94

0,0

50

0,0

99

200

0,0

47

0,0

90

0,0

46

0,1

09

0,0

57

0,1

04

0,0

51

0,0

84

0,0

51

0,1

08

0,0

57

0,1

09

0,0

47

0,1

04

500

0,0

50

0,1

02

0,0

48

0,0

98

0,0

63

0,0

93

0,0

49

0,0

95

0,0

48

0,0

97

0,0

50

0,0

92

0,0

44

0,1

16

30

0,0

49

0,0

94

0,0

50

0,0

89

0,0

51

0,1

05

0,0

79

0,1

62

0,0

50

0,0

95

0,0

55

0,0

94

0,0

48

0,0

92

50

0,0

46

0,0

99

0,0

42

0,1

05

0,0

55

0,1

07

0,0

72

0,1

13

0,0

48

0,0

94

0,0

51

0,1

02

0,0

51

0,0

92

500

100

0,0

35

0,0

89

0,0

51

0,1

04

0,0

51

0,0

95

0,0

58

0,1

02

0,0

51

0,1

00

0,0

55

0,1

00

0,0

51

0,0

94

200

0,0

49

0,0

83

0,0

57

0,1

01

0,0

58

0,1

02

0,0

44

0,0

88

0,0

55

0,1

06

0,0

58

0,1

08

0,0

49

0,1

09

500

0,0

48

0,0

92

0,0

50

0,0

88

0,0

51

0,1

02

0,0

36

0,0

98

0,0

55

0,1

13

0,0

45

0,0

89

0,0

42

0,1

12

Universidad Nacional de Colombia 37

Page 38: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Capıtulo 3

LRT Aproximada para VerificarH0 bajo la Distribucion NSM

En la seccion 1.1.1 se mostro la deduccion de la prueba T 2 de Hotellingcomo la LRT de nivel α de H0 : µ = µ0, para el caso de una poblacion nor-mal, o H0 : µ1 = µ2, para el caso de dos poblaciones normales. Ahora bien,si la distribucion de los datos no es normal, el procedimiento adecuado esconstruir la LRT asumiendo la verdadera distribucion de los datos.

Para este estudio particular se construye la LRT aproximada para verifi-car H0 bajo la distribucion NSM, teniendo en cuenta una reparametrizacionde su funcion de densidad en la ecuacion 1.15 en terminos de los parametrosde localizacion y escala, como lo propone Azzalini & Capitanio (1999). Sea,

Y = µ + WZ

donde µ = (µ1, ...µp)′ y W = diag(ω1, ..., ωp) son los parametros de locali-

zacion y escala. Ası, la funcion de densidad de Y tal que Y ∼ SNp(µ, Σ, γ)queda dada por,

2φp(y − µ; Σ)Φ(γ′W−1(y − µ)) (3.1)

Resultado 1. La LRT aproximada para verificar H0 : µ = µ0 bajo ladistribucion SN p−variable es:

− 2 ln λ = n“ln |Σ| − ln |Σ0|

”+2

nXi=1

ln`Φ(γ′0W−1(yi − µ0))

´− 2

nXi=1

ln`Φ(γ′W−1(yi − µ))

´∼ χ2

p (3.2)

38

Page 39: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

(Prueba)

La prueba de razon de verosimilitud rechaza H0 si

λ =

supH0

L(µ, Σ, γ)

supH0∪Ha

L(µ, Σ, γ)=

L(µ0, Σ0, γ0)

L(µ, Σ, γ)< k (3.3)

donde k es desconocido tal que la prueba tiene nivel de significancia α.En forma equivalente λ se escribe como,

λ =

n∏i=1

2φp(yi − µ0; Σ0)Φ(γ′0W−1(yi − µ0))

n∏i=1

2φp(yi − µ; Σ)Φ(γ′W−1(yi − µ))(3.4)

que se expresa como,

λ =

n∏i=1

[2

(2π)p/2|Σ0|1/2 exp(−1

2(yi − µ0)

′Σ−10 (yi − µ0)

)][Φ(γ′0W

−1(yi − µ0))]

n∏i=1

[2

(2π)p/2|Σ|1/2 exp(−1

2(yi − µ)′Σ−1(yi − µ)

)][Φ(γ′W−1(yi − µ))]

Note que

−1

2

n∑i=1

(yi − µ0)′Σ−1

0 (yi − µ0) = −1

2tr

[Σ−1

0

(n∑

i=1

(yi − µ0)(yi − µ0)′

)]= −1

2tr nIp = −1

2np

y ası,

λ =

|Σ0|−n/2 exp(−1

2np) [ n∏

i=1

Φ(γ′0W−1(yi − µ0))

]|Σ|−n/2 exp

(−1

2np) [ n∏

i=1

Φ(γ′W−1(yi − µ))

]sacando logaritmo natural a ambos lados de la ecuacion se obtiene

lnλ =n

2

(ln |Σ| − ln |Σ0|

)+

n∑i=1

ln(Φ(γ′0W

−1(yi − µ0)))−

n∑i=1

ln(Φ(γ′W−1(yi − µ))

)Ahora bien, −2 ln λ ∼ χ2

ν , donde ν = dim(SH0∪Ha) − dim(SH0) = p, dondeSH0 y SH0∪Ha son el espacio parametral de la verosimilitud bajo H0 y bajo

Universidad Nacional de Colombia 39

Page 40: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

el modelo irrestricto, respectivamente. Finalmente se obtiene que la pruebade razon de verosimilitud bajo la distribucion normal sesgada con una solapoblacion queda determinada por,

−2 ln λ = n(ln |Σ| − ln |Σ0|

)+2

n∑i=1

ln(Φ(γ′0W

−1(yi − µ0)))−2

n∑i=1

ln(Φ(γ′W−1(yi − µ))

)∼ χ2

p

Resultado 2. la LRT aproximada para verificar H0 : µ1 = µ2 bajo ladistribucion SN p−variable, asumiendo que Σ1 = Σ2 es,

−2 ln λ = (n + 2)(ln |Σ0| − ln |Σ|

)− 2

n∑i=1

ln Φ(γ′01W−1(y1i − µ0))

−2m∑

j=1

ln Φ(γ′02W−1(y2j − µ0)) + 2

n∑i=1

ln Φ(γ′1W−1(y1i − µ1))

+2m∑

j=1

ln Φ(γ′2W−1(y2j − µ2)) ∼ χ2

p

(3.5)

(Prueba)

Sean los vectores aleatorios Y1 ∼ SNp(µ1,Σ1, γ1) y Y2 ∼ SNp(µ2,Σ2, α2),tal que su funcion de densidad conjunta esta dada por:

4φp(y1 − µ1; Σ1)Φ(γ′1W−1(y1 − µ1))φp(y2 − µ2; Σ2)Φ(γ′2W

−1(y2 − µ2)) (3.6)

Ahora bien, la LRT aproximada para verificar H0 : µ1 = µ2 bajo la distri-bucion SN p−variable, asumiendo que Σ1 = Σ2 se calcula como,

λ =

supH0

L(µ, Σ, γ1, γ2)

supH0∪Ha

L(µ1, µ2, Σ, γ1, γ2)=

L(µ0, Σ0, γ01, γ02)

L(µ1, µ2, Σ, γ1, , γ2)(3.7)

Ası,

λ =

4n∏

i=1

φp(y1i − µ0; Σ0)Φ(γ′01W−1(y1i − µ0))

m∏j=1

φp(y2j − µ0; Σ0)Φ(γ′0W−1(y2j − µ0))

4n∏

i=1

φp(y1i − µ1; Σ)Φ(γ′1W−1(y1i − µ1))

m∏j=1

φp(y2j − µ2; Σ)Φ(γ′2W−1(y2j − µ2))

Desarrollando este cociente se puede llegar a las siguientes formas para elnumerador y denominador respectivamente,

Universidad Nacional de Colombia 40

Page 41: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

L(µ0, Σ0, γ01, γ02)

1(2π)(n+m)/2|Σ0|(n+m)/2

exp(−1

2(n + m)p) n∏

i=1

Φ(γ′01W−1(y1i − µ0))

m∏j=1

Φ(γ′02W−1(y2j − µ0))

L(µ1, µ2, Σ, γ1, , γ2)

1(2π)(n+m)/2|Σ|(n+m)/2

exp(−1

2(n + m)p) n∏

i=1

Φ(γ′1W−1(y1i − µ1))

m∏j=1

Φ(γ′2W−1(y2j − µ2))

quedando que,

λ =

|Σ0|−(n+m)/2n∏

i=1

Φ(γ′01W−1(y1i − µ0))

m∏j=1

Φ(γ′02W−1(y2j − µ0))

|Σ|−(n+m)/2n∏

i=1

Φ(γ′1W−1(y1i − µ1))

m∏j=1

Φ(γ′2W−1(y2j − µ2))

sacando logaritmo natural a ambos lados de la igualdad se obtiene,

ln λ = (n+m)2

(ln |Σ| − ln |Σ0|

)+

n∑i=1

ln Φ(γ′01W−1(y1i − µ0))+

m∑j=1

ln Φ(γ′02W−1(y2j − µ0))−

n∑i=1

ln Φ(γ′1W−1(y1i − µ1))−

m∑j=1

ln Φ(γ′2W−1(y2j − µ2))

Ahora bien, −2 ln λ ∼ χ2ν , donde ν = dim(SH0∪Ha) − dim(SH0) = p. Final-

mente se obtiene que la prueba de razon de verosimilitud queda determinadapor,

−2 ln λ = (n + 2)(ln |Σ0| − ln |Σ|

)− 2

n∑i=1

ln Φ(γ′01W−1(y1i − µ0))

−2m∑

j=1

ln Φ(γ′02W−1(y2j − µ0)) + 2

n∑i=1

ln Φ(γ′1W−1(y1i − µ1))

+2m∑

j=1

ln Φ(γ′2W−1(y2j − µ2)) ∼ χ2

p

Universidad Nacional de Colombia 41

Page 42: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Capıtulo 4

Estudio de Simulacion

4.1. Metodologıa

En el paquete ‘sn’ del R, Azzalini (2007) desarrollo la funcion ‘msn.mle’

que realiza estimaciones de maxima verosimilitud para distribuciones norma-les sesgadas multivariadas. Teniendo como base este desarrollo se comapa-rara el desempeno de la prueba de razon de verosimilitud clasica (es decir,usando el estadıstico T 2 de Hotelling que asume normalidad en las poblacio-nes) y la LRT que tiene como base la distribucion normal sesgada multiva-riable. Para la comparacion vıa simulacion, los factores que se tuvieron encuenta ası como sus respectivos niveles fueron:

Tamano de muestra de la poblacion (n): 10, 30, 50, 100, 200 y 500

Numero de variables medidas (p): 2, 5, 10, 15 y 20.

Numero de simulaciones (N): 2000

Nivel de significancia nominal de la prueba (α): 0.01, 0.05 y 0.1

Distribucion de los datos: Se generaron p variables aleatorias indepen-dientes de la distribucion normal sesgada,

xi ∼ SN(γ = 0); i = 1, ..., p

donde

E[xi] =

(2

π

)1/2

δ = 0

conδ =

γ

(1 + γ2)1/2= 0

42

Page 43: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

En este caso lo importante es ver el comportamiento de las dos pruebasal variar el parametro de forma, γ. Ası, γ tomara valores de 0 (casonormal), 0.5, 1.0, 2.0

El parametro de interes es αdif , definida como,

αdif = αSN − αT 2 (4.1)

donde,

αSN es el porcentaje de muestras que exceden el verdadero nivel designificancia nominal, α, alcanzado por la prueba LRT que tiene comobase la distribucion normal sesgada multivariable.

αT 2 es el porcentaje de muestras que exceden el verdadero nivel designificancia nominal, α, alcanzado por la prueba T 2 de Hotelling.

Se dira entonces que si αdif → 0, no hay ningun aporte al calcular la pruebade razon de verosimilitud considerando el sesgo de la distribucion.

4.2. Resultados y Conclusiones

Los resultados de las simulaciones para comparaciones entre las dos prue-bas implementadas se muestran en las Figuras 4.1, 4.2 y 4.3 y en la Tabla4.1. A partir de estas graficas se puede concluir que:

La tasa de rechazo de la LRT bajo normalidad sesgada es muy alta entodos los casos, por lo que la prueba es muy conservadora.

A medida que se aumenta el nivel de significancia nominal, α, la po-tencia de la prueba LRT bajo normalidad sesgada disminuye.

La prueba T 2 de Hotelling es robusta ante cambios en el parametro desesgo de la distribucion normal sesgada. Esto nos lleva a pensar que lasensibilidad de la prueba con el sesgo de las distribuciones se debe masa la forma de la cola que al tamano del sesgo en sı mismo.

Universidad Nacional de Colombia 43

Page 44: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 4.1: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.01, usando la T 2 de Hotelling y la LRTbajo la distribucion normal sesgada

Universidad Nacional de Colombia 44

Page 45: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 4.2: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.05, usando la T 2 de Hotelling y la LRTbajo la distribucion normal sesgada

Universidad Nacional de Colombia 45

Page 46: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 4.3: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.1, usando la T 2 de Hotelling y la LRTbajo la distribucion normal sesgada

Universidad Nacional de Colombia 46

Page 47: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Tabla

4.1

:D

ifere

ncia

sen

tre

los

porc

enta

jes

dem

uest

ras

que

exce

den

elni

velde

sign

ifica

ncia

nom

inal

α,us

ando

laT

2

deH

otel

ling

yla

LRT

bajo

ladi

stri

buci

onno

rmal

sesg

ada

np

SN

(0)

SN

(0,5

)S

N(1

)S

N(2

)1%

5%

10%

1%

5%

10%

1%

5%

10%

1%

5%

10%

2-0

,011

-0,0

53

-0,0

94

-0,0

10

-0,0

46

-0,0

98

-0,0

07

-0,0

43

-0,0

92

-0,0

12

-0,0

48

-0,1

04

5-0

,010

-0,0

51

-0,1

07

-0,0

08

-0,0

53

-0,0

94

-0,0

12

-0,0

48

-0,0

99

-0,0

14

-0,0

56

-0,1

05

30

10

-0,0

11

-0,0

52

-0,1

00

-0,0

13

-0,0

46

-0,0

96

-0,0

09

-0,0

48

-0,1

04

-0,0

11

-0,0

53

-0,1

06

15

-0,0

08

-0,0

55

-0,1

04

-0,0

10

-0,0

53

-0,0

94

-0,0

11

-0,0

49

-0,1

05

-0,0

11

-0,0

56

-0,0

99

20

-0,0

10

-0,0

50

-0,1

01

-0,0

07

-0,0

46

-0,1

02

-0,0

09

-0,0

46

-0,0

97

-0,0

10

-0,0

45

-0,1

05

2-0

,012

-0,0

57

-0,1

00

-0,0

12

-0,0

50

-0,0

91

-0,0

06

-0,0

48

-0,0

90

-0,0

08

-0,0

53

-0,0

95

5-0

,009

-0,0

56

-0,1

01

-0,0

11

-0,0

51

-0,0

97

-0,0

08

-0,0

37

-0,0

89

-0,0

10

-0,0

46

-0,0

87

50

10

-0,0

06

-0,0

45

-0,0

93

-0,0

09

-0,0

54

-0,1

00

-0,0

11

-0,0

47

-0,1

04

-0,0

10

-0,0

55

-0,1

04

15

-0,0

11

-0,0

46

-0,1

03

-0,0

08

-0,0

51

-0,0

97

-0,0

12

-0,0

49

-0,1

07

-0,0

11

-0,0

53

-0,1

07

20

-0,0

08

-0,0

48

-0,1

01

-0,0

09

-0,0

51

-0,0

97

-0,0

11

-0,0

53

-0,1

09

-0,0

10

-0,0

52

-0,1

08

2-0

,009

-0,0

56

-0,1

01

-0,0

12

-0,0

44

-0,1

00

-0,0

08

-0,0

56

-0,0

85

-0,0

09

-0,0

43

-0,0

93

5-0

,011

-0,0

51

-0,1

02

-0,0

12

-0,0

54

-0,1

03

-0,0

06

-0,0

49

-0,0

75

-0,0

04

-0,0

42

-0,0

87

100

10

-0,0

11

-0,0

49

-0,0

86

-0,0

10

-0,0

52

-0,1

01

-0,0

11

-0,0

50

-0,0

95

-0,0

10

-0,0

44

-0,1

08

15

-0,0

10

-0,0

48

-0,1

05

-0,0

10

-0,0

45

-0,1

01

-0,0

08

-0,0

54

-0,1

03

-0,0

08

-0,0

54

-0,1

01

20

-0,0

10

-0,0

54

-0,1

10

-0,0

11

-0,0

45

-0,1

07

-0,0

14

-0,0

53

-0,0

99

-0,0

13

-0,0

57

-0,1

06

2-0

,010

-0,0

47

-0,0

97

-0,0

10

-0,0

51

-0,1

01

-0,0

08

-0,0

47

-0,1

06

-0,0

04

-0,0

42

-0,0

89

5-0

,011

-0,0

49

-0,0

97

-0,0

10

-0,0

49

-0,1

04

-0,0

06

-0,0

46

-0,1

06

-0,0

03

-0,0

25

-0,0

61

200

10

-0,0

09

-0,0

53

-0,1

05

-0,0

11

-0,0

54

-0,1

05

0,0

05

-0,0

10

-0,0

52

0,0

05

-0,0

43

-0,0

71

15

-0,0

09

-0,0

51

-0,0

90

-0,0

10

-0,0

52

-0,1

07

-0,0

05

-0,0

41

-0,0

88

-0,0

01

-0,0

38

-0,0

78

20

-0,0

10

-0,0

50

-0,0

92

-0,0

11

-0,0

58

-0,1

01

-0,0

07

-0,0

57

-0,0

99

-0,0

10

-0,0

53

-0,1

10

2-0

,010

-0,0

43

-0,0

96

-0,0

10

-0,0

54

-0,0

97

-0,0

12

-0,0

43

-0,0

92

-0,0

09

-0,0

44

-0,1

02

5-0

,010

-0,0

48

-0,0

97

-0,0

12

-0,0

50

-0,1

00

-0,0

07

-0,0

56

-0,0

87

-0,0

11

-0,0

52

-0,0

82

500

10

-0,0

09

-0,0

49

-0,0

98

-0,0

07

-0,0

50

-0,0

89

-0,0

08

-0,0

49

-0,0

95

-0,0

12

-0,0

48

-0,0

93

15

-0,0

13

-0,0

53

-0,0

90

-0,0

08

-0,0

54

-0,0

98

-0,0

10

-0,0

47

-0,0

96

-0,0

13

-0,0

45

-0,1

00

20

-0,0

10

-0,0

44

-0,0

92

-0,0

09

-0,0

47

-0,1

00

-0,0

07

-0,0

49

-0,0

98

-0,0

02

-0,0

28

-0,0

58

Universidad Nacional de Colombia 47

Page 48: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Capıtulo 5

Aplicacion: ACOPLA95

En Velez (1997) se publicaron algunos de los detalles y conclusiones delestudio sobre parametros antropometricos realizado en 12 ciudades y 45 em-presas del paıs. Esta, fue la primera investigacion sobre parametros antropo-metricos en la poblacion colombiana de trabajadores y fue financiado por laAdministradora de Riesgos Profesionales del ISS. La motivacion principalque llevo al grupo de expertos a realizar el estudio fue la verificacion de lahipotesis, H0 : los puestos y herramientas de trabajo no son aptos para losempleados que laboran en estas empresas. Para verificar esta y otras hipote-sis derivadas, se conto con 393 observaciones y 71 variables.

Con el fin de ilustrar el uso de los estadısticos desarrollados, se conside-ran el par de variables Masa Corporal (en dg) - Estatura (en mm) para elgrupo de los hombres en el estudio. En la Figura 5.1 se muestra el grafico dedispersion de estas dos variables con los contornos ajustados de la distribu-cion SN2. Tanto los puntos observados como la densidad ajustada muestranun sesgo moderado para cada una de las componentes.

Los estimadores maximo verosımiles de los parametros de localizacion, escalay forma en este caso son,

µ =

[474,9421532,762

]; Σ =

[28276,648 6353,3256353,325 4113,133

]; γ =

[3,871−0,050

]Con el fin de probar normalidad multivariada, se consideran dos medidascombinadas propuestas por Mardia (1970), una de asimetrıa (b1) y otra dekurtosis (b2) y se calculan sus respectivos valores−p, como se muestra en laTabla 5.1

48

Page 49: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Figura 5.1: Contornos de la Funcion de Densidad Bivariada de Masa Corporalvs. Estatura para hombres

Tabla 5.1: Prueba de normalidad multivariada

b1 valor−p b2 valor−p1.007 ((0.000 9.240 0.011

Con la prueba de Mardia podemos concluir que hay cierta desviacion dela normalidad multivariada y que evidentemente γ 6= 0.

Ahora bien, suponga que se desea probar la hipotesis H0 : µ = µ0, don-de µ0 se muestra en la Tabla 5.2. Para esto, se comparan los estadısticosT 2 de Hotelling y LRT bajo la Normal Sesgada con el percentil 0.95 de ladistribucion F = 3,0379 y de la distribucion χ2 = 5,9915, respectivamente.Los resultados que se obtienen se muestran en la Tabla 5.2. Note una vez

Universidad Nacional de Colombia 49

Page 50: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

mas como la prueba LRTSN es mas conservadora que la T 2 incluso paracomparaciones considerablemente desviadas del vector de medias real.

Tabla 5.2: Comparacion entre la prueba T 2 de Hotelling y la LRTSN para ve-rificar H0 : µ = µ0 a un nivel de significancia del 0.05 con datos demasa corporal y estatura de hombres

µ0 Prueba Estadıstico de Prueba Resultadox = (604,76; 1561,51) T 2 0,000 No rechazar H0

x = (604,76; 1561,51) LRTSN 0,000 No rechazar H0

x = (604,76 + 50; 1561,51 + 50) T 2 82,945 Rechazar H0

x = (604,76 + 50; 1561,51 + 50) LRTSN 0,000 No rechazar H0

x = (604,76 + 50; 1561,51) T 2 28,796 Rechazar H0

x = (604,76 + 50; 1561,51) LRTSN 0,015 No rechazar H0

x = (604,76; 1561,51 + 50) T 2 100,086 Rechazar H0

x = (604,76; 1561,51 + 50) LRTSN 0,001 No rechazar H0

x = (604,76− 50; 1561,51− 50) T 2 0,000 No rechazar H0

x = (604,76− 50; 1561,51− 50) LRTSN 0,000 No rechazar H0

x = (604,76− 50; 1561,51) T 2 100,086 Rechazar H0

x = (604,76− 50; 1561,51) LRTSN 0,001 No rechazar H0

x = (604,76; 1561,51− 50) T 2 28,796 Rechazar H0

x = (604,76; 1561,51− 50) LRTSN 0,015 No rechazar H0

Universidad Nacional de Colombia 50

Page 51: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Capıtulo 6

Conclusiones yRecomendaciones

A lo largo de este trabajo se abordo el problema de la robustez de laprueba T 2 de Hotelling cuando se consideran distribuciones sesgadas. Sinembargo, vıa simulacion se pudo corroborar que la sensibilidad de la pruebano se debe al sesgo sino a la forma de las colas de la distribucion. Este re-sultado se convierte en un hallazgo importante y da la posibilidad de abrirespacios a nuevas investigaciones sobre la robustez de la prueba al caracte-rizar las colas de las distribuciones. Tambien se pueden hacer extensiones aeste trabajo al considerar p variables correlacionadas.

De forma general los resultados encontrados en este trabajo concuerdancon los obtenidos en la literatura revisada y que se reporto en la seccion1.2. Adicional a esto, se encontro que cuando se construye la pueba de razonde verosimilitud bajo la distribucion normal sesgada, esta llega a ser masconservadora que la prueba T 2 de Hotelling clasica. A pesar que la distribu-cion normal sesgada considera un parametro de sesgo, el estadıstico T 2 deHotelling resulto ser una prueba robusta para este caso.

51

Page 52: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Bibliografıa

Azzalini, A. (1985), ‘A class of Distributions which Includes de Normal Ones’,Scand. J. Statis 12, 171–178.

Azzalini, A. (2007), R package sn: The skew-normal and skew-t dis-tributions (version 0.4-4), Universita di Padova, Italia. URLhttp://azzalini.stat.unipd.it/SN.

Azzalini, A. & Capitanio, A. (1999), ‘Statistical Applications of the Multiva-riate Skew Normal Distribution’, Royal Statistical Society 61(3), 579–602.

Azzalini, A. & Dalla-Valle, A. (1996), ‘The Multivariate Skew-Normal Dis-tribution’, Biometrika 83(4), 715–726.

Casella, G. & Berger, R. (2002), Statistical Inference, 2 edn, Duxbury, UnitedState of America.

Chase, G. & Bulgren, W. (1971), ‘A Monte Carlo Investigation of theRobustness of T 2’, Journal of the American Statistical Association66(335), 499–502.

Everitt, B. (1979), ‘A Monte Carlo Investigation of the Robustness of Hote-lling’s One- and Two Sample T 2 Test’, Journal of the American Statis-tical Association 74(365), 48–51.

Fujikoshi, Y. (1997), ‘An Asymptotic Expansion for the Distribution of Hote-lling’s T 2-Statistic under Nonnormality’, Journal of Multivariate Analy-sis 61, 187–193.

Holloway, L. & Dunn, O. (1967), ‘The Robustness of Hotelling’s T 2’, Journalof the American Statistical Association 62(317), 124–136.

52

Page 53: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

Hopkins, J. & Clay, P. (1963), ‘Some Empirical Distributions of Bivariate T 2

and Homoscedasticity Criterion M Under Unequal Variance and Lepto-kurtosis’, Journal of the American Statistical Association 58(304), 1048–1053.

Hotelling, H. (1931), ‘The Generalization of Student’s Ratio’, The Annals ofMathematical Statistics 2(3), 360–378.

Mardia, K. (1970), ‘Measures of Multivariates Skewness and Kurtosis withApplications’, Biometrika 57, 519–530.

Mardia, K. (1975), ‘Assessment of Multinormality and the Robustness ofHotelling’s T 2 Test’, Applied Statistics 24(2), 163–171.

R Development Core Team (2007), R: A Language and Environment for Sta-tistical Computing, R Foundation for Statistical Computing, Vienna,Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.

Rojo, J. (1996), ‘On Tail Categorization of Probability Laws’, Journal of theAmerican Statistical Association 91, 378–384.

Srivastava, A. (1958), ‘Effect of Non-Normality on the Power Function oft-Test’, Biometrika 45, 421–430.

Velez, M. (1997), ‘Los colombianos somos bajitos y gorditos’, El Colombiano,Salud 5C .

Wu, Y. A., Genton, M. G. & Stefanski, L. A. (2006), ‘A Multivariate Two-Sample Mean Test for Small Sample Size and Missing Data’, Biometrics62, 877–885.

Universidad Nacional de Colombia 53

Page 54: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Apendice A

Programa en R

#.................................................................

# FUNCION PARA CALCULAR LA T2 PARA UNA POBLACION

#.................................................................

T21.Hotelling<-function(pob,mu0,alpha)

{

p<-ncol(pob)

p0<-length(mu0)

if(p!=p0)stop(’Dimension incorrecta!’)

n<-nrow(pob)

mu<-matrix(colMeans(pob),ncol=p)

S<-cov(pob)

T2<-n*(mu-mu0)%*%chol2inv(chol((S)))%*%t(mu-mu0)

F.test<-(n-p)*T2/(p*(n-1))

F.dist<-qf(1-alpha,p,n-p)

res<-ifelse(F.test>F.dist,1,0)

res

}

#.................................................................

# FUNCION PARA CALCULAR LA T2 PARA UNA POBLACION

#(USANDO LOS GRADOS DE LIBERTAD DE MARDIA (1974) EN EVERITT(1979))

#.................................................................

T21.Hotelling<-function(pob,mu0,alpha)

{

p<-ncol(pob)

p0<-length(mu0)

if(p!=p0)stop(’Dimension incorrecta!’)

n<-nrow(pob)

mu<-matrix(colMeans(pob),ncol=p)

S<-cov(pob)

T2<-n*(mu-mu0)%*%solve(S)%*%t(mu-mu0)

U<-matrix(1,n)

aux<-(pob-U%*%mu)%*%ginv(S)%*%t(pob-U%*%mu)

kur<-(1/n)*sum(diag(aux)^2)

delta<-1+(1/n)*((kur-p*(p+2))/(p))

F.test<-delta*(n-p)*T2/(delta*p*(n-1))

F.dist<-qf(1-alpha,p,n-p)

res<-ifelse(F.test>F.dist,1,0)

res

54

Page 55: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

}

#.................................................................

# FUNCION PARA CALCULAR LA T2 PARA DOS POBLACIONES

#.................................................................

T22.Hotelling<-function(pob1,pob2,alpha)

{

p1<-ncol(pob1)

p2<-ncol(pob2)

if(p1!=p2)stop(’Dimension incorrecta!’)

p<-p1

n1<-nrow(pob1)

n2<-nrow(pob2)

n<-n1+n2

mean1<-matrix(colMeans(pob1),nrow=p1)

mean2<-matrix(colMeans(pob2),nrow=p2)

S1<-cov(pob1)

S2<-cov(pob2)

S<-((n1-1)*S1+(n2-1)*S2)/(n1+n2-2)

T2<-((n1*n2)/(n1+n2))*t(matrix(mean1-mean2,ncol=1))%*%

solve(S)%*%matrix(mean1-mean2,ncol=1)

F.test<-(n-p-1)*T2/(p*(n-2))

F.dist<-qf(1-alpha,p,n-p-1)

res<-ifelse(F.test>F.dist,1,0)

res

}

#.................................................................

# LRT APROXIMADA BAJO LA DISTRIBUCION NSM

# CON BASE EN EL ALGORITMO DE AZZALINI (msn.mle)

#.................................................................

msn.dev<-function (param, X, y, freq, trace = FALSE)

{

d <- ncol(y)

if (missing(freq))

freq <- rep(1, nrow(y))

n <- sum(freq)

m <- ncol(X)

beta <- matrix(param[1:(m * d)], m, d)

al.om <- param[(m * d + 1):(m * d + d)]

y0 <- y - X %*% beta

Omega <- (t(y0) %*% (y0 * freq))/n

D <- diag(qr(2 * pi * Omega)[[1]])

logDet <- sum(log(abs(D)))

dev <- n * logDet - 2 * sum(zeta(0, y0 %*% al.om) * freq) +

n * d

dev

}

msn.dev.grad<-function (param, X, y, freq, trace = FALSE)

{

d <- ncol(y)

if (missing(freq))

freq <- rep(1, nrow(y))

n <- sum(freq)

m <- ncol(X)

beta <- matrix(param[1:(m * d)], m, d)

al.om <- param[(m * d + 1):(m * d + d)]

Universidad Nacional de Colombia 55

Page 56: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

y0 <- y - X %*% beta

Omega <- (t(y0) %*% (freq * y0))/n

p1 <- zeta(1, as.vector(y0 %*% al.om))

Dbeta <- t(X) %*% (y0 * freq) %*% solvePD(Omega) - outer(as.vector(t(X *

freq) %*% p1), al.om)

Dal.om <- as.vector(t(y0 * freq) %*% p1)

-2 * c(Dbeta, Dal.om)

}

solvePD<-function (x)

{

u <- chol(x, pivot = FALSE)

if (prod(diag(u)) <= 0)

stop("matrix not positive definite")

chol2inv(u)

}

num.deriv2<-function (x, FUN, ...)

{

FUN <- get(FUN, inherit = TRUE)

values <- FUN(x, ...)

p <- length(values)

H <- matrix(0, p, p)

delta <- cbind((abs(x) + 1e-10) * 1e-05, rep(1e-06, p))

delta <- apply(delta, 1, max)

for (i in 1:p) {

x1 <- x

x1[i] <- x1[i] + delta[i]

H[, i] <- (FUN(x1, ...) - values)/delta[i]

}

(H + t(H))/2

}

LRT.MSN.una<-function (y, mu0, alfa, trace = FALSE, control = list())

{

# Espacio irrestricto

y <- data.matrix(y)

p <- ncol(y)

X <- rep(1, nrow(y))

freq <- rep(1, nrow(y))

X <- data.matrix(X)

fit0 <- lm.fit(X, y, method = "qr")

beta <- as.matrix(coef(fit0))

res <- resid(fit0)

a <- msn.moment.fit(res)

Omega <- a$Omega

omega <- a$omega

alpha <- a$alpha

if (!a$admissible)

alpha <- alpha/(1 + max(abs(alpha)))

beta[1, ] <- beta[1, ] - omega * a$delta * sqrt(2/pi)

al.om <- alpha/omega

param <- c(beta, al.om)

dev <- msn.dev(param, X, y, freq)

opt <- optim(param, fn = msn.dev, gr = msn.dev.grad,

method = ’BFGS’, control = control, X = X, y = y,

freq = freq, trace = trace)

logL <- opt$value/(-2)

# Espacio bajo H0

Universidad Nacional de Colombia 56

Page 57: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

beta0 <- matrix(mu0,nrow=1)

res0 <- y - X%*%(beta0)

a0 <- msn.moment.fit(res)

Omega0 <- a0$Omega

omega0 <- a0$omega

alpha0 <- a0$alpha

if (!a0$admissible)

alpha0 <- alpha0/(1 + max(abs(alpha0)))

beta0[1, ] <- beta0[1, ] - omega0 * a0$delta * sqrt(2/pi)

al.om0 <- alpha0/omega0

param0 <- c(beta0, al.om0)

dev0 <- msn.dev(param0, X, y, freq)

opt0 <- optim(param0, fn = msn.dev, gr = msn.dev.grad,

method = ’BFGS’, control = control, X = X, y = y,

freq = freq, trace = trace)

logL0 <- opt0$value/(-2)

lambda<-2*(logL-logL0)

Chi.dist<-qchisq(1-alfa,p)

rechazo <- ifelse(lambda > Chi.dist,1,0)

rechazo

}

#.................................................................

# SIMULACIONES DE VERIFICACION PARA RESULTADOS DE EVERITT(1979)

# n: Tama~no de la muestra

# p: Numero de variables

# Nsim: Numero de simulaciones

# alpha: Nivel de significancia de la prueba

#.................................................................

require(MASS)

require(mvtnorm)

require(mnormt)

require(sn)

#-----------------------------------------------------------------

# Distribucion Normal Multivariada: x~N(0,1)

#-----------------------------------------------------------------

#PARA EL CASO DE UNA POBLACION

porcentaje<-function(n,p,Nsim=3000,alpha)

{

mu0<-rep(0,p) # E[x] = mu = 0

pob<-array(rnorm(n*p*Nsim),dim=c(n,p,Nsim))

temp<-apply(pob,3,T21.Hotelling,mu0,alpha)

res<-sum(temp)*100/Nsim

res

}

#PARA EL CASO DE DOS POBLACIONES

porcentaje<-function(n1,n2,p,Nsim=2000,alpha)

{

temp<-matrix(NA,ncol=1,nrow=Nsim)

for(i in 1:Nsim){

temp[i]<-T22.Hotelling(rmvnorm(n1,rep(0,p),diag(1:p)),

rmvnorm(n2,rep(0,p),diag(1:p)),alpha)}

res<-sum(temp)*100/Nsim

res

Universidad Nacional de Colombia 57

Page 58: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

}

#-----------------------------------------------------------------

# Distribucion Uniforme: p variables generadas independientemente

# de una U(0,1)

#-----------------------------------------------------------------

#PARA EL CASO DE UNA POBLACION

porcentaje<-function(n,p,Nsim=3000,alpha)

{

mu0<-rep(0.5,p) # E[x] = (a+b)/2 = 0.5

pob<-array(runif(n*p*Nsim),dim=c(n,p,Nsim))

temp<-apply(pob,3,T21.Hotelling,mu0,alpha)

res<-sum(temp)*100/Nsim

res

}

#PARA EL CASO DE DOS POBLACIONES

porcentaje<-function(n1,n2,p,Nsim=2000,alpha)

{

temp<-matrix(NA,ncol=1,nrow=Nsim)

for(i in 1:Nsim){

temp[i]<-T22.Hotelling(matrix(runif(n1*p),ncol=p),

matrix(runif(n2*p),ncol=p),alpha)}

res<-sum(temp)*100/Nsim

res

}

#-----------------------------------------------------------------

# Distribucion Exponencial: p variables generadas independientemente

# de una Exp(1)

#-----------------------------------------------------------------

#PARA EL CASO DE UNA POBLACION

porcentaje<-function(n,p,Nsim=3000,alpha)

{

mu0<-rep(1,p) # E[x] = lambda = 1

pob<-array(rexp(n*p*Nsim),dim=c(n,p,Nsim))

temp<-apply(pob,3,T21.Hotelling,mu0,alpha)

res<-sum(temp)*100/Nsim

res

}

#PARA EL CASO DE DOS POBLACIONES

porcentaje<-function(n1,n2,p,Nsim=2000,alpha)

{

temp<-matrix(NA,ncol=1,nrow=Nsim)

for(i in 1:Nsim){

temp[i]<-T22.Hotelling(matrix(rexp(n1*p),ncol=p),

matrix(rexp(n2*p),ncol=p),alpha)}

res<-sum(temp)*100/Nsim

res

}

#-----------------------------------------------------------------

# Distribucion Lognormal: p variables generadas independientemente

# tales que log(x)~N(0,1)

#-----------------------------------------------------------------

#PARA EL CASO DE UNA POBLACION

Universidad Nacional de Colombia 58

Page 59: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

porcentaje<-function(n,p,Nsim=3000,alpha)

{

mu0<-rep(exp(.5),p) # E[x] = exp(mu+(sigma^2)/2) = exp(0.5)

pob<-array(rlnorm(n*p*Nsim),dim=c(n,p,Nsim))

temp<-apply(pob,3,T21.Hotelling,mu0,alpha)

res<-sum(temp)*100/Nsim

res

}

#PARA EL CASO DE DOS POBLACIONES

porcentaje<-function(n1,n2,p,Nsim=2000,alpha)

{

temp<-matrix(NA,ncol=1,nrow=Nsim)

for(i in 1:Nsim){

temp[i]<-T22.Hotelling(matrix(rlnorm(n1*p),ncol=p),

matrix(rlnorm(n2*p),ncol=p),alpha)}

res<-sum(temp)*100/Nsim

res

}

#-----------------------------------------------------------------

# Distribucion Normal Sesgada Multivariable: p variables generadas

# independientemente

#-----------------------------------------------------------------

#PARA EL CASO DE UNA POBLACION

porcentaje<-function(n,p,Nsim=3000,alpha)

{

lambda<-1.5

delta=lambda/((1+lambda^2)^(1/2))

mu0<-rep(delta*((2/pi)^(1/2)),p)

# E[x] = delta*(2/pi)^1/2 = 0.5641896

# delta=lambda/(1+lambda^2)^1/2=0.7071068

pob<-array(rsn(n*p*Nsim,shape=1),dim=c(n,p,Nsim))

# by default is shape=0=lambda -> N(0,1)

temp<-apply(pob,3,T21.Hotelling,mu0,alpha)

res<-sum(temp)*100/Nsim

res

}

#PARA EL CASO DE DOS POBLACIONES

porcentaje<-function(n1,n2,p,Nsim=2000,alpha)

{

temp<-matrix(NA,ncol=1,nrow=Nsim)

for(i in 1:Nsim){

temp[i]<-T22.Hotelling(matrix(rsn(n1*p,shape=1),ncol=p),

matrix(rsn(n2*p,shape=1.5),ncol=p),alpha)}

res<-sum(temp)*100/Nsim

res

}

#-----------------------------------------------------------------

# RESULTADOS PARA COMPARACIONES CON UNA POBLACION

# n = 10,30,50,100,200,500

# p = 2,5,10,15,20

# Nsim = 3000

# alpha = 0.01,0.05,0.10

#-----------------------------------------------------------------

n<-c(30,50,100,200,500)

Universidad Nacional de Colombia 59

Page 60: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

p<-c(2,5,10,15,20)

alpha<-c(0.01,0.05,0.10)

res<-matrix(NA,ncol=4,nrow=3)

aux<-NULL

for(k in 1:length(n))

{

for(j in 1:length(p))

{

for(i in 1:length(alpha))

res[i,]<-cbind(n[k],p[j],alpha[i],porcentaje(n=n[k],

p=p[j],alpha=alpha[i]))

aux<-rbind(aux,res)

}

}

write.table(aux,’c:/res.csv’,sep=’;’,append=T,dec=’,’)

#-----------------------------------------------------------------

# RESULTADOS PARA COMPARACIONES CON DOS POBLACIONES

# n1 = 10,30,50,100,200,500

# n2 = 10,30,50,100,200,500

# p = 2,5,10,15,20

# Nsim = 2000

# alpha = 0.01,0.05,0.10

#-----------------------------------------------------------------

n1<-c(10,30,50,100,200,500)

n2<-c(10,30,50,100,200,500)

p<-c(2,5,10,15,20)

alpha<-c(0.01,0.05,0.10)

res<-matrix(NA,ncol=5,nrow=3)

aux<-NULL

for(k in 1:length(n2))

{

for(j in 1:length(p))

{

for(i in 1:length(alpha))

res[i,]<-cbind(n1[1],n2[k],p[j],alpha[i],porcentaje(n1=n1[1],

n2=n2[k],p=p[j],alpha=alpha[i]))

aux<-rbind(aux,res)

}

}

write.table(aux,’c:/res.csv’,sep=’;’,append=T)

#.................................................................

# GRAFICOS PARA COMPARACIONES DE RESULTADOS SIMULADOS

#.................................................................

# GRAFICOS PARA COMPARACIONES CON UNA POBLACION

grafica<-function(distrib,pe,datos,alpha.te,i,mini,maxi)

{

attach(datos)

pos.new.base<-which(p==pe & alpha.t==alpha.te & distri==distrib)

new.base<-datos[pos.new.base,]

detach(datos)

attach(new.base)

if(i==1)

plot(n,alpha.a,type=’l’,col=i,ylim=c(mini,maxi),

Universidad Nacional de Colombia 60

Page 61: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

ylab=expression(alpha[0]),

main=(paste("a = ",alpha.te,", p = ",pe)))

else

lines(n,alpha.a,type=’l’,col=i)

}

setwd(’D:/My Documents/Mi Magister/TESIS/Tesis Diana’)

datos<-read.csv2("unaComunesNew.csv")

attach (datos) #detach(datos)

str(datos)

par(mfrow=c(3,5))

distrib<-matrix(unique(distri),ncol=1)

pe<-matrix(unique(p),ncol=1)

alpha.te<-matrix(unique(alpha.t),ncol=1)

for(k in 1:length(alpha.te))

{

for(j in 1:length(pe))

{

for(i in 1:length(distrib))

grafica(distrib[i,],pe[j,],datos,alpha.te[k,],i,0,1)

}

}

# GRAFICOS PARA COMPARACIONES CON UNA POBLACION CON MARDIA

datos<-read.csv2("unaDifNew.csv")

attach (datos) #detach(datos)

str(datos)

par(cex.axis=.8)

par(mfrow=c(3,5))

distrib<-matrix(unique(distri),ncol=1)

pe<-matrix(unique(p),ncol=1)

alpha.te<-matrix(unique(alpha.t),ncol=1)

for(k in 1:length(alpha.te))

{

for(j in 1:length(pe))

{

for(i in 1:length(distrib))

grafica(distrib[i,],pe[j,],datos,alpha.te[k,],i,-0.045,.035)

#legend(5,100,legend=distrib,col=1:length(distrib),pch=’__’)

}

}

#GRAFICOS PARA COMPARACIONES CON DOS POBLACIONES

setwd(’D:/My Documents/Mi Magister/TESIS/Tesis Diana’)

datos<-read.csv2("DosPob_New.csv")

attach (datos) #detach(datos)

str(datos)

grafica<-function(datos,distrib,pe,alpha.te,i,mini,maxi)

{

attach(datos)

pos.new.base<-which(p==pe & alpha.t==alpha.te & distri==distrib)

new.base<-datos[pos.new.base,]

detach(datos)

attach(new.base)

x<-unique(n1)

y<-unique(n2)

z<-matrix(alpha.a,ncol=length(x),nrow=length(y))

persp(x, y, z, theta = 45,expand=0.5,phi=0,

Universidad Nacional de Colombia 61

Page 62: Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis por confiar ... ser un modelo ut´ il en algunas situaciones ... portantes de investigaciones

Diana Marcela Perez Valencia

axes=T,ticktype=’detailed’,zlim=c(mini,maxi),

zlab=’’,col=i,xlab=’’, ylab=’’,xlim=c(0,500),ylim=c(0,500),

main=(paste("a = ",alpha.te,", p = ",pe)))

}

Universidad Nacional de Colombia 62