Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis...
Transcript of Estudio de la Robustez del Estad´ıstico 2 Hotelling para ... · mi maestro y director de tesis...
Estudio de la Robustez del Estadıstico T 2 deHotelling para el Caso de Una y Dos
Poblaciones cuando los Datos Provienen deuna Distribucion Normal Sesgada
Diana Marcela Perez Valencia
Director: Juan Carlos Correa Morales
Ph.D University of Kentucky
Profesor Asociado, Escuela de Estadıstica
Universidad Nacional de Colombia
Trabajo presentado como requisito para optar
al tıtulo de Magıster en Estadıstica
Escuela de Estadıstica
Facultad de Ciencias
Universidad Nacional de Colombia
Sede Medellın
2009
A mi familia y amigos, a la Escuela de Estadıstica y muy especialmente ami maestro y director de tesis por confiar siempre en mi :)
Diana Marcela Perez Valencia
Resumen
Uno de los problemas mas importantes en la estadıstica aplicada es el de la compara-cion del vector de medias entre una o mas poblaciones. En el caso multivariable existensoluciones, una de ellas es el estadıstico T 2 de Hotelling, el cual depende del supuesto denormalidad de las poblaciones. La distribucion Normal Sesgada Multivariable ha probadoser un modelo util en algunas situaciones practicas importantes, por ejemplo en la medicionde ciertas variables antropometicas. Se pretende construir una prueba de hipotesis paracomparar el vector de medias de poblaciones normales sesgadas. Tambien se estudiara elcomportamiento de esta prueba y se comparara con el estadıstico que asume normalidadmediante un estudio de simulacion. De igual forma se ilustrara su uso utilizando la baseantropometrica ACOPLA95.
Palabras clave: Robustez, Estadıstico T 2 de Hotelling, Distribucion Normal Sesgada
Universidad Nacional de Colombia 3
Diana Marcela Perez Valencia
Abstract
One of the most important problems in applied statistics is the means vector compa-rison among one or more populations. In some practical situations, the Multivarate SkewNormal Distribution could be an useful model, for example when we have anthropometricvariables. We pretend to build a hypothesis test to compare the means of skew normalpopulations. By simulation, we also study the performance of these test and we compare itwith the statistic that assume normality. With some variables of an anthropometric database (ACOPLA95) we illustrate the use of these hypotheses test.
Keywords: Robustness, Hotelling’s T 2 Test, Skew Normal Distribution
Universidad Nacional de Colombia 4
Indice general
1. Introduccion 91.1. Marco Teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.1. Prueba T 2 de Hotelling . . . . . . . . . . . . . . . . . . 101.1.2. Distribucion Normal Sesgada . . . . . . . . . . . . . . 13
1.2. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2. Robustez del Estadıstico T 2 182.1. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2. Resultados y Conclusiones . . . . . . . . . . . . . . . . . . . . 20
3. LRT Aproximada para Verificar H0 bajo la Distribucion NSM 38
4. Estudio de Simulacion 424.1. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.2. Resultados y Conclusiones . . . . . . . . . . . . . . . . . . . . 43
5. Aplicacion: ACOPLA95 48
6. Conclusiones y Recomendaciones 51
A. Programa en R 54
5
Indice de figuras
1.1. Funcion de Densidad de una distribucion NS(γ = 8). Casounivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2. Grafico de Contorno de la Funcion de Densidad de una NS-Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1. Distribuciones muestreadas. La grafica de la derecha hace re-ferencia a la distribucion Normal Sesgada (NS), con diferentesvalores para el parametro de sesgamiento, γ . . . . . . . . . . 19
2.2. Porcentaje de muestras que exceden el nivel de significancianominal α =0.01, para comparaciones con una poblacion, con-siderando las distribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼N(0, 1), SN(1), SN(5), SN(10) . . . . . . . . . . . . . . . . . 23
2.3. Porcentaje de muestras que exceden el nivel de significancianominal α =0.05, para comparaciones con una poblacion, con-siderando las distribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼N(0, 1), SN(1), SN(5), SN(10) . . . . . . . . . . . . . . . . . 24
2.4. Porcentaje de muestras que exceden el nivel de significancianominal α =0.1, para comparaciones con una poblacion, con-siderando las distribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼N(0, 1), SN(1), SN(5), SN(10) . . . . . . . . . . . . . . . . . 25
2.5. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.01, usando los grados delibertad dados en la ecuacion 1.6 y los propuestos por Mardia 27
2.6. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.05, usando los grados delibertad dados en la ecuacion 1.6 y los propuestos por Mardia 28
2.7. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.1, usando los grados delibertad dados en la ecuacion 1.6 y los propuestos por Mardia 29
6
Diana Marcela Perez Valencia
4.1. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.01, usando la T 2 de Hote-lling y la LRT bajo la distribucion normal sesgada . . . . . . . 44
4.2. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.05, usando la T 2 de Hote-lling y la LRT bajo la distribucion normal sesgada . . . . . . . 45
4.3. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α =0.1, usando la T 2 de Hote-lling y la LRT bajo la distribucion normal sesgada . . . . . . . 46
5.1. Contornos de la Funcion de Densidad Bivariada de Masa Cor-poral vs. Estatura para hombres . . . . . . . . . . . . . . . . . 49
Universidad Nacional de Colombia 7
Indice de tablas
2.1. Porcentaje de muestras que exceden el nivel de significancianominal α, para comparaciones con una poblacion, conside-rando las distribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼N(0, 1), SN(1), SN(5), SN(10) . . . . . . . . . . . . . . . . . 26
2.2. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α, usando los grados de libertaddados en la ecuacion 1.6 y los propuestos por Mardia . . . . . 30
2.3. Medidas de Sesgo y Kurtosis multivariadas de Mardia para lasdiferentes distribuciones muestreadas . . . . . . . . . . . . . . 31
2.4. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 2 33
2.5. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 5 34
2.6. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 10 35
2.7. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 15 36
2.8. Porcentaje de muestras que exceden el nivel de significancianominal, α, para comparaciones con dos poblaciones con p = 20 37
4.1. Diferencias entre los porcentajes de muestras que exceden elnivel de significancia nominal α, usando la T 2 de Hotelling yla LRT bajo la distribucion normal sesgada . . . . . . . . . . . 47
5.1. Prueba de normalidad multivariada . . . . . . . . . . . . . . . 495.2. Comparacion entre la prueba T 2 de Hotelling y la LRTSN para
verificar H0 : µ = µ0 a un nivel de significancia del 0.05 condatos de masa corporal y estatura de hombres . . . . . . . . . 50
8
Capıtulo 1
Introduccion
Una de las tareas que el usuario de la estadıstica realiza con regularidades hacer pruebas de hipotesis acerca del vector de medias de una poblaciono la comparacion entre los vectores de medias de dos poblaciones. En el casoen el que las poblaciones provienen de distribuciones normales, el estadısticoT 2 de Hotelling es la mejor opcion. Sin embargo, hay situaciones en las quelos datos se ajustan mejor a distribuciones multivariables diferentes y se hacenecesario evaluar el comportamiento de la prueba T 2 ante cambios distribu-cionales de los datos.
Se pretende estudiar la robustez del estadıstico T 2 de Hotelling ante cambiosen la distribucion de los datos, especıficamente se trabajara en el caso dedatos normales sesgados. Esto se desea lograr al buscar comparar la pruebade razon de verosimilitud de comparacion de medias de poblaciones normalessesgadas, deducida de manera analıtica y la prueba usando el estadıstico T 2
de Hotelling.
En el capıtulo 1 se hace una revision sobre los conceptos basicos de la pruebaT 2 de Hotelling tanto para el caso de una poblacion como el de dos po-blaciones y sobre la distribucion normal sesgada multivariada. Ademas, semuestran algunos de los autores que han trabajado sobre la robustez de esteestadıstico y las conclusiones a las que llegaron. En el capıtulo 2 se desarro-lla un estudio de simulacion basado en la extension del trabajo de Everitt(1979), al considerar resultados para la distribucion normal sesgada con di-ferentes parametros de sesgo. En el capıtulo 3 se hace el desarrollo analıticode la prueba de razon de verosimilitud bajo el supuesto de que los datosprovienen de distribuciones normales sesgadas. Esta prueba de razon de ve-rosimilitud es comparada vıa simulacion con la prueba T 2 de Hotelling en
9
Diana Marcela Perez Valencia
el capıtulo 4. Finalmente, en el capıtulo 6 se muestran las conclusiones masrelevantes halladas a partir de los resultados de este trabajo y se planteanalgunas recomendaciones para trabajos futuros en el tema.
1.1. Marco Teorico
En esta seccion se presentan algunos conceptos basicos sobre la PruebaT 2 de Hotelling, la distribucion Normal Sesgada y algunas conclusiones im-portantes de investigaciones realizadas sobre la robustez del estadıstico T 2
de Hotelling.
1.1.1. Prueba T 2 de Hotelling
En muchas ocasiones estamos interesados en saber que tan parecidas sondos poblaciones en promedio, teniendo en cuenta varias caracterısticas decada poblacion simultaneamente. Por ejemplo, considere el caso en el cual sedesea saber si los hombres (Poblacion 1) y las mujeres (Poblacion 2) tienen,en promedio, la misma estatura, peso, ındice de masa corporal e ındice cintu-ra cadera, es decir, estamos interesados en probar la hipotesis H0 : µH = µM ,donde µi = (µest.i µpeso.i µimc.i µicc.i)
′, i = H, M .
Hotelling (1931), propuso una generalizacion del estadıstico t de Student,en el cual se pasa de comparaciones para la media de una caracterıstica enuna poblacion, a comparaciones simultaneas en una o dos poblaciones nor-males. Gracias a este gran aporte, ahora podemos dar respuesta a problemascomo el planteado anteriormente, donde las variables pueden estar o no corre-lacionadas.
La prueba T 2 de Hotelling parte del supuesto que las poblaciones a compa-rar son muestras p-variadas de n observaciones independientes, normalmentedistribuidas y con matrices de varianzas-covarianzas iguales, Σ1 = Σ2.
La prueba T 2 de Hotelling es la Prueba de Razon de Verosimilitud (LRT) denivel α de H0 : µ = µ0, para el caso de una poblacion normal, o H0 : µ1 = µ2,para el caso de dos poblaciones normales. Una de las propiedades mas impor-tantes de este estadıstico es que es invariante1 ante transformaciones lineales
1(Definicion tomada de Casella & Berger (2002)). Sea F = f(x|θ) : θ ∈ Θ un conjuntode pdf’s para X, y sea G el grupo de transformaciones del espacio muestral χ. EntoncesF es invariante bajo el grupo G si para cada θ ∈ Θ y g ∈ G existe un unico θ′ ∈ Θ tal que
Universidad Nacional de Colombia 10
Diana Marcela Perez Valencia
de las variables.
A continuacion se presenta, de forma general, la construccion de la prue-ba para los dos casos arriba mencionados.
Prueba T 2 para una Muestra (H0 : µ = µ0)
Sea x1,x2, ...,xn una muestra aleatoria p-variada de una Np(µ, Σ). Laprueba de razon de verosimilitud (Likelihood Ratio Test, LRT) que rechazaH0, se puede construir como,
λ =
supH0
L(µ, Σ)
supH0∪Ha
L(µ, Σ)=
supH0
L(µ0, Σ0)
supH0∪Ha
L(µ, Σ)< k (1.1)
donde k es desconocido tal que la prueba tiene un nivel de significancia α, ylos estimadores maximo verosımiles de µ, Σ0 y Σ, quedan dados por:
µ =1
n
n∑i=1
xi = x (1.2)
Σ0 =1
n
n∑i=1
(xi − µ0)(xi − µ0)′ (1.3)
Σ =1
n
n∑i=1
(xi − µ)(xi − µ)′ =n− 1
nS (1.4)
Desarrollando λ, se puede llegar a la forma del estadıstico T 2 de Hotelling,dada por
T 20 = n(x− µ0)
′S−1(x− µ0) ∼ T 2p,n−1 (1.5)
Puesto que no se tienen tablas para la T 2, entonces se recurre a la relacioncon la distribucion F . Ası rechazamos H0, a un nivel α si
F0 =n− p
p(n− 1)T 2
0 > F1−α,p,n−p (1.6)
Y = g(X) tiene la distribucion f(y|θ′) si X tiene la distribucion f(x|θ).
Universidad Nacional de Colombia 11
Diana Marcela Perez Valencia
Prueba T 2 para dos Muestras (H0 : µ1 = µ2, con Σ1 = Σ2)
Sea x1,x2, ...,xn una muestra aleatoria p-variada de una Np(µ1, Σ) y seay1,y2, ...,ym una muestra aleatoria p-variada de una Np(µ2, Σ). La pruebaLRT que rechaza H0, se puede construir como,
λ =
supH0
L(µ, Σ)
supH0∪Ha
L(µ, Σ)=
supH0
L(µ, Σ0)
supH0∪Ha
L(µ1, µ2, Σ)< q (1.7)
donde q es desconocido tal que la prueba tiene un nivel de significancia α, ylos estimadores maximo verosımiles de µ, µ1, µ2, Σ0 y Σ, quedan dados por:
µ =nx + my
n + m(1.8)
µ1 =1
n
n∑i=1
xi = x (1.9)
µ2 =1
m
m∑i=1
yi = y (1.10)
Σ0 =nΣ10 + mΣ20
n + m=
n∑i=1
(xi − µ)(xi − µ)′ +n∑
i=1
(yi − µ)(yi − µ)′
n + m(1.11)
Σ =nΣ1 + mΣ2
n + m=
nPi=1
(xi − µ1)(xi − µ1)′ +nP
i=1(yi − µ2)(yi − µ2)′
n + m=
n + m− 2
n + mS (1.12)
Desarrollando λ, se puede llegar a la forma del estadıstico T 2 de Hote-lling, dada por
T 20 =
nm
n + m(x1 − x2)
′S−1(x1 − x2) ∼ T 2p,n−p−1 (1.13)
El cual se puede aproximar con una F , rechazando H0 a un nivel α si
F0 =n− p− 1
p(n− 2)T 2
0 > F1−α,p,n−p−1 (1.14)
Universidad Nacional de Colombia 12
Diana Marcela Perez Valencia
1.1.2. Distribucion Normal Sesgada
Azzalini & Dalla-Valle (1996), elaboran una descripcion sobre la distri-bucion Normal Segada 2 (NS) y sus propiedades, hacen un desarrollo sobreel calculo de su funcion de densidad para el caso p-variado y muestran unaaplicacion a partir de datos reales provenientes de una distribucion bivariada.La distribucion Normal Sesgada es una familia de distribuciones que inclu-yen la normal, con un parametro adicional de sesgamiento, γ. Ası, en el casounivariado, Z ∼ NS(γ), si su funcion de densidad esta dada por (ver ejemploen Figura 1.1.),
φ(z; γ) = 2φ(z)Φ(γz) (z ∈ R) (1.15)
donde,
φ(z): funcion de densidad de una N(0, 1)
Φ(z): funcion de distribucion de una N(0, 1)
γ: parametro de sesgamiento (−∞,∞)
Observe que cuando γ = 0, la densidad resultante corresponde a la deuna N(0, 1).
Azzalini (1985), deriva algunas propiedades de interes sobre la distribucionNormal Sesgada, entre ellos,
Z2 ∼ χ21 (1.16)
E[Z] =
(2
π
)1/2
δ, donde δ =γ
(1 + γ2)1/2(1.17)
V [Z] = 1− 2
πδ2 (1.18)
(Indice de Sesgamiento)
γ1 = 12(4− π)
E[Z]3
V [Z]3/2, −0,995 < γ1 < 0,995 (1.19)
2En el software estadıstico R Development Core Team (2007), Azzalini (2007) hacetodo un desarrollo computacional de la distribucion Normal Sesgada en el paquete sn, elcual posee varias funciones para el caso univariado y multivariado, incluyendo funcionesde graficacion.
Universidad Nacional de Colombia 13
Diana Marcela Perez Valencia
Figura 1.1: Funcion de Densidad de una distribucion NS(γ = 8). Caso univaria-do
Ahora, si consideramos el caso multivariado, Azzalini & Dalla-Valle (1996),muestran que cuando cada una de las componentes de z = (z1 z2 ... zp)′ esNS, entonces
zi = δi|x0|+ (1− δ2i )
1/2xi ∼ NS(γ(δi)) (1.20)
donde las x′is ∼ N(0, 1) independientes (con matriz de correlacion Ψp×p, si(δ1, ..., δp) estan entre -1 y 1). Ası la funcion de densidad resultante quedadada por (ver ejemplo en Figura 1.2.),
fp(z) = 2φp(z; Σ)Φ(γ′z) (1.21)
Luego Z ∼ NSp(γ, Σ), con γ vector de parametros de forma y parametrode dependencia Σ y cuya funcion generadora de momentos, valor esperado yvarianza, respectivamente, son:
M(t) = 2 exp
(1
2(t′Σt)
)Φ
(γ′Σγ
(1 + γ′Σγ)1/2
)(1.22)
µz = E(Z) =
(2
π
)1/2
δ (1.23)
V[Z] = Σ− µzµ′z (1.24)
Universidad Nacional de Colombia 14
Diana Marcela Perez Valencia
Figura 1.2: Grafico de Contorno de la Funcion de Densidad de una NS-Bivariada
Azzalini & Capitanio (1999), justifican el uso de este tipo de distribucionesal mostrar algunas dificultades a las que se enfrentan los analistas cuandodesean lograr normalidad multivariada. Dentro de estas dificultades cabemencionar:
Puesto que las transformaciones se hacen sobre cada componente porseparado, es difıcil esperar una normalidad conjunta.
Las variables transformadas son mas difıciles de interpretar, especial-mente cuando cada variable es transformada empleando una funciondiferente.
Las transformaciones para normalidad y heteroscedasticidad son, confrecuencia, diferentes.
Es ası como se trata de extender algunos de los metodos clasicos a la clasede distribuciones Normales Sesgadas, la cual parece tener gran exito en casosen los que los datos presentan una distribucion unimodal con cierto sesgo.
Universidad Nacional de Colombia 15
Diana Marcela Perez Valencia
1.2. Estado del Arte
Entre los autores que han trabajado sobre el tema de la robustez del es-tadıstico T 2 de Hotelling, se encuentra Srivastava (1958), quien estudia elefecto de la no normalidad al tratar de controlar los errores tipo I y II eninferencias con muestras univariadas. Estudia el efecto del sesgo y la kurtosisen poblaciones no-normales. Los resultados de este estudio muestran comolas medidas del sesgo y la kurtosis afectan la potencia de la prueba, espe-cialmente la del sesgo. Tambien verifica que cuando se tienen tamanos demuestra grandes disminuye el efecto de la no-normalidad sobre la potenciade la prueba.
Holloway & Dunn (1967), estudian, vıa simulacion, la robustez del estadısticoT 2 ante cambios en las matrices de varianzas-covarianzas y en tamanos demuestra de las poblaciones, teniendo como base muestras de distribucionesnormales multivariadas y una potencia dada. Ellos concluyeron que a medidaque se incremente el numero de variables o a medida que el tamano de lasmuestras disminuye, el nivel de significancia aumenta. Tal y como lo mostra-ron Hopkins & Clay (1963), el nivel de significancia de la prueba es cercanoal nivel real cuando los tamanos de las muestras de las dos poblaciones soniguales, aunque no ayuden mucho a mantener la potencia de la prueba.
Chase & Bulgren (1971), estudian la robustez del estadıstico T 2 para unamuestra proveniente de diferentes distribuciones bivariadas, incluyendo mues-tras de poblaciones sesgadas y correlacionadas. Se concluye que las distribu-ciones altamente sesgadas no se aproximan bien por medio la T 2 de Hotelling.
Mardia (1975), estudia las interrelaciones entre las medidas del sesgo y lakurtosis multivariadas al expresarlas en terminos de los angulos y las distan-cias de Mahalanobis. Mardia muestra como estas medidas dan un significadoal interpretar varios estudios Monte Carlo sobre el efecto de la no-normalidaden el estadıstico T 2 de Hotelling. Por ejemplo, en el caso de una y dos mues-tras de tamanos pequenos concluye que:
La prueba T 2 de Hotelling es robusta.
La prueba T 2 de Hotelling para una muestra es mas sensible al sesgoque a la kurtosis.
La prueba T 2 de Hotelling para dos muestras es mas sensible al sesgosi n1 6= n2.
Universidad Nacional de Colombia 16
Diana Marcela Perez Valencia
Everitt (1979), muestra como el estadıstico T 2 de Hotelling es mas robustopara el caso de dos muestras (se quiere probar H0 : µ1 = µ2) que para elcaso de una muestra (se quiere probar H0 : µ = µ0), cuando se relajan lossupuestos de normalidad. Este resultado se logra a traves de un estudio desimulacion, en el que se emplean diferentes distribuciones para generar datosp-variados.
Por otra parte, Fujikoshi (1997), obtiene una expansion asintotica para ladistribucion del estatıstico T 2 de Hotelling bajo no-normalidad cuando lostamanos de muestra son grandes (bajo la teorıa normal, cuando n → ∞,T 2 ∼ χ2
p), usando la expansion de Edgeworth al expandir la funcion carac-terıstica del T 2; y Wu et al. (2006) proponen un nuevo estadıstico de prueba(PCT, Pooled Component Test) para casos en los que es difıcil calcular elestadıstico T 2 de Hotelling, como por ejemplo, cuando los tamanos de losgrupos para las dos muestras (n1 y n2) son pequenos y el numero de varia-bles es grande, o cuando hay datos faltantes. Este estadıstico, basado en ladistribucion chi-cuadradada escalada, sirve para probar la igualdad entre dosvectores de medias.
Universidad Nacional de Colombia 17
Capıtulo 2
Robustez del Estadıstico T 2
En la investigacion estadıstica los estudios de robustez son de gran impor-tancia pues hacen referencia a caracterısticas deseables sobre ciertos procedi-mientos estadısticos. Es ası como se dira que un procedimiento es robusto sino sufre ninguna alteracion ante violaciones de los modelos que lo sustentan.Para el caso especıfico del estadıstico T 2, sobre el cual se supone que los da-tos provienen de distribuciones Normales, se desea estudiar su robustez antecambios en las distribuciones de los datos, especialmente cuando se tratande distribuciones sesgadas.
2.1. Metodologıa
Everitt (1979), investigo el efecto de la no normalidad sobre el calculodel estadıstico T 2 para una y dos poblaciones vıa simulacion. Con base en elestudio de este autor, en este trabajo se realiza una extension al considerar lacomparacion con la distribucion Normal Sesgada. Los factores que se tuvieronen cuenta en el proceso de simulacion, ası como sus respectivos niveles, sedescriben a continuacion:
Tamano de muestra de las poblaciones (n): 10, 30, 50, 100, 200 y 500
Numero de variables medidas en cada poblacion (p): 2, 5, 10, 15 y 20.
Numero de simulaciones (N): Para el caso de una poblacion, se consi-deraron 3000 simulaciones y para el caso con dos poblaciones se consi-deraron 2000.
Nivel de significancia nominal de la prueba (α): 0.01, 0.05 y 0.1
18
Diana Marcela Perez Valencia
Distribucion de los datos: Se generaron p variables aleatorias indepen-dientes de las siguientes distribuciones (ver Figura 2.1):
Figura 2.1: Distribuciones muestreadas. La grafica de la derecha hace referenciaa la distribucion Normal Sesgada (NS), con diferentes valores parael parametro de sesgamiento, γ
• Distribucion Normal:
xi ∼ N(0, 1), i = 1, ..., p
donde E[xi] = µ = 0
• Distribucion Uniforme:
xi ∼ U(0, 1), i = 1, ..., p
donde E[xi] = a+b2
= 0,5
• Distribucion Exponencial:
xi ∼ Exp(1), i = 1, ..., p
donde E[xi] = λ = 1
Universidad Nacional de Colombia 19
Diana Marcela Perez Valencia
• Distribucion Lognormal:
log xi ∼ N(0, 1), i = 1, ..., p
donde E[xi] = exp(µ + σ2/2) = exp(0,5)
• Distribucion Normal Sesgada:
xi ∼ SN(γ = 1); i = 1, ..., p
donde
E[xi] =
(2
π
)1/2
δ = 0,564
conδ =
γ
(1 + γ2)1/2= 0,7071068
Tambien se tuvieron en cuenta valores de 5 y 10 para γ
La variable respuesta es α0, porcentaje de muestras que exceden el verda-dero nivel de significancia nominal, α, alcanzado por la prueba T 2 de Hote-lling para las distintas distribuciones dadas las combinaciones de los nivelesde los factores arriba mencionados. Se dira entonces, que α0 excede el nivelnominal si sobrepasa la siguiente cota propuesta por Everitt (1979):
α± 2
(α(1− α)
N
)1/2
(2.1)
2.2. Resultados y Conclusiones
Los resultados de estas simulaciones se muestran en las Figuras 2.2, 2.3,2.4, 2.5, 2.6 y 2.7 y en las Tablas 2.4, 2.5, 2.6, 2.7 y 2.8. De aquı se puededecir que:
1. Comparaciones sobre el vector de medias de una poblacion (Figuras2.2, 2.3, 2.4, 2.5, 2.6 y 2.7, y Tablas 2.1 y 2.2):
El porcentaje de muestras que exceden el nivel de significancianominal alcanzado por la prueba T 2 de Hotelling es menor cuandose incrementa el tamano de la muestra y cuando el numero devariables a comparar es pequeno.
La potencia de la prueba disminuye cuando aumentamos su nivelde confianza.
Universidad Nacional de Colombia 20
Diana Marcela Perez Valencia
Con los tres parametros de sesgo empleados en las simulaciones dela distribucion normal sesgada los resultados dieron muy similaresa los obtenidos con distribuciones simetricas como la normal y launiforme.
La lognormal y la exponencial fueron las distribuciones con lastasas de rechazo mas altas. Si observa en la Figura 2.1, una de lasdiferencias de estas dos distribuciones con la normal sesgada es laforma de la cola de la distribucion.
Autores como Srivastava (1958), Chase & Bulgren (1971) y Mar-dia (1975), concluyeron que la prueba T 2 de Hotelling es sensibleal sesgo de la distribucion. Sin embargo, esta conclusion deberıareplantearse mejor en terminos de la sensibilidad de la prueba ala forma de la cola de las distribuciones.
Rojo (1996) hace una categorizacion de las distribuciones segun elcomportamiento de las colas. Ası, por ejemplo, la distribucion log-normal es de cola larga, la exponencial de cola media y la normalde cola corta. Como introduccion a este problema, en la Tabla 2.3se presentan las medidas de sesgo para cada una de las diferentesdistribuciones muestreadas en este trabajo, note como la distribu-cion lognormal es la que tiene medidas mas grandes. Como trabajofuturo se deja la categorizacion de la cola de la distribucion nor-mal sesgada y justificar su comportamiento con la prueba T 2 deHotelling en este sentido.
Ahora bien, en la discusion hecha en el artıculo de Everitt (1979), semuestra un estadıstico de prueba ajustado, propuesto por Mardia, paraprobar H0 : µ = µ0. En el caso de datos no normales, este estadıstico selogra al modificar los grados de libertad para la distribucion F dadosen la ecuacion 1.6 por δp y δ(n− p), donde
δ = 1 +1
n
{b2,p − p(p + 2)
p
}(2.2)
y b2,p es una medida de kurtosis multivariada de Mardia, dada por,
b2,p =1
n
n∑i=1
{(xi − x)′S−1(xi − x)
}2(2.3)
En la Figura ?? se muestran las diferencias entre los porcentajes simu-lados de muestras que exceden el nivel de significancia nominal usando
Universidad Nacional de Colombia 21
Diana Marcela Perez Valencia
los grados de libertad dados en la ecuacion 1.6 y los propuestos porMardia. Estas diferencias son comparadas con la cota que se presentaen la ecuacion 2.1.Puesto que el interes en este trabajo esta mas concen-trado en el comportamiento de la prueba para distribuciones sesgadas,del ejercicio de simulacion se puede concluir que no hay un gran aporteen el calculo del porcentaje de muestras que exceden el nivel de signi-ficancia nominal usando los grados de libertad propuestos por Mardia,y por tanto no se considera necesario trabajar con este estadıstico deprueba ajustado.
Universidad Nacional de Colombia 22
Diana Marcela Perez Valencia
Figura 2.2: Porcentaje de muestras que exceden el nivel de significancia nominalα =0.01, para comparaciones con una poblacion, considerando lasdistribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼ N(0, 1), SN(1),SN(5), SN(10)
Universidad Nacional de Colombia 23
Diana Marcela Perez Valencia
Figura 2.3: Porcentaje de muestras que exceden el nivel de significancia nominalα =0.05, para comparaciones con una poblacion, considerando lasdistribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼ N(0, 1), SN(1),SN(5), SN(10)
Universidad Nacional de Colombia 24
Diana Marcela Perez Valencia
Figura 2.4: Porcentaje de muestras que exceden el nivel de significancia nominalα =0.1, para comparaciones con una poblacion, considerando lasdistribuciones N(0, 1), U(0, 1), Exp(1), log(x) ∼ N(0, 1), SN(1),SN(5), SN(10)
Universidad Nacional de Colombia 25
Diana Marcela Perez Valencia
Tabla
2.1
:Por
cent
aje
dem
uest
rasqu
eex
cede
nel
nive
lde
sign
ifica
ncia
nom
inal
α,p
ara
com
para
cion
esco
nun
apo
blac
ion,
cons
ider
ando
las
dist
ribu
cion
esN
(0,1
),U
(0,1
),E
xp(1
),lo
g(x)∼
N(0
,1),
SN
(1),
SN
(5),
SN
(10)
np
N(0
,1)
U(0
,1)
Exp(1
)lo
g(x
)∼
N(0
,1)
SN
(1)
SN
(5)
SN
(10)
5%
10
%5
%10%
5%
10
%5%
10%
5%
10
%5%
10
%5%
10
%2
0,0
53
0,0
98
0,0
47
0,1
01
0,0
92
0,1
34
0,1
56
0,2
14
0,0
48
0,1
02
0,0
60
0,1
15
0,0
58
0,1
14
50,0
52
0,1
09
0,0
55
0,1
03
0,1
10
0,1
76
0,2
41
0,3
34
0,0
49
0,0
99
0,0
70
0,1
17
0,0
65
0,1
25
30
10
0,0
52
0,1
04
0,0
56
0,0
96
0,1
33
0,1
95
0,3
11
0,4
22
0,0
48
0,1
04
0,0
68
0,1
20
0,0
71
0,1
28
15
0,0
47
0,0
98
0,0
42
0,1
05
0,1
34
0,2
05
0,3
23
0,4
34
0,0
49
0,1
05
0,0
59
0,1
06
0,0
76
0,1
22
20
0,0
57
0,0
96
0,0
51
0,0
96
0,1
12
0,1
95
0,3
02
0,4
20
0,0
46
0,0
97
0,0
53
0,1
10
0,0
61
0,1
18
20,0
53
0,1
01
0,0
50
0,1
00
0,0
83
0,1
32
0,1
33
0,1
90
0,0
50
0,0
95
0,0
54
0,1
10
0,0
57
0,1
08
50,0
46
0,1
04
0,0
51
0,0
97
0,0
95
0,1
49
0,2
08
0,2
76
0,0
51
0,0
99
0,0
57
0,1
18
0,0
60
0,1
18
50
10
0,0
49
0,0
98
0,0
49
0,1
09
0,1
10
0,1
96
0,2
59
0,3
52
0,0
47
0,1
04
0,0
64
0,1
12
0,0
65
0,1
09
15
0,0
51
0,0
84
0,0
51
0,1
08
0,1
18
0,1
88
0,3
00
0,3
88
0,0
49
0,1
07
0,0
54
0,1
21
0,0
68
0,1
20
20
0,0
62
0,0
94
0,0
51
0,1
08
0,1
16
0,1
96
0,3
11
0,4
27
0,0
53
0,1
09
0,0
60
0,1
17
0,0
64
0,1
25
20,0
52
0,1
03
0,0
47
0,0
95
0,0
66
0,1
09
0,1
05
0,1
58
0,0
57
0,0
90
0,0
61
0,0
94
0,0
56
0,1
05
50,0
49
0,0
98
0,0
51
0,1
00
0,0
77
0,1
27
0,1
45
0,2
01
0,0
53
0,0
90
0,0
52
0,1
06
0,0
62
0,1
05
100
10
0,0
44
0,1
11
0,0
49
0,1
04
0,0
86
0,1
45
0,1
90
0,2
65
0,0
52
0,0
97
0,0
61
0,1
08
0,0
53
0,1
05
15
0,0
54
0,1
08
0,0
45
0,0
97
0,0
87
0,1
44
0,2
16
0,3
12
0,0
54
0,1
03
0,0
64
0,1
11
0,0
60
0,1
08
20
0,0
53
0,0
96
0,0
60
0,1
02
0,0
99
0,1
50
0,2
54
0,3
61
0,0
53
0,0
99
0,0
58
0,1
12
0,0
64
0,1
12
20,0
55
0,0
99
0,0
50
0,1
04
0,0
54
0,0
96
0,0
89
0,1
43
0,0
47
0,1
08
0,0
52
0,0
99
0,0
59
0,0
99
50,0
47
0,0
97
0,0
48
0,0
88
0,0
58
0,1
17
0,1
14
0,1
72
0,0
50
0,1
11
0,0
53
0,1
10
0,0
54
0,1
04
200
10
0,0
49
0,1
09
0,0
47
0,1
02
0,0
74
0,1
21
0,1
36
0,2
11
0,0
44
0,0
95
0,0
54
0,0
98
0,0
51
0,1
14
15
0,0
42
0,1
02
0,0
43
0,0
94
0,0
59
0,1
32
0,1
67
0,2
41
0,0
49
0,0
96
0,0
48
0,1
07
0,0
64
0,1
03
20
0,0
39
0,1
04
0,0
50
0,0
99
0,0
74
0,1
33
0,1
76
0,2
54
0,0
58
0,1
01
0,0
51
0,1
01
0,0
53
0,1
08
20,0
54
0,1
01
0,0
54
0,0
95
0,0
54
0,0
99
0,0
75
0,1
26
0,0
45
0,0
94
0,0
50
0,1
02
0,0
51
0,0
95
50,0
48
0,1
03
0,0
44
0,0
99
0,0
58
0,1
09
0,0
86
0,1
33
0,0
57
0,0
97
0,0
48
0,1
05
0,0
49
0,1
06
500
10
0,0
51
0,0
94
0,0
53
0,1
01
0,0
62
0,1
13
0,0
98
0,1
68
0,0
51
0,0
96
0,0
57
0,0
86
0,0
50
0,1
03
15
0,0
50
0,0
97
0,0
57
0,1
00
0,0
62
0,1
19
0,1
07
0,1
74
0,0
48
0,0
98
0,0
50
0,1
08
0,0
51
0,1
07
20
0,0
47
0,1
13
0,0
56
0,1
02
0,0
60
0,1
06
0,1
06
0,1
89
0,0
52
0,1
06
0,0
48
0,1
02
0,0
48
0,0
98
Universidad Nacional de Colombia 26
Diana Marcela Perez Valencia
Figura 2.5: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.01, usando los grados de libertad dadosen la ecuacion 1.6 y los propuestos por Mardia
Universidad Nacional de Colombia 27
Diana Marcela Perez Valencia
Figura 2.6: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.05, usando los grados de libertad dadosen la ecuacion 1.6 y los propuestos por Mardia
Universidad Nacional de Colombia 28
Diana Marcela Perez Valencia
Figura 2.7: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.1, usando los grados de libertad dados enla ecuacion 1.6 y los propuestos por Mardia
Universidad Nacional de Colombia 29
Diana Marcela Perez Valencia
Tabla
2.2
:D
ifere
ncia
sen
tre
los
porc
enta
jes
dem
uest
ras
que
exce
den
elni
vel
desi
gnifi
canc
iano
min
alα,
usan
dolo
sgr
ados
delib
erta
dda
dos
enla
ecua
cion
1.6
ylo
spr
opue
stos
por
Mar
dia
np
N(0
,1)
U(0
,1)
Exp(1
)lo
g(x
)∼
N(0
,1)
SN
(1)
SN
(5)
SN
(10)
5%
10
%5%
10
%5%
10
%5%
10
%5%
10
%5%
10
%5%
10
%2
0,0
11
-0,0
03
-0,0
09
0,0
05
-0,0
01
-0,0
08
-0,0
07
0,0
12
0,0
00
0,0
06
0,0
00
0,0
02
-0,0
06
0,0
11
50,0
01
0,0
10
0,0
04
-0,0
04
-0,0
08
-0,0
05
0,0
02
0,0
32
-0,0
01
-0,0
01
-0,0
02
-0,0
11
0,0
04
0,0
03
30
10
0,0
03
0,0
04
-0,0
06
-0,0
20
-0,0
09
-0,0
20
-0,0
01
0,0
28
-0,0
06
0,0
05
0,0
01
0,0
01
-0,0
03
0,0
05
15
-0,0
03
-0,0
07
-0,0
07
0,0
00
0,0
09
0,0
06
-0,0
05
-0,0
13
0,0
01
0,0
01
-0,0
04
-0,0
17
0,0
01
0,0
04
20
-0,0
01
-0,0
08
0,0
07
-0,0
08
-0,0
02
0,0
05
0,0
06
-0,0
12
0,0
06
0,0
04
-0,0
12
-0,0
07
0,0
00
-0,0
05
20,0
05
-0,0
03
-0,0
02
-0,0
05
0,0
12
0,0
08
0,0
04
-0,0
06
0,0
01
0,0
08
-0,0
08
0,0
02
-0,0
01
0,0
04
50,0
02
0,0
03
-0,0
04
-0,0
03
-0,0
11
0,0
00
-0,0
02
0,0
06
0,0
04
-0,0
05
-0,0
05
0,0
15
-0,0
06
0,0
07
50
10
-0,0
01
0,0
00
-0,0
04
0,0
02
0,0
01
0,0
15
-0,0
03
0,0
05
-0,0
03
0,0
03
-0,0
05
-0,0
07
0,0
02
-0,0
15
15
0,0
06
-0,0
16
-0,0
06
-0,0
10
0,0
02
0,0
03
0,0
05
-0,0
18
0,0
04
0,0
16
-0,0
11
0,0
11
0,0
04
0,0
01
20
0,0
12
-0,0
04
-0,0
05
0,0
04
0,0
09
0,0
00
-0,0
02
0,0
00
-0,0
05
0,0
08
0,0
06
0,0
00
0,0
00
0,0
03
2-0
,002
0,0
04
-0,0
03
-0,0
02
-0,0
04
0,0
07
-0,0
03
-0,0
05
0,0
08
-0,0
05
0,0
11
0,0
01
0,0
02
0,0
04
50,0
04
-0,0
02
0,0
01
0,0
00
0,0
04
0,0
05
-0,0
07
-0,0
24
0,0
02
-0,0
10
0,0
02
0,0
02
0,0
03
-0,0
08
100
10
-0,0
06
0,0
14
-0,0
16
0,0
16
0,0
04
0,0
03
-0,0
12
-0,0
16
0,0
05
-0,0
05
0,0
06
0,0
07
-0,0
04
-0,0
01
15
0,0
04
0,0
09
-0,0
07
-0,0
01
0,0
01
-0,0
11
-0,0
09
-0,0
01
0,0
02
0,0
03
0,0
08
-0,0
05
-0,0
06
-0,0
02
20
0,0
05
0,0
00
0,0
13
0,0
06
0,0
13
-0,0
09
0,0
10
0,0
20
0,0
04
-0,0
06
0,0
01
-0,0
11
0,0
02
-0,0
06
20,0
08
-0,0
03
0,0
05
0,0
10
-0,0
13
-0,0
11
-0,0
03
0,0
04
-0,0
01
0,0
18
0,0
04
-0,0
16
0,0
10
-0,0
05
50,0
05
-0,0
08
0,0
00
-0,0
11
-0,0
01
0,0
03
0,0
07
0,0
04
0,0
01
0,0
10
-0,0
01
0,0
03
0,0
06
0,0
06
200
10
-0,0
01
0,0
03
0,0
03
0,0
04
0,0
01
0,0
02
-0,0
12
-0,0
05
-0,0
01
-0,0
01
-0,0
03
-0,0
13
-0,0
02
0,0
03
15
-0,0
11
-0,0
04
-0,0
04
-0,0
05
-0,0
11
0,0
04
0,0
08
0,0
13
-0,0
04
-0,0
09
-0,0
12
-0,0
01
0,0
10
-0,0
03
20
-0,0
10
0,0
07
-0,0
01
-0,0
06
-0,0
05
0,0
06
0,0
07
-0,0
03
0,0
06
-0,0
04
-0,0
04
-0,0
08
-0,0
12
0,0
00
20,0
05
-0,0
03
0,0
03
-0,0
08
0,0
10
-0,0
02
0,0
15
-0,0
04
-0,0
02
-0,0
01
-0,0
07
0,0
11
0,0
01
-0,0
13
50,0
00
0,0
05
-0,0
02
-0,0
05
0,0
03
-0,0
01
0,0
00
-0,0
02
0,0
13
-0,0
07
-0,0
08
0,0
04
-0,0
08
0,0
11
500
10
0,0
05
-0,0
10
0,0
04
0,0
05
0,0
04
0,0
09
0,0
01
0,0
15
0,0
02
-0,0
06
0,0
09
-0,0
29
0,0
03
-0,0
05
15
0,0
01
-0,0
11
0,0
13
-0,0
04
-0,0
08
0,0
06
-0,0
03
-0,0
07
-0,0
07
0,0
00
-0,0
04
0,0
13
-0,0
04
0,0
10
20
-0,0
02
0,0
16
0,0
15
0,0
08
-0,0
05
-0,0
15
0,0
00
0,0
22
0,0
04
0,0
04
-0,0
08
-0,0
13
-0,0
01
0,0
02
Universidad Nacional de Colombia 30
Diana Marcela Perez Valencia
Tabla
2.3
:M
edid
asde
Sesg
oy
Kur
tosi
sm
ulti
vari
adas
deM
ardi
apa
rala
sdi
fere
ntes
dist
ribu
cion
esm
uest
read
asn
pN
(0,1)
U(0
,1)
Ex
p(1
)lo
g(x
)∼
N(0
,1)
SN
(1)
SN
(5)
SN
(10)
Sesg
oK
urt
osi
sSesg
oK
urt
osi
sSesg
oK
urt
osi
sSesg
oK
urt
osi
sSesg
oK
urt
osi
sSesg
oK
urt
osi
sSesg
oK
urt
osi
s10
21,8
19
5,7
60
1,8
76
5,6
35
1,7
80
5,2
52
1,3
06
5,4
83
1,1
78
5,3
70
1,3
67
5,2
12
1,1
27
4,8
80
512,0
70
23,4
52
8,6
43
21,7
46
16,5
31
25,8
15
9,3
49
22,3
40
9,3
72
22,0
12
14,3
28
25,4
28
9,8
57
22,5
73
20,2
51
7,7
46
0,2
20
5,9
45
2,8
67
8,8
88
20,4
69
27,6
15
0,7
71
7,2
56
0,7
66
6,1
71
3,4
04
10,6
96
54,3
84
27,8
63
2,9
58
27,5
47
16,5
642,0
52
29,1
23
52,3
36
7,2
56
31,0
71
8,1
50
31,3
56
6,5
89
32,8
70
30
10
32,9
10
102,9
87
33,1
42
104,0
91
50,6
15
114,6
48
76,9
51
135,5
07
36,8
67
106,5
76
49,3
87
114,8
44
41,5
94
109,2
34
15
105,5
33
218,9
56
100,9
53
217,5
21
124,9
24
229,9
17
176,1
14
259,1
61
124,3
36
232,8
24
106,0
81
219,4
56
102,0
95
217,5
13
20
252,4
27
384,2
25
238,3
96
379,3
16
258,6
15
387,8
72
272,8
62
393,1
12
258,7
68
388,2
14
251,0
45
385,5
10
246,0
26
382,5
11
21,3
67
8,8
99
0,3
83
5,3
54
4,5
79
12,2
65
10,4
39
20,4
56
0,5
29
7,5
86
3,4
97
11,4
53
2,6
81
10,0
25
53,6
39
31,2
16
4,2
06
30,5
19
18,4
31
48,0
64
42,7
42
74,5
36
2,9
17
32,8
11
2,9
79
30,3
28
12,9
80
41,9
84
50
10
21,3
95
108,9
63
16,4
44
101,6
75
54,9
16
136,8
40
133,5
97
207,4
53
21,7
26
110,0
23
27,4
17
113,6
36
33,7
49
119,0
86
15
65,1
87
229,3
46
64,1
64
230,1
07
114,0
96
265,2
56
142,2
17
281,6
17
69,4
49
232,5
97
78,6
74
242,3
98
81,8
26
241,5
59
20
157,9
11
402,2
54
163,5
95
402,7
66
190,6
26
422,6
51
277,7
96
471,8
52
164,1
88
405,3
64
163,9
69
404,2
59
180,6
29
414,0
13
20,2
10
7,1
61
0,3
44
5,8
66
13,1
57
26,8
68
19,5
39
33,1
42
0,1
90
6,9
20
1,6
79
8,8
86
3,0
40
10,9
35
51,4
54
31,9
41
1,0
38
28,5
28
14,7
22
44,9
644,6
26
86,4
71
2,0
96
33,2
69
7,2
97
41,2
62
8,0
51
39,7
50
100
10
10,8
24
113,6
35
9,5
33
107,4
68
47,2
85
148,0
77
130,5
83
238,8
515,8
54
120,6
34
17,4
64
118,8
47
19,7
27
123,2
04
15
35,8
33
238,9
05
33,3
29
236,2
11
94,9
61
298,2
92
224,4
81
415,4
48
37,0
20
242,5
95
46,3
15
247,9
24
52,4
28
255,0
80
20
81,9
07
414,6
85
76,4
6407,1
55
158,5
85
485,7
27
426,4
41
694,8
32
78,6
58
420,7
15
100,7
06
433,2
69
96,5
23
431,5
13
20,0
43
7,8
28
0,0
51
5,7
49
4,1
84
11,4
00
25,9
15
43,8
39
0,2
74
8,0
04
1,6
07
8,7
81
2,3
54
10,4
38
51,0
58
34,6
59
0,5
80
28,7
05
16,3
80
49,1
75
139,3
45
192,4
70
1,6
11
34,5
29
3,8
31
35,3
64
6,0
39
39,1
72
200
10
6,6
64
118,1
20
4,8
47
106,3
47
41,1
25
158,5
33
219,9
69
395,0
38
5,7
92
115,8
83
14,7
33
128,2
24
14,3
77
120,7
83
15
18,1
37
248,1
50
15,1
44
235,7
23
87,2
88
333,0
73
456,9
34
722,7
49
18,3
73
250,4
67
29,3
11
260,8
51
33,0
80
260,1
69
20
45,1
22
429,3
36
38,9
78
412,8
09
127,2
49
522,8
18
326,7
54
735,8
36
45,4
13
428,3
54
62,1
26
443,7
92
62,9
46
447,7
12
20,0
12
7,3
26
0,0
31
5,6
80
8,8
71
19,4
62
71,9
56
126,6
10
0,0
69
8,0
72
1,4
36
8,9
22
1,8
64
10,2
41
50,4
54
36,3
68
0,3
37
29,0
22
19,0
48
61,8
75
163,6
96
256,8
32
0,5
30
35,4
33
3,9
86
36,5
83
4,9
81
38,6
95
500
10
2,1
35
116,4
12
2,2
74
107,8
07
46,0
81
181,4
61
275,9
30
515,6
97
3,1
44
122,3
66
8,2
68
121,5
65
10,4
98
123,0
39
15
8,4
56
252,8
84
6,2
38
235,8
49
65,2
49
316,3
92
273,0
90
615,0
92
8,0
76
251,3
25
16,5
49
254,1
93
20,3
15
263,8
68
20
17,8
55
429,2
88
16,2
20
414,0
77
91,5
85
531,5
99
785,5
67
1448,7
16
18,9
26
437,8
34
30,8
76
445,8
21
35,5
54
453,7
02
Universidad Nacional de Colombia 31
Diana Marcela Perez Valencia
2. Comparaciones entre los vectores de medias de dos poblaciones (Tabla2.4-2.8):
La prueba T 2 de Hotelling es mas robusta para el caso de compa-raciones de vectores de medias entre dos poblaciones.
Como en el caso de comparaciones del vector de medias para unapoblacion, la distribucion lognormal (que es de cola larga), es laque presenta mayor porcentaje de muestras que exceden el nivel designificancia nominal. A pesar que la distribucion normal sesgadatiene un parametro de sesgo, para este caso tambien muestra unbuen comportamiento.
Para el caso de la distribucion lognormal, α0 > α cuando lostamanos de muestra de las dos poblaciones son desbalanceados,especialmente cuando uno de los tamanos de muestra es muy pe-queno con respecto a otro y cuando aumenta el numero de varia-bles involucradas.
Universidad Nacional de Colombia 32
Diana Marcela Perez Valencia
Tabla
2.4
:Por
cent
aje
dem
uest
ras
que
exce
den
elni
velde
sign
ifica
ncia
nom
inal
,α,pa
raco
mpa
raci
ones
con
dos
pobl
a-ci
ones
con
p=
2n
1n
2N
(0,1
)U
(0,1
)E
xp(1
)lo
g(x
)∼
N(0
,1)
SN
(1)
SN
(5)
SN
(10)
5%
10%
5%
10%
5%
10%
5%
10%
5%
10%
5%
10%
5%
10%
10
0,0
54
0,1
02
0,0
55
0,1
09
0,0
42
0,0
80
0,0
27
0,0
84
0,0
56
0,1
01
0,0
50
0,0
94
0,0
50
0,1
04
30
0,0
47
0,0
96
0,0
43
0,1
03
0,0
52
0,0
88
0,0
45
0,0
94
0,0
51
0,0
94
0,0
40
0,0
97
0,0
38
0,0
97
10
50
0,0
43
0,1
00
0,0
61
0,1
05
0,0
63
0,0
93
0,0
55
0,1
03
0,0
43
0,1
02
0,0
53
0,0
94
0,0
50
0,1
06
100
0,0
54
0,0
95
0,0
48
0,0
93
0,0
54
0,0
92
0,0
60
0,1
02
0,0
44
0,0
99
0,0
50
0,1
08
0,0
53
0,0
94
200
0,0
52
0,1
01
0,0
51
0,0
96
0,0
59
0,0
91
0,0
77
0,0
85
0,0
52
0,1
00
0,0
55
0,0
99
0,0
56
0,1
01
500
0,0
49
0,0
93
0,0
49
0,1
09
0,0
52
0,0
91
0,0
66
0,0
90
0,0
51
0,1
03
0,0
57
0,0
88
0,0
39
0,1
11
10
0,0
52
0,1
09
0,0
55
0,1
05
0,0
41
0,0
94
0,0
45
0,0
92
0,0
55
0,0
99
0,0
40
0,0
97
0,0
42
0,1
04
30
0,0
54
0,0
96
0,0
55
0,0
96
0,0
44
0,0
89
0,0
39
0,0
93
0,0
58
0,1
06
0,0
54
0,0
90
0,0
48
0,0
91
30
50
0,0
56
0,0
98
0,0
55
0,0
91
0,0
58
0,1
01
0,0
37
0,0
95
0,0
53
0,1
07
0,0
49
0,0
94
0,0
44
0,0
97
100
0,0
50
0,0
86
0,0
49
0,0
97
0,0
54
0,0
94
0,0
44
0,0
99
0,0
50
0,0
99
0,0
51
0,0
98
0,0
54
0,0
91
200
0,0
46
0,0
99
0,0
44
0,1
06
0,0
52
0,1
12
0,0
56
0,1
03
0,0
44
0,0
90
0,0
61
0,1
05
0,0
44
0,1
08
500
0,0
40
0,1
01
0,0
50
0,1
06
0,0
61
0,0
99
0,0
59
0,0
96
0,0
48
0,1
07
0,0
56
0,0
95
0,0
53
0,1
02
10
0,0
53
0,1
01
0,0
56
0,0
91
0,0
53
0,0
96
0,0
48
0,1
03
0,0
50
0,0
93
0,0
51
0,1
16
0,0
50
0,1
01
30
0,0
44
0,0
92
0,0
53
0,1
06
0,0
54
0,0
99
0,0
42
0,0
81
0,0
50
0,0
90
0,0
38
0,1
03
0,0
53
0,0
94
50
50
0,0
53
0,1
03
0,0
48
0,1
06
0,0
47
0,0
99
0,0
48
0,0
95
0,0
50
0,0
99
0,0
47
0,1
07
0,0
51
0,1
05
100
0,0
45
0,0
96
0,0
61
0,1
06
0,0
43
0,1
02
0,0
44
0,0
90
0,0
55
0,1
10
0,0
50
0,0
93
0,0
45
0,1
07
200
0,0
49
0,1
05
0,0
37
0,1
02
0,0
54
0,0
85
0,0
52
0,0
85
0,0
49
0,0
99
0,0
45
0,1
03
0,0
48
0,0
99
500
0,0
42
0,1
04
0,0
48
0,1
02
0,0
56
0,0
97
0,0
55
0,0
98
0,0
51
0,0
96
0,0
48
0,0
91
0,0
53
0,0
98
10
0,0
47
0,0
87
0,0
44
0,1
11
0,0
50
0,1
05
0,0
71
0,0
93
0,0
50
0,0
98
0,0
49
0,1
01
0,0
56
0,0
97
30
0,0
45
0,1
07
0,0
52
0,1
05
0,0
49
0,1
07
0,0
46
0,0
93
0,0
52
0,1
09
0,0
49
0,1
09
0,0
38
0,1
08
100
50
0,0
41
0,0
97
0,0
50
0,0
93
0,0
48
0,1
01
0,0
45
0,0
99
0,0
47
0,1
08
0,0
53
0,1
04
0,0
53
0,0
84
100
0,0
42
0,0
91
0,0
46
0,0
99
0,0
54
0,1
08
0,0
46
0,1
00
0,0
50
0,1
02
0,0
51
0,0
99
0,0
47
0,1
13
200
0,0
55
0,0
94
0,0
45
0,1
05
0,0
42
0,0
90
0,0
54
0,0
95
0,0
58
0,0
99
0,0
51
0,0
90
0,0
54
0,1
05
500
0,0
46
0,1
03
0,0
51
0,1
04
0,0
49
0,1
05
0,0
52
0,0
95
0,0
51
0,1
00
0,0
49
0,1
10
0,0
46
0,1
14
10
0,0
45
0,1
04
0,0
42
0,0
92
0,0
55
0,0
98
0,0
65
0,0
90
0,0
49
0,0
96
0,0
56
0,0
91
0,0
50
0,1
11
30
0,0
43
0,1
10
0,0
46
0,1
03
0,0
44
0,0
92
0,0
51
0,1
01
0,0
54
0,1
03
0,0
54
0,0
93
0,0
54
0,1
00
200
50
0,0
52
0,1
05
0,0
55
0,1
08
0,0
53
0,0
99
0,0
40
0,0
95
0,0
53
0,0
89
0,0
50
0,1
11
0,0
54
0,0
95
100
0,0
43
0,0
90
0,0
56
0,1
04
0,0
50
0,1
02
0,0
41
0,0
94
0,0
51
0,0
90
0,0
52
0,0
97
0,0
54
0,0
95
200
0,0
47
0,0
92
0,0
51
0,1
04
0,0
46
0,1
06
0,0
48
0,0
92
0,0
55
0,1
09
0,0
50
0,0
81
0,0
52
0,1
02
500
0,0
57
0,0
99
0,0
48
0,1
04
0,0
51
0,1
02
0,0
50
0,0
98
0,0
48
0,1
04
0,0
48
0,0
95
0,0
45
0,0
90
10
0,0
44
0,1
05
0,0
44
0,1
02
0,0
37
0,0
88
0,0
68
0,0
95
0,0
45
0,1
03
0,0
40
0,0
90
0,0
42
0,0
94
30
0,0
48
0,1
02
0,0
51
0,1
01
0,0
51
0,0
95
0,0
63
0,0
85
0,0
44
0,0
95
0,0
47
0,1
04
0,0
52
0,1
06
500
50
0,0
46
0,1
12
0,0
50
0,1
03
0,0
47
0,0
91
0,0
51
0,1
07
0,0
57
0,1
02
0,0
47
0,1
08
0,0
51
0,0
97
100
0,0
47
0,1
11
0,0
51
0,0
98
0,0
47
0,0
97
0,0
50
0,0
92
0,0
51
0,1
00
0,0
46
0,1
04
0,0
47
0,1
08
200
0,0
45
0,0
98
0,0
51
0,0
91
0,0
43
0,1
07
0,0
51
0,0
96
0,0
48
0,0
90
0,0
56
0,0
92
0,0
53
0,0
90
500
0,0
49
0,1
06
0,0
46
0,0
91
0,0
50
0,1
08
0,0
50
0,0
93
0,0
52
0,0
97
0,0
45
0,0
95
0,0
54
0,0
97
Universidad Nacional de Colombia 33
Diana Marcela Perez Valencia
Tabla
2.5
:Por
cent
aje
dem
uest
ras
que
exce
den
elni
velde
sign
ifica
ncia
nom
inal
,α,pa
raco
mpa
raci
ones
con
dos
pobl
a-ci
ones
con
p=
5n
1n
2N
(0,1
)U
(0,1
)E
xp(1
)lo
g(x
)∼
N(0
,1)
SN
(1)
SN
(5)
SN
(10)
5%
10
%5%
10
%5%
10
%5%
10%
5%
10
%5%
10
%5%
10
%10
0,0
51
0,1
03
0,0
50
0,1
04
0,0
48
0,0
76
0,0
38
0,0
77
0,0
57
0,1
06
0,0
52
0,1
03
0,0
51
0,0
88
30
0,0
45
0,0
84
0,0
50
0,0
99
0,0
51
0,0
97
0,0
46
0,1
09
0,0
49
0,0
89
0,0
46
0,0
91
0,0
53
0,1
02
10
50
0,0
49
0,0
98
0,0
50
0,1
02
0,0
53
0,1
01
0,0
56
0,1
00
0,0
49
0,0
92
0,0
48
0,0
99
0,0
47
0,0
90
100
0,0
42
0,0
95
0,0
45
0,0
89
0,0
49
0,1
06
0,0
81
0,1
16
0,0
42
0,1
01
0,0
47
0,0
99
0,0
52
0,1
00
200
0,0
55
0,0
97
0,0
47
0,0
99
0,0
53
0,1
08
0,0
86
0,1
28
0,0
40
0,0
94
0,0
48
0,1
04
0,0
53
0,1
04
500
0,0
47
0,1
08
0,0
50
0,1
04
0,0
60
0,0
96
0,0
81
0,1
15
0,0
47
0,1
06
0,0
43
0,1
06
0,0
46
0,1
04
10
0,0
50
0,1
02
0,0
50
0,0
93
0,0
48
0,0
91
0,0
43
0,0
89
0,0
52
0,0
99
0,0
52
0,1
03
0,0
49
0,1
13
30
0,0
52
0,1
03
0,0
58
0,1
12
0,0
52
0,0
98
0,0
33
0,0
80
0,0
41
0,1
04
0,0
58
0,0
91
0,0
58
0,0
84
30
50
0,0
52
0,1
07
0,0
42
0,1
02
0,0
55
0,1
24
0,0
38
0,0
87
0,0
58
0,0
90
0,0
45
0,1
01
0,0
53
0,1
00
100
0,0
55
0,0
94
0,0
51
0,1
08
0,0
52
0,1
00
0,0
48
0,0
93
0,0
40
0,1
07
0,0
44
0,1
04
0,0
51
0,0
90
200
0,0
54
0,0
95
0,0
44
0,0
95
0,0
55
0,0
90
0,0
73
0,1
06
0,0
42
0,1
12
0,0
48
0,0
85
0,0
36
0,1
08
500
0,0
53
0,0
92
0,0
50
0,0
99
0,0
60
0,1
02
0,0
70
0,1
08
0,0
39
0,1
02
0,0
48
0,0
95
0,0
61
0,1
04
10
0,0
56
0,1
01
0,0
52
0,0
98
0,0
50
0,0
92
0,0
65
0,1
09
0,0
55
0,1
02
0,0
54
0,1
06
0,0
52
0,0
97
30
0,0
44
0,1
09
0,0
52
0,1
03
0,0
52
0,1
04
0,0
42
0,0
84
0,0
51
0,1
10
0,0
52
0,1
09
0,0
50
0,0
89
50
50
0,0
60
0,0
91
0,0
52
0,0
99
0,0
41
0,0
96
0,0
41
0,0
91
0,0
52
0,0
98
0,0
39
0,0
89
0,0
44
0,0
99
100
0,0
58
0,1
11
0,0
54
0,1
02
0,0
48
0,0
97
0,0
49
0,0
95
0,0
54
0,0
93
0,0
43
0,0
94
0,0
52
0,0
94
200
0,0
57
0,1
09
0,0
61
0,0
92
0,0
50
0,1
12
0,0
52
0,0
99
0,0
45
0,0
99
0,0
53
0,1
06
0,0
48
0,0
99
500
0,0
47
0,1
01
0,0
52
0,1
04
0,0
38
0,1
06
0,0
62
0,1
18
0,0
52
0,0
96
0,0
61
0,1
03
0,0
58
0,0
95
10
0,0
42
0,1
02
0,0
46
0,1
03
0,0
52
0,1
04
0,0
73
0,1
37
0,0
47
0,1
12
0,0
52
0,1
03
0,0
48
0,1
00
30
0,0
43
0,0
96
0,0
50
0,0
92
0,0
48
0,1
02
0,0
54
0,0
84
0,0
44
0,0
93
0,0
45
0,0
87
0,0
56
0,1
09
100
50
0,0
60
0,0
94
0,0
46
0,0
97
0,0
52
0,0
94
0,0
45
0,0
95
0,0
48
0,1
01
0,0
51
0,1
02
0,0
51
0,1
05
100
0,0
55
0,0
96
0,0
52
0,1
01
0,0
50
0,0
97
0,0
40
0,0
95
0,0
52
0,1
04
0,0
52
0,1
02
0,0
49
0,1
09
200
0,0
45
0,0
92
0,0
49
0,1
02
0,0
48
0,0
98
0,0
47
0,1
05
0,0
51
0,1
06
0,0
53
0,0
97
0,0
51
0,0
95
500
0,0
53
0,1
05
0,0
47
0,0
95
0,0
52
0,0
96
0,0
45
0,1
05
0,0
55
0,0
97
0,0
51
0,1
01
0,0
51
0,1
06
10
0,0
55
0,1
08
0,0
50
0,1
02
0,0
60
0,1
01
0,0
81
0,1
30
0,0
48
0,1
14
0,0
45
0,1
05
0,0
59
0,1
10
30
0,0
54
0,0
99
0,0
48
0,0
87
0,0
48
0,0
95
0,0
61
0,0
92
0,0
51
0,1
04
0,0
48
0,1
02
0,0
49
0,0
89
200
50
0,0
55
0,0
92
0,0
49
0,1
06
0,0
49
0,0
98
0,0
55
0,1
00
0,0
46
0,0
94
0,0
50
0,1
05
0,0
55
0,1
01
100
0,0
51
0,0
93
0,0
48
0,0
88
0,0
44
0,0
89
0,0
43
0,1
00
0,0
58
0,1
07
0,0
49
0,1
08
0,0
47
0,1
05
200
0,0
61
0,1
04
0,0
49
0,1
04
0,0
60
0,1
01
0,0
44
0,0
93
0,0
49
0,1
05
0,0
50
0,1
10
0,0
49
0,0
94
500
0,0
53
0,1
04
0,0
54
0,0
98
0,0
49
0,0
93
0,0
50
0,0
97
0,0
53
0,1
01
0,0
53
0,0
94
0,0
47
0,1
07
10
0,0
43
0,0
94
0,0
43
0,0
90
0,0
56
0,1
04
0,0
83
0,1
24
0,0
51
0,1
18
0,0
60
0,1
08
0,0
56
0,0
96
30
0,0
47
0,0
96
0,0
53
0,1
00
0,0
61
0,0
97
0,0
68
0,1
15
0,0
48
0,1
14
0,0
53
0,1
01
0,0
54
0,1
02
500
50
0,0
53
0,0
99
0,0
51
0,1
19
0,0
47
0,1
04
0,0
60
0,1
10
0,0
55
0,1
08
0,0
48
0,1
00
0,0
52
0,1
04
100
0,0
51
0,0
88
0,0
49
0,0
97
0,0
50
0,1
05
0,0
59
0,1
00
0,0
52
0,1
05
0,0
54
0,1
10
0,0
46
0,0
97
200
0,0
50
0,0
95
0,0
47
0,0
90
0,0
54
0,0
89
0,0
55
0,0
98
0,0
53
0,0
89
0,0
46
0,0
93
0,0
54
0,1
16
500
0,0
50
0,0
96
0,0
41
0,1
05
0,0
38
0,0
97
0,0
45
0,1
03
0,0
53
0,0
90
0,0
50
0,1
11
0,0
51
0,0
96
Universidad Nacional de Colombia 34
Diana Marcela Perez Valencia
Tabla
2.6
:Por
cent
aje
dem
uest
ras
que
exce
den
elni
velde
sign
ifica
ncia
nom
inal
,α,pa
raco
mpa
raci
ones
con
dos
pobl
a-ci
ones
con
p=
10n
1n
2N
(0,1
)U
(0,1
)E
xp(1
)lo
g(x
)∼
N(0
,1)
SN
(1)
SN
(5)
SN
(10)
5%
10
%5%
10
%5%
10
%5%
10%
5%
10
%5%
10
%5%
10
%10
0,0
47
0,1
03
0,0
59
0,1
11
0,0
40
0,0
90
0,0
35
0,0
78
0,0
47
0,1
06
0,0
48
0,0
98
0,0
49
0,0
86
30
0,0
49
0,0
94
0,0
57
0,0
98
0,0
49
0,1
02
0,0
46
0,0
99
0,0
47
0,0
92
0,0
42
0,1
06
0,0
51
0,1
20
10
50
0,0
53
0,1
15
0,0
49
0,1
06
0,0
53
0,1
04
0,0
57
0,1
17
0,0
50
0,1
02
0,0
45
0,0
84
0,0
51
0,0
97
100
0,0
47
0,1
09
0,0
57
0,1
03
0,0
52
0,1
05
0,0
82
0,1
37
0,0
58
0,0
99
0,0
47
0,1
16
0,0
56
0,0
96
200
0,0
53
0,1
03
0,0
50
0,0
95
0,0
63
0,1
14
0,0
98
0,1
40
0,0
52
0,0
91
0,0
58
0,1
07
0,0
56
0,1
01
500
0,0
43
0,0
88
0,0
39
0,0
94
0,0
57
0,1
01
0,1
13
0,1
53
0,0
51
0,1
03
0,0
48
0,1
09
0,0
37
0,1
04
10
0,0
41
0,0
93
0,0
49
0,0
99
0,0
51
0,0
97
0,0
53
0,1
00
0,0
52
0,0
93
0,0
52
0,1
07
0,0
43
0,0
97
30
0,0
48
0,1
04
0,0
47
0,1
01
0,0
45
0,0
97
0,0
42
0,0
84
0,0
50
0,0
94
0,0
53
0,1
10
0,0
49
0,0
97
30
50
0,0
52
0,1
04
0,0
61
0,1
13
0,0
40
0,1
00
0,0
36
0,0
83
0,0
53
0,1
00
0,0
48
0,1
02
0,0
56
0,0
96
100
0,0
52
0,1
05
0,0
47
0,0
88
0,0
45
0,1
04
0,0
45
0,0
91
0,0
53
0,1
06
0,0
50
0,0
94
0,0
50
0,0
89
200
0,0
49
0,0
98
0,0
61
0,0
98
0,0
52
0,1
01
0,0
63
0,1
20
0,0
53
0,0
93
0,0
46
0,0
94
0,0
57
0,0
94
500
0,0
44
0,1
06
0,0
43
0,1
01
0,0
55
0,0
99
0,0
85
0,1
25
0,0
48
0,0
94
0,0
54
0,1
01
0,0
47
0,0
89
10
0,0
49
0,0
97
0,0
48
0,1
03
0,0
54
0,1
11
0,0
70
0,1
18
0,0
44
0,0
98
0,0
50
0,1
01
0,0
49
0,1
09
30
0,0
50
0,1
04
0,0
47
0,1
00
0,0
47
0,0
89
0,0
43
0,0
86
0,0
45
0,1
11
0,0
46
0,1
03
0,0
51
0,0
98
50
50
0,0
51
0,1
03
0,0
53
0,0
88
0,0
42
0,0
93
0,0
36
0,0
81
0,0
52
0,1
07
0,0
65
0,1
01
0,0
51
0,1
09
100
0,0
40
0,1
03
0,0
57
0,1
00
0,0
59
0,1
05
0,0
40
0,0
87
0,0
43
0,0
97
0,0
44
0,0
94
0,0
52
0,0
99
200
0,0
54
0,1
06
0,0
38
0,1
15
0,0
57
0,1
06
0,0
41
0,0
99
0,0
60
0,1
06
0,0
49
0,0
90
0,0
52
0,0
87
500
0,0
56
0,0
98
0,0
47
0,1
05
0,0
52
0,1
02
0,0
61
0,1
16
0,0
48
0,1
03
0,0
56
0,0
90
0,0
52
0,1
05
10
0,0
54
0,1
06
0,0
46
0,1
01
0,0
59
0,1
20
0,0
80
0,1
32
0,0
48
0,0
99
0,0
45
0,0
98
0,0
57
0,0
83
30
0,0
48
0,1
05
0,0
52
0,1
04
0,0
53
0,1
08
0,0
50
0,0
93
0,0
50
0,0
86
0,0
58
0,1
03
0,0
52
0,0
92
100
50
0,0
53
0,1
02
0,0
51
0,1
06
0,0
44
0,1
04
0,0
47
0,0
96
0,0
48
0,1
05
0,0
45
0,0
99
0,0
50
0,0
99
100
0,0
52
0,0
97
0,0
45
0,0
96
0,0
34
0,1
01
0,0
43
0,0
93
0,0
52
0,1
02
0,0
53
0,1
07
0,0
49
0,0
98
200
0,0
51
0,0
94
0,0
44
0,0
99
0,0
51
0,1
03
0,0
43
0,0
83
0,0
49
0,0
96
0,0
46
0,1
03
0,0
54
0,0
93
500
0,0
52
0,1
09
0,0
55
0,1
06
0,0
47
0,1
07
0,0
56
0,1
00
0,0
49
0,0
87
0,0
51
0,1
10
0,0
52
0,0
91
10
0,0
45
0,1
03
0,0
51
0,0
95
0,0
68
0,1
09
0,0
98
0,1
48
0,0
46
0,1
00
0,0
48
0,1
06
0,0
40
0,1
10
30
0,0
48
0,0
96
0,0
48
0,1
05
0,0
46
0,1
08
0,0
65
0,1
01
0,0
44
0,1
08
0,0
53
0,1
02
0,0
44
0,0
93
200
50
0,0
62
0,0
89
0,0
51
0,1
03
0,0
48
0,1
04
0,0
50
0,1
06
0,0
50
0,1
00
0,0
52
0,0
97
0,0
43
0,1
02
100
0,0
53
0,1
01
0,0
39
0,1
09
0,0
53
0,1
10
0,0
43
0,0
97
0,0
52
0,1
09
0,0
44
0,1
01
0,0
52
0,1
08
200
0,0
57
0,0
99
0,0
48
0,1
00
0,0
42
0,0
93
0,0
40
0,1
01
0,0
60
0,0
96
0,0
57
0,1
04
0,0
43
0,0
92
500
0,0
46
0,0
97
0,0
55
0,0
94
0,0
44
0,1
03
0,0
48
0,1
03
0,0
43
0,1
05
0,0
50
0,1
05
0,0
48
0,1
03
10
0,0
55
0,0
99
0,0
41
0,0
99
0,0
59
0,1
08
0,1
17
0,1
44
0,0
51
0,1
03
0,0
47
0,0
98
0,0
59
0,1
01
30
0,0
51
0,0
99
0,0
55
0,1
04
0,0
57
0,0
95
0,0
69
0,1
15
0,0
63
0,1
07
0,0
48
0,0
99
0,0
53
0,1
04
500
50
0,0
56
0,1
08
0,0
56
0,0
95
0,0
46
0,0
97
0,0
64
0,1
17
0,0
40
0,1
11
0,0
41
0,1
05
0,0
52
0,0
94
100
0,0
52
0,1
00
0,0
50
0,1
12
0,0
58
0,1
02
0,0
59
0,0
89
0,0
63
0,0
98
0,0
49
0,0
92
0,0
54
0,0
89
200
0,0
41
0,0
96
0,0
52
0,0
95
0,0
49
0,0
93
0,0
49
0,0
97
0,0
43
0,0
86
0,0
46
0,0
93
0,0
47
0,0
93
500
0,0
48
0,0
99
0,0
46
0,0
97
0,0
43
0,1
05
0,0
45
0,1
00
0,0
54
0,1
00
0,0
48
0,0
96
0,0
47
0,1
00
Universidad Nacional de Colombia 35
Diana Marcela Perez Valencia
Tabla
2.7
:Por
cent
aje
dem
uest
ras
que
exce
den
elni
velde
sign
ifica
ncia
nom
inal
,α,pa
raco
mpa
raci
ones
con
dos
pobl
a-ci
ones
con
p=
15n
1n
2N
(0,1
)U
(0,1
)E
xp(1
)lo
g(x
)∼
N(0
,1)
SN
(1)
SN
(5)
SN
(10)
5%
10
%5%
10
%5%
10
%5%
10%
5%
10
%5%
10
%5%
10
%10
0,0
43
0,1
00
0,0
53
0,0
98
0,0
43
0,0
88
0,0
47
0,0
97
0,0
58
0,0
98
0,0
51
0,1
06
0,0
54
0,1
03
30
0,0
53
0,1
03
0,0
45
0,1
06
0,0
53
0,1
00
0,0
54
0,0
96
0,0
50
0,1
01
0,0
52
0,0
97
0,0
40
0,1
05
10
50
0,0
52
0,0
95
0,0
55
0,1
01
0,0
64
0,0
97
0,0
72
0,1
04
0,0
52
0,1
01
0,0
47
0,1
03
0,0
62
0,0
98
100
0,0
54
0,1
00
0,0
46
0,1
12
0,0
54
0,1
21
0,0
80
0,1
32
0,0
41
0,0
95
0,0
50
0,0
96
0,0
60
0,1
07
200
0,0
53
0,1
12
0,0
52
0,1
02
0,0
67
0,1
19
0,1
02
0,1
56
0,0
50
0,0
93
0,0
44
0,0
97
0,0
51
0,1
04
500
0,0
44
0,1
07
0,0
45
0,0
94
0,0
73
0,1
15
0,1
18
0,1
49
0,0
44
0,1
10
0,0
59
0,1
05
0,0
49
0,0
95
10
0,0
48
0,0
96
0,0
58
0,1
13
0,0
48
0,0
87
0,0
53
0,0
94
0,0
58
0,1
04
0,0
49
0,0
99
0,0
47
0,1
11
30
0,0
47
0,1
02
0,0
56
0,1
03
0,0
47
0,0
96
0,0
33
0,0
85
0,0
47
0,0
94
0,0
47
0,0
88
0,0
51
0,0
99
30
50
0,0
57
0,1
06
0,0
51
0,0
96
0,0
58
0,0
93
0,0
33
0,0
87
0,0
47
0,1
01
0,0
53
0,1
00
0,0
54
0,1
09
100
0,0
50
0,0
96
0,0
44
0,0
96
0,0
50
0,1
10
0,0
43
0,1
02
0,0
46
0,1
10
0,0
53
0,1
08
0,0
49
0,0
98
200
0,0
56
0,1
11
0,0
57
0,0
90
0,0
50
0,0
95
0,0
58
0,1
05
0,0
54
0,0
91
0,0
45
0,1
01
0,0
45
0,1
07
500
0,0
60
0,0
95
0,0
54
0,0
88
0,0
63
0,1
15
0,0
74
0,1
36
0,0
48
0,0
99
0,0
59
0,1
00
0,0
52
0,1
05
10
0,0
48
0,1
04
0,0
46
0,1
11
0,0
62
0,1
07
0,0
61
0,1
11
0,0
50
0,1
00
0,0
57
0,0
89
0,0
48
0,0
99
30
0,0
38
0,1
15
0,0
52
0,1
03
0,0
57
0,1
03
0,0
43
0,0
92
0,0
40
0,1
01
0,0
50
0,1
05
0,0
50
0,1
02
50
50
0,0
46
0,1
00
0,0
50
0,1
08
0,0
46
0,0
89
0,0
40
0,1
02
0,0
50
0,0
97
0,0
50
0,1
00
0,0
50
0,0
87
100
0,0
46
0,0
97
0,0
53
0,0
93
0,0
48
0,0
89
0,0
44
0,0
86
0,0
45
0,0
98
0,0
51
0,1
05
0,0
42
0,1
04
200
0,0
54
0,0
92
0,0
46
0,1
02
0,0
50
0,1
03
0,0
46
0,1
06
0,0
48
0,0
99
0,0
49
0,1
03
0,0
52
0,0
93
500
0,0
42
0,0
88
0,0
49
0,0
97
0,0
59
0,1
03
0,0
70
0,1
20
0,0
41
0,0
98
0,0
49
0,1
01
0,0
45
0,0
95
10
0,0
51
0,0
89
0,0
48
0,1
10
0,0
57
0,1
01
0,0
69
0,1
45
0,0
57
0,0
92
0,0
50
0,0
94
0,0
51
0,1
02
30
0,0
57
0,1
02
0,0
44
0,0
95
0,0
51
0,1
03
0,0
48
0,1
01
0,0
50
0,1
01
0,0
56
0,1
02
0,0
48
0,1
09
100
50
0,0
49
0,0
86
0,0
47
0,1
00
0,0
49
0,0
94
0,0
40
0,1
01
0,0
54
0,1
12
0,0
53
0,1
06
0,0
51
0,1
04
100
0,0
47
0,0
96
0,0
46
0,0
96
0,0
55
0,0
97
0,0
33
0,0
87
0,0
45
0,1
00
0,0
51
0,0
95
0,0
53
0,1
06
200
0,0
55
0,0
95
0,0
52
0,0
90
0,0
43
0,1
07
0,0
40
0,0
83
0,0
50
0,1
08
0,0
49
0,0
86
0,0
59
0,0
96
500
0,0
52
0,1
05
0,0
53
0,0
99
0,0
54
0,0
97
0,0
52
0,1
06
0,0
38
0,0
86
0,0
57
0,1
03
0,0
55
0,1
04
10
0,0
49
0,1
01
0,0
45
0,0
95
0,0
67
0,1
11
0,0
98
0,1
50
0,0
43
0,1
01
0,0
41
0,1
08
0,0
52
0,1
07
30
0,0
52
0,1
09
0,0
49
0,0
92
0,0
55
0,0
96
0,0
55
0,1
00
0,0
55
0,1
17
0,0
53
0,0
94
0,0
55
0,1
03
200
50
0,0
49
0,1
06
0,0
50
0,1
00
0,0
45
0,0
91
0,0
60
0,1
04
0,0
52
0,1
00
0,0
54
0,0
95
0,0
53
0,0
99
100
0,0
49
0,0
93
0,0
49
0,1
06
0,0
52
0,1
04
0,0
37
0,0
94
0,0
47
0,0
92
0,0
53
0,0
96
0,0
58
0,1
05
200
0,0
48
0,0
92
0,0
49
0,0
97
0,0
65
0,1
01
0,0
38
0,0
78
0,0
46
0,0
92
0,0
54
0,1
02
0,0
43
0,1
10
500
0,0
46
0,1
07
0,0
55
0,0
98
0,0
51
0,0
98
0,0
55
0,1
03
0,0
54
0,1
00
0,0
57
0,1
00
0,0
54
0,1
04
10
0,0
48
0,1
04
0,0
53
0,1
02
0,0
71
0,1
31
0,1
13
0,1
62
0,0
48
0,1
03
0,0
51
0,1
07
0,0
54
0,1
00
30
0,0
55
0,1
03
0,0
50
0,0
99
0,0
56
0,0
97
0,0
72
0,1
39
0,0
50
0,1
11
0,0
51
0,1
07
0,0
55
0,1
00
500
50
0,0
51
0,1
04
0,0
62
0,0
96
0,0
52
0,0
99
0,0
62
0,1
00
0,0
47
0,1
06
0,0
50
0,1
02
0,0
61
0,1
02
100
0,0
56
0,0
98
0,0
51
0,0
95
0,0
56
0,0
97
0,0
53
0,1
07
0,0
47
0,1
03
0,0
54
0,1
02
0,0
53
0,0
92
200
0,0
57
0,1
06
0,0
51
0,0
95
0,0
48
0,1
08
0,0
41
0,0
89
0,0
49
0,0
94
0,0
53
0,0
95
0,0
42
0,0
88
500
0,0
44
0,0
99
0,0
43
0,1
09
0,0
48
0,1
08
0,0
35
0,0
94
0,0
50
0,1
06
0,0
39
0,1
01
0,0
49
0,0
95
Universidad Nacional de Colombia 36
Diana Marcela Perez Valencia
Tabla
2.8
:Por
cent
aje
dem
uest
ras
que
exce
den
elni
velde
sign
ifica
ncia
nom
inal
,α,pa
raco
mpa
raci
ones
con
dos
pobl
a-ci
ones
con
p=
20n
1n
2N
(0,1
)U
(0,1
)E
xp(1
)lo
g(x
)∼
N(0
,1)
SN
(1)
SN
(5)
SN
(10)
5%
10
%5%
10
%5%
10
%5%
10%
5%
10
%5%
10
%5%
10
%30
0,0
54
0,1
13
0,0
50
0,1
17
0,0
49
0,1
00
0,0
27
0,0
95
0,0
44
0,0
90
0,0
53
0,0
90
0,0
51
0,1
03
50
0,0
51
0,1
09
0,0
50
0,1
04
0,0
45
0,0
99
0,0
47
0,0
84
0,0
56
0,0
97
0,0
44
0,1
05
0,0
55
0,1
01
30
100
0,0
51
0,0
95
0,0
46
0,0
97
0,0
46
0,1
00
0,0
44
0,0
93
0,0
58
0,0
97
0,0
44
0,0
88
0,0
50
0,0
99
200
0,0
55
0,1
06
0,0
46
0,0
96
0,0
49
0,1
00
0,0
73
0,1
07
0,0
50
0,0
92
0,0
56
0,1
01
0,0
57
0,0
92
500
0,0
43
0,1
01
0,0
54
0,1
03
0,0
59
0,1
10
0,0
81
0,1
29
0,0
45
0,0
97
0,0
47
0,0
95
0,0
41
0,1
06
30
0,0
51
0,0
93
0,0
48
0,0
98
0,0
47
0,1
00
0,0
43
0,0
96
0,0
54
0,0
97
0,0
40
0,0
94
0,0
53
0,1
05
50
0,0
50
0,0
92
0,0
50
0,1
05
0,0
50
0,0
91
0,0
43
0,0
93
0,0
52
0,1
03
0,0
48
0,1
00
0,0
50
0,0
99
50
100
0,0
50
0,0
97
0,0
53
0,0
97
0,0
52
0,0
96
0,0
45
0,0
86
0,0
51
0,0
98
0,0
55
0,1
07
0,0
48
0,1
13
200
0,0
47
0,1
02
0,0
54
0,1
11
0,0
43
0,1
03
0,0
53
0,1
03
0,0
48
0,1
05
0,0
53
0,1
04
0,0
49
0,0
97
500
0,0
44
0,0
96
0,0
56
0,0
86
0,0
57
0,1
02
0,0
60
0,1
12
0,0
48
0,1
03
0,0
46
0,0
92
0,0
51
0,1
05
30
0,0
45
0,0
88
0,0
50
0,0
98
0,0
51
0,0
97
0,0
49
0,1
04
0,0
54
0,1
03
0,0
56
0,0
87
0,0
50
0,0
95
50
0,0
51
0,1
02
0,0
53
0,0
97
0,0
55
0,1
01
0,0
35
0,0
91
0,0
45
0,1
00
0,0
48
0,0
87
0,0
53
0,0
97
100
100
0,0
55
0,0
85
0,0
46
0,1
10
0,0
39
0,1
04
0,0
40
0,0
93
0,0
45
0,0
87
0,0
48
0,1
12
0,0
59
0,0
98
200
0,0
53
0,1
12
0,0
47
0,0
99
0,0
50
0,1
05
0,0
41
0,0
80
0,0
46
0,1
03
0,0
57
0,0
95
0,0
54
0,1
09
500
0,0
45
0,0
99
0,0
54
0,0
94
0,0
53
0,1
09
0,0
56
0,0
98
0,0
50
0,0
89
0,0
44
0,0
90
0,0
46
0,0
97
30
0,0
59
0,0
97
0,0
46
0,0
91
0,0
52
0,1
12
0,0
66
0,1
17
0,0
59
0,0
97
0,0
43
0,0
93
0,0
58
0,0
95
50
0,0
57
0,0
85
0,0
50
0,0
97
0,0
48
0,1
15
0,0
56
0,1
05
0,0
50
0,1
06
0,0
48
0,0
98
0,0
51
0,1
01
200
100
0,0
44
0,0
94
0,0
46
0,0
99
0,0
53
0,1
10
0,0
36
0,0
99
0,0
47
0,1
01
0,0
52
0,0
94
0,0
50
0,0
99
200
0,0
47
0,0
90
0,0
46
0,1
09
0,0
57
0,1
04
0,0
51
0,0
84
0,0
51
0,1
08
0,0
57
0,1
09
0,0
47
0,1
04
500
0,0
50
0,1
02
0,0
48
0,0
98
0,0
63
0,0
93
0,0
49
0,0
95
0,0
48
0,0
97
0,0
50
0,0
92
0,0
44
0,1
16
30
0,0
49
0,0
94
0,0
50
0,0
89
0,0
51
0,1
05
0,0
79
0,1
62
0,0
50
0,0
95
0,0
55
0,0
94
0,0
48
0,0
92
50
0,0
46
0,0
99
0,0
42
0,1
05
0,0
55
0,1
07
0,0
72
0,1
13
0,0
48
0,0
94
0,0
51
0,1
02
0,0
51
0,0
92
500
100
0,0
35
0,0
89
0,0
51
0,1
04
0,0
51
0,0
95
0,0
58
0,1
02
0,0
51
0,1
00
0,0
55
0,1
00
0,0
51
0,0
94
200
0,0
49
0,0
83
0,0
57
0,1
01
0,0
58
0,1
02
0,0
44
0,0
88
0,0
55
0,1
06
0,0
58
0,1
08
0,0
49
0,1
09
500
0,0
48
0,0
92
0,0
50
0,0
88
0,0
51
0,1
02
0,0
36
0,0
98
0,0
55
0,1
13
0,0
45
0,0
89
0,0
42
0,1
12
Universidad Nacional de Colombia 37
Capıtulo 3
LRT Aproximada para VerificarH0 bajo la Distribucion NSM
En la seccion 1.1.1 se mostro la deduccion de la prueba T 2 de Hotellingcomo la LRT de nivel α de H0 : µ = µ0, para el caso de una poblacion nor-mal, o H0 : µ1 = µ2, para el caso de dos poblaciones normales. Ahora bien,si la distribucion de los datos no es normal, el procedimiento adecuado esconstruir la LRT asumiendo la verdadera distribucion de los datos.
Para este estudio particular se construye la LRT aproximada para verifi-car H0 bajo la distribucion NSM, teniendo en cuenta una reparametrizacionde su funcion de densidad en la ecuacion 1.15 en terminos de los parametrosde localizacion y escala, como lo propone Azzalini & Capitanio (1999). Sea,
Y = µ + WZ
donde µ = (µ1, ...µp)′ y W = diag(ω1, ..., ωp) son los parametros de locali-
zacion y escala. Ası, la funcion de densidad de Y tal que Y ∼ SNp(µ, Σ, γ)queda dada por,
2φp(y − µ; Σ)Φ(γ′W−1(y − µ)) (3.1)
Resultado 1. La LRT aproximada para verificar H0 : µ = µ0 bajo ladistribucion SN p−variable es:
− 2 ln λ = n“ln |Σ| − ln |Σ0|
”+2
nXi=1
ln`Φ(γ′0W−1(yi − µ0))
´− 2
nXi=1
ln`Φ(γ′W−1(yi − µ))
´∼ χ2
p (3.2)
38
Diana Marcela Perez Valencia
(Prueba)
La prueba de razon de verosimilitud rechaza H0 si
λ =
supH0
L(µ, Σ, γ)
supH0∪Ha
L(µ, Σ, γ)=
L(µ0, Σ0, γ0)
L(µ, Σ, γ)< k (3.3)
donde k es desconocido tal que la prueba tiene nivel de significancia α.En forma equivalente λ se escribe como,
λ =
n∏i=1
2φp(yi − µ0; Σ0)Φ(γ′0W−1(yi − µ0))
n∏i=1
2φp(yi − µ; Σ)Φ(γ′W−1(yi − µ))(3.4)
que se expresa como,
λ =
n∏i=1
[2
(2π)p/2|Σ0|1/2 exp(−1
2(yi − µ0)
′Σ−10 (yi − µ0)
)][Φ(γ′0W
−1(yi − µ0))]
n∏i=1
[2
(2π)p/2|Σ|1/2 exp(−1
2(yi − µ)′Σ−1(yi − µ)
)][Φ(γ′W−1(yi − µ))]
Note que
−1
2
n∑i=1
(yi − µ0)′Σ−1
0 (yi − µ0) = −1
2tr
[Σ−1
0
(n∑
i=1
(yi − µ0)(yi − µ0)′
)]= −1
2tr nIp = −1
2np
y ası,
λ =
|Σ0|−n/2 exp(−1
2np) [ n∏
i=1
Φ(γ′0W−1(yi − µ0))
]|Σ|−n/2 exp
(−1
2np) [ n∏
i=1
Φ(γ′W−1(yi − µ))
]sacando logaritmo natural a ambos lados de la ecuacion se obtiene
lnλ =n
2
(ln |Σ| − ln |Σ0|
)+
n∑i=1
ln(Φ(γ′0W
−1(yi − µ0)))−
n∑i=1
ln(Φ(γ′W−1(yi − µ))
)Ahora bien, −2 ln λ ∼ χ2
ν , donde ν = dim(SH0∪Ha) − dim(SH0) = p, dondeSH0 y SH0∪Ha son el espacio parametral de la verosimilitud bajo H0 y bajo
Universidad Nacional de Colombia 39
Diana Marcela Perez Valencia
el modelo irrestricto, respectivamente. Finalmente se obtiene que la pruebade razon de verosimilitud bajo la distribucion normal sesgada con una solapoblacion queda determinada por,
−2 ln λ = n(ln |Σ| − ln |Σ0|
)+2
n∑i=1
ln(Φ(γ′0W
−1(yi − µ0)))−2
n∑i=1
ln(Φ(γ′W−1(yi − µ))
)∼ χ2
p
Resultado 2. la LRT aproximada para verificar H0 : µ1 = µ2 bajo ladistribucion SN p−variable, asumiendo que Σ1 = Σ2 es,
−2 ln λ = (n + 2)(ln |Σ0| − ln |Σ|
)− 2
n∑i=1
ln Φ(γ′01W−1(y1i − µ0))
−2m∑
j=1
ln Φ(γ′02W−1(y2j − µ0)) + 2
n∑i=1
ln Φ(γ′1W−1(y1i − µ1))
+2m∑
j=1
ln Φ(γ′2W−1(y2j − µ2)) ∼ χ2
p
(3.5)
(Prueba)
Sean los vectores aleatorios Y1 ∼ SNp(µ1,Σ1, γ1) y Y2 ∼ SNp(µ2,Σ2, α2),tal que su funcion de densidad conjunta esta dada por:
4φp(y1 − µ1; Σ1)Φ(γ′1W−1(y1 − µ1))φp(y2 − µ2; Σ2)Φ(γ′2W
−1(y2 − µ2)) (3.6)
Ahora bien, la LRT aproximada para verificar H0 : µ1 = µ2 bajo la distri-bucion SN p−variable, asumiendo que Σ1 = Σ2 se calcula como,
λ =
supH0
L(µ, Σ, γ1, γ2)
supH0∪Ha
L(µ1, µ2, Σ, γ1, γ2)=
L(µ0, Σ0, γ01, γ02)
L(µ1, µ2, Σ, γ1, , γ2)(3.7)
Ası,
λ =
4n∏
i=1
φp(y1i − µ0; Σ0)Φ(γ′01W−1(y1i − µ0))
m∏j=1
φp(y2j − µ0; Σ0)Φ(γ′0W−1(y2j − µ0))
4n∏
i=1
φp(y1i − µ1; Σ)Φ(γ′1W−1(y1i − µ1))
m∏j=1
φp(y2j − µ2; Σ)Φ(γ′2W−1(y2j − µ2))
Desarrollando este cociente se puede llegar a las siguientes formas para elnumerador y denominador respectivamente,
Universidad Nacional de Colombia 40
Diana Marcela Perez Valencia
L(µ0, Σ0, γ01, γ02)
1(2π)(n+m)/2|Σ0|(n+m)/2
exp(−1
2(n + m)p) n∏
i=1
Φ(γ′01W−1(y1i − µ0))
m∏j=1
Φ(γ′02W−1(y2j − µ0))
L(µ1, µ2, Σ, γ1, , γ2)
1(2π)(n+m)/2|Σ|(n+m)/2
exp(−1
2(n + m)p) n∏
i=1
Φ(γ′1W−1(y1i − µ1))
m∏j=1
Φ(γ′2W−1(y2j − µ2))
quedando que,
λ =
|Σ0|−(n+m)/2n∏
i=1
Φ(γ′01W−1(y1i − µ0))
m∏j=1
Φ(γ′02W−1(y2j − µ0))
|Σ|−(n+m)/2n∏
i=1
Φ(γ′1W−1(y1i − µ1))
m∏j=1
Φ(γ′2W−1(y2j − µ2))
sacando logaritmo natural a ambos lados de la igualdad se obtiene,
ln λ = (n+m)2
(ln |Σ| − ln |Σ0|
)+
n∑i=1
ln Φ(γ′01W−1(y1i − µ0))+
m∑j=1
ln Φ(γ′02W−1(y2j − µ0))−
n∑i=1
ln Φ(γ′1W−1(y1i − µ1))−
m∑j=1
ln Φ(γ′2W−1(y2j − µ2))
Ahora bien, −2 ln λ ∼ χ2ν , donde ν = dim(SH0∪Ha) − dim(SH0) = p. Final-
mente se obtiene que la prueba de razon de verosimilitud queda determinadapor,
−2 ln λ = (n + 2)(ln |Σ0| − ln |Σ|
)− 2
n∑i=1
ln Φ(γ′01W−1(y1i − µ0))
−2m∑
j=1
ln Φ(γ′02W−1(y2j − µ0)) + 2
n∑i=1
ln Φ(γ′1W−1(y1i − µ1))
+2m∑
j=1
ln Φ(γ′2W−1(y2j − µ2)) ∼ χ2
p
Universidad Nacional de Colombia 41
Capıtulo 4
Estudio de Simulacion
4.1. Metodologıa
En el paquete ‘sn’ del R, Azzalini (2007) desarrollo la funcion ‘msn.mle’
que realiza estimaciones de maxima verosimilitud para distribuciones norma-les sesgadas multivariadas. Teniendo como base este desarrollo se comapa-rara el desempeno de la prueba de razon de verosimilitud clasica (es decir,usando el estadıstico T 2 de Hotelling que asume normalidad en las poblacio-nes) y la LRT que tiene como base la distribucion normal sesgada multiva-riable. Para la comparacion vıa simulacion, los factores que se tuvieron encuenta ası como sus respectivos niveles fueron:
Tamano de muestra de la poblacion (n): 10, 30, 50, 100, 200 y 500
Numero de variables medidas (p): 2, 5, 10, 15 y 20.
Numero de simulaciones (N): 2000
Nivel de significancia nominal de la prueba (α): 0.01, 0.05 y 0.1
Distribucion de los datos: Se generaron p variables aleatorias indepen-dientes de la distribucion normal sesgada,
xi ∼ SN(γ = 0); i = 1, ..., p
donde
E[xi] =
(2
π
)1/2
δ = 0
conδ =
γ
(1 + γ2)1/2= 0
42
Diana Marcela Perez Valencia
En este caso lo importante es ver el comportamiento de las dos pruebasal variar el parametro de forma, γ. Ası, γ tomara valores de 0 (casonormal), 0.5, 1.0, 2.0
El parametro de interes es αdif , definida como,
αdif = αSN − αT 2 (4.1)
donde,
αSN es el porcentaje de muestras que exceden el verdadero nivel designificancia nominal, α, alcanzado por la prueba LRT que tiene comobase la distribucion normal sesgada multivariable.
αT 2 es el porcentaje de muestras que exceden el verdadero nivel designificancia nominal, α, alcanzado por la prueba T 2 de Hotelling.
Se dira entonces que si αdif → 0, no hay ningun aporte al calcular la pruebade razon de verosimilitud considerando el sesgo de la distribucion.
4.2. Resultados y Conclusiones
Los resultados de las simulaciones para comparaciones entre las dos prue-bas implementadas se muestran en las Figuras 4.1, 4.2 y 4.3 y en la Tabla4.1. A partir de estas graficas se puede concluir que:
La tasa de rechazo de la LRT bajo normalidad sesgada es muy alta entodos los casos, por lo que la prueba es muy conservadora.
A medida que se aumenta el nivel de significancia nominal, α, la po-tencia de la prueba LRT bajo normalidad sesgada disminuye.
La prueba T 2 de Hotelling es robusta ante cambios en el parametro desesgo de la distribucion normal sesgada. Esto nos lleva a pensar que lasensibilidad de la prueba con el sesgo de las distribuciones se debe masa la forma de la cola que al tamano del sesgo en sı mismo.
Universidad Nacional de Colombia 43
Diana Marcela Perez Valencia
Figura 4.1: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.01, usando la T 2 de Hotelling y la LRTbajo la distribucion normal sesgada
Universidad Nacional de Colombia 44
Diana Marcela Perez Valencia
Figura 4.2: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.05, usando la T 2 de Hotelling y la LRTbajo la distribucion normal sesgada
Universidad Nacional de Colombia 45
Diana Marcela Perez Valencia
Figura 4.3: Diferencias entre los porcentajes de muestras que exceden el nivel designificancia nominal α =0.1, usando la T 2 de Hotelling y la LRTbajo la distribucion normal sesgada
Universidad Nacional de Colombia 46
Diana Marcela Perez Valencia
Tabla
4.1
:D
ifere
ncia
sen
tre
los
porc
enta
jes
dem
uest
ras
que
exce
den
elni
velde
sign
ifica
ncia
nom
inal
α,us
ando
laT
2
deH
otel
ling
yla
LRT
bajo
ladi
stri
buci
onno
rmal
sesg
ada
np
SN
(0)
SN
(0,5
)S
N(1
)S
N(2
)1%
5%
10%
1%
5%
10%
1%
5%
10%
1%
5%
10%
2-0
,011
-0,0
53
-0,0
94
-0,0
10
-0,0
46
-0,0
98
-0,0
07
-0,0
43
-0,0
92
-0,0
12
-0,0
48
-0,1
04
5-0
,010
-0,0
51
-0,1
07
-0,0
08
-0,0
53
-0,0
94
-0,0
12
-0,0
48
-0,0
99
-0,0
14
-0,0
56
-0,1
05
30
10
-0,0
11
-0,0
52
-0,1
00
-0,0
13
-0,0
46
-0,0
96
-0,0
09
-0,0
48
-0,1
04
-0,0
11
-0,0
53
-0,1
06
15
-0,0
08
-0,0
55
-0,1
04
-0,0
10
-0,0
53
-0,0
94
-0,0
11
-0,0
49
-0,1
05
-0,0
11
-0,0
56
-0,0
99
20
-0,0
10
-0,0
50
-0,1
01
-0,0
07
-0,0
46
-0,1
02
-0,0
09
-0,0
46
-0,0
97
-0,0
10
-0,0
45
-0,1
05
2-0
,012
-0,0
57
-0,1
00
-0,0
12
-0,0
50
-0,0
91
-0,0
06
-0,0
48
-0,0
90
-0,0
08
-0,0
53
-0,0
95
5-0
,009
-0,0
56
-0,1
01
-0,0
11
-0,0
51
-0,0
97
-0,0
08
-0,0
37
-0,0
89
-0,0
10
-0,0
46
-0,0
87
50
10
-0,0
06
-0,0
45
-0,0
93
-0,0
09
-0,0
54
-0,1
00
-0,0
11
-0,0
47
-0,1
04
-0,0
10
-0,0
55
-0,1
04
15
-0,0
11
-0,0
46
-0,1
03
-0,0
08
-0,0
51
-0,0
97
-0,0
12
-0,0
49
-0,1
07
-0,0
11
-0,0
53
-0,1
07
20
-0,0
08
-0,0
48
-0,1
01
-0,0
09
-0,0
51
-0,0
97
-0,0
11
-0,0
53
-0,1
09
-0,0
10
-0,0
52
-0,1
08
2-0
,009
-0,0
56
-0,1
01
-0,0
12
-0,0
44
-0,1
00
-0,0
08
-0,0
56
-0,0
85
-0,0
09
-0,0
43
-0,0
93
5-0
,011
-0,0
51
-0,1
02
-0,0
12
-0,0
54
-0,1
03
-0,0
06
-0,0
49
-0,0
75
-0,0
04
-0,0
42
-0,0
87
100
10
-0,0
11
-0,0
49
-0,0
86
-0,0
10
-0,0
52
-0,1
01
-0,0
11
-0,0
50
-0,0
95
-0,0
10
-0,0
44
-0,1
08
15
-0,0
10
-0,0
48
-0,1
05
-0,0
10
-0,0
45
-0,1
01
-0,0
08
-0,0
54
-0,1
03
-0,0
08
-0,0
54
-0,1
01
20
-0,0
10
-0,0
54
-0,1
10
-0,0
11
-0,0
45
-0,1
07
-0,0
14
-0,0
53
-0,0
99
-0,0
13
-0,0
57
-0,1
06
2-0
,010
-0,0
47
-0,0
97
-0,0
10
-0,0
51
-0,1
01
-0,0
08
-0,0
47
-0,1
06
-0,0
04
-0,0
42
-0,0
89
5-0
,011
-0,0
49
-0,0
97
-0,0
10
-0,0
49
-0,1
04
-0,0
06
-0,0
46
-0,1
06
-0,0
03
-0,0
25
-0,0
61
200
10
-0,0
09
-0,0
53
-0,1
05
-0,0
11
-0,0
54
-0,1
05
0,0
05
-0,0
10
-0,0
52
0,0
05
-0,0
43
-0,0
71
15
-0,0
09
-0,0
51
-0,0
90
-0,0
10
-0,0
52
-0,1
07
-0,0
05
-0,0
41
-0,0
88
-0,0
01
-0,0
38
-0,0
78
20
-0,0
10
-0,0
50
-0,0
92
-0,0
11
-0,0
58
-0,1
01
-0,0
07
-0,0
57
-0,0
99
-0,0
10
-0,0
53
-0,1
10
2-0
,010
-0,0
43
-0,0
96
-0,0
10
-0,0
54
-0,0
97
-0,0
12
-0,0
43
-0,0
92
-0,0
09
-0,0
44
-0,1
02
5-0
,010
-0,0
48
-0,0
97
-0,0
12
-0,0
50
-0,1
00
-0,0
07
-0,0
56
-0,0
87
-0,0
11
-0,0
52
-0,0
82
500
10
-0,0
09
-0,0
49
-0,0
98
-0,0
07
-0,0
50
-0,0
89
-0,0
08
-0,0
49
-0,0
95
-0,0
12
-0,0
48
-0,0
93
15
-0,0
13
-0,0
53
-0,0
90
-0,0
08
-0,0
54
-0,0
98
-0,0
10
-0,0
47
-0,0
96
-0,0
13
-0,0
45
-0,1
00
20
-0,0
10
-0,0
44
-0,0
92
-0,0
09
-0,0
47
-0,1
00
-0,0
07
-0,0
49
-0,0
98
-0,0
02
-0,0
28
-0,0
58
Universidad Nacional de Colombia 47
Capıtulo 5
Aplicacion: ACOPLA95
En Velez (1997) se publicaron algunos de los detalles y conclusiones delestudio sobre parametros antropometricos realizado en 12 ciudades y 45 em-presas del paıs. Esta, fue la primera investigacion sobre parametros antropo-metricos en la poblacion colombiana de trabajadores y fue financiado por laAdministradora de Riesgos Profesionales del ISS. La motivacion principalque llevo al grupo de expertos a realizar el estudio fue la verificacion de lahipotesis, H0 : los puestos y herramientas de trabajo no son aptos para losempleados que laboran en estas empresas. Para verificar esta y otras hipote-sis derivadas, se conto con 393 observaciones y 71 variables.
Con el fin de ilustrar el uso de los estadısticos desarrollados, se conside-ran el par de variables Masa Corporal (en dg) - Estatura (en mm) para elgrupo de los hombres en el estudio. En la Figura 5.1 se muestra el grafico dedispersion de estas dos variables con los contornos ajustados de la distribu-cion SN2. Tanto los puntos observados como la densidad ajustada muestranun sesgo moderado para cada una de las componentes.
Los estimadores maximo verosımiles de los parametros de localizacion, escalay forma en este caso son,
µ =
[474,9421532,762
]; Σ =
[28276,648 6353,3256353,325 4113,133
]; γ =
[3,871−0,050
]Con el fin de probar normalidad multivariada, se consideran dos medidascombinadas propuestas por Mardia (1970), una de asimetrıa (b1) y otra dekurtosis (b2) y se calculan sus respectivos valores−p, como se muestra en laTabla 5.1
48
Diana Marcela Perez Valencia
Figura 5.1: Contornos de la Funcion de Densidad Bivariada de Masa Corporalvs. Estatura para hombres
Tabla 5.1: Prueba de normalidad multivariada
b1 valor−p b2 valor−p1.007 ((0.000 9.240 0.011
Con la prueba de Mardia podemos concluir que hay cierta desviacion dela normalidad multivariada y que evidentemente γ 6= 0.
Ahora bien, suponga que se desea probar la hipotesis H0 : µ = µ0, don-de µ0 se muestra en la Tabla 5.2. Para esto, se comparan los estadısticosT 2 de Hotelling y LRT bajo la Normal Sesgada con el percentil 0.95 de ladistribucion F = 3,0379 y de la distribucion χ2 = 5,9915, respectivamente.Los resultados que se obtienen se muestran en la Tabla 5.2. Note una vez
Universidad Nacional de Colombia 49
Diana Marcela Perez Valencia
mas como la prueba LRTSN es mas conservadora que la T 2 incluso paracomparaciones considerablemente desviadas del vector de medias real.
Tabla 5.2: Comparacion entre la prueba T 2 de Hotelling y la LRTSN para ve-rificar H0 : µ = µ0 a un nivel de significancia del 0.05 con datos demasa corporal y estatura de hombres
µ0 Prueba Estadıstico de Prueba Resultadox = (604,76; 1561,51) T 2 0,000 No rechazar H0
x = (604,76; 1561,51) LRTSN 0,000 No rechazar H0
x = (604,76 + 50; 1561,51 + 50) T 2 82,945 Rechazar H0
x = (604,76 + 50; 1561,51 + 50) LRTSN 0,000 No rechazar H0
x = (604,76 + 50; 1561,51) T 2 28,796 Rechazar H0
x = (604,76 + 50; 1561,51) LRTSN 0,015 No rechazar H0
x = (604,76; 1561,51 + 50) T 2 100,086 Rechazar H0
x = (604,76; 1561,51 + 50) LRTSN 0,001 No rechazar H0
x = (604,76− 50; 1561,51− 50) T 2 0,000 No rechazar H0
x = (604,76− 50; 1561,51− 50) LRTSN 0,000 No rechazar H0
x = (604,76− 50; 1561,51) T 2 100,086 Rechazar H0
x = (604,76− 50; 1561,51) LRTSN 0,001 No rechazar H0
x = (604,76; 1561,51− 50) T 2 28,796 Rechazar H0
x = (604,76; 1561,51− 50) LRTSN 0,015 No rechazar H0
Universidad Nacional de Colombia 50
Capıtulo 6
Conclusiones yRecomendaciones
A lo largo de este trabajo se abordo el problema de la robustez de laprueba T 2 de Hotelling cuando se consideran distribuciones sesgadas. Sinembargo, vıa simulacion se pudo corroborar que la sensibilidad de la pruebano se debe al sesgo sino a la forma de las colas de la distribucion. Este re-sultado se convierte en un hallazgo importante y da la posibilidad de abrirespacios a nuevas investigaciones sobre la robustez de la prueba al caracte-rizar las colas de las distribuciones. Tambien se pueden hacer extensiones aeste trabajo al considerar p variables correlacionadas.
De forma general los resultados encontrados en este trabajo concuerdancon los obtenidos en la literatura revisada y que se reporto en la seccion1.2. Adicional a esto, se encontro que cuando se construye la pueba de razonde verosimilitud bajo la distribucion normal sesgada, esta llega a ser masconservadora que la prueba T 2 de Hotelling clasica. A pesar que la distribu-cion normal sesgada considera un parametro de sesgo, el estadıstico T 2 deHotelling resulto ser una prueba robusta para este caso.
51
Bibliografıa
Azzalini, A. (1985), ‘A class of Distributions which Includes de Normal Ones’,Scand. J. Statis 12, 171–178.
Azzalini, A. (2007), R package sn: The skew-normal and skew-t dis-tributions (version 0.4-4), Universita di Padova, Italia. URLhttp://azzalini.stat.unipd.it/SN.
Azzalini, A. & Capitanio, A. (1999), ‘Statistical Applications of the Multiva-riate Skew Normal Distribution’, Royal Statistical Society 61(3), 579–602.
Azzalini, A. & Dalla-Valle, A. (1996), ‘The Multivariate Skew-Normal Dis-tribution’, Biometrika 83(4), 715–726.
Casella, G. & Berger, R. (2002), Statistical Inference, 2 edn, Duxbury, UnitedState of America.
Chase, G. & Bulgren, W. (1971), ‘A Monte Carlo Investigation of theRobustness of T 2’, Journal of the American Statistical Association66(335), 499–502.
Everitt, B. (1979), ‘A Monte Carlo Investigation of the Robustness of Hote-lling’s One- and Two Sample T 2 Test’, Journal of the American Statis-tical Association 74(365), 48–51.
Fujikoshi, Y. (1997), ‘An Asymptotic Expansion for the Distribution of Hote-lling’s T 2-Statistic under Nonnormality’, Journal of Multivariate Analy-sis 61, 187–193.
Holloway, L. & Dunn, O. (1967), ‘The Robustness of Hotelling’s T 2’, Journalof the American Statistical Association 62(317), 124–136.
52
Diana Marcela Perez Valencia
Hopkins, J. & Clay, P. (1963), ‘Some Empirical Distributions of Bivariate T 2
and Homoscedasticity Criterion M Under Unequal Variance and Lepto-kurtosis’, Journal of the American Statistical Association 58(304), 1048–1053.
Hotelling, H. (1931), ‘The Generalization of Student’s Ratio’, The Annals ofMathematical Statistics 2(3), 360–378.
Mardia, K. (1970), ‘Measures of Multivariates Skewness and Kurtosis withApplications’, Biometrika 57, 519–530.
Mardia, K. (1975), ‘Assessment of Multinormality and the Robustness ofHotelling’s T 2 Test’, Applied Statistics 24(2), 163–171.
R Development Core Team (2007), R: A Language and Environment for Sta-tistical Computing, R Foundation for Statistical Computing, Vienna,Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
Rojo, J. (1996), ‘On Tail Categorization of Probability Laws’, Journal of theAmerican Statistical Association 91, 378–384.
Srivastava, A. (1958), ‘Effect of Non-Normality on the Power Function oft-Test’, Biometrika 45, 421–430.
Velez, M. (1997), ‘Los colombianos somos bajitos y gorditos’, El Colombiano,Salud 5C .
Wu, Y. A., Genton, M. G. & Stefanski, L. A. (2006), ‘A Multivariate Two-Sample Mean Test for Small Sample Size and Missing Data’, Biometrics62, 877–885.
Universidad Nacional de Colombia 53
Apendice A
Programa en R
#.................................................................
# FUNCION PARA CALCULAR LA T2 PARA UNA POBLACION
#.................................................................
T21.Hotelling<-function(pob,mu0,alpha)
{
p<-ncol(pob)
p0<-length(mu0)
if(p!=p0)stop(’Dimension incorrecta!’)
n<-nrow(pob)
mu<-matrix(colMeans(pob),ncol=p)
S<-cov(pob)
T2<-n*(mu-mu0)%*%chol2inv(chol((S)))%*%t(mu-mu0)
F.test<-(n-p)*T2/(p*(n-1))
F.dist<-qf(1-alpha,p,n-p)
res<-ifelse(F.test>F.dist,1,0)
res
}
#.................................................................
# FUNCION PARA CALCULAR LA T2 PARA UNA POBLACION
#(USANDO LOS GRADOS DE LIBERTAD DE MARDIA (1974) EN EVERITT(1979))
#.................................................................
T21.Hotelling<-function(pob,mu0,alpha)
{
p<-ncol(pob)
p0<-length(mu0)
if(p!=p0)stop(’Dimension incorrecta!’)
n<-nrow(pob)
mu<-matrix(colMeans(pob),ncol=p)
S<-cov(pob)
T2<-n*(mu-mu0)%*%solve(S)%*%t(mu-mu0)
U<-matrix(1,n)
aux<-(pob-U%*%mu)%*%ginv(S)%*%t(pob-U%*%mu)
kur<-(1/n)*sum(diag(aux)^2)
delta<-1+(1/n)*((kur-p*(p+2))/(p))
F.test<-delta*(n-p)*T2/(delta*p*(n-1))
F.dist<-qf(1-alpha,p,n-p)
res<-ifelse(F.test>F.dist,1,0)
res
54
Diana Marcela Perez Valencia
}
#.................................................................
# FUNCION PARA CALCULAR LA T2 PARA DOS POBLACIONES
#.................................................................
T22.Hotelling<-function(pob1,pob2,alpha)
{
p1<-ncol(pob1)
p2<-ncol(pob2)
if(p1!=p2)stop(’Dimension incorrecta!’)
p<-p1
n1<-nrow(pob1)
n2<-nrow(pob2)
n<-n1+n2
mean1<-matrix(colMeans(pob1),nrow=p1)
mean2<-matrix(colMeans(pob2),nrow=p2)
S1<-cov(pob1)
S2<-cov(pob2)
S<-((n1-1)*S1+(n2-1)*S2)/(n1+n2-2)
T2<-((n1*n2)/(n1+n2))*t(matrix(mean1-mean2,ncol=1))%*%
solve(S)%*%matrix(mean1-mean2,ncol=1)
F.test<-(n-p-1)*T2/(p*(n-2))
F.dist<-qf(1-alpha,p,n-p-1)
res<-ifelse(F.test>F.dist,1,0)
res
}
#.................................................................
# LRT APROXIMADA BAJO LA DISTRIBUCION NSM
# CON BASE EN EL ALGORITMO DE AZZALINI (msn.mle)
#.................................................................
msn.dev<-function (param, X, y, freq, trace = FALSE)
{
d <- ncol(y)
if (missing(freq))
freq <- rep(1, nrow(y))
n <- sum(freq)
m <- ncol(X)
beta <- matrix(param[1:(m * d)], m, d)
al.om <- param[(m * d + 1):(m * d + d)]
y0 <- y - X %*% beta
Omega <- (t(y0) %*% (y0 * freq))/n
D <- diag(qr(2 * pi * Omega)[[1]])
logDet <- sum(log(abs(D)))
dev <- n * logDet - 2 * sum(zeta(0, y0 %*% al.om) * freq) +
n * d
dev
}
msn.dev.grad<-function (param, X, y, freq, trace = FALSE)
{
d <- ncol(y)
if (missing(freq))
freq <- rep(1, nrow(y))
n <- sum(freq)
m <- ncol(X)
beta <- matrix(param[1:(m * d)], m, d)
al.om <- param[(m * d + 1):(m * d + d)]
Universidad Nacional de Colombia 55
Diana Marcela Perez Valencia
y0 <- y - X %*% beta
Omega <- (t(y0) %*% (freq * y0))/n
p1 <- zeta(1, as.vector(y0 %*% al.om))
Dbeta <- t(X) %*% (y0 * freq) %*% solvePD(Omega) - outer(as.vector(t(X *
freq) %*% p1), al.om)
Dal.om <- as.vector(t(y0 * freq) %*% p1)
-2 * c(Dbeta, Dal.om)
}
solvePD<-function (x)
{
u <- chol(x, pivot = FALSE)
if (prod(diag(u)) <= 0)
stop("matrix not positive definite")
chol2inv(u)
}
num.deriv2<-function (x, FUN, ...)
{
FUN <- get(FUN, inherit = TRUE)
values <- FUN(x, ...)
p <- length(values)
H <- matrix(0, p, p)
delta <- cbind((abs(x) + 1e-10) * 1e-05, rep(1e-06, p))
delta <- apply(delta, 1, max)
for (i in 1:p) {
x1 <- x
x1[i] <- x1[i] + delta[i]
H[, i] <- (FUN(x1, ...) - values)/delta[i]
}
(H + t(H))/2
}
LRT.MSN.una<-function (y, mu0, alfa, trace = FALSE, control = list())
{
# Espacio irrestricto
y <- data.matrix(y)
p <- ncol(y)
X <- rep(1, nrow(y))
freq <- rep(1, nrow(y))
X <- data.matrix(X)
fit0 <- lm.fit(X, y, method = "qr")
beta <- as.matrix(coef(fit0))
res <- resid(fit0)
a <- msn.moment.fit(res)
Omega <- a$Omega
omega <- a$omega
alpha <- a$alpha
if (!a$admissible)
alpha <- alpha/(1 + max(abs(alpha)))
beta[1, ] <- beta[1, ] - omega * a$delta * sqrt(2/pi)
al.om <- alpha/omega
param <- c(beta, al.om)
dev <- msn.dev(param, X, y, freq)
opt <- optim(param, fn = msn.dev, gr = msn.dev.grad,
method = ’BFGS’, control = control, X = X, y = y,
freq = freq, trace = trace)
logL <- opt$value/(-2)
# Espacio bajo H0
Universidad Nacional de Colombia 56
Diana Marcela Perez Valencia
beta0 <- matrix(mu0,nrow=1)
res0 <- y - X%*%(beta0)
a0 <- msn.moment.fit(res)
Omega0 <- a0$Omega
omega0 <- a0$omega
alpha0 <- a0$alpha
if (!a0$admissible)
alpha0 <- alpha0/(1 + max(abs(alpha0)))
beta0[1, ] <- beta0[1, ] - omega0 * a0$delta * sqrt(2/pi)
al.om0 <- alpha0/omega0
param0 <- c(beta0, al.om0)
dev0 <- msn.dev(param0, X, y, freq)
opt0 <- optim(param0, fn = msn.dev, gr = msn.dev.grad,
method = ’BFGS’, control = control, X = X, y = y,
freq = freq, trace = trace)
logL0 <- opt0$value/(-2)
lambda<-2*(logL-logL0)
Chi.dist<-qchisq(1-alfa,p)
rechazo <- ifelse(lambda > Chi.dist,1,0)
rechazo
}
#.................................................................
# SIMULACIONES DE VERIFICACION PARA RESULTADOS DE EVERITT(1979)
# n: Tama~no de la muestra
# p: Numero de variables
# Nsim: Numero de simulaciones
# alpha: Nivel de significancia de la prueba
#.................................................................
require(MASS)
require(mvtnorm)
require(mnormt)
require(sn)
#-----------------------------------------------------------------
# Distribucion Normal Multivariada: x~N(0,1)
#-----------------------------------------------------------------
#PARA EL CASO DE UNA POBLACION
porcentaje<-function(n,p,Nsim=3000,alpha)
{
mu0<-rep(0,p) # E[x] = mu = 0
pob<-array(rnorm(n*p*Nsim),dim=c(n,p,Nsim))
temp<-apply(pob,3,T21.Hotelling,mu0,alpha)
res<-sum(temp)*100/Nsim
res
}
#PARA EL CASO DE DOS POBLACIONES
porcentaje<-function(n1,n2,p,Nsim=2000,alpha)
{
temp<-matrix(NA,ncol=1,nrow=Nsim)
for(i in 1:Nsim){
temp[i]<-T22.Hotelling(rmvnorm(n1,rep(0,p),diag(1:p)),
rmvnorm(n2,rep(0,p),diag(1:p)),alpha)}
res<-sum(temp)*100/Nsim
res
Universidad Nacional de Colombia 57
Diana Marcela Perez Valencia
}
#-----------------------------------------------------------------
# Distribucion Uniforme: p variables generadas independientemente
# de una U(0,1)
#-----------------------------------------------------------------
#PARA EL CASO DE UNA POBLACION
porcentaje<-function(n,p,Nsim=3000,alpha)
{
mu0<-rep(0.5,p) # E[x] = (a+b)/2 = 0.5
pob<-array(runif(n*p*Nsim),dim=c(n,p,Nsim))
temp<-apply(pob,3,T21.Hotelling,mu0,alpha)
res<-sum(temp)*100/Nsim
res
}
#PARA EL CASO DE DOS POBLACIONES
porcentaje<-function(n1,n2,p,Nsim=2000,alpha)
{
temp<-matrix(NA,ncol=1,nrow=Nsim)
for(i in 1:Nsim){
temp[i]<-T22.Hotelling(matrix(runif(n1*p),ncol=p),
matrix(runif(n2*p),ncol=p),alpha)}
res<-sum(temp)*100/Nsim
res
}
#-----------------------------------------------------------------
# Distribucion Exponencial: p variables generadas independientemente
# de una Exp(1)
#-----------------------------------------------------------------
#PARA EL CASO DE UNA POBLACION
porcentaje<-function(n,p,Nsim=3000,alpha)
{
mu0<-rep(1,p) # E[x] = lambda = 1
pob<-array(rexp(n*p*Nsim),dim=c(n,p,Nsim))
temp<-apply(pob,3,T21.Hotelling,mu0,alpha)
res<-sum(temp)*100/Nsim
res
}
#PARA EL CASO DE DOS POBLACIONES
porcentaje<-function(n1,n2,p,Nsim=2000,alpha)
{
temp<-matrix(NA,ncol=1,nrow=Nsim)
for(i in 1:Nsim){
temp[i]<-T22.Hotelling(matrix(rexp(n1*p),ncol=p),
matrix(rexp(n2*p),ncol=p),alpha)}
res<-sum(temp)*100/Nsim
res
}
#-----------------------------------------------------------------
# Distribucion Lognormal: p variables generadas independientemente
# tales que log(x)~N(0,1)
#-----------------------------------------------------------------
#PARA EL CASO DE UNA POBLACION
Universidad Nacional de Colombia 58
Diana Marcela Perez Valencia
porcentaje<-function(n,p,Nsim=3000,alpha)
{
mu0<-rep(exp(.5),p) # E[x] = exp(mu+(sigma^2)/2) = exp(0.5)
pob<-array(rlnorm(n*p*Nsim),dim=c(n,p,Nsim))
temp<-apply(pob,3,T21.Hotelling,mu0,alpha)
res<-sum(temp)*100/Nsim
res
}
#PARA EL CASO DE DOS POBLACIONES
porcentaje<-function(n1,n2,p,Nsim=2000,alpha)
{
temp<-matrix(NA,ncol=1,nrow=Nsim)
for(i in 1:Nsim){
temp[i]<-T22.Hotelling(matrix(rlnorm(n1*p),ncol=p),
matrix(rlnorm(n2*p),ncol=p),alpha)}
res<-sum(temp)*100/Nsim
res
}
#-----------------------------------------------------------------
# Distribucion Normal Sesgada Multivariable: p variables generadas
# independientemente
#-----------------------------------------------------------------
#PARA EL CASO DE UNA POBLACION
porcentaje<-function(n,p,Nsim=3000,alpha)
{
lambda<-1.5
delta=lambda/((1+lambda^2)^(1/2))
mu0<-rep(delta*((2/pi)^(1/2)),p)
# E[x] = delta*(2/pi)^1/2 = 0.5641896
# delta=lambda/(1+lambda^2)^1/2=0.7071068
pob<-array(rsn(n*p*Nsim,shape=1),dim=c(n,p,Nsim))
# by default is shape=0=lambda -> N(0,1)
temp<-apply(pob,3,T21.Hotelling,mu0,alpha)
res<-sum(temp)*100/Nsim
res
}
#PARA EL CASO DE DOS POBLACIONES
porcentaje<-function(n1,n2,p,Nsim=2000,alpha)
{
temp<-matrix(NA,ncol=1,nrow=Nsim)
for(i in 1:Nsim){
temp[i]<-T22.Hotelling(matrix(rsn(n1*p,shape=1),ncol=p),
matrix(rsn(n2*p,shape=1.5),ncol=p),alpha)}
res<-sum(temp)*100/Nsim
res
}
#-----------------------------------------------------------------
# RESULTADOS PARA COMPARACIONES CON UNA POBLACION
# n = 10,30,50,100,200,500
# p = 2,5,10,15,20
# Nsim = 3000
# alpha = 0.01,0.05,0.10
#-----------------------------------------------------------------
n<-c(30,50,100,200,500)
Universidad Nacional de Colombia 59
Diana Marcela Perez Valencia
p<-c(2,5,10,15,20)
alpha<-c(0.01,0.05,0.10)
res<-matrix(NA,ncol=4,nrow=3)
aux<-NULL
for(k in 1:length(n))
{
for(j in 1:length(p))
{
for(i in 1:length(alpha))
res[i,]<-cbind(n[k],p[j],alpha[i],porcentaje(n=n[k],
p=p[j],alpha=alpha[i]))
aux<-rbind(aux,res)
}
}
write.table(aux,’c:/res.csv’,sep=’;’,append=T,dec=’,’)
#-----------------------------------------------------------------
# RESULTADOS PARA COMPARACIONES CON DOS POBLACIONES
# n1 = 10,30,50,100,200,500
# n2 = 10,30,50,100,200,500
# p = 2,5,10,15,20
# Nsim = 2000
# alpha = 0.01,0.05,0.10
#-----------------------------------------------------------------
n1<-c(10,30,50,100,200,500)
n2<-c(10,30,50,100,200,500)
p<-c(2,5,10,15,20)
alpha<-c(0.01,0.05,0.10)
res<-matrix(NA,ncol=5,nrow=3)
aux<-NULL
for(k in 1:length(n2))
{
for(j in 1:length(p))
{
for(i in 1:length(alpha))
res[i,]<-cbind(n1[1],n2[k],p[j],alpha[i],porcentaje(n1=n1[1],
n2=n2[k],p=p[j],alpha=alpha[i]))
aux<-rbind(aux,res)
}
}
write.table(aux,’c:/res.csv’,sep=’;’,append=T)
#.................................................................
# GRAFICOS PARA COMPARACIONES DE RESULTADOS SIMULADOS
#.................................................................
# GRAFICOS PARA COMPARACIONES CON UNA POBLACION
grafica<-function(distrib,pe,datos,alpha.te,i,mini,maxi)
{
attach(datos)
pos.new.base<-which(p==pe & alpha.t==alpha.te & distri==distrib)
new.base<-datos[pos.new.base,]
detach(datos)
attach(new.base)
if(i==1)
plot(n,alpha.a,type=’l’,col=i,ylim=c(mini,maxi),
Universidad Nacional de Colombia 60
Diana Marcela Perez Valencia
ylab=expression(alpha[0]),
main=(paste("a = ",alpha.te,", p = ",pe)))
else
lines(n,alpha.a,type=’l’,col=i)
}
setwd(’D:/My Documents/Mi Magister/TESIS/Tesis Diana’)
datos<-read.csv2("unaComunesNew.csv")
attach (datos) #detach(datos)
str(datos)
par(mfrow=c(3,5))
distrib<-matrix(unique(distri),ncol=1)
pe<-matrix(unique(p),ncol=1)
alpha.te<-matrix(unique(alpha.t),ncol=1)
for(k in 1:length(alpha.te))
{
for(j in 1:length(pe))
{
for(i in 1:length(distrib))
grafica(distrib[i,],pe[j,],datos,alpha.te[k,],i,0,1)
}
}
# GRAFICOS PARA COMPARACIONES CON UNA POBLACION CON MARDIA
datos<-read.csv2("unaDifNew.csv")
attach (datos) #detach(datos)
str(datos)
par(cex.axis=.8)
par(mfrow=c(3,5))
distrib<-matrix(unique(distri),ncol=1)
pe<-matrix(unique(p),ncol=1)
alpha.te<-matrix(unique(alpha.t),ncol=1)
for(k in 1:length(alpha.te))
{
for(j in 1:length(pe))
{
for(i in 1:length(distrib))
grafica(distrib[i,],pe[j,],datos,alpha.te[k,],i,-0.045,.035)
#legend(5,100,legend=distrib,col=1:length(distrib),pch=’__’)
}
}
#GRAFICOS PARA COMPARACIONES CON DOS POBLACIONES
setwd(’D:/My Documents/Mi Magister/TESIS/Tesis Diana’)
datos<-read.csv2("DosPob_New.csv")
attach (datos) #detach(datos)
str(datos)
grafica<-function(datos,distrib,pe,alpha.te,i,mini,maxi)
{
attach(datos)
pos.new.base<-which(p==pe & alpha.t==alpha.te & distri==distrib)
new.base<-datos[pos.new.base,]
detach(datos)
attach(new.base)
x<-unique(n1)
y<-unique(n2)
z<-matrix(alpha.a,ncol=length(x),nrow=length(y))
persp(x, y, z, theta = 45,expand=0.5,phi=0,
Universidad Nacional de Colombia 61
Diana Marcela Perez Valencia
axes=T,ticktype=’detailed’,zlim=c(mini,maxi),
zlab=’’,col=i,xlab=’’, ylab=’’,xlim=c(0,500),ylim=c(0,500),
main=(paste("a = ",alpha.te,", p = ",pe)))
}
Universidad Nacional de Colombia 62