Post on 24-Sep-2015
description
BIOESTADSTICAParaAntroplogosFsicos
JosLuisCastrejnyDianaTroncoso
[Seleccionarfecha]
NotasparaelcursodeBioestadstica impartidoenelsegundosemestrede la licenciaturaenAntropologaFsicadelaEscuelaNacionaldeAntropologaeHistoria.Versinpreliminar.
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
2
UNIDAD I Introduccin Como su nombre lo dice, el objetivo principal de la ESTADSTICA INFERENCIAL es inferir los PARMETROS POBLACIONALES; es decir, a partir de una muestra aleatoria, establecer con la mayor probabilidad posible los valores desconocidos de la poblacin estudiada; por ejemplo; la media , proporcin p o varianza 2 . Generalmente, el investigador puede plantear hiptesis sobre los parmetros; por ejemplo:
HIPTESIS LITERAL DEL INVESTIGADOR
HIPTESIS ESTADSTICA DEL INVESTIGADOR
La proporcin de personas en la ENAH que usan lentes es menor a 0.2 20.0: : La media de la estatura en las mujeres estudiantes de la ENAH es menor a 165 cm. 165: : Empero, es tarea de la estadstica inferencial determinar si estas hiptesis son vlidas o no, mediante alguna de las siguientes tcnicas: 1. ESTIMACIN:
a) Puntual: En la cual, a partir de los datos de una muestra y la distribucin probabilstica de la variable, se estima un valor para el parmetro.
b) Por intervalos: A travs de la cual, partiendo de la informacin de la muestra y la distribucin probabilstica de la variable, se define un rango de valores entre los cuales probablemente se encuentra el del parmetro.
2. PRUEBAS O CONTRASTES DE HIPTESIS: Estrategia que, utilizando los datos
de la muestra y la distribucin probabilstica de la variable, define la probabilidad de cometer un error en la estimacin y se determina una regin de rechazo para la hiptesis.
ESTIMACIN PUNTUAL Sea la letra con la que se denota un parmetro poblacional. Si se toma una muestra aleatoria de tamao n ( )nXXXX ,...,,, 321 , es una funcin de los valores de la muestra: ( )nXXXXf ,...,,, 321= ; es decir, es un estimador puntual de . A. MTODO PARA HALLAR ESTIMADORES PUNTUALES Existen diversos procedimientos para encontrar estimadores puntuales de los parmetros poblacionales ; por ejemplo: el mtodo de momentos, el de mnimos
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
3
cuadrados y el de funcin de verosimilitud. Por el momento, revisemos slo ste ltimo: A.1) MTODO DE FUNCIN DE VEROSIMILITUD Si nXXXX ,...,,, 321 son los datos de una muestra aleatoria que se obtuvo de cierta poblacin cuya funcin de probabilidad es ( )xP , la funcin de verosimilitud de la muestra es ( ) ( ) ( ) ( ) ( )nn XPXPXPXPXXXXL ...,...,,, 321321 = . Por ello, este mtodo de estimacin consiste en encontrar el valor del parmetro donde la funcin ( )nXXXXL ,...,,, 321 alcance su mximo; es decir, hay que calcular la derivada de d
dL, igualarla a cero y despejar . Veamos, algunos ejemplos de esto:
A.1.1) Estimador del parmetro Sean nXXXX ,...,,, 321 los datos de una muestra aleatoria que se obtuvo de cierta poblacin donde la variable X tiene distribucin poisson con parmetro [X~P( )]. Cul es el mejor estimador de ste parmetro? Sabemos que la distribucin de la variable X es:
( )!x
exPx=
Por ende, cada iX tiene tal distribucin:
( )!1
1
1
xexP
x= , ( ) !222
xexP
x= , ( )!3
3
3
xexP
x= ,, ( )!n
x
n xexP
n=
Siguiendo la expresin ( ) ( ) ( ) ( ) ( )nn XPXPXPXPXXXXL ...,...,,, 321321 = , la funcin de verosimilitud de esta variable es:
( )!!!!
,...,,,321
321
321
n
xxxx
n xe
xe
xe
xeXXXXL
n =
Lo cual puede abreviarse a:
!...321
...321
n
xxxxn
xxxxeL
n
=
++++
Y ello reducirse en:
!
1
i
xn
xeL
n
ii
= =
Porque =
=++++n
iin xXXXX
1321 ... in xXXXX = ...321
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
4
Ahora hay que maximizar la funcin. Si sta es una funcin cualquiera, los puntos crticos de ( )xf son los mismos que los valores crticos del logaritmo natural ( )xf : ( ) 0ln =
dxxfd
= =
!lnln
1
i
xn
xeL
n
ii
Como: baba lnlnln =
( )!lnlnln 1 ixn xeLn
ii
= =
Como: ( ) baba lnlnln += : ( ) ( )!lnlnlnln 1 ixn xeL
n
ii
+= =
Como: xe x =ln xyx y lnln = ( )!lnlnln
1i
n
ii xxnL +=
=
Y obtener la derivada: ( )
dxd
ddx
ddn
dLd in
ii
!lnlnln1
+= =
Como: ( ) ( )
dxxcdf
dxxdcf =
xdxxd 1ln = 0=
dxdc
011
+= =
n
iixnd
dL
Igualando a cero, el parmetro se convierte en estimador y resta despejarlo:
01 =+=
n
iix
n
nx
n
ii
==1
1
nxn
ii =
= 1 =
=n
xn
ii
=x
Y as sabemos que al tener una variable aleatoria con distribucin poisson [X~P( )], el estimador de mxima verosimilitud del parmetro es la media muestral x .
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
5
A.1.2) Estimador del parmetro p Sean nXXXX ,...,,, 321 los datos de una muestra aleatoria que se obtuvo de cierta poblacin, donde la variable X tiene distribucin bernoulli con parmetro p [X~Be( p )]. Cul es el mejor estimador de ste parmetro? Sabemos que la distribucin de la variable X es:
( ) ( ) 1,0;1 1 == xppxP xx Por ende, cada iX tiene tal distribucin: ( ) ( ) 11 11 1 xx ppxP = , ( ) ( ) 22 12 1 xx ppxP = , ( ) ( ) 33 13 1 xx ppxP = , ( ) ( ) nn xxn ppxP = 11
Siguiendo la expresin ( ) ( ) ( ) ( ) ( )nn XPXPXPXPXXXXL ...,...,,, 321321 = , la
funcin de verosimilitud de esta variable es: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) nn xxnxxxxxx ppxPppxPppxPppxPL ===== 1131211 1111 332211
Lo cual puede abreviarse a:
( ) nnxxxx xxxxppL ++++= ++++ 1...111 321...321 1 Y ello reducirse en:
( ) = == n
ii
n
ii xn
x
ppL 11 1
Porque =
=++++n
iin xXXXX
1321 ... in xXXXX = ...321
Ahora hay que maximizar la funcin. Si sta es una funcin cualquiera, los
puntos crticos de ( )xf son los mismos que los valores crticos del logaritmo natural ( )xf : ( ) 0ln =
dxxfd
( )
= == n
ii
n
ii xn
x
ppL 11 1lnln
Como: ( ) baba lnlnln += ( ) += ==
n
ii
n
ii xn
x
ppL 11 1lnlnln Como: xyx y lnln =
( )pxnpxL ni
i
n
ii
+=
==1lnlnln
11
Y obtener la derivada:
( )pxnpxdpLd n
ii
n
ii
+=
== 111ln
11
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
6
( )pxn
p
x
dpLd
n
ii
n
ii
+=
==
1ln 11
Y se multiplica por menos 1, por ende
( )pxn
p
x
dpLd
n
ii
n
ii
=
==
1ln 11
Igualando a cero, el parmetro p se convierte en estimador p y resta despejarlo:
( ) 0111 =
==p
xn
p
xn
ii
n
ii
( )pxn
p
xn
ii
n
ii
111
=
==
( )
= ==
n
ii
n
ii xnpxp
111
===
=n
ii
n
ii
n
ii xpnpxpx
111
npxn
ii
1=
=
pn
xn
ii
1 ==
px =
Y as tambin descubrimos que al tener una variable aleatoria con distribucin bernoulli [X~Be( p )], el estimador de mxima verosimilitud del parmetro p es la media muestral x . B. PROPIEDADES PARA DETERMINAR EL MEJOR ESTIMADOR B.1) PROPIEDADES GENERALES a) INSESGAMIENTO
Si es un estimador del parmetro poblacional , se dice que es insegado si ( ) =E . Por el contrario, si es un estimador sesgado de , se define el sesgo de como ( ) ( ) = ESesgo .
b) SUFICIENCIA
Se dice que un estimador de es suficiente cuando su clculo involucra toda la informacin de una muestra.
c) MNIMA VARIANZA
Se dice que 1 es un estimador de mnima varianza de si para cualquier otro estimador 2 se cumple que la varianza del primero es menor que la del segundo: ( ) ( )21 VarVar < .
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
7
d) EFICIENCIA Siendo 1 y 3 dos estimadores insesgados de , se dice que 1 es ms eficiente si su varianza es menor a la de 3 : ( ) ( )31 VarVar < .
e) CONSISTENCIA
Se dice que un estimador de es consistente si, cuando n es grande ( )Nn , tender a ( ) , siendo su diferencia muy pequea. Esto debido a que si 0>E , E es muy pequeo y ( ) 1 =
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
8
INSESGAMIENTO ( ) =E ( ) ( )( ) ( )[ ] [ ] [ ]
===+=+
=+=
+=
222
21
21
21
21
2
1
11
2
n
nn
xExE
xxExx
EE
2 es un estimador insesgado de porque su esperanza es ( ) =2E . SUFICIENCIA ( )nXXXX ++++ ...321 2 12 n
xx += 2 no es un estimador suficiente, pues su clculo slo echa mano de slo 2 datos de
la muestra aleatoria y no del resto de la informacin obtenida.
PROPIEDAD ESTIMADOR 3
INSESGAMIENTO ( ) =E
( )( )( ) ( ) ( ) ( )[ ]
[ ][ ]
===
++++=
++++=
++++=
++++=
nnn
n
n
xExExExEn
xxxxn
E
nxxxxEE
n
n
n
1
...1
...1
...1
...
321
321
3213
3 es un estimador insesgado de pues su esperanza es ( ) =3E . SUFICIENCIA ( )nXXXX ++++ ...321 n
XXXX n++++= ... 3213 Asimismo, 3 es un estimador suficiente ya que utiliza todos los datos de la muestra aleatoria. Ahora bien, comparemos algunas varianzas de tres parmetros:
PROPIEDAD VARIANZA DE ESTIMADORES MNIMA VARIANZA ( ) ( )21 VarVar <
La varianza del estimador 1 es menor que la del estimador 2 , razn por la cual 1 tiene una mnima varianza.
EFICIENCIA ( ) ( )31 VarVar <
1
2 3
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
9
Siendo los dos insesgados, la varianza del estimador 1 es menor que la del estimador 3 , razn por la cual 1 cumple con las propiedades de mnima varianza y eficiencia. C. ESTIMADORES APROPIADOS MS COMUNES Aunque es recomendable encontrar el estimador adecuado a travs de un mtodo y comprobar que cumpla con todas las propiedades, la teora estadstica afirma que los mejores estimadores para los siguientes parmetros son:
PARMETRO ESTIMADOR
MEDIA POBLACIONAL
N
XN
ii
== 1 MEDIA
MUESTRAL n
Xx
n
ii
== 1
VARIANZA POBLACIONAL
( )N
xN
ii
=
= 12
2
VARIANZA MUESTRAL
( )1
1
2
2
==
n
xxs
n
ii
Pues este
estimador es sesgado:
( )n
xxs
n
ii
=
= 12
2
PROPORCIN POBLACIONAL N
Mp = PROPORCIN MUESTRAL nmp = INTERVALOS DE CONFIANZA y CONTRASTE DE HIPTESIS A. INTERVALOS DE CONFIANZA A comparacin de la estimacin puntual, la construccin de intervalos es una tcnica que permite al investigador proponer un rango de valores entre los cuales puede hallarse, con cierto grado de confianza (y por ende, de error) el del parmetro poblacional . Otra ventaja de esta metodologa es que, para calcular los valores L1 y L2 del intervalo
21 LL
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
10
NULA 0H , que siempre incluye en su planteamiento algn signo de igualdad ( )= ,, y que es casi siempre opuesta a lo que plantea la hiptesis del investigador invH :
HIPTESIS DEL INVESTIGADOR HIPTESIS NULA
HIPTESIS ALTERNATIVA
0: invH 00 : =H 0: aH 0: aH
Si bien en los intervalos de confianza basta comparar el valor hipottico 0 propuesto en la hiptesis del investigador invH contra el intervalo de confianza obtenido con ( )1 por ciento de confianza, la tcnica de contraste de hiptesis consiste, ya no en confirmar o no la hiptesis del investigador invH , sino en contrastar el resultado con la hiptesis nula 0H . B.2) ERRORES POSIBLES Y SU CONTROL Dada una hiptesis nula 0H que puede ser verdadera o falsa (no lo sabemos), el procedimiento de contraste de hiptesis nos lleva a rechazarla o no. Sin duda alguna, como investigadores quisiramos rechazar una hiptesis nula 0H falsa y no rechazar una hiptesis nula 0H verdadera, pero existen las posibilidades contrarias, a las cuales se denominan errores:
HIPTESIS NULA 0H VERDADERA FALSA SE RECHAZA ERROR TIPO I 9
NO SE RECHAZA 9 ERROR TIPO II La probabilidad de cometer el ERROR TIPO I es conocido como la SIGNIFICANCIA de la prueba y se denota por . A partir de ello tenemos que:
P= (error tipo I)
P= (rechazar 0H dado que 0H es verdadera )
P= (rechazar 0H | 0H es verdadera ) En general, la significancia es desconocida, as que el investigador la fija. Como de ella depende la probabilidad de cometer el error tipo I, se busca que sea pequea; de ah que los valores ms comunes para la significancia sean:
VALOR DE PROBABILIDAD DE ERROR TIPO I RAMA DE USO MS COMN 001.0= %1.0 Medicina y campo experimental. 01.0= %0.1 Antropologa fsica. 05.0= %0.5 Antropologa fsica. 1.0= %0.10 Ciencias sociales.
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
11
Ahora bien, se define al ERROR TIPO II como la POTENCIA de la prueba y se le denota con la letra , segn lo cual:
P= (error tipo II)
P= (no rechazar 0H dado que 0H es falsa )
P= (no rechazar 0H | 0H es falsa ) A diferencia de , el valor de est fuera del control del investigador y slo puede reducrsele aumentando el tamao de la muestra. Por ello es que, como veremos ms adelante, se sabe que las pruebas no paramtricas son menos potentes que las pruebas paramtricas, cuyo valor de es ms pequeo. B.3) HIPTESIS NULAS Y SU REGIN DE RECHAZO Con respecto a la significancia , cabe mencionar que su valor tambin determina la regin de rechazo de la hiptesis nula 0H . Si sta incluye una igualdad 00 : =H , la regin de rechazo, como en los intervalos de confianza, se divide en dos, motivo por el cual se le denomina prueba de dos colas o bilateral. Por el contrario, si la hiptesis nula 0H contiene los signos o , ( 00 : H , 00 : H ), la regin de rechazo queda slo de un lado, contrario al que seala el signo de mayor o menor: ESTIMACIN DE LA MEDIA POBLACIONAL A. INTERVALO DE CONFIANZA A.1) EN POBLACIONES CON DISTRIBUCIN NORMAL Si la variable aleatoria tiene una distribucin normal con media y varianza 2 , sabemos que la expresin para estandarizarla es:
n
xZ = ~ N (0,1)
De acuerdo a esta frmula, el intervalo estara entre dos valores: Z y Z , rodeados por un rea, denotada por , que delimita la confianza del intervalo. Si 1 es el rea debajo de la curva, entonces el intervalo de confianza puede especificarse como 1 y el de cada cola es igual a 2 .
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
12
Partiendo de esto tenemos que la probabilidad del valor del parmetro estandarizado Z est entre
21 Z y 21 Z :
=
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
13
El problema de esta expresin para determinar el intervalo de es que supone conocer ; valor cuyo clculo, por s mismo, requiere el dato de que estamos estimando:
( )N
xN
ii
=
= 12
Ante esta incoherencia, la opcin es sustituir por su estimador puntual s :
( )1
1
2
==
n
xxs
n
ii
Pero ese simple detalle, cuando la poblacin es pequea ( )30n , de acuerdo al Teorema Central de Lmite puede asumirse que la variable tiene una distribucin aproximadamente normal. Debido a ello, la expresin para calcular el intervalo al ( )1 por ciento de confianza para cuando se tiene una muestra grande de una poblacin con distribucin desconocida es:
EXPRESIN PARA ENCONTRAR UN INTERVALO AL ( )1 POR CIENTO DE CONFIANZA PARA CUANDO LA POBLACIN TIENE DISTRIBUCIN DESCONOCIDA
PERO 30>n
nsZxi
21
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
14
Donde x es la media muestral, 21
Z es el valor en tablas de la distribucin normal
con ( )21 por ciento de confianza, s la desviacin estndar de la muestra y n es el tamao de la muestra. A.3) EJEMPLOS DE ESTIMACIN 1. Supongamos que la variable estatura de las mujeres estudiantes de la ENAH sigue una distribucin aproximadamente normal. Los siguientes datos (en centmetros) corresponden a una muestra aleatoria de la poblacin: 160.5 181 158 152 170 164 160 167 160 152 160 153 157 155 155 156 170 158
Es posible concluir que la media de la poblacin es menor a 165 cm? Construir un intervalo de confianza para al 95%.
DATOS GENERALES X~N(,) 18=n 47.160=x 52.7=s
HIPTESIS 165:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
15
b) Contestar: Qu se puede concluir respecto a la hiptesis?
DATOS GENERALES X~N(,) 16=n 44.63=x 96.34=s
HIPTESIS 60: >invH
CONFIABILIDAD Y SIGNIFICANCIA 05.0= 025.02 = 975.021 =
EXPRESIN
PARA INTERVALO
( )
nstx ni
1
21
VALOR DE ( )121
nt ( ) ( ) ..15116..1 lglgn == ( ) 1315.215975.1
21== tt n
APLICACIN ( )07.82,81.441696.341315.244.63 =
COMPARACIN CON LA
HIPTESIS ( )07.82,81.44 vs. 60: >invH
a) , Con un 95% de confianza se puede afirmar que la media del tiempo de recorrido de los estudiantes de la ENAH a casa se halla entre los 44.81 y los 82.07 minutos. b) , Como este intervalo contiene valores menores a los 60 minutos, de acuerdo a la muestra no hay evidencia estadstica que permita inferir, con un 5% de error, que la hiptesis del investigador sea verdadera. 3. Los siguientes datos corresponden a la circunferencia craneal en centmetros de 15 nios recin nacidos:
33.38 34.34 33.46 32.15 33.95 34.13 33.99 33.85 34.45 34.10 34.23 34.19 33.97 32.73 34.05
Suponiendo que la poblacin tiene una distribucin normal, es posible afirmar que la media sea menor a 35 cm? Comprobar esta hiptesis construyendo un intervalo al 90% de confianza.
DATOS GENERALES X~N(,) 15=n 80.33=x 63.0=s
HIPTESIS 35:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
16
APLICACIN ( )09.34,51.331563.07613.180.33 =
COMPARACIN CON LA
HIPTESIS ( )09.34,51.33 vs. 35:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
17
REGIN DE RECHAZO DE
0H
Pero saber dnde se encuentra la regin de rechazo no basta; es necesario conocer el valor de donde parte. Este dato se obtiene reconociendo el tipo de distribucin probabilstica de la poblacin y hallando en sus tablas el valor que comprenda tal confiabilidad. Para una poblacin con distribucin normal, el valor de la regin de rechazo se busca en las tablas para la distribucin t mediante la expresin )1(
21
nt si la prueba es bilateral
o )1(1
nt si es unilateral. Basta buscar en las tablas de la distribucin t los grados de
libertad e intersectarlo con la confiabilidad, que depende del tipo de prueba. Finalmente, se agrega un signo negativo si la regin de rechazo (o una parte) se encuentra en la seccin inferior del eje de las X . Mientras tanto, para poblaciones cuya distribucin es desconocida pero el tamao de la muestra es grande ( )30>n , el valor donde inicia la regin de rechazo depende de las expresiones
21Z (pruebas bilaterales) o 1Z (pruebas unilaterales). Por ende, en
este caso hay que acudir a las tablas de distribucin normal y buscar el valor de Z que tenga la probabilidad que indica la confianza de la prueba y agregar un signo negativo si la regin de rechazo est en la seccin inferior del eje de las X . B.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
1. Teniendo la hiptesis del investigador invH , plantear la hiptesis nula 0H y la hiptesis alternativa aH .
2. Reconocer la distribucin probabilstica de la variable de inters. 3. Determinar el ESTADSTICO DE PRUEBA y su distribucin probabilstica. Es
decir, encontrar la expresin que contiene la comparacin del estadstico muestral o estimador del parmetro con el valor hipottico y la variabilidad muestral.
EXPRESIN PARA EL ESTADSTICO DE PRUEBA ct EN POBLACIONES
CON DISTRIBUCIN NORMAL ns
xtc 0=
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cZ EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA PERO 30>n n
sxZc 0
=
4. Calcular el estadstico de prueba. 5. Determinar el nivel de significancia de la prueba, as como la ubicacin y el
valor de la regin de rechazo de la hiptesis nula 0H .
1-
1/ Zt
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
18
6. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la hiptesis nula 0H ; si est dentro de ella, rechazar la hiptesis nula 0H . Si est fuera, concluir con qu significancia o confiabilidad no se rechaza.
B.3) EJEMPLOS DE CONTRASTE DE HIPTESIS 1. En una investigacin sobre el rendimiento acadmico de los estudiantes de la ENAH, una variable de inters fue el tiempo que tardan los alumnos para trasladarse de su casa a la escuela, el cual se calcula menor a 90 minutos. Suponiendo que la poblacin tiene una distribucin normal y a partir de los siguientes datos que se tomaron de una muestra aleatoria:
40 75 60 120 70 90 180 80 60 5 30 5 60 45 15 75 100 45 85 40 100
a) Contrastar la hiptesis con un nivel de significancia de 0.05. b) Construir un intervalo al 95% de confianza para la media de la poblacin. Ante un problema as, lo primero que debemos hacer es hacer explcitas las hiptesis:
HIPTESIS 90:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
19
REGIN DE RECHAZO DE 90:0 H
05.0= 95.01 = 7247.1)20( 95.0)121( 05.01)1(1 === ttt n
Por ltimo, hay que ubicar el estadstico de prueba ct con respecto a esta regin de rechazo y concluir:
UBICACIN DE ESTADSTICO DE PRUEBA ct CON RESPECTO A REGIN DE RECHAZO DE 0H
a) , Como podemos ver, el estadstico de prueba 73.2=ct se encuentra dentro de la regin de rechazo. Por ende, la hiptesis nula 90:0 H se rechaza y puede afirmarse que existe evidencia estadstica que indica que la media del tiempo que hacen los estudiantes de su casa a la ENAH es significativamente ( )05.0
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
20
variable es menor a 90. 2. Asumamos que la variable gasto diario en relacin a estudios de la poblacin estudiantil de la ENAH es una variable que sigue una distribucin aproximadamente normal. Si suponemos que los siguientes datos corresponden a una muestra aleatoria de estudiantes del turno vespertino:
100 50 35 40 60 25 20 15 30 70 20 75 30 12 50 35 40 30
a) Es posible afirmar que el gasto diario es mayor de $70.00? Considrese una
significancia de 0.05. b) Encuentre el intervalo al 95% de confianza para la media de la poblacin.
DATOS GENERALES X~N(,) 18=n 94.40=x 13.23=s
HIPTESIS 70: >invH 70:0 H 70: >aH
REGIN DE RECHAZO DE 0H 05.0= 95.01 = 7396.1)17( 95.0)118( 05.01)1(1 === ttt n
EXPRESIN PARA EL ESTADSTICO DE PRUEBA ct
ns
xt ic 0=
CLCULO DEL ESTADSTICO DE PRUEBA ct
33.5
1813.23
7094.40 ==ct
UBICACIN DE ESTADSTICO DE PRUEBA ct CON RESPECTO A REGIN DE RECHAZO DE 0H
a) , El estadstico de prueba 33.5=ct se halla fuera de la regin de rechazo, motivo por el cual la hiptesis nula 70:0 H no se rechaza. De esta forma, no se tiene evidencia estadstica que soporte la afirmacin del investigador de que la media del gasto diario estudiantil sea significativamente ( )05.0>p mayor a $70.00.
DATOS GENERALES X~N(,) 18=n 94.40=x 13.23=s
HIPTESIS 70: >invH 70:0 H 70: >aH
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
21
CONFIABILIDAD Y SIGNIFICANCIA 05.0= 025.02 = 975.021 =
EXPRESIN
PARA INTERVALO
( )
nstx ni
1
21
VALOR DE ( )121
nt ( ) ( ) ..17118..1 lglgn == 1098.2)17( 975.0)118( 025.01)1(
21=== ttt n
APLICACIN ( )44.52,44.291813.231098.294.40 =
COMPARACIN CON LA
HIPTESIS ( )44.52,44.29 vs. 70: >invH
b) , Con un 95% de confianza se puede inferir que la media del gasto diario de la poblacin de la ENAH se encuentra entre los 29.44 y 52.44 pesos. Debido a ello, con un 5% de error, puede afirmarse que la hiptesis del investigador era incorrecta al decir que el promedio de este gasto era superior a los $70.00. PRUEBA DE NORMALIDAD A fin de comprobar si la poblacin estudiada de la cual se ha obtenido una muestra tiene distribucin normal, existen varios mtodos para contrastar las siguientes hiptesis:
:oH La muestra procede de una poblacin con distribucin normal. :aH La muestra no procede de una poblacin con distribucin normal.
Dos de las ms utilizadas son la prueba de Kolmogorov-Smirnofv y la prueba de Shapiro-Wilks, pero aqu slo revisaremos la segunda ya que es ms potente. A. PRUEBA DE SHAPIRO-WILKS El procedimiento de esta prueba consiste en obtener los estadsticos de orden
( ) ( ) ( ) ( )nXXXX ,...,,, 321 A.1) TEORA Teniendo una muestra de tamao n con datos nXXXX ,...,,, 321 , lo primero que debe hacerse es ordenarlos en forma ascendente para ubicar los estadsticos de prueba
( ) ( ) ( ) ( )nXXXX ,...,,, 321 . Realizado esto, se obtienen los siguientes datos:
DATOS
n Nmero total de datos de la muestra. 2s Varianza de la muestra.
h Nmero total de sumandos que se harn en el estadstico de prueba cW . Datos que se calcula de la siguiente forma:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
22
Si n es un nmero par: 2nh = Si n es un nmero non:
21= nh
Ahora bien, se calcula el estadstico de prueba cW
EXPRESIN PARA EL ESTADSTICO DE PRUEBA
cW
( ) ( ) ( )( )2
11
,211
= += jjn
h
jnjc XXasn
W
Donde nja , es un valor en tablas de Coeficiente 1+ina
y ( )1+ jnX y ( )jX son los estadsticos de orden.
Como puede verse en la expresin, la sumatoria empieza con el 1=j , por lo cual el primer ( )jX corresponde al primer estadstico de orden, el segundo ( )jX al segundo estadstico de orden y as sucesivamente. Mientras tanto, el primer valor de corresponde al ltimo estadstico de orden, el segundo al penltimo, etc. Por tal motivo, lo que se hace en cada expresin ( ) ( )[ ]21 jjn XX + es restar los opuestos estadsticos de orden y elevarlos al cuadrado. Siguiendo la expresin, tales valores se multiplican despus por el nja , que se encontrar intersectando la fila con el nmero de j que se utiliz en ese sumando contra la columna que tiene el valor de la n muestral en las tablas de Coeficiente
1+ina . Por ltimo, la suma de esos productos se divide entre producto de la varianza de la muestra 2s por ( )1n . Si el estadstico de prueba cW es menor a
nW que se encuentra intersectando el dato de n contra la significancia en las tablas de Percentiles para W , la hiptesis nula
oH se rechaza. Esto es:
TIPO DE HIPTESIS oH oH SE RECHAZA SI:
:oH La muestra procede de una poblacin con distribucin normal.
nc WW <
A.2) EJEMPLO Dados los siguientes datos encontrados:
6.951 =X 2.654 =X 5.757 =X 1.292 =X 9.755 =X 0.728 =X
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
23
5.283 =X 5.986 =X 4.429 =X Decir si la poblacin de donde proviene esta muestra tiene o no distribucin normal con una significancia de 0.05.
HIPTESIS :oH La muestra procede de una poblacin con distribucin normal. :aH La muestra no procede de una poblacin con distribucin normal.
ESTADSTICOS DE ORDEN
( ) 5.281 =X ( ) 2.654 =X ( ) 9.757 =X ( ) 1.292 =X ( ) 0.725 =X ( ) 6.958 =X ( ) 4.423 =X ( ) 5.756 =X ( ) 5.989 =X
DATOS
9=n (impar) 49.683/30.683
2 =s 428
219 ===h
Clculo del estadstico de prueba cW :
( ) ( ) ( )( )2
10
4
1,28
1
= = jjj
njc XXasW
( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( )[ ]{ }2469,4379,3289,2199,1281 XXaXXaXXaXXasWc +++=
( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( )[ ]{ }2463728192 0947.01976.03244.05888.081 XXXXXXXXsWc +++=
( ) ( ) ( ) ( ) ( )[ ]{ }22 2.655.750947.04.429.751976.01.296.953244.05.285.985888.081 +++= sWc
( ) { }85.495381
2sWc =
( ) 2885.4953
sWc =
906.040.546685.4953 ==cW 906.092.5467
85.4953 ==cW
CONTRASTE DE HIPTESIS TIPO DE HIPTESIS oH :oH La muestra procede de una poblacin con
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
24
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTAR 906.0=cW 829.0905.0 =W
, Como el valor del estadstico de prueba 83.0=cW no es menor a 829.0905.0 =W sino mayor, la hiptesis nula :oH La muestra procede de una poblacin con distribucin normal no se rechaza y se puede asumir que la poblacin de la que fue tomada esta muestra tiene una distribucin normal. PRUEBAS NO PARAMTRICAS PARA LA MEDIA POBLACIONAL Cuando la poblacin estudiada no tiene distribucin normal y la muestra que de ella hemos obtenido es pequea ( )30
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
25
Teniendo eso, y de acuerdo al tipo de hiptesis nula oH planteada, se aplica la siguiente frmula para calcular el estadstico de prueba:
TIPO DE HIPTESIS oH 0: =oH 0: oH 0: oH EXPRESIN PARA EL
ESTADSTICO DE PRUEBA p n
n
niin C
p
=
=2
2 n
n
niin C
p
=
+=2
n
n
niin C
p
=
=2
En todos los casos, si el valor resultante del estadstico de prueba p es menor a la significancia determinada por el investigador ( )
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
26
9.1011 =X ( ) 1.1129.1011 ==d 9 3.1212 =X ( ) 3.0123.1212 ==d 9 5.1113 =X ( ) 5.0125.1113 ==d 9 5.1114 =X ( ) 5.0125.1114 ==d 9 6.1215 =X ( ) 6.0126.1215 ==d 9
TOTALES 5 9
DATOS 5=+n 9=n { } 99,5 =n 1495 =+=n
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH
12: oH EXPRESIN
PARA CALCULAR EL ESTADSTICO DE PRUEBA p n
n
niin C
p
=
=2
CLCULO DE p 14
14
914
2
== i
iCp
21.0163843473
1638414141314121411141014914 ==+++++= CCCCCCp
EXPRESIN PARA
CONTRASTE DE HIPTESIS
( )p menor a 12 onzas, as que las demandas interpuestas ante la PROFECO no tienen sustento. B. PRUEBA DE RANGOS DE WILCOXON Prueba no paramtrica cuyo contraste de hiptesis es ms potente que la del signo, ya que no slo toma en cuenta las diferencias del valor de cada dato de la muestra con el valor hipottico, sino tambin considera los rangos asignados al valor absoluto de tales diferencias. B.1) TEORA Al igual que en la prueba del signo, teniendo una muestra de tamao n con datos
nXXXX ,...,,, 321 , lo primero que debe hacerse aqu es calcular las diferencias id de estos datos con respecto al valor hipottico 0 a travs de la frmula ( )0= ii Xd .
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
27
De ello se obtiene el valor absoluto id de cada id , pero se marca si su origen fue positivo o negativo.
iX ( )0= ii Xd id signo 1X ( )011 = Xd 2X ( )022 = Xd 3X ( )033 = Xd ( )... ( )... nX ( )0= nn Xd
A continuacin, tales valores se ordenan de menor a mayor. Asimismo, descontando los id cuyo valor fue cero, se empieza a numerar el resto de los datos para asignarles un lugar y un rango, el cual se deduce del lugar que tiene (si hay slo un dato con tal valor) o promediando los lugares que ocupan los datos con igual valor.
EJEMPLO
id id ordenados
ascendentemente Lugar
Valor de
rango
Rangos de id que provienen de
id positivo
Rangos de id que provienen de
id negativo 1+ 0 3+ 1+ 1 1 1 3- 2- 2 2.5 2.5 0 2+ 3 2.5 2.5 4- 3+ 4 5 5 2- 3- 5 5 5 3+ 3+ 6 5 5 2+ 4- 7 7 7
Posteriormente, se distinguen los rangos de id que provienen de id positivo o negativo a fin de poder obtener todos los siguientes datos:
DATOS +T Suma de los valores de los rangos de id que provienen de id positivo T Suma de los valores de los rangos de id que provienen de id negativo. T Valor menor entre +T y T .
De acuerdo al tipo de hiptesis nula oH es que se utilizar una de estas T y se le comparar con una T de las tablas de Wilcoxon.
TIPO DE HIPTESIS oH 0: =oH 0: oH 0: oH T DE TABLAS
CORRESPONDIENTE PARA ESTADSTICO DE PRUEBA
nT2
nT nT
Donde n es el nmero total de 0id y
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
28
o 2 es el valor de la significancia En todos los casos, si la T de los datos es menor o igual a la T de tablas, la hiptesis nula oH se rechaza. En otras palabras:
TIPO DE HIPTESIS oH oH SE RECHAZA SI:
0: =oH nTT 2
0: oH nTT 0: oH nTT +
B.2) EJEMPLO 1. Una compaa surte botellas de refresco que se etiquetan con 12 onzas. Cuando la Procuradura Federal del Consumidor (PROFECO) prueba una muestra aleatoria de botellas, obtiene las siguientes cantidades:
4.111 =X 2.124 =X 5.127 =X 9.1110 =X 5.1113 =X 8.112 =X 9.115 =X 0.128 =X 9.1011 =X 5.1114 =X 7.113 =X 0.116 =X 1.129 =X 3.1212 =X 6.1215 =X
Si utilizamos un nivel de significancia de 0.05, existe suficiente evidencia para documentar la acusacin denunciada a la PROFECO de que la compaa embotelladora est engaando a los consumidores dando cantidades menores de 12 onzas?
HIPTESIS 12:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
29
5.1113 =X ( ) 5.0125.1113 ==d 0.5 - 5.1114 =X ( ) 5.0125.1114 ==d 0.5 - 6.1215 =X ( ) 6.0126.1215 ==d 0.6 +
id id ordenados
ascendentemente Lugar
Valor de
rango
Rangos de id que provienen de
id positivo
Rangos de id que provienen de
id negativo 0.6 - 0 0.2 - 0.1 - 1
2.0 2.0
0.3 - 0.1 + 2 2.0 0.2 + 0.1 - 3 2.0 0.1 - 0.2 - 4 4.5 4.5 1.0 - 0.2 + 5 4.5 0.5 + 0.3 - 6 6.5 6.5 0 0.3 + 7 6.5 0.1 + 0.5 + 8
9.0 9
0.1 - 0.5 - 9 9 1.1 - 0.5 - 10 9 0.3 + 0.6 - 11 11.5 11.5 0.5 - 0.6 + 12 11.5 0.5 - 1.0 - 13 13 13 0.6 + 1.1 - 14 14 14
DATOS 5.33=+T 50.71=T { } 5.3350.71,5.33 =T 14=n
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH
12: oH T DE TABLAS
CORRESPONDIENTE PARA ESTADSTICO
DE PRUEBA
nT
EXPRESIN PARA CONTRASTE DE
HIPTESIS nTT +
VALORES FINALES A CONTRASTAR 5.33=+T 26
1405.0 == TT n
, Para este caso, el valor de 5.33=+T no es menor a la T de tablas 261405.0 =T , motivo por el cual la hiptesis nula 12: oH no se rechaza. Debido a ello corroboramos la conclusin obtenida con la prueba del signo: no siendo el contenido promedio envasado por la embotelladora significativamente ( )05.0>p menor a 12 onzas, se puede afirmar que las demandas interpuestas ante la PROFECO no tienen sustento.
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
30
ESTIMACIN DE LA PROPORCIN POBLACIONAL p A. FUNDAMENTOS Cuando se tiene una variable cualitativa que toma dos valores { }( )1,0=x y que se repite n veces en una poblacin de tamao N , M es el nmero de eventos que presentan la caracterstica de inters ( )1=x . Por ende, dividiendo M entre N obtenemos la proporcin poblacional: N
Mp = No obstante, la proporcin poblacional p , como el resto de los parmetros, es un valor desconocido, razn por la cual a menudo es de inters estimar su valor mediante un intervalo de confianza y una prueba de hiptesis contra un valor hipottico 0p . B. CONDICIONES PARA SU ESTIMACIN Se puede aplicar una prueba de hiptesis sobre la proporcin muestral p siempre y cuando acorde al Teorma Central de Lmite se tenga una muestra de tamao n con una proporcin muestral n
mp = que cumpla con los siguientes tres supuestos:
1. 5 >= mpn 2. ( ) 51 >= mnpn 3. 30>n Cuando tales condiciones no se cumplen, es necesario tomar una muestra ms grande. C. INTERVALO DE CONFIANZA La expresin para encontrar el intervalo de confianza para la proporcin poblacional p es:
EXPRESIN PARA ENCONTRAR UN INTERVALO
AL ( )1 POR CIENTO DE CONFIANZA PARA p CUANDO LA POBLACIN TIENE DISTRIBUCIN
APROXIMADAMENTE NORMAL ESTNDAR
( )
n
ppZpp 121
D. CONTRASTE DE HIPTESIS D.1) HIPTESIS NULAS Y SU REGIN DE RECHAZO Cuando se quiere estimar el valor de la proporcin poblacional p se pueden plantear las siguientes hiptesis:
HIPTESIS DEL INVESTIGADOR HIPTESIS NULA
HIPTESIS ALTERNATIVA
0: ppH inv 00 : ppH = 0: ppH a 0: ppH inv < 00 : ppH 0: ppH a < 0: ppH inv > 00 : ppH 0: ppH a >
Segn sea el caso y de acuerdo a la significancia , la regin de rechazo para la hiptesis nula 0H ser:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
31
HIPTESIS
PRUEBA BILATERAL O
DE DOS COLAS
21
0: ppH inv 00 : ppH = 0: ppH a
REGIN DE RECHAZO DE
0H
PRUEBA UNILATERAL
O DE UNA COLA
1
0: ppH inv < 00 : ppH 0: ppH a <
REGIN DE RECHAZO DE
0H
0: ppH inv > 00 : ppH 0: ppH a >
REGIN DE RECHAZO DE
0H
Cabe mencionar que, al igual que en el contraste de hiptesis sobre , en esta prueba es necesario encontrar el valor donde inicia la regin de rechazo. Al depender del Teorema Central de Lmite, los valores para esta prueba dependen de una distribucin aproximadamente normal estndar y se encontrarn en su respectiva tabla mediante las expresiones
21Z o 1Z , segn sea la prueba (bilateral o unilateral).
Esto es, hay que buscar el valor de Z que tenga la probabilidad que indica la confianza de la prueba y agregar un signo negativo si la regin de rechazo est en la seccin inferior del eje de las X . D.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
7. Comprobar los supuestos de la muestra para verificar la factibilidad de la prueba.
8. Si tales condiciones se cumplen, explicitar la hiptesis del investigador invH , la hiptesis nula 0H y la hiptesis alternativa aH .
9. Calcular el estadstico de prueba que compara el estimador con el valor hipottico y su variabilidad:
/2 /2
1-
1-
1-
1Z
1Z
21Z 21
Z
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
32
EXPRESIN PARA CALCULAR EL ESTADSTICO DE PRUEBA cZ EN POBLACIONES CON DISTRIBUCIN
APROXIMADAMENTE NORMAL ESTNDAR ( )
npp
ppZc00
0
1
=
10. Determinar el nivel de significancia de la prueba, as como la ubicacin y el
valor de la regin de rechazo de la hiptesis nula 0H . 11. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la
hiptesis nula 0H ; si est dentro de ella, rechazar la hiptesis nula 0H . Si est fuera, concluir con qu significancia o confiabilidad no se rechaza.
D.3) P-VALOR Calculado como significancia en el software estadstico, el P-VALOR es al rea bajo la curva delimitada por el estadstico de prueba cZ con la misma direccin que la regin de rechazo de la hiptesis nula 0H . Esta rea o probabilidad se obtiene tambin mediante los datos en tablas y si su valor es menor a la significancia de la prueba de hiptesis, la hiptesis nula 0H se rechaza. He aqu la forma para encontrar su valor: REA DEL P-VALOR
PROBABILIDAD DE P-VALOR
BSQUEDA DE P-VALOR
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
33
1. 5 >pn 2. ( ) 51 > pn 3. 30>n
( )( ) 85.20635.0591 = ( ) 15.38465.0591 = 591=n 585.206 > 515.384 > 30591 >
Comprobado ello, podemos plantear las hiptesis para contrastar:
HIPTESIS 30.0: >pH inv 30.0:0 pH 30.0: >aH
Ahora bien, hay que calcular el estadstico de prueba:
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cZ ( )n
ppppZc
00
0
1
=
APLICACIN ( ) ( ) 65.2591
70.030.030.035.0
59130.0130.0
30.035.0 ==== cc ZZ
Teniendo ese dato, falta reconocer la significancia , su valor en tablas y la regin de rechazo que delimita:
REGIN DE RECHAZO DE 30.0:0 pH 05.0= 95.01 = 645.195.01 == ZZ
Para concluir el contraste de hiptesis resta ubicar el estadstico de prueba cZ con respecto a esta regin de rechazo y concluir:
UBICACIN DE ESTADSTICO DE PRUEBA cZ CON RESPECTO A REGIN DE RECHAZO DE 0H
a) , El estadstico de prueba 65.2=cZ cae dentro de la regin de rechazo, razn por la cual la hiptesis nula 30.0:0 pH se rechaza y se infiere que la proporcin poblacional de internos que usaron marihuana es significativamente ( )05.0
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
34
REA DEL P-VALOR
PROBABILIDAD DE P-VALOR
BSQUEDA DE P-VALOR
De 65.2=cZ
a ( )65.2>cZP ( ) ( )65.265.2 cc ZPZP ( ) 0040.065.2 =pH inv
c) , Con un 95% de confiabilidad es posible inferir que la proporcin poblacional de personas internadas que alguna vez fumaron marihuana est entre 0.31 y 0.39. Tal intervalo da sustento estadstico a la hiptesis del investigador, que la estima en un valor mayor a 0.30. ESTIMACIN DE LA VARIANZA POBLACIONAL 2 A. FUNDAMENTOS Cuando en una poblacin se tiene una variable continua con distribucin normal y se desea estimar su variabilidad, es posible tambin estimar un intervalo de confianza y hacer un contraste de hiptesis sobre la varianza y la desviacin estndar. B. INTERVALO DE CONFIANZA A continuacin se presenta la expresin para encontrar el intervalo de confianza de la varianza y la desviacin estndar de una poblacin:
EXPRESIN PARA ENCONTRAR UN INTERVALO AL ( )1 POR CIENTO DE CONFIANZA PARA 2 CUANDO LA POBLACIN TIENE DISTRIBUCIN
NORMAL
( )( )
( )( )
12
2
2
12
21
22 1,1 nn
snsn
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
35
EXPRESIN PARA ENCONTRAR UN INTERVALO AL ( )1 POR CIENTO DE CONFIANZA PARA CUANDO LA POBLACIN TIENE DISTRIBUCIN
NORMAL
( )( )
( )( )
12
2
2
12
21
2 1,1 nnsnsn
Ntese que en estas expresiones los valores mnimo y mximo del intervalo no se encuentran simplemente restando o sumando el valor que se halla en tablas, sino que hay que buscar cada uno. C. CONTRASTE DE HIPTESIS C.1) HIPTESIS NULAS Y SU REGIN DE RECHAZO Igual que en las estimaciones anteriores, las hiptesis posibles para contrastar el valor de la varianza poblacional 2 son:
HIPTESIS DEL INVESTIGADOR HIPTESIS NULA
HIPTESIS ALTERNATIVA
20
2: invH 2020 : =H 202: aH 20
2: aH Segn sea el caso y de acuerdo a la significancia , la regin de rechazo para la hiptesis nula 0H ser:
HIPTESIS
PRUEBA BILATERAL O
DE DOS COLAS
202: invH 2020 : =H 202: aH
REGIN DE RECHAZO DE
0H
PRUEBA UNILATERAL
O DE UNA COLA
202: aH
1-/2 /2
( )122
n ( )12
21
n
( )12 n
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
36
REGIN DE RECHAZO DE
0H
Puede verse aqu, al igual que en una parte de la expresin para el intervalo de confianza de la varianza 2 , que las reas de la significancia no son iguales. Ello se debe, como se ver en el siguiente punto, a que el estadstico de prueba tiene una distribucin ji-cuadrada 2 , cuya grfica no tiene una curva simtrica. Por tal motivo, es necesario consultar en esas tablas los valores de ( )12
2
n y ( )12
21
n si la prueba es
bilateral y ( )12 n o ( )121 n si es unilateral. Como en otras ocasiones, esto implica buscar los grados de libertad e intersectar este rengln con la columna de la significancia o confiabilidad requerida. C.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
12. Comprobar que la variable tenga una distribucin normal. 13. Dado el caso, hacer explcitas la hiptesis del investigador invH , la hiptesis
nula 0H y la hiptesis alternativa aH . 14. Calcular el estadstico de prueba que compara el estimador con el valor
hipottico y su variabilidad:
EXPRESIN PARA CALCULAR EL ESTADSTICO DE PRUEBA 2c EN POBLACIONES CON DISTRIBUCIN
NORMAL
( )20
22 1
sn
c=
15. Determinar el nivel de significancia de la prueba, as como la ubicacin y el
valor de la regin de rechazo de la hiptesis nula 0H . 16. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la
hiptesis nula 0H ; si est dentro de ella, rechazar la hiptesis nula 0H . Si est fuera, concluir con qu significancia o confiabilidad no se rechaza.
D. EJEMPLOS DE ESTIMACIN 1. Los siguientes datos corresponden a las edades de conductores que ocupan el carril para rebasar mientras conducen a 25 millas por hora con la luz intermitente direccional izquierda funcionando. Suponga distribucin normal en esta poblacin. f) Es posible inferir que la varianza de esta poblacin es menor a 27 aos2?
Realizar una prueba de hiptesis con una significancia 05.0= . g) Estimar el intervalo para la varianza con una confianza de 95%.
DATOS GENERALES
1-( )12
1
n
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
37
X~N(,) 27=n 5.80=x 6.4=s Sabiendo que la poblacin cumple con una distribucin normal, planteemos las hiptesis a contrastar:
HIPTESIS 27: 2
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
38
VALORES DE ( )122
n y ( )12
21
n
( ) ( ) ( ) 923.41262975.01272 025.011221
=== n ( ) ( ) ( ) 844.13262025.01272025.0122
=== n
APLICACIN ( ) ( ) ( )70.39,12.13
844.136.4127,
923.416.4127 2222 =
COMPARACIN CON LA
HIPTESIS ( )70.39,12.132 vs. 27: 2
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
39
, Como el estadstico de prueba 84.32 =c cae en la regin de rechazo de la hiptesis nula 25.6: 20 H , sta se rechaza y puede inferirse que la varianza de las mujeres supermodelos es significativamente ( )05.0
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
40
ESQUEMA FINAL PARA REALIZAR INFERENCIAS SOBRE LA MEDIA POBLACIONAL
00 : =H vs. 0: aH 00 : H vs. 0: aH
La poblacin tiene
distribucin normal?
La muestra es mayor a 30?
PRUEBAS NO PARAMTRICAS
a) Signo b) Wilcoxon
( )
nstx ni
1
21
ns
xtc 0=
nsZxi
21
ns
xZc 0=
(TCL)
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
41
TAMAO DE MUESTRA REQUERIDO PARA ESTIMACIN Cuando deseamos contrastar hiptesis sobre un parmetro poblacional que tiene distribucin normal, una cuestin fundamental es conocer el tamao de la muestra necesario para realizar tal procedimiento. Sabiendo que el mejor estimador puntual de es x , definiremos como d el error muestral:
PARA MEDIAS PARA PROPORCIONES = xd ppd =
A. TAMAO DE MUESTRA PARA ESTIMAR MEDIAS POBLACIONALES A.1) POBLACIONES CUYO TAMAO TOTAL N ES DESCONOCIDO Como la variable tiene distribucin normal, podemos estandarizarlo de la siguiente forma:
Z
n
x
n
d ==
Que grficamente es:
Y como deseamos que el error de muestreo sea pequeo, si delimita la regin de rechazo de la hiptesis nula 0H , para que
n
d se encuentre en esta rea se debe
concluir que:
21
> Zn
d
Por ende, para saber el tamao de la muestra, de ello es necesario despejar n :
Si tenemos 21 > Zn
d
Aplicamos la ley de los extremos 21 >
Zdn
Dejamos sola a n > d
Zn 2
1
Y para despejarla la elevamos al cuadrado 2
22
21
d
Zn
> A ello debemos la siguiente expresin:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
42
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES CON TAMAO DESCONOCIDO
2
22
21
d
Zn
>
La cual nos indica que para conocer el tamao n de la muestra requerida necesitamos fijar una confiabilidad 1 de estimacin y encontrar el valor de Z que le corresponde; adems, establecer una magnitud de error de estimacin 2d y conocer el valor de 2 , que puede estimarse con ayuda de investigaciones previas o mediante muestras piloto. Claro est que, por su relacin, a mayor confianza 1 , una mayor muestra se necesitar; mientras que a mayor error de estimacin 2d , menor ser la muestra requerida. A.2) POBLACIONES CUYO TAMAO TOTAL N ES CONOCIDO A diferencia de la expresin anterior, si el tamao total N de la poblacin es conocido, la expresin para calcular el tamao de muestra requerido es:
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES CUYO TAMAO SE CONOCE
( ) 2221
2
22
21
1
+
>
ZNd
ZNn
B. TAMAO DE MUESTRA PARA ESTIMAR PROPORCIONES POBLACIONALES B.1) POBLACIONES CUYO TAMAO TOTAL N ES DESCONOCIDO Como en proporciones la varianza equivale a ( )pp = 12 , la expresin para calcular el tamao de muestra requerido es:
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA ESTIMAR PROPORCIONES DE
POBLACIONES CON TAMAO DESCONOCIDO
( )2
2
211
d
ppZn
>
B.2) POBLACIONES CUYO TAMAO TOTAL N ES CONOCIDO Por ltimo, si lo que se desea es calcular el tamao de muestra necesario para estimar proporciones de una poblacin cuyo tamao N se conoce, se utiliza la siguiente expresin:
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES CUYO TAMAO SE CONOCE
( )( ) ( )ppZNd
ppZNn +
>
11
12
212
2
21
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
43
C. EJEMPLO DE APLICACIN 1. Jayr desea hacer una encuesta sobre las preferencias que existen en la escuela para las prximas elecciones de director de la ENAH y ha planeado realizar su estimacin con un 95% de confianza y un 5% de error. Sabiendo que ( )pp 1 es mximo cuando 5.0=p y hay tres candidatos, supone una proporcin de 33.0=p .
DATOS GENERALES 95.01 = 05.0= 025.02 = 975.021 = 96.1
21=Z 05.0=d 33.0=p 67.01 = p
a) Qu tamao de muestra necesitar Jayr para hacer estimaciones sobre las proporciones de este fenmeno?
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA ESTIMAR PROPORCIONES DE
POBLACIONES CON TAMAO DESCONOCIDO
( )2
2
211
d
ppZn
>
APLICACIN ( ) ( )
( ) 75.33905.067.033.096.1
2
2
=>n , Para realizar una estimacin sobre las proporciones de preferencia sobre el prximo director de la ENAH, Jayr necesita una muestra mayor a 339.75; lo cual, hablando de personas, implica encuestar alrededor de 340 personas. b) Previendo los costos y tiempo que se llevar encuestar a 340 personas, Jayr decide encuestar slo a los estudiantes. Sabiendo que hay aproximadamente 2000 alumnos en la ENAH, es que con este cambio reducir su muestra?, a cunto?.
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES CUYO TAMAO SE CONOCE
( )( ) ( )ppZNd
ppZNn +
>
11
12
212
2
21
APLICACIN ( ) ( )
( ) ( ) ( ) ( ) 54.29067.033.096.11200005.067.033.096.12000
22
2
=+>n
, Si slo encuestara alumnos, el tamao de la muestra que Jayr requerira para hacer estimaciones sobre las preferencias para director de la ENAH sera de 290.54; es decir, 251 estudiantes.
EJERCICIOS DE REPASO I. Define los siguientes conceptos: 1. Hiptesis 2. Hiptesis estadstica 3. Error tipo I 4. Error tipo II 5. Significancia estadstica 6. Regin de rechazo 7. Estadstico de prueba
8. Parmetro 9. Qu es x ? qu es ? 10. Qu es ? Qu es s?
11. Qu es p ? Qu es p ?
12. Potencia de la prueba
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
44
II. Resolver los siguientes problemas, interpretando los resultados encontrados.
1. En un estudio realizado por Herrera y Lpez1 sobre una poblacin infantil de la regin de la sierra norte de Puebla se obtuvo, entre otros resultados, que la estatura promedio de 25 hombres de 13 aos en Zacapoaxtla, Puebla fue de 140.38 cm. con una desviacin estndar de 7.89cm. Suponiendo distribucin normal en la poblacin
a) Existe evidencia para afirmar que la estatura de la poblacin de nios de 13 aos en esta regin es menor de 143 cm.? Sea =0.1
b) Encontrar un intervalo al 90% de confianza para la media de estatura de la poblacin.
2. En un estudio sobre crecimiento y desarrollo realizado por Villanueva, Sanz y Serrano2 entre otras medidas, se consider la estatura sentado de nios entre 9 y 12 aos en la comunidad de La Villa de las Margaritas, Chiapas. En 34 nios que estaban en el rango de 11.6 y 12.5 aos de edad se obtuvo una media de 72.31 cm. y una desviacin estndar de 37.6.
a) Proporcionan estos datos evidencia para afirmar que la poblacin tiene una estatura sentado menor de 70 cm.? Sea =0.05 b) Estimar por intervalo al 95% de confianza la media de la estatura sentado en la poblacin.
3. En un departamento de carnes de una cadena de supermercados se empaca carne molida de res en recipientes que se supone contiene un kilogramo. Una muestra aleatoria de 42 paquetes dio peso promedio de 1.09 kilos con una desviacin estndar de 0.18 kilos.
a) Si usted fuera el gerente de control de calidad y quisiera tener la certeza de que la cantidad promedio de carne molida es en verdad de 1 kilogramo, qu hiptesis probara?
b) Determine el valor de p para la prueba del inciso a)
c) Establecer un intervalo al 95% de confianza para la media de la poblacin.
d) De qu manera dara a conocer los resultados de su estudio a un grupo de consumidores interesados?
Los problemas 4 al 10 se refieren a los datos sobre percepcin, iniciacin sexual y antropometra que fueron recolectados en el grupo (si ya no los tienes puedes bajarlos en la direccin: http://enah.cursos.estadistica.googlepages.com/home. Contrastar la hiptesis correspondiente y elaborar un intervalo de confianza donde sea pertinente. En todos los casos considerar =0.05 e intervalos al 95% de confianza e interpretar todos los resultados.
1 Herrera Bautista, Rebeca y Lpez Alonso Sergio (1995) Distribucin de talla y peso en poblacin infantil de la regin de la sierra norte de Puebla, Mxico Estudios de antropologa bilolgica V Coloquio de Antropologa Fsica Juan Comas, Mxico, IIA, UNAM. 2 VILLANUEVA MARA, SANZ MA. ELENA Y SERRANO CARLOS. (1982) Crecimiento y desarrollo en escolares de la Villa de las Margaritas, Chiapas Mxico. En II Coloquo de Antropologa Fsica Juan Comas, IIA, UNAM. pp. 427-452
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
45
4. Se puede suponer distribucin normal en la estatura antropomtrica de hombres?
5. Se puede asumir distribucin normal en altura de rodilla en mujeres del turno vespertino?
6. Suponiendo que la variable permetro de cintura en mujeres no se distribuye normal, es posible inferir que toma un valor mayor de 800 mm.?
7. La media de estatura en la poblacin de hombres es menor de 1650 mm.?
8. La media de la altura de la rodilla de mujeres es diferente de 500mm.?
9. La varianza poblacional de la estatura total en mujeres es de 2500 mm ?
10. La proporcin de mujeres que han tenido relaciones sexuales es mayor de 0.65?
11. la proporcin de mujeres que se autopercibieron como la figura 6 es menor de 0.15?
12. Las autoridades de una universidad consideran que el nivel de acreditacin debera ser mayor al 65%. En un curso de bioestadstica tomado por 35 alumnos 28 acreditan.
a) Proporcionan estos datos para confirmar que el curso se encuentra de acuerdo con lo pronosticado por las autoridades. Sea =0.05. b) Determinar un intervalo al 95% de confianza para la proporcin de alumnos que acreditan.
13. El siguiente cuestionario fue respondido por una muestra de 250 gineclogos. Los nmeros de la derecha son las frecuencias de respuesta de cada opcin:
1. Ha revisado durante el ao pasado a una o ms mujeres embarazadas con altas concentraciones de plomo en la sangre?
a) Si 175 b) No 75
2. Acostumbra como rutina poner al tanto a sus pacientes embarazadas de que el fumar es riesgoso para el feto?
a) Si 238 b) No 12
a) Es posible concluir que, de la poblacin muestreada menos del 15% de los gineclogos ha atendido a una o ms mujeres embarazadas con altas concentraciones de plomo en la sangre? Sea =0.01. Construir intervalo al 99% de confianza para la proporcin poblacional.
b) es posible concluir que ms del 90% de los mdicos pone al tanto a sus pacientes de que fumar es riesgoso para el feto? Sea =0.05. Construir intervalo al 95% de confianza para la proporcin poblacional.
14. En una escuela se est planeando la construccin de canchas de basketball pues se cree que ms de 2/3 de la poblacin estudiantil lo practican. Una encuesta realizada detect que, de 48 alumnos elegidos al azar, 33 preferan como deporte el basketball. Se puede inferir lo planteado? Sea =0.05. Con 95% de confiabilidad calcular un intervalo para estimar la proporcin de alumnos de toda la escuela que prefieren basketball. Interprete su resultado.
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
46
15. Un antroplogo fsico ha medido la capacidad del crneo de 38 fsiles de adultos de un tipo androide ya extinto. Obtuvo una media muestral de 820 cm3 con s = 90 cm3. Calcule un intervalo de confianza a nivel 95% para la capacidad promedio del crneo de este antropoide.
16. Datos de la Encuesta Nacional de Alimentacin y Nutricin en el medio rural 1996 muestran que el estado de Guerrero presenta la mayor proporcin de nios desnutridos del pas en medios rurales segn el peso para la edad con un valor de 0.63. Si la muestra considerada fue de 390 nios en el estado.
a) se puede afirmar que la proporcin de nios en Guerrero es mayor de 0.60? Sea =0.0895 b) Construir un intervalo al 90% de confianza para la proporcin poblacional.
17. La productividad de un sistema que fabrica discos compactos vrgenes es, segn los empresarios ms de 150 discos por hora. De resultar cierto esto, una compaa disquera comprar dicho sistema. Tomando el sistema a prueba, lo activan en 28 horas (cada hora es una muestra) y obtienen una media de 155.8 con una desviacin estndar de 7.18. Comprarn el sistema en cuestin? Responder esta pregunta suponiendo distribucin normal en la poblacin, con las dos metodologas de inferencia:
a) Mediante una prueba de hiptesis con =0.1. b) Con un intervalo al 90% de confianza.
18. En un estudio sobre los efectos de la contaminacin ambiental se midieron las concentraciones de hemoglobina en 15 personas que habitan en la zona colindante con la zona industrial de Naucalpan, obteniendo los siguientes valores: 15.6, 14.8, 14.4, 16.6, 13.8, 14.0, 17.3, 18.6, 16.2, 14.7, 15.7, 16.4, 13.9, 14.6 y 12.8. Suponiendo que la poblacin de la cual se extrae la muestra no se distribuye aproximadamente normal, es posible concluir que la concentracin de hemoglobina en esta regin es mayor de 16?
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
47
UNIDAD II COMPARACIN DE DOS MEDIAS POBLACIONALES Cuando lo que se desea es comparar dos poblaciones a travs de su media, lo primero que debe reconocerse es si la variable a comparar tiene o no distribucin normal aplicando la prueba de Shapiro-Wilks. A. COMPARACIN EN POBLACIONES CON DISTRIBUCIN NORMAL Si bien es posible suponer distribucin normal en la variable de ambas poblaciones, las expresiones para construir intervalos de confianza y comparar las medias dependen an de otro requisito: si puede asumirse que sus varianzas son iguales o no, lo cual se verifica a travs de la prueba de Leveane. 1) PRUEBA DE LEVEANE Se trata de una prueba para comparar las varianzas 21 y 22 de una variable con distribucin normal en dos poblaciones de tamao 1N y 2N , con medias 1 y 2 .
a) Hiptesis nula y regin de rechazo
Como el fin es simplemente inferir si las varianzas de ambas poblaciones son estadsticamente iguales o no, las hiptesis de esta prueba son:
HIPTESIS NULA HIPTESIS ALTERNATIVA
22
210 : =H 2221: aH
REGIN DE RECHAZO
El valor donde comienza la regin de rechazo se encuentra acudiendo a las tablas F de Fisher mediante la expresin )1,1(1 21
nnF , donde los grados de libertad son ( )11 n en el numerador y ( )12 n en el denominador.
b) Procedimiento para el contraste de hiptesis 1. Tomar una muestra de cada poblacin y obtener sus varianzas muestrales. 2. Definir a la muestra con varianza mayor con el nmero 1 y a la menor con el nmero dos; es decir, la muestra 1n tiene una varianza
21s , que es mayor que la
varianza 22s de la muestra 2n . 3. Gracias a ello, puede calcularse el estadstico de prueba:
)1,1(1
21 nnF
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
48
EXPRESIN PARA CALCULAR EL ESTADSTICO DE PRUEBA cF EN
POBLACIONES CON DISTRIBUCIN NORMAL
22
21
ssFc =
donde el numerador es siempre mayor que el denominador y el resultado tiene una distribucin F de Fisher con ( )11 n grados de libertad en el numerador y ( )12 n grados de libertad en el denominador. 4. Determinar el nivel de significancia de la prueba, as como la ubicacin y el valor de la regin de rechazo de la hiptesis nula 0H . 5. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la hiptesis nula 0H ; si est dentro de ella, rechazar la hiptesis nula 0H . Si est fuera, concluir con qu significancia o confiabilidad no se rechaza.
Una vez que se concluye si las varianzas de ambas poblaciones son estadsticamente iguales o diferentes, se tienen elementos construir intervalos de confianza y hacer pruebas sobre sus medias. 2) INTERVALOS DE CONFIANZA Como ya se ha dicho, la expresin para construir un intervalo de confianza para la diferencia entre las medias de dos poblaciones depende del resultado de la prueba de Leveane. De acuerdo a ella:
VARIANZAS IGUALES 22
21 =
VARIANZAS DIFERENTES 22
21
( )
+ +21
2
212121
1121
nnSptxx nn ( )
+ +
2
22
1
212
212121
21
ns
nstxx nn
Y sus resultados se interpretan de la siguiente forma:
VALORES RESULTANTES INTERPRETACIN Valores negativos 21 < Valores positivos 21 >
Valores negativos y positivos (que incluyen al cero) 21 =
3) PRUEBA t Cubiertos los anteriores requisitos, es est la prueba que debe utilizarse para comparar dos poblaciones a travs de sus medias:
a) Hiptesis nula y regin de rechazo La comparacin de medias poblacionales que esta prueba realiza permite no slo establecer si son diferentes, sino tambin si alguna es mayor que otra, motivo por el cual las hiptesis que pueden plantearse son:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
49
HIPTESIS DEL INVESTIGADOR HIPTESIS NULA
HIPTESIS ALTERNATIVA
21: invH 210 : =H 21: aH 21: aH
Segn sea el caso y de acuerdo a la significancia , la regin de rechazo para la hiptesis nula 0H ser:
HIPTESIS
PRUEBA BILATERAL O
DE DOS COLAS
21
21: invH 210 : =H 21: aH
REGIN DE RECHAZO DE
0H
PRUEBA UNILATERAL
O DE UNA COLA
1
21: aH
REGIN DE RECHAZO DE
0H
El valor en donde inicia la regin de rechazo se obtiene mediante las expresiones
)2(
2121 +
nnt si es bilateral o
)2(1
21 +nnt si es unilateral. Para encontrarlo, se busca en
las tablas de la distribucin t los grados de libertad3 y se intersecta con la confiabilidad buscada, que depende del tipo de prueba. Finalmente, se agrega un signo negativo si la regin de rechazo (o una parte) se encuentra en la seccin inferior del eje de las X .
3 Como puede verse, los grados de libertad es igual a la suma de los dos tamaos de muestra menos dos.
/2 /2
1-
1-
1-
)2(1
21 +nnt
)2(1
21 + nnt
)2(
2121 +
nnt )2( 2121 +
nnt
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
50
b) Procedimiento para el contraste de hiptesis 1. Teniendo las muestras de tamao 1n y 2n , obtener sus medias muestrales 1x y 2x . 2. Dependiendo del resultado de la prueba de Leveane, calcular el estadstico de prueba:
VARIANZAS IGUALES
22
21 =
VARIANZAS DIFERENTES 22
21
21
21
11nn
Sp
xxtc+
=
2
22
1
21
21
ns
ns
xxtc+= Donde Sp es un promedio de las
varianzas muestrales 21s y 22s , ponderado
por los tamaos de las muestras 1n y 2n que se calcula de la siguiente forma:
( ) ( )2
11
21
222
211
++=
nnsnsnSp
que tiene una distribucin t de student con 221 + nn grados de libertad. 3. Determinar el nivel de significancia de la prueba, as como la ubicacin y el valor de la regin de rechazo de la hiptesis nula 0H . 4. Ubicar el estadstico de prueba con respecto a la regin de rechazo de la hiptesis nula 0H ; si est dentro de ella, rechazar la hiptesis nula 0H . Si est fuera, concluir con qu significancia o confiabilidad no se rechaza.
3) EJEMPLOS DE APLICACIN 1. Los siguientes datos de estatura en centmetros pertenecen a dos muestras aleatorias (femenina y masculina) de estudiantes de la ENAH. Suponga distribucin normal en sus poblaciones.
MUJERES 157 181 158 152 160 160 163 155 156 153 170 152 160 170 170 158
HOMBRES 173 182 165 165 176 173 180
Con una significancia de 05.0= : a) es posible inferir que la varianza de estatura femenina es diferente a la masculina en los estudiantes de la ENAH? b) es posible concluir que la estatura media femenina es menor que la masculina en estas poblaciones? c) construir un intervalo para la diferencia de medias al 95% de confianza.
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
51
DATOS GENERALES MUJERES 16=n 94.160=x 05.8=s , Poblacin 1HOMBRES 7=n 43.173=x 65.6=s , Poblacin 2
HIPTESIS
22
21: invH 22210 : =H 2221: aH
REGIN DE RECHAZO DE 22
210 : =H
05.0= 94.3)6,15(95.0)17,116( 05.01)1,1(1 21 === FFF nn
EXPRESIN PARA ESTADSTICO DE PRUEBA cF 22
21
ssFc =
CLCULO DEL ESTADSTICO DE PRUEBA cF
( )( ) 47.165.6
05.82
2
==cF
UBICACIN DE ESTADSTICO DE PRUEBA cF CON RESPECTO A REGIN DE RECHAZO DE 0H
a) , Como el estadstico de prueba 47.1=cF est fuera de la regin de rechazo que inicia en 27.5)6,15(975.0 =F , la hiptesis nula 22210 : =H no se rechaza y puede inferirse que la varianza de la estatura en estas dos poblaciones no es significativamente ( )05.0>p diferente. Teniendo el resultado de la prueba de Leveane, es posible comparar las medias con la prueba t :
HIPTESIS 21:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
52
RESULTADO P. LEVEANE 22210 : =H
EXPRESIN PARA ESTADSTICO DE PRUEBA ct
21
21
11nn
Sp
xxtc+
=
CLCULO DE Sp
( ) ( )2
11
21
222
211
++=
nnsnsnSp
( )( ) ( )( ) 68.72716
65.61705.8116 22 =++=Sp
CLCULO DEL ESTADSTICO DE PRUEBA ct
59.3
71
16186.7
43.17394.160 =+
=ct
UBICACIN DE ESTADSTICO DE PRUEBA ct CON RESPECTO A REGIN DE RECHAZO DE 0H
b) , Como el estadstico de prueba 59.3=ct cae en la regin de rechazo que parte de 7207.1)21( 95.0 = t , la hiptesis nula 210 : H se rechaza y puede inferirse que estatura femenina es significativamente ( )05.0
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
53
2. Los siguientes datos pertenecen a dos muestras aleatorias de personas mayores, fumadores y no fumadores, e indican el ndice de destruccin de pulmn que presentaron al morir (el cual es ms grande a mayor deterioro pulmonar).
NO FUMADORES 18.1 6.0 10.8 11.0 7.7 17.9 8.5 13.0 18.9
FUMADORES 16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6 12.0 24.1 16.5 21.8 16.3 23.4 18.8
Suponga distribucin normal y conteste: a) Es posible inferir que las varianzas poblacionales son diferentes? b) Es posible afirmar que la destruccin pulmonar es mayor en personas mayores fumadoras? c) Construya un intervalo al 95% de confianza para la diferencia de medias.
DATOS GENERALES NO
FUMADORES 9=n 43.12=x 85.4=s , Poblacin 1FUMADORES 16=n 54.17=x 48.4=s , Poblacin 2
HIPTESIS 22
21: invH 22210 : =H 2221: aH
REGIN DE RECHAZO DE 22
210 : =H
05.0= 64.2)15,8(95.0)116,19( 05.01)1,1(1 21 === FFF nn
EXPRESIN PARA ESTADSTICO DE PRUEBA cF 22
21
ssFc =
CLCULO DEL ESTADSTICO DE PRUEBA cF
( )( ) 17.148.4
85.42
2
==cF
UBICACIN DE ESTADSTICO DE PRUEBA cF CON RESPECTO A REGIN DE RECHAZO DE 0H
a) , Como el estadstico de prueba 17.1=cF est fuera de la regin de rechazo que inicia en 20.3)15,8(975.0 =F , la hiptesis nula 22210 : =H no se rechaza y puede inferirse que la varianza de la estatura en estas dos poblaciones no es significativamente ( )05.0>p diferente.
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
54
HIPTESIS 21:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
55
APLICACIN [ ]14.1,08.9
161
9161.40687.254.1743.12
21
21
=
+
INTERPRETACIN Valores negativos 21 < c) , Con un 95% de confianza es posible inferir que la media de la poblacin 1 es menor que la de la poblacin 2; por lo cual se puede afirmar que la destruccin pulmonar es ms grande en personas mayores fumadoras. 3. Los siguientes de datos de permetro craneal (mm.) en neonatos (0-24 horas) fueron obtenidos durante una investigacin (1968-1970) en el Valle de Cholula:
HOMBRES 351 365 339 330 335 354 350 356 350 322 331
MUJERES 331 317 330 321 335 329 340 332 320 345 327 335 330 320
Con una significancia de 05.0= , es posible inferir que existen diferencias por sexo en el permetro craneal de estas poblaciones?
HIPTESIS 21: invH 210 : =H 21: aH
HOMBRES: ESTADSTICOS DE ORDEN.
( ) 3221 =X ( ) 3302 =X ( ) 3313 =X ( ) 3354 =X ( ) 3395 =X ( ) 3506 =X ( ) 3507 =X ( ) 3518 =X ( ) 3549 =X ( ) 35610 =X ( ) 36511 =X
DATOS 91.343=x 27.13=s 09.1762 =s 11=n (impar) 52111 ==h
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA cW ( ) ( ) ( )( )
2
11
,211
= += jjn
h
jnjc XXasn
W
( ) ( ) ( )( )2
5
111,210
1
= =
j
jjnjc XXasW
( )( ) ( ) ( )( ) ( )
2
2 3393500695.03353511429.03313542260.03303563315.03223655601.0
101
++++=
sWc
( ) [ ]08.167709.176101=cW 952.093.1760
08.1677 ==cW
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
56
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH :oH La muestra procede de una poblacin con
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTAR 952.0=cW 850.01105.0 =W
, El estadstico de prueba 948.0=cW no es menor a 850.01105.0 =W . Por tal motivo, la hiptesis nula no se rechaza y se infiere que, en la poblacin masculina de la cual procede esta muestra, la variable anchura biacromial tiene una distribucin normal.
MUJERES: ESTADSTICOS DE ORDEN. ( ) 3171 =X ( ) 3202 =X ( ) 3203 =X ( ) 3214 =X ( ) 3275 =X ( ) 3296 =X ( ) 3307 =X ( ) 3308 =X ( ) 3319 =X ( ) 33210 =X ( ) 33511 =X ( ) 33512 =X ( ) 34013 =X ( ) 34514 =X
DATOS 42.329=x 02.8=s 32.642 =s 14=n (par) 7214 ==h
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA cW ( ) ( ) ( )( )
2
11
,211
= += jjn
h
jnjc XXasn
W
( ) ( ) ( )( )2
7
114,213
1
= =
j
jjnjc XXasW
( )( ) ( ) ( )( ) ( ) ( )( )
2
2
3303300240.03293310727.03273321240.03213351802.0
3203352460.03203403318.03173455251.0
131
++++
++=
sWc
( ) [ ]85.80132.64131=cW 959.017.813
85.801 ==cW
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH :oH La muestra procede de una poblacin con
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTAR 959.0=cW 874.01405.0 =W
, El estadstico de prueba 961.0=cW no es menor a 874.01405.0 =W . Por tal motivo, la hiptesis nula no se rechaza y se infiere que, en la poblacin femenina de la cual procede esta muestra, la variable permetro craneal tiene una distribucin normal.
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
57
Comprobado que ambas poblaciones tienen distribucin normal para esta variable, hacemos la prueba de Leveane:
DATOS GENERALES HOMBRES 11=n 91.343=x 27.13=s , Poblacin 1MUJERES 14=n 42.329=x 01.8=s , Poblacin 2
HIPTESIS
22
21: invH 22210 : =H 2221: aH
REGIN DE RECHAZO DE 22
210 : =H
05.0= 67.2)13,10(95.0)114,111( 05.01)1,1(1 21 === FFF nn
EXPRESIN PARA ESTADSTICO DE PRUEBA cF 22
21
ssFc =
CLCULO DEL ESTADSTICO DE PRUEBA cF
( )( ) 74.201.8
27.132
2
==cF
UBICACIN DE ESTADSTICO DE PRUEBA cF CON RESPECTO A REGIN DE RECHAZO DE 0H
, Como el estadstico de prueba 74.2=cF cae en la regin de rechazo que inicia en 67.2)13,10(95.0 =F . Por tal motivo, la hiptesis nula 22210 : =H se rechaza y puede
inferirse que la varianza del permetro craneal en estas dos poblaciones es significativamente ( )05.0
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
58
RESULTADO P. LEVEANE 2221: aH
EXPRESIN PARA ESTADSTICO DE PRUEBA ct
2
22
1
21
21
ns
ns
xxtc+=
CLCULO DEL ESTADSTICO DE PRUEBA ct
19.3
1401.8
1127.13
42.32991.34322=
+=ct
UBICACIN DE ESTADSTICO DE PRUEBA ct CON RESPECTO A REGIN DE RECHAZO DE 0H
b) , Como el estadstico de prueba 19.3=ct cae en la regin de rechazo que parte de 0687.2)23( 975.0 =t , la hiptesis nula 210 : =H se rechaza y puede inferirse que existen diferencias significativas ( )05.0 c) , Con un 95% de confianza es posible inferir que la media de la poblacin 1 es menor que la de la poblacin 2; por lo cual se puede afirmar que el permetro craneal de hombres es mayor que el de mujeres entre los neonatos de esa localidad. B. COMPARACIN EN POBLACIONES CON DISTRIBUCIN DESCONOCIDA B.1) UTILIZANDO DOS MUESTRAS GRANDES Si de acuerdo a la prueba de Shapiro Wilks no es posible suponer distribucin normal en al menos una de las dos poblaciones, pero las muestras obtenidas de ellas son mayores a 20 ( )20,20 21 >> nn , gracias al Teorema Central de Lmite pueden utilizarse las siguientes expresiones para construir intervalos de confianza y comparar sus medias:
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
59
EXPRESIN PARA ENCONTRAR UN INTERVALO AL ( )1 POR CIENTO
DE CONFIANZA PARA 21 CUANDO LA POBLACIN TIENE
DISTRIBUCIN DESCONOCIDA PERO ( )20,20 21 >> nn
+
2
22
1
21
212121 n
snsZxx
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cZ EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA PERO ( )20,20 21 >> nn 2
22
1
21
21
ns
ns
xxZc+=
Como es posible ver, el estadstico de prueba es una cZ , el cual tiene una distribucin normal estndar. Debido a ello es que se recurre, una vez ms, a las tablas de distribucin normal para obtener los valores correspondientes a la significancia y confiabilidad de la prueba. B.2) UTILIZANDO DOS MUESTRAS PEQUEAS En caso de que al menos una de las muestras no sea suficientemente grande ( )20 210 : MMH 21: MMH a >
Cuyas regiones de rechazo, respectivamente, son las siguientes:
HIPTESIS
PRUEBA BILATERAL O
DE DOS COLAS
21
21: MMH inv 210 : MMH = 21: MMH a
REGIN DE RECHAZO DE
0H
PRUEBA 21: MMH inv < 210 : MMH 21: MMH a <
1-/2 /2 ( )21 ,2
nnU ( )21 ,
21nnU
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
60
UNILATERAL O DE UNA
COLA 1 REGIN DE
RECHAZO DE 0H
21: MMH inv > 210 : MMH 21: MMH a >
REGIN DE RECHAZO DE
0H
Debe dejarse en claro que la forma de la grfica de esta distribucin no es especficamente tal y acercarse de ella slo puede afirmarse que no es simtrica. Los valores que delimitan tales regiones, empero, pueden encontrarse utilizando las tablas para la prueba de Mann-Whitney mediante las expresiones ( )21 ,
2
nnU y ( )21 ,
21nnU si la prueba es bilateral y con ayuda de
( )21 ,nnU o ( )21 ,1 nnU si la prueba es unilateral. Los valores que tienen una alfa directa se encuentran buscando en los renglones de n el valor de 1n , posteriormente la significancia de la prueba y por ltimo intersectar ello con la columna de m, que es el valor de 2n . Empero, los que implican encontrar la regin de rechazo a la derecha ( )21,1 deben calcularse a partir de los anteriores mediante la siguiente frmula:
EXPRESIN PARA HALLAR EL VALOR DE INICIO DE REGIONES DE RECHAZO EN EL EJE SUPERIOR DE LAS X
PRUEBAS BILATERALES ( ) ( )2121 ,
221
,
21nnnn UnnU =
PRUEBAS UNILATERALES ( ) ( )2121 ,21,1 nnnn UnnU = b) Procedimiento de contraste de hiptesis 1. Teniendo los datos nXXXX ,...,,, 321 como muestra de la poblacin 1 y a los datos nYYYY ,...,,, 321 como muestra de la poblacin 2, se asignan rangos a todos los datos considerando como slo una a ambas muestras. 2. A partir de ello se obtienen los siguientes datos:
DATOS
1- ( )21 ,1
nnU
( )21 ,nnU
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
61
1n Tamao de la muestra 1.
2n Tamao de la muestra 2. 1R Suma de los rangos de la muestra 1. 2R Suma de los rangos de la muestra 2.
3. Teniendo eso se calcula el estadstico de prueba:
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cU EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA PERO Y MUESTRAS PEQUEAS
( )2
11 11 += nnRU c
4. El valor obtenido se compara con la regin de rechazo delimitada por el valor de U que se obtuvo en las tablas de Mann-Whitney y que depende de la significancia y los tamaos de las muestras. 5. Finalmente se ubica el estadstico de prueba con respecto a la regin de rechazo de la hiptesis nula 0H ; si est dentro de ella, rechazar la hiptesis nula
0H . Si est fuera, concluir con qu significancia o confiabilidad no se rechaza.
c) Ejemplos de aplicacin 1. Los siguientes datos corresponden a la altura basion-bregma de crneos masculinos y femeninos pertenecientes a los restos seos hallados en la Cueva de la Candelaria, Coahuila.
CRNEOS MASCULINOS (POBLACIN 1) 139 135 146 143 137 147 134 137 142
CRNEOS FEMENINOS (POBLACIN 2) 131 129 133 127 123 138 129
Si ninguna de las poblaciones tiene distribucin normal y utilizamos una significancia de 05.0= , es posible inferir que la altura basion-bregma es menor en los crneos femeninos?
CRNEOS MASCULINOS RANGO CRNEOS FEMENINOS RANGO139 12 131 5 135 8 129 3.5 146 15 133 6 143 14 127 2 137 9.5 123 1 147 16 138 11 134 7 129 3.5 137 9.5 2R 32 142 13 72 =n
1R 104 91 =n
HIPTESIS
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
62
21: MMH inv > 210 : MMH 21: MMH a >
REGIN DE RECHAZO DE 210 : MMH 05.0= 95.01 =
( ) ( ) 167,905.0, 21 ==UU nn ( ) ( ) 4716797,995.0,1 21 === UU nn
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cU EN
POBLACIONES CON DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
( )2
11 11 += nnRU c
CLCULO DEL ESTADSTICO DE PRUEBA ct
( ) 592
199104 =+=cU
UBICACIN DE ESTADSTICO DE PRUEBA cU CON RESPECTO A REGIN DE RECHAZO DE 0H
, El estadstico de prueba 59=cU cae en la regin de rechazo que parte de ( ) 477,995.0 =U . Por ende, la hiptesis nula 210 : MMH se rechaza y puede inferirse que
la altura basion-bregma es significativamente ( )05.0
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
63
53 12.5 51 9.5 48 5 2R 37 47 3.5 72 =n 54 14
1R 116 101 =n
HIPTESIS
21: MMH inv > 210 : MMH 21: MMH a >
REGIN DE RECHAZO DE 210 : MMH 05.0= 95.01 =
( ) ( ) 187,1005.0, 21 ==UU nn ( ) ( ) 52187107,1095.0,1 21 === UU nn
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cU EN
POBLACIONES CON DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
( )2
11 11 += nnRU c
CLCULO DEL ESTADSTICO DE PRUEBA ct
( ) 612
11010116 =+=cU
UBICACIN DE ESTADSTICO DE PRUEBA cU CON RESPECTO A REGIN DE RECHAZO DE 0H
, El estadstico de prueba 61=cU cae en la regin de rechazo que parte de ( ) 527,1095.0 =U . Por ende, la hiptesis nula 210 : MMH se rechaza y puede inferirse que
la altura de la nariz es significativamente ( )05.0
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
64
Con una significancia de 05.0= , es posible inferir que existen diferencias por sexo en la anchura biacromial de estas poblaciones?
HIPTESIS 21: invH 210 : =H 21: aH
Pero como no sabemos si hay distribucin normal en ambas poblaciones, las hiptesis tambin podran ser:
21: MMH inv 210 : MMH = 21: MMH a Por ende, primero hay que comprobar eso con ayuda de la prueba de Shapiro-Wilks para saber qu prueba aplicar:
HOMBRES: ESTADSTICOS DE ORDEN. ( ) 1001 =X ( ) 1002 =X ( ) 1023 =X ( ) 1044 =X ( ) 1055 =X ( ) 1096 =X ( ) 1117 =X ( ) 1128 =X ( ) 1149 =X ( ) 11510 =X ( ) 11711 =X ( ) 12012 =X ( ) 12113 =X ( ) 12214 =X
DATOS 86.110=x 72.7=s 60.592 =s 14=n (par) 7214 ==h
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA cW ( ) ( ) ( )( )
2
11
,211
= += jjn
h
jnjc XXasn
W
( ) ( ) ( )( )2
7
114,213
1
= =
j
jjnjc XXasW
( )( ) ( ) ( )( ) ( ) ( )( )
2
2
1111120240.01091140727.01051151240.01041171802.0
1021202460.01001213318.01001225251.0
131
++++
++=
sWc
( ) [ ]58.72460.59131=cW 935.080.774
58.724 ==cW
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH :oH La muestra procede de una poblacin con
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTAR 935.0=cW 874.01405.0 =W
Bioestadstica: material preliminarJL Castrejn, DL Troncoso Antropologa Fsica-ENAH
65
, El estadstico de prueba 935.0=cW no es menor a 874.01405.0 =W . Por tal motivo, la hiptesis nula no se rechaza y se infiere que, en la poblacin masculina de la cual procede esta muestra, la variable anchura biacromial tiene una distribucin normal.
MUJERES: ESTADSTICOS DE ORDEN. ( ) 901 =X ( ) 932 =X ( ) 1033 =X ( ) 1054 =X ( ) 1055 =X ( ) 1056 =X ( ) 1057 =X ( ) 1058 =X ( ) 1099 =X ( ) 11010 =X ( ) 11011 =X ( ) 11012 =X ( ) 11113 =X ( ) 11214 =X ( ) 11515 =X ( ) 11616 =X
DATOS 5.106=x 7=s 492 =s 16=n (par) 8216 ==h
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA cW ( ) ( ) ( )( )
2
11
,211
= += jjn
h
jnjc XXasn
W
( ) ( ) ( )( )2
8
116,215
1
= =
j
jjnjc XXasW
( )( ) ( ) ( )( ) ( ) ( )( ) ( )
2
2
1051090196.01051100593.01051101005.01051101447.01051111939.0
1031122521.0931153290.0901165056.0
151
+++++
++=
sWc
( ) [ ]01.64649151=cW 879.0735
01.646 ==cW
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH :oH La muestra procede de una poblacin con
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTA