CONTRASTE DE HIPOTESIS.docx

18
CONTRASTE DE HIPOTESIS Un director de un colegio tiene una especial preocupación por el alumnado de difícil comportamiento. Ha elaborado un criterio objetivo para calificar a ciertos alumnos o alumnas como conflictivos. Se basa en las faltas de asistencia, retrasos, calificaciones trimestrales partes de disciplina, etc. Lleva años calificando como conflictiva a una parte del alumnado, que supone, por término medio el 12% de la población estudiantil de la que procede su alumnado. Últimamente está observando un incremento del porcentaje de este tipo de calificaciones. En efecto, en el presente curso, con una matrícula de 1385, el colegio presenta un número medio de 201 calificaciones de conflictividad. ¿Puede seguir manteniendo la hipótesis de que sólo supone un 12% del total? Esta cuestión es un ejemplo claro de un contraste de hipótesis estadística. El director hace una afirmación o tiene una creencia: el grado de conflictividad es del 12% del alumnado. Los hechos, sin embargo, parecen hacerle sospechar que esto ya no es cierto. En efecto, el grado actual es del 201/1385 = 14,5% En estos casos surge siempre una duda: La diferencia que observo, ¿es debida al azar o a que en realidad la población estudiantil ha cambiado? Teóricamente, es imposible responder con seguridad a esta pregunta por lo que lo haremos en términos de probabilidad: Los 1385 alumnos y alumnas de este año constituyen una muestra de la población total. Si presentan un 14,5% de conflictividad puede ser debido a que en la actual promoción ha llegado al colegio, por puro azar, un alumnado de peor comportamiento que la media. Pero también puede ocurrir que haya cambiado toda la población. Si calculáramos la probabilidad de que ocurra lo primero (por puro azar) y nos resultara muy pequeña, nos inclinaríamos más bien al caso contrario (que ha cambiado la población). Si la probabilidad fuera razonable, por prudencia, mantendríamos la hipótesis del 12%.

Transcript of CONTRASTE DE HIPOTESIS.docx

CONTRASTE DE HIPOTESIS

CONTRASTE DE HIPOTESISUn director de un colegio tiene una especial preocupacin por el alumnado de difcil comportamiento. Ha elaborado un criterio objetivo para calificar a ciertos alumnos o alumnas como conflictivos. Se basa en las faltas de asistencia, retrasos, calificaciones trimestrales partes de disciplina, etc. Lleva aos calificando como conflictiva a una parte del alumnado, que supone, por trmino medio el 12% de la poblacin estudiantil de la que procede su alumnado.ltimamente est observando un incremento del porcentaje de este tipo de calificaciones. En efecto, en el presente curso, con una matrcula de 1385, el colegio presenta un nmero medio de 201 calificaciones de conflictividad. Puede seguir manteniendo la hiptesis de que slo supone un 12% del total?Esta cuestin es un ejemplo claro de un contraste de hiptesis estadstica. El director hace una afirmacin o tiene una creencia: el grado de conflictividad es del 12% del alumnado. Los hechos, sin embargo, parecen hacerle sospechar que esto ya no es cierto. En efecto, el grado actual es del 201/1385 = 14,5%En estos casos surge siempre una duda: La diferencia que observo, es debida al azar o a que en realidad la poblacin estudiantil ha cambiado?Tericamente, es imposible responder con seguridad a esta pregunta por lo que lo haremos en trminos de probabilidad: Los 1385 alumnos y alumnas de este ao constituyen una muestra de la poblacin total. Si presentan un 14,5% de conflictividad puede ser debido a que en la actual promocin ha llegado al colegio, por puro azar, un alumnado de peor comportamiento que la media. Pero tambin puede ocurrir que haya cambiado toda la poblacin. Si calculramos la probabilidad de que ocurra lo primero (por puro azar) y nos resultara muy pequea, nos inclinaramos ms bien al caso contrario (que ha cambiado la poblacin). Si la probabilidad fuera razonable, por prudencia, mantendramos la hiptesis del 12%.Qu es una probabilidad pequea o una probabilidad razonable? Segn el tipo de trabajo estadstico que se emprenda, se suele tomar como lmite 0,1, 0,05 0,01. Si deseamos efectuar un contraste de hiptesis sobre la proporcin, segn la teora, si np>5 se puede usar la distribucin binomial, que desemboca en normal para muestras grandes.En este caso np coincide con las 201 calificaciones de conflictividad, luego se cumple con creces. Adems, conocemos P=0,12, Q=0,88 y n=1385, luego podemos pasar directamente al contraste.En todo contraste de hiptesis se aconsejan un mnimo de pasos para concretar bien el problema:(1) Planteamiento de las hiptesis nula y alternativaEn este caso la hiptesis previa es que el porcentaje era del 12%: H0 : P = 0,12La preocupacin del director se justifica por la sospecha de que la proporcin ha aumentado, luego: H1 : P> 0,12As que planteamos una hiptesis de tipo unilateral por la derecha.(2) Supuestos del contrasteUn contraste de proporcin con una muestra tan grande se comporta como si la poblacin fuera normal, por lo que podemos suponerla.Suponemos muestra aleatoria simple procedente de una poblacin normal.(3) Estadstico de contrastePara la eleccin del contraste debes consultar los manuales de Estadstica o el apartado de teora de este tema. En este caso usaremosUsaremos :

Es mucho ms cmodo en nuestro caso usar la hoja de clculo tproporcion.ods, que contiene este contraste en su primera hoja "Una proporcin", y tan slo necesitamos rellenar los datos:

En la imagen vemos incorporado el dato del tamao de la muestra, 1385, la proporcin de la hiptesis nula, 0,12, y la alternativa de 0,145.Tambin se ha elegido ya el contraste unilateral por la derecha, porque el objetivo es contrastar si la proporcin ha aumentado.(4) Nivel de significacinYa se explic que los niveles ms usados son los de 0,1, 0,05 y 0,01. Su complemento a 1 recibe el nombre de Nivel de confianza, que por tanto tendr usualmente los valores de 0,90, 0,95 y 0,99 En el caso de Ciencias Humanas se suele elegir el 0,95. As se ha hecho en nuestro caso.(5) Toma de decisinSi observas la parte inferior del esquema de contraste podrs entender cmo se toma la decisin.

Otra forma de verlo es con el p-valor, que es la probabilidad, si la hiptesis nula fuera cierta, de que se produzca un resultado del 14,5%. Lee en el esquema su valor, que es de 0,0021, algo muy cercano a cero, prcticamente imposible. Por tanto, nuestra decisin debe ser:Se rechaza la hiptesis nulaLa poblacin de estudiantes ha cambiado.(6) Intervalo de confianzaA veces, cuando se rechaza un hiptesis, es conveniente proponer una alternativa. Podemos conseguirlo estimando el verdadero valor que tiene la proporcin ahora. Esto se consigue construyendo un intervalo de confianza (generalmente bilateral) para el nuevo dato de la poblacin.En nuestro caso sera el de (0,128, 0,162), es decir, entre un 12,8% y un 16,2%, con un error de estimacin del 1,71%. Resulta muy afinado porque la muestra es grande.Prctica 1En una prueba general realizada por todo el alumnado de un nivel de enseanza se han detectado diferencias que parecen significativas entre dos grupos, uno diurno y otro nocturno. El primero, de 67 alumnos y alumnas, ha obtenido una media en la calificacin de 5,23, con una desviacin tpica de 1,78. En el otro, compuesto de 58 pruebas realizadas, la media ha sido de 4,78 y la desviacin tpica de 1,60. No se tiene informacin sobre las caractersticas de la poblacin, ni de sus parmetros. Puede ser significativa la diferencia de rendimiento entre los dos turnos, al 95% de nivel de confianza?Los contrastes de media presentan bastantes variantes, por lo que el mayor problema en ellos es elegir los supuestos y estadsticos ms adecuados.En este caso las muestras no estn relacionadas. Como adems son grandes, se puede suponer la normalidad de la poblacin. No se conoce la varianza de la poblacin y por tanto tampoco sabemos si las varianzas en ambos colectivos se pueden considerar iguales. As, estamos en el caso:Dos muestras independientes con varianzas de la poblacin desconocidas y sin que nos conste su igualdad.Si consultas la teora, el estimador en este caso es

Se supone que las dos desviaciones tpicas de la poblacin se sustituyen por sus estimadores insesgados, las cuasidesviaciones tpicas. En ese caso la distribucin del estadstico es aproximadamente normal.Acudimos a la hoja tmedia.ods y escribimos los datos (El modelo est preparado para aceptar la desviacin tpica, y no la cuasidesviacin) y supuestos en la hoja Dos medias (independientes):Elegimos un contraste bilateral porque no suponemos a priori que un grupo deba tener mejor rendimiento que otro. Despus marcamos "Son desconocidas y supuestas distintas"Tamao muestra 167Tamao muestra 258

Media 15,23Media 24,78

Desviacin tpica 11,78Desviacin tpica 11,6

(De poblacin o muestra)(De poblacin o muestra)

y obtenemos este resultado

ResultadosValor crtico de Z

Desviacin muestral0,3Bilateral-1,961,96

Estadstico de contraste1,48Unilateral Izquierda

P-valor0,0699Unilateral derecha

DecisinSe acepta la hiptesis. Las medias son iguales

Por tanto, las diferencias observadas entre los dos grupos no son significativas, pero por poco, porque el p-valor es muy pequeo 0,0699. Estaramos en un caso a revisar si se vuelve a pasar la misma prueba. Bastara que hubiramos decidido un contraste unilateral para que hubiramos rechazado la hiptesis.Prctica 2Se pasa una misma prueba a dos colegios de distintos barrios, con los siguientes resultados:Colegio AColegio B

Nmero de pruebas342405

Promedio obtenido5,445,72

Desviacin tpica1,832,08

(1) Existe evidencia, con un nivel de significacin del 95%, de que los promedios obtenidos en los colegios sean distintos?(2) Se puede afirmar, con el mismo nivel, que las varianzas de las dos poblaciones son iguales?Se podra comenzar por la segunda, pues si las varianzas son iguales, este hecho puede influir en el contraste elegido para la primera.As que se puede plantear un contraste de dos varianzas. Con muestras tan grandes se puede suponer la normalidad y usar el contraste F.Abrimos la hoja tvarianza.ods - Hoja 2 - Contraste de dos varianzas.Observamos que se deben usar las cuasivarianzas, luego deberemos convertir en ellas las desviaciones tpicas elevndolas al cuadrado, multiplicando por N y dividiendo entre N-1:V1= 1,83^2*342/341 =3,36 V2 =2,08^2*405/404= 4,34Rellenamos todos los datos que poseemos:

Debemos plantear el contraste bilateral, pues no se nos ha indicado ningn dato que suponga que un colegio ha de presentar ms dispersin que otro.El resultado ser el siguiente:

Se ve que el estadstico de contraste vale 1,29, y cae a la derecha del valor crtico superior 1,23. Por tanto se rechaza la hiptesis con un p-valor muy pequeo: 0,0073, lo que le da mucha fiabilidad a la afirmacin. Las varianzas se pueden considerar distintas en la poblacin.Pasamos a las medias. Deberemos usar un contraste de medias en muestras independientes y con las varianzas de las poblaciones supuestas distintas.Abrimos la hoja tmedia.ods - Hoja 2 - dos medias independientesRellenamos los datos y elegimos Contraste bilateral y varianzas desconocidas supuestas distintas. Obtenemos lo siguiente:

Se observa la aceptacin de la igualdad de los promedios, pero est tan en el lmite, (estadstico -1,95 frente a valor crtico -1,96) que aunque aceptemos la hiptesis nula para ser fieles a la metodologa, deberamos repetir pruebas similares en otra ocasin. Si hubiramos fijado un nivel de 0,90, la hiptesis se hubiera rechazado.

Ejercicio 1Se sospecha que un dado est cargado, y que la cara 1 sale ms veces que las dems. Se tira el dado 600 veces y el nmero 1 aparece en 115 ocasiones. Podemos sospechar, con un nivel de confianza del 95%, que, efectivamente, el dado est cargado hacia el 1? Qu ocurrira con un nivel del 0,90?Solucin: El tamao de la muestra es el nmero de tiradas, 600. Si deseas escribir la proporcin de la hiptesis nula, que es 1/6, en la primera hoja del libro tproporcion.ods, puedes hacerlo de esta forma =1/6 y as no desperdicias decimales. De la misma forma, la proporcin alternativa se puede escribir como =115/600. Escribe tambin 0,95 (o 95%) en el nivel de confianza y elige unilateral por la derecha. Si estudias la decisin, observars que el estadstico est en el lmite de la zona crtica. Se acepta por pocas milsimas, y eso no es satisfactorio. En estos casos se suele repetir el experimento para mayor seguridad.Cambia el 0,95 por 0,90 y en ese caso se rechaza la hiptesis. Este ejemplo te puede servir para desconfiar de esta tcnica y usarla con mucha seguridad y cuidado.

Ejercicio 2El director de la cuestin-ejemplo, planteada al principio de este documento, sigue analizando las calificaciones de conflictividad. Ahora la preocupa el diferente comportamiento segn el sexo. Elige al azar un grupo de 250 chicas y descubre que estn calificadas como conflictivas 30. En otro grupo de 300 chicos son 40 los problemticos. Podemos afirmar, con un nivel de confianza del 95%, que ambas proporciones son iguales?Solucin: Abre la segunda hoja "Igualdad de proporciones" del libro tproporcion.ods. Escribe los tamaos de las muestras (250 y 300) y las dos proporciones (30/250 y 40/300). te resultar una proporcin conjunta de 0,127. Nos decidimos por un contraste bilateral, porque el director no parece tener una opinin previa. Observa los resultados: El estadstico de contraste -0,47 est comprendido entre los dos valores crticos -1,96 y 1,96. Otra forma de analizarlo es que su p-valor, 0,6798, est muy alejado del nivel de significacin 0,05. Por tanto se acepta la igualdad de proporciones entre chicos y chicas.

Ejercicio 3La siguiente tabla representa dos medidas consecutivas realizadas a los mismos sujetos en una variable cuantitativa. Una antes de un tratamiento y la otra posterior al mismo:

Sujetos123456789101112131415

Medida A254345755435621

Medida B265468676447952

Se puede considerar el tratamiento eficaz, es decir, producente de una diferencia significativa en las medias de ambas medidas? Se supone que lo esperado era un aumento de la media.

Solucin: Crea una tabla de diferencias entre las medidas A y B y obtendrs una diferencia media de 1,33 a favor de B y una desviacin tpica de 1,14. Abre la hoja tmedia.ods y abre la ltima hoja "Dos medias relacionadas". Rellena los datos: Tamao 15, media 1,33, desviacin 1,14, valor de hiptesis 0 (como si el tratamiento no fuera eficaz). Consideramos desconocida la varianza de la poblacin. De esta forma el p-valor es 0,0006, lo que nos hace rechazar la hiptesis de igualdad de medias, tanto al 95% como al 99%. El tratamiento ha sido eficaz.

Contraste para la diferencia de dos proporcionesEn el Ejercicio 1 se plante como hiptesis nula la igualdad de dos proporciones, lo que nos permita considerar la proporcin conjunta. Sin embrago, en otros casos lo que interesa es contrastar la diferencia entre dos proporciones. Por ejemplo, para analizar si una campaa de sensibilizacin incrementa un porcentaje en una cantidad dada.EjemploSe nota la campaa?

Unos grandes almacenes han instalado unas cajas de cobro automticas. Durante los primeros meses, tan slo las han usado un 8% de la clientela, por lo que deciden iniciar una campaa publicitaria a fin de incrementar ese uso en un 10%, y justificar as su instalacin. Durante unos das, en horas elegidas aleatoriamente, han efectuado un recuento y han descubierto que de un conjunto de 2340 clientes, tan slo han usado las cajas 208. Despus de desarrollar la campaa, han repetido el estudio, y esta vez, de 1978 clientes, han pasado por las nuevas cajas 395. Justifican estos resultados, al 95% de nivel de confianza, que se ha logrado el incremento deseado del 10%?En este caso aplicaremos el estadstico de contraste

en el que las proporciones en la poblacin son 8% y 18% respectivamente (si admitimos esto como hiptesis nula) y las de la muestra 208/2340=0,0889 y 395/1978=0,1887.Abre la tercera hoja del libro tproporcion.ods y escribe en ella los datos. Como el error es pequeo, se toman aqu como parmetros de la poblacin los mismos valores que en la muestra, y slo hay que rellenar la diferencia de proporciones supuesta (aqu el 10%)Suponemos contraste bilateral y fijamos el 95% de nivel de confianza:

El resultado del contraste ser que se rechaza la hiptesis de un incremento del 10%. Si rellenas los datos observars que ha subido un 11,1% de forma significativa.Caso prcticoEn una ONG se organizan encuentros trimestrales con todos los Delegados y Delegadas. Suelen asistir, salvo pequeas variaciones y ausencias, las mismas personas. En cada encuentro se recoge una valoracin posterior y se intentan mejorar los aspectos que se hayan puntuado menos. La Direccin est interesada en saber si las correcciones surten efecto, y por eso deseara averiguar si las medias de las encuestas de cada dos encuentros consecutivos son significativamente distintas entre s. Los ltimos encuentros produjeron estos resultados:EncuentroOctubre 07Enero 08Abril 08Julio 08

Media4,23,74,14,2

Desviacin t.0,81,21,41,2

Asistentes47544549

Cmo tratar estadsticamente estos datos?El inters de la Direccin est en comparar cada dos medias consecutivas, luego se est en el caso de Diferencia de Dos Medias Independientes. Como siempre asisten las mismas personas, salvo pequeos cambios, se puede suponer que la varianza de las poblaciones es desconocida, pero siempre la misma. Al ser el nmero de asistentes superior a 30, se puede suponer la normalidad de la poblacin.El anlisis de esta situacin se puede efectuar con la hoja de clculo tmedia.ods. brela y elige la hoja Dos medias (independientes). Fija antes de nada que el contraste sea Bilateral, porque no tenemos motivos para inclinarnos por un sentido u otro. Activa tambin el caso Se suponen desconocidas, pero iguales.Para cada par de encuentros consecutivos rellena los datos de media, desviacin tpica y tamao de la muestra. Obtendrs estos resultados al 95% de Nivel de Confianza:Primera y segunda: Estadstico de contraste 2,4, p-valor 0,0082. Son significativamente distintas.Segunda y tercera: Estadstico de contraste 1,52, p-valor 0,0649. No hay razn para pensar que las medias son distintas.Tercera y cuarta: Estadstico de contraste 0,37, p-valor 0,64. No hay razn para pensar que las medias son distintas.Caso prcticoEn una ONG se organizan encuentros trimestrales con todos los Delegados y Delegadas. Suelen asistir, salvo pequeas variaciones y ausencias, las mismas personas. En cada encuentro se recoge una valoracin posterior y se intentan mejorar los aspectos que se hayan puntuado menos. La Direccin est interesada en saber si las correcciones surten efecto, y por eso deseara averiguar si las medias de las encuestas de cada dos encuentros consecutivos son significativamente distintas entre s. Los ltimos encuentros produjeron estos resultados:EncuentroOctubre 07Enero 08Abril 08Julio 08

Media4,23,74,14,2

Desviacin t.0,81,21,41,2

Asistentes47544549

Cmo tratar estadsticamente estos datos?El inters de la Direccin est en comparar cada dos medias consecutivas, luego se est en el caso de Diferencia de Dos Medias Independientes. Como siempre asisten las mismas personas, salvo pequeos cambios, se puede suponer que la varianza de las poblaciones es desconocida, pero siempre la misma. Al ser el nmero de asistentes superior a 30, se puede suponer la normalidad de la poblacin.El anlisis de esta situacin se puede efectuar con la hoja de clculo tmedia.ods. brela y elige la hoja Dos medias (independientes). Fija antes de nada que el contraste sea Bilateral, porque no tenemos motivos para inclinarnos por un sentido u otro. Activa tambin el caso Se suponen desconocidas, pero iguales.Para cada par de encuentros consecutivos rellena los datos de media, desviacin tpica y tamao de la muestra. Obtendrs estos resultados al 95% de Nivel de Confianza:Primera y segunda: Estadstico de contraste 2,4, p-valor 0,0082. Son significativamente distintas.Segunda y tercera: Estadstico de contraste 1,52, p-valor 0,0649. No hay razn para pensar que las medias son distintas.Tercera y cuarta: Estadstico de contraste 0,37, p-valor 0,64. No hay razn para pensar que las medias son distintas.