COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos...

26
COMPARACIÓN DE MEDIAS 1.-Prueba de comparación de una media observada y otra teórica .......................................... 2 1.1- Aplicación práctica. Cálculo manual ................................................................................ 4 1.2.- Aplicación práctica. SPSS ............................................................................................... 6 2.- Prueba de comparación de dos medias en grupos independientes ..................................... 8 2.2.- Aplicación práctica. Cálculo manual ............................................................................. 11 2.2.- Aplicación práctica. SPSS ............................................................................................. 14 2.3.- Prueba no paramétrica para grupos independientes: U de Mann Whitney.................... 17 3.-Prueba de comparación de dos medias en grupos relacionados ........................................ 19 3.1- Aplicación práctica. Cálculo manual .............................................................................. 19 3.2.- Aplicación práctica. SPSS ............................................................................................. 22 3.3.- Prueba no paramétrica para grupos relacionados: T de Wilcoxon ................................ 25 Carlos Camacho Universidad de Sevilla

Transcript of COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos...

Page 1: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

COMPARACIÓN DE MEDIAS

1.-Prueba de comparación de una media observada y otra teórica .......................................... 2 1.1- Aplicación práctica. Cálculo manual ................................................................................ 4 1.2.- Aplicación práctica. SPSS ............................................................................................... 6 2.- Prueba de comparación de dos medias en grupos independientes ..................................... 8 2.2.- Aplicación práctica. Cálculo manual ............................................................................. 11 2.2.- Aplicación práctica. SPSS ............................................................................................. 14 2.3.- Prueba no paramétrica para grupos independientes: U de Mann Whitney .................... 17 3.-Prueba de comparación de dos medias en grupos relacionados ........................................ 19 3.1- Aplicación práctica. Cálculo manual .............................................................................. 19 3.2.- Aplicación práctica. SPSS ............................................................................................. 22 3.3.- Prueba no paramétrica para grupos relacionados: T de Wilcoxon ................................ 25

Carlos Camacho Universidad de Sevilla

Page 2: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

2

1.- Prueba de comparación de una media observada y otra teórica

En esta prueba se trata de estudiar si una determinada media 𝑋�, observada en una muestra de tamaño n puede proceder o no de una determinada población caracterizada por una media 𝜇. Podíamos haber dicho también, “comparación de una media observada y una media poblacional”, que a simple vista parece más ilustrativo, aunque hay que decir que la intención en este tipo de pruebas normalmente consiste en comprobar si unos determinados datos de observación se ajustan a un determinado modelo teórico. Por ejemplo, podríamos preguntarnos por la supuesta bondad de un determinado plan de estudios, donde las puntuaciones oscilan desde -3 (muy malo) hasta +3 (muy bueno). Preguntarnos este caso si una muestra de estudiantes tienen algún tipo de preferencia al respecto, sería compararlo con el valor 0, que sería el valor, que hipotéticamente estableceríamos como neutral.

El planteamiento matemático de esta prueba consiste primeramente en definir lo que se denomina distribución muestral de medias de tamaño n procedentes de una determinada población. De esta forma, ya tenemos el espacio adecuado donde situar nuestra media de tamaño n. Lo siguiente es ubicar nuestra media observada en dicho espacio y calcular la probabilidad de pertenencia a dicha distribución muestral. En términos generales, si la probabilidad de pertenencia es grande, concluimos que dicha media podría proceder de dicha población. Si por el contrario, la probabilidad de pertenencia fuera pequeña, diríamos que no procede, aunque admitiendo que tendríamos justamente esa probabilidad de equivocarnos, que son las veces (pocas veces) que decimos que no (y sí pertenece).

Se demuestra (no lo haremos aquí) que si tenemos una determinada población caracterizada por una media 𝜇 y una desviación tipo de 𝜎𝑥, la distribución muestral de medias de tamaño n tiene de media justamente la media poblacional 𝜇 y por desviación tipo 𝜎𝑋� = 𝜎𝑋

√𝑛

En la práctica, marcamos dos zonas, una primera correspondiente a una alta probabilidad (0.95 o 0.99) y una segunda que comprende el resto (0.05 o 0.01). Trabajemos en este caso al 0.95:

Page 3: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

3

Como se sabe, los límites que marcan estas zonas, cuando la distribución sigue una ley normal, corresponden a los valores estandarizados Z de +1.96 y -1.96, que son precisamente los límites para un intervalo de probabilidad del 0.95. Estos valores son válidos para para tamaños muestrales grandes (𝑛 ≥ 30). Cuando no ocurre esta circunstancia hay que recurrir a un estadístico más genérico que es la t de Student, que sirve para cualquier tamaño de muestra, aunque hay que decir que t y Z corresponden al mismo concepto; nos indican el número de desviaciones tipo de una puntuación a la media de la distribución, esto es, su distancia estandarizada.

Así pues, calculamos el valor de t según la siguiente expresión, que nos indica la distancia estandarizada de la media muestral ( 𝑋� ) a la media poblacional (𝜇 )

𝑡 =𝑋� − 𝜇𝜎𝑋√𝑛

En caso de desconocer la desviación tipo poblacional ponemos en su lugar la de la muestra, como estimación de la poblacional:

𝑡 =𝑋� − 𝜇𝑆𝑋√𝑛

Una vez ubicada la media 𝑋� en dicha distribución muestral, calculamos su probabilidad de pertenencia. Si la probabilidad es pequeña (menor que 0.05 o 0.01) rechazamos la Ho con la probabilidad asociada de equivocarnos, que nos indica las veces que sí pertenecería a la población, pero que nos conviene desecharla por su baja probabilidad.

Page 4: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

4

1.1.- Aplicación práctica. Cálculo manual.

Tengamos las siguientes puntuaciones en inteligencia en una muestra extraída en el grupo C de segundo de psicología de la universidad de Sevilla:

X: 95, 103, 110, 109, 120, 128, 103, 115, 102, 112, 107, 113

Nos preguntamos si la media de estos estudiantes procede la población general, cuya media es de 100 puntos.

SOL:

Calculemos la media y la desviación tipo de esta muestra:

𝑋� =∑𝑋𝑛

=95 + 103 + 110 + 109 + 120 + ⋯+ 102 + 112 + 107 + 113

12= 109.75

𝑆𝒙 = �∑(𝑋 − 𝑋�)2

𝑛 − 1= �(95 − 109.75)𝟐 + (103 − 109.75)𝟐 … . (107 − 109.75)𝟐 + (113− 109.75)𝟐

11= 8.83

Apliquemos la fórmula:

𝑡 =𝑋� − 𝜇𝑆𝑋√𝑛

=109.75 − 100

8.83√12

=9.752.55

= 3.82

Vamos a la tabla de la t de Student:

Page 5: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

5

Comparamos el valor de t obtenido con el de las tablas:

𝑡(11, 0.05) = 2.201

Tenemos que 3.82 > 2.045. Luego rechazamos la Ho con un riesgo máximo de equivocarnos de 0.05. Si queremos ser más precisos y conocer exactamente el riesgo de equivocarnos, recurriremos a las tablas on line:

Page 6: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

6

La probabilidad de equivocarnos sería en este caso de 0.0028, muy inferior a 0.05.

1.2.- Aplicación práctica. SPSS

Tengamos los datos:

A continuación:

Page 7: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

7

Los resultados:

Obsérvese que los resultados son equivalentes a los obtenidos manualmente:

𝑡 =𝑋� − 𝜇𝑆𝑋√𝑛

=109.75 − 100

8.83√12

=9.752.55

= 3.82

Sólo nos falta lo referente al intervalo de confianza. Aquí nos dicen que a nivel poblacional la diferencia observada entre la muestra (109.75) y la población (100) oscilará (con una probabilidad de acertar de 0.95) entre 4.1377 y 15.3623 puntos. Este resultado obtenido mediante el intervalo de confianza es ya también de por sí un contraste estadístico porque al indicarnos que la diferencia a nivel poblacional oscila entre estos valores sabemos que la diferencia es significativa ya que el valor 0 (cero) no se encuentra en dicho intervalo. Si lo hiciéramos manualmente, el intervalo de confianza a partir de la diferencia media observada (9.75) sería:

(𝑋� − 𝜇) ± 𝑡(11,0.05)𝑆𝑋� = 9.75 ± 2.201 ∗ 2.55 = 4.137 ↔ 15.362

Supongamos que ahora nos preguntamos si la inteligencia media de estos estudiantes puede proceder de una población cuya media es de 110 puntos. En este caso:

Page 8: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

8

Los resultados:

Se observa que la diferencia es muy pequeña, tan solo de 0.25 puntos, y que en consecuencia la probabilidad de pertenencia de esta muestra (supuesta la hipótesis nula) a la población de 110 puntos es muy alta, de 0.924. En estas condiciones tenemos una gran probabilidad de acertar si aceptamos la Ho, muy superior al 0.05, que es límite establecido. Por otro lado, si calculamos el intervalo de confianza de la diferencia -0.25, tendremos que a nivel poblacional la diferencia se encontrará entre -5.8623 y 5.3623, lo que nos indica que una diferencia de 0 se encuentra en dicho intervalo, lo que muestra igualdad estadística entre la media observada de 109.75 y la poblacional de 110.

2.- Comparación de medias en dos grupos independientes

En esta prueba se trata de comprobar si dos muestras observadas (en diferentes sujetos) proceden de poblaciones equivalentes en relación a una variable determinada. Este sería el caso, si por ejemplo, quisiéramos comparar las calificaciones en matemáticas de los niños con el de las niñas.

El contraste de medias para grupos independientes exige dos supuestos: Normalidad y Homocedasticidad. Normalidad significa que las muestras estudiadas proceden de poblaciones normales, y homocedasticidad, que ambas poblaciones normales presentan la misma varianza. Hay que decir que la condición de normalidad cuando la muestra es grande (𝑛 ≥ 30) no es necesaria, y aunque en lo referente a la homocedasticidad, las condiciones son más estrictas, tampoco son muy exigentes, lo que quiere decir que los contrastes de media son pruebas bastantes robustas, en el sentido que soportan bastante bien la violación de la normalidad y la homocedasticidad. Ver, para ello, supuestos del

Page 9: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

9

modelo. No obstante, si se desea ser riguroso en las conclusiones, diremos que si no se cumple la condición de normalidad y la muestra es pequeña se puede aplicar la prueba (no paramétrica) de Mann Whitney, y si no se cumple la condición de homocedasticidad, sea la muestra grande o pequeña, aplicaremos la t de Welch, que se contempla en el mismo contraste de medias del SPSS. Esto significa que todos los contrastes de medias se pueden hacer desde la misma aplicación del SPSS, excepto el caso de no normalidad en muestras pequeñas que recurriremos a la prueba de Mann Whitney.

Tengamos pues, dos medias observadas y nos preguntamos si ambas medias proceden o no de poblaciones iguales en relación a la variable que estamos estudiando. Para ello partimos estratégicamente de la hipótesis que ambas poblaciones son iguales, lo que no significa que nos empeñemos en que sean iguales, sino que nos lo tomamos como punto de partida para aceptarla o rechazarla, según venga al caso. El hecho que partamos de la hipótesis de igualdad a nivel poblacional (Hipótesis nula) y no de la hipótesis de desigualdad (Hipótesis alternativa), se debe a que la Hipótesis nula es muy fácil de plantear (la diferencia de media a nivel poblacional es cero), mientras que la Hipótesis alternativa, como puede haber tantas (que la diferencia sea estos puntos, los otros o los de más allá) pues estamos perdidos y no podemos formularla de manera concreta, como no sea desde una suposición un tanto arriesgada.

Pero trabajar con muestras para comparar poblaciones es operar en mundos distintos, así que hemos de encontrar un espacio común donde población y muestra puedan integrarse. Este es el concepto de distribución muestral con el que hemos trabajado en temas anteriores. En este caso, dadas dos poblaciones iguales (en medias y varianzas), nos preguntamos qué ocurriría si tomáramos pares de muestras de ambas poblaciones y calculásemos con esas muestras las diferencias de medias observadas, tal como se observa en el siguiente gráfico.

𝑑1 = 𝑋�11 − 𝑋�12 𝑑2 = 𝑋�21 − 𝑋�22 𝑑3 = 𝑋�31 − 𝑋�32

.

.

. 𝑑𝑘 = 𝑋�𝑘1 − 𝑋�𝑘2

Obtendríamos una distribución muestral de diferencias de medias, que tendría de media 0, ya que ambas poblaciones son iguales en cuanto la media y cabe esperar por tanto que sus valores fluctúen alrededor de 0, y en cuanto a la desviación tipo se demuestra que su valor sería:

Población 2 Población 1

Page 10: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

10

𝜎𝑑2 = �𝜎2 𝑛1

+𝜎2 𝑛2

Si suponemos que las varianzas de ambas poblaciones son iguales, podemos estimar tal varianza 𝜎2 por 𝑆2, que es la varianza ponderada a partir de las dos varianzas muestrales:

2)1()1(

21

222

2112

−+−+−

=nn

SnSnS

Tenemos pues:

Con dos posibles hipótesis:

Hipótesis nula: 𝝁𝟏 = 𝝁𝟐 → Ambas medias observadas proceden de poblaciones con igual media Hipótesis alternativa: 𝝁𝟏 ≠ 𝝁𝟐 → Ambas medias observadas proceden de poblaciones con distintas medias

Si operamos con el valor convencional de 𝛼 = 0.05 (o bien 𝛼 = 0.01), tendremos definidas dos zonas en la distribución muestral de diferencias de medias. La zona central que comprende al 95% de los casos y que es la zona de aceptación de la Hipótesis nula (𝐻0) y la otra zona que comprende 5% de casos restantes y que corresponde a la zona del rechazo de la Hipótesis nula (𝐻1). Si la diferencia de medias observada se encuentra dentro de la zona de 𝐻0, aceptaremos dicha hipótesis con una probabilidad de 0.95 de acertar, supuesta dicha hipótesis, pero si por el contrario la diferencia de medias observada se encuentra en la zona de 𝐻1, nos resultará mas viable concluir que ambas medias proceden de poblaciones diferentes, aunque asumiendo un riesgo (máximo) del 0.05 de equivocarnos, porque un 5% de las diferencias de medias se encontrarán en esa zona desde el supuesto de la 𝐻0.

Page 11: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

11

Se trata simplemente de saber en qué zona se encuentra la diferencia de medias observadas. Para ello, tipificamos la variable y calculamos el número de desviaciones tipo a que se encuentra tal diferencia de la media de la distribución muestral, cuyo valor es 0:

𝑡 =(𝑋�1 − 𝑋�2) − 0

�𝑆2

𝑛1+ 𝑆2𝑛2

=𝑋�1 − 𝑋�2

�𝑆2

𝑛1+ 𝑆2𝑛2

Igual que anteriormente, situamos dicha diferencia de medias en la distribución muestral de diferencias de medias procedentes de poblaciones iguales y calculamos su probabilidad de pertenencia. Si es alta (mayor o igual que 0.05) aceptamos la Ho y en caso contrario, la rechazamos.

2.1.- Aplicación práctica. Solución manual

Tengamos 5 niños y 5 niñas a quienes hemos aplicado una prueba en matemáticas. Las puntuaciones obtenidas son:

Niños: 4, 7, 6, 8, 5 Niñas: 4, 5, 6, 5, 5

Nos preguntamos si con estos datos podemos afirmar que los niños y las niñas son diferentes a nivel poblacional en cuanto al rendimiento en matemáticas.

SOL:

Hemos aplicar la siguiente prueba:

𝑡 =𝑋�1 − 𝑋�2

�𝑆2

𝑛1+ 𝑆2𝑛2

Page 12: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

12

Donde:

2)1()1(

21

222

2112

−+−+−

=nn

SnSnS

En relación a las medias:

𝑋�1 =∑𝑋𝑖1𝑛1

=4 + 7 + 6 + 8 + 5

5= 6

𝑋�2 =∑𝑋𝑖2𝑛2

=4 + 5 + 6 + 5 + 5

5= 5

En relación a las varianzas:

𝑆12 =∑(𝑋𝑖1 − 𝑋�1)2

𝑛1 − 1=

(4 − 6)2+(7 − 6)2 + (6 − 6)2+(8 − 6)2+(5 − 6)2

4=

104

= 2.5

𝑆22 =∑(𝑋𝑖2 − 𝑋�2)2

𝑛2 − 1=

(4 − 5)2+(5 − 5)2 + (6 − 5)2+(5 − 5)2+(5 − 5)2

4=

24

= 0.5

Por tanto, la varianza ponderada:

𝑆2 =(𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆22

𝑛1 + 𝑛2 − 2=

4 ∗ 2.5 + 4 ∗ 0.58

= 1.5

Apliquemos el contraste:

𝑡 =𝑋�1 − 𝑋�2

�𝑆2

𝑛1+ 𝑆2𝑛2

=6 − 5

�1.55 + 1.5

5

=1

0.775= 1.291

Vayamos a las tablas de la t de Student:

Page 13: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

13

Buscamos para los grados de libertad (df: degree freedom), que son los de la varianza ponderada (𝑛1 + 𝑛2 − 2 = 8). Si trabajamos para un valor de 𝛼 = 0.05 en una prueba bilateral o de dos colas (two tails), obtendremos que el valor de t que marca la frontera a partir de cual podremos rechazar la Hipótesis nula es 2.306.

Tenemos que:

1.291 < 2.306

Estamos en la zona de aceptación de la Ho, luego nada se opone a aceptarla y suponer que no hay diferencia significativa a nivel poblacional entre niños y niñas en cuanto a su habilidad en matemáticas.

Lamentablemente con estas tablas (limitadas) no podemos calcular la probabilidad exacta asociada al valor de t, como hacíamos con las tablas de Z donde teníamos todo el rango de probabilidades. De todas formas, si buscamos el valor de 1.291 en la fila de los 8 grados de libertad, veremos que este valor se encuentra entre 1.108 y 1.397, por lo que podemos suponer que su probabilidad asociada estará entre 0.30 y 0.20, posiblemente no muy lejos de 0.25, lo que nos indicaría, de acuerdo con la Ho, la probabilidad de encontrar dicha diferencia observada (o más) entre niños y niñas por puro azar, valor muy superior al 0.05 dispuestos a admitir. Nos equivocaríamos en este caso, un 25% de las veces que tomáramos la decisión de rechazar la Ho. Obsérvese que en este tipo de contrastes la prueba bilateral se plantea de una forma natural, porque nos resulta indiferente que sean los niños los que tengan más puntuación que las niñas o al revés (bien una diferencia de +1 o -1), lo que no siempre quedaba tan claro en los contrastes de un valor observado y otro teórico.

No obstante, podemos recurrir a las tablas on line, con lo que ya lograremos la precisión deseada. De esta forma:

Page 14: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

14

Tenemos que el área asociada a 1.291 (dos colas) es 0.2328, valor no muy lejano del que hemos calculado previamente a ojo.

2.2.- Aplicación práctica. SPSS

En este caso, hemos de introducir los datos ajustándolos al formato de SPSS. Introducimos en primer lugar la variable sexo (0: niños y 1: niñas) y luego las puntuaciones en matemáticas:

A continuación:

Page 15: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

15

Los resultados:

En la primera tabla tenemos los descriptivos. Obsérvese que si sacamos la raíz cuadrada de las varianzas calculadas previamente, obtendremos las desviaciones tipo (o estándar) correspondientes:

Page 16: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

16

𝑆1 = √2.5 = 1.5811 𝑆2 = √0.5 = 0.7071

Y en relación a los errores estándar (o tipo) de las medias, aplicamos las fórmulas conocidas:

𝑆𝑋�1 =𝑆1√𝑛1

=1.588√5

= 0.7071

𝑆𝑋�2 =𝑆2√𝑛2

=0.7071√5

= 0.3162

Y en cuanto al segundo recuadro, decir que en el contraste de medias puede haber dos posibilidades: a) que se cumpla la igualdad de varianzas (homocedasticidad) entre los dos grupos o b) que no se cumpla. En la prueba que hemos realizado a mano, y siempre que lo hagamos a mano, lo haremos (por razones de simplicidad) desde el supuesto de igualdad de varianzas, pero puede ocurrir que no se cumpla la igualdad de varianzas, con lo que las fórmulas cambian ligeramente, pero para eso ya tenemos el ordenador. En ese sentido, se realiza la prueba de Levene, que es la que se utiliza para comprobar la igualdad de varianzas, y de cumplirse (que aquí ocurre, porque la probabilidad asociada es 0.111 > 0.05), se trabaja con la primera línea. En caso de no cumplirse, con la segunda línea. Se observa que ambas líneas se interpretan de la misma manera, así que no hay problema.

Operando con la primera línea, vemos que sus valores no son más que una transcripción de la fórmula que hemos aplicado y que volvemos a exponer:

𝑡 =𝑋�1 − 𝑋�2

�𝑆2

𝑛1+ 𝑆2𝑛2

=6 − 5

�1.55 + 1.5

5

=1

0.775= 1.291

Sólo nos queda comprobar cómo se han calculado los intervalos de confianza de la diferencia de medias, que de acuerdo con lo estudiado en los temas anteriores será:

(𝑋�1 − 𝑋�2) ± 𝑡(8,0.05)𝑆𝑑 = 1 ± 2.306 ∗ 0.775 = −0.787 ↔ 2.787

Lo que nos muestra el intervalo de confianza al 95% de encontrar el parámetro correspondiente. Se observa, que se encuentra entre un valor negativo (-0.787) y otro positivo (2.787), por tanto, un posible valor de la población origen podría ser cero, o sea que a nivel poblacional la diferencia podría ser cero, que es justamente lo que indica la Ho. Se trata de otra forma de tomar decisiones estadísticas mediante los intervalos de confianza y que además recomienda la APA.

Page 17: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

17

2.3.- Prueba no paramétrica para grupos independientes: U de Mann Whitney

Para el caso específico de muestras pequeñas y que no cumplan el supuesto de normalidad, puede ser conveniente recurrir a la prueba no paramétrica de Mann Whitney. Por un lado ganamos precisión en el sentido que tenemos más control en el riesgo 𝛼 por cuanto el riesgo establecido a priori es el que realmente se cumple. Si por ejemplo nuestro 𝛼 es 0.05, nos equivocaremos exactamente un 5% de las veces, mientras que si hubiéramos aplicado la paramétrica (no debiendo hacerlo) nos equivocaríamos algo más (probablemente 6 o 7%) aunque no mucho.

Pero por otro lado, perderíamos precisión porque esa prueba exige puntuaciones ordinales que contienen menos información que las cuantitativas. Si en aras de una prueba rigurosa hemos de transformar las puntuaciones cuantitativas en otras más pobres, como las ordinales, pues al final no sabemos si estamos ganando o perdiendo (otra cosa es que nuestros datos originales sean verdaderamente ordinales, entonces es su prueba). No es mala práctica tomar la no paramétrica como referencia por si acaso, pero tampoco mucho porque si nuestra investigación es de cierta envergadura y no acaba todo en los contrastes de medias, sino en pruebas multivariantes algo más complejas, pues probablemente podamos pasar de esta prueba.

A efectos prácticos, vamos a realizar el contraste con los mismos datos que estamos trabajando:

Page 18: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

18

Resultados:

Obsérvese que trabaja con rangos (rango 1 la puntuación más baja, rango 10, la más alta), por lo que los niños tienen algo más, como ocurría con las medias, aunque no suficiente desde el punto de vista estadístico. La probabilidad es bastante parecida (0.278 frente a 0.248 del contraste de medias). También se observa una aproximación a la normal, cuyo valor de Z = -1.085 se asocia a 0.278, que es lo que obtendríamos si calculáramos el área por encima de ±1.085 en las tablas de la curva normal.

Rangos

sexo N

matemáticas niño

niña

Total

5 6,50 32,50

5 4,50 22,50

10

Estadísticos de pruebaa

matemáticas

U de Mann-Whitney

W de Wilcoxon

Z

Sig. asintótica (bilateral)

7,500

22,500

-1,085

,278

,310 b

a.

b.

Page 19: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

19

3.- Comparación de medias en grupos relacionados

La comparación de medias en grupos relacionados (o apareados) trata de comparar dos medias aplicadas al mismo grupo de individuos. Son los mismos sujetos los que se someten a dos condiciones distintas, y estudiamos la posible diferencia entre ambas condiciones.

Este tipo de pruebas tiene el mismo tratamiento que la prueba ya estudiada de comparación de una media observada y otra teórica. Simplemente tenemos que operar con la variable diferencia y contrastar la media de esas diferencias con 0, que sería la establecida por la Ho en el supuesto de no diferencia en ambas condiciones.

En el caso del contraste de medias para grupos relacionados, como sólo trabajamos con la variable diferencia, nos podemos olvidar de la condición de homocedasticidad. Sólo se nos exige la normalidad de dicha variable, y eso tan sólo para el caso de que la muestra sea menor de 30, y aun así, como se ha dicho, la prueba (paramétrica) del contraste de media soporta bastante bien este incumplimiento. No obstante, si se desea ser rigurosos podemos aplicar la prueba (no paramétrica) de la T de Wilcoxon.

Cuando se cumple la condición de normalidad, o bien la muestra es grande, esta prueba tiene el mismo tratamiento que la prueba ya estudiada de comparación de una media observada y otra teórica. Simplemente tenemos que operar con la variable diferencia y contrastar la media de esas diferencias con 0, que sería la establecida por la Ho en el supuesto de no diferencia en ambas condiciones.

3.1.- Aplicación práctica. Cálculo manual

Tengamos una investigación en la que estudiamos la agresividad de un grupo de niños tras haber sido sometidos a la proyección de una película con imágenes agresivas. Tenemos con ello dos situaciones: a) La conducta agresiva antes de la proyección de la película y b), la conducta agresiva después de la proyección de la película. Tengamos, en este sentido los siguientes datos:

Antes Después

1 7 7 13 6 4 0 0 6 9 2 5 2 7 1 1 8 8 7 13 4 2 4 13

Page 20: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

20

Calculemos la variable diferencia:

Antes Después Diferencia

1 7 6 7 13 6 6 4 -2 0 0 0 6 9 3 2 5 3 2 7 5 1 1 0 8 8 0 7 13 6 4 2 -2 4 13 9

Ahora nos olvidamos de las variables antes y después y nos quedamos sólo con la variable diferencia. Si la agresividad ha aumentado, la media de esta variable será diferente de 0 y no en caso contrario. Se trata ahora de comparación de una media observada con una media teórica, que será 0 según establece la Ho. Así pues, la fórmula a aplicar será:

𝑡 =𝑋�𝑑 − 𝜇𝑆𝑋𝑑√𝑛

=𝑋�𝑑 − 0𝑆𝑋𝑑√𝑛

Calculemos la media y la desviación tipo de las diferencias:

𝑋�𝑑 =∑𝑋𝑑𝑛

=6 + 6 + (−2) + 0 + 3 + 3 + 5 + 0 + 0 + 6 + (−2) + 9

12= 2.83

𝑆𝑋𝑑 = �∑(𝑋𝑑 − 𝑋�𝑑)2

𝑛 − 1= �(6 − 2.83)𝟐 + (6 − 2.83)𝟐 … . ((−2) − 2.83)𝟐 + (9 − 2.83)𝟐

11= 3.61

Apliquemos la fórmula:

𝑡 =𝑋�𝑑 − 0𝑆𝑋𝑑√𝑛

=2.83 − 0

3.61√12

=2.83

1.043= 2.72

Si buscamos en las tablas de la t de Student para n-1= 11 grados de libertad y para 𝛼 = 0.05:

Page 21: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

21

Tenemos que 2.72 > 2.201, luego podemos rechazar la hipótesis nula con un riesgo máximo de 0.05. Si queremos calcular exactamente el riesgo de equivocarnos vamos a las tablas on line:

La probabilidad de equivocarnos al rechazar la Ho sería 0.0199, inferior a 0.05.

Page 22: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

22

3.2.- Aplicación práctica. SPSS

Tengamos de nuevo estos datos, ya en formato SPSS:

A este respecto, realizamos la siguiente prueba:

Introducimos los pares de variables:

Page 23: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

23

Los resultados:

Se observa que los resultados coinciden con los realizados a mano.

Igualmente puede comprobarse que si nos tomamos la molestia de calcular la variable diferencia, correspondiente en restar a las puntuaciones “después” las puntuaciones “antes”, tendremos una muestra cuya media al compararla con 0 ofrece los mismos resultados. Se comprueba así que una comparación de dos medias en grupos apareados o relacionados corresponde a una comparación de una media observada y otra teórica de valor 0.

En este sentido, calculemos en primer lugar la variable diferencia:

Page 24: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

24

Tenemos entonces:

Ahora apliquemos la Prueba T para una muestra:

El resultado:

Page 25: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

25

Se observan valores coincidentes con los realizados previamente.

3.3.- Prueba no paramétrica para grupos relacionados: T de Wilcoxon

En el caso del contraste de medias para grupos relacionados, como sólo trabajamos con la variable diferencia, nos podemos olvidar de la condición de homocedastidad, ya que sólo hay una muestra. Sólo se nos exige la normalidad de dicha variable, y eso tan sólo para el caso de que la muestra sea menor de 30, y aun así, como se ha dicho, la prueba (paramétrica) del contraste de media soporta bastante bien este incumplimiento. No obstante, si se desea ser rigurosos podemos aplicar la prueba (no paramétrica) de la T de Wilcoxon. Las mismas reflexiones que hemos indicado para la no paramétrica de Mann Whitney son válidas ahora. No obstante, su aplicación queda plenamente justificada cuando los datos en su origen son ordinales, ya que esta prueba trabaja con esta escala de medida.

Trabajemos, también ahora, por razones de simplicidad con los mismos datos utilizado en la prueba de contraste de medias para datos relacionados. En este caso:

Page 26: COMPARACIÓN DE MEDIAS - Google Sitessites.google.com/site/vararey/medias.pdf · ... que si tenemos una población caracterizada por una determinada ... decir que la condición de

26

Los resultados:

Se observa que opera con puntuaciones ordinales (rangos) y curiosamente la significación estadística es la misma que con la prueba paramétrica.

Rangos

N

despues - antes Rangos negativos

Rangos positivos

Empates

Total

2a1,50 3,00

7b 6,00 42,00

3c

12

a.

b.

c.

Estadísticos de pruebaa

Z

Sig. asintótica (bilateral)

-2,322 b

,020

a.

b.