Capitulo I

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA Departamento de Estadística e Informática Métodos Estadísticos para la Investigación I

MS Jaime Carlos Porras Cerrón [email protected]

1

Capítulo I

PRUEBAS NO PARAMÉTRICAS: APLICACIONES DE LA DISTRIBUCIÓN CHI-CUADRADO

Introducción Para el análisis de datos mediante estadística inferencial existen dos tipos de pruebas estadísticas: las paramétricas y las no paramétricas. Las pruebas paramétricas son aquellas que requieren el cumplimiento de ciertos supuestos con respecto a las observaciones que se utilizarán en el análisis como: la aleatoriedad en su selección, el ajuste a una distribución teórica conocida (por ejemplo a la distribución normal). El supuesto de normalidad, es quizás el requisito más importante que debe ser verificado antes de proceder a desarrollar algunas pruebas paramétricas correspondientes a la estadística clásica, pues su no cumplimiento implicaría la invalidez de los resultados. Las pruebas no paramétricas o de libre distribución, no exigen que el conjunto de datos provenga de una distribución teórica conocida. Es decir, pueden ser usadas, en muchos casos, como métodos alternativos a las pruebas paramétricas. A pesar de esto, las pruebas paramétricas son las que mayormente son utilizadas por los investigadores, debido a su mayor difusión. Verificar si las observaciones provienen de una distribución teórica puede hacerse mediante algún procedimiento estadístico descriptivo (como el histograma de frecuencias) o a través de un procedimiento inferencial (como la prueba de Anderson-Darling, la que se desarrollará más adelante). Utilizar un método descriptivo en muchas situaciones podría crear cierta ambigüedad en la toma de decisión sobre la forma de la distribución del conjunto de datos. Por este motivo, en esta situación, un procedimiento inferencial sería lo más recomendable. Otro método inferencial para la verificar si un conjunto de datos se ajusta a una distribución teórica es la Prueba de Bondad de Ajuste (introducida por Karl Pearson) cuyo estadístico de prueba se puede ajustar a una distribución Chi Cuadrado. Esta prueba consiste en comparar el patrón de las frecuencias de observaciones de los datos muestrales organizados en categorías con el patrón esperado de frecuencias basado en una hipótesis nula en particular. Esa no es la única utilidad de la distribución Chi Cuadrado, debido a que también se utiliza para analizar las frecuencias en tablas de doble entrada (o tablas de contingencia) o para verificar el cumplimiento del supuesto de homogeneidad de varianzas, requisito exigido en los Diseños Experimentales. En resumen la distribución Chi Cuadrado pueden ser utilizada para diferentes propósitos. Entre las principales pruebas y su respectivo uso tenemos:

1. Pruebas de Bondad de Ajuste, para verificar si un conjunto de datos se ajusta o no una distribución teórica establecida.

2. Pruebas con Tablas de Contingencia, para analizar la independencia de dos variables cualitativas u homogeneidad de subpoblaciones

3. Prueba de Homogeneidad de Variancias (Prueba de Barttlet), para verificar la homogeneidad de varianzas de dos o más conjuntos de datos.



2

El presente capítulo tiene como objetivo presentar el desarrollo de las Aplicaciones cuyo estadístico de prueba se ajusta a una distribución Chi Cuadrado así como indicar la utilidad de cada una de ellas.

1. Pruebas de Bondad de Ajuste Un investigador luego de recolectar una muestra (a la cual se le observó o midió ciertas características o variables) podría tener interés en saber a que distribución teórica se puede ajustar cada una de las variables que analizó, con el fin, en muchos casos, de aplicar posteriormente otros procedimientos estadísticos más sofisticados. Por ejemplo:

Cuando se analiza la variable número de insectos muertos por m2 luego de aplicar un insecticida en un campo experimental, se quiere saber si esta variable se ajuste a una distribución de Poisson.

Cuando se quiere determinar si la gestión de un personaje político está distribuido de la siguiente manera: muy buena en un 10%, regular en un 20% y pésima en un 70%.

Para poder aplicar adecuadamente esta prueba se debe contar con una tabla de frecuencias de una variable cualitativa o cuantitativa, de la siguiente manera:

N° Valor de la variable o

nombre de la categoría

Frecuencia

observadas io

1 A1 1o

2 A2 2o

k Ak ko

Total n

La i–ésima frecuencia observada io indica el número de veces que se repite

la categoría (o el valor de la variable) en la muestra de tamaño n. En otras

palabras, io representa la frecuencia absoluta if , de tal manera que se debe

cumplir que:

1

k

i

i

O n

Esta prueba se aplica cuando se desea verificar si al menos una de las

frecuencias observadas io perteneciente a la i-ésima categoría o valor de la

variable (mutuamente excluyentes) difiere significativamente de su respectiva

frecuencia teórica o frecuencia esperada ie .

Cada frecuencia esperada ie se obtiene multiplicando el tamaño de la

muestra n por la probabilidad teórica correspondiente i :



3

i ie np

En algunas pruebas de bondad de ajuste, las probabilidades teóricas o

hipotéticas i son establecidas por el investigador, mientras que en otras

pruebas deben ser estimadas a partir de la distribución teórica formulada en la hipótesis nula. De tal manera que se debe cumplir que:

1

1k

i

i

p

Este valor esperado representa el número de observaciones pertenecientes a la i-ésima categoría (o valor de la variable), que cabe esperar se obtenga en la muestra, si la distribución de probabilidad de la población es la que se formula en la hipótesis nula.

A partir de la expresión anterior es fácil deducir que: 1

k

i

i

e n

Prueba Estadística Debido a las fluctuaciones aleatorias en el proceso de muestreo es razonable

que las frecuencias observadas io y las frecuencias esperadas ie no

coincidan. La hipótesis nula afirma que la discrepancia entre dichas frecuencias no es muy grande. Como medida de discrepancia, entre las frecuencias esperadas y observadas, Pearson propuso el siguiente estadístico:

2

2 2

(1 , 1)

1

~k

i i

c k m

i i

o e

eac c

En la expresión cada diferencia i io e aparece elevada al cuadrado para

evitar que signos contrarios compensen la medida global, pues el interés se centra en la cuantía de la desviación y no en su dirección o signo. La diferencia se pondera por el inverso de la frecuencia esperada, puesto que una discrepancia grande podría llevar a rechazar el modelo de probabilidad recogido en la hipótesis nula aunque la i-ésima categoría o valor de la variable sea de probabilidad no muy grande. Región Crítica

Valores elevados del estadístico 2 evidencian discrepancias relevantes entre

las frecuencias observadas io y las esperadas ie , por lo que deberá

rechazarse la hipótesis nula de que dicha muestra procede de una población

con probabilidades teóricas i . Por lo tanto si 2 2

(1 , 1)c kac c se rechaza H0.

El percentil 2

(1 , 1)k mac o valor crítico es determinado por el complemento del

nivel de significación asignado (es decir, 1-α) y el número de grados de libertad es el número de categorías o valores de la variable en que se dividen los datos en la tabla de frecuencia (k) (gl = k – m –1) menos el número de parámetro estimados a partir de la muestra (m) menos una unidad. El número de parámetros estimados a partir de la muestra (m) son utilizados

para calcular los i y dependen de la distribución teórica propuesta en las

hipótesis y si estos son conocidos o desconocidos.



4

En resumen las pruebas de bondad de ajuste tienen como objetivo verificar si un conjunto de datos se ajusta a una distribución teórica preestablecida por el investigador. Si bien es cierto que mediante este tipo de prueba se puede verificar si un conjunto de datos presenta cualquier distribución teórica, en el presente curso solo se realizarán los siguientes ajustes:

Ajuste a la Distribución Multinomial conocida también como prueba de frecuencia o de proporciones

Ajuste a la Distribución Binomial y Ajuste a la Distribución de Poisson.

Observaciones:

a. Dado que la distribución del estadístico 2c es asintótica se utiliza,

comúnmente, como regla de aproximación aceptable que los valores esperados deban ser superiores a 5. Si esto no sucede se deben agrupar las clases que tienen esperado menor a 5 con aquella clase más cercana y más pequeña hasta lograr el cumplimiento de esta regla. Este reagrupamiento produce a su vez una reducción de los grados de libertad

de la distribución del estadístico 2c , al unirse algunas categorías o valores

de la variable X. b. Si se tiene un solo grado de libertad para el valor crítico o el tamaño de la

muestra es pequeña (n50), se puede hacer uso de la Corrección de

Yates, el cual hace un ajuste al estadístico 2c

2

)1,1(

1

2

2 ~5.0

mk

k

i i

ii

ce

eo

1.1 Ajuste a la Distribución Multinomial o Prueba de Frecuencia

En esta prueba las probabilidades teóricas o hipotéticas i son establecidas

por el investigador. Por ejemplo, en una investigación la hipótesis nula podría ser que en una ciudad el 60% de personas prefieren la marca Toyota, el 30% la marca Nissan y el 10% la marca Volkswagen, mientras que la hipótesis alterna seria al menos una de las proporciones es diferente a las especificadas.

Como los valores i son conocidos, el número de parámetros a estimar a partir

de la muestra m es igual a cero, con lo cual los grados de libertad en el valor crítico es igual a k -1. Procedimiento:

1) Planteamiento de la hipótesis. H0: Las categorías están distribuidas según las proporciones especificadas H1: Al menos una de las proporciones es diferente a las especificadas

2) Nivel de Significación ().

3) Prueba Estadística



5

2

)1,1(

1

2

2 ~

k

k

i i

iic

e

eo

4) Desarrollo de la prueba 5) Criterios de decisión.

0.10

0.08

0.06

0.04

0.02

0.00Chi Critico0

No se rechaza H0 si: 2cal 2

crit

Se rechaza H0 si: 2cal 2

crit

6) Conclusión Ejemplo de Aplicación En una fábrica se cuenta con tres máquinas que producen el mismo producto. El jefe de producción desea determinar si las máquinas están produciendo en diferentes proporciones. Para despejar sus dudas selecciona al azar 135 artículos de la última semana de producción y los clasifica según la máquina que lo ha producido. A continuación se presenta la tabla de frecuencia de las cantidades producidas por cada máquina:

Máquina A Máquina B Máquina C 43 53 39

Use nivel de significación 5% para probar si la cantidad producida no es la misma en las 3 máquinas.

Solución:

1) Planteamiento de la hipótesis. H0: Las 3 máquinas producen en igual proporción. H1: Las 3 máquinas no producen en igual proporción.

2) =0,05

3) Prueba Estadística. 2

2 2

(0.95, 1)

1

~k

i i

c k

i i

o e

ec c



6

4) Desarrollo de la Prueba

A continuación se muestra la tabla que contiene las frecuencias observadas, las frecuencias esperadas entre otros valores que se requieren para esta prueba.

Máquina io i i ie np (oi-ei)

2/ei

A 43 1/3 45 0,08888889

B 53 1/3 45 1,42222222

C 39 1/3 45 0,8

Total 135 1 135 2.31111111

Observe que las probabilidades para cada máquina deben ser las mismas, pues debe tenerse igual frecuencia teórica en el supuesto de que la producción es la misma para cada máquina.

23

2

1

2.3111i i

c

i i

o e

ec

5) Criterios de decisión

0.5

0.4

0.3

0.2

0.1

0.0

X5.99

0.05

0

Chi-Square, df=2

No se rechaza H0 si: 2c 5,9915

Se rechaza H0 si: 2c 5,9915

6) Conclusión.

A un nivel de significación del 5% no se puede afirmar que las 3 máquinas no producen en igual proporción.

1.2 Ajuste a la Distribución Binomial

En esta prueba, las probabilidades teóricas i que serán utilizadas para

calcular las frecuencias esperadas deben ser estimadas a partir de la distribución Binomial

(1 ) 0,1,2 ,( )

0 . .

x r xr

p p x rP X x x

c c

.



7

Recordemos que la distribución Binomial tiene dos parámetros r y p y detonamos que una variable se ajusta a una distribución Binomial como X~B(r,p). El valor de r siempre es conocido debido a que es el número de veces que se realiza el experimento o ensayo de Bernoulli, mientras el valor de p (probabilidad de éxito) puede ser conocido o desconocido. Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado de la distribución Binomial ( )E X rp , de tal manera que:

E Xp

r

El valor esperado en una tabla de frecuencia para una variable discreta puede ser estimado mediante:

1( )

k

i i

i

x o

E Xn

Por lo tanto, cuando se tiene que estimar el parámetro p a partir de la muestra, m es igual a uno, con lo cual los grados de libertad en el valor crítico es igual a k – 1 – 1 = k – 2; caso contrario cuando el parámetro p es conocido m seria igual a cero, con lo cual los grados de libertad en el valor crítico es igual a k – 0 – 1 = k – 1.

Procedimiento: 1) Planteamiento de la hipótesis.

H0: Los datos provenientes de la variable en estudio "X" se ajusta a una distribución teórica Binomial.

H1: Los datos provenientes de la variable en estudio "X" no se ajusta a una distribución teórica Binomial.

2) Nivel de Significación ()

3) Prueba Estadística.

2

)1,1(

1

2

2 ~

mk

k

i i

iic

e

eo

Donde: oi: frecuencia observada para el valor i de la variable X. ei: frecuencia esperada para el valor i de la variable X.

4) Desarrollo de la prueba 5) Criterios de decisión

0.10

0.08

0.06

0.04

0.02

0.00Chi Critico0


crit


crit



8

6) Conclusión.

Ejemplo de Aplicación Con el fin de realizar afiliaciones a un seguro médico, un vendedor de pólizas de seguros hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las frecuencias del número de ventas realizadas que son resumidas en la siguiente tabla de frecuencia:

Número de ventas realizadas

Número de días

0 50 1 75 2 65 3 15 4 5

Se desea verificar si el número de ventas realizadas diariamente sigue una distribución Binomial a un nivel de significación del 5%.

Solución: Procedimiento: 1) Planteamiento de la hipótesis.

H0: Los datos provenientes del número de ventas realizadas por el vendedor de seguros se ajustan a una distribución Binomial.

H1: Los datos provenientes del número de ventas realizadas por el vendedor de seguros no se ajustan a una distribución Binomial.

2) =0,05 3) Prueba Estadística.

2

)1,1(

1

2

2 ~

mk

k

i i

iic

e

eo


Estimamos la media de la población suponiendo que la hipótesis nula es verdadera.

Número de ventas (X) Número de días ( io ) i ix o

0 50 0

1 75 75

2 65 130

3 15 45

4 5 20

Total 210 270

270 1,2857143( ) 1.2857143 0.3214286

210 4E X rp p



9

Esta probabilidad de éxito será utiliza para calcular las probabilidades teóricas que a la vez servirán para calcular las frecuencias esperadas:

0 4 0

1

40 0.321 (1 0.321) 0.212

0P X

4 4 4

5

44 0.321 (1 0.321) 0.011

4P X

Número de ventas (X) Número de días ( io ) i i ie np

0 50 0.212023 44.5247586

1 75 0.401727 84.3627004

2 65 0.285438 59.9419187

3 15 0.090138 18.929027

4 5 0.010674 2.2415953

Total 210 1,000000 210 La frecuencia observada de la última clase es menor que cinco.

Número de ventas (X)

Número de días

( io ) i i ie np (oi-ei)2/ei

0 50 0.212023 44.5247586 0.673294359

1 75 0.401727 84.3627004 1.039086694

2 65 0.285438 59.9419187 0.426816269

3 y 4 20 0.1008125 21.1706223 0.064729155

Total 210 210 2.203926477 2

42

1

2.2039i i

c

i i

o e

ec

5) Criterios de decisión.

Tenemos 4-1-1 = 2 grados de libertad para la estadística de prueba Chi-cuadrado

0.5

0.4

0.3

0.2

0.1

0.0

X5.99

0.05

0

Chi-Square, df=2



6) Conclusión. A un nivel de significación del 5% no podemos afirmar que la variable número de ventas realizadas no sigue una distribución Binomial.



10

1.3 Ajuste a la Distribución de Poisson

En esta prueba las probabilidades teóricas i , que serán utilizadas para

calcular las frecuencias esperadas deben ser estimadas a partir de la distribución de Poisson

0,1,2...

( ) !

0 . .

xe

xP X x x

c c

.

Recordemos que la distribución de Poisson tiene un parámetro l y detonamos

que una variable se ajusta a una distribución de Poisson como X~P(). El valor de l puede ser conocido o desconocido. Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado de la distribución de Poisson ( )E X l .

Por lo tanto, cuando se tiene que estimar el parámetro l a partir de la muestra m es igual a uno, con lo cual los grados de libertad en el valor crítico es igual a k – 1 – 1 = k – 2; caso contrario cuando el parámetro l es conocido m seria igual a cero, con lo cual los grados de libertad en el valor crítico es igual a k – 0 – 1 = k – 1.

Procedimiento:

1) Planteamiento de la hipótesis. H0: Los datos provenientes de la variable en estudio "X" se ajusta a una

Distribución Poisson. H1: Los datos provenientes de la variable en estudio "X" no se ajusta a una

Distribución Poisson.



2

)1,1(

1

2

2 ~

mk

k

i i

iic

e

eo

Donde: oi: frecuencia observada para el valor i de la variable X. ei: frecuencia esperada para el valor i de la variable X.

4) Desarrollo de la prueba 5) Criterios de decisión



11

0.10

0.08

0.06

0.04

0.02

0.00Chi Critico0


crit


crit

6) Conclusión. Ejemplo de Aplicación: Se cree que el número de accidentes automovilísticos diarios en un cruce de dos avenidas de determinada ciudad tiene una distribución de Poisson. En una muestra de 80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos datos la hipótesis de que el número diario de accidentes tiene una distribución de Poisson? Use nivel de significación 0.05.

N° accidentes io

0 34 1 25 2 11 3 7 4 3

Solución: Procedimiento:

1) Planteamiento de la hipótesis. H0: Los datos provenientes del número de accidentes automovilísticos en el

cruce de las avenidas de interés sigue una distribución de Poisson. H1: Los datos provenientes del número de accidentes automovilísticos en el

cruce de las avenidas de interés no sigue una distribución de Poisson.

2) =0.05


2

)1,1(

1

2

2 ~

mk

k

i i

iic

e

eo

4) Desarrollo de la Prueba Calculando la media (un parámetro a estimar)

N° accidentes (xi) io i ix o

0 34 0

1 25 25

2 11 22

3 7 21

4 3 12

80 80



12

1 801

80

k

i i

i

x o

n

A continuación tenemos otros cálculos que nos permiten realizar la prueba y obtener los grados de libertad de la estadística de prueba.

01

1

10 0.3679

0!

eP X

5 4 1 4 1 3 1 0.081 0.019P X P X P X

N° accidentes i i ie np

0 0.3679 29.43 1 0.3679 29.43 2 0.1839 14.72 3 0.0613 4.91

4 o mas 0.0190 1.52 1.0000 80.00

Observe que las dos últimas clases tienen frecuencias menores a cinco Tenemos la siguiente tabla que resulta de unir las tres últimas clases.

23

2

1

4.3129i i

c

i i

o e

ec

5) Criterios de decisión. Los g.l. para la distribución Chi- cuadrado de la prueba son: k – m - 1 = 4 – 1 - 1 = 2 grados de libertad.

0.5

0.4

0.3

0.2

0.1

0.0

X5.99

0.05

0

Chi-Square, df=2



6) Conclusión. A un nivel de significación del 5% no podemos afirmar que la variable número de accidentes automovilísticos en el cruce de las avenidas de interés no sigue una distribución Poisson.

N° accidentes (x) io i ie np (oi-ei)

2/ei

0 34 29.43 0.7096

1 25 29.43 0.6668

2 11 14.72 0.9401

3 o más 10 6.42 1.9963

80 80 4.3129



13

Ejercicios Propuestos

1. En un estudio para determinar la opinión de los televidentes sobre un nuevo programa humorístico se tomó una muestra aleatoria de 400 personas, obteniéndose los siguientes resultados: Opinión muy

bueno bueno regular malo muy

malo total

Frecuencia 25 60 175 120 20 400 Probar si la opinión de los televidentes respecto al nuevo programa humorístico

no se distribuye en la proporción: 2:4:6:5:3. Use = 0.01

2. A continuación se presenta la información del número de automóviles que llegaron a una estación de servicios durante 80 intervalos no superpuestos de 5 minutos cada uno, los cuales fueron seleccionados aleatoriamente

de automóviles 0 1 2 3 4 o mas

de intervalos 10 18 12 17 23

¿El número de automóviles que llegan a la estación de servicio en un intervalo

dado no se ajusta a una distribución de Poisson con = 2 . Use = 0.05.

3. Durante las primeras 13 semanas de la temporada de televisión, se registraron las audiencias de sábado por la noche, de 8:00 p.m. a 9:00 pm. Como sigue: ABC 29%, CBS 28%, NBC 25% y otros 18%. Dos semanas después, una muestra de 300 hogares seleccionados aleatoriamente arrojó los siguientes resultados de audiencia: ABC 95 hogares, CBS 70 hogares, NBC 89 hogares y otros 46 hogares. Pruebe, con nivel de significación 0.05, si han cambiado las proporciones de telespectadores.

4. Suponga que el número de llamadas telefónicas que entran al conmutador de una empresa durante intervalos de un minuto tiene una distribución de Poisson. Los resultados obtenidos de analizar una muestra aleatoria de 100 intervalos de un minuto de duración son los siguientes:

N° llamadas que entran c/min., X 0 1 2 3 4 5 6

Frecuencia observada 15 31 20 15 13 4 2 Use nivel de significación 0,10 y los siguientes datos para probar la hipótesis de que las llamadas que entran no tiene distribución de Poisson.

5. Suponga que los investigadores desean determinar si el patrón de distribución del ingreso familiar en el Perú, ha cambiado significativamente durante los últimos cinco años. Se sabe que hace cinco años la distribución del ingreso familiar para las distintas clases de ingreso era la siguiente:



14

Clase de Ingreso ($) % de todas las familias en la

clase

(1) menos de 3000 9

(2) de 3000 a menos de 5000 11

(3) de 5000 a menos de 7000 12

(4) de 7000 a menos de 10000 22

(5) de 10000 a menos de 15000 27

(6) de 15000 a menos de 25000 15

(7) de 25000 a mas 4

TOTAL 100 Se elige una muestra aleatoria de 1000 familias y se obtiene la siguiente distribución:

Clase de Ingreso ($) 1 2 3 4 5 6 7

Número de familias 70 100 110 200 300 170 50

Con = 0,05, ¿el patrón actual de distribución del ingreso familiar es significativamente distinto al de hace cinco años?

6. Durante un periodo fijo se observó la cantidad de accidentes que sufrieron los operarios de máquinas en cierta industria; los resultados que se obtuvieron se muestran en la siguiente tabla:

Accidente por operario 0 1 2 3 4 5 6 7 8

# de operarios 296 74 26 8 4 4 1 0 1 Realice una prueba, con un nivel de significación de 5%, de la hipótesis que afirma que los datos no provienen de una distribución de Poisson con promedio 2 accidentes.

7. Un vendedor hace cuatro llamadas diarias. Una muestra aleatoria de 100 días da como resultado las frecuencias de ventas que vemos a continuación: En los registros históricos se observa que las ventas se hicieron en 30% de todas las llamadas. Suponga que las llamadas son independientes, ¿el número de ventas por día sigue una distribución binomial? Use un nivel de significaron del 1%.

2. Pruebas con Tablas de Contingencia Tablas de Contingencia fxc Es un cuadro de doble entrada en el cual se recoge la frecuencia conjunta de los datos de una o varias muestras aleatorias. Estas frecuencias son clasificadas de acuerdo a las clases ó categorías de una variable A y a las clases ó categorías de una variable B. Sea "A" una característica con sus categorías a1, a2, ,ac y "B" una característica con sus categorías b1, b2,..., bf

Número de ventas 0 1 2 3 4 Número de días 30 32 25 10 3



15

Característica A

Total a1 a2 … ac

Carac. B

b1 o11 o12 … o1c n1. b2 o21 o22 … o2c n2.

bf of1 of2 … ofc nr. Total n.1 n.2 n.c n..

Donde: i = 1, 2, ...., f "filas" j = 1, 2, ...., c "columnas"

1

.c

i ij

j

n o 1

.f

i ij

i

n o 1 1

..f c

ij

i j

n o

A los totales de filas y columnas se les conoce como totales marginales.

La ij–ésima frecuencia observada ijo indica el número de veces que se repite

un elemento en las categorías i y j a la vez. Esta prueba se aplica cuando se desea verificar si al menos una de las

frecuencias observadas ijo perteneciente a la ij-ésima categoría (mutuamente

excluyentes) difiere significativamente de su respectiva frecuencia teórica o

frecuencia esperada ije .

Las frecuencias esperadas ije se calculadas de la siguiente manera:

.. ijije n p . ... i jije n p p

nn

nn

neji

ij

..

.

..

.

..

nnn

eji

ij

..

..

Prueba Estadística Como medida de discrepancia, entre las frecuencias esperadas y observadas, Pearson propuso el siguiente estadístico:

2

2 2

1 ,( 1) 11 1

~f c

ij ij

c f ci j ij

o e

e ac c

Región Crítica

Valores elevados del estadístico 2 evidencian discrepancias relevantes entre

las frecuencias observadas ijo y las esperadas ije , por lo que deberá

rechazarse la hipótesis nula de que dicha muestra procede de una población

con probabilidades teóricas i . Por lo tanto si 2 2

1 ,( 1) 1c f cac c se rechaza H0.



16

A pesar que se puede realizar diferente tipos de inferencia usando tablas de contingencia en el curso solo se desarrollará las siguientes pruebas:

Prueba de Independencia Prueba de Homogeneidad de Subpoblaciones

Observaciones: Si se tiene un solo grado de libertad para el valor critico, el tamaño de la

muestra es pequeño (n50) o existe un valor esperado menor a 5, se puede

hacer uso de la Corrección de Yates, el cual hace un ajuste al estadístico 2c 2

2 2

1 , 1 11 1

0.5~

f cij ij

c f ci j ij

o e

e ac c

Diferencias entre la prueba de independencia y de homogeneidad 1) La prueba de Independencia se usan para probar si una característica es

independiente de otra, mientras que la prueba de Homogeneidad de subpoblaciones se usan para probar si una característica se distribuye homogéneamente en 2 ó más subpoblaciones, ó también si diferentes muestras proceden de la misma población.

2) La prueba de independencia supone una sola muestra tomada de una sola

población, mientras que la prueba de Homogeneidad de subpoblaciones supone 2 ó más muestras independientes.

3) En la prueba de Independencia las frecuencias marginales de filas y

columnas son valores aleatorios, en la prueba de Homogeneidad de subpoblaciones una de las frecuencias marginales (filas ó columnas) son valores fijados porque son los tamaños de muestra.

2.1 Prueba de Independencia Estas pruebas se aplican cuando los datos de una muestra aleatoria son clasificados de acuerdo a dos características (variables) y lo que se desea es probar si las características utilizadas como criterios de clasificación son independientes entre sí ó si existe alguna relación entre ellas. En una prueba de independencia los totales marginales de filas y columnas son aleatorios. Procedimiento

1) Planteamiento de la Hipótesis H0: Las características "A" y "B" son independientes (no están relacionadas)

entre si. H1: Las características "A" y "B" no son independientes (si están relacionadas).




17


2

2 2

1 , 1 11 1

~f c

ij ij

c f ci j ij

o e

e

4) Desarrollo de la prueba 5) Criterios de Decisión:

0.10

0.08

0.06

0.04

0.02

0.00Chi Critico0


crit


crit

6) Conclusiones.

Ejemplo de aplicación El jefe de una planta industrial desea determinar si existe relación entre el rendimiento en el trabajo y turno laboral del empleado. Se tomó una muestra aleatoria de 400 empleados y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de contingencia: Rendimiento en el trabajo

Turno Laboral Mañana Tarde Noche Total

Deficiente 23 60 29 112 Promedio 28 79 60 167 Muy bueno 9 49 63 121 Total 60 188 152 400

Con el nivel de significación 0.01, ¿La calificación del rendimiento del trabajador está asociada con el turno en el que labora el empleado? Solución: 1)

H0: El rendimiento de un empleado en el trabajo es independiente del turno en el que labora.

H1: El rendimiento de un empleado en el trabajo no es independiente del turno en el que labora.

2) = 0,01 3) Prueba Estadística

2

11,1

1 1

2

2 ~

cf

f

i

c

j ij

ijij

ce

eo

4) Desarrollo de la prueba



18

La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre paréntesis)

Rendimiento en el trabajo

Turno Laboral Mañana Tarde Noche Total

Deficiente 23 (16.80)

60 (52.64)

29 (42.56)

112

Promedio 28 (25.05)

79 (78.49)

60 (63.46)

167

Muy bueno 9 (18.15)

49 (56.87)

63 (45.98)

121

Total: 60 188 152 400

2 2 22 (23 16.80) (28 25.05) (63 45.98)

... 20.1816.80 25.05 45.98

cc


0.20

0.15

0.10

0.05

0.0013.3

0.01

0

Si 2 > 13.277 se rechaza H0

Si 2 ≤ 13.277 no se rechaza H0

6) Conclusión

Con nivel de significación 0,01 se puede afirmar que la calificación del rendimiento real de un empleado en el trabajo esta relacionado con el turno en el que labora

2.2 Prueba de Homogeneidad de Subpoblaciones

Estas pruebas se aplican cuando se desea verificar si una característica tiene un comportamiento semejante ú homogéneo en dos ó más poblaciones. Es decir, las muestras correspondientes a "C" poblaciones son clasificadas de acuerdo a las clases ó categorías de una característica "A". En una prueba de homogeneidad de subpoblaciones uno de los totales marginales de filas y columnas es aleatorio y el otro es fijo. Procedimiento

1) Planteamiento de la Hipótesis H0: Las muestras son extraídas de la misma población. H1: Las muestras son extraídas de poblaciones diferentes.



19



2

2 2

1 , 1 11 1

~f c

ij ij

c f ci j ij

o e

e

4) Desarrollo de la prueba 5) Criterios de Decisión:

0.10

0.08

0.06

0.04

0.02

0.00Chi Critico0


crit


crit

6) Conclusiones.

Ejemplo de aplicación Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los resultados que se muestran en la siguiente tabla:

Condición Material A Material B Material C Total

Desintegrados 41 27 22 90

Permanecieron intactos 79 53 78 210

Total 120 80 100 300 Use un nivel de significancia de 0.05 para probar si, en las condiciones establecidas, la probabilidad de desintegración es diferente en al menos uno de los tres tipos de materiales.

1) Formulación de las hipótesis H0: La probabilidad de desintegración no difiere los tres tipos de materiales. H1: La probabilidad de desintegración es diferente en al menos uno de los tres

tipos de materiales. 2) Fijación del nivel de significación: 0.05 3) Prueba Estadística

2

11,1

1 1

2

2 ~

cf

f

i

c

j ij

ijij

ce

eo




20

Cálculos previos:

Condición Tipo de Material

Total Material A Material B Material C

Desintegrados 41

(36) 27

(24) 22

(30) 90 Permanecieron

intactos 79

(84) 53

(56) 78

(70) 210

Total 120 80 100 300

2 2 22 (41 36) (79 84) (78 70)

... 4.57536 84 70

cc


0.5

0.4

0.3

0.2

0.1

0.0

X5.99

0.05

0

Chi-Square, df=2

No se rechaza H0 si: 2c 5.9915

Se rechaza H0 si: 2c 5.9915

6) Conclusión

Con nivel de significación 0,05 no se rechaza la hipótesis nula. Por lo tanto no se puede afirmar que la probabilidad de desintegración es diferente en al menos uno de los tres tipos de materiales


1) Se realizó una encuesta para saber si existe una relación entre el género y la confianza que la gente tiene en la policía. Los resultados de una muestra aleatoria se presenta en la siguiente tabla:

Género Confianza en la policía

Mucha Regular Muy poca o ninguna

Hombres 115 56 29 Mujeres 175 94 31

Use un nivel de significación del 0.05 para probar la afirmación de que sí existe una relación del género y la confianza a la policía

2) Se realiza un estudio para determinar la relación entre el tipo de crimen y si

el criminal es un extraño o no. La tabla adjunta lista los resultados de una encuesta practicada a una muestra aleatoria de víctimas de diversos crímenes



21

Condición Homicidio Asalto Agresión El criminal era un extraño 12 379 727 El criminal era un conocido o pariente 39 106 642

A un nivel de significación de 0.05, pruebe la hipótesis respectiva

3) Un estudio de accidentes automovilísticos seleccionados al azar y conductores que usan teléfonos celulares proporcionó los datos de una muestra aleatoria, que fue resumida en la siguiente tabla de contingencia:

Condición Tuvo accidente el

año pasado No tuvo accidente el

año pasado Usa teléfono celular 23 282 No usa teléfono celular 46 407

Se desea saber si existe alguna relación entre la ocurrencia de accidentes y uso de teléfonos celulares. Con base en estos resultados, realice la prueba correspondiente con un nivel de significación del 5%.

4) Se recolectaron datos sobre los equipos que ganaron en diferentes deportes,

con los resultados que se dan en la tabla adjunta:

Resultado Baloncesto Béisbol Jockey Fútbol

americano Gano equipo local 127 53 50 57 Gano equipo visitante

71 47 43 42

Use un nivel de significancia de 0.10 para probar la aseveración de que las victorias de local/visitante no es independiente del deporte.

5) Una de las preguntas del estudio de suscriptores de 1996 de Bussiness

Week fue: “Durante los últimos 12 meses, en viajes de negocios, ¿qué tipo de boleto de avión compró con más frecuencia?” Las respuestas obtenidas se muestran en la siguiente tabla:

Tipo de vuelo

Nacional Internacional

Tip

o d

e

bo

leto

Primera clase 29 22

Clase de negocios o ejecutiva

95 121

Clase económica 518 135

Usando nivel de significación 0.05, pruebe si no existe independencia entre el tipo de vuelo y tipo de boleto.

6) En el estudio de un taller, se obtuvo un conjunto de datos para determinar si la proporción de artículos defectuosos producidos por los trabajadores era la



22

misma durante el día, la tarde o la noche. Se encontraron los siguientes resultados luego de obtener muestras de trabajadores de diferentes turnos:

Condición TURNO

Día Tarde Noche

Defectuosos 45 55 70

No defectuosos

905 890 870

Utilice un nivel de significación del 5% para determinar si la proporción de artículos defectuosos no es la misma para los tres turnos.

7) La enfermería de un colegio llevó a cabo un experimento para determinar el

grado de alivio proporcionado por tres remedios para la tos. Cada remedio se suministró a 50 estudiantes distintos y se registraron los siguientes datos:

Efecto Remedio para la tos

NyQuil Robitussin Triaminic

Sin alivio 11 13 9

Cierto alivio 32 28 27

Alivio total 7 9 14

Pruebe la hipótesis, con un nivel de significación del 5%, que los tres remedios para la tos no son igualmente efectivos.

3. Prueba de Homogeneidad de Variancias Prueba de Bartlett de Homogeneidad de Variancias (Snedecor y Cochran, 1983) Esta prueba es utilizada para evaluar si existe homogeneidad de variancias

entre t poblaciones 2t . Los supuestos para la aplicación de esta prueba

son: Las muestras provienen de distribuciones normales Las muestras son independientes. Las muestras son tomadas al azar.

Nota Importante Esta prueba estadística no pertenece al grupo de pruebas no paramétricas. Es presentada en este capítulo como parte de las aplicaciones de la

distribución Chi Cuadrado dado que será utilizada como supuesto en los diseños experimentales Procedimiento

a) Hipótesis

H0: 2 2 2 2

1 2 t

H1: Al menos un 2

i es diferente 1,2, ,i t



23

b) Nivel de significación . c) Estadístico de prueba

El estadístico de prueba tiene una distribución Chi-cuadrado con 1t grados de libertad

2 2

1 1 2

1

1

1

1 1

~

1 1 11

3 1 11

t t

i p i i

i i

t

t

ti i

i

i

n LnS n LnS

Q

t nn

Donde in es el tamaño de la i-ésima muestra.

2

iS es la variancia muestral de cada muestra

22

12

1

in

iij i

j

i

i

Y n Y

Sn

2

pS es la variancia ponderada de las muestras

2

2 1

1

1

1

t

i i

ip t

i

i

n S

S

n

d) Desarrollo de la prueba e) Criterio de Decisión:

Se rechaza la hipótesis nula con un nivel de significación si:

2

1 , 1tQ

.

f) Conclusiones

Ejemplo de Aplicación Una empresa usa 4 máquinas para el llenado de bolsas de detergente. Todas las máquinas son de la misma marca y modelo. Dichas máquinas están programadas para llenar 250 gr. en cada bolsa de detergente. El jefe de producción se ha quejado de que las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se muestran a continuación:

Repetición Máquinas

A B C D 1 250.3 249.3 250.0 251.1 2 250.2 246.8 251.1 250.1 3 249.9 248.3 250.9 248.9 4 249.3 247.9 248.3 249.3 5 250.6 249.7 248.9 251.0 6 250.3 249.9 249.9 249.9

Total 1500.6 1491.9 1499.1 1500.3 Promedio 250.10 248.65 249.85 250.05

2

iS 0.20 1.44 1.20 0.78



24

Pruebe el supuesto de homogeneidad de variancias. Use 0.05

4321

251

250

249

248

247

Maquina

Pe

so

Gráfica de caja de Peso

a) Hipótesis

H0: 2 2 2 2 2

1 2 3 4

H1: Al menos un 2

i es diferente 1,2,3,4i

b) 0.05 c) Estadístico de prueba

El estadístico de prueba tiene una distribución Chi-cuadrado con 1t grados de libertad

2 2

1 1 2

1

1

1

1 1

~

1 1 11

3 1 11

k t

i p i i

i i

t

t

ti i

i

i

n LnS n LnS

Q

t nn

d) Desarrollo de la prueba

2

iS 0.20 1.44 1.20 0.78

2

iLnS -1.5896 0.3639 0.1815 -0.2446

1in 5 5 5 5 20

25 0.20 5 0.78 33.4917

0.90520 20

pS



25

20 0.905 4.7972 5.51394.13

1.08331 1 1 11

3 3 5 5 20

LnQ

e) Criterio de Decisión:

0.25

0.20

0.15

0.10

0.05

0.00

X7.81

0.05

0

Se rechaza la hipótesis nula con un nivel de significación 0.05

si: 2

0.95,37.8147Q

f) Conclusiones

No existe evidencia para rechazar la H0. Por lo tanto no se puede afirmar que las variancias sean heterogéneas.

A

251.0250.5250.0249.5249.0

99

95

90

80

70

60

50

40

30

20

10

5

1

A

Pe

rce

nt

Mean 250.1

StDev 0.4517

N 6

AD 0.391

P-Value 0.254

Probability Plot of ANormal

pvalor=0.254

B

252251250249248247246

99

95

90

80

70

60

50

40

30

20

10

5

1

B

Pe

rce

nt

Mean 248.7

StDev 1.200

N 6

AD 0.255

P-Value 0.576

Probability Plot of BNormal

p-valor=0.576

C

253252251250249248247

99

95

90

80

70

60

50

40

30

20

10

5

1

C

Pe

rce

nt

Mean 249.9

StDev 1.095

N 6

AD 0.239

P-Value 0.630

Probability Plot of CNormal

pvalor=0.63

D

252251250249248

99

95

90

80

70

60

50

40

30

20

10

5

1

D

Pe

rce

nt

Mean 250.1

StDev 0.8849

N 6

AD 0.242

P-Value 0.621

Probability Plot of DNormal

pvalor=0.621


1. Un promotor inmobiliario está considerando invertir en un centro comercial a construirse en el sector medio de una capital del interior del país. Para el



26

promotor, es muy importante el nivel de los ingresos mensuales de las familias. Para el estudio, se evalúan 4 ciudades: Arequipa, Iquitos, Piura y Trujillo y en cada una de ellas se seleccionaron muestras aleatorias de ingresos familiares. Los ingresos mensuales observados en dólares son los siguientes:

Arequipa Iquitos Piura Trujillo

610 710 560 500 560 730 610 400 490 660 470 500 550 610 510 500

460 580 500 620 400 650

Asuma que los ingresos mensuales se distribuyen normalmente. A un nivel de significación de 0.05 pruebe el supuesto de homogeneidad de varianzas.

2. Se realizó un estudio para analizar el tipo de pago efectuado en la compra de artículos de primera necesidad en supermercados. Se seleccionaron al azar a 15 personas y se contabilizó el nivel de consumo diario (en decenas de nuevos soles). Los datos se presentan en la siguiente tabla:

Débito Efectivo Crédito 5.6 5.8 6.2 5.5 5.7 6.1 5.3 5.7 6.3 5.2 5.6 6.2 5.1 5.7 6.2

A un nivel de significación de 0.05 pruebe el supuesto de homogeneidad de varianzas.



27

Resultados con Minitab Ejemplo de Aplicación 1: Prueba de Frecuencia

Stat / Tables / Chi Square Goodness of Fit Test (One Variable)

Chi-Square Goodness-of-Fit Test for Observed Counts in Variable: oi Using category names in oi

Test Contribution

Category Observed Proportion Expected to Chi-Sq

43 43 0.333333 45 0.08889

53 53 0.333333 45 1.42222

39 39 0.333333 45 0.80000

N DF Chi-Sq P-Value

135 2 2.31111 0.315

Ejemplo de Aplicación 3: Ajuste a una Poisson

Stat / Basic Statistics / Goodness of Fit Test for Poisson Goodness-of-Fit Test for Poisson Distribution Data column: Accidentes

Frequency column: oi

Poisson mean for Accidentes = 1

Poisson Contribution

Accidentes Observed Probability Expected to Chi-Sq

0 34 0.367879 29.4304 0.70953

1 25 0.367879 29.4304 0.66693

2 11 0.183940 14.7152 0.93798

>=3 10 0.080301 6.4241 1.99047

N N* DF Chi-Sq P-Value

80 0 2 4.30491 0.116

Ejemplos de Aplicación 4 y 5: Pruebas con Tablas de Contingencia

Stat / Tables / Chi Square Test (Table in Worksheet) Ejemplo 4 Chi-Square Test: C1, C2, C3 Expected counts are printed below observed counts

Chi-Square contributions are printed below expected counts

C1 C2 C3 Total

1 23 60 29 112

16.80 52.64 42.56

2.288 1.029 4.320

2 28 79 60 167

25.05 78.49 63.46

0.347 0.003 0.189

3 9 49 63 121

18.15 56.87 45.98

4.613 1.089 6.300

Total 60 188 152 400

Chi-Sq = 20.179, DF = 4, P-Value = 0.000



28

Ejemplo 5 Chi-Square Test: C1, C2, C3 Expected counts are printed below observed counts

Chi-Square contributions are printed below expected counts

C1 C2 C3 Total

1 41 27 22 90

36.00 24.00 30.00

0.694 0.375 2.133

2 79 53 78 210

84.00 56.00 70.00

0.298 0.161 0.914

Total 120 80 100 300

Chi-Sq = 4.575, DF = 2, P-Value = 0.101

Ejemplos de Aplicación 6: Pruebas de Homogeneidad de Varianzas

Stat / ANOVA / Test for Equal Variances

Test for Equal Variances: Peso versus Maquina 95% Bonferroni confidence intervals for standard deviations

Maquina N Lower StDev Upper

1 6 0.250789 0.45166 1.50089

2 6 0.666077 1.19958 3.98626

3 6 0.608000 1.09499 3.63868

4 6 0.491332 0.88487 2.94046

Bartlett's Test (Normal Distribution)

Test statistic = 4.13, p-value = 0.248

Levene's Test (Any Continuous Distribution)

Test statistic = 1.91, p-value = 0.161

4

3

2

1

43210

Ma

qu

ina

95% Bonferroni Confidence Intervals for StDevs

Test Statistic 4.13

P-Value 0.248

Test Statistic 1.91

P-Value 0.161

Bartlett's Test

Levene's Test

Test for Equal Variances for Peso



29

Aplicaciones de la Distribución Chi Cuadrado con Minitab Prueba de Frecuencia Stat / Basic Statistics / Chi Square Goodness of Fit Test (One Variable)

Ajuste a la Poisson Stat / Basic Statistics / Goodness of Fit Test for Poisson

Pruebas con Tablas de Contingencia Stat / Tables / Chi Square Test (Table in Worksheet)



30

Pruebas de Homogeneidad de Varianzas Stat / ANOVA / Test for Equal Variances

Capitulo I

Documents

Transcript of Capitulo I