distribucion ji cuadrado

8
1 Universidad Nacional Jorge Basadre Grohmann Facultad de Ciencias Agrícolas Escuela de Medicina Veterinaria y Zootecnia LA DISTRIBUCIÓN DE JI-CUADRADO FRECUENCIAS OBSERVADAS Y TEÓRICAS Como ya hemos visto repetidamente, los resultados obtenidos por muestreo no siempre coinciden exactamente con los esperados teóricamente de acuerdo con las leyes de las probabilidades. Por ejemplo, aunque consideraciones teóricas conducen a esperar 50 caras y 50 cruces en 100 tiradas de una moneda (buena), es raro que ocurra eso exactamente. Supongamos que en una muestra particular un conjunto de sucesos posibles E 1 ,E 2 ,E 3 ,…,E k , (véase tabla 1) se observa que ocurren con frecuencias ο 1 ,ο 2 ,ο 3 ,…,ο k , llamadas frecuencias observadas, y que según las leyes de las probabilidades, se espera que sucedan con frecuencias e 1 ,e 2 ,e 3 ,…,e k , llamadas frecuencias esperadas o teóricas. Tabla 1 Suceso E 1 E 2 E 3 E k Frecuencia observada ο 1 ο 2 ο 3 ο k Frecuencia esperada e 1 e 2 e 3 e k DEFINICIÓN x 2 Una medida de la discrepancia existente entre las frecuencias observadas y esperadas viene proporcionada por el estadístico x 2 (léase ji-cuadrado) dada por: x 2 = ( ο 1 +e 1 ) 2 e 1 + ( ο 2 +e 2 ) 2 e 2 + ( ο k + e k ) 2 e k = j=1 k ( ο j +e j ) 2 e j ( 1) 1

Transcript of distribucion ji cuadrado

Page 1: distribucion ji cuadrado

1 Universidad Nacional Jorge Basadre Grohmann

Facultad de Ciencias Agrícolas

Escuela de Medicina Veterinaria y Zootecnia

LA DISTRIBUCIÓN DE JI-CUADRADO

FRECUENCIAS OBSERVADAS Y TEÓRICAS

Como ya hemos visto repetidamente, los resultados obtenidos por muestreo no siempre coinciden exactamente con los esperados teóricamente de acuerdo con las leyes de las probabilidades. Por ejemplo, aunque consideraciones teóricas conducen a esperar 50 caras y 50 cruces en 100 tiradas de una moneda (buena), es raro que ocurra eso exactamente.

Supongamos que en una muestra particular un conjunto de sucesos posibles E1 , E2 ,E3 ,…, Ek , (véase tabla 1) se observa que ocurren con frecuencias ο1 , ο2 , ο3 ,…,οk , llamadas frecuencias observadas, y que según las leyes de las probabilidades, se espera que sucedan con frecuencias e1 ,e2 , e3 ,…,ek ,llamadas frecuencias esperadas o teóricas.

Tabla 1

Suceso E1 E2 E3 … E k

Frecuencia observada ο1 ο2 ο3 … οk

Frecuencia esperada e1 e2 e3 … ek

DEFINICIÓN x2

Una medida de la discrepancia existente entre las frecuencias observadas y esperadas viene proporcionada por el estadístico x2 (léase ji-cuadrado) dada por:

x2=(ο1+e1 )2

e1+

(ο2+e2)2

e2+…

(οk+ek)2

ek=∑

j=1

k (ο j+e j )2

e j(1)

Donde si la frecuencia total es N,

∑ ο j=∑ e j=N (2)

Una expresión equivalente a la formula (1) es:

x2=∑ ο j2

e j−N (3)

1

Page 2: distribucion ji cuadrado

2 Universidad Nacional Jorge Basadre Grohmann

Facultad de Ciencias Agrícolas

Escuela de Medicina Veterinaria y Zootecnia

Si x2=0, las frecuencias observadas y teóricas coinciden completamente; mientras que si x2>0 , no coinciden exactamente. A valores más grandes de x2, mayor discrepancia entre las frecuencias observadas y esperadas.

La distribución muestral de x2se aproxima muy bien por la distribución ji-cuadrado

Y=Y 0 (x2 )12

( ν−2 )e

−12x2

=Y 0 xν−2 e

−12x2

(4)

Si las frecuencias esperadas son al menos iguales a 5, y mejora para valores más grandes.

El número de grados de libertad,ν ,viene dado por:

1. ν=k−1 si las frecuencias esperadas se pueden calcular sin tener que estimar los parámetros de la población a partir de los estadísticos muéstrales. Nótese que hemos restado 1 de k a causa de la ligadura (2), que establece que si conocemos k−1 de las frecuencias esperadas, la restante puede determinarse ya.

2. ν=k−1−m ,si las frecuencias esperadas se pueden calcular solo determinando m parámetros de la población a partir de estadísticos de la muestra.

CONTRASTES DE SIGNIFICACIÓN

En la práctica, las frecuencias esperadas se calculan sobre la base de una hipótesis H 0. Si bajo tal hipótesis el valor calculado para x2 dado por (1) o (3) es mayor que algún valor crítico (tal como x .952 o x .99

2 , que son los valores críticos de los niveles de significación 0,05 y 0,01 respectivamente), debemos concluir que las frecuencias observadas difieren significativamente de las frecuencias esperadas y rechazaremos H 0al correspondiente nivel de significación: en caso contrario, la aceptaremos (o al menos no la rechazaremos). Este procedimiento se llama el test o contraste ji cuadrado de hipótesis o significación.

Hay que hacer constar que debe mirarse con suspicacia en circunstancias en las que x2 sea demasiado próximo a cero, pues es raro que las frecuencias observadas coincidan demasiado bien con las frecuencias esperadas. Para examinar tales situaciones, podemos determinar si el valor calculado de x2 es menor que x .0,5

2 o x .0,12 , en cuyo caso hablaremos de decidir que el acuerdo es

demasiado bueno al nivel de significación 0,05 ó 0,01, respectivamente.

2

Page 3: distribucion ji cuadrado

3 Universidad Nacional Jorge Basadre Grohmann

Facultad de Ciencias Agrícolas

Escuela de Medicina Veterinaria y Zootecnia

EL TEST JI – CUADRADO PARA LA BONDAD DE AJUSTE

El test – cuadrado puede utilizarse para determinar la calidad de ajuste mediante distribuciones teóricas (como la distribución normal o la distribución binomial) de distribuciones empíricas (o sea, la obtenidas de los datos de la muestra).

TABLA DE CONTINGENCIA

La tabla 1, en la que las frecuencias observadas ocupan una sola fila, se llama una tabla de clasificación de entrada única. Como el número de columnas es k, también se llama una tabla 1xk (leído “1 por k). Extendiendo estas ideas, podemos llegar a tablas de doble entrada o tablas h x k, en las que las frecuencias observadas ocupan filas h filas y k columnas. Tales tablas se suelen llamar tablas de contingencia.

Correspondiendo a cada frecuencia observada en una tabla de contingencia h x k, hay una frecuencia esperada(o teórica) que se calcula sujeta a ciertas hipótesis de acuerdo con las leyes de las probabilidades. Estas frecuencias, que ocupan las celdas de una tabla de contingencia, se llaman frecuencias de celda. La frecuencia total en cada fila o en cada columna se llama frecuencia marginal.

Para investigar el acuerdo entre las frecuencias observadas y las frecuencias esperadas, calculamos el estadístico

x2=∑j

(ο j−e j )2

e j(6)

Donde la suma se toma sobre todas las celdas de una celda en una tabla de contingencia y donde los símbolos ο j y e j representan, respectivamente, las frecuencias observadas y frecuencias esperadas de la j-enésima celda. Esta suma, análoga a la ecuación (1), contiene h k términos. La suma de todas las frecuencias observadas se denota por N y es igual a la suma de todas las frecuencias esperadas.

Como antes, el estadístico (5) tiene una distribución muestral dada muy aproximadamente por (4), supuso que las frecuencias esperadas nos sean demasiado pequeñas. El numero de grados de libertad, ν , de esta distribución ji – cuadrado viene dado por h>1 y k> 1 por:

3

Page 4: distribucion ji cuadrado

4 Universidad Nacional Jorge Basadre Grohmann

Facultad de Ciencias Agrícolas

Escuela de Medicina Veterinaria y Zootecnia

1. ν=(h−1 ) ( k−1 ) si las frecuencias esperadas se pueden calcular sin recurrir a estimaciones muéstrales de los parámetros de la población. Para una demostración de esto.

2. ν=(h−1 ) ( k−1 )−m si las frecuencias esperadas solo se pueden calcular mediante estimación de m parámetros de la población a partir de estadísticos de la muestra.

Los contrastes de significación para las tablas h x k son similares a los de las tablas 1 x k. Las frecuencias esperadas se hallan sujetas a una hipótesis particular H 0 .Una hipótesis común es suponer que las dos clasificaciones son mutuamente independientes.

Las tablas de contingencia se pueden generalizar a más dimensiones. Así por ejemplo, podemos tener h x k x i, donde están presentes tres clasificaciones.

CORRECCIÓN DE YATES A LA CONTINUIDAD

Cuando se aplican resultados de distribuciones continuas a datos discretos, pueden hacerse ciertas correcciones a la continuidad, como se ha visto en capítulos precedentes. Una corrección similar existe cuando se usa la distribución ji – cuadrada. La corrección consiste en formular la ecuación (1) como:

x2 ( corregido )=(|ο1−e1|−0.5 )2

e1+

(|ο2−e2|−0.5 )2

e2+…+

(|οk−ek|−0.5 )2

ek(6)

Y se llama corrección de Yates. Una modificación análoga existe pata (5).

En general, la corrección se hace solo cuando el número de grados de libertad es ν=1.Para grandes muestras, esto da prácticamente los mismos resultados que el x2 sin corregir, pero pueden surgir dificultades cerca de valores críticos. Para pequeñas muestras donde cada frecuencia esperada está entre 5 y 10, es quizás mejor comparar ambos valores de x2 , corregido y sin corregir. Sin ambos llevan a la misma conclusión acerca de la hipótesis, tal como el rechazo al nivel de significación 0,05 rara vez surgen dificultades. Si conducen a diferente conclusión, uno debe pensar en aumentar el tamaño de la muestra o, si ello no es factible, en emplear método de probabilidades que involucren la distribución multinomial.

FORMULAS SIMPLES PARA CALCULAR

Existen formulas sencillas para calcular x2 que implican tan solo las frecuencias observadas. Los que sigue da los resultados para tablas contingencia 2 x 2 y 2 x 3.

4

Page 5: distribucion ji cuadrado

5 Universidad Nacional Jorge Basadre Grohmann

Facultad de Ciencias Agrícolas

Escuela de Medicina Veterinaria y Zootecnia

Tabla 2 x 2

x2=N (a1b2−a2b1)

2

(a1+b1) (a2+b2 ) (a1+a2 ) (b1+b2)= N ∆2

N1 N2N AN B

(7)

I II Total

A a1 a2 N A

B b1 b2 N B

Total N1 N2 N

Donde:

∆=a1b2−a2b1 ,N=a1+a2+b1+b2 , N1=a1+b1 ,N 2=a2+b2 , N A=a1+a2, NB=b1+b2

Con corrección de Yates, esto se convierte en:

x2 ( corregido )=N (|a1b2−a2b1|−12 N )

2

(a1+b1 ) (a2+b2 ) (a1+a2 ) (b1+b2 )=N (|∆|−12 N)

2

N1 N2N AN B

(8)

Tabla de 2 x 3

x2= NN A

[ a12N1+ a22

N2+a32

N3 ]+ NNB [ b12

N 1

+b22

N 2

+b32

N3 ]−N (9)

Donde hemos usado el resultado general válido para todas las tablas de contingencia:

x2=∑ ο j2

e j−N (10)

El resultado (9) para tablas de contingencia 2 x k, con k > 3, admite generalización.

5

I II III Total

A a1 a2 a3 N A

B b1 b2 b3 N B

Total N1 N2 N3 N

Page 6: distribucion ji cuadrado

6 Universidad Nacional Jorge Basadre Grohmann

Facultad de Ciencias Agrícolas

Escuela de Medicina Veterinaria y Zootecnia

COEFICIENTE DE CONTINGENCIA

Una medida de grado de interrelación, asociación o dependencia de las clasificaciones e una tabla de contingencia viene dada por

C=√ x2

x2+N(11)

Que se llama el coeficiente de contingencia. Cuando mayor es C, mayor es el grado de asociación. El número de filas y de columnas en la tabla de contingencia determina el máximo valor de C, que nunca es mayor que 1. Si el numero de filas y columnas de una tabla de contingencia es igual a k, el máximo valor de C esta dado por √ (k−1 )/k.

CORRELACIÓN DE ATRIBUTOS

Ya que las clasificaciones en una tabla de contingencia describen a menudo características de individuos u objetos, se conoce como atributos, y el grado de dependencia, asociación o interrelación se llama la correlación de atributos. Para tablas k x k, definimos:

r=√ x2

N (k−1 )(12)

Como el coeficiente de contingencia entre atributos (o clasificaciones). Este coeficiente está entre 0 y 1. Para tablas 2 x 2 en las que k=2, la correlación se llama tetracórica.

PROPIEDADES ADITIVA DE x2

Supongamos que los resultados de experimentos repetidos dan valores muéstrales de x2 dados por x12 , x2

2 , x32 ,… con ν1 , ν2 , ν3 ,… grados de libertad, respectivamente. Entonces el resultados de todos

esos experimentos puede considerarse equivalente a un valor de x2dado por x12+ x2

2+x32+… con

ν1+ν2+ν3+…grados de libertad.

6