Introducción a la Estadística. Tema3

27
TEMA 3 ESTADÍSTICA DESCRIPTIVA PARA DOS VARIABLES CUALITATIVAS

Transcript of Introducción a la Estadística. Tema3

Page 1: Introducción a la Estadística. Tema3

TEMA 3

ESTADÍSTICA DESCRIPTIVA PARA DOS VARIABLES CUALITATIVAS

Page 2: Introducción a la Estadística. Tema3

JGM 03/09/04

Índice del tema 3

❚ Objetivo del análisis de tablas de contingencia

❚ Distribución conjunta de frecuencias

❚ Modelo observado

❚ Hipótesis de independencia y modelo esperado

❚ Modelos de residuos (brutos y estandarizados)

❚ La distribución Chi cuadrado

Page 3: Introducción a la Estadística. Tema3

JGM 03/09/04

Objetivo del análisis de tablas de contingencia

❚ Estudiar la posible existencia de

ASOCIACIÓN entre dos variables de

naturaleza cualitativa.

❚ Ejemplo: ¿Existe relación entre el barrio

de residencia y la clase social de las

personas?

Page 4: Introducción a la Estadística. Tema3

JGM 03/09/04

Distribución conjunta de frecuencias

❚ Para estudiar dos variables cualitativas

podemos hacerlo:

❙ Individualmente: Con las frecuencias

absolutas o relativas (frecuencias marginales)

❙ Globalmente: Con la distribución conjunta de

frecuencias

Page 5: Introducción a la Estadística. Tema3

JGM 03/09/04

Distribución conjunta de frecuencias (II)

❚ La distribución conjunta contiene más información que las distribuciones individuales (o marginales).

Recuerda que a partir de la distribución conjunta podemos obtener las distribuciones marginales pero la afirmación recíproca no es cierta

Page 6: Introducción a la Estadística. Tema3

JGM 03/09/04

Distribución conjunta de frecuencias (III)

❚ La distribución conjunta de frecuencias de dos variables cualitativas es una matriz de doble entrada o tabla de contingencia con r filas y c columnas. ¡Ojo!: no confundirla con la tabla de datos.

VARIABLE CUALITATIVA Bc modalidades

VARI

ABL

E CU

ALI

TATI

VA A

r m

odal

idad

es

Page 7: Introducción a la Estadística. Tema3

JGM 03/09/04

Distribución conjunta de frecuencias (IV)

Distribución conjunta

VARIABLE CUALITATIVA Bc modalidades

VARI

ABL

E CU

ALI

TATI

VA A

r m

odal

idad

es

Pies

Manos

Distribuciones marginales

Page 8: Introducción a la Estadística. Tema3

JGM 03/09/04

Proceso en el análisis de tablas de contingencia

Modelo observado Modelo deresiduos brutos

Modelo de resi-duos estandarizados

Modelo esperado

Cálculo del Estad.de contraste (EC)

Comparación conlas tablas de laChi-cuadrado

¿Existeasociación?

¿Qué celdascontribuyen más? FINSÍ

NO

ijO ijE ijij EO −

( ) ijijij EEO −( )[ ]∑∑ −I J

ijijij EEO2

Page 9: Introducción a la Estadística. Tema3

JGM 03/09/04

El modelo observado

❚ Es la distribución conjunta de frecuencias que hemos obtenido en nuestro conjunto de individuos para las dos variables analizadas. Es otra forma de referirse a la tabla de contingencia de la que partimos antes de comenzar el análisis.

representa la frecuencia observada simultáneamente en la modalidad i-ésima de la primera variable y en la j-ésima de la segunda variable.

ijO

Page 10: Introducción a la Estadística. Tema3

JGM 03/09/04

El modelo esperado

¿¿Esperado?? ¿Bajo que supuesto?

Page 11: Introducción a la Estadística. Tema3

JGM 03/09/04

El modelo esperado

❚ Es la distribución conjunta que esperaríamos observar si las variables estudiadas fueran perfectamente independientes entre sí.

Page 12: Introducción a la Estadística. Tema3

JGM 03/09/04

El modelo esperado

¡Ya está!…Debo calcular loque esperaría haberme encontradosi el barrio de residencia no tuviera

nada que ver con la clase social

Page 13: Introducción a la Estadística. Tema3

JGM 03/09/04

El modelo esperado

❚ Es la distribución conjunta de frecuencias que esperaríamos obtener en caso de independencia perfecta entre las dos variables.

representa la frecuencia esperada simultáneamente en la modalidad i-ésima de la primera variable y en la j-ésima de la segunda variable.

. .

..

i jij

n nE

n

×=

Page 14: Introducción a la Estadística. Tema3

JGM 03/09/04

INDEPENDENCIA❚ El supuesto de partida es la INDEPENDENCIA.

❚ Significa que la probabilidad de pertenencia a las modalidades de una cualquiera de las dos variables permanece constante para todas las modalidades de la otra variable, y viceversa.

❚ Bajo el supuesto de independencia los perfiles-fila son iguales para todas las modalidades de la variable situada en filas (e iguales al perfil-fila global) y los perfiles-columna son iguales para todas las modalidades de la variable situada en columnas (e iguales al perfil-columna global).

Page 15: Introducción a la Estadística. Tema3

JGM 03/09/04

INDEPENDENCIA

O sea, bajo el supuesto deindependencia es igual de probable ser

pobre si vivo en el barrio A que si vivo enel barrio B o en el C. ¡Claro!, el barrio no tiene nada que ver con la clase social

Page 16: Introducción a la Estadística. Tema3

JGM 03/09/04

INDEPENDENCIA

❚ Además, mantendré mi supuesto de partida (mi hipótesis de independencia) salvo que exista ENORME EVIDENCIA en su contra.

❚ Si no me queda más remedio (es decir, si existe enorme evidencia en contra de la independencia) aceptaré que existe ASOCIACIÓN entre las variables.

Page 17: Introducción a la Estadística. Tema3

JGM 03/09/04

El modelo de residuos brutos

❚ Mide la desviación positiva o negativa entre lo observado y lo esperado en cada celda de la tabla.❙ Un residuo positivo en una celda indica que se han

observado más individuos en esa celda de los que cabría esperar si las variables fueran independientes.

❙ Un residuo negativo en una celda indica que se han observado menos individuos en esa celda de los que cabría esperar si las variables fueran independientes

Page 18: Introducción a la Estadística. Tema3

JGM 03/09/04

El modelo de residuos brutos❚ El residuo es la diferencia entre lo que se ha observado

y lo que se esperaba haber observado, es decir

representa el residuo que existe en la modalidad i-ésima de la primera variable y j-ésima de la segunda.

ij ijO E−

Page 19: Introducción a la Estadística. Tema3

JGM 03/09/04

El modelo de residuos brutos

Pero, ¿son todos losresiduos igualmente

relevantes?

OBVIAMENTE, NO

Page 20: Introducción a la Estadística. Tema3

JGM 03/09/04

El modelo de residuos estandarizados

❚ Los residuos brutos en una celda son tanto más relevantes cuanto menor es la frecuencia esperada en esa celda.

❚ Por ese motivo los estandarizamos haciendo:

ij ij

ij

O E

E

Page 21: Introducción a la Estadística. Tema3

JGM 03/09/04

Cálculo del estadístico de contraste

❚ El estadístico de contraste de Pearson se calcula elevando al cuadrado todos los residuos estandarizados y sumándolos.

¡Ojo!: (a+b)2 es distinto de a2+b2. O sea que no es lo mismo “sumar todo y luego elevar al cuadrado” que “elevar al cuadrado y luego sumar todo”. En este caso es la segunda opción.

∑∑= =

−=

r

i

c

j ij

ijij

E

EOEC

1 1

2

Page 22: Introducción a la Estadística. Tema3

JGM 03/09/04

El estadístico de contraste

Entonces, EC es siempreno negativo, ¿no?

Eso es. Al sumar cuadradoslo más pequeño que podemos obteneres un cero. El EC tomará valores entrecero e infinito.

Page 23: Introducción a la Estadística. Tema3

JGM 03/09/04

¿Existe asociación?

Vale, vale, pero ¿existe ASOCIACIÓN?

Intuitivamente vemos que un EC pequeñonos lleva a decir que no existe asociación-los residuos son pequeños- y un EC grandea decir que sí –residuos grandes-. Pero ¿quése entiende por un EC grande?

Page 24: Introducción a la Estadística. Tema3

JGM 03/09/04

¿Existe asociación?

❚ Lo que entendemos por un EC grande depende de dos cosas:❙ El tamaño de la tabla: Las filas “r” y las columnas “c”

determinan los llamados grados de libertad, según la fórmula (r-1)x(c-1). Los grados de libertad expresan el número de celdas de la tabla de contingencia que se pueden fijar libremente. En tablas más grandes aceptaremos EC mayores.

❙ El nivel de significación escogido: normalmente 0,05.

¿Qué es “nivel de significación”?. Lo veremos en el tema 8.

Page 25: Introducción a la Estadística. Tema3

JGM 03/09/04

¿Existe asociación?

O sea, …tengo que comparar mi EC con

el valor que aparece en las tablasde la Chi-cuadrado en la columna0,05 y en la fila que corresponda

a los grados de libertad, ¿no?

Eso es, y si tu EC es mayor o igual que el valor de las tablas, no te quedará más remedio que aceptar que existe asociación.Si tu EC es más pequeño que el valor de las tablas podrás mantener tu hipótesis de independencia.

Page 26: Introducción a la Estadística. Tema3

JGM 03/09/04

¿Qué celdas contribuyen más a la asociación?

Y en caso de que exista asociación,las celdas que contribuyen a ésta en

mayor medida serán aquellas que tengan,en valor absoluto, los mayores residuos estandarizados, ¿no?

¡Exacto!

Page 27: Introducción a la Estadística. Tema3

JGM 03/09/04

Una precaución final

❚ La prueba de la Chi-cuadrado de Pearson se basa en la aproximación de una distribución binomial por una normal.

❚ En caso de que exista alguna celda con un valor esperado menor que 5, esta aproximación no resulta apropiada.

❚ Si este hecho se produce será necesario colapsar unas modalidades en otras de modo que todas las celdas tengan una frecuencia esperada no inferior a 5.