Ejemplos de Datos Categoricos
-
Upload
betofisicosud -
Category
Documents
-
view
21 -
download
3
Transcript of Ejemplos de Datos Categoricos
Prueba de Independencia: Tablas de contingencia
Al estudiar la diferencia entre los parámetros poblacionales a través de la diferencia muestral
de los estadísticos muestrales correspondientes, lo que hemos hecho es realizar un análisis
comparativo de dos variables: X: Observaciones provenientes de la primera población, e Y:
Observaciones provenientes de la segunda población.
Y al plantear la Hipótesis Nula de la igualdad de dichos parámetros, lo que hemos hecho es
afirmar que dichos parámetros tienen el mismo comportamiento o que no existe suficiente
evidencia para afirmar que difieren, versus la Hipótesis Alternativa que la niega.
Queremos ahora generalizar este tipo de comparaciones para más de dos poblaciones.
Pero a diferencia de probar el mismo comportamiento entre dos poblaciones, trataremos de
probar hipótesis de independencia en el comportamiento de las mismas, versus la hipótesis
alternativa que afirma la dependencia entre el comportamiento de las poblaciones.
Veamos el siguiente problema:
Ejemplo 4
La empresa Limpia Ya S.A. comercializa tres tipos de detergentes A, B y C. En un análisis de
segmentación de mercado para los tres productos, el grupo de investigación encargado ha
planteado la duda de si las preferencias para los tres detergentes son diferentes entre los
consumidores de los sectores Alto, Medio y Bajo. Si la preferencia de los detergentes fuera
independiente del sector consumidor, se iniciaría una única campaña de publicidad para los
tres productos; sin embargo, si la preferencia depende del sector de consumo, se ajustarán las
promociones para tener en cuenta los distintos mercados de venta.
De manera que las hipótesis a plantearse serán:
H0: La preferencia de detergente es independiente del sector de consumo
H1: La preferencia de detergente no es independiente del sector de consumo
Después de identificar a la población y sectores consumidores, se puede tomar una muestra y
preguntar a cada elemento de la muestra sobre su preferencia entre los tres tipos de
detergentes.
El conjunto de datos definido como observaciones corresponderá a un determinado detergente,
consumido por un determinado sector.
Esto nos lleva a conformar todas las posibles combinaciones o contingencias a las cuales
llamaremos Tabla de Contingencias.
De manera que una prueba de independencia utiliza como formato de trabajo una tabla de
contingencias.
Por esta razón este tipo de prueba recibe el nombre de Pruebas de Tabla de Contingencias o
prueba con tabla de contingencias.
El formato de la tabla se muestra a continuación:
Detergente A Detergente B Detergente C Total
Sexo
Alto O11 O12 O13 O.1
Medio O21 O22 O23 O.2
Bajo O31 O32 O33 O.3
Total
O1.
O2.
O3.
N
Supongamos que se tomó una muestra de 120 consumidores. Después de usar los tres tipos
de detergentes, se les pide manifestar su preferencia. Los resultados de la muestra se
presentan en la siguiente tabla:
Producto
Detergente A Detergente B Detergente C Total
Alto 14 12 10 36
Sexo
Medio 21 16 8 45
Bajo 15 12 12 39
Total
50
40
30
n= 120
5. Análisis de datos categóricos (9)Si pudiéramos obtener las frecuencias esperadas bajo la hipótesis de independencia entre la
preferencia de los detergentes y el sector del consumidor, podríamos usar la distribución Chi –
Cuadrado para determinar si existe una diferencia significativa entre las frecuencias
observadas y esperadas, como lo vimos en bondad de ajuste.
Para encontrar las frecuencias esperadas haremos uso del siguiente razonamiento:
Si es cierto que la preferencia de los detergentes y el consumo por sector son independientes
entonces la proporción de consumo por detergente debe se igual entre los tres sectores.
Por ello, bajo la hipótesis de independencia, esperaríamos que el total de los consumidores por
sector estarían afectados por esta proporción.
En otras palabras, la proporción de consumo por detergente es 50/120, 40/120 y 30/120.
Luego el número esperado de consumidores por sector será 36(50/120), 45(40/120) y
39(30/120).
Todo esto se muestra en la siguiente tabla:
Producto
Detergente A Detergente B Detergente C Total
Sexo
Alto 15 12 9 36
Medio 18.75 15 11.25 45
Bajo 16.25 13 9.75 39
Total
50
40
30
n= 120
En consecuencia, hemos usado la siguiente fórmula
Lo que falta ahora es repetir lo que hicimos en Bondad de Ajuste por Chi – Cuadrado. Es decir
obtener la suma de los cuadrados de las diferencias entre las frecuencias observadas y
esperadas, dividido por las frecuencias esperadas. Sólo que en este caso, la suma es con
doble sumatoria, como aquí se indica,
tal que
donde k es el número de categorías(filas) y m es el número de contingencias (columnas)
existentes en la muestra.
El siguiente cuadro nos muestra la suma de los cuadrados mencionados líneas arriba.
Producto
Detergente A Detergente B Detergente C Total
Alto 0.067 0.000 0.111 36
Medio 0.270 0.067 0.939 45
Sexo Bajo 0.096 0.077 0.519 39
Total 50 40 30 120
Luego = 2.146.
Usando Minitab encontramos el valor de (4) = 9.4877
Puesto que < (4)
Entonces, podemos afirmar que existe evidencia para sospechar que la preferencia por los
detergentes es independiente del sector al que pertenece el consumidor.