Ejemplos de Datos Categoricos

6
Prueba de Independencia: Tablas de contingencia Al estudiar la diferencia entre los parámetros poblacionales a través de la diferencia muestral de los estadísticos muestrales correspondientes, lo que hemos hecho es realizar un análisis comparativo de dos variables: X: Observaciones provenientes de la primera población, e Y: Observaciones provenientes de la segunda población. Y al plantear la Hipótesis Nula de la igualdad de dichos parámetros, lo que hemos hecho es afirmar que dichos parámetros tienen el mismo comportamiento o que no existe suficiente evidencia para afirmar que difieren, versus la Hipótesis Alternativa que la niega. Queremos ahora generalizar este tipo de comparaciones para más de dos poblaciones. Pero a diferencia de probar el mismo comportamiento entre dos poblaciones, trataremos de probar hipótesis de independencia en el comportamiento de las mismas, versus la hipótesis alternativa que afirma la dependencia entre el comportamiento de las poblaciones. Veamos el siguiente problema: Ejemplo 4 La empresa Limpia Ya S.A. comercializa tres tipos de detergentes A, B y C. En un análisis de segmentación de mercado para los tres productos, el grupo de investigación encargado ha planteado la duda de si las preferencias para los tres detergentes son diferentes entre los consumidores de los sectores Alto, Medio y Bajo. Si la preferencia de los detergentes fuera independiente del sector consumidor, se

Transcript of Ejemplos de Datos Categoricos

Page 1: Ejemplos de Datos Categoricos

 Prueba de Independencia: Tablas de contingencia

 

 

Al estudiar la diferencia entre los parámetros poblacionales a través de la diferencia muestral

de los estadísticos muestrales correspondientes, lo que hemos hecho es realizar un análisis

comparativo de dos variables: X: Observaciones provenientes de la primera población, e Y:

Observaciones provenientes de la segunda población.

 

Y al plantear la Hipótesis Nula de la igualdad de dichos parámetros, lo que hemos hecho es

afirmar que dichos parámetros tienen el mismo comportamiento o que no existe suficiente

evidencia para afirmar que difieren, versus la Hipótesis Alternativa que la niega.

 

Queremos ahora generalizar este tipo de comparaciones para más de dos poblaciones.

Pero a diferencia de probar el mismo comportamiento entre dos poblaciones, trataremos de

probar hipótesis de independencia en el comportamiento de las mismas, versus la hipótesis

alternativa que afirma la dependencia entre el comportamiento de las poblaciones.

 

Veamos el siguiente problema:

 

Ejemplo 4

 

La empresa Limpia Ya S.A. comercializa tres tipos de detergentes A, B y C. En un análisis de

segmentación de mercado para los tres productos, el grupo de investigación encargado ha

planteado la duda de si las preferencias para los tres detergentes son diferentes entre los

consumidores de los sectores Alto, Medio y Bajo. Si la preferencia de los detergentes fuera

independiente del sector consumidor, se iniciaría una única campaña de publicidad para los

tres productos; sin embargo, si la preferencia depende del sector de consumo, se ajustarán las

promociones para tener en cuenta los distintos mercados de venta.

 

De manera que las hipótesis a plantearse serán:

 

H0: La preferencia de detergente es independiente del sector de consumo

Page 2: Ejemplos de Datos Categoricos

H1: La preferencia de detergente no es independiente del sector de consumo

 

Después de identificar a la población y sectores consumidores, se puede tomar una muestra y

preguntar a cada elemento de la muestra sobre su preferencia entre los tres tipos de

detergentes.

 

El conjunto de datos definido como observaciones corresponderá a un determinado detergente,

consumido por un determinado sector.

 

Esto nos lleva a conformar todas las posibles combinaciones o contingencias a las cuales

llamaremos Tabla de Contingencias.

 

De manera que una prueba de independencia utiliza como formato de trabajo una tabla de

contingencias.

 

Por esta razón este tipo de prueba recibe el nombre de Pruebas de Tabla de Contingencias o

prueba con tabla de contingencias.

 

El formato de la tabla se muestra a continuación:

 

  Detergente A Detergente B Detergente C Total

 

 

Sexo

Alto O11 O12 O13 O.1

Medio O21 O22 O23 O.2

Bajo O31 O32 O33 O.3

 

Total

 

O1.

 

O2.

 

O3.

 

 N

Supongamos que se tomó una muestra de 120 consumidores. Después de usar los tres tipos

de detergentes, se les pide manifestar su preferencia. Los resultados de la muestra se

presentan en la siguiente tabla:

 

  Producto  

  Detergente A Detergente B Detergente C Total

  Alto 14 12 10 36

Page 3: Ejemplos de Datos Categoricos

 

Sexo

Medio 21 16 8 45

Bajo 15 12 12 39

 

Total

 

50

 

40

 

30

 

n= 120

5. Análisis de datos categóricos (9)Si pudiéramos obtener las frecuencias esperadas bajo la hipótesis de independencia entre la

preferencia de los detergentes y el sector del consumidor, podríamos usar la distribución Chi –

Cuadrado para determinar si existe una diferencia significativa entre las frecuencias

observadas y esperadas, como lo vimos en bondad de ajuste.

 

Para encontrar las frecuencias esperadas haremos uso del siguiente razonamiento:

 

Si es cierto que la preferencia de los detergentes y el consumo por sector son independientes

entonces la proporción de consumo por detergente debe se igual entre los tres sectores.

 

Por ello, bajo la hipótesis de independencia, esperaríamos que el total de los consumidores por

sector estarían afectados por esta proporción.

 

En otras palabras, la proporción de consumo por detergente es 50/120, 40/120 y  30/120.

 

Luego el número esperado de consumidores por sector será 36(50/120), 45(40/120) y

39(30/120).

 

Todo esto se muestra en la siguiente tabla:

 

Page 4: Ejemplos de Datos Categoricos

  Producto  

  Detergente A Detergente B Detergente C Total

 

 

Sexo

Alto 15 12 9 36

Medio 18.75 15 11.25 45

Bajo 16.25 13 9.75 39

 

Total

 

50

 

40

 

30

 

n= 120

 

 

En consecuencia, hemos usado la siguiente fórmula

 

            

 

Lo que falta ahora es repetir lo que hicimos en Bondad de Ajuste por Chi – Cuadrado. Es decir

obtener la suma de los cuadrados de las diferencias entre las frecuencias observadas y

esperadas, dividido por las frecuencias esperadas. Sólo que en este caso, la suma es con

doble sumatoria, como aquí se indica,

 

                  tal que       

 

donde k es el número de categorías(filas) y m es el número de contingencias (columnas)

existentes en la muestra.

Page 5: Ejemplos de Datos Categoricos

 

El siguiente cuadro nos muestra la suma de los cuadrados mencionados líneas arriba.

 

  Producto  

  Detergente A Detergente B Detergente C Total

  Alto 0.067 0.000 0.111 36

  Medio 0.270 0.067 0.939 45

Sexo Bajo 0.096 0.077 0.519 39

  Total 50 40 30 120

 

Luego     = 2.146.

 

 Usando Minitab encontramos el valor de   (4) = 9.4877

 

Puesto que     <   (4)

 

Entonces, podemos afirmar que existe evidencia para sospechar que la preferencia por los

detergentes es independiente del sector al que pertenece el consumidor.