Analisis de Datos Categoricos-chi2-Practica7

14
Práctica 7. Análisis de Datos Categóricos 1 Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València Práctica 7 ANÁLISIS DE DATOS CATEGÓRICOS Objetivos: En esta práctica utilizaremos el paquete SPSS para realizar diferentes tipos de análisis de datos categóricos. En concreto, consideraremos la estimación de proporciones de categorías, la comparación de frecuencias de categorías con frecuencias esperadas según una hipótesis previa y la independencia / homogeneidad en un contexto de tablas de contingencia. Índice: 1. Estudio de una proporción 2. Bondad de ajuste 3. Tablas de contingencia 4. Ejercicios ______________________________________________________________________

description

analisis de datos categoricos-chi2-practica7

Transcript of Analisis de Datos Categoricos-chi2-Practica7

Page 1: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 1

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 7

ANÁLISIS DE DATOS CATEGÓRICOS

Objetivos:

En esta práctica utilizaremos el paquete SPSS para realizar diferentes tipos de análisisde datos categóricos. En concreto, consideraremos la estimación de proporciones decategorías, la comparación de frecuencias de categorías con frecuencias esperadas segúnuna hipótesis previa y la independencia / homogeneidad en un contexto de tablas decontingencia.

Índice:

1. Estudio de una proporción2. Bondad de ajuste3. Tablas de contingencia4. Ejercicios

______________________________________________________________________

Page 2: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 2

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

1. Estudio de una proporción.

Para estudiar una proporción (porcentaje de individuos que cumplen determinadacaracterística de interés), podemos utilizar el hecho de que toda proporción es la mediade una variable dicotómica: sólo hemos de codificar esa variable como 1 cuando secumple la característica que deseamos estudiar y como 0, en otro caso.

Así, al pedirle a SPSS Analizar / Estadísticos Descriptivos / Explorar... obtendremosun estimador puntual de la proporción que vendrá dado por la media de la variable.También obtendremos una estimación por intervalos, con el nivel de confianza quedeseemos (Estadísticos), mediante el intervalo sobre la media que proporcionaExplorar...

Ejercicio 1

Abre el banco de datos Ambiente, en él vamos a estudiar la proporción observacionescon nivel elevado de ozono. La variable ozono ya está codificada como 1 en lacaracterística que nos interesa (nivel elevado) y como 0, en otro caso, por lo que yapodemos analizarla directamente. Utilizando Analizar / Estadísticos Descriptivos /Explorar..., trabaja con ozono como variable dependiente, pide sólo los estadísticospues no necesitamos ningún gráfico de esta variable, y pide un intervalo de confianzadel 90%.

Comprobamos que el estimador puntual es p = 0.52, y el intervalo de confianza al 90%es (0.47, 0.57).

Ejercicio 2

Estudia el porcentaje de observaciones con concentración baja de sulfato (mayor que 0y menor o igual que 3).

Para ello, tendrás que definir una nueva variable que valga 1 si la concentración es bajay 0, en otro caso (Transformar / Recodificar / En distintas variables). Obtén laestimación puntual de ese porcentaje, y los intervalos de confianza al 90%, al 95% y al99%.

Si queremos resolver un contraste de hipótesis sobre una proporción, lo podemos hacerpidiendo Analizar / Pruebas no paramétricas / Binomial....

Ejercicio 3

En el banco de datos Ambiente vamos a estudiar si la proporción de niveles altos deozono es distinta de 0.45 o, equivalentemente, si la de nivel normal es distinta de 0.55.

Para ello, trabaja con Analizar / Pruebas no paramétricas / Binomial..., utiliza ozonoen Contrastar variables, y escribe 0.55 en Contrastar proporción (debemos poneraquí la proporción de la categoría del primer dato, en este caso normal que estácodificado con 0. Alternativamente, puedes escribir 0 en Punto de corte).

Page 3: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 3

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

El resultado, mostrado aquí abajo, da un p-valor unilateral de 0.009, donde la hipótesisnula es π = 0.55 y la alternativa es π < 0.55.

Prueba binomial

Normal 144 .48 .55 .009a,b

Alto 156 .52

300 1.00

Grupo 1

Grupo 2

Total

OZONOCategoría N

Proporciónobservada

Prop. deprueba

Sig. asintót.(unilateral)

La hipótesis alternativa establece que la proporción de casos del primer gruposea < .55.

a.

Basado en la aproximación Z.b.

Recuerda la diferencia entre los p-valores de los contrastes bilaterales y unilaterales: elp-valor del contraste bilateral es el doble del p-valor del contraste unilateral. Así, el p-valor asociado a la hipótesis nula π = 0.55 y a la alternativa π ≠ 0.55, vale en este caso0.018. Como el resultado del p-valor unilateral que da SPSS es una aproximaciónexisten ocasiones extremas en las que da un valor mayor de 0.5, lo cual no tiene sentidopues supondría un p-valor bilateral mayor que 1.

SPSS decide automáticamente entre una hipótesis bilateral (cuando π = 0.5) o unilateral(en cualquier otro caso). Así pues, es nuestra labor construir el p-valor que nos interesea partir del proporcionado por SPSS.

Con mucha frecuencia, en los estudios sobre una proporción, los datos no han sidointroducidos directamente en el ordenador sino que han sido resumidos en una tabla defrecuencias. En esos casos, podemos introducir directamente los datos y sus frecuenciasen SPSS y, después, construir los intervalos de confianza y los contrastes de hipótesis,como se ha indicado anteriormente.

Para ello, hay que introducir dos columnas: una con los dos valores posibles de lavariable dicotómica y, la otra, con el número de individuos en cada categoría. Luegoseleccionaremos Ponderar casos... en el menú Datos, y elegiremos como Variable defrecuencia la columna que recoge el número de individuos en cada categoría.

Ejercicio 4:

Visitando los colegios de cierta ciudad, se ha obtenido una muestra aleatoria de tamaño200 de niños de 8 años de edad de esa ciudad. En ella se ha observado que 56 niñospresentaban caries. Se desea estudiar el porcentaje de caries en esa población.

Para ello:1. Introduciremos estos datos en SPSS.2. Calcularemos un intervalo de confianza al 90% sobre dicho porcentaje.3. Contrastaremos la hipótesis nula ‘El porcentaje de caries es igual al 35%’.

Page 4: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 4

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Para introducir esos datos (con el editor de datos SPSS) hay que crear una variable queindique la presencia o ausencia de caries. Se le puede llamar, por ejemplo, caries ycodificarla como 1 si presencia y 0, como ausencia. Una segunda variable, a la que se lepuede llamar niños, debe recoger la frecuencia absoluta de cada uno de los valores dela variable caries. Así pues, una vez introducidos los datos, el editor de datosmostrará:

A continuación hay que ponderar los datos por la variable niños:

Ahora ya podemos Analizar / Estadísticos Descriptivos / Explorar... la variablecaries para obtener el intervalo de confianza sobre el porcentaje de niños con caries(la categoría de la variable caries codificada con 1). Debemos cambiar el contenidodel intervalo, desde el botón Estadísticos..., pues el calculado por defecto es del 95%.

El resultado obtenido es:Descriptivos

,28 3,18E-02,23

,33

,26,00

,203,45

011

1,00,987 ,172

-1,036 ,342

MediaLímite inferiorLímite superior

Intervalo de confianzapara la media al 90%

Media recortada al 5%MedianaVarianzaDesv. típ.MínimoMáximoRangoAmplitud intercuartilAsimetríaCurtosis

CARIESEstadístico Error típ.

Page 5: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 5

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Así pues, el intervalo de confianza al 90% sobre la presencia de caries en esa poblaciónresulta ser (0.23, 0.33), es decir, entre un 23% y un 33%.

El contraste de hipótesis se obtiene pidiendo Analizar / Pruebas no paramétricas /Binomial... y contrastando la proporción 0.35 (recordad que la proporción a contrastares la asociada a la categoría del primer dato, en este caso presencia de caries.Alternativamente, puedes trabajar con la categoría ausencia de caries, contrastando laproporción 0.65 y escribiendo 0 en Punto de corte). El resultado obtenido es:

Prueba binomial

Presenciade caries 56 ,28 ,35 ,023

a,b

Ausenciade caries

144 ,72

200 1,00

Grupo 1

Grupo 2

Total

CARIESCategoría N

Proporciónobservada

Prop. deprueba

Sig. asintót.(unilateral)

La hipótesis alternativa establece que la proporción de casos del primer grupo sea< ,35.

a.

Basado en la aproximación Z.b.

Lo que permite rechazar la hipótesis nula para cualquier nivel de significatividadsuperior o igual a 0.023, en particular el habitual 0.05.

Al haber pedido un intervalo de confianza al 90%, no haría falta pedir contrastes dehipótesis bilaterales con un nivel de significatividad de 0.1, pues ambas cosas sonequivalentes. Con cualquier valor en la hipótesis nula no incluido en el intervalo deconfianza, se rechazaría la hipótesis nula; por el contrario, esta hipótesis no serechazaría si su valor estuviera incluido en el intervalo de confianza. Sin embargo, larelación entre intervalos de confianza y contrastes de hipótesis no es tan sencilla si lahipótesis alternativa es unilateral.

2. Bondad de ajuste.

Para analizar una muestra de una variable categórica, evaluando una hipótesis previasobre la probabilidad de cada categoría, realizamos un contraste de hipótesis Chi-cuadrado de bondad de ajuste.

El estadístico Chi-cuadrado:

donde O representa las frecuencias observadas y E las frecuencias esperadas en cadacategoría, permite comparar las frecuencias observadas con las esperadas.

Bajo la hipótesis nula, el estadístico resultante sigue aproximadamente una distribuciónChi-cuadrado. Los grados de libertad de esta distribución son el número de categorías

( )∑

−=χ

E

EO2

2

Page 6: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 6

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

menos uno. Esta aproximación es adecuada si ninguna de las frecuencias esperadas esdemasiado pequeña.

Este procedimiento es especialmente útil cuando se quiere contrastar si un conjunto defrecuencias observadas es compatible con la hipótesis nula. Un valor del estadísticoChi-cuadrado grande indica que las distribuciones de las frecuencias observadas yesperadas son bastante diferentes, mientras que un valor pequeño del estadístico indicaque hay poca diferencia entre ellas.

Utilizando por ejemplo el banco de datos Ambiente, al seleccionar Analizar / Pruebasno paramétricas / Chi-cuadrado... entramos en la siguiente ventana de SPSS:

Este procedimiento tabula una variable en categorías, calcula un estadístico chi-cuadrado y compara las frecuencias observadas y esperadas en cada categoría paracontrastar si todas las categorías contienen la misma proporción de valores (opción pordefecto) o si, alternativamente, cada categoría contiene una proporción de valoresespecificada por el usuario.

Contrastar variables. La variable de contraste debe ser una variable categóricanumérica. Para convertir las variables alfanuméricas en variables numéricas, hay queutilizar el procedimiento Recodificar / En distintas variables..., disponible en el menúTransformar, o bien, dependiendo de la situación, el procedimiento Recodificaciónautomática... también disponible en el menú Transformar.

Rango esperado. Por defecto, cada valor distinto de la variable se define como unacategoría. Para establecer categorías dentro de un rango específico, seleccionar Usarrango especificado e introducir valores enteros para los límites inferior y superior. Seestablecerán categorías para cada valor entero dentro del rango inclusivo y los casos convalores fuera de los límites se excluirán. Por ejemplo, si se especifica 1 como límiteinferior y 4 como límite superior, únicamente se utilizarán los valores enteros entre 1 y4, ambos inclusive, para la prueba de chi-cuadrado. Así, las observaciones 4 ó 4.32 se

Page 7: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 7

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

considerarán dentro de la categoría 4 mientras que las observaciones 5 ó 5.27 no seutilizarán.

Valores esperados. Por defecto, todas las categorías tienen proporciones esperadasiguales. El usuario puede, alternativamente, especificar otras proporciones esperadaspara las categorías. Para ello, hay que seleccionar Valores, introducir un valor enteromayor que 0 para cada categoría de la variable de contraste y pulsar Añadir. Cada vezque se agregue un valor, éste aparecerá al final de la lista de valores. El orden de losvalores es importante; corresponde al orden ascendente de los valores de categoría de lavariable de contraste. El primer valor de la lista corresponde al valor de grupo mínimode la variable de contraste y el último valor corresponde al valor máximo. Loselementos de la lista de valores se suman y, a continuación, cada valor se divide por estasuma para calcular la proporción de casos esperados en la categoría correspondiente.Por ejemplo, una lista de valores de 3, 4, 5, 4 especifica unas proporciones esperadas de3/16, 4/16, 5/16 y 4/16.

La aproximación realizada por SPSS es adecuada si las frecuencias esperadas para cadacategoría (proporción esperada x tamaño de la muestra) valen 1 como mínimo y no másde un 20% de las categorías tienen frecuencias esperadas menores que 5.

Ejercicio 5:

La concentración de sulfato puede clasificarse en cuatro categorías: baja (0,3], media(3,6], alta (6,9] y muy alta (>9). ¿Son compatibles los datos del fichero Ambiente conla hipótesis de que las probabilidades de obtener concentraciones bajas, medias, altas ymuy altas de sulfato son 0.4, 0.3, 0.2 y 0.1, respectivamente?

Para ello, tendrás que definir una nueva variable cod_sulf que codifique los valoresde sulfato en las cuatro categorías (0 = baja, 1 = media, 2 = alta, 3 = muy alta).Aplica la prueba chi-cuadrado con valores esperados 4, 3, 2 y 1.

El resultado, aquí mostrado, indica un p-valor de 0.153 por lo que existe compatibilidad.

COD_SULF

137 120.0 17.0

89 90.0 -1.0

49 60.0 -11.0

25 30.0 -5.0

300

.00

1.00

2.00

3.00

Total

N observado N esperado Residual

Estadísticos de contraste

5.269

3

.153

Chi-cuadradoa

gl

Sig. asintót.

COD_SULF

0 casillas (.0%) tienen frecuenciasesperadas menores que 5. La frecuenciade casilla esperada mínima es 30.0.

a.

Page 8: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 8

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

3. Tablas de contingencia.

Para estudiar la asociación de variables o comparar proporciones en dos o máspoblaciones debemos utilizar un test Chi-cuadrado. Para ello debemos pedir Analizar /Estadísticos Descriptivos / Tablas de contingencia....

Ejercicio 6:

Utilizando los datos del fichero Ambiente, queremos saber si hay evidencia suficientepara afirmar que las categorías de concentraciones de sulfato se distribuyen de maneradiferente en las tres provincias.

Para ello, colocamos la variable cod_sulf en filas y la variable provin encolumnas; marcamos Chi-cuadrado en el botón Estadísticos y Observadas yEsperadas en el botón Casillas. Si quisiéramos conocer los porcentajes por filas y/opor columnas, marcaríamos Fila y/o Columna en el botón Casillas.

En este procedimiento, para definir las categorías de cada variable, podemos utilizartanto valores de una variable numérica que representen categorías como valores de unavariable de cadena corta (ocho caracteres o menos). Por ejemplo, en una hipotéticavariable género, podríamos codificar los datos como 1 y 2 o como varón y mujer.

A continuación podemos ver la pantalla del procedimiento Chi-cuadrado, la tabla decontingencia asociada a los datos con los porcentajes por filas y por columnas, y la tablacon los resultados: un estadístico chi-cuadrado = 1.977, 6 grados de libertad y un p-valor = 0.922.

Page 9: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 9

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Tabla de contingencia COD_SULF * Provincia

48 45 44 137

45,7 45,7 45,7 137,0

35,0% 32,8% 32,1% 100,0%

48,0% 45,0% 44,0% 45,7%

26 31 32 89

29,7 29,7 29,7 89,0

29,2% 34,8% 36,0% 100,0%

26,0% 31,0% 32,0% 29,7%

18 14 17 49

16,3 16,3 16,3 49,0

36,7% 28,6% 34,7% 100,0%

18,0% 14,0% 17,0% 16,3%

8 10 7 25

8,3 8,3 8,3 25,0

32,0% 40,0% 28,0% 100,0%

8,0% 10,0% 7,0% 8,3%

100 100 100 300

100,0 100,0 100,0 300,0

33,3% 33,3% 33,3% 100,0%

100,0% 100,0% 100,0% 100,0%

Recuento

Frecuencia esperada

% de COD_SULF

% de Provincia

Recuento

Frecuencia esperada

% de COD_SULF

% de Provincia

Recuento

Frecuencia esperada

% de COD_SULF

% de Provincia

Recuento

Frecuencia esperada

% de COD_SULF

% de Provincia

Recuento

Frecuencia esperada

% de COD_SULF

% de Provincia

,00

1,00

2,00

3,00

COD_SULF

Total

ALICANTE CASTELLON VALENCIA

Provincia

Total

Pruebas de chi-cuadrado

1.977a 6 .922

1.994 6 .920

.005 1 .942

300

Chi-cuadrado de Pearson

Razón de verosimilitud

Asociación lineal porlineal

N de casos válidos

Valor glSig. asintótica

(bilateral)

0 casillas (.0%) tienen una frecuencia esperada inferior a 5.La frecuencia mínima esperada es 8.33.

a.

Ejercicio 7:

Utilizando el banco de datos Ambiente, queremos comparar el porcentaje deobservaciones con valores de ph inferiores o iguales a 6, en las tres provincias.

Para ello, debemos crear primero una variable dicotómica, ph_6, recodificando lavariable ph; esta nueva variable sólo tomará dos valores distintos, según sea el valor deph inferior o igual (ph_6 = 0) o superior a 6 (ph_6 = 1).

Posteriormente hay que pedir Tablas de Contingencia... y colocar las variables ph_6 yprovin como filas y columnas de la tabla.

Page 10: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 10

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Los resultados nos muestran la tabla de contingencia asociada a los datos conporcentajes por filas

Tabla de contingencia PH_6 * Provincia

60 51 62 173

57.7 57.7 57.7 173.0

34.7% 29.5% 35.8% 100.0%40 49 38 127

42.3 42.3 42.3 127.0

31.5% 38.6% 29.9% 100.0%100 100 100 300

100.0 100.0 100.0 300.0

33.3% 33.3% 33.3% 100.0%

Recuento

Frecuencia esperada

% de PH_6

RecuentoFrecuencia esperada

% de PH_6

RecuentoFrecuencia esperada

% de PH_6

.00

1.00

PH_6

Total

ALICANTE CASTELLON VALENCIA

Provincia

Total

y la tabla adjunta, a la que le corresponde un estadístico Chi-cuadrado = 2.813, con 2grados de libertad, y un p-valor = 0.245.

Pruebas de chi-cuadrado

2.813a 2 .245

2.802 2 .246

.082 1 .775

300

Chi-cuadrado de Pearson

Razón de verosimilitud

Asociación lineal porlineal

N de casos válidos

Valor glSig. asintótica

(bilateral)

0 casillas (.0%) tienen una frecuencia esperada inferior a 5.La frecuencia mínima esperada es 42.33.

a.

Las tablas de contingencia también pueden introducirse directamente desde el teclado,utilizando el comando ponderar de forma similar a como se hizo en un apartadoanterior. Veámoslo con un ejemplo:

Ejercicio 8:

En un estudio sobre úlceras pépticas se determinó el grupo sanguíneo de 1655 pacientesulcerosos y 10000 controles, los datos se muestran en la tabla adjunta.

¿Existe alguna relación entre el grupo sanguíneo y la úlcera péptica?O A B AB

pacientes 911 579 124 41controles 4578 4219 890 313

Tras introducir los datos, como muestra la figura adjunta,

Page 11: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 11

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

y ponderar los casos por la variable frec, pediremos Tablas de Contingencia... ycolocaremos las variables grupo y tipo como filas y columnas de la tabla. Losresultados son:

Tabla de contingencia GRUPO * TIPO

4578 911 5489

4709,6 779,4 5489,04219 579 4798

4116,7 681,3 4798,0890 124 1014

870,0 144,0 1014,0313 41 354

303,7 50,3 354,010000 1655 11655

10000,0 1655,0 11655,0

RecuentoFrecuencia esperada

RecuentoFrecuencia esperada

RecuentoFrecuencia esperada

RecuentoFrecuencia esperada

RecuentoFrecuencia esperada

O

A

B

AB

GRUPO

Total

Control Paciente

TIPO

Total

Se obtiene un valor del estadístico Chi-cuadrado de 49.016 que, con 3 grados delibertad, proporciona un p-valor inferior a 0.001:

Page 12: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 12

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Por lo tanto, existe una relación estadísticamente significativa entre los grupossanguíneos y la presencia de úlcera péptica.

4. Ejercicios complentarios.

1. En la década de los ochenta se observó que el 25% de los tumores malignos de intestinodelgado eran linfomas primarios. Durante el último año se han observado 80 tumoresmalignos de intestino delgado, de los cuales 32 han sido linfomas primarios. ¿Hayevidencia suficiente para asegurar que el porcentaje de linfomas ha variado en losúltimos años?

2. Al último examen de Bioestadística se presentaron 118 estudiantes, de los queaprobaron 89. ¿Son estos datos compatibles con una tasa de suspensos del 10%? ¿Y del20%? ¿Y del 30%? ¿Y del 40%?

3. Con los datos del banco Glucosa contrastar si el porcentaje de mujeres con valores deg1des inferiores a 80 mg/dl depende de si el valor de g1antes era inferior o superiora 80 mg/dl. Obtener la tabla de contingencia, el estadístico Chi-cuadrado y el p-valorasociado.

4. Con los datos del banco Dedos contrastar si el sexo influye en el hecho de ser diestros(no utilizar los ambidextros), o se trata de dos variables independientes. Obtener la tablade contingencia, el estadístico Chi-cuadrado y el p-valor asociado.

5. En un ensayo biológico se buscaba comprobar la eficacia de un tratamiento combinadode Vicamina y Piracetam que, al actuar sobre el metabolismo de la neurona, interfierenfavorablemente en el tratamiento de distintos procesos psicoorgánicos. Se dividió alazar en dos grupos a 40 pacientes, administrando el tratamiento a uno de ellos y placeboal otro, obteniéndose:

ResultadoMuy bueno Bueno Regular Malo

Tratamiento 3 8 4 5Placebo 0 1 5 14

¿Existe suficiente evidencia estadística a favor de la eficacia del tratamiento?

6. Mitchell et al. (1976, Annals of Human Biology) estudiaron la distribución de los grupossanguíneos en varias regiones de Sur-Oeste de Escocia, obteniendo los resultados que se

Page 13: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 13

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

muestran en la tabla adjunta. ¿Se distribuyen los grupos sanguíneos de igual manera enlas diferentes regiones?

Eskdale Annandale NithsdaleA 33 54 98 185B 6 14 35 550 56 52 115 223AB 5 5 5 15

100 125 253 478

7. En un estudio sobre el cruce de variedades de cebada, se observaron dos características:Presentar 2 filas de granos (a) o no (A, dominante), y tener color verde (B, dominante) oser planta clorótica (b). La combinación de estas características nos da cuatroposibilidades: verdes sin dos filas de granos, verdes con dos filas, cloróticas sin dos filasy cloróticas con dos filas. Se recogieron datos de cruces entre heterozigóticos (AaBb),resultando:

Verde sin 2 filas Verde con 2 filas Clorótica sin 2 filas Clorótica con 2 filas1178 291 273 156

¿Se cumple la segregación normal dihíbrida con dominación completa:

(AaBb x AaBb -> 9 A-B-; 3 aaB-; 3 A-bb; 1 aabb)?

8. Un programa de detección y seguimiento de la hipertensión (HDFP) realizado en 1979,informó que cuatro años después del comienzo del programa, el 62% de los pacientesparticipantes en un tratamiento de seguimiento por etapas, tenía niveles de presióndiastólica en el nivel deseado de los objetivos del tratamiento. En un hospital se haanalizado a 20 pacientes hipertensos propios, a los que se les ha seguido durante 4 años.Sólo 7, el 35% de ellos, están en el nivel deseado. Los responsables del hospital sepreguntan si los resultados obtenidos por ellos se pueden considerar diferentes a los delprograma HDFP, asumiendo que el tipo de pacientes es similar y que el tratamiento estan efectivo como el HDFP. ¿Qué puedes concluir en base a los datos?

9. Como continuación del estudio enunciado en el problema anterior, el conocimiento deque la terapia para la hipertensión que está empleando el hospital no es tan buena comopodría ser, los responsables continúan las investigaciones para determinar si susresultados son diferentes de los del hospital vecino. En esta ocasión se han revisado untotal de 40 pacientes con su método y 30 del hospital vecino. En total, 18 de suspacientes están en las medidas deseadas, mientras que 20 de los del otro hospital estánen ese mismo objetivo. Extrae tus propias conclusiones.

10. En algunas áreas metropolitanas de los Estados Unidos se han detectado altasconcentraciones de ozono. Para detectar si estos niveles de ozono eran superiores en laszonas urbanas que en las rurales, se midieron dichas concentraciones de ozono en 30grandes ciudades y en 50 puntos en zonas rurales seleccionados aleatoriamente por todoel país. La concentración de ozono se clasificó como dentro del nivel normal, en unnivel alto o alcanzando un nivel peligroso, Tan solo 5 ciudades tenían un nivel normalde ozono mientras que había un nivel alto en 18 de ellas y se llegaba a nivelespeligrosos en las otras 7. En cuanto a las zonas rurales, se observaron 9 puntos en losque el nivel era peligroso y 19 con nivel alto. ¿Se puede concluir del estudio que hay

Page 14: Analisis de Datos Categoricos-chi2-Practica7

Práctica 7. Análisis de Datos Categóricos 14

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

variaciones en la concentración de ozono de las zonas urbanas en comparación con lasrurales?

11. Hasta casi el final del siglo XIX, la mortalidad asociada con las operacionesquirúrgicas era extremadamente alta. El mayor problema eran las infecciones. La teoríade les gérmenes como causantes de la transmisión de las enfermedades era todavíadesconocida, por lo que no existía el concepto de esterilización. Como resultado,muchos pacientes morían por complicaciones postoperatorias. La solución llegófinalmente cuando Joseph Lister comenzó a leer parte del trabajo realizado por LouisPasteur. En una serie de experimentos clásicos, Pasteur había demostrado que lasbacterias jugaban un papel importantísimo en la fermentación. Lo que Lister conjeturóera que las infecciones humanas podían tener un origen similar. Para comprobar suteoría, comenzó a usar ácido carbólico como desinfectante en la sala de operaciones.Aunque los resultados eran fabulosos, sus recomendaciones tardaron casi 10 años enponerse en práctica.El objetivo era comprobar si la supervivencia asociada a las amputaciones eraindependiente de la utilización o no del desinfectante durante la operación. Durante unlargo período de años, antes y después de conjeturar su teoría, Lister realizó 75amputaciones: 40 de ellas se hicieron con ácido carbólico y 35 no. La tasa de mortalidadpara el primer grupo era del 15%, comparado con el 46% para el segundo grupo.Extraer las conclusiones oportunas.

Con desinfectante Sin desinfectantePaciente NO vivía 6 16 22Paciente SI vivía 34 19 43

40 35 75