Estadistica con Mitab.pdf

307
CAPÍTULO 1 INTRODUCCIÓN En este capítulo, primero se introducirán algunos conceptos estadísticos básicos, luego se dará una definición y división de la estadística. Finalmente se hará una clasificación de los distintos tipos de datos que aparecen en un estudio estadístico y de que forma pueden ser recolectados. 1.1 Conceptos Estadísticos Básicos a) Población: De una manera bastante general, una población es un conjunto de individuos u objetos que poseen la característica que se desea estudiar. En un sentido más estadístico, una población es el conjunto de mediciones de una cierta característica en todos los individuos u objetos que poseen dicha característica. Ejemplos: Las edades de todos los estudiantes de una universidad. Las contestaciones, SI o No, de todos los estudiantes de universidad a la pregunta: Fuma? Los niveles de colesterol de todas las personas con problemas cardiacos. b) Muestra: Es una parte de la población, y es el conjunto de mediciones que han sido realmente recolectados. La extracción de la muestra es un paso bien importante porque es a partir de ella que se sacan conclusiones acerca de la población. El tamaño de una muestra depende del esquema que se usa para su selección. Si el diseño es sencillo la muestra tiene que ser relativamente grande, alrededor de un 10% del tamaño de la población. Si el diseño es bien sofisticado el tamaño de la muestra puede ser bien pequeño y aún dar conclusiones confiables. Por ejemplo, en las encuestas políticas de un pais donde hay millones de electores una muestra de tamaño entre 1,000 y 2,000 puede dar excelentes conclusiones. c) Muestra Aleatoria: Es una muestra bien representativa de la población. Se considera que cada elemento de la población ha tenido la misma oportunidad de formar parte de la muestra. Las conclusiones basadas en una muestra aleatoria son confiables. Ejemplo: Si se hace una encuesta de carácter político a nivel nacional, NO sería una muestra aleatoria si solo se entrevistan personas en los pueblos donde histórícamente cierto partido es siempre ganador. d) Variable: Es la característica que se desea estudiar. Ejemplos: edad, peso, opinión, raza, tipo de sangre. e) Dato: Es un valor particular de la variable. Por ejemplo si la variable es el número de hermanos entonces los datos pueden ser : 0, 1, 2,3,4,5,6,7,..... f) Parámetro: Es un valor que caracteriza a una población. El valor del parámetro es constante y por lo general es desconocido. Ejemplos: La edad promedio de todos los estudiantes de una universidad. El nivel de colesterol promedio de todos los pacientes con problemas cardiacos.

Transcript of Estadistica con Mitab.pdf

Page 1: Estadistica con Mitab.pdf

CAPÍTULO 1

INTRODUCCIÓN

En este capítulo, primero se introducirán algunos conceptos estadísticos básicos, luego se dará una definición y división de la estadística. Finalmente se hará una clasificación de los distintos tipos de datos que aparecen en un estudio estadístico y de que forma pueden ser recolectados.

1.1 Conceptos Estadísticos Básicos

a) Población: De una manera bastante general, una población es un conjunto de individuos u objetos que poseen la característica que se desea estudiar. En un sentido más estadístico, una población es el conjunto de mediciones de una cierta característica en todos los individuos u objetos que poseen dicha característica. Ejemplos: Las edades de todos los estudiantes de una universidad.Las contestaciones, SI o No, de todos los estudiantes de universidad a la pregunta: Fuma?Los niveles de colesterol de todas las personas con problemas cardiacos.

b) Muestra: Es una parte de la población, y es el conjunto de mediciones que han sido realmente recolectados. La extracción de la muestra es un paso bien importante porque es a partir de ella que se sacan conclusiones acerca de la población. El tamaño de una muestra depende del esquema que se usa para su selección. Si el diseño es sencillo la muestra tiene que ser relativamente grande, alrededor de un 10% del tamaño de la población. Si el diseño es bien sofisticado el tamaño de la muestra puede ser bien pequeño y aún dar conclusiones confiables. Por ejemplo, en las encuestas políticas de un pais donde hay millones de electores una muestra de tamaño entre 1,000 y 2,000 puede dar excelentes conclusiones.

c) Muestra Aleatoria: Es una muestra bien representativa de la población. Se considera que cada elemento de la población ha tenido la misma oportunidad de formar parte de la muestra. Las conclusiones basadas en una muestra aleatoria son confiables.Ejemplo: Si se hace una encuesta de carácter político a nivel nacional, NO sería una muestra aleatoria si solo se entrevistan personas en los pueblos donde histórícamente cierto partido es siempre ganador.

d) Variable: Es la característica que se desea estudiar. Ejemplos: edad, peso, opinión, raza, tipo de sangre.

e) Dato: Es un valor particular de la variable. Por ejemplo si la variable es el número de hermanos entonces los datos pueden ser : 0, 1, 2,3,4,5,6,7,.....

f) Parámetro: Es un valor que caracteriza a una población. El valor del parámetro es constante y por lo general es desconocido. Ejemplos:La edad promedio de todos los estudiantes de una universidad. El nivel de colesterol promedio de todos los pacientes con problemas cardiacos.

Page 2: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 1 Introducción

El porcentaje de todos los electores de un país que favorecen a cierto candidato.

g) Estadístico: Es un valor que se calcula en base a los datos que se toman en la muestra y el cual es usado para estimar el valor del parámetro. El valor del estadístico es conocido y varía con la muestra tomada. Ejemplos: La edad promedio de una muestra de 30 estudiantes de una universidad.El nivel de colesterol promedio de los pacientes con problemas cardiacos que estan hospitalizados.El porcentaje de votantes que favorecen a cierto candidato en una muestra de tamaño 200.

h) Censo: Es un listado de una o más características de todos los elementos de una población. Los censos poblacionales se hacen cada 10 años a nivel mundial, el próximo será en el año 2010.Hay también otros tipos de censos como: censos de vivienda donde se trata de determinar la cantidad y el tipo de vivienda que hay en un país. Censos agrícolas donde se trata de determinar las cantidades totales de la producción agrícola del país, incluyendo cultivos y animales.

i) Encuesta: Es un listado de una o más características de todos los elementos de una muestra.Un ejemplo son las encuestas de investigación de mercados donde se desea establecer las preferencias del consumidor con respecto a cierto tipo de producto comercial.

1.2 Definición de la Estadística.

La Estadística es la ciencia donde se aprende acerca de la población a partir de la información recolectada de una muestra extraída de ella. La Estadística comprende los métodos usados para recolectar la muestra, la organización y presentación de los datos recolectados y la extracción de conclusiones mediante la aplicación de técnicas adecuadas a los datos de la muestra.

Las diversas técnicas usadas para extraer la muestra constituyen el Muestreo Estadístico. Por otro lado, al extraer conclusiones acerca de la población es inevitable que se cometa un error, el cual es medido usando probabilidades. La figura 1.1 muestra un esquema del análisis estadístico.

1.3 División de la Estadística

Estadistica Descriptiva: Conjunto de técnicas y métodos que son usados para recolectar, organizar, y presentar en forma de tablas y gráficas información numérica. También se incluyen aquí el cálculo de medidas estadísticas de centralidad y de variabilidad.

2

PoblaciónParámetro

MuestreoEstadístico

Page 3: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 1 Introducción

Fig 1.1. Gráfica del Análisis Estadístico

Estadistica Inferencial: Conjunto de técnicas y métodos que son usados para sacar conclusiones generales acerca de una población usando datos de una muestra tomada de ella.

1.4 Tipos de Datos

Es importante clasificar los datos estadísticos porque hay algunas gráficas y métodos estadísticos que son solamente adecuados para cierto tipo de datos. La siguiente es la clasificación de datos más frecuentemente usada. A. Datos Cuantitativos. Son aquellos que resultan de hacer mediciones o conteos. Se

clasifican a su vez en dos subtipos:

A1. Datos Discretos. Son los que resultan de hacer conteos y por lo general son números enteros. Ejemplos: Número de llamadas que llegan a un cuadro telefónico en un período de 10 minutos.Número de personas que habitan una casa. Número de accidentes que ocurren semanalmente en una fábrica.

A2. Datos Continuos. Son los que resultan de hacer mediciones y pueden asumir cualquier valor de la recta real. Ejemplos: tiempo de espera para ser atendido en un banco. Temperatura, peso, altura, salario, etc.

B. Datos Cualitativos o Categóricos. Son aquellos que expresan atributos o categorías. Para facilitar el análisis estadístico de este tipo de datos frecuentemente se codifican a números, esta codificación da lugar a dos subtipos de datos categóricos:

B1. Datos Nominales. Son aquellos que pueden ser codificados numéricamente pero donde hay una relación arbitraria entre los números asignados y el valor de la variable.Ejemplo: Sexo, se puede asignar indistintamente la codificación 0 ó 1 a femenino y masculino. O inclusive usar otros números.Otros ejemplos son: Raza de la persona, Programa de estudio, Tipo de Sangre.

B2. Datos Ordinales. Son aquellos que al ser codificados numéricamente deben guardar una correspondencia entre los números asignados y el verdadero valor de la variable.

3

MuestraEstadístico

Estadística Inferencial

Estadística Descriptiva

Probabilidad

Page 4: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 1 Introducción

Ejemplo. La respuesta a una pregunta de un cuestionario de evaluación puede ser: Deficiente, regular, promedio, bueno y excelente. Al momento de codificar estos datos debería usarse 0, 1, 2, 3, 4, o una secuencia ordenada de números similar a ella, pero no se puede asignar algo como 3, 5, 4, 1, 2 porque se perdería el significado de los verdaderos datos.Otros ejemplos son: Categoría de Profesor: Instructor, Catedrático Auxiliar, Catedrático Asociado, Catedrático Principal. Nivel de empleo: Desempleado, subempleado, empleado.

1.5 Técnicas de Muestreo

Las siguientes son las maneras más usadas de extraer muestras de una población.

a) Muestreo Aleatorio. Se usa cuando a cada elemento de la población se le quiere dar la misma oportunidad de ser elegido en la muestra.

b) Muestreo Estratificado. Se usa cuando se concoce de antemano que la población está dividida en estratos, que son equivalentes a categorías y los cuales por lo general no son de igual tamaño. Luego, de cada estrato se saca una muestra aleatoria, usualmente proporcional al tamaño del estrato. La muestra combinada formará la muestra estratificada.

c) Muestreo por conglomerados (“Clusters”). En este caso la población se divide en grupos llamados conglomerados. Luego se elige al azar un cierto número de ellos y todos los elementos de los conglomerados elegidos forman la muestra. Un ejemplo típico es cuando se hacen encuestas en una ciudad y cada uno de los bloques de la misma, forma un estrato.

d) Muestreo Sistemático. Se usa cuando los datos de la población están ordenados en forma numérica. La primera observación es elegida al azar de entre los primeros elementos de la población y las siguientes observaciones son elegidas guardando la misma distancia entre si. Por ejemplo, supongamos que la población es de tamaño 1000 y deseamos sacar una muestra de tamaño 20, en este caso se divide a la población en 1000/20 = 50 partes. Luego de entre las observaciones 1 al 50 se elige una de ellas al azar, supongamos que salió la observación 37, ese sería el primer elemento de la muestra, los siguientes serían elegidos de 50 en 50. La muestra consistiría de las observaciones 37, 87, 137, 187, 237, 287, 337, 387, 437, 487, 537, 587, 637, 687, 737, 787, 837, 887, 937 y 987.

1.6 Maneras de Recolectar Datos

a) Haciendo entrevistas personales.b) Haciendo entrevistas por teléfono.c) Mediante cuestionarios.d) Por observación directa.e) A través de la Internet.

4

Page 5: Estadistica con Mitab.pdf

CAPÍTULO 2

UNA INTRODUCCIÓN A MINITAB

2.1Entrando a MINITAB

Hay dos maneras de entrar a MINITAB

1) Eligiendo la secuencia Start Program Minitab 14 for Windows y,

2) Oprimiendo el ícono de MINITAB que aparece en la pantalla inicial ("Desktop").

2.2 Las ventanas de MINITAB

Lo que atrae a muchas personas a usar un programa en WINDOWS es que casi todo se basa en elegir opciones de un menú oprimiendo (“Clicking”) el “mouse”. Anteriormente, había que escribir las instrucciones (comandos) que queriamos que hiciera la computadora, lo cual hacía que se tomara más tiempo en programación y además propiciaba la posibilidad de cometer errores de sintáxis. Esta alternativa aún está disponible en la versión actual de MINITAB. El uso del "mouse" hace que se ahorre tiempo en programación y que las posibilidades de cometer errores se aminoren, pero tiene la desventaja de que el usuario tiene cada vez menos idea de lo que la computadora hace para llevar a cabo cierto análisis estadístico.

En la Figura 2.1 se muestran las ventanas e íconos que aparecen cuando se selecciona

el ícono de MINITAB . En la parte superior de la pantalla aparece la barra de menús, que contiene las opciones de File, Edit, Data, Calc, Stat, Graph, Editor, Tools, Window y Help. Inmediatamente debajo aparecen una barra de íconos que se usan para ejecutar rápidamente ciertas operaciones, tales como abrir un archivo, guardar el trabajo efectuado en un archivo, imprimir, llamar ventanas de MINITAB, pedir ayuda etc. Finalmente aparecen las dos ventanas principales de MINITAB, que son Session y Data.

Cada ventana tiene una barra en la parte superior donde aparece el título al lado izquierdo precedido del ícono que la representa y tres íconos que aparecen al lado derecho. En la Figura 2.2 se muestra esta barra para la ventana session.

Page 6: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.1. Las ventanas que aparecen al entrar a MINITAB.

Figura 2.2. La Barra de título de la ventana session.

El ícono - se usa para minimizar la ventana, esto significa que el contenido de la ventana desaparece y para recuperarlo otra vez hay que oprimir el ícono que representa a la ventana session en la barra de íconos. El segundo ícono, se usa para maximizar la ventana, esto hace que la ventana aparezca ocupando toda la pantalla. Para hacer que la ventana vuelva a su tamaño original se oprime nuevamente el mismo ícono.

El ícono X se usa para cerrar la ventana, en este caso ya no se puede recuperar nuevamente el contenido de la ventana.

La ventana Data es similar a una hoja de cálculo y cuando se introducen datos por primera vez es titulada Worksheet (hoja de trabajo). Si Data contiene una hoja de trabajo

7

Page 7: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

que ya ha sido guardada anteriormente entonces es titulada con el nombre de la hoja de trabajo. Los datos de cada variable se van poniendo en las celdas de una misma columna. Las flechas se pueden usar para moverse de una celda a otra. Todo el conjunto de datos es guardado en una Hoja de Trabajo (“Worksheet”) que sólo MINITAB puede leerla.

La ventana Session contendrá resultados de todos los comandos que se ejecutan cuando se oprime el “mouse” en una sesión de MINITAB. También es posible hacer aparecer los comandos automaticamente Los comandos también pueden ser entrados por el usuario que en lugar de usar el “mouse” prefiere el estilo antiguo de MINITAB.

Hay otras dos ventanas: History e Info, la primera contiene un listado de todos los comandos que se han ejecutado en la sesión de trabajo y la segunda contiene información acerca del contenido de las columnas de la hoja de trabajo. Además cada vez que se hace una gráfica se crea una ventana que tiene como título el nombre de la gráfica respectiva.

Para activar una ventana hay que oprimir el “mouse” en cualquier parte de la ventana. Se sabe que una ventana está activada cuando la barra de título aparece de color azul.

2.3 La Barra de Menús

La Barra de Menús de MINITAB contiene 10 entradas: File, Edit, Data, Calc, Stat, Graph, Editor, Tools, Window y Help, cada una de las cuales tienen varias opciones.

Si al lado de la opción aparece el símbolo entonces, al elegir esta opción aparecerá un submenú de alternativas. Si la opción termina en tres puntos... entonces aparece una Ventana de Diálogo como el de la Figura 2.3.

En el recuadro principal de la ventana de Diálogo aparecerán listadas todas las variables a las cuales puede aplicarse el procedimiento elegido. También aparecerá un recuadro Variables en donde el usuario tiene que colocar las variables a las cuales le va a aplicar el procedimiento. Esto lo puede hacer de tres maneras:

Primero escribiendo las variables a ser analizadas. Segundo, marcando las variables del listado y oprimiendo luego el botón Select y Tercero, oprimiendo dos veces en la variable que aparece en el listado.

Una ventana de diálogo también tiene usualmente los botones Help, Ok y Cancel

8

Page 8: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.3. Ejemplo de una ventana de diálogo.

2.3.1 El Menú File

Contiene mayormente opciones que sirven para manipular las hojas de trabajo y para guardar e imprimir el contenido de las ventanas de MINITAB. En la siguiente figura se muestra las opciones del menú File.

Figura 2.4. Las opciones del menú File.

9

Page 9: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

El menú File contiene las siguientes opciones:

Opción AcciónNew Abre un nuevo proyecto o nueva hoja de trabajo.Open Project Abre un proyecto que ya fue guardado.Save Project Guarda un Proyecto.Save Project As Guarda un proyecto con otro nombre.Project Description Edita una descripción del proyecto.Open Worksheet Abre una hoja de Trabajo que ya fue guardada.Save Current Worksheet Guarda una Hoja de Trabajo.Save Current Worksheet As Guarda una Hoja de Trabajo con otro nombre.Worksheet Description (*) Da información acerca de la hoja de trabajo.Close Worksheet (*) Cierra una hoja de trabajo.Query Database(ODBC) Llama a los datos guardados en una Base de Datos.Open Graph Abre una gráfica de MINITAB.Other Files Llama datos en otro tipo de archivos.Save Session Windows As (*) Guarda el contenido de la ventana session (pide un nombre

para el archivo). Print Session Windows (*) Guarda el contenido de la ventana session.Print Worksheet Imprime el contenido de una hoja de trabajo.Print Setup Cambia la configuración de la impresora.Exit Sale de MINITAB.

(*) Estas dos opciones cambian cuando la ventana session o una ventana de gráfica están activa.Las últimas hojas de trabajo o proyectos que se han usado aparecen al final del menú File y pueden ser activados si se los seleccionan con el “mouse”.

2.3.2 El Menú Edit

El menú Edit contiene opciones que permiten editar el contenido de las celdas de las columnas del “Worksheet” o el contenido de la ventana Session. La siguiente figura muestra las opciones del menú Edit cuando la ventana Worksheet está activa.

Figura 2.5. Las opciones del menú Edit

1

Page 10: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

La siguente tabla muestra las acciones de cada opción del menú Edit cuando la ventana Data está activa.

Opción AcciónClear Cells Borra el contenido de la celda.Delete Cells Elimina Celdas.Copy Cells Copia el contenido de las celdas.Cut Cells Elimina celdas.Paste Cells Inserta celdas.Paste Link Establece una conección entre una aplicación especificada y

MINITAB.Worksheet Links Conecta MINITAB con otras aplicaciones.Select all Cells Selecciona todas las celdas de una columna.Edit Last Dialog Llama a la última ventana de Diálogo.Commnad Line Editor Abre una ventana donde escribir el comando de línea.

Si la ventana session está activa y se ha marcado un texto en ella, entonces Copy o Cut permiten copiar el contenido que se ha marcado al Clipboard para luego ser exportado a un procesador de palabras tal como, WORD o WordPerfect.

Para marcar un texto, se coloca el cursor al inicio del texto, mediante un “click” del “mouse” y luego se mantiene oprimido hasta llegar al final del texto.

Por otro lado, Paste permite copiar el contenido del Clipboard en la ventana Session.

Cuando se hacen gráficas, en el menú Edit aparece la opción Copy Graph que permite enviar la gráfica al Clipboard para luego ser exportada a un procesador de palabras, tal como WORD o WordPerfect.

2.3.3 El Menú Data

El menú Data contiene opciones para manipular todo el contenido de las columnas de una hoja de trabajo. En la siguiente figura se muestran las opciones del menú Data y las alternativas que hay para la opción Change Data Type.

1

Page 11: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.6. Las opciones del menú Data y de la opción Change Data Type.

La siguiente tabla describe todas las opciones de Data.

Opción AcciónSubset Worksheet Crea una nueva hoja de trabajo usando una condición en la hoja de

trabajo que se está usandoSplit Worksheet Crea hojas de trabajo basándose en una columna que contiene grupos. Merge Worksheets Junta dos hojas de trabajoCopy Columns Copia datos de una columna en otra columnaUnstack Columns Separa una el contenido de una columna en varias columnas.Stack Junta el contenido de dos o más columnas (o filas) en una sola

columna (o fila).Transpose Columns Convierte columnas de datos en filasSort Ordena los datos de una columnaRank Da los ordenamientos de los datos de una columnaDelete Rows Elimina filas de una o varias columnasErase Variables Elimina columnas de datosCode Asigna códigos a columnasChange Data Type Cambia el tipo de dato que tiene la columna. Extract fron Date/Time Extrae un dato horario y lo convierte en numérico o texto.Concatenate Junta fila por fila el contenido de dos columnasDisplay Data Muestra los datos de la hoja de trabajo en la ventana session

Ejemplo 2.1 (Juntar dos columnas de datos) Supongamos que tenemos edades de hombres y mujeres en dos columnas separadas:

1

Page 12: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Hombres Mujeres19 1723 2027 1918 2222 2324 1818 21212421

si deseamos juntarla en una sola columna llamada Edades, se crea una columna llamada Sexo que permite identificar el grupo al cual pertenece el dato.

Usando la secuencia Data Stack Columns. La ventana de diálogo aparecerá así:

Figura 2.7. La ventana de diálogo para juntar columnas

Como resultado se obtendrá dos nuevas columnas: Edades y Sexo en la misma hoja de trabajo como se observa en la gráfica siguiente.

1

Page 13: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.8 Hoja de trabajo que aparece al juntar dos columnas.

2.3.4 El Menú Calc

El menú Calc contiene opciones para hacer operaciones aritméticas con las columnas de la hoja de trabajo, por ejemplo, tomar logarítmos a una columna, y para calcular medidas estadísticas de las filas y columnas. También es posible obtener al azar un conjunto de datos con una distribución predeterminada y calcular probabilidades y percentiles de las distribuciones más conocidas. La última entrada del menú Calc es Matrices, la cual permite hacer operaciones con matrices. En la Figura 2.9 se muestra las opciones del menú Calc y las alternativas de la opción Probability Distributions.

1

Page 14: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.9. Las opciones del menú CALC y de la opción Probability Distributions.

En la siguiente tabla se describen todas las opciones del menú Calc.

Opción AcciónCalculator Permite hacer operaciones aritméticas con las columnas.Column Statistics Calcula medidas estadísticas de una columna.Row Statistics Calcula medidas estadísticas por filas.Standarize Estandariza una columna de datos (por lo general

haciendo que la media sea cero y la varianza 1).Make Patterned Data Genera datos en secuencia con un patrón dado.Make Mesh Data Genera datos que son usados para hacer una malla.Make Indicator Variables Crea variables indicadoras de una columna numérica.Set Base Establece el valor inicial para generar números aleatorios.Random Data Genera datos al azar de varias distribuciones conocidas.Probability Distributions Da la función de probabilidad, la distribución acumulada

y los percentiles de las distribuciones más conocidas.Matrices Permite hacer operaciones con matrices.

Ejemplo 2.2 (Uso de Calculator) Supongamos que tenemos el siguiente conjunto de datos: 4 7 12 15 17 18 25 13

1

Page 15: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

y deseamos calcular la expresión Sxx = Σx2 – (Σx)2/n , donde n es el número de datos, Σx representa la suma de los datos, y Σx2 representa la suma de los cuadrados de los datos.

Asumiendo que los datos son entrados en la columna C1. Se sigue la secuencia Calc Calculator. Luego la ventana de diálogo se completará como sigue:

Figura 2.10. Ventana de diálogo para la opción Calculator

En la hoja de trabajo aparecerá una segunda columna con el nombre Sxx con una entrada igual a 300.875. Si uno desea que la cantidad sea tratada como una constante y no como una columna entonces se debe escribir k1 en la ventanita correspondiente a Store result in variable. Sin embargo el valor de k1 no aparecerá en la pantalla a menos que se siga la

secuenca Data Display Data (ver la sección 2.5) y se elija la constante k1.

2.3.5 El Menú Stat

El menú Stat contiene opciones que permite llevar a cabo la mayoría de los procedimientos estadísticos. En este texto sólo se verán algunas de las opciones de este menú, aquellas que son usadas en un primer curso de Estadística.La siguiente figura muestra las opciones del menú Stat y el submenú de la opción Tables.

Las opciones de Stat son descritas en la siguiente tabla:

Opción Acción Basic Statistics Incluye el cálculo de medidas estadísticas, pruebas de hipótesis acerca

de la media poblacional, de proporciones, comparación de dos varianzas

1

Page 16: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

de diferencia de medias y de proporciones, cálculo de la correlación. Regression Incluye análisis de regresion simple y múltiple, los métodos para elegir

el mejor modelo de regresion y regresión logistica.ANOVA Hace el análisis de varianza de diseños experimentales básicos.DOE Analiza diseños de experimentos avanzados.Control Charts Gráficas de Control de Calidad.Quality Tools Más gráficas de Control de Calidad.Realibity/Survival Incluye los métodos de análisis de supervivencia y de confiabilidad.Multivariate Incluye métodos multivariados:

Componentes Principales, Análisis factorial, Análisis Discriminante, por conglomerados y análisis de correspondencia.

Times Series Analiza datos en series de tiempo.Tables Ordena datos en forma tabular, y analiza tablas de contingencia.Nonparametrics Incluye los métodos estadísticos noparámetricos, aquellos que no

requieren la suposición de Normalidad.EDA Incluye los métodos del Análisis Exploratorio de datos:

“stem-and-leaf”, “boxplots”, etc.Power and Sample Size Calcula la potencia y el tamaño de muestra para varias pruebas

estadísticas.

Figura 2.11 Las opciones del menú STAT y de la opción Tables.

En este texto se usaran las opciones: Basic Statistic, Regression, Anova, Tables, Nonparametrics y EDA.

1

Page 17: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Algunos ejemplos de aplicaciones de estas opciones seran dados en los siguientes capítulos de este texto.

2.3.6 El menú Graph

El menú Graph contiene opciones que premiten hacer una gran variedad de gráficas estadísticas desde Histogramas hasta gráficas tridimensionales. En la siguiente figura se muestra las opciones del menú Graph, y las opciones de la opción Character Graphs.

Figura 2.12. Las opciones del menú Graph.

En la siguiente tabla se describen todas las opciones del menú Graph:

Opción AcciónScatterplot Hace un diagrama de dispersión.Matrix Plot Hace un plot en forma matricial para mostrar la relación entre varias

variables.Marginal Plot Hace un diagrama de puntos acompañado de histogramas, boxplots o

1

Page 18: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

dotplots de las variables X e Y.Histogram Hace un Histograma.Dotplot Hace un gráfico de puntos de alta resolución.Stem-and-Leaf Hace un “stem-and-leaf” de un conjunto de datos.Probability Plot Hace plots de probabilidad.Empirical CDF Grafica la función de distribución acumulativa de un conjunto de datos y

la compara con una función de distribución conocida.Boxplot Hace un “Boxplot”.Interval Plot Grafica las medias de varios grupos con sus respectivos intervalos de

confianza. Individual Value Plot Hace diagramas de puntos de dos maneras: por variables o por grupos.Bar Chart Hace gráfica de Barras para datos cualitativos.Pie Chart Hace gráficas circulares.Time Series Plot Hace gráficas para datos en series de tiempo.Area Graph Hace gráficas de áreas.Contour Plot Hace un plot de contorno.3D Scatterplot Hace un digrama de dispersión en tres dimensiones.3D Surface Plot Grafica una superficie en 3 dimensiones.

2.3.7 El Menú Editor

El menú Editor contiene opciones que permiten editar el contenido de las ventanas de Session y Worksheet. En particular se puede insertar comentarios en los resultados que aparecen en session. También se puede elegir el tipo de letra en que ellos aparecerán. Las opciones del menú dependen de la ventana que está activa.

Cuando la ventana Worksheet está activada entonces hay opciones que permiten editar el contenido de las celdas de la hoja de trabajo. En la figura 2.13 se muestran estas opciones:

La siguiente tabla describe las opciones del menú Editor cuando la ventana session está activa.

Opción AcciónNext Command Mueve el cursor al siguiente comando en la ventana session.Previous Command Mueve el cursor al comando anterior en la ventana session.Enable Command Language Produce el prompt MTB> de MINITAB.Output editable Permite que la ventana session pueda ser editada.Find Encuentra un texto en la ventana session.Replace Reemplaza un texto en la ventana session.Apply Fonts Aplica un tipo de letra dado a los comandos y resultados, a los

titulos o a los comentarios.

1

Page 19: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.13. Las opciones del menu Editor cuando la ventana Worksheet está activa.

Cuando la ventana worksheet está activa el menú Editor presenta otras alternativas, tales como:

Go To… Mueve el cursor a cualquier celda de la ventana.Go To Mueve el cursor a la siguiente columna, o a la celda activada.Format Column Sirve para formatear las columnas.

Adicional a ellas también estan las siguientes opciones que se activan cuando el cursor esta ubicado en la ventana worksheet.

ColumnWorksheetInsert columnsMove columns

Si Enable Comand Language está activado entonces los resultados en la ventana session para el ejemplo 2.2 serán:

MTB > Print C1.

Data Display

C1

2

Page 20: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

4 7 12 15 17 18 25 13

MTB > Let k1 = SUM(c1*c1)-(SUM(c1)**2)/COUNT(c1)

MTB > Print K1.

Data Display

K1 300.875

También hay un menú para editar gráficas, éste permite incluir texto en cualquier parte de la gráfica, al igual que otros objetos gráficos como líneas, rectángulos, círculos, símbolos, etc. Asumiendo que la ventana de gráfica está activa, entonces los íconos del editor de gráficas se obtienen, si se elige la opción Edit del menú Editor. Los íconos se agrupan en dos rectángulos que aparecen en la parte derecha de la ventana gráfica. Las opciones del editor de gráficas también se pueden obtener si se hace un “rigth click” con el “mouse” dentro de la ventana que contiene la gráfica.

Figura 2.14. Editando una gráfica2.3.8 El Menú Tools

2

Page 21: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.15. Las opciones del menú Tools.

Las opciones del menú Tools son descritas en la siguiente tabla.

Opción AcciónMicrosoft Calculator Activa la calculadora de Microsoft.Notepad Activa el editos de notepad.Windows Explorer Activa el explorador de ventanas.Answer Knowledgebase Conecta a la pagina de MINITABContact Us Conecta a la pagina de MINITAB en contactosToolbars Permite modificar la barra de menú.Status Bar Esconde la barra de estatus en la ventana de Minitab.Costumize Permite modificar la barra de menú.Options Permite modificar las configuraciones de ventanas y procedimientos de

Minitab.Manage Profiles Permite administrar los profiles.

2.3.9 El Menú Window

2

Page 22: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

El menú Window contiene opciones que permiten organizar las ventanas de MINITAB. Este menú aparece en todo programa hecho para WINDOWS.En la Figura 2.15 se muestran las opciones del menú Window. Al final del menú aparecen las ventanas que se han trabajado últimamente y que pueden ser activadas con un click del “mouse”. Las opciones del menú Window cuando está activa la ventana de worksheet son descritas en la siguiente tabla.

Opción AcciónCascade Arregla las ventanas de Minitab para que todas las barras con

títulos aparezcan.Tile Arregla las ventanas de Minitab para que todas ellas

aparezcan en la pantalla.Minimize All Reduce todas las ventanas a íconos que son puestos en la

parte inferior.Restore Icons Restaura los íconos en la pantalla.Arrange Icons Ordena los íconos de Minitab en la parte inferior de la

pantalla.Refresh Muestra nuevamente las ventanas de Minitab.Close all graphs Cierra todas las ventanas gráficas.Update all graph now Permite actualizar todas las gráficas luego de cambiar uno o

varios datos.Además de estas opciones, también hay: Session, Project Manager y Worksheet and Graphs.

Figura 2.16. Las opciones del menú Window.2.3.10 El Menú Help

2

Page 23: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

El menú Help contiene opciones que dan ayuda acerca del uso de los comandos de MINITAB. Esta opción también es típica de todo programado de WINDOWS. Comparado con otros programas estadísticos la ayuda de MINITAB es bastante fácil de usar y además muy completa. La Figura 2.16 muestra todas las opciones de Help, y en la siguiente tabla se describen cada una de las opciones de dicho menú:

Opción AcciónHelp Muestra el contenido de la ayuda de MINITAB.Search Help Busca ayuda por el tipo de palabra seleccionado.How to use help Muestra como usar Help en Microsoft Windows.StatGuide Para usar la guia de MINITAB.Search the StatGuide Para buscar en la guia de MINITAB.How to use the StatGuide Muestra como usar la guia de MINITAB.Tutorials Da información básica a cerca de lo que usted necesita para

empezar a usar MINITAB.Search Tutorials Muestra la secuencia de cómo usar Minitab para realizar

ciertas acciones.Session Comand Help Abre el archivo de ayuda de los comandos en MINITAB.Search Session Comand Help Buscar comandos que se usan en la ventana session de

MINITAB.Minitab on the Web Activa el browse del Web y se conecta a MINITAB.About Minitab Da información acerca de la versión y el dueño de MINITAB

Figura 2.17. Las opciones del menú Help.En la siguiente figura se muestra la ventana de ayuda para todos los comandos de MINITAB.

2

Page 24: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.18. Ventana de Ayuda de todos los comandos de MINITAB

Esta figura muestra la ventana de ayuda para el comando stem-and-leaf.

Figura 2.19. Ventana de Ayuda acerca de “stem-and-leaf “.

2.4 Entrada y Manipulación de datos en MINITAB

Hay dos maneras de entrar datos en MINITAB. Primero usando la ventana Data y segundo usando comandos en la ventana session.

2

Page 25: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

2.4.1 Entrando datos usando la hoja de trabajo.

En este caso se escribe el dato en una celda activa de la hoja de trabajo. Una celda activa es aquella con el borde más oscuro. Una vez que se ha escrito el dato se oprime Enter, esto hace que el valor entrado sea aceptado. La celda activa se mueve a la derecha o hacia abajo dependiendo de la dirección de la flecha.

Los datos pueden ser entrados por filas o por columnas. Las columnas representan valores de una variable y si se desea ponerles nombre, esto se hace en la celda inmediatamente debajo del número de la columna.

Si los datos están en otro formato, provienen de otra aplicación, o están disponibles en la Internet, bastará copiar (“copy”) los datos de la fuente y pegarlos (“paste”) en la hoja de trabajo.

2.4.2 Entrando datos usando comandos en la ventana session.

Hay dos maneras de hacer esto:

a) Usando el comando SET

En este caso se entran los datos de una sola variable. Por ejemplo, supongamos que tenemos las edades de una familia de 6 miembros que van a ser colocados en la columna C1, llamada Edades. Los comandos que se deben escribir serán:

MTB> NAME C1 ‘Edades’MTB> SET C1DATA> 6 9 12 15 37 34DATA> END

b) Usando el comando READ

Esto es conveniente cuando se tienen varias variables. Por ejemplo, supongamos que además de las edades de los miembros de la familia tenemos sus pesos. Los comandos que se deben escribir serán:

MTB> NAME C1 ‘Edades’ C2 ‘Pesos’MATB> READ C1 C2DATA> 6 55DATA> 9 70DATA>12 95DATA>15 130DATA>37 180DATA>34 155DATA> END

2.5 Mostrando los datos

Para ver los datos en la ventana session de tal manera que aparezcan junto con los resultados se puede hacer de dos maneras.

2

Page 26: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

A) Se elige el menú Data, y luego la opción Display Data.B) Usando el comando de línea print. Así en el ejemplo anterior el comando

PRINT C1 C2, producirá:

Row Edades Peso1 6 552 9 703 12 954 15 1305 37 1806 34 155

2.6 Guardando los datos

Se elige el menú File y de allí la opción Save Worksheet As (si es la primera vez que son entrados los datos) o Save Worksheet (si los datos ya han sido entrados anteriormente). La ventana de dialogo, correspondiente a Save Worksheet As, para los datos del ejemplo anterior que van a ser guardados en el archivo familia, del folder libro que tiene formato de MINITAB, será como se presenta en la Figura 2.19.

El archivo quedará guardado automáticamente en el subdirectorio Mtbwin. Si se desea guardarlo en cualquier otro lugar oprimirse en la flecha al lado de Save in que lo llevará al lugar deseado. En este caso se guardó en libro, propiamente el archivo guardado se llama familia.mtw. Los datos también pueden ser guardados en otro tipo de formato, el cual se elige en Save as type.

2.7 Abriendo un archivo de datos

Los datos que se van a analizar pueden estar de antemano en un archivo, el cual puede estar en formato de MINITAB o en otro tipo de formato, o bien puede haber sido entrado usando un editor de texto.

Para llamar al archivo que está en formato de MINITAB se elige el menú File y luego la opción Open Worksheet. Por ejemplo, para llamar a los datos del ejemplo anterior que están en el archivo familia, la ventana de diálogo se muestra en la figura 2.20

2

Page 27: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.19. Ventana de diálogo para guardar un archivo de datos.

Si el archivo de datos no está en formato de MINITAB entonces se elige el tipo de archivo que contiene los datos en file of type y luego se oprime options para elegir una forma particular de lectura de los datos.

2.8 Imprimiendo los datos

Asumiendo que la ventana Worksheet está activa, se elige el menú File y luego la opción Print Worksheet. La ventana de dialogo saldrá como se muestra en la Figura 2.21.

2

Page 28: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.20. Ventana de diálogo para abrir un archivo de datos.

2.9 Usando Proyectos

El uso de archivos proyecto de MINITAB, los cuales llevan la extensión .mpj es de gran utilidad. Estos son archivos que contienen un gran número de hojas de trabajo, también contienen los resultados en la ventana session y las ventanas gráficas. Es decir, contiene todo el trabajo que se ha hecho hasta ese momento. Suponiendo que más tarde uno desea trabajar con otro conjunto de datos, añadir algún análisis estadístico o algún gráfico lo único que tiene que hacer es llamar al proyecto que contendrá todo el trabajo realizado hasta ese momento y luego se añaden las cosas nuevas. Por ejemplo, el contenido de un proyecto tarea1.mpj, puede contener 3 ventanas de datos: clase97.mtw, familia.mtw y divorcio.mtw, dos ventanas gráficas: el histograma de la variable créditos de clase97.mtw y el plot de peso versus edades de familia.mtw y una ventana session.

2

Page 29: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 2 Una Introducción a Minitab

Figura 2.21. Ventana de diálogo para imprimir los datos de una hoja de trabajo

Para guardar un proyecto se usa la opción Save project (si el proyecto ya fue guardado anteriormente) o Save project as del menú File. Para llamar a un proyecto que ha sido guardado anteriormente se usa la opción Open Project, del menú File.

3

Page 30: Estadistica con Mitab.pdf

CAPÍTULO 3

ESTADÍSTICA DESCRIPTIVA

En este  capítulo  se  verán  todas   las   técnicas  que se usan para   la  organización y presentación de datos en tablas y gráficas, así como el cálculo de medidas estadísticas. Se considerarán solamente datos univariados y bivariados.

Ejemplo 3.1 Los siguientes datos provienen de un cuestionario de 10 preguntas que se hizo a 28 estudiantes de una clase de Estadistica Aplicada I en el Recinto Universitario de Mayaguez de la Universidad de Puerto Rico. Un asterisco (*) significa que la pregunta no fue   contestada.   En   lo   sucesivo   se   hará   referencia   a   este   conjunto   de   datos   como “clase97.mtw” Row    edad   sexo  escuela  programa  creditos    gpa  familia  hestud    htv

   1     21      f     públ      biol       119   3.60        3      35     10   2     18      f     priv      mbio        15   3.60        3      30     10   3     19      f     priv      biot        73   3.61        5       5      7   4     20      f     priv      mbio         *   2.38        3      14      3   5     21      m     públ      pmed       114   3.15        2      25     25   6     20      m     públ      mbio        93   3.17        3      17      6   7     22      m     públ      pmed       120   2.15        5      20     10   8     20      m     priv      pmed         *   3.86        5      15      5   9     20      m     priv      pmed        94   3.19        4      10      2  10     20      f     públ      pmed       130   3.66        6      20     33  11     21      f     priv      mbio        97   3.35        1      15     20  12     20      m     priv      mbio        64   3.17        4      30      2  13     20      f     públ      mbio         *   3.23        2       5      3  14     21      f     públ      mbio        98   3.36        4      15     10  15     21      f     priv      biol       113   2.88        5      15      3  16     21      f     priv      pmed       124   2.80        5      20     10  17     20      f     públ      eagr         *   2.50        4      10      5  18     20      f     priv      mbio         *   3.46        4      18      5  19     22      f     priv      pmed       120   2.74        2      10     15  20     20      f     priv      mbio        95   3.07        3      15     12  21     22      f     priv      biol       125   2.20        3      20     10  22     23      m     públ      eagr        13   2.39        3      10      8  23     21      m     priv      pmed       118   3.05        4      10     10  24     20      f     públ      mbio       118   3.55        5      38     10  25     21      f     públ      mbio       106   3.03        5      36     35  26     20      f     priv      mbio       108   3.61        3      20     10  27     22      f     públ      mbio       130   2.73        5      15      2  28     21      f     priv      pmed       128   3.54        3      18      5

Las variables edad, familia, hestud y htv son consideradas como variables cuantitativas discretas.  Las  variables  créditos  y  gpa  son consideradas  como variables  cuantitativas continuas.  Las  variables  sexo,  escuela  y  programa  son   consideradas   como  variables cualitativas

                                                                                                                                                                       

Page 31: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

3.1  Organización de datos Cuantitativos Discretos

3.1.1  Tablas de Frecuencias

Los   datos   cuantitativos   discretos   se   organizan   en   tablas,   llamadas  Tablas   de Distribución   de frecuencias.   La primera  columna de  la   tabla  contiene  los  distintos valores  que asume la  variable  ordenados de  menor  a  mayor  y   las   restantes  columnas contienen los siguientes  tipos de frecuencias.

Frecuencia   absoluta:  Indica   el   número   de   veces   que   se   repite   un   valor   de   la variable.

Frecuencia relativa:  Indica la proporción con que se repite un valor. Se obtiene dividiendo   la   frecuencia   absoluta   entre   el   tamaño   de   la   muestra.   Para   una   mejor interpretación es más conveniente mutiplicarla por 100 para trabajar con una Frecuencia relativa porcentual.

Frecuencia absoluta acumulada:  Indica el número de valores que son menores o iguales que el valor dado.

Frecuencia relativa porcentual acumulada:  Indica el porcentaje de datos que son menores o iguales que el valor dado. 

Para construir una tabla de frecuencias en  MINITAB,  se sigue la secuencia  Stat TablesTally   Individual   Variables.   En   la   ventana   de   diálogo   de  Tally   Individual  Variables se elige la variable deseada, la cual debe aparecer en la ventanita Variables.  Se seleccionan todas las opciones de  Display  si se desea una tabla completa con todos los tipos de frecuencias y luego se oprime el botón   OK. La tabla aparecerá en la ventana Session.  

En la figura 3.1 se muestra la ventana de diálogo de Tally Individual Variables, para obtener la tabla de distribución de frecuencias de la variable familia,  del ejemplo 3.1

Figura 3.  1 Ventana de diálogo de  Tally Individual Variables para la tabla de frecuencia de la variable Familia

29

Page 32: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

El contenido de la ventana session será  el siguiente:

Figura 3.2: Tabla de frecuencia de la variable Familia

Interpretación: Count,  representa   la   frecuencia   absoluta.   Por   ejemplo   el   tamaño   familiar   que   más predomina es 3.CumCnt,  representa   la   frecuencia   absoluta   acumulada..   Por   ejemplo   27   de   los   28 entrevistados tienen una familia de tamaño menor o igual que 5.Percent, representa la frecuencia relativa porcentual. Por ejemplo, sólo 3.57 por ciento de las familias de los estudiantes entrevistados son de tamaño 6.CumPct, representa la frecuencia relativa porcentual acumulada. Por ejemplo, el 94.93% de las familias son de tamaño menor o igual que 5.

3.1.2  El plot de puntos (“Dotplot”)

Una vez obtenida la tabla de frecuencia el próximo paso es obtener un gráfica de ella. La gráfica más elemental es el plot de puntos (“Dotplot”) que consiste en colocar un punto cada vez que se repite un valor. Esta gráfica permite explorar la simetría y el grado de   variabilidad   de   la   distribución   de   los   datos   con   respecto   al   centro,   el   grado   de concentración o dispersión de los datos con respecto al valor central y ,tambíén, permite detectar la presencia de valores anormales  (“outliers”).

En MINITAB el plot de puntos  se obtiene eligiendo la opción Dotplot  del menú Graph. Las ventanas de diálogo para obtener el plot de puntos de la tabla de frecuencias anterior se completará como sigue:

30

Page 33: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

  

Figura 3.3:Ventanas de diálogo para hallar el dotplot de la variable Familia

Obteniéndose la siguiente gráfica:

Figura 3.4:Dotplot de la tabla de frecuencia de la variable Familia

Interpretación: La distribución de la variable familia es algo simétrica con respecto al  centro. No hay mucha variabilidad y no se observa la presencia de valores anormales.

31

Page 34: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

También es posible obtener una gráfica de texto del “Dotplot”.  Las gráficas de texto se construyen utilizando caracteres del teclado y no son de alta resolución. Son útiles si se quiere incluir la gráfica como parte de un archivo ASCII o en un correo electrónico a base de texto. Aunque estas gráficas aún están disponibles, ya no aparecen en el menú de Graph por defecto. Para añadir la opción de crear gráficas de caracteres al  menú de Graph utilice la secuencia Tools > Customize > Commands>Character Graphs como se muestra a continuación:

Figura 3.5: Ventana de diálogo para añadir la opción de gráficas de texto

Luego elija el ícono Character Graphs de la ventana de Commands y arrástrelo hasta el menú de Graphs en este caso se sigue la siguiente secuencia Character Graph  Dotplot y se obtiene la siguiente salida en la ventana de Session:

Dotplot: familia 

                                 .                                 :                   :                                 :         :         :                       .         :         :         :             .         :         :         :         :         .          ­­­+­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­­familia           1.0       2.0       3.0       4.0       5.0       6.0

Figura 3.6: Dotplot de la variable Familia en modo texto.

3.1.3  Gráfica de Línea

32

Page 35: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

La gráfica de línea es una alternativa a la gráfica de puntos. Por cada valor de la variable se traza una linea vertical de altura  proporcional a la frecuencia absoluta del valor de la variable.  En  MINITAB  hay una opción directa  para obtener  esta  gráfica   la  cual  será discutida más adelante en la sección 3.2.2. 

Figura 3.7:  Gráfica de línea de la distribución de frecuencias de la variable familia

Los números que aparecen en la parte superior de las líneas representan las fecuencias absolutas.

  Interpretación:  La gráfica tiene algo de simetría, no presenta valores anormales ni  tiene mucha variabilidad.

3.2  Organización de datos Cuantitativos Continuos

Cuando los datos son de una variable continua o de una variable discreta que asume muchos valores distintos, ellos se agrupan en clases que son representadas por intervalos y luego se construye una tabla de frecuencias, cada frecuencia absoluta (relativa porcentual) representa el número (porcentaje) de datos que caen en cada intervalo.

Recomendaciones acerca del número de intervalos de clases:

a) El número de intervalos de clases debe variar entre 5 y 20.b) Se debe evitar que hayan muchas clases con frecuencia baja o cero, de ocurrir ésto es 

recomendable reducir el número de clases.c) A un mayor número de datos le corresponde un mayor número de clases.

Una regla bien usada es que el número de clases debe ser aproximadamente igual a la raíz cuadrada del número de datos. Una vez que se determina el número de clases se determina la amplitud de cada clase usando la siguiente fórmula:

33

Page 36: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Amplitud del intervalo de clase ≈ clases de número

menor Dato ­mayor  Dato.

Usualmente la amplitud se redondea a un número cómodo de usar. Si se ha redondeado mucho, entonces el primer intervalo de clase debe empezar un poco antes del valor menor.

MINITAB no tiene una opción para obtener la  tabla de frecuencia para datos agrupados, lo único que existe es una opción para obtener la gráfica de la tabla de frecuencias, ésta es llamada  Histograma y puede obtenerse en modo texto o modo gráfico. 

3.2.1 Tablas de frecuencias­Histograma en modo texto 

La forma de obtener este histograma es eligiendo la opción Character Graphs del menú  Graph y luego del submenú que sale se elige  Histogram. En la salida aparecerán los puntos medios de los  intervalos de clase (llamados también Marcas de clase) y  la frecuencia absoluta de cada clase. 

Por ejemplo, supongamos que deseamos obtener el histograma de los datos de la variable  gpa,   en   el   archivo  Clase97.mtw,   agrupando   los   datos   en   5   clases.   Primero debemos     determinar   la   amplitud   de   cada   clase,   donde   Amplitud  ≈

clases de númeromenor Dato ­mayor  Dato

. En este caso Amplitud ≈ 5

2.15 ­ 3.86 y la primera clase sería: 

2.15  ­ 2.49  con un punto medio igual a 2.32. La ventana de diálogo se completará de la siguiente manera:

Figura 3.8: Ventana de diálogo para el histograma en modo texto de la variable gpa

y en la ventana session aparecerá,

Histogram Histogram of gpa   N = 28Number of observations below the first class = 1

Midpoint        Count

34

Page 37: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

   2.350            4  ****   2.700            3  ***   3.050            8  ********   3.400            6  ******   3.750            6  ******

donde Count  representa la frecuencia absoluta del intervalo de clase. 3.2.2  Histograma en modo gráfico

Un Histograma, es la gráfica de la tabla de distribución de frecuencias para datos agrupados, consiste de barras cuyas bases son los intervalos de clases y cuyas alturas son proporcionales a las frecuencias absolutas (o relativas) de los correspondientes intervalos. Un histograma permite ver la forma de la distribucion de los datos,  en particular, se puede ver si hay simetría con respecto al centro de la distribución, del grado de dispersión con respecto al centro y permite  detectar  datos anormales (“outliers”)  en la muestra.    Para obtener un histograma en MINITAB se sigue la siguiente secuencia  GraphHistogram.Luego, aparece una ventana de diálogo similar a la figura siguiente: 

Figura 3.9: Ventana de diálogo para Histograma

En esta ocasión se elije la primera opción y aparece la siguiente ventana:

35

Page 38: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Figura 3.10. Ventana de diálogo para obtener el histograma en modo gráfico de la variable GPA.

Graph Variables  se escribe la variable cuyo histograma se desea obtener. Si se quiere poner títulos se elige  LabelsTitles/Footnotes;  para poner los valores de la  frecuencia absoluta encima de cada barra se elige LabelsData Labels.

 

                                 Figura 3.11: Algunas opciones del menú de Labels

Oprimiendo OK  se obtiene el siguiente histograma: 

36

Page 39: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Figura 3.12: El histograma de la variable gpa

Interpretación.  El   histograma   es   asimétrico   hacia   la   izquierda.   No   existe     mucha variabilidad, ni  hay valores anormales .

MINITAB  elige automáticamente el número de intervalos de clases, si se desea cambiar el número de intervalos de clases, se coloca el cursor en el eje horizontal y se oprime dos veces el botón izquierdo del ratón. Le aparece una ventana de diálogo llamada Edit Bars. En esta ventana puede cambiar el color de las barras (Attributes) y cambiar el número de intervalos deseado donde aparece Binning.  Además se puede entrar los puntos medios de los intrevalos de clase que se desean. 

Figura 3.13: Ventana de diálogo para editar un histograma

Para imprimir el Histograma se elige la opción Print Graph del menú  File.   También es posible obtener el histograma de un conjunto de datos eligiendo la opción  Graph  que aparecen en ciertas ventanas de diálogo, como por ejemplo; cuando se calculan medidas estadísticas básicas.

37

Page 40: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

3.3 Presentación de  datos cualitativos

En este caso los datos también se pueden organizar en tablas de frecuencias, pero las frecuencias   acumuladas   no   tienen   mucho   significado,   excepto   cuando   la   variable   es ordinal.   Para obtener la tabla se sigue la secuencia  STATTables Tally.   Si se desea obtener las frecuencias acumuladas se pueden seleccionar en la ventana Tally. Por ejemplo,  la siguiente sería una tabla de frecuencias para  la variable  programa  del Ejemplo 3.1.

programa  Count  Percent    biol      3    10.71    biot      1     3.57    eagr      2     7.14    mbio     13    46.43    pmed      9    32.14      N=     28

Existen una gran variedad de gráficas para datos cualitativos que se pueden hacer en MINITAB. Sólo consideraremos las gráficas de barras y las gráficas circulares (“Pie­Chart”). 

3.3.1  Gráficas de Barras

Las gráficas de barras pueden ser verticales u horizontales. Las gráficas de barras se obtienen eligiendo  la  opción   Bar Chart  del  menú  Graph.   Aparecerá   la  ventana  de diálogo que se muestra en la primera ventana de la Figura 3.11.  Para comenzar, se debe elegir  el significado que tendrán las barras y el si se desea una gráfica simple, aglomerado o acumulativa. 

Si se desea una gráfica de barras verticales simple, entonces se elige la opción de Counts  of unique variables como el significado de las barras y simultáneamente la opción Simple. 

Al oprimir OK, observará la segunda ventana presentada en Figura 3.14.

38

Page 41: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

    

Figura 3.14.  Ventanas de diálogo para obtener una gráfica de barras verticales del programa.

Ejemplo 3.2. Usando los datos del ejemplo 3.1, hacer una gráfica de barras verticales para representar la distribución de estudiantes por programa.

Se   elige   las   opciones  para   las   primeras   dos  ventanas  de  diálogo   según   se   ha descrito en el párrafo anterior. Para colocar el título, en la segunda ventana de diálogo, elija la opción Labels y se escribe el título deseado en el renglón titulado Title.

Figura 3.15  Ventana de diálogo para colocar un título a la gráfica de barras.

Al oprimir OK dos veces, obtendrá la siguiente gráfica:

39

Page 42: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Figura 3.16 Gráfica de Barras verticales de la variable Programa

Para  hacer  una  gráfica  de  barras   agrupada,   se  debe   seleccionar  Cluster,   en   la primera   ventana   de   diálogo.   Luego   en   la   segunda   ventana   de   diálogo,   se   eligen   las variables por las cuales se quiere agrupar. Por ejemplo si deseamos ver la distribución de estudiantes por programa dividido por sexo, elegimos como variable  programa y luego, sexo. Luego de colocar el título, se obtendría la siguiente gráfica:

Figura 3.17. Gráfica de barras verticales para la variable programa agrupada por Sexo.

3.3.2 Gráficas Circulares

Este tipo de gráfica se usa cuando se quiere tener una idea de la contribución de cada valor de la variable al  total.  Aunque es usada más para variables cualitativas,  también podría  usarse  para  variables   cuantitativas  discretas   siempre  que   la  variable  no  asuma muchos valores distintos. 

Para obtener gráficas circulares se usa la opción Pie Chart del menú  Graph.   Las ventanas de diálogo de Pie Chart que se muestran en la Figura 3.14 son para la variable 

40

Page 43: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

programa del Ejemplo 3.1  La gráfica permitirá ver como se distribuyen los estudiantes de la clase según el programa académico.

En Chart Raw Data se coloca la variable de la que se quiere hacer el “pie chart”. La ventanita de Chart values from table se usa sólo en el caso que en una columna estén las categorías de la variable y en la otra la frecuencia con que se repite cada categoría. En la Figura 3.15 se presenta la gráfica de círculo para la variable programa. 

Existen formas de modificar la gráfica de círculo para enfatizar ciertas ideas. Por ejemplo, se puede resaltar uno o varios pedazos (“slices”) mediante el uso de Explode slice. Esta opción se logra seleccionando el pedazo(s) que se quiere(n) explotar. Luego, se oprime el botón izquierdo del ratón y se selecciona Edit Pie. La ventana de diálogo que se obtiene se muestra en la Figura 3.16. En esta ventana, se puede también modificar el color del pedazo. Si se selecciona la gráfica completa antes de ir a Edit Pie, hay la posibilidad  de combinar pedazos que contribuyan con un porcentaje muy bajo al total o de colocar el nombre asociada a cada categoría en la gráfica. En la Figura 3.16 b, se muestra la gráfica de la variable programa modificada según se ha descrito anteriormente.

  

Figura 3.18. Ventanas de diálogo para obtener gráficas circulares

Figura 3.19. Gráfica circular para mostrar la distribución de estudiantes por programa

41

Page 44: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

(a)      (b) Figura 3.20. Ventana de diálogo para modificar la gráfica de la figura 3.19.

Ejemplo 3.3. La siguiente tabla muestra  el número de restaurants americanos de comidas rápidas en Puerto Rico a julio de 1997 (Nuevo Día, 31 de Agosto de 1997).

Nombre NúmeroBurger King 113McDonald’s 97Taco Maker 63Kentucky Fried Chicken 58Pizza Hut 51Church’s 46Domino’s 30Wendys 24Taco Bell 22Ponderosa 21Little Ceasers 20Otros 45

Hacer  un  “Pie­Chart”  que  muestre  qué   parte  del  mercado   representa   cada   franquicia. Enfatizar la franquicia que tiene la mayor parte del mercado y la que tiene la menor parte.

En este caso se elige Chart values from table, y en el espacio de Categorical variable se coloca el  nombre de las columnas que contiene el  nombre de los restaurantes  y en el rectángulo al lado de Summary Variables se coloca la columna que contiene el número de  restaurantes  de  cada   tipo.    Eligiendo  Labels,  puede  indicar  el   título  que   tendrá   la gráfica y las etiquetas de los pedazos. Al oprimir ok, se obtiene la siguiente gráfica:

42

Page 45: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Figura 3.21. Gráfica circular para los datos del ejemplo 3.3

3.4  Gráfica de tallo y hojas (“Stem­and­Leaf ”)  

La gráfica de tallo y hojas  es una gráfica usada para datos cuantitativos.  Es  la gráfica  más  básica  de  un  conjunto  de   técnicas     conocido  con  el  nombre  de  Análisis Exploratorio de Datos (EDA) introducida por John Tukey a mediados de los años 70. La idea es considerar los primeros dígitos del dato como una rama del tallo (“stem”) y el último dígito como una hoja (“leaf”)  de dicha rama. Las ramas son ordenadas en forma creciente.

Ejemplo   3.4.   Los   siguientes   datos   representan   pesos   de   una   muestra   de   15   varones adultos.165   178   185   169   152   180   175   189   195   200   183   191   197   208   179Hacer su gráfica de “Stem­and Leaf”.

Solución:En este caso las ramas la forman los primeros dos dígitos de los datos, y las hojas serán dadas por los últimos dígitos de los datos. Luego el “stem­and leaf “ será de la siguiente manera:

    15     2    16     59    17     598    18     0935    19     517    20     08 

Interpretación: El uso del “stem­and­leaf” es exactamente igual al del Histograma, la única   diferencia   está     en   que   del   “stem­and­leaf”   se   pueden   recuperar   los   datos muestrales, pero de un histograma no se puede hacer. En este ejemplo el   “stem­and­leaf”  es asimétrico a la izquierda, no tiene mucha variabilidad ni “outliers”.

43

Page 46: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

La unidad de la hoja de un “stem­and­leaf” representa la posición del dígito de la hoja en la escala decimal. En el ejemplo anterior el dígito de las hojas está en las unidades luego la unidad de la hoja será 1.0.  Si los datos fueran de promedios académicos: 3.17, 3.23, 2.98 entonces, la unidad de la hoja será .01.

Para recuperar los datos de la muestra se juntan las ramas y las hojas del “stem­and­leaf”  y se multiplica por la unidad de la hoja. 

Hay  varias maneras de obtener  un “stem­and­leaf” en MINITAB.  La primera es elegir la  opción  stem­and­leaf  del  menú  Graph,   la   segunda es  elegir   la  opción  Character Graph  del  menú  Graph  y   luego  stem­and­leaf  del   listado  que  aparece.  Finalmente, también  se puede elegir   la  opción  EDA  del  menú  Stat      y  luego  Stem­and­Leaf  del submenú de EDA. 

La   ventana de diálogo para obtener el “stem­and­leaf” de los datos de promedio académico gpa del ejemplo 3.1 es como sigue:

Figura 3.22.  Ventana de diálogo para obtener el “stem­and­leaf” de la variable gpa

La opción By variable  se usa cuando se quiere comparar “stem­and­leaf” de dos o más grupos y aqui se escribe la variable que clasifica en grupos.Si se elige la opción Trim outliers en la ventana de diálogo del “stem­and­leaf” se puede detectar   los   "outliers".  La  opción  Increment  permite  ajustar   el  número de   ramas  del “stem”. En la   ventana  session  aparecerá  el “stem­and­leaf” de la variable  gpa  que se muestra a continuación.

La unidad de la hoja 0.1 indica la posición de una hoja en la escala decimal. O sea 3 | 6 significa 3.6. 

En el ejemplo anterior se han hecho uso de 5 subramas para cada rama principal. Se pueden usar 2 ó 5 subramas por cada rama principal. Si se usa dos subramas, entonces la primera subrama contiene las hojas del 0 al 4 y la segunda las hojas del 5 al 9. En el caso 

44

Page 47: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

de 5 subramas, entonces la primera contiene las hojas 0 y 1, la segunda las hojas 2 y 3 y así sucesivamente hasta la quinta que contiene las hojas 8 y 9. 

Stem­and­Leaf Display: gpa 

Stem­and­leaf of gpa  N  = 28Leaf Unit = 0.10

 1   2  1 4   2  233 5   2  5 7   2  77 9   2  88(7)  3  0001111 12  3  233 9   3  455 6   3  66666 1   3  8

Figura 3.23: Ventana de sesión para una gráfica de caracteres de tallo y hoja para la variable GPA

Frecuentemente, los programas estadísticos como MINITAB,   redondean los datos antes de hacer el “stem­and­leaf”. Por ejemplo si la muestra contiene los datos,93 135 178 245 267 342 307, éstos pueden ser redondeados a  90 130 170 240 340 300 y luego el “stem­and­leaf” tendría las ramas 0,1,2 y 3 con unidad de hoja igual a 10.

Ejemplo 3.5   El impuesto por cajetilla de cigarrillos en Puerto Rico es de 83 centavos. Los siquientes datos muestran los impuestos en los 50 estados de los   Estados Unidos (Nuevo Dia, 4 de Sept. de 1997)

   Estado    tax         Estado    tax           Virg     0.025        DakS 0.330   Kent     0.030        Flor 0.339   CarN     0.050        Nebr 0.340       CarS     0.070        Neva 0.350   Georg    0.120        Iowa 0.360    Wyom     0.120        Mary 0.360   Tenn     0.130        Cali 0.370   Indi     0.155        Maine 0.370   Alab     0.165        Oreg 0.380   Misso    0.170        NewJ 0.400   WestV    0.170        Texas 0.410   Missi    0.180        Wisco 0.440   Mont     0.180        Illin 0.440   Colo     0.200        DakN 0.440   Lousi    0.200        Verm 0.440   NMexi    0.210        Minn 0.480   Oklah    0.230        Conn 0.500   Delaw    0.240        NewY 0.560      Kans     0.240        Ariz 0.580   Ohio     0.240        Hawa 0.600

45

Page 48: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

   NHans    0.250        RhodI 0.610   Utah     0.265        WasDC 0.650   Idaho    0.280        Michi 0.750   Alask    0.290        Massa 0.760     Penn     0.310        Washi 0.825   Arka     0.315

Hacer un  “stem­and­leaf” de los datos.

Solución:  Usaremos la opción Trim de Stem­and­Leaf para detectar  “outliers”.

Stem­and­Leaf Display: tax 

Stem­and­leaf of tax  N  = 51Leaf Unit = 0.010

 2   0  23 4   0  57 7   1  223 13  1  567788 20  2  0013444 24  2  5689(5)  3  11334 22  3  566778 16  4  014444 10  4  8 9   5  0 8   5  68 6   6  01 4   6  5 3   7 3   7  56

HI 82

Interpretación:  El  “stem­and­leaf”   indica  mucha variabilidad  y  asimetría hacia   la  derecha. Además, el estado de Washington representa un “outlier” superior. La unidad  de la hoja es .01, o sea 3  7 representa 0.37.   Se han usado dos subramas por cada  rama principal

3.5 Cálculo de Medidas Estadisticas

Hay dos tipos principales de Medidas Estadísticas: Medidas de Tendencia Central y Medidas de Variabilidad.

Las medidas de tendencia central  dan una idea del centro de la distribución de los datos.   Las   principales   medidas   de   este   tipo   son   la   media   o   promedio   aritmético,   la mediana, la moda y la media podada.

46

Page 49: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Las medidas de variabilidad  expresan el grado de concentración o dispersión de los datos con respecto al centro de la distribución. Entre las principales medidas de este tipo   están   la   varianza,   la   desviación   estándar,     el   rango   intercuartílico.  También  hay medidas de posición, como son los cuartiles, deciles y percentiles. Además, una medida de asimetría (“skewness”) y una medida de aplanamiento (“kurtosis”).

3.5.1 Medidas de Centralidad

La media o promedio  se obtiene sumando todos los datos y dividiendo entre el número de datos.  Es decir, si x1, x2,…,xn, representan las observaciones de una variable X en una muestra de tamaño n, entonces la media de la variable X está dada por:

n

xx

n

ii∑

== 1

Ejemplo 3.6. Supongamos que los siguientes datos representan el precio de 9 casas en miles.

74,   82,   107,   92,   125,   130,   118,   140,   153

Hallar el precio promedio de las casas.

Solución:

                                 4.1139

153140118130125921078274 =++++++++=x

Es decir que el costo promedio de una casa será 113,400.

La media es afectada por la asimetría de la distribución de los datos y por la presencia de “outliers” como se muestra en el siguiente ejemplo.

Ejemplo 3.7.  Supongamos que en el ejemplo anterior se elige adicionalmente una casa cuyo precio es de 500,000.Luego el promedio será:

                         1.15210

500153140118130125921078274 =+++++++++=x

En este caso la media da una idea errónea del centro de la distribución, la presencia del “outlier” ha afectado la media. Sólo dos de las 10 casas tienen precio promedio mayor de 152,100.

47

Page 50: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Otras propiedades de la media son:

a) Que el valor de la media debe estar entre el mayor dato y el menor dato. b) Si a cada dato de la muestra se les suma (o resta) una constante entonces, la media 

queda sumada (o restada) por dicha constante.c) Si a cada dato de la muestra se le multiplica (o divide) por una constante entonces, 

la media queda multiplicada (o dividida) por dicha constante.

Las propiedades b) y c) se usan para hacer cálculos rápidos de la media.

La mediana  es un valor que divide a la muestra en dos partes aproximadamente iguales.  Es decir,  como un 50 por ciento  de los datos de la muestra  serán menores  o iguales que la mediana y el restante 50 por ciento son mayores o iguales que ella.

Para calcular la mediana primero se deben ordenar los datos de menor a mayor. Si el número de datos es impar, entonces la mediana será el valor central. Si el número de datos es par entonces, la mediana se obtiene  promediando los dos valores centrales.

Ejemplo 3.8.  Calcular la mediana de los datos del  Ejemplo 3.6.

Solución:Ordenando los datos en forma ascendente, se tiene: 74,   82,   92,   107,   118,   125,   130, 140,   153.   En este caso el número de datos es impar así que la mediana resulta ser 118 que es el quinto  dato ordenado.

A diferencia de la media, la mediana no es afectada por la presencia de valores anormales, como lo muestra el siguiente ejemplo:

Ejemplo 3.9. Calcular la mediana de los datos del  Ejemplo 3.7.

Solución:Ordenando los datos, se tiene: 74,   82,   92,   107,   118,   125,   130,   140,   153,   500.en este caso el número de datos es par, así que la mediana resulta ser el promedio de los 

dos valores centrales:  2

125118 +=121.5 y el dato anormal 500 no afecta el valor de la 

mediana.

Cuando la distribución es asimétrica hacia la derecha, la mediana es menor que la  media. Si hay asimetría hacia la izquierda entonces la mediana es mayor que la media  y cuando hay simetría, ambas son iguales.

48

Page 51: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

La moda es el valor (o valores) que se repite con mayor frecuencia en la muestra. La Moda puede aplicarse tanto a datos cuantitativos como cualitativos.

Ejemplo 3.10. Los siguientes datos representan el número de veces que 11 personas van al cine mensualmente:  

3,   4,   4,   5,   0,   2,   1,   5,   4,   5,   4Hallar la moda.

Solución:La Moda es 4. O sea que predominan más las personas que asisten 4 veces al mes al cine.

Ejemplo 3.11.  Los siguientes datos representan tipos de sangre de 9 personasA,   O,   B,   O,   AB,   O,   B,   O,   A

Hallar la Moda.

Solución:La Moda es el tipo de sangre  O. 

La media podada  es una medida más resistente  que la media a la presencia de valores anormales. Para calcular la Media Podada, primero se ordenan los datos en forma creciente y luego se elimina un cierto porcentaje de datos (redondear si no da entero) en cada extremo de la distribución, finalmente se promedian los valores restantes.

Ejemplo  3.12. Hallar la media podada del 5 por ciento para los datos del Ejemplo 3.9.Solución:El 5 por ciento de 10 datos es .5 que redondeando  a  1 implica que hay que eliminar el mayor (500) y el menor (74) dato. Luego la media podada del 5 por ciento será

375.1188

1531401301251181079282 =+++++++.

3.5.2  Medidas de Variabilidad

El rango o amplitud es la diferencia entre el mayor y menor valor de la muestra. Mientras mayor sea el rango existe mayor variabilidad. Lamentablemente el rango es bien sensible a la presencia de "outliers".

La varianza es una medida que da una idea del grado de concentración de los datos con respecto a la media.De primera intención una medida para determinar el grado de concentración de los datos 

sería el promedio de las desviaciones con repecto a la media, es decir n

xxn

ii∑

=−

1

)(, pero se 

49

Page 52: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

puede mostrar que la suma de las desviaciones es cero, ya que las desviaciones positivas y negativas se compensan, luego la anterior medida de variabilidad sería siempre 0.

La siguiente tabla ilustra lo anteriormente mencionado para un conjunto de datos.

X x­ x5 ­68 ­312  117  614  310 ­1

Sumas 66  0

La media de la muestra es 11.

Si se cuadran las desviaciones se soluciona  este problema y es así que aparece la varianza.La varianza de una muestra de n datos se calcula por:

1

)(1

2

2

−=

∑=

n

xxs

n

ii

Se divide por n­1  y no por n, porque se puede demostrar teóricamente que cuando se hace esto s2  estima más eficientemente a la varianza poblacional

Alternativamente se puede usar la fórmula:

)1(

)(1

2

1

2

2

−=

∑ ∑= =

nn

xxns

n

i

n

iii

Es bastante  riesgoso usar  solamente el  valor de la varianza  para concluir  que la muestra es muy o poco variable. Su uso es más que todo para comparar la variabilidad de dos o más conjuntos de datos de la misma variable en estudio. Además la varianza tiene el problema de que está expresada en unidades cuadráticas en relación a la medida de los datos tomados.

La desviación estándar es la raíz cuadrada positiva de la varianza y tiene la ventaja que está en las mismas unidades de medida que los datos.  Se representa por s.De por si sola la desviación estándar no permite concluir si la muestra es muy variable o poco   variable.   Al   igual   que   la   varianza   es   usada   principalmente   para   comparar   la variabilidad entre grupos. 

Ejemplo 3.13.  Las muestras siguientes:

50

Page 53: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

muestra116    18     25     28     23     42     24     47     38     19 22    34

muestra2116   118    125    128    123    142    124   147   138     119 122   134

tienen medias 28 y 128 respectivamente, e igual desviación estándar   s = 10.018. O sea que se puede decir    en  términos  absolutos  que tienen  igual  variabilidad.  Sin embargo comparándola  con   los  datos   tomados   se  puede  concluir  que   la  muestra  1   es  bastante variable, mientras que la muestra 2 es poco variable. 

Existe una medida llamada  coeficiente de variación   (CV) y que se calcula por 

xs

CV = ×100% . Si el CV es mayor que 30% la muestra es muy variable y si CV<30% 

entonces no existe mucha variabilidad. Para el ejemplo el CV para la muestra 1 es 35.77 y para la muestra 2 es 7.82 concluyéndose que la muestra 1 es bastante variable y la muestra 2 no lo es.

 Criterio para detectar “outliers”. Un primer criterio para identificar si un dato es un “outlier” es el siguiente: Un dato que cae fuera del intervalo  )3,3( sxsx +−  puede ser considerado un “outlier”.

Aún así el criterio no es muy confiable, puesto que la media, la varianza y la desviación estándar son afectadas por  la presencia de “outliers”.

Ejemplo 3.14. Dada la siguiente muestra

59,   62,   73,   79,    68,   77,   69,   71,   66,   98,   75Determinar si 98 es un “outlier”.

Solución:Como  =x 72.45 y s=10.43. Se tiene que si un dato cae fuera del intervalo (41.15, 103.75) será considerado un “outlier”, 98 cae dentro de dicho intervalo por lo tanto no es “outlier”.

3.5.3.   Medidas de Posición.

Los Cuartiles:  Son valores que dividen a la muestra en 4 partes aproximadamente iguales.  El 25% de los datos son menores o iguales que el cuartil inferior o primer cuartil, representado por Q1. El siguiente 25 % de datos cae entre el cuartil inferior y la mediana, la cual es equivalente al segundo cuartil. El 75 % de los datos son menores o iguales que 

51

Page 54: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

el cuartil superior o tercer cuartil,  representado por Q3, y el restante 25% de datos son mayores o iguales que Q3.

Para   calcular   los   cuartiles   simplemente   se   ordenan   los   datos   y   luego   Q1  es   la mediana de la primera mitad, o sea aquella que va desde el menor valor hasta la mediana. Similarmente Q3 es la mediana de la segunda mitad, o sea aquella que va desde la mediana hasta el mayor valor.

Ejemplo 3.15.  Calcular los cuartiles de las siguientes muestras:

a) 6,  8,  4,  12,  15,  17,  23,  18,  25,  11

Los datos ordenados serán:  4, 6, 8, 11, 12, 15, 17, 18, 23, 25La primera mitad es:  4, 6, 8, 11, 12, luego Q1 = 8La segunda mitad es: 15, 17, 18, 23, 25, luego Q3 = 18

b) 10,  22,  17,  13,  28,  40,  29,  18,  23,  39,  44

Los datos ordenados serán: 10, 13, 17, 18, 22, 23, 28, 29, 39, 40, 44

La primera mitad es: 10, 13, 17, 18, 22, 23, luego Q1 = 2

1817 + = 17.5

La segunda mitad es: 23, 28, 29,39, 40, 44, luego Q3 = 2

3929 + = 34

Una variante en este último caso es no usar la mediana. Es decir considerar que la primera mitad es 10, 13, 17, 18, y 22 y la segunda mitad es 28, 29, 39, 40, y 44. Así Q1 sería 17 y Q3  sería 39. Existen otros métodos de calcular cuartiles, por ejemplo MINITAB usa un proceso de interpolación para calcularlos.A la diferencia de Q3  y Q1  se le llama  Rango Intercuartílico,  ésta es una medida de variabilidad   que   puede   ser   usada   en   lugar   de   la     desviación   estándar,   cuando   hay “outliers”.

Los Deciles:  Son valores que dividen a  la muestra en 10 partes iguales

Los Percentiles:   Dado un cierto porcentaje 100p, donde p varía entre 0 y 1, el percentil  del  100p% es  un  valor   tal  que  100p% de   los  datos  caen  a   la   izquierda  del percentil. En particular, la mediana y los cuartiles son percentiles. El primer cuartil es el percentil de 25%, la mediana es el percentil del 50% y el tercer cuartil es el percentil del 75%.

3.5.4 Cálculo de medidas estadísticas usando MINITAB.

En  MINITAB  se pueden calcular simultáneamente varias medidas estadísticas de centralidad y de variabilidad para un conjunto de datos,  para esto    se elige  la  opción 

52

Page 55: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Display Descriptive Statistics  del submenú  de  Basic Statistics   del  menú  STAT.   La ventana de diálogo de Display Descriptive Statistics para calcular las medidas estadísticas de la variable gpa del Ejemplo 3.1 según sexo aparece de la siguiente manera:

Figura 3.24. Ventana de diálogo para calcular medidas estadísticas de la variable gpa, clasificada por sexo.Los resultados aparecerán en la  ventana Session,  como sigue:

Descriptive Statistics: gpa 

Variable  sexo   N  N*   Mean  SE Mean  StDev  Minimum     Q1  Median     Q3gpa       f     20   0  3.145    0.103  0.463    2.200  2.755   3.290  3.588          m      8   0  3.016    0.187  0.528    2.150  2.555   3.160  3.185

Variable  sexo  Maximumgpa       f       3.660          m       3.860

Donde:N representa el número de datos;N* representa en número de datos perdidos,Mean, la media muestral; Median, la Mediana;  Tr Mean, la media podada del 5 por ciento;StDev, la desviación Estándar;  

SE Mean,  el error estándar de la Media Muestral, o sea n

s y los valores restantes 

representan el Mínimo, el Máximo y los cuartiles superior (Q3)  e inferior (Q1) de cada variable.

Si se oprime el botón  Graphs antes de oprimir OK en la ventana de diálogo anterior se  obtiene   la  siguiente  ventana  de  diálogo  que  permite  hacer  histogramas,  “individual value plot”, y “boxplot”. 

53

Page 56: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Figura 3.25. Ventana de diálogo de la opción Graph de Display Descriptive Statistics

Al  OK dos veces se obtendrán los siguientes resultados:

 Figura 3.26. Gráficas del Histograma con la curva Normal y un “Individual Value Plot”

     También es posible obtener un resumen gráfico del conjunto de datos eligiendo 

Stat­> Basic Statistics ­> Graphical Summary. Los resultados que ofrece Minitab son:

 

Figura 3.27. Resultados de pedir Graphical Summary

Es posible  guardar los valores de varias medidas estadísticas en columnas, para esto se elige la opción  Store Descriptive Statistics  del submenú  Basic Statistics.   Al oprimir   la   opción  Statistics  sale   un   listado   de   medidas   estadisticas   que   pueden   ser guardadas. Las ventanas de diálogo se muestran a continuación: 

54

Page 57: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

 

Figura 3.28.  Listado de todas las medidas estadísticas que  pueden calucularse con  MINITAB

Finalmente,   también   es   posible   obtener   medidas   estadísticas,   eligiendo   la   secuencia CALCColumns Statistics.

3.6 El Diagrama de Caja (“Boxplot”)

El “Boxplot” es una importante gráfica del  Análisis Exploratorio de Datos. Al igual que el histograma y el  “stem­and­leaf”, permite tener una idea visual de la distribución de los  datos.  O  sea,  determinar   si  hay   simetría,  ver   el  grado de  variabilidad  existente  y finalmente detectar   “outliers”.   Pero además, el “Boxplot”   es bien   útil para comparar grupos, es una alternativa gráfica a la prueba estadística  t de Student, si se comparan dos grupos o la prueba F del análisis de varianza si se comparan más de dos grupos. Todo lo anterior es posible debido a que se puede hacer múltiples  boxplots en una misma gráfica, en cambio los histogramas y  “stem­and­ leaf” salen en secuencia uno por página.

En MINITAB hay varias maneras de obtener el “Boxplot” de un conjunto de datos, la primera es eligiendo la opción Boxplot del menú  Graph.  En la Figura 3.24 se muestra las   ventanas de diálogo para obtener el boxplot de la variable  creditos  de los datos del Ejemplo 3.1.

La variable Y que aparece debajo de Graph Variables es aquella de la cual se desea obtener el “Boxplot”, y la variable  X  es usada solo en el caso que se quiera comparar varios  grupos  usando sus  “boxplots”.  Por  ejemplo  X  puede ser:    Sexo de   la  persona, método de Enseñanza, etc.En  Annotation  se puede poner título,  notas al pie,   marcar la mediana   y también los “outliers”

En  Options  se puede elegir  Transpose X   by Y  para sacar  el  boxplot  en forma horizontal.

55

Page 58: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

  

Figura 3.29. Ventanas de diálogo para hallar el Boxplot

El boxplot  que se obtiene se muestra a continuación.

Figura 3.30.  “Boxplot” para la variable créditos del Ejemplo 3.1

Interpretación: La línea central de la caja representa la Mediana y los lados de la caja  representan los cuartiles. Si la Mediana está bien al centro de la caja, entonces hay  simetria. Si  la Mediana está  más cerca a Q3 que a Q1 entonces la asimetría es hacia la  izquierda,  de   lo  contrario     la  asimetría  es  hacia   la  derecha.  Si   la  caja  no es  muy alargada entonces se dice que no hay mucha variabilidad. 

Si no hay “outliers” entonces   las  líneas laterales de la caja   llegan hasta el  valor mínimo por abajo, y hasta el valor máximo por arriba. Cuando hay “outliers” entonces éstos  aparecen  identificados  en  la  figura y  las   lineas   laterales   llegan  hasta   los valores adyacentes   a   las   fronteras   interiores.     Si   las   lineas   laterales   son   bastantes   alargadas entonces significa que los extremos de la distribución de los datos se acercan lentamente al eje X.

56

Page 59: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Las fronteras interiores  se calculan como Q1 ­ 1.5RIQ y  Q3 + 1.5RIQ respectivamente, donde RIQ = Q3­Q1 es el Rango Intercuartílico. Las fronteras exteriores se calculan por Q1 ­ 3RIQ  y  Q3 + 3RIQ. Si un valor cae más alla de las fronteras exteriores se dice que es un "outlier" extremo, en caso contrario el outlier es moderado. Un "outlier" moderado se representa por * y uno extremo por 0.

En el “boxplot” de créditos la mediana es 113, y hay dos “outliers”  inferiores 13 y 15. Hay asimetría hacia la izquierda y no hay mucha variabilidad. 

Una segunda manera de obtener un “boxplot” es eligiendo la opción Character Graphs del menú Graph y luego boxplot del listado que aparece. En este caso el “boxplot” es de modo texto. Pero aquí se puede notar que los “outliers” son extremos.

MTB > BoxPlot 'créditos'.     

Boxplot                                                ­­­­­­­­­­­               OO                   ­­­­­­­­­­­­I      +  I­­­­                                                 ­­­­­­­­­­­                   +­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­­­­­créditos          0        25        50        75       100       125

Otra alternativa de hacer un boxplot en MINITAB es elegir la opción EDA del menú Stat y luego seleccionar  boxplot  del listado que aparece. Aqui el boxplot que resulta es de modo gráfico.

3.7 Organización y Presentación de datos Bivariados

3.7.1  Datos bivariados categóricos.

Para organizar datos de dos variables categóricas o cualitativas   se usan   tablas de doble  entrada.  Los  valores  de  una  variable  van  en  columnas  y  los  valores  de   la  otra variable van en filas. Para hacer esto en  MINITAB  se elige la opción  Tables del menú Stat. y luego la opción Cross Tabulation del submenú deTables.

Hay dos maneras de usar Cross Tabulation dependiendo de como se han entrado los datos. Primero, cuando los datos de cada variable están dados en dos columnas distintas. O sea, como si hubiesen  sido las contestaciones de un cuestionario.  

57

Page 60: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Ejemplo 3.16.  Supongamos que deseamos establecer si  hay relación entre las  variables tipo de escuela superior y la aprobación de la primera clase de matemáticas que toma el estudiante en la universidad, usando los datos de 20 estudiantes que se muestran abajo:

Est escuela aprueba Est escuela aprueba        1   priv     si          11    públ    si2   priv     no          12    priv    no 3   públ      no      13  públ    no 4   priv      si          14    priv    si5   públ      si          15    priv    si 6   públ      no          16    públ    no7   públ      si          17    priv    no 8   priv      si          18    públ    si9   públ      si          19    públ    no 10  priv      si          20    priv    si

Asumiendo que los datos son entrados en dos columnas: C1: Escuela y C2: aprueba, la ventana de diálogo de Cross Tabulation and Chi­Square se completerá como aparece en la siguiente figura:

Figura 3.31. Ventana de diálogo para hacer una tabla de contigencia de escuela versus aprueba

El contenido de la tabla de session es el que sigue.

58

Page 61: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Tabulated statistics: escuela, aprueba 

Rows: escuela   Columns: aprueba

            no      si     All

priv         3       7      10            30      70     100         37.50   58.33   50.00            15      35      50

públ         5       5      10            50      50     100         62.50   41.67   50.00            25      25      50

All          8      12      20            40      60     100        100.00  100.00  100.00            40      60     100

Cell Contents:      Count                    % of Row                    % of Column                    % of Total

Interpretación: Cada celda contiene 4 valores: La Frecuencia Absoluta,  el porcentaje  que representa la celda con respecto al total de la fila, el procentaje que representa la  celda con respecto al total de la columna, el porcentaje que representa la celda con respecto al  total  global.  Por ejemplo,  si  cogemos los números de la  primera celda,  significa que hay 7 estudiantes que son de escuela privada y aprueban el examen. Un  70% de los estudiantes  de escuela privada aprueban el  examen, 58.33% de los que aprueban el examen son de escuela privada y 35% son estudiantes de escuela pública y aprueban el examen.

La   segunda   situación   donde  Cross   Tabulation  es   usada,   es   cuando   las   frecuencias absolutas de cada celda están totalizados, como en el siguiente ejemplo.

Ejemplo 3.17.   Los siguientes   datos se han recopilados para tratar de establecer si hay relación entre el Sexo del entrevistado y su opinión con respecto a una ley del Gobierno.

Sexo Opinion Conteomale   si       10male  no       20male   abst     30female si       15female no       31female abst     44

Usar  MINITAB  para   construir   una   tabla   de   contingencia   y   responder   además   las siguientes preguntas:a) ¿Qué porcentaje de los entrevistados son  mujeres que se abstienen de opinar?b) De los entrevistados varones. ¿Qué porcentaje está en contra de la ley?c) De los entrevistados que están a favor de la ley. ¿Qué porcentaje son varones?

59

Page 62: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

d) De los que no se abstienen de opinar ¿Qué porcentaje son varones?

Solución:En   este   caso   se   entra   la   columna   c3   (‘conteo’   )   en   la   ventanita   correspondiente   a Frequencies  are  in  que aparece  en  la  ventana  de dialogo de  Cross Tabulation  .  Los resultados serán como sigue:

Tabulated statistics: Sexo, Opinion 

Using frequencies in Conteo

Rows: Sexo   Columns: Opinion

            abst      no      si     All

female        44      31      15      90           48.89   34.44   16.67  100.00           59.46   60.78   60.00   60.00           29.33   20.67   10.00   60.00

male          30      20      10      60           50.00   33.33   16.67  100.00           40.54   39.22   40.00   40.00           20.00   13.33    6.67   40.00

All           74      51      25     150           49.33   34.00   16.67  100.00          100.00  100.00  100.00  100.00           49.33   34.00   16.67  100.00

Cell Contents:      Count                    % of Row                    % of Column                    % of Total

a) %33.2910015044 =×

b)  %33.331006020 =×  (20/60)x100=33.33%

c)  %00.401002510 =×  (10/25)x100=40.00%

d)  =×++

100)5125()2010(

  %00.391004630 =×

Cuando se tiene dos variables categóricas se pueden hacer gráficas de barras agrupadas ("bars in clusters") o en partes componentes ("stacked bars") para visualizar la relación entre ellas.

Ejemplo 3.18. Hacer una gráfica de barras agrupadas para mostrar la distribución de los estudiantes por sexo según programa académico para los datos del Ejemplo 3.1.

60

Page 63: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Para hacer una gráfica de barras agrupadas se debe elegir Cluster en la ventana de diálago principal. Luego, en la segunda ventana, se eligen las variables que se utilizarán. Como se quiere una gráfica  de estudiantes  por programa por sexo,  se elige primero  la  variable programa y luego la varible sexo.

    

Figura 3.32. Ventana de diálogo para hacer una gráfica de barras agrupadas

Oprimiendo la opción Labels, se puede especificar el título de la gráfica y las etiquetas de las columnas.   

Luego, se obtiene la siguiente gráfica de barras agrupadas

Figura 3.33. Gráfica de barras agrupadas de variable programa según sexo

  Ejemplo   3.19.    La   siguiente   tabla   muestra   el   número   de   estudiantes   subgraduados matriculados en el Recinto Universitario de Mayaguez de la Universidad de Puerto Rico en el primer semestre del año académico 96­97.  

61

Page 64: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

                         Facultad Hombres MujeresArtes y Ciencias 1713 2492Admistración de Empresas 637 1257Ingeniería 2885 1720Agricultura 806 331

Hacer una gráfica de barras agrupadas para comparar el número de estudiantes por sexo en cada facultad.

Solución:  Primero que nada hay que entrar los datos en 3 columnas:  Facultad,  Sexo  y cantidad.  Luego se elige  Graphs­> Bar  Chart.  Las  opciones  de  la  primera  ventana  se eligen como se muestra en la Figura 3.34.

  Figura 3.34. Ventana de diálogo para la gráfica de barras agrupadas del Ejemplo 3.19.

Luego   de   escribir   el   título   deseado   en  Labels,   se   oprime  ok  para   obtener   la siguiente gráfica.

62

Page 65: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Figura 3.35. Gráficas de barras agrupadas para la variable Facultad según Sexo.

Ejemplo 3.20.   Hallar una gráfica de partes componentes para comparar los estudiantes (por programa) según el tipo de escuela de donde proceden, usando datos del ejemplo 3.1.

Solución: Bajo la opción de  Gráfica ­> Bar  Chart, las opciones que se muestran en la figura 3.31.

  

Figura 3.36: Ventanas de diálogo para una gráfica de partes componentes

Luego, en la ventana de  Scale ­> Axes and Ticks  elija la opción “Transpose value and category scales” y en la ventana de  Labels  coloque el título de la gráfica y los valores correspondientes a las barras. La gráfica resultante se muestra en la Figura 3.37.

Figura 3.37. Gráfica de barras en partes componentes para la variable Programa según Escuela

63

Page 66: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Algunas  veces   ocurre   que  una  variable   cuantitativa   es   convertida   en   categórica agrupándola en clases o grupos. Por ejemplo, la edad puede ser convertida en cualitativa si se consideran grupos de edades. Similarmente, años de educación pueden ser convertida en cualitativa si se consideran niveles de educación.

Ejemplo 3.21.  La siguiente gráfica muestra la distribución de la población en Puerto Rico según grupos de edades y por sexo.

                   Figura 3.38: Distribución de la población por grupo de edades en Puerto Rico

3.7.2 Datos que contienen una variable cualitativa y otra cuantitativa

Un ejemplo de un conjunto de dos variables en el cual una variable es cualitativa y la otra cuantitativa puede el conjunto compuesto por método de enseñanza (cualitativa) y nota obtenida por el estudiante (cuantitativa). Otro ejemplo sería, el conjunto compuesto por   la  variable  cualitativa  profesión de una persona  y   la  variable  cuantitativa  salario anual.

La   forma   estándar   de  presentar   los   datos   es   en   columnas  donde   cada   columna representa   un   valor   de   la   variable   cualitativa   y   los   valores   dentro   de   cada   columna representan valores  de la  variable  cuantitativa.  En general  el  objetivo es comparar   los valores de la variable cualitativa según los valores de la variable cuantitativa, esto se lleva a cabo con una técnica llamada análisis de varianza (ver capítulo 10).

La gráfica más adecuada para representar este tipo de información es el "Boxplot". La gráfica de la Figura 3.39 muestra  los “boxplots” de los promedios académicos de los estudiantes varones y mujeres del Ejemplo 3.1.

64

Page 67: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Interpretación: De la gráfica se puede ver que en promedio las mujeres tienen mejor  promedio  académico  (GPA)  que  los  hombres,  y  que   la  distribución de sus  GPA es  ligeramente más variable. Además no hay  “outliers”.

Figura 3.39: Boxplot para comparar los promedios de hombres y mujeres

3.7.3 Datos Bivariados Continuos

 Si se quiere representar la relación  entre dos variables cuantitativas entonces se usa un diagrama de dispersión (“Scatterplot”).  Para obtener un diagrama de dispersión entre dos variables X e Y se usa la opción Scatterplots del menú Graph.  La ventana de diálogo para hacer el diagrama de dispersión del promedio académico (gpa) versus el tamaño de la familia usando los datos del Ejemplo 3.1 es la siguiente:

   Figura 3.40: Ventanas de diálogo para obtener el plot de gpa versus familia. 

La gráfica se muestra en la siguiente figura, donde además cada punto es marcado con el

65

Page 68: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Figura 3.41: Plot de gpa versus familia marcando cada punto con el programa del estudiante

programa al cual pertenece el estudiante, ésto se consigue eligiendo la opción Labels ­>  Data Labels y luego entrando la variable programa en la ventanita correspondiente a  Use  labels from column.  Para cambiar de símbolo, colores y tamaños a los puntos del plot, oprima el  botón de  la   izquierda  del   ratón dos  veces  seguidos  sobre  cualquiera  de  los símbolos para abrir la opción Edit Attributes.

Ejemplo 3.22.  Es bien frecuente tener datos de una variable para un período de tiempo (dias,  meses   o   años),   estos   tipos   de  datos   son   llamados   series   cronológicas   o   series temporales. Para este tipo de datos se pueden hacer gráficos de barras (aunque éstas son 

66

1950

1951

1952

1953

1954

1955

1956

1957

1958

1959

1960

1961

1962

1963

1964

1965

1966

1967

1968

1969

1970

1971

1972

1973

1974

1975

1976

1977

1978

1979

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

0

1000000

2000000

3000000

4000000

5000000

year

num

ero 

de v

isita

ntes

Numero visitantes a Puerto Rico desde 1950 a 1998

Hecho por Edgar Acuna

1950

1951

1952

1953

1954

1955

1956

1957

1958

1959

1960

1961

1962

1963

1964

1965

1966

1967

1968

1969

1970

1971

1972

1973

1974

1975

1976

1977

1978

1979

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

0

1000000

2000000

3000000

4000000

5000000

year

num

ero 

de v

isita

ntes

Numero visitantes a Puerto Rico desde 1950 a 1998

Hecho por Edgar Acuna

Page 69: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

inadecuadas si el período de tiempo es muy grande) y gráficas lineales.  Las siguientes gráficas se refieren al número de visitantes a Puerto Rico desde 1950 hasta 1998.Figura 3.42 Gráfica de barras del número de                 Figura 3.43 Gráfica de barras del número visitantes a Puerto Rico entre 1950­1998.                     de visitantes a Puerto Rico entre 1950­1998.

3.8 El Coeficiente de Correlación

El   coeficiente   de   correlación   lineal,   llamado   también   coeficiente   de   correlación   de Pearson, se representa por r y es una medida que representa el grado de asociación entre dos variables cuantitativas  X e Y. Se calcula por 

Donde:

n

xxS

n

iin

iixx

∑∑ =

=

−= 1

2

1

2

)(  ,      

n

yyS

n

iin

iiyy

∑∑ =

=

−= 1

2

1

2

)(    y      

n

yxyxS

n

i

n

iiin

iiixy

∑ ∑∑ = =

=

−= 1 1

1

))((

Sxx  es   llamada  la  Suma de Cuadrados  corregida  de X,   Syy  es   la  Suma de Cuadrados Corregida de Y, y Sxy es la Suma de Productos de X  e Y. Tanto Sxx como Syy no pueden ser negativas, Sxy si puede ser positiva o negativa.

La correlación varia entre ­1 y 1.  Un valor de r cercano a 0 indica una relación lineal muy pobre entre las variables. Un valor cercano a 1 indica que hay una buena relación lineal entre la variable y además al aumentar una de ellas la otra también aumenta. Un valor cercano a     –1 indica una buena relación lineal pero al aumentar el valor de una de las variables  la otra disminuye.

En términos generales un valor de correlación mayor que 0.75 ó menor que ­0.75 indica una buena relación lineal entre las variables. Aunque el tipo de datos que se está usando influye en el momento de decidir si la correlación es suficientemente alta. Si los datos   provienen   de   un   área   donde   se   exige   mucha   precisión,   como   en   ingeniería   o medicina entonces la correlación debe estar lo más cerca posible a 1 ó –1, en áreas como economía o en ciencias  sociales  una correlación de 0.6   en valor absoluto pudiera ser considerada aceptable. Pero si hay un consenso general que una correlación entre ­0.3 y 0.3 es indicativo de una relación lineal bastante pobre entre las dos variables.

Ejemplo 3.23. El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes  datos representan los años de experiencia  (X) y  las  unidades de carros vendidas al año (Y), de 10 vendedores de la empresa. 

67

yyxx

xy

SS

Sr =

Page 70: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

X(años) 3 4 6 7 8 12 15 20 22 26

Y(ventas) 9 12 16 19 23 27 34 37 40 45

Haciendo uso de la calculadora de MINITAB. Se obtienen los siguientes resultados

Row   years   ventas   Sxx      Syy     Sxy          r

   1      3       9   590.1   1385.6   889.4   0.983593   2      4      12                                       3      6      16                                       4      7      19                                       5      8      23                                       6     12      27                                       7     15      34                                       8     20      37                                       9     22      40                                      10     26      45                                    

 Interpretación: Existe una buena relación lineal entre los años de experiencia y las unidades   que vende el vendedor. Además mientras más experiencia tiene el vendedor más carros venderá.  Se   puede   usar   los   años   de   experiencia   para   predecir   las   unidades   que   venderá  anualmente a  través de una linea recta.

En  MINITAB,   el   coeficiente   de   correlación   se   puede   obtener     eligiendo   la   opción correlation del submenú Basic Statistics del menú Stat. 

Ejemplo 3.24. La siguiente salida muestra la correlación entre el tamaño de la familia del estudiante y su promedio académico gpa del Ejemplo 3.1.

Correlations (Pearson)

Correlation of gpa and familia = 0.061

Interpretación: La correlación de .061 indica una muy pobre relación lineal entre las variables familia  y   gpa.  No   tiene   sentido  predecir   el   promedio  académico  del   estudiante   usando   el  tamaño de su familia a través de una linea recta.

68

Page 71: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

La  Figura 3.36, muestra cuatro diagramas de dispersión y sus respectivas  correlaciones. Notar que en los dos últimos plots la correlación es cercana a cero, pero en el primero de ellos  no  parece  haber  ningún   tipo  de   relación  entre   las  variables,  en   tanto  que  en  el segundo no hay relación lineal pero si existe una relación cuadrática. 

69

Page 72: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

                                  Figura 3.44: Valor de la correlación para diversos plots. 

El valor de correlación es afectado por la presencia de valores anormales, en la siguiente gráfica se puede ver el efecto de los valores anormales en el valor de la correlación para 4 diferentes relaciones.

Figura 3.45: Efectos de valores anormales en la correlación

70

0 5 10 15 20 25

10

20

30

40

X

Y

10 20 30 40

80

90

100

110

120

130

140

150

X

Y

5 10 15

70

80

90

X

Y

1 2 3 4 5 6 7

4

9

14

X

Y

Coeficiente de Correlacion para diversos plots 

r=.107r=.005

r=­.993r=.984

0 5 10 15 20 25

0

20

40

60

80

100

120

X

Y

0 10 20 30 40 50 60

10

20

30

40

X

Y

0 10 20 30 40

0

10

20

30

40

50

60

70

80

90

X

Y

0 5 10 15 20 25

0

5

10

15

20

25

30

35

40

45

X

Y

Efecto de valores anormales en el valor de la correlacion

r=.974r=.984

r=.319r=.371

Page 73: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Interpretación de la figura 3.45: En el primer caso existe un valor bastante anormal en  la dirección vertical que hace que la correlación sea bastante bajo a pesar de que los  otros valores parecen estar bastante alineados.  En el  segundo caso, existe  un valor  bastante alejado horizontalmente de la mayor parte de los datos y que hace que la  correlación sea relativamente baja a pesar de que los otros valores muestran una alta  asociación lineal. 

En el   tercer  caso  hay,  una observación  bastante  alejado  en  ambas  direcciones   sin  embargo no tiene ningun efecto en la correlación.  

En el cuarto caso, hay un valor bastante alejado en ambas direcciones y las restantes  observaciones están poco asociadas,  pero el  valor anormal hace que el  valor de la  correlación sea bastante alto.

El   cuadrado   del   coeficiente   de   correlación   expresado   en   porcentaje   es   llamado   el Coeficiente de Determinación (R2).  Un R2 mayor de 70% indica una buena asociación lineal entre las variables X e Y.

3.9 Una introducción a Regresión Lineal.

Si se ha determinado que la correlación lineal entre las variables Y y X es aceptable entonces el próximo paso es determinar la línea que representa la tendencia de la relación entre las dos variables cuantitativas, ésta es llamada la  linea de regresión estimada.  La variable Y es considerada como la variable dependiente o de respuesta y la variable X es considerada la variable independiente o predictora. La ecuación de la línea de regresión es

YŁ = α +  β X, 

donde:  α es el intercepto con el eje Y,   y    β   es la pendiente de la linea de regresión. Ambos son llamados los coeficientes de la línea de regresión. 

Los     estimadores  α    y    β   son hallados usando el método de mínimos cuadrados, que consiste en minimizar la suma de los errores cuadráticos de las observaciones con respecto a la línea. Las fórmulas de cálculo son:

xx

xy

s

s=β    y   xy βα ˆˆ −=

donde  x  es la media de los valores de la variable X y  y es la media de los valores de Y. 

71

Page 74: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Interpretación de los coeficientes de regresión:La pendiente  β  se interpreta como el cambio promedio en la variable de respuesta Y cuando la variable predictora X se incrementa en una unidad adicional.El   intercepto  α   indica  el  valor  promedio  de  la  variable  de respuesta  Y cuando  la variable  predictora  X vale  0.  Si  hay  suficiente  evidencia  de  que X no  puede ser  0 entonces no tendría sentido la interpretación de α

En MINITAB,  es posible obtener simultáneamente, el “scatterplot”, el coeficiente R2 y la línea   de regresión. Para esto, se sigue la secuencia Stat Regression Fitted line Plot como se muestra en  Figura 3.46:

Figura 3.46: Las opciones del menú regression

Ejemplo 3.25.   Supongamos que se desea establecer una relación entre la nota que un estudiante obtiene en la parte de aprovechamiento matemático de ingreso (CEEB) y el Promedio académico al final de su primer año de universidad (GPA). Se toma una muestra de 15 estudiantes y se obtiene los siguientes datos:

Est    CEEB    GPA   1    425   2.81   2    495   2.56   3    600   2.92   4    610   3.18   5    612   2.51   6    648   3.43

72

 Est CEEB GPA  8 660 3.16  9 665 2.73  10 670   2.82  11 720   3.04  12 710   2.42  13 735   2.97  14 780   3.33  15 790   3.12

Page 75: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

   7    652   2.72

Obtener el diagrama de dispersión de  los datos, la ecuación de la línea de regresión y trazar la línea encima del diagrama de dispersión.

Solución:  Primero hay que notar que la variable independiente   es CEEB y la variable dependiente esGPA. Luego,  la  ventana de diálogo para la opción Fitted line Plot lucirá como sigue:

Figura 3.47: Ventana de diálogo para obtener el diagrama de dispersión y la linea de regresión de gpa versus familia

y  la gráfica aparecerá como

CEEB

GPA

800700600500400

3.50

3.25

3.00

2.75

2.50

S 0.291371R-Sq 12.1%R-Sq(adj) 5.4%

Regresión de GPA versus CEEBGPA = 2.210 + 0.001087 CEEB

Figura 3.48: Diagrama de puntos y linea de regresión de gpa versus familia

Interpretación: El coeficiente de determinación es  .121 y como la pendiente de la línea  de regresión es positiva resulta ser que la correlación es .11, esto indica una pobre  relación lineal entre las variables CEEB y GPA. O sea que es poco confiable predecir  GPA basado en el CEEB usando una linea.

73

Page 76: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

La ecuación de la línea de regresión aparecerá en la ventana session

Regression

The regression equation isy = 2.21 + 0.00109 x

Predictor       Coef       StDev          T        PConstant      2.2099      0.5319       4.15    0.001x          0.0010872   0.0008122       1.34    0.204

S = 0.2914      R­Sq = 12.1%     R­Sq(adj) = 5.4%

Interpretación:  La  pendiente    0.00109   indica  que  por  cada  punto  adicional   en  el  College Board el promedio del estudiante subiría en promedio en 0.00109, o se podría decir que por cada 100 puntos más en el College Board el promedio académico del  estudiante subiría en  .109.  Por otro lado,  si consideramos que es  imposible  que un  estudiante sea admitido sin tomar el College Board, podemos decir que no tiene sentido  interpretar el intercepto.

El uso de los botones     Options   y   Storage    y de otros aspectos de regresión serán discutidos más detalladamente en el capítulo 8 de este texto.

Predicción

Uno de los mayores usos de la línea de regresión es la predicción del valor de la variable   dependiente   dado   un   valor   de   la   variable   predictora.   Esto   se   puede   hacer fácilmente sustituyendo el valor dado de X en la ecuación.

Por  ejemplo,   supongamos  que  deseamos  predecir   el  promedio  académico  de  un estudiante que ha obtenido 600 puntos en la parte matemática  del examen de ingreso. Sustituyendo   x   =600   en   la   ecuación   de   la   línea   de   regresión   se   obtiene Y=2.21+.00109*600=2.21+.654=2.864. Es decir que se espera que el estudiante tenga un promedio académico de 2.86.

MINITAB  también   tiene  una  opción  que  permite   hacer   predicciones   pero,   esto   será tratado en el capítulo 9 del texto.

74

Page 77: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

EJERCICIOS

1. La siguiente tabla representa el crecimiento poblacional y vehicular de Puerto Rico desde 1950.

Año Población Vehículos1950 2,200,000 57,1201960 2,345,000 172,0771970 2,710,000 478,3401980 3,182,328 1,129,3121990 3,522,037 1,582,0611996 3,782,862 2,168,697

Hacer una gráfica que represente la información dada.

2. La siguiente tabla representa los porcentajes de familias americanas en diversos niveles de ingreso en 1969 y 1994.

Ingreso year 1969 year 1994Less 10,000 7.9 8.7

10,000 ­ 14,999 6.7 6.915,000 ­ 24,999 15.8 15.025,000 ­ 34,999 19.1 14.335,000 ­ 49,999 24.7 18.050,000 ­ 74,999 17.8 19.975,000 ­ 99,999 5.0 8.8

100,000 and over 2.9 8.4

a) Hacer una gráfica de barras que permita comparar como han cambiado los porcentajes de familias a varios niveles de ingreso de 1969 a 1994. Comentar la gráfica.

b) Hacer un pie­chart para ver la distribución de personas por nivel de ingreso en los dos años.

3. La siguiente tabla muestra los casos reportados y las muertes por SIDA en Puerto Rico desde 1992 hasta 1996.

Númerode casos

tipo año

2386 reportados 921633 muertos 922619 reportados 931647 muertos 932253 reportados 941211 muertos 941903 reportados 95800 muertos 95

1152 reportados 96259 muertos 96

75

Page 78: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

Hacer una gráfica de Barras agrupadas para representar la información.4. Hacer un"Pie Chart" para representar la siguiente información

Casos de SIDA en Puerto Rico desde 1992

Región CasosAguadilla 600Mayaguez 930

Arecibo 1199Ponce 3602

Bayamón 3220San Juan 2334Caguas 2352Fajardo 608

5. Los siguientes datos representan tiempos de sobrevivencia (en dias) de 30 pacientes aquejados de cáncer

42  45  51  46  340   81  243  63  155  151  37  138  245  377  537  455  776163  20  1234  201  2970  456  1235  1581 40  3808  1804  719  365

a) Calcular la media, la mediana y la desviación estándar. Comentar sus resultados.b) Hacer el histograma de los datos y comentar la gráfica.c) Hacer el "stem­and­leaf".d) Hacer el "Boxplot" de los datos y comentar la gráfica.

6. Elegir la mejor contestación en cada una de las siguientes preguntas

I. ¿Cuál de las siguientes afirmaciones es FALSA?

a) Una variable es cualitativa si los valores que asume expresan atributos o categorias.b) Tipo de sangre es una variable cualtitativa.c) La Mediana puede usarse cuando los datos son cualitativos.d) Un gráfico de barras se usa cuando los datos son cualitativos.

II. ¿Cuál de las siguientes afirmaciones es CIERTA?

a) La muestra al azar es aquella que hace que la  media de la muestra sea igual a la media poblacional.

b) La varianza de una muestra siempre es mayor que la varianza poblacional porque en la primera se  divide por n­1.

c) En la fórmula de la varianza de la muestra se divide por n­1 porque excluyendo un dato se obtiene un mejor estimado de la varianza poblacional.

d) Una muestra al azar hace que la media muestral sea un estimado bastante confiable de la media poblacional.

III. ¿Cuál de los siguientes enunciados es CIERTO?

a) La media es una mejor medida que la mediana cuando todos los datos son pequeños.

76

Page 79: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

b) La mediana es afectada por la presencia de outliers.c) La varianza es afectada por la presencia de outliers.d) La media es mejor medida que la mediana cuando la muestra es asimetrica a la derecha.IV. Un histograma es asimétrico hacia la derecha.

a) Si todos los datos son positivos.b) Si  para  valores  bajos  de   la  variable   la   frecuencia  es  alta,  y  para  valores  grandes   la 

frecuencia es baja.c) Si  para  valores  bajos  de   la  variable   la   frecuencia  es  baja,  y  para  valores  grandes   la 

frecuencia es alta.d) Si la media de los datos es positivo.

V. ¿Cuál de las siguientes afirmaciones con respecto a la amplitud de clase es FALSA?

a) La amplitud es igual al rango o alcance dividido entre el número de clases.b) La amplitud es igual a la diferencia de dos marcas de clases consecutivas.c) La amplitud de una clase es CERO si su frecuencia absoluta es CERO.d) La amplitud es igual a la diferencia de dos limites inferiores de clases consecutivas.

VI. ¿Cuál de las siguientes afirmaciones es CIERTA?

a) El stem­and­leaf es una mejor gráfica que el histograma cuando existen outliers.b) El stem­and­leaf  sólo se usa para valores positivos.c)  El stem­and­leaf es una mejor gráfica que el histograma cuando los datos son solamente 

números enteros.d)   El stem­and­leaf permite recuperar los datos de la muestra lo cual  no se puede hacer con 

el histograma.

7. Dado el siguiente stem­and­leaf 

  2  34578  3  459  4  21  5  0   Si, la unidad de la hoja=.01.¿Cuál de los siguientes enunciados es FALSO?

a) 5 | 0 representa 0.50.b) La muestra tiene 11 datos.c) La muestra es asimétrica a la izquierda .d) La mediana es 0.34.

 8. ¿Cuál de los siguientes enunciados es FALSO?

a) El rango intercuartílico es una medida de variabilidad.b) Si la desviación estandar es grande no se puede concluir que la muestra tenga mucha 

variabilidad.

77

Page 80: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

c) Un dato es considerado un outlier si es un número positivo  bien grande.d) Un dato   es considerado un outlier extremo si cae fuera del intervalo (Q1­3RIQ , Q3+ 

3RIQ).

9. ¿Cuál de los siguientes no es un método de Muestreo?

 a) Sistemático   b) Estocástico   c) Estratíficado     d) Por Conglomerados.

10. ¿Cuál de las siguientes afirmaciones es CIERTA?

a) El parámetro es un valor que varía con la muestra tomada.b) El valor estadístico por lo general permanece constante.c) Una   muestra   al   azar   es   aquella   que  hace  que   la   media  muestral     sea  un   estimador 

confiable de la media poblacional.d) Un Censo es un listado de todos los elementos de una muestra.

11. ¿Cuál de las siguientes afirmaciones es FALSA?

a) Una variable es cuantitativa discreta si los valores que asume resultan de hacer conteos.b) La opinión  que expresa  una persona es una variable cualitativa.c) La Media puede usarse cuando los datos son cualitativos.d) Un gráfico de barras se usa cuando los datos son cualitativos.

12. ¿Cuál de los siguientes NO es una gráfica para datos cualitativos?

a) Pie­ Chart    b) Gráficas de barras agrupadas  c) El dotplot  d) Ninguna de las anteriores

13. ¿Cuál de las siguientes No es una acción  que se puede hacer al elegir el botón  Annotation de las  ventana Histogram?

a) Poner título a la gráfica.b) Poner notas al pie de la gráfica.c) Indicar cuántos datos hay en cada intervalo de clase.d) Poner nombre a los ejes coordenados.

14. La opción del menú TABLES  que se usa para obtener una tabla de frecuencias en MINITAB es:

a) FREQUENCIES    b) TABLE    c)    COUNT   d) TALLY 

15. Los   resultados  de   ejecutar   los   comandos   en  MINITAB  eligiendo   las   opciones  del  menú aparecen en la ventana

a) PROJECT     b) WORKSHEET      c) SESSION     d) FILE 

16. ¿Cuál de los siguientes enunciados es CIERTO?

78

Page 81: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

a) La mediana  es siempre un dato de la muestra tomada.b) El "dotplot" es una gráfica para distribución de datos discretos.c) El tiempo de espera para que un estudiante escoja sus secciones en la matricula es una 

variable cuantitativa discreta.d) Si el tamaño de la muestra es n entonces la mediana es n/2.

17. Marcar con una C si  es cierto y  una  F si es falso en cada uno de los siguientes enunciados.

a) La mediana  es siempre un dato de la muestra tomada.b) El parámetro es un valor que caracteriza a la muestra.c) El   número de carros que pasan por una estación de peaje entre las 7am y 9am es una 

variable cualitativa continua.d) Las gráficas Circulares y de Barras se usan para presentar datos cualitativos.e) Si el tamaño de la muestra es n, entonces la mediana es (n+1)/2.f) El comando PRINT en MINITAB se usa para imprimir los resultados en el papel .g) Un Censo es un listado de todos los elementos de la población.

18. Los   siguientes  datos   representan  el  número  de   asesinatos   reportados  durante  15   fines  de semana en una ciudad:

4   5   0   5   3   2   1   4   3   2   4   4   1   12   5

a) ¿Cuál es el número promedio de asesinatos durante los fines de semana?b) ¿Cuál es el número más frecuente de asesinatos en los fines de semana?c) ¿Piensa Ud. que 12 es un valor anormal? Justifique su contestación.

19. La  siguiente tabla muestra la distribución de frecuencias de una muestra de los tiempos  (en minutos) que tienen que esperar las personas para ser atendidos en un Banco:

    Intervalos   Frec. Abs    Frec. Rel.       Frec. Abs.       Frec. Rel.    de clases          f              Porcentual     Acumul.       Porc. Acum..    1.0 ­ 4.9           3    5.0 ­ 8.9         10    9.0 ­ 12.9       14  13.0 ­ 16.9       25 17.0  ­ 20.9       17 21.0 ­  24.9         9 25.0  ­ 28.9         2

a) ¿Cuál es la amplitud de cada clase?b) ¿Cuál es la marca de clase  (midpoint) de la tercera clase?c) ¿Cuál es el tamaño de la muestra?d) Cálcular las frecuencias relativas porcentuales y las frecuencias acumuladas.e) Hacer el histograma y comentar acerca de su forma.

20. Una muestra tiene el siguiente BOXPLOT

79

*

Page 82: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

                                         6         8                11         12                16Poner una X  al lado de las afirmaciones que son CIERTAS

a) La muestra es asimétrica hacia la izquierda.b) El dato menor es 6.c) Existe mucha variabilidad.d) La media de la muestra es 10.e) El  *  representa un valor mayor que 18.f) La frontera exterior superior es 25.g) El valor adyacente inferior es 6.h) El valor mayor es 16.

21. Los siguientes datos representan la tasa de criminalidad  por cada 100000 habitantes en cada estado de los Estados Unidos.

STATE Murder Rape Robbery Assault Burglary Larceny AutoAlabama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7Alaska 10.8 51.6 96.8 284 1331.7 3369.8 753.3Arizona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5Arkansas 8.8 27.6 83.2 203.4 972.6 1862.1 183.4California 11.5 49.4 287 358 2139.4 3499.8 663.5Colorado 6.3 42 170.7 292.9 1935.2 3903.2 477.1Connecticut 4.2 16.8 129.5 131.8 1346 2620.7 593.2Delaware 6 24.9 157 194.2 1682.6 3678.4 467Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4Georgia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9Hawaii 7.2 25.5 128 64.1 1911.5 3920.4 489.4Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6Illinois 9.9 21.8 211.3 209 1085 2828.5 528.6Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9Kansas 6.6 22 100.7 180.5 1270.4 2739.3 244.3Kentucky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4Louisiana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7Maine 2.4 13.5 38.7 170 1253.1 2350.7 246.9Maryland 8 34.8 292.1 358.9 1400 3177.7 428.5Massachusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1Michigan 9.3 38.9 261.9 274.6 1522.7 3159 545.5Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4Missouri 9.6 28.3 189 233.5 1318.3 2424.2 378.4Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.2Nebraska 3.9 18.1 64.7 112.7 760 2316.1 249.1Nevada 15.8 49.1 323.1 355 2453.1 4212.6 559.2New Hampshire 3.2 10.7 23.2 76 1041.7 2343.9 293.4New Jersey 5.6 21 180.4 185.1 1435.8 2774.5 511.5New Mexico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5New York 10.7 29.4 472.6 319.1 1728 2782 745.8North Carolina 10.6 17 61.3 318.3 1154.1 2037.8 192.1

80

Page 83: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

North Dakota 0.9 9 13.3 43.8 446.1 1843 144.7Ohio 7.8 27.3 190.5 181.1 1216 2696.8 400.4Oklahoma 8.6 29.2 73.8 205 1288.2 2228.1 326.8Oregon 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9Pennsylvania 5.6 19 130.3 128 877.5 1624.1 333.2Rhode Island 3.6 10.5 86.5 201 1489.5 2844.1 791.4South Carolina 11.9 33 105.9 485.3 1613.6 2342.4 245.1South Dakota 2 13.5 17.9 155.7 570.5 1704.4 147.5Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5Vermont 1.4 15.9 30.8 101.2 1348.2 2201 265.2Virginia 9 23.3 92.1 165.7 986.2 2521.2 226.7Washington 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3West Virginia 6 13.2 42.2 90.9 597.4 1341.7 163.3Wisconsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282

a) Hacer  un  histograma  con 7 clases de la variable robo de auto. Comentar la gráfica.b) Escoger cualquiera de las otras variables y hacer lo siguiente:

i) Hacer un stem­and­leaf. Comentar su gráfica.ii) Hacer un boxplot. Comentar su gráfica.

22. Suponga que una Worksheet de MINITAB tiene 3 columnas: La primera es llamada Casos y contiene  la cantidad de casos de SIDA reportados  en Puerto Rico desde 1992 hasta 1996, la segunda columna llamada Tipo indica si son nuevos casos de SIDA en el año o si son casos de muertes por Sida, la tercera columna llamada year, contiene los años de la ocurrencia de los casos. Se desea hacer una gráfica de barras agrupadas.  Indicar cómo se debe llenar la columna Y, la columna X   y la columna Group variables de la ventana Chart y la ventana Chart­Options , las cuales se muestran en las siguientes figuras.

81

Page 84: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

23. Comentar la siguiente gráfica.

24. Los siguientes datos representan la duración en horas de un cierto tipo de baterias

0.4   1.5   0   0.9   0.8   1.2   1.1   1.4   2.3   1.3   2.2   1.6   2.1   1.2   2.4  1.9  2.9  1.7

a) Hacer el "stem­and­leaf" de los datos, usando subramas si es necesario. Indicar la unidad de la  hoja y comentar la forma de la gráfica.

82

KFC          ( 58,  9.8%)

Burger King  (113, 19.2%)

Others       (208, 35.3%)

Taco Maker   ( 63, 10.7%)

Pizza Hut    ( 51,  8.6%)

McDonal's    ( 97, 16.4%)

Distribucion de restaurantes de comida rapida en Puerto Rico

Page 85: Estadistica con Mitab.pdf

Edgar Acuña                                              Capítulo 3    Estadística Descriptiva 

b) ¿Cuál es el tiempo promedio de la duración de las baterias?c) ¿Cuál es el tiempo  más frecuente de duración de las baterias?d) Hallar la mediana de los tiempos de duración.e) Hallar la media podada del 10% de los tiempos de duración.

25. En un país  se  eligen 10 pueblos  al  azar y  se  anota  el   ingreso personal  promedio de  los habitantes (en miles) y la tasa de divorcio (por cada 1000 personas). Usar  la siguiente tabla de datos para responder las siguientes preguntas.

Obs  Ingreso  Divorcio            X           Y              X2         Y2         XY­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­   1       7.7        7.2           59.29    51.84    55.44   2      10.9       3.3          118.81   10.89    35.97   3      10.1       2.9          102.01     8.41    29.29   4       9.3        3.7           86.49    13.69    34.41   5       9.9        4.4           98.01    19.36    43.56   6       9.2        4.1           84.64    16.81    37.72   7       6.5        6.9           42.25    47.61    44.85   8     10.0        3.4         100.00    11.56    34.00   9       9.4        3.0           88.36     9.00     28.20  10      8.7        3.2           75.69    10.24    27.84..­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­Sumas 91.7     42.1          855.55  199.41  371.28

a) Hacer un plot de los datos.b) Hallar el coeficiente de correlación r e interpretarlo.c) Hallar la línea de regresión estimada e interpretar las constantes α  y  β .d) Trazar la línea de regresión sobre el plot de la parte a).e) Hallar la tasa de divorcio estimada  si el ingreso es de 11,000.

83

Page 86: Estadistica con Mitab.pdf

CAPÍTULO 4

CONCEPTOS BÁSICOS DE PROBABILIDADES

La teoría de probabilidades tuvo su comienzo con los problemas de juegos al azar que fueron propuestos a Pascal y Fermat por Cavalier de Mere a mediados de 1600. Al inicio del siglo XVII, se publicó el libro de Jacobo Bernoulli titulado Arts Conjectandi (El Arte de Conjeturar) donde se trataba los experimentos obtenidos por repeticiones independientes de experimentos simples que tienen sólo dos resultados posibles. Más tarde, en ese mismo siglo, De Moivre introdujo la curva Normal. Durante el siglo XIX Laplace presentó la definición clásica de probabilidad en su libro Theorie analytique des probabilities, lamentablemente esta definición no es muy precisa y tiene limitaciones. Para esa misma época, los estudios de Gauss acerca de los Mínimos Cuadrados contribuyeron a dar más importancia a la curva Normal.

Sin embargo las probabilidades no fueron consideradas como una parte de las matemáticas hasta que en 1933 apareció la definición axiomática en el libro Foundations of the theory of probability escrito por Kolmogorov. Otros matemáticos rusos como Liapunov y Kinthchine también contribuyeron en esta etapa.

En la sección 1 de este capítulo primero definimos lo que es un Experimento Aleatorio y luego Espacios Muestrales y Eventos. En la sección 2, se considera las diferentes definiciones de Probabilidad comenzando con la definición axiomática seguida de la definición clásica, la frecuencial y la subjetiva. La sección 3 trata de Probabilidad Condicional e incluye también la regla de Probabilidad Total y la Regla de Bayes. La sección 4 de este capítulo es acerca de la Independencia de Eventos. En la última sección nos ocupamos del Cálculo de Probabilidades usando técnicas de Análisis Combinatorio.

4.1 Espacio Muestral y Eventos

4.1.1 Experimentos Aleatorios y Espacios Muestrales

Un experimento es una observación de un fenómeno que ocurre en la naturaleza. Hay dos tipos de experimentos:

Experimentos Determinísticos: Son aquellos en donde no hay incertidumbre acerca del resultado que ocurrirá cuando éstos son repetidos varias veces. Por ejemplo, Medir el área de un salón de clase. Medir la estatura de una persona adulta. En ambos casos una vez que se conoce el resultado del experimento en una repetición, entonces se sabe con certeza lo que ocurrirá en la siguiente repetición.

Page 87: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Experimentos Aleatorios: Son aquellos en donde no se puede anticipar el resultado que ocurrirá, pero si se tiene una completa idea acerca de todos los resultados posibles del experimento cuando éste es ejecutado. Además, asumiendo que el experimento se puede repetir muchas veces bajo las mismas condiciones se pueden tratar de construir un modelo que represente el comportamiento del experimento. A continuación algunos ejemplos:

Exp 1: Lanzar un dado y anotar el número que aparece en la cara superior.Exp 2: Lanzar un par de monedas y anotar el resultado que aparece en cada una de ellas.Exp 3: Un vendedor de la Enciclopedia Británica visita tres casas ofreciendo la

colección y se anota V si vende o N si no vende en cada casa.Exp 4: Se anota el número de boletos de lotería que hay que comprar hasta ganarse

el premio mayor.Exp 5: Se anota el tiempo que hay que esperar para ser atendidos en un Banco.

Espacio Muestral: Es el conjunto de posibles resultados de un experimento aleatorio. Representaremos el espacio muestral por S y cada elemento de él es llamado un punto muestral. A continuación daremos los espacios muestrales de cada uno de los experimentos anteriores.

{ }6,5,4,3,2,11 =S

{ }X XX CC XC CS ,,,2 =

{ }NNNNVNNNVVNNNVVVNVVVNVVVS ,,,,,,,3 =

{ },. ..6,5,4,3,2,14 =S

{ } [ )∞≡≥= ,00:5 tts

Los espacios muestrales cuyos elementos resultan de hacer conteos son llamados espacios muestrales discretos y por lo general son subconjuntos de los números enteros. Algunos de estos espacios muestrales tienen un número finito de elementos y otros no.

De los espacios muestrales mencionados anteriormente 1S , 2S y 3S son espacios muestrales discretos finitos, en tanto que 4S es un espacio muestral discreto infinito.

Los espacios muestrales cuyos elementos resultan de hacer mediciones son llamados espacios muestrales continuos y por lo general son intervalos en la recta Real. 5S es un espacio muestral continuo.

83

Page 88: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

4.1.2. Eventos

Un Evento es un resultado particular de un experimento aleatorio. En términos de conjuntos, un evento es un subconjunto del espacio muestral. Por lo general se le representa por las primeras letras del alfabeto. A continuación daremos ejemplos de eventos correspondientes a los experimentos aleatorios definidos anteriormente.

A: Que salga un número par al lanzar un dado.

{ }6,4,2=A

B: Que salga por lo menos una cruz.

{ }XXX CC XC CB ,,,=

C: Que el vendedor de enciclopedias venda a lo más una de ellas.

{ }NNNNVNNNVVNNNVVVNVVVNVVVC ,,,,,,,=D: Que se gane el premio mayor con menos de 9 boletos comprados.

{ }8,7,6,5,4,3,2,1=D

E: Que haya que esperar más de 10 minutos para ser atendidos.

{ } ( )∞≡>= ,1010: ttE

Evento Nulo: Es aquél que no tiene elementos. Se representa por φ.

El espacio muestral también puede ser considerado como un evento y es llamado el Evento Seguro.

En lo que estaremos interesados es en calcular la probabilidad de ocurrencia de eventos, y para esto lo más importante es determinar el número de elementos que hay en el evento más que describir todos los elementos del mismo. En la Sección 5 veremos el uso de técnicas de análisis combinatorio para determinar el número de elementos de un espacio muestral y de eventos.

Figura 4.1: Diagrama de Venn de BA ∪

84

BAS

Page 89: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

4.1.3. Relaciones entre eventos

Unión de eventos: Dados dos eventos A y B de un mismo espacio muestral su unión se representa por BA ∪ y es el evento que contiene los elementos que están en A o en B, o en ambos. El evento BA ∪ ocurre si al menos uno de los dos eventos ocurre. Dada una

colección nAA ,...,1 de eventos, su unión denotada por n

iiA

1= ocurre si al menos uno de los

)1(, niAi ≤≤ ocurre. En la Figura 4.1 está representada la unión de dos eventos usando el Diagrama de Venn.

Intersección de eventos: Dados dos eventos A y B de un mismo espacio muestral su intersección se representa por BA ∩ y es el evento que contiene los elementos que están en A y B al mismo tiempo. El evento BA ∩ ocurre cuando los eventos ocurren simultáneamente.

Figura 4.2: Diagrama de Venn de BA ∩

Algunas veces en este texto también denotaremos la intersección de los eventos A y B por AB o por A y B.Si φ=∩ BA entonces se dice que A y B son Mutuamente excluyentes o disjuntos.

Dada una colección nAA ,...,1 de eventos, su intersección denotada por ∩n

iiA

1= ocurre si

todos los eventos )1(, niAi ≤≤ ocurren a la vez.

Figura 4.3: Diagrama del complemento de A

85

A

A

S

BA ∩

BAS

Page 90: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Evento Complemento: El complemento de un evento A se representa por A y es el evento que contiene todos los elementos que no están en A. El evento A ocurre si A no ocurre.

Propiedades de relaciones entre eventos

Sean A, B y C elementos de un mismo espacio muestral S entonces, las siguientes propiedades son ciertas.

1. Propiedad ConmutativaABBA ∪=∪ABBA ∩=∩

2. Propiedad AsociativaCBACBA ∪∪=∪∪ )()(CBACBA ∩∩=∩∩ )()(

3. Propiedad Distributiva

)()()( CABACBA ∪∩∪=∩∪)()()( CABACBA ∩∪∩=∪∩

4. Leyes de De Morgan

a) BABA ∩=∪

b) BABA ∪=∩

Todas estas propiedades se pueden aplicar a más de dos eventos.

La parte a) de la ley de De Morgan significa que lo opuesto a que al menos uno de los eventos A y B ocurra es que ninguno de los dos ocurra.

La parte b) significa que ambos eventos no ocurren simultáneamente si al menos uno de ellos no ocurre.

Las generalizaciones de las leyes de De Morgan para una colección de eventosnAA ,...,1 , son las siguientes:

a’) ∩n

ii

n

ii AA

11 ==

=

b’) ∩n

ii

n

ii AA

11 ==

=

86

Page 91: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Es decir, lo opuesto a que al menos un evento ocurra es que ninguno ocurra, y lo opuesto a que todos los eventos ocurran simultáneamente es que al menos uno de ellos no ocurra.

4.2 Métodos de asignar Probabilidades

4.2.1 Método Axiomático

La Probabilidad es considerada como una función de valor real ( )⋅P definida sobre una colección de eventos de un espacio muestral S que satisface los siguientes axiomas:

1. ( ) 1=SP

2. Si A es un evento de S entonces ( ) 0≥AP .

3. Si ....,,...,1 nAA , es una colección de eventos disjuntos (por pares) entonces

∑∞

=

=

=11

)()(i

ii

i APAP . Esta es llamada el axioma de aditividad contable.

Asumiendo que φ=== ++ . ..21 nn AA se sigue del axioma 3 que

∑==

=n

ii

n

ii APAP

11

)()( , ésta es llamada la propiedad de aditividad finita.

Propiedad 1 ( ) 0=φP

Propiedad 2 )(1)( APAP −=

Propiedad 3. Si BA ⊆ entonces ( ) ( )BPAP ≤

Considerando SB = , se concluye de la propiedad 3 que P(A) < 1 para cualquier evento A

de S.

87

Page 92: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Propiedad 4. Regla Aditiva de la Probabilidad

)()()()( BAPBPAPBAP ∩−+=∪

Figura 4.4: Diagrama de Venn de las regiones de A ∪ B.

Viendo la Figura 4.4, es claro que )( BAABA ∩∪=∪ y que )()( BABAB ∩∪∩= donde las uniones del lado derecho son disjuntas (ver Figura). Luego, por el Axioma 3 se tiene que )()()( BAPAPBAP ∩+=∪ y )()()( BAPBAPBP ∩+∩= . Restando ambas igualdades se obtiene que

)()()()( BAPAPBPBAP ∩−=−∪ de donde se obtiene la regla aditiva.

Las relaciones ente las probabilidades de dos eventos A y B también pueden resumirse en la siguiente tabla de doble entrada:

A A

B )( BAP ∩ )( BAP ∩ )(BP

B )( BAP ∩ )( BAP ∩ )(BP)(AP )(AP 1

Ejemplo 4.1. Juan y Luis están solicitando ser admitidos en una univeridad. La probabilidad de que Juan sea admitido es 0.7 y la probabilidad de que Luis sea admitido es 0.6. La probabilidad de que ambos sean admitidos es .45.

a) ¿Cuál es la probabilidad de que solamente uno de ellos sea admitido?b) ¿Cuál es la probabilidad de que al menos uno de ellos sea admitido?c) ¿Cuál es la probabilidad de que ninguno de los dos sea admitido?

Solución:

Aún cuando podemos aplicar las propiedades anteriores, el problema puede ser resuelto de dos maneras:

i) Usando un diagrama de Venn:

88

BA ∩ BA ∩

A B

BA ∩

Page 93: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Primero se determina la probabilidad de ocurrencia de cada región, empezando por la interseción, como se muestra en la Figura 4.5.

Sean los eventos J: Que Juan sea admitido y L: Que Luis sea admitido. Luego,

a) La probabilidad de que sólo uno de ellos sea admitido es 40.15.25.)()( =+=∩+∩ LJPLJP

b) La probabilidad de que al menos uno de ellos sea admitido es 8 5.)( =∪ LJPc) La probabilidad de que ninguno de ellos sea admitido es 1 5.)( =∩ LJP

ii) Usando una tabla de clasificación cruzada:

En este caso se llenan las celdas de una tabla de doble entrada, cada entrada de la tabla representa la probabilidad de ocurrencia de un evento. En este caso sería

J JL .45 .15 .6L .25 .15 .4

.7 .3 1.0

Las celdas que aparecen en claro fueron datos del problema, las que aparecen en gris se llenaron aplicando propiedades.

Figura 4.5: Diagrama de Venn para el Ejemplo 4.1.

Ejemplo 4.2. Una empresa tiene dos maneras A y B de presentar un nuevo producto al mercado. Si presenta el producto de la manera A la probabilidad de que el producto sea exitoso es 0.44 y si lo presenta de la manera B la probabilidad de éxito se reduce a 0.29. La probabilidad de que el producto fracase con ambas maneras de presentación es 0.37. ¿Cuál es la probabilidad de que el producto sea exitoso con ambas formas de presentación?

Solución:

89

.25 .45 .15

J LS

.15

Page 94: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Sean los eventos A: Que el producto sea exitoso con la manera A y B: que el producto sea exitoso con la manera B. Tenemos que hallar )( BAP ∩ . Por la ley de De Morgan se obtiene que 37.)()( =∩=∪ BAPBAP . Así, 63.37.1)(1)( =−=∪−=∪ BAPBAP . Luego aplicando la regla aditiva se obtiene que la probabilidad de que el producto sea exitoso con ambas maneras de presentación es:

10.63.29.44.)()()()( =−+=∪−+=∩ BAPBPAPBAP

La Figura 4.6 muestra el diagrama de Venn correspondiente.Usando una tabla de doble entrada se tendría lo siguiente:

A AB .10 .19 .29B .34 .37 .71

.44 .56 1.0

Figura 4.6: Diagrama de Venn para el Ejemplo 4.2.

La propiedad 4 se puede aplicar a más de dos eventos. Asi para tres eventos A, B y C se tiene que:

)()()()()()()()( CBAPCBPCAPBAPCPBPAPCBAP ∩∩+∩−∩−∩−++=∪∪

Ejemplo 4.3. Rosa, Carmen y Alberto estudian juntos para un examen. La probabilidad de que Rosa pase es 0.65, de que Carmen pase es 0.75 y de que Alberto pase es 0.50. La probabilidad de que Rosa y Carmen pasen es 0.55, de que Carmen y Alberto pasen es 0.35 y de que Rosa y Alberto pasen es 0.25. La probabilidad de que los tres pasen es 0.20. ¿Cuál es la probabilidad de que:

a) Al menos uno de ellos pase el examen?b) Solamente uno de ellos pase el examen?c) Carmen y Alberto pasen el examen pero no Rosa?d) Alberto no pase el examen pero sí al menos una de las mujeres?e) Ninguno pase el examen?

Solución:

90

.34 .10.19

.37

Page 95: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

La mejor manera de resolver el problema es hacer un diagrama de Venn para él mismo y determinar la probabilidad de ocurrencia de cada región, esto se muestra en Figura 4.7.

Figura 4.7: Diagrama de Venn para el Ejemplo 4.3.

Luego,a a) 9 5.)( =∪∪ ACRPb) 20.10.05.05.)()()( =++=∩∩+∩∩+∩∩ ACRPACRPACRPc) 1 5.)( =∩∩ ACRPd) 45.05.35.05.))(( =++=∩∪ ARCPe) 1 5.)( =∩∩ ACRP

4.2.2. Método Clásico

Un espacio muestral finito }, .. .,{ 1 nwwS = se dice que es Equiprobable si cada uno de sus

elementos tiene la misma probabilidad de ocurrencia, es decir n

wP i1)( = para todo

ni ,...,1= .

Ejemplo 4.4. Se lanza un par de dados legales y distinguibles, entonces su espacio muestral dado por:

( ){ }6,5,4,3,2,1,:, == jijiS tiene 36 resultados, cada uno de ellos con probabilidad de ocurrencia 361 .

Ejemplo 4.5. De una urna que contiene 5 bolas rojas y 3 negras se extraen dos bolas, una por una y con reposición, entonces el espacio muestral:

91

R C

.15

.05 .05

.10

.15.05

.35

.20

A

Page 96: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

{ }N NN RR NR RS ,,,=

S tiene 4 resultados posibles los cuales no ocurren con la misma probabilidad por haber distintos números de bolas de cada color. Más adelante se verá que ( ) 6 42 5=R RP , ( ) 649=N NP y ( ) ( ) 641 5== N RPR NP .

Definición. Si un experimento aleatorio tiene un espacio muestral equiprobable S que contiene ( )S# elementos y A es un evento de S que ocurre de ( )A# maneras disintas entonces la probabilidad de ocurrencia de A es:

)(#)(#)(

SAAP =

Ejemplo 4.6. ¿Cuál es la probabilidad de que salga suma mayor que 7 al lanzar un par de dados?

Solución:

El evento A: Suma mayor que 7, incluye los resultados que dan suma 8, 9, 10, 11 ó 12 y éstos ocurren de 5, 4, 3, 2 y 1 maneras repectivamente. Luego ( ) 15# =A . En el Ejemplo 5 se vio que ( ) 36# =S , por lo tanto ( ) 3615=AP .

Ejemplo 4.7. Un oficial de matrícula asigna 2 estudiantes: A y B a 4 secciones: 4,3,2,1 SSSS de un curso son asignados al azar. ¿Cuál es la probabilidad de que:

a) Los dos estudiantes sean asignados a la misma sección? b) Ningún estudiante sea asignado a la sección S3?c) Al menos un estudiante sea asignado a la sección S1?

Solución: La siguiente tabla representa el espacio muestral del experimentoS1 S2 S3 S4 S1 S2 S3 S4 A B - - B - A - A - B - B - - AA - - B - A B -AB - - - - A - B - AB - - - B A -- - AB - - B - A- - - AB - - A BB A - - - - B -

a) Sea el evento A: Los dos estudiantes son asignados a la misma sección

( )1 6

4)(#)(# ==

SAAP

92

Page 97: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

b) Sea el evento B: Ningún estudiante es asignado a la sección S3

( )1 6

9)(#)(# ==

SBBP

c) Sea el evento C: Al menos un estudiante es asignado a la sección S1.

( )1 67

)(#)(# ==

SCCP

Ejemplo: 4.8. 3 carros: A, B y C se estacionan en fila. ¿Cuál es la probabilidad de que A y C queden estacionados uno detrás del otro?

Solución:El siguiente es el espacio muestral del experimento:

E1 E2 E3 A B C A C B B A C B C A C A B C B A

Sea el evento A: Que los carros A y B quedan estacionados uno detrás del otro. Luego,( ) 6 6 6.064 ==AP .

Ejemplos más complicados requieren la aplicación de técnicas de conteo para determinar el número de maneras como puede ocurrir el experimento y el evento deseado. Estas técnicas son descritas en detalle en la Sección 5 de este capítulo.

4.2.3 Método Frecuencial

Si un experimento se repite n veces y ( )An de esas veces ocurre el evento A,

entonces la frecuencia relativa de A se define por nAnf A

)(= .

Se puede notar que:a) 1=Sfb) 0≥Afc) Si A y B son eventos disjuntos entonces BABA fff +=∪

Es decir Af satisface los axiomas de probabilidad.

Definición. La probabilidad del evento A es el valor al cual se aproxima Af cuando el experimento se ha repetido un gran número de veces. O sea:

93

Page 98: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

)()( APnAn →

La probabilidad es el valor en el cual se estabiliza la frecuencia relativa del evento después de haber repetido el experimento un número grande de veces. La existencia de este valor está garantizando por un resultado llamado La Ley de los Grandes números. Desde el punto de vista práctico se puede considerar que la frecuencia relativa de un evento es un estimado de la probabilidad de ocurrencia del evento.

El problema principal de la definición frecuencial de probabilidad es que, el cálculo de la probabilidad de un evento sería un proceso demasiado lento. El otro problema es que algunas veces es imposible tener un número grande de repeticiones del experimento, por ejemplo, si se desea calcular la probabilidad de que una persona en particular sobreviva una operación quirúrgica, tendríamos que tener información acerca de todas las operaciones de dicha persona, la cual por lo general es muy baja.

Ejemplo 4.9. Según los datos de la siguiente tabla, la probabilidad de que nasca un varón en Estados Unidos es 0.513.

Año

3,159,958

0.5133340

3,326,632

0.5128058

Nacimientos Frecuencia relativa de varones

3,629,2380.5125792

1974 3,159,958 0.51333401975 3,144,198 0.5130513

1976 3,167,788 0.51279821977 3,326,632 0.51280581978 3,333,279 0.5128266

1979 3,494,398 0.5126110

94

Page 99: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

1980 3,612,258 0.5128692

1981 3,629,238 0.5125792

4.2.4 Estimando la probabilidad de ocurrencia de un evento

Con la ayuda de la computadora se puede simular la ejecución de un experimento un gran número de veces y haciendo uso de la definición frecuencial se puede estimar la probabilidad de ocurrencia de un evento.

Ejemplo 4.10. Supongamos que lanzamos un par de dados legales y tratamos de estimar la probabilidad de obtener suma 7.

Solución:

Esta probabilidad puede ser determinada exactamente a través del espacio muestral del experimento y es igual a 1 66 6.0613 66 == . Sin embargo, nosotros la podemos estimar a través de simulaciones. Para esto elegimos la opción Random Data del menú Calc y luego la opción Sample from columns del submenú de Random Data. Ahora generamos 100 resultados posibles del primer dado y los guardamos en la columna C2 y luego 100 resultados posibles del segundo dado y los guardamos en C3. También se puede generar 200 datos y guardarlos en C2 y C3 (100 en cada una). La ventana de diálogo se muestra abajo. C1 contiene los números 1, 2, 3, 4, 5, 6.

95

Page 100: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Figura 4.8. Ventana de diálogo para la opción Samples from columns del menú Random Data.

El próximo paso es calcular la suma de los dos dados. Esto se obtiene eligiendo la opción Row Statistics del menú Calc. De todas las medidas que aparecen se elige Sum y se guardan los resultados en C4. La ventana de diálogo es como sigue.

96

Page 101: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Figura 4.9. Ventana de diálogo de Row Statistics del menú Calc

Luego se construye una tabla de distribución de frecuencias eligiendo Tables de Stat seguido de Tally de Tables. Los resultados aparecen en la ventana session y son como sigue:

Summary Statistics for Discrete Variables C4 Count Percent 2 3 3.00 3 8 8.00 4 9 9.00 5 19 19.00 6 10 10.00 7 14 14.00 8 13 13.00 9 13 13.00 10 2 2.00 11 7 7.00 12 2 2.00 N= 100

De acuerdo a esta tabla la probabilidad de obtener suma 7 es 0.1400. Para refinar el estimado repetimos el experimento un mayor número de veces. Los resultados aparecen en la siguiente tabla:

Número de Repeticiones

Probabilidad Estimada de obtener Suma 7

100 .1400500 .1820

1000 .17102000 .15805000 .1692

Se puede estimar la probabilidad de sacar suma 7 como 0.16 que está bastante cerca del valor exacto.

4.2.5 Método Subjetivo

Algunas personas de acuerdo a su propio criterio generalmente basado en su experiencia, asignan probabilidades a eventos, éstas son llamadas probabilidades subjetivas. Por ejemplo:

La Probabilidad de que llueva mañana es 40%.

97

Page 102: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

La Probabilidad de que haya un terremoto en Puerto Rico antes del 2000 es casi cero.La Probabilidad de que el caballo Camionero gane el clásico del domingo es 75%.

Puesto que las probabilidades subjetivas dependen de la persona que las hace se vuelven bien imprecisas y algunas veces puede haber una gran disparidad en las probabilidades que las personas asignan al mismo evento, especialmente cuando es poco o bastante probable que ocurra.

Sin embargo probabilidades subjetivas son usadas frecuentemente en Estadística Bayesiana, en donde las probabilidades de ocurrencia de un evento que se van modificando según la información que uno recoje acerca de otros eventos que puedan afectarlo.

4.3 Probabilidad Condicional

Sean A y B dos eventos de un mismo espacio muestral S. La probabilidad condicional de A dado que B ha ocurrido esta dado por:

)()()/(

BPBAPBAP ∩=

Esto es equivalente a que el espacio muestral S se ha reducido al evento B (Ver Figura 4.10).

Figura 4.10. Diagrama de Venn de P(A/B)

Si el espacio muestral S es equiprobable lo anterior se convierte en:

)(#)(#)/(

BBABAP ∩=

Ejemplo 4.11. Se lanza un par de dados legales y distinguibles. ¿Cuál es la probabilidad de que solamente uno de los dos dados sea par si se sabe que la suma de los dos es mayor que 8?

98

BA ∩

BA

S

Page 103: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Solución:Sean los eventos A: Que solamente uno de los dos dados sea par y el evento

condicionante B: Que la suma sea mayor que 8. Claramente ( ) 10# =B y ( ) 6# =∩ BA . Luego ( ) 1 06/ =BAP .

Ejemplo 4.12. ¿Cuál es la probabilidad de que en una familia con tres hijos el menor de ellos sea varón si el mayor lo es?

Solución:Sean los eventos, A: El menor de los hijos es varón y el evento condicionante B: El hijo mayor es varón. De los 8 resultados del espacio muestral, claramente se tiene que

( ) 4# =B y en consecuencia ( ) 21/ =BAP . Este resultado era esperado porque en teoría el sexo de uno de los hijos no afecta el sexo de los otros por venir.

Ejemplo 4.13. En una ciudad se hizo una encuesta acerca de la opinión de las personas adultas con respecto a una ley del gobierno. La siguiente tabla muestra los resultados de la encuesta clasificados según el sexo del entrevistado.

A Favor En contra Abstenidos

Total

22

43

20

85

Total

Hombre

12

2810151237

8 48

Mujer 10 15 12 37Total 22 43 20 85

Se elige al azar una persona

a) ¿Cuál es la probabilidad de que favorezca la ley si resulta ser Mujer?b) ¿Cuál es la probabilidad de que sea Mujer si resulta estar en contra de la ley?c) ¿Cuál es la probabilidad de que sea Hombre si la persona elegida no se abstuvo

de opinar?

Solución:a) ( ) 3 71 0/ =MFP

99

Page 104: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

b) ( ) 4 31 5/ =CMPc) ( ) 6540/ =F U CHP

4.3.1 Regla del Producto.

)/()()( ABPAPBAP =∩

La fórmula se obtiene despejando de la fórmula de probabilidad condicional. Se usa para calcular la probabilidad de que dos eventos ocurran al mismo tiempo.

Ejemplo 4.14. Una urna contiene 3 bolas rojas y 4 bolas blancas. Se extraen al azar dos bolas de la urna una por una y sin reposición. ¿Cuál es la probabilidad de que:

a) ambas bolas sean rojas?b) la segunda bola sea roja?c) sólo una de las dos bolas sea roja?

Solución:La forma más fácil de resolver el problema es haciendo un diagrama de árbol.

Figura 4.11: Diagrama de árbol para Ejemplo 4.14Luego,

a) ( ) 71627321 =×=RRPb) ( ) ( ) ( ) 7342186374627321212 ==×+×=+= RBPRRPRPC) ( ) ( ) 744224637464732121 ==×+×=+ RBPBRP

Ejemplo 4.15. Según la Comisión Electoral de un país, el 90 por ciento de las esposas votan si sus esposos lo hacen, y el 20 por ciento vota si su esposo no lo hace. Además el 70 por ciento de los hombres casados votan. Se elige al azar un matrimonio. ¿Cuál es la probabilidad de que:

100

1R

1B

2R

2B2R

2B

2/6

4/6

3/6

3/6

3/7

4/7

7/16/27/3)( 21 == xRRP

7/26/47/3)( 21 == xBRP

7/26/37/4)( 21 == xRBP

7/26/37/4)( 21 == xBBP

Primera Bola Segunda Bola

Page 105: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

a) ambos esposos voten?b) sólo uno de los esposos vote?c) vote la esposa?d) al menos uno de los esposos vote?

Solución:Sean los eventos V1: Que vote el esposo y V2: Que vote la esposa. El problema puede ser representado por el diagrama de árbol de la Figura 4.12.

Luego,a) 63.09.07.0)( 21 =×=VVPb) 13.02.03.01.07.0)()( 2121 =×+×=+ VVPVVPc) ( ) 69.006.063.0)()( 21212 =+=+= VVPVVPVPd) 76.063.069.07.0)( 21 =−+=∪ VVP

Figura 4.12. Diagrama de árbol para Ejemplo 4.15.

La regla del producto se puede aplicar a más de dos eventos de la siguiente manera: ).../().../()/()()...( 112131211 −∩∩∩∩ nnn AAAPAAAPAAPAPAAP

Evidentemente que el uso de un diagrama del árbol se vuelve inadecuado cuando n es grande.

Ejemplo 4.16. Un lote contiene 10 artículos de los cuales 4 son defectuosos, se extraen al azar 3 articulos uno por uno y sin reposición. ¿Cuál es la probabilidad de que:

a) Los tres salgan buenos?b) Sólo uno de los tres salga defectuoso?

101

1V

2V

2V

2V

.9

.1

.2

.8

.3

2V

.7

1V

P(V1V

2)=(.7)(.9)=.63

P(V1)=(.7)(.1)=.07

P(V2)=(.3)(.2)=.06

P()=(.3)(.8)=.24

Esposo Vota Esposo Vota

Page 106: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Solución:a) Sea el evento iB que el i-ésimo artículo resulte bueno para ( )3,2,1=i . Luego, la

probabilidad de que los tres salgan buenos es:

( ) ( ) ( ) ( ) 618495106// 213121321 =××== BBBPBBPBPBBBP

b) Sea el evento iD que el i-ésimo artículo resulte defectuoso para 3,2,1=i .( ) ( ) ( ) ( )

21849510685941068596104321321321

=××+××+××=++= DBBPBDBPBBDPdefectuosounsoloP

4.3.2 Probabilidad Total y Regla de Bayes

Regla de la Probabilidad Total.

Sean B1,…,Bn una colección de eventos que forman una partición del espacio

muestral S esto es SBn

ii =

=

1 y φ=∩ ji BB para i ≠ j. Sea A otro evento definido sobre S

entonces:

∑=

=n

iii BAPBPAP

1

)/()()(

Notar que )(1

n

iiBASAA

=

∩=∩= . Por la propiedad distributiva, se tiene que n

iiBAA

1=

∩= , donde la unión es disjunta.

Aplicando el tercer axioma se obtiene ∑=

∩=n

iiBAPAP

1

)()( . Finalmente, se aplica la regla del producto a cada

término de la suma y se obtiene la fórmula de probabilidad total.

Para una partición de S en dos eventos B y B se obtiene:

)/()()/()()( BAPBPBAPBPAP +=

La siguiente figura ilustra la regla de la probabilidad total para una partición en 5 eventos.

102

B1 B2

B5A

Page 107: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Figura 4.13. Teorema de la Probabilidad Total

Ejemplo 4.17. El 70 % de los pacientes de un hospital son mujeres y el 20% de ellas son fumadoras. Por otro lado el 40 % de los pacientes hombres son fumadores. Se elige al azar un paciente del hospital. ¿Cuál es la probabilidad de que sea fumador?

Solución:Sean los eventos F: Que el paciente sea fumador, H: Que el paciente sea hombre y M: Que el paciente sea mujer. Claramente,

( ) ( ) ( ) ( ) ( )HFPHPMFPMPFP // +=

Del enunciado del problema se tiene que ( ) 7.=MP , ( ) 3.=HP , ( ) 2./ =MFP y ( ) 4./ =HFP , sustituyendo estos valores en la fórmula anterior se obtiene que ( ) 26.4.3.2.7. =×+×=FP . En la

Figura 4.14 se muestra el diagrama de árbol correspondiente al problema.

103

B3 B4

M

H

F

F

.8

.4

.6

.7

.3

F

F

.2

14.2.7.)( =×=MFP

56.8.7.)( =×=FMP

12.4.3.)( =×=HFP

18.6.3.)( =×=FHP

Sexo delPaciente

Condicionde Fumar

Page 108: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Figura 4.14. Diagrama de árbol para Ejemplo 4.17

Ejemplo 4.18. En un hospital el 98% de los bebés nacen vivos. Por otro lado, 40% de todos los partos son por césarea y de ellos el 96% sobreviven al parto. Se elige al azar una mujer a la que no se va practicar césarea. ¿Cuál es la probabilidad de que el bebé viva?

Solución:Sean los eventos V: que el bebe nazca vivo, C: que el parto sea por césarea. Del enunciado del problema ( ) 98.=VP , ( ) 40.=CP y ( ) 96./ =CVP . Se desea hallar )/( CVP .

Figura 4.15. Diagrama de árbol para Ejemplo 4.18.Por la regla de la probabilidad total )/()()/()()( CVPCPCVPCPVP += , de donde:

)/(60.)96)(.40(.98. CVP+= , y 9 93.60.

5 9 6.)/( ==CVP . Un diagrama de árbol para el problema aparece en la

Figura 4.15.

Ejemplo 4.19. Una empresa tiene 3 plantas: A, B y C. La planta A produce el 50% de la producción total, B produce el 30% y C el 20%. El 3% de la producción de A es defectuosa, mientras que el 2% de B y el 5% de C también lo son. Se elige al azar un artículo producido por la empresa:

a) ¿Cuál es la probabilidad de que el artículo elegido sea defectuoso?b) Si el artículo elegido resulta ser defectuoso, ¿Cuál es la probabilidad de que

provenga de la planta C?

Solución:

104

V

CV

V

V

.96

.04

)/( CVP

.60

.40

C

Cesarea Bebé Vive

Page 109: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

a) Los eventos A, B y C forman una partición del espacio muestral S correspondiente a elegir un articulo de la fábrica. Luego, si D representa artículo defectuoso:

( ) ( ) ( ) ( ) ( ) ( ) ( )CDPCPBDPBPADPAPDP /// ++=

Sutituyendo los datos del problema se tiene que

( ) ( ) ( ) ( ) ( ) ( ) ( ) 031.05.2.02.3.03.5. =++= PPPPPPDP

b) ( ) ( ) ( ) ( ) ( ) 3225.031.010.031.05.2./ ===∩= DPDCPDCP

El diagrama de árbol de la Figura 4.16 representa el problema.

Planta Defectuoso

Figura 4.16. Diagrama de árbol para el problema 4.19La Regla de BayesBajo las mismas condiciones de la regla de probabilidad total, se cumple que:

∑=

= n

iii

jjj

BAPBP

BAPBPABP

1

)/()(

)/()()/(

Por definición de probabilidad condicional )(

)()/(

BPABP

ABP jj

∩= y aplicando la regla del producto en el

numerador y probabilidad total en el denominador se obtiene la regla de Bayes.

Ejemplo 4.20. Una prueba para diagnosticar cáncer lo detecta en el 95% de personas que efectivamente tienen la enfermedad y en el 1% de las personas que no tienen la enfermedad. Por estudios previos se ha determinado que sólo el .5% de las personas

105

.02

.05..20

A

.30

.50

C

B

D

D

D

.03

Page 110: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

sometidas a la prueba tienen efectivamente cáncer. Si la prueba da un diagnóstico positivo, ¿Cuál es la probabilidad de que la persona tenga realmente cáncer?

Solución:

Sean los eventos C: La persona tiene cáncer y +D : La persona da un diagnóstico positivo de cáncer.Hay que hallar ( ) ( ) ( ) ( )+++ = DPCDPCPDCP // , donde

( ) ( ) ( ) ( ) ( )CDPCPCDPCPDP // +++ += .

Como ( ) 005.=CP , ( ) 9 5./ =+ CDP y ( ) 0 1./ =+ CDP , se obtiene que

( ) ( ) ( ) ( ) ( ) 01470.00995.00475.01.995.95.005. =+=+=+DP

Luego, P(C/ +D ) = (.005)(.95)/.01470 = .00475/.01470 = .323.

El siguiente diagrama de árbol representa el problema.

106

C−D+D

−D

.95

.05

.01

.99

.995

+D

.005

C

Cáncer? Diagnóstico?

Page 111: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Figura 4.17. Diagrama de árbol para Ejemplo 4.20

Ejemplo 4.21. Suponga que los chips de un circuito integrado son probados con cierto instrumento y la probabilidad de que se detecten los defectuosos es .99. Por otro lado hay una probabilidad de .95 de que un chip sea declarado como bueno si efectivamente lo es. Si el 1% de todos los chips son defectuosos. ¿Cuál es la probabilidad de que un chip que es declarado como defectuoso sea en realidad bueno?

Solución:Sean los eventos M: Que el chip sea declarado defectuoso por el instrumento, D: Que el chip sea realmente defectuoso y B: Que el chip sea realmente bueno. De los datos del problema se tiene que ( ) 9 9./ =DMP y ( ) 05.9 5.1/ =−=BMP , además ( ) 01.=DP . Lo que debemos calcular es

( ) ( ) ( ) ( )MPBMPBPMBP // = . Pero, ( ) ( ) ( ) ( ) ( )BMPBPDMPDPMP // += = ( ) ( ) ( ) ( ) 0594.0495.0099.05.99.99.01. =+=+ , por lo tanto ( ) 833.0594.0495./ ==MBP .

Ejemplo 4.22. Una urna I contiene 2 bolas rojas y 4 blancas y una urna II contiene 3 bolas rojas y 2 blancas. Se saca una bola de la urna I y se la coloca en la urna II, luego se saca una bola de ésta la cual resulta ser roja, ¿Cuál es la probabilidad de que la bola pasada de I a II haya sido blanca?

Solución:Sean los eventos B1: Que la bola extraida de la urna I sea blanca, R1: Que la bola extraida de la urna I sea roja, B2: Que la bola extraida de la urna II sea blanca, R2: Que la bola extraida de la urna II sea roja. Hay que hallar )(/)()/( 22121 RPRBPRBP ∩= . Puesto que 3/1)( 1 =BP , 3/2)( 1 =RP , 2/16/3)/( 12 ==BRP y 3/26/4)/( 12 ==RRP , se tiene que

18113622)/()()/()()( 1211212 ==+= RRPRPRRPRPRP , de donde sigue que ( ) ( ) 42.113181161)/( 21 ===RBP .

107

2/3

1B

2R

2B

2R

1/2

1/2

1/32/3

2B

1/3

1R

Bola Urna I Bola Urna II

Page 112: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Figura 4.18. Diagrama de árbol para Ejemplo 4.22.

4.4 Eventos Independientes

Dos eventos A y B son independientes si la ocurrencia de uno de ellos no afecta la probabilidad de ocurrencia del otro. O sea:

( ) ( )APBAP =/ o ( ) ( )BPABP =/

De la definición de probabilidad condicional se obtiene la siguiente definición equivalente:

Dos eventos A y B son independientes si ( ) ( ) ( )BPAPBAP =∩ .

Ejemplo 4.23. Se lanzan un par de dados legales y distinguibles y se definen los siguientes eventos:

A: Que el primer dado sea parB: Que el segundo dado sea mayor que 4

Son los eventos A y B independientes?

Solución:( ) 213618 ==AP , ( ) 313 61 2 ==BP , y ( ) 61366 ==∩ BAP . Por lo tanto A y B son independientes.

Propiedad 5. Si A y B son eventos independientes, entonces también lo son:a) A y Bb) A y Bc) A y B

Prueba:a) Como )()( BABAA ∩∪∩= se tiene por independencia de A y B que )()()()( BAPBPAPAP ∩+= ,

luego )()())(1)(()( BPAPBPAPBAP =−=∩ .

b) y c) se dejan como ejercicios.

Ejemplo 4.24. Un tirador hace dos disparos a un blanco. La probabilidad de que acierte en el blanco es .8, independientemente del disparo que haga. ¿Cuál es la probabilidad de que el tirador:

a) Acierte ambos disparos?b) Acierte sólo uno de los dos disparos?

108

Page 113: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

c) Acierte por lo menos un disparo?d) No acierte ninguno de los dos disparos?

Solución:Sean los eventos Ai: Que el tirador da en el blanco en el disparo i (i =1, 2). Por aplicación directa de la propiedad 5 se obtiene que:

a) ( ) ( ) ( ) ( ) ( ) 64.8.8.2121 === APAPAAPb) ( ) ( ) ( ) ( ) 32.8.2.2.8.)()()()()()( 21212121 =+=+=+ APAPAPAPAAPAAPc) ( ) ( ) ( ) 96.64.8.8.)()()()()( 212121 =−+=−+=∪ APAPAPAPAAPd) ( ) ( ) 04.2.2.)()()( 2121 === APAPAAP

El concepto de independencia se puede extender a más de dos eventos. Asi, se dice que los eventos A1,…,An son Mutuamente Independientes si para cualquier subcolección Ai1,…,Aik se cumple que:

)()...()...( 11 ikiiki APAPAAP =∩∩

Ejemplo 4.25. Un avión tiene 3 motores los cuales funcionan independientemente uno del otro y fallan con probabilidad igual a .001 para cada uno de ellos. El avión hace un vuelo exitoso si por lo menos uno de sus motores funciona. ¿Cuál es la probabilidad de que el avión tenga un vuelo exitoso?

Solución:El avión no tiene un vuelo exitoso si todos sus motores fallan, por independencia esto ocurre con probabilidad ( ) 3001. . Luego, por complemento, la probabilidad de un vuelo exitoso será ( ) 3001.1 − .

Ejemplo 4.26. Una persona lanza repetidamente un par de dados. ¿Cuántas veces debe lanzar el par de dados si se desea que la probabilidad de obtener suma igual a 7, al menos una vez, sea por lo menos .95?

Solución:P(Sacar al menos una vez suma igual a 7) = 1 - P(Nunca sacar suma igual a 7) ≥ .95. 0 sea, P(Nunca sacar suma igual a 7) ≤ .05. Hay que encontrar el número n de veces que se debe lanzar el par de dados para que esto ocurra. La probabilidad de sacar suma igual a 7 en una tirada de un par de dados es 6

136

6 = , por lo tanto no se saca suma igual a 7 con

probabilidad 65 . Como hay independencia entre las n tiradas del dado, la probabilidad

de no sacar suma igual a 7 en n tiradas será ( )n

65 . Luego, el n se obtiene resolviendo la

109

Page 114: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

desigualdad ( ) 05.65 ≤

n, tomando logaritmos en ambos lados se obtiene ( ) ( )0 5.lo g6

5lo g ≤n , de donde 3 0 1.10 7 9. −≤− n y 46.1 60 79.30 1.1 =≥n , es

decir, basta lanzar el par de dados al menos 17 veces para obtener suma igual a 7.

4.5. Aplicación de técnicas de conteo al Cálculo de Probabilidades

4.5.1 Regla Multiplicativa del conteo

Si un experimento I ocurre de m maneras distintas y un experimento II ocurre de n maneras distintas entonces, el experimento compuesto de I seguido de II ocurre de nm × maneras.

Ejemplo 4.27. Un joven tiene 4 pantalones distintos y 6 camisas distintas. El joven se viste en forma diferente todos los días. ¿Cuántos días se puede vestir el joven sin repetir vestimenta?

Solución:Basta encontrar el total de maneras que se puede vestir que son 2464 =× .Luego se puede vestir en forma distinta durante 24 días.

La regla multiplicativa se puede generalizar de la siguiente manera: Si un experimento compuesto de k experimentos simples, cada uno de los cuales se puede efectuar de

)1(, kini ≤≤ maneras distintas, entonces el experimento compuesto se puede efectuar de knnn ××× .. .21 maneras distintas.

Ejemplo 4.28. Una contraseña para accesar a una computadora consiste de 36 caracteres que pueden ser letras (26) o números (10).

a) ¿Cuántas contraseñas distintas se pueden formar?b) ¿Cuántas contraseñas distintas se pueden formar conteniendo sólo números?c) ¿Cuántas contraseñas distintas se pueden formar si deben tener por lo menos

una letra?

Solución:a) 336,782,176,236363636363636 6 ==×××××b) 000,000,110101010101010 6 ==×××××c) Por complemento 3 36,7 82,1 75,2103 6 66 =−

Ejemplo 4.29. Una caja contiene n bolas numeradas desde el 1 hasta la n. Se escogen al azar dos bolas. ¿Cuál es la probabilidad de que los números en las bolas sean consecutivos

a) Si las bolas se escogen sin reposición?

110

Page 115: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

b) Si las bolas se escogen con reposición?

Solución:Sea el evento A: Que las dos bolas tengan números consecutivos. Si son consecutivos, en orden ascendente, la primera bola debe tener un número desde el 1 hasta el n-1 y la segunda sólo tendría una posibilidad (por ejemplo 12, 56 etc.). Como también pueden ser consecutivos en orden descendente hay el doble de posibilidades. Por lo tanto ( ) ( )12# −= nA .

a) Sin reposición la primera bola puede ser escogida de n maneras y la segunda de

( )1−n maneras. Por lo tanto ( ) ( )1# −= nnS y ( ) ( )( ) nnn

nAP 2112 =

−−= .

b) Con reposición la primera bola puede ser elegida de n maneras y la segunda

también. Por lo tanto ( ) 2# nS = y ( ) ( )2

12nnAP −= .

4.5.2 Permutaciones

Una permutación es un arreglo ordenado de objetos distintos. Por ejemplo, las permutaciones de tamaño 2 que se pueden hacer con las letras A, B y C son: AB, AC, BC, BA, CA y CB.

Haciendo uso de la regla multiplicativa del análisis combinatorio se desprende que:

i) El número de permutaciones de n objetos tomados todos a la vez está dado por

( ) ( ) ( ) 1...21!, −−== nnnnnnP

ii) El número de permutaciones de n objetos distintos tomados de r en r está dado por:

( ) ( ) ( ) ( )!!1...1,rn

nrnnnrnP−

=+−−=

Recordar que 0! = 1.

Ejemplo 4.30. Ocho atletas compiten en la final olímpica de los 110 metros con vallas. Asumiendo que ellos cruzan la meta en distintos instantes. ¿Cuántas maneras distintas hay para entregar las medallas de oro, de plata y de bronce?

Solución:

111

Page 116: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

El primer premio puede ser entregado de 8 maneras, el segundo de 7 y el tercero de 6, luego por la regla multiplicativa hay 336678 =×× maneras distintas de entregar los premios.

Claramente, esto es ( )!5!83,8 =P .

Ejemplo 4.31. Diez personas de diferentes estaturas posan en fila para una foto.

a) ¿Cuántas fotografías distintas se pueden tomar?b) ¿Cuántas fotografias distintas se pueden tomar si la persona más alta y la

persona más baja no deben salir juntas en la foto?Solución:a) !1 01...891 0 =××××b) El evento complemento es que la persona más alta y la más baja salgan juntas en la foto. Esto se puede efectuar de !92 × maneras donde !9 es el número de ordenamientos de 8 objetos simples y un objeto compuesto de la persona más alta y la más baja y el 2 se bede a que la persona más alta y la más baja se pueden intercambiar. Luego, hay

( )!92!10 ×− fotografias donde la persona más alta y la más baja no salen juntas.

Ejemplo 4.32. Cuatro peruanos, 3 chilenos y 5 mejicanos se sientan en fila.

a) ¿Cuál es la probabilidad de que los de la misma nacionalidad queden juntos?b) ¿Cuál es la probabilidad de que los de nacionalidad peruana queden juntos?

SoluciónEl espacio muestral puede ocurrir de ( ) ( ) !1 2!534# =++=S maneras distintas.

a) Sea el evento A: Que los de la misma nacionalidad queden sentados juntos. Hay !3 maneras de ordenar los tres grupos de nacionalidades, !4 maneras de ordenar

el grupo de peruanos, !3 maneras de ordenar el grupo de chilenos y !5 maneras de ordenar el grupo de mejicanos, como se quiere que todo esto ocurra al mismo tiempo, por la regla multiplicativa hay ( ) !5!3!4!3# ×××=A maneras de ocurrencia del evento A.

Luego ( )!1 2

!5!3!4!3 ×××=AP .

b) Sea el evento B: que los 4 peruanos queden sentados juntos. Hay que ordenar 9 objetos compuestos de los 3 chilenos, 5 mejicanos y el bloque de los 4 peruanos (dentro del cual se pueden hacer permutaciones). Luego, hay ( ) !9!4# ×=B maneras como ocurre

B y ( )!12

!9!4 ×=BP .

Ejemplo 4.33. Cuatro turistas llegan a un pueblo que tiene 6 hoteles. Si los turistas eligen al azar el hotel donde se van a alojar. ¿Cuál es la probabilidad de que:

112

Page 117: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

a) Todos se hospeden en hoteles distintos?b) Por lo menos dos de ellos se hospeden en el mismo hotel?

Solución:

Cada uno de los 4 turistas tiene 6 maneras distintas de hospedarse por lo tanto, el experimento puede ocurrir de ( ) 46# =S x 3 maneras.

a) Sea el evento A: Que los 4 turistas se hospeden en distintos hoteles.

Esto puede ocurrir de ( ) 3456# ×××=A maneras. Por lo tanto ( )1 8

563 6 0

4 ==AP .

b) Sea el evento B: Por lo menos dos turistas se alojen en el mismo hotel. Este

evento es simplemente el complemento del evento A. Luego ( ) ( )1 81 31 =−= APBP .

4.5.3 Combinaciones

Una combinación es una selección de objetos donde el orden en que estos han sido escogidos no interesa. Por ejemplo, las combinaciones que se pueden hacer con los objetos: A, B y C elegidos de dos en dos son: AB, AC y BC. Observe que el número de permutaciones obtenidas anteriormente fue el doble.

El número de combinaciones de n objetos tomado de r en r está dado por:

!),(

)!(!!

rrnP

rnrn

rn

=−

=

Como 0! = 1, se tiene que

10

=

=

nnn

Ejemplo 4.34.

3003120

1514131211!5!10

!151015

=××××==

Propiedad 5.

113

Page 118: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

=

rn

nrn

Prueba. Algebráicamente esto es obvio. Desde el punto de vista de análisis combinatorio el lado izquierdo equivale a elegir r objetos de un total de n que salen fuera, y el lado derecho equivale a elegir n-r objetos que se quedan.

Por ejemplo

=

3

107

10.

Ejemplo 4.35. De un grupo de 4 mujeres y 6 hombres se va a elegir un comité de 5 meinbros.

a) ¿Cuántos comités se pueden elegir?b) ¿Cuántos comités se pueden elegir si deben haber 3 hombres?c) ¿Cuántos comités se pueden elegir si debe haber al menos una mujer?

Solución:

a) Hay 2525

10=

comités posibles.

b) Si hay que elegir 3 hombres y el comité tiene 5 integrantes entonces hay que elegir

también dos mujeres. Por lo tanto hay 1 2 036

24

=

×

maneras de elegir el comité.

c) Lo opuesto a que el comité tenga al menos una integrante mujer es que no haya mujeres en el comité, es decir que los 5 integrantes sean hombres. Por lo tanto, usando

complemento, hay 2 4 656

51 0

=

posibles comités.

Ejemplo 4.36. Una señora tiene 8 amigas y desea invitar a 5 de ellas a una fiesta. ¿De cuántas maneras puede hacerlo si dos de ellas están enojadas entre si y no pueden ser invitadas juntas?

Solución:

Hay 2036

=

invitaciones posibles donde las dos personas en disputa pueden ser

invitadas juntas, y hay un total de 5658

=

invitaciones que se pueden hacer.

Luego, usando complemento hay 362056 =− invitaciones donde las dos personas enemistadas no aparecen juntas.

114

Page 119: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

Ejemplo 4.37. De un grupo de 5 científicos argentinos, 3 chilenos, 2 colombianos y 2 peruanos se van a elegir al azar 6 para representar a sudamérica en un congreso mundial. ¿Cuál es la probabilidad de que:

a) Salgan elegidos 2 argentinos y dos chilenos?b) Salga elegido por lo menos un peruano?

Solución:

Hay 9246

12=

maneras de elegir sin ninguna restricción los 6 representantes.

a) Sea el evento A: Salgan elegidos 2 argentinos y dos chilenos. Los otros dos

representantes pueden ser elegidos de los 4 restantes. Luego, ( ) 1 8024

23

25

# =

=A y ( )

924180=AP .

b) Sea el evento B: Salga elegido por lo menos un peruano. Por complemento )(1)( BPBP −= .

Como 21 06

1 0)(# =

=B , se tiene que

92 471 4

92 421 01)( =−=BP .

Ejemplo 4.38. Un profesor asigna una semana antes del examen un conjunto de 10 problemas. El examen consistirá de 5 problemas elegidos al azar de entre los 10 asignados. Un estudiante sólo pudo resolver 7 de esos problemas. ¿Cuál es la probabilidad de que el estudiante

a) Conteste bien 3 de las 5 preguntas?b) Tenga por lo menos 4 preguntas buenas?

Solución:

El experimento puede ocurrir de 2 5 25

1 0)(# =

=S maneras distintas.

a) Sea A: Que tenga bien 3 de las 5 preguntas 1 0523

37

)(# =

=A . Luego ( )

252105=AP .

b) Sea B: Que tenga por lo menos 4 buenas. Hay que sumar las maneras de obtener 4 y 5

buenas. Luego 1 2657

13

47

)(# =

+

=B y ( ) 5.

2 5 21 26 ==BP .

Ejemplo 4.39. El juego de la LOTTO de Puerto Rico consiste en acertar 6 números entre el 1 y el 38. El primer premio se otorga a los que aciertan los 6 números, el segundo premio a los que aciertan 5 de los 6, y el tercer premío a los que aciertan 4 de los 6. Si una persona compra un boleto de la LOTTO. ¿Cuál es la probabilidad de que se gane:

115

Page 120: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

a) El primer premio?b) El segundo premio?c) El tercer premio?

Solución:Sea ( )S# : Total de maneras como puede salir el número premiado. Claramente, como el

orden no importa ( ) 6 81,7 60,2638

# =

=S .

a) Sea el evento A: Sacarse el primer premio. Sólo hay una manera como puede ocurrir

esto, y es cuando los 6 números elegidos en el sorteo son los que el jugador tiene. O sea, ( ) 166

# =

=A

y en consecuencia ( ) 00000036.681,760,2

1 ==AP .

b) Sea el evento B: Sacarse 5 de los 6 números. Uno de los 6 números del apostador NO

es sacado en el sorteo, luego ( ) 19 2132

56

# =

=B y ( ) 000069.

681,760,2192 ==BP .

c) Sea el evento C: Sacarse 4 de los 6 números. En este caso, dos de los 6 números del

apostador NO salen en el sorteo, luego ( ) 7 4 402

3 246

# =

=C y ( ) 0 02 69.

68 1,76 0,27 44 0 ==CP .

Ejemplo 4.40. Cuatro personas suben al ascensor en el sótano de un edificio de 7 pisos. ¿Cuál es la probabilidad de que:

a) Exactamente dos de ellas bajen en el quinto piso?b) Todas ellas bajen en un mismo piso?c) Dos de ellas bajen en un mismo piso y las otras dos bajen también en un mismo

piso?

Solución:Cada una de las 4 personas tiene 7 maneras distintas de bajarse. Luego hay ( ) 24 0 17# 4 ==S maneras de efectuar el experimento sin ninguna restricción.

a) Sea el evento A: Que dos de ellas bajen en el quinto piso. Hay 624

=

maneras de

elegir las dos personas y las dos restantes pueden bajar en cualquiera de los 6 pisos restantes.

Luego ( ) 21 666# 2 =×=A , y en consecuencia ( )2401216=AP .

116

Page 121: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

b) Sea el evento B: Que todas las 4 bajen en el mismo piso, puesto que hay 7 maneras de

elegir el piso donde bajan las personas se tiene que ( ) 7# =B y ( ) 371=BP .

c) Sea el evento C: Que dos personas bajan en un mismo piso y las otras dos también.

Hay 2127

=

maneras de elegir los 2 pisos donde bajan las personas, hay 6

24

=

maneras de elegir las dos personas que bajan en un piso, y 122

=

manera de elegir las

dos personas que bajan en el otro. En consecuencia ( ) 126# =C y ( )2401126=CP .

Ejemplo 4.41. Un estacionamiento para carros tiene 8 lugares disponibles colocados en línea. Cinco carros de diferentes modelos arrivan al estacionamiento. ¿Cuál es la probabilidad de que:

a) Los 5 carros se estacionen todos juntos sin dejar lugar vacio entre ellos?b) Los 3 lugares vacíos queden juntos?

Solución:Hay ( ) ( ) 6 72 05,8# == PS maneras de efectuar el experimento.

a) Sea el evento A: Que los 5 carros queden juntos. Hay que permutar 4 objetos: los 3 lugares vacios y el bloque de los 4 carros. Esto se puede hacer de 4 8 0!3!5!4 =×× maneras, luego

( )6720480=AP .

b) Sea el evento B: Que los 3 lugares vacios queden juntos. Hay que permutar 6 de los 5 carros y el bloque de lugares vacíos. Esto se puede hacer de 720!6 = maneras, luego

( )6720720=BP .

Ejemplo 4.42. Doce policías recién graduados de la académia son asignados al azar a 6 pueblos uno de los cuales es Mayagüez. ¿Cuál es la probabilidad de que:

a) 4 de los policías sean asignados a Mayagüez?b) 2 de los pueblos reciban 3 policías, otros dos reciban 2 policías y los restantes

dos uno cada uno?

Solución:

117

Page 122: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

El experimento se puede efectuar de ( ) 126# =S maneras.

a) Sea el evento A: Que 4 de los 12 policías sean asignados a Mayagüez, esto se puede

efectuar de ( ) 85412

# ×

=A maneras. Por lo tanto P(A)= ( ) 1 2

8

6

54

1 2×

=AP.

b) Sea el evento B: Que dos pueblos reciban 3 policías, dos reciban 2 policías y los restantes 2 uno cada uno. Esto se puede efectuar de:

11

12

22

24

26

24

39

312

26

Los tres primeros elementos del producto representan las maneras de elegir dos pueblos y luego asignar 3 policías en ellos, los próximos tres elementos representan las maneras de elegir otros dos pueblos y luego asignar dos policias en ellos y los últimos 3 elementos son las maneras de elegir los dos pueblos restantes y asignar un policía en cada uno.

También se puede resolver usando permutaciones con elementos repetidos y en este caso:

!1!1!2!2!3!3!1 2

!2!2!2!6

Luego ( ) 12

223

6)!2()!3/(!12)!2/(6=BP .

118

Page 123: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

EJERCICIOS

1. Un metereólogo afirma que la probabilidad de que llueva el sábado es 25%, la probabilidad de que llueva el domingo es 20% y la probabilidad de que llueva ambos dias es 15%. ¿Cuál es la probabilidad de que llueva durante el fin de semana?

2. En una universidad el 60% de los estudiantes ni fuman ni beben. Además el 30% fuma y el 25% bebe. Se elige al azar un estudiante, ¿Cuál es la probabilidad:

a) Que tenga al menos uno de los dos hábitos?b) Que tenga sólo uno de los hábitos?c) Que sea un bebedor y fumador?

3. Un grupo de 6 hombres y 6 mujeres es dividido al azar en dos grupos de tamaño 6. ¿Cuál es la probabilidad de que:

a) Ambos grupos tengan el mismo número de hombres?b) Un grupo tenga dos mujeres y el otro 4?

4. Si 10 bolas son distribuidas al azar en 4 urnas. ¿Cuál es la probabilidad de que la cuarta urna contenga exactamente 3 bolas?

5. 60 niños de segundo grado son asignados al azar en dos clases de 30 cada uno. Cinco de ellos: Diana, Ana, Sofía, Michelle y Paula son amigas intimas:a) ¿Cuál es la probabilidad de que todas ellas sean asignadas a la misma clase?b) ¿Cuál es la probabilidad de que exactamente 4 de ellas sean asignadas a la

misma clase?c) ¿Cuál es la probabilidad de que Diana esté en una clase y sus amigas en la otra?

6. Un catador de vinos afirma que puede distinguir entre 4 variedades de un vino Cabernet. ¿Cuál es la probabilidad de que el catador logre identificar correctamente las 4 variedades de vino si le dan a probar 4 vasos donde no aparecen marcadas las variedades del vino?

7. Una Urna A contiene 3 bolas rojas y dos bolas blancas y, una Urna B tiene 2 bolas rojas y 5 blancas. Se lanza una moneda legal y si sale cara se extrae una bola de la Urna A, en caso contrario la bola es sacada de B.a) ¿Cuál es la probabilidad de que la bola extraida sea roja?b) Si la bola extraída fue roja, ¿Cuál es la probabilidad de que la moneda haya

salido cara?

8. Se lanza un par de dados y la suma que aparece es 6, ¿Cuál es la probabilidad de que al menos uno de los dados salió 3?

9. Una pareja de esposos tiene dos hijosa) ¿Cuál es la probabilidad de que ambas sean niñas si la mayor lo es?b) ¿Cuál es la probabilidad de que ambas sean niñas dado que una de ellas es niña?

119

Page 124: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

10. En una ciudad el 1.5% de personas sufren de Daltonismo. Por otro lado, 55% de la población son mujeres y el .5% de ellas sufre de Daltonismo. Si se elige al azar una persona y se encuentra que sufre de Daltonismo; ¿Cuál es la probabilidad de que sea hombre?

11. Una urna contiene 3 bolas rojas y dos blancas. Se extrae una bola, se observa su color y luego se devuelve a la urna junto con otra bola del mismo color, luego se extrae una segunda bola:

a) ¿Cuál es la probabilidad de que la segunda bola extraida sea blanca?b) Si la segunda bola extraída fue blanca; ¿Cuál es la probabilidad de que la

primera bola extraída haya sido roja?

12. Una compañia de seguros clasifica a sus clientes como de alto, mediano y bajo riesgo, ellos reclaman el pago de un seguro con probabilidades .02, .01 y .0025 respectivamente. El 10% de los clientes son de alto riesgo, el 20% de mediano y el 70% de bajo riesgo. Si uno de los clientes reclama el pago de un seguro; ¿Cuál es la probabilidad de que sea uno de bajo riesgo?

13. Se tienen 3 tarjetas iguales excepto que una tiene ambos lados rojos, otra ambos lados negros, y la tercera un lado rojo y otro negro. Se elige al azar una tarjeta y se muestra uno de sus lados que resulta ser rojo; ¿Cuál es la probabilidad de que el otro lado de la tarjeta sea también rojo?

14. Una caja tiene 3 monedas, una de ellas tiene dos caras, la otra dos cruces y la tercera cara por un lado y cruz por el otro. Se escoge una moneda al azar y se muestra uno de sus lados que resulta ser cara; ¿Cuál es la probabilidad de que el otro lado de la moneda sea también cara?

15. a) Se colocan al azar 8 bolas en 8 urnas, cuál es la probabilidad de que quede solamente una vacia?b) Si sólo hay disponibles 5 urnas para colocar las 8 bolas; ¿Cuál es la probabilidad de que la primera urna contenga exactamente dos bolas?

16. Una fábrica tiene tres turnos El 1% de los artículos producidos en el primer turno son defectuosos, 2% de los artículos del segundo turno son defectuosos y el 5% de los artículos del tercer turno también son defectuosos. Si en todos los turnos se produce la misma cantidad de artículos, ¿Qué porcentaje de los artículos producidos en un dia son defectuosos?

Si un artículo salió defectuoso, ¿Cuál es la probabilidad de que haya sido producido en el tercer turno?

17. Una urna contiene 10 bolas numeradas del 1 al 10. Se extraen 4 de estas bolas sin reposición. ¿Cuál es la probabilidad de que la segunda de ellas en orden ascendente de magnitud sea 4?

120

Page 125: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 4 Conceptos Básicos de Probabilidades

18. a) Se lanzan 6 dados, ¿Cuál es la probabilidad de que salgan cada uno de los números posibles?

b) Reponder la parte a) si se lanzan 7 dados.

19. El 60 por ciento de los estudiantes de una escuela no usan ni anillo ni cadena. Por otro lado el 20 por ciento usan anillos y el 30 por ciento usan cadenas. Se elige un estudiante al azar, ¿Cuál es la probabilidad de que esté usando:

a) Anillo y cadena?b) Solamente una de las dos prendas?

20. Un consejero académico hace una encuesta a 1000 graduandos de escuela superior para tratar de relacionar el promedio de graduación y su decisión acerca de lo que piensa estudiar en la universidad.

Promedio Academico 2.0 -2.99 3.0-3.49 3.5-4.00 Decidido 50 100 150 Indeciso 350 250 100

Se elige al azar un graduandoa) Si resulta que él está indeciso, ¿Cuál es la probabilidad de que tenga promedio

de 3.5 ó más?b) Si resulta que su promedio es menor que 3.0, ¿Cuál es la probabilidad de que

haya decidido qué estudiar en la universidad?c) Si resulta que él está decidido, ¿Cuál es la probabilidad de tenga promedio de

3.0 ó más?d) Si su promedio es menor que 3.5, ¿Cuál es la probabilidad de que aún no se

haya decidido?

21. En un lote de 50 neveras hay 6 dañadas y 44 buenas. Se eligen al azar dos neveras una por una y sin reposición. ¿Cuál es la probabilidad de que:

a) Ambas neveras salgan dañadas? b) Sólo una de las neveras salga dañada?c) Por lo menos una de las neveras salga dañada?d) La segunda salga dañada?

22. En un proceso de reclutamiento de personal se ha determinado que la probabilidad de que a un entrevistado se le haga una oferta de empleo es .3 independientemente de quién sea.. Juan, Pedro y Lilliam son entrevistados. ¿Cuál es la probabilidad de que:

a) A todos ellos se les haga oferta de empleo?b) Al menos a uno de ellos se le haga oferta de empleo?

121

Page 126: Estadistica con Mitab.pdf

CAPÍTULO 5

DISTRIBUCIONES DE PROBABILIDADES

En este capítulo se introducirá el concepto de variable aleatoria, cuya importancia radica en introducir modelos matemáticos en el cálculo de probabilidades. Luego, se considerarán las distribuciones de probabilidades de variables aleatorias discretas con su media y varianza respectiva. Existe un gran número de distribuciones discretas, pero en este texto sólo se discutirá en detalle la distribución binomial. Debido a que este texto no requiere un curso previo de Cálculo diferencial e integral, el estudio de las variables aleatorias continuas es omitido. Solamente se considera en el texto el estudio de la distribución Normal que es de crucial importancia para el proceso de Inferencia Estadística.

5.1 Variables Aleatorias

Una variable aleatoria es aquella que asume sus valores de acuerdo a los resultados de un experimento aleatorio. Usualmente se representa por las últimas letras del alfabeto: X, Y o Z.Propiamente una variable aleatoria X es una función cuyo dominio es la colección de eventos del espacio muestral S y cuyo rango Rx, es un subconjunto de los números reales.

Algunos ejemplos de variables aleatorias son:

X: La suma que aparece al lanzar un par de dados.Y: El número de caras que aparecen al lanzar una moneda tres veces.Z: El número de errores que se encuentran en la página de un libro.

Ejemplo 5.1 De una caja que contiene 5 bolas numeradas del 1 al 5 se extraen 3 bolas una por una y sin reposición. Entonces X: El mayor de los tres números sacados, es una variable aleatoria.Aqui el espacio muestral es:

S = {(1,2,3), (1,2,4), (1,2,5), (1,3,4), (1,3,5), (1,4,5), (2,3,4), (2,3,5), (2,4,5), (3,4,5)}

y la variable aleatoria X asume los valores: 3, 4 y 5. Por ejemplo, ( ) 44,3,2 =X .

El objetivo de la variable aleatoria es introducir notación matemática en el cálculo de probabilidades, la cual es mucho más simple y breve. Por ejemplo, en lugar de usar la frase “la probabilidad de que el mayor de los 3 números extraidos sea 4”, se escribe simplemente como “P(X = 4)”.Por otro lado,

P(X = 4) = P(w están en S, tal que X(w) = 4) = P({(1,2,4), (1,3,4), (2,3,4)}) = 3/10

Page 127: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

Si el rango de valores Rx de la variable aleatoria X es finito o infinito enumerable entonces se dice que es una variable aleatoria discreta. Si su rango de valores Rx es infinito no enumerable entonces se dice que es una variable aleatoria continua.

5.1.1. Función de probabilidad de una variable aleatoria discreta

Si X es una variable aleatoria discreta con rango de valores Rx entonces, su función de probabilidad se define por:

p(x) = P[X = x], para todo x ∈ Rx

y tiene las siguientes propiedades:i) p(x) > 0 y ii) Σ p(x) = 1.

Cuando Rx no contiene muchos valores es más conveniente expresar p(x) en una tabla de valores, la cual es llamada tabla de función de probabilidad.

Ejemplo 5.2 Hallar la función de probabilidad de la variable del ejemplo anterior

Solución:Expresando p(x) en una tabla de valores se tiene que:

X p(x)3 1/104 3/105 6/10

Ejemplo 5.3. Se lanza una par de dados legales y distinguibles entre si. Hallar la función de probabilidad de X: la suma de los dos dados.

Solución: Expresando p(x) en una tabla de valores y observando el espacio muestral del experimento se tiene que:

X 2 3 4 5 6 7 8 9 10 11 12P(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Ejemplo 5.4. De un lote que contiene 10 articulos, de los cuales 4 son dañados se extraen al azar y sin reposición 3. Se define la variable X: Número de artículos dañados que hay en la muestra. Hallar la función de probabilidad de X.

Solución: En este caso el rango de valores de X es Rx = {0, 1, 2, 3} y en particular

120

Page 128: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

p(2) = Prob(sacar 2 dañados) =

3

10

1

6

2

4

, y en general p(x) =

3

10

3

64

xx, para x = 0,1,2,3.

Calculando las combinaciones se obtiene la siguiente tabla de función de probabilidad:

X p(x)0 1/61 1/22 3/103 1/30

5.1.2. Función de distribución acumulativa

Sea X una variable aleatoria discreta con función de probabilidad p(x) y rango de valores Rx, entonces su función de distribución acumulativa se define por:

∑≤

=≤=tx

xptXPtF )()()(

t es cualquier número real. En particular, si t es un valor que está en Rx , el cual consiste de enteros no negativos, entonces:

F(t) = p(0) + p(1) + p(2) + p(3) +…+ p(t)

Ejemplo 5.5. Hallar la función de distribución acumulativa para el Ejemplo anterior.

Solución:

X p(x) F(x)0 1/6 1/61 ½ 4/62 3/10 29/303 1/30 1

La gráfica de una función de distribución acumulativa es creciente y del tipo escalonado, con saltos en los puntos que están en el rango de valores y cuya magnitud es igual al valor de la función de probabilidad en dicho punto. Más formalmente tiene la siguiente propiedad:

Propiedad. La relación entre la función de distribución de probabilidad y la función de distribución acumulativa está dada por:

p(x) = F(x) - F(x-1)

121

Page 129: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

para todo valor de x en el rango de valores de la variable aleatoria.

En la siguiente Figura se muestra la función de distribución acumulativa para el ejemplo anterior.

-1 0 1 2 3 4 5

0.0

0.5

1.0

x

F(x

)

0

0.167

0.667

0.9671

Ejemplo 5.6. Una variable aleatoria X tiene función de distribución acumulativa dada por la siguiente tabla de valores:

X F(x)3 1/104 4/105 1

a) Hallar la probabilidad de que x sea menor o igual que 3.b) Hallar la probabilidad de que x sea mayor o igual que 5.c) Hallar la probabilidad de que x sea igual a 5.

Solución:a) P(X ≤ 3) = F(3) = 1/10.b) P(X ≥ 5) = 1- P(X ≤ 4) = 1-F(4) = 1-4/10 = 6/10.c) p(4) = F(4) - F(3) = 4/110 = 1/10 = 3/10.

122

Page 130: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

5.1.3 Valor Esperado y Varianza de una Variable Aleatoria Discreta

Sea X una variable aleatoria discreta con función de probabilidad p(x) y rango de valores Rx, entonces su Valor Esperado o Media se define como el número:

∑==x

xxpXE )()(µ

La suma es sobre todos los valores x que están en Rx.

Ejemplo 5.7. Hallar el valor esperado de la suma obtenida al lanzar un par de dados.

Solución.

X 2 3 4 5 6 7 8 9 10 11 12p(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36xp(x) 2/36 6/36 12/36 20/36 30/36 42/36 40/36 36/36 30/36 22/36 12/36

La suma de la fila xp(x) es 252/36 = 7. O sea que el valor esperado es 7.

Ejemplo 5.8. Hallar el valor esperado del número de articulos dañados que hay en la muestra de tamaño 3 extraida de un lote que contiene 10 artículos de los cuales, 4 son dañados.

Solución:x p(x) xp(x)0 1/6 01 1/2 1/22 3/10 6/103 1/30 3/30

Sumando la última columna se obtiene que µ = 12/10 = 1.2 articulos dañados. O sea, se espera que en la muestra hayan 1.2 artículos dañados. No tiene mucho sentido la interpretación directa del número, pero equivale a decir que si se extraen 10 muestras independientes de tamaño 3, en promedio deben salir un total de 12 artículos dañados.

Ejemplo 5.9. Un juego consiste en acertar un número del 1 al 1000. A la persona que acierta el número se le da un premio de 500 dólares y a las dos personas que tienen el número que le antecede o precede se le dan 100 dólares. Si el boleto cuesta 1 dólar. ¿Cuál será la Ganancia Neta esperada de una persona que compra un boleto?

Solución: La Ganancia Neta es igual a la ganancia por el premio recibido menos el costo del boleto.Sea G la ganancia por el premio recibido. Hallaremos primero la Ganancia Esperada:

G P(G) Gp(G)

123

Page 131: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

500 1/1000 500/1000100 2/1000 200/10000 997/1000 0

Luego, la ganancia esperada por boleto será 700/1000 = 0.70. Así que la Ganancia Neta esperada será 0.70 - 1.00 = -0.30. Lo que significa que una persona pierde 30 centavos por cada boleto que compra. O dicho de otra manera, la empresa que administra el juego gana 30 centavos por cada boleto que vende.La Varianza de una variable aleatoria discreta x con función de probabilidad p(x) y media µ se define por:

∑ −= )()( 22 xpx µσ ,

Donde la suma es sobre todos los valores del rango de X.Para calcular la varianza, es más conveniente construir una tabla de la siguiente manera:

X p(x) xp(x) (x-µ)2 (x-µ)2p(x)

La varianza será la suma de la última columna.

Ejemplo 5.10. Hallar la varianza del número de artículos dañados del Ejemplo 5.8.

Solución:

x p(x) xp(x) (x-µ)2 (x-µ)2p(x)0 1/6 0 1.44 .241 ½ .5 . 04 .022 3/10 .6 .64 .1923 1/30 .1 3.64 .121

Luego la varianza será σ2 = 0.573.

Otra forma alterna para calcular la varianza es

222 )( µσ −= ∑ xpx

La raíz cuadrada positiva de la varianza es llamada la desviación estándar y es más conveniente porque está en la misma escala de valores de la variable.

5.2 La Distribución Binomial.

Un experimento es llamado de Bernoulli si satisface las siguientes características:a) En cada repetición puede ocurrir sólo una de dos maneras, una de ellas es llamada Exito

y la otra Fracaso.

124

Page 132: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

b) La probabilidad de Exito, representada por p, debe permanecer constante cuando el experimento es repetido muchas veces.

c) Las repeticiones de los experimentos deben ser independientes entre sí.

Ejemplo 5.11. Los siguientes son experimentos de Bernoullia) Observar las veces que sale 6 al lanzar varias veces un dado, en este caso la

probabilidad de éxito es 1/6.b) Contar el número de pacientes que sobreviven a una operación de corazón abierto.c) Contar el número de personas que se entrevistan por un empleo y a las que se le hace

una oferta de empleo.

Una variable aleatoria X tiene una distribución Binomial con parámetros n y p si se define como el número de éxitos que ocurren cuando un experimento de Bernoulli se repite n veces en forma independiente.

Ejemplo 5.12. Las siguientes son variables aleatorias binomiales.a) Número de veces que resulta suma 7 al lanzar un par de dados 10 veces es una variable

binomial con parametros p = 1/6 y n = 10.b) Número de preguntas bien contestadas en un examen de 10 preguntas de selección

múltiple, donde cada una tiene 4 alternativas de las cuales una es la correcta. En este caso n = 10 y p = ¼ = 0.25.

c) Número de artículos dañados que hay en una muestra de tamaño 3 extraida CON REPOSICIÓN de un lote que contiene 10 artículos, de los cuales 4 son dañados. En este caso n = 3 y p = 4/10.

La función de probabilidad de una binomial es de la forma:

xnx ppx

nxp −−

== )1()(

para x = 0, 1, …,n.

El valor de p(x) para diversos valores de n y p aparece en tablas de todo texto básico de Estadística.Se puede mostrar que el valor esperado de una Binomial es µ = np y que la varianza es σ2 = npq. Las demostraciones de estas propiedades pueden ser encontradas en cualquier texto de Estadística Matemática.

En MINITAB se pueden calcular la función de probabilidad (Probability), la función de distribución acumalada (Cumulative probability) y los percentiles (Inverse cumulative probability) de la distribución Binomial para cualquier valor de n y p. Para esto hay que

seguir la secuencia Calc Probability Distributions Binomial.

Ejemplo 5.13. Haciendo uso de MINITAB a) Expresar en una tabla de valores la función de probabilidad y la función de distribución

acumulada de la variable aleatoria X: Número de preguntas bien contestadas por un

125

Page 133: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

estudiante que responde al azar un examen tipo selección múltiple que consiste de 10 preguntas, cada una con 4 alternativas de las cuales sólo una es correcta.

b) Usar la tabla anterior para calcular la probabilidad de que el estudiante: i) Tenga exactamente 3 preguntas buenas.ii) Tenga 6 ó menos preguntas buenas.iii) Tenga por lo menos 4 buenas.

Solución:a) Primero hay que poner en una columna, llamada ‘x’, todos los valores posibles de la

variable. La ventana de diálogo para el cálculo de la probabilidad acumulada (similar es para calcular la probabilidad) y los resultados son como sigue:

Figura 5.1. Ventana de diálogo para calcular probabilidades acumuladas de una distribución Binomial.

En la ventana session se presentarán los siguientes resultados:

Data Display Row x P(x) F(x)

1 0 0.056314 0.05631 2 1 0.187712 0.24403 3 2 0.281568 0.52559 4 3 0.250282 0.77588 5 4 0.145998 0.92187 6 5 0.058399 0.98027 7 6 0.016222 0.99649 8 8 0.000386 0.99997 9 9 0.000029 1.00000 10 10 0.000001 1.00000

126

Page 134: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

b) La probabilidad de tener 3 preguntas bien contestadas es P(3) = 0.2502, la probabilidad de tener 6 o menos preguntas bien contestadas es F(6) = 0.9964, la probabilidad de tener por lo menos 4 buenas es por complemento P(X ≥ 4) = 1 - P(X ≤ 3) = 1 - F(3) = 1- 0.77588 = 0.23412.

También se puede hallar la probabilidad o la probabilidad acumulada para un número dado de éxitos. Para esto en Input constant se pone el número de éxitos.

Figura 5.2. Ventana de diálogo para calcular probabilidades de una distribución Binomial.

Ejemplo 5.14. La prueba ELISA es usada para detectar la presencia de anticuerpos al virus del SIDA. ELISA, detecta que hay anticuerpos presentes en el 97 por ciento de los casos de que la muestra de sangre está contaminada con el virus del SIDA. Suponga que entre las muchas muestras que pasan por un Banco de Sangre hay 12 que están contaminadas con SIDA.

a) ¿Cuál es la probabilidad de que ELISA detecte 9 de estos casos?b) ¿Cuál es la probabilidad de que ELISA detecte por lo menos 2 de estos casos?c) ¿Cuál es la probabilidad de que por lo menos 4 casos no sean detectados por ELISA?

Solución:Sea X: número de casos detectados por ELISA en la muestra de 12.

X es una Binomial con n = 12 y p = .97

a) Es igual a p(9). Haciendo uso de MINITAB con input constant igual a 9, se obtiene p(9) = .0045.b) Es igual a P (X ≥ 2) = 1 – P (X ≤ 1) = 1 - F(1) = 1 - .0000 = 1.000

127

Page 135: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

c) Si por lo menos 4 no son detectados, significa que A LO MÁS 8 son detectados, o sea P (X ≤ 8) = F(8) = 0.0003.

También se puede resolver como P(Y ≥ 4), donde Y representa el número de casos No detectados por ELISA, o sea, es una binomial con p = .03. Por complemento P (Y ≥ 4) = 1-(P≤3) = 1-F(3) = 1-.9997 = .0003.

Ejemplo 5.15. El Departamento de Salud ha determinado que el 10% de los puertorriqueños son zurdos. Se elige al azar 9 estudiantes de una escuela en Puerto Rico. ¿Cuál es la probabilidad de que:a) Exactamente 2 de ellos sean zurdos?b) Exactamente 6 de ellos sean diestros?c) Por lo menos 4 de ellos sean diestros?

Solución:Sea X: número de zurdos en la muestra de 9 estudiantes. X es una binomial con p = .10 y n = 9.a) p(2) = .1722b) Si hay 6 diestros entonces 3 son zurdos. Luego, la probabilidad pedida es p(3) = .0446c) Si hay por lo menos 4 derechos, significa que hay a lo más 5 zurdos. Luego, la

probabilidad pedida es P (X ≤ 5) = F(5) = .9999. También puede ser resuelto cambiando la probabilidad de éxito a p = .90 y hallando P (X ≥ 4) = 1 – P (X ≤ 3) = 1 – F (3) = 1 - .0001 = .9999.

Por otro lado, dada una probabilidad, MINITAB produce los valores de la variable que tienen una probabilidad acumulada lo más cercano posible a dicha probabilidad, esto es posible si se selecciona Inverse cumulative probability en la ventana de diálogo.

5.3 La Distribución Normal

La distribución Normal, también llamada Distribución Gaussiana en honor a K. Gauss, es una del tipo continuo y es considerada la distribución más importante en Estadística por las numerosas aplicaciones que tiene. Su comportamiento es reflejado por la Curva Normal que es la gráfica de la siguiente ecuación

πσ

σµ

2)(

2

2

2

)( −−

=

x

exf

Donde la media µ y la desviación estándarσ son los parámetros de la distribución. En la Figura 5.3 se muestra una curva normal con media µ = 15 y desviación estándar σ = 3.

128

Page 136: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

Figura 5.3. Gráfica de una curva normal con media 15 y desviación estándar 3.

Si una variable aleatoria X tiene una distribución Normal y queremos calcular la probabilidad de que X caiga entre dos valores a y b entonces, debemos hallar el área debajo de la curva entre a y b, esto se puede hacer por un proceso de Cálculo llamado Integración. Debido a que µ puede asumir cualquier valor real y que σ puede asumir cualquier valor real positivo habría que hacer un proceso de integración en cada caso, lo cual complicaría el proceso de calcular la probabilidad en lugar de simplificarlo. Afortunadamente se puede mostrar que cualquier normal puede ser transformada en una que tiene media 0 y desviación estandar 1 y la cual es llamada la Distribución Normal Estándar y se representa por Z. En el apéndice A de este texto se ha incluido una tabla que da el área debajo de la curva normal estándar a la izquierda de un valor de Z.

En MINITAB se pueden calcular la función de densidad (Probability density), la función de distribución acumalada (Cumulative probability) y los percentiles (Inverse cumulative probability) de la distribución Normal para cualquier valor de la media µ y desviación estándar σ. No se requiere transformación a una normal estándar. Para esto hay

que seguir la secuencia Calc Probability Distributions Normal.

Ejemplo 5.16. En este ejemplo en la columna llamada Z se han puesto 15 valores y se quiere hallar el área a la derecha de dichos valores. Las áreas serán guardadas en una columna llamada Area. Por otro lado en la columna alpha se han puesto 11 valores de área y se desea hallar los valores de z correspondientes, estos son llamados percentiles. La ventana de diálogo y los resultados son como sigue:

129

25155

0.14

0.12

0.10

0.08

0.06

0.04

0.02

0.00

x

f(x)

Curva Normal com media 15 y desviacion estandar 3

Hecho por Edgar Acuna

Page 137: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

Figura 5.4. Ventana de diálogo para calcular areas debajo de una curva normal.

Data Display

Row z Area alpha z(alpha)

1 -3.00 0.001350 0.010 -2.32635 2 -2.57 0.005085 0.050 -1.64485 3 -2.23 0.012874 0.150 -1.03643 4 -2.00 0.022750 0.250 -0.67449 5 -1.64 0.050503 0.300 -0.52440 6 -1.00 0.158655 0.500 0.00000 7 -0.73 0.232695 0.800 0.84162 8 0.00 0.500000 0.900 1.28155 9 0.63 0.735653 0.950 1.64485 10 1.96 0.975002 0.975 1.95996 11 2.33 0.990097 0.995 2.57583 12 2.54 0.994457 13 2.97 0.998511 14 3.33 0.999566 15 3.67 0.999879

Para hallar los percentiles se elige Inverse cumulative probability y se escribe alpha en input column y z(alpha) en Optional storage

El percentil del 90 por ciento será 1.28155 y el percentil del 25 por ciento será -.67449.

130

Page 138: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

-3 -2 -1 0 1 1.96 3

0.0

0.1

0.2

0.3

0.4

z

fdp

Area debajo de la curva normal y percentiles

Hecho por Edgar Acuna

.975

.025

Figura 5.5. Areas debajo de una curva normal y percentil del 97.5%

En la gráfica se representa que el percentil del 97.5% es 1.96 y que el área que queda en el extremo derecho más alla de 1.96 es del 2.5%.

Estandarización de una NormalDada una variable aleatoria X distribuida Normalmente con media µ y desviación estándar σ entonces puede ser convertida a una normal estándar mediante el proceso de estandarización, definido por Z = (X -µ)/σ, donde X es N(µ ,σ2).Además si Xp y Zp representen sus respectivos percentiles entonces:

Xp = µ + σZp

Fórmulas para calcular área debajo de la curva normalEn las siguientes fórmulas, F representa la distribución acumulada de la Normal, es decir el área acumulada a la izquierda del valor dado

a) P (X < a) = F(a)b) P (a < X < b) = F(b) - F(a)c) P (X > b) = 1 - F(b)

Ejemplo 5.17. Si X es una población Normal con media µ = 70 y σ = 10. Hallar las siguientes probabilidades:a) P (X < 60)b) P (X > 95)

131

Page 139: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

c) P (50 < X < 80)

Solución:Usando MINITAB con mean = 70 y standard deviation = 10, se tiene que:

a) P (X < 60) = F (60) = .1587

b) P (X > 95) = 1 – F (95) = 1 - .9938 = .0062

c) P (50 < X < 80) = F (80) – F (50) = .8413 - .0228 = .8185

Ejemplo 5.18. El Nivel de potasio presente en la sangre de una persona adulta se distribuye normalmente con media 3.8 y desviación estandar 0.2. Se elige al azar una persona: a) ¿Cuál es la probabilidad de que el nivel de potasio de la persona sea mayor que 4.1?b) Si el nivel de potasio es menor que 3.4 se dice que la persona sufre de hipocalcemia.

¿Cuál es la probabilidad de que una persona padezca de ésta enfermedad?c) ¿Cuál es la probabilidad de que el nivel de potasio sea mayor que 3.25 pero menor que

3.75?d) A las personas con el 15% más bajo de nivel de potasio se las someterá a una dieta para

subirle el nivel. ¿Cuál debe ser el nivel de potasio requerido como máximo para ser sometido a la dieta?

e) A las personas con el 10% más alto de nivel de potasio se las someterá a una dieta para bajarles el nivel. ¿Cuál debe ser el nivel de potasio requerido como minimo para ser sometido a la dieta?

Solución:Sea X: Nivel de potasio, X es normal con media 3.8 y desviación estándar 0.2a) P (X > 4.1) = 1 – F (4.1) = 1 - .9332 = .0668.b) P (X < 3.4) = F (3.4) = .0228.c) P (3.25 < X < 3.75) = F (3.75) – F (3.25) = .4013 - .0030 = .3983.d) Es equivalente a hallar el percentil del 15%. Usando Inverse cumulative probability

en MINITAB se obtiene que 3.5927 debe ser el nivel de potasio requerido.e) Es equivalente a hallar el percentil del (100-10)% = 90%. Usando Inverse cumulative

probability en MINITAB, se obtiene que 4.0563 debe ser el nivel de potasio requerido.

Ejemplo 5.19. El tiempo que le toma a los estudiantes en ir de su casa a la Universidad se distribuye normalmente con media 20 minutos y desviación estándar 5.

a) ¿Cuál es la probabilidad de que a un estudiante le tome más de 18 minutos en llegar a la universidad?

b) ¿Cuál es la probabilidad de que un estudiante llegue a la universidad en menos de 30 minutos?

c) ¿A qué hora debe salir el estudiante de su casa si se desea que llegue tarde a su clase de la 8:00 a.m. solamente un 5 por ciento de las veces?

Solución

132

Page 140: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

Sea la variable aleatoria X: El tiempo que le toma al estudiante en llegar de su casa a la Universidad, X es normal con media 20 y desviación estándar 5.

a) P (X > 18) = 1 – F (18) = 1 - .3446 = 6554.

b) P (X < 30) = .9772.

c) Equivale a hallar el percentil del 95%, y después restarle el tiempo hallado a las 8:00 am. Usando Inverse cumulative probability se obtiene que el percentil del 95 % es 28.2243. Luego el estudiante debe salir alrededor de 8.00 am.-28 minutos=7.32 am.

Ejemplo 5.20. Si la variable aleatoria X se distribuye normalmente con media µ y desviación estándar σ. Entonces hallar el valor k tal que

P ( |X - µ| < kσ) = .95 Solución:

Puesto que |X-µ|<kσ es equivalente a kX <−

σµ ||

, por la fórmula de estándarización se

obtiene que P(|Z| <k)=.95. Desdoblando el valor absoluto se obtiene que P(-k< Z <k)=.95. Por simetría de la distribución Normal el área que queda a la derecha del valor k es igual a 0.05/2 = 0.025. Es decir, 975.Zk = , Usando MINITAB o la tabla normal estándar del apéndice se obtiene k = 1.96.

5.4 Cotejando si hay Normalidad

Cuando se trata de sacar conclusiones acerca de la población usando los datos de la muestra, se asume generalmente que la los datos de la población se distribuyen de forma normal. Como no se conocen todos los elementos de la población, se deben usar los datos de la muestra para verificar si efectivamente la población es Normal. Existen varias pruebas estadisticas para verificar Normalidad.

En MINITAB, primero se elige la opción Basic Statistics de Stat y luego Normality Test del submenú que aparece.

En este texto nosotros sólo discutiremos la forma básica de detectar normalidad, la cual es a través del plot de Normalida. El plot de Normalidad consiste de un diagrama de puntos donde en el eje vertical se considera los escores normales y en el eje horizontal los valores de la variable. Si los puntos caen cerca de una línea, entonces se dice que hay

Normalidad. En MINITAB este plot es obtenido siguiendo la secuencia Graph Probability Plot. En la ventana que aparece elegir la opcion Single como se muestra en la Figura 5.6

Ejemplo 5.21. Usar un plot de Normalidad para verificar si la siguiente muestra proviene de una población Normal

3.1 .9 2.8 4.3 .6 1.4 5.8 9.9 6.3 10.4 0 11.5

133

Page 141: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

La ventana de diálogo se completará como se muestra en la Figura 5.7. En la opción Distribution.. elegir normal y entrar los valores de la media y de la desviacion estandar correspondientes. Si estos valores no son entrados manualmente, MINITAB los estimará utilizando los datos.

MINITAB produce el plot que aparece en la Figura 5.8. En el eje horizontal aparecen los escores normales y en el eje vertical las probabilidades acumuladas de dichos escores.

Figura 5.6. Ventana de dialogo de Probability Plots.

Figura 5.7 Ventana de diálogo de Probability Plot - Single para hacer un plot de Normalidad.

Interpretación: Los puntos caen cerca de la linea y todos caen dentro de las bandas de confianza, luego se puede concluir que la población de donde proviene la muestra es Normal.

134

Page 142: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

Figura 5.8. Plot de Normalidad para los datos del Ejemplo 5.21.

5.5 Simulando datos de una distribución conocida

Muchas veces se hace dificil conseguir datos reales para corroborar un método estadístico, una manera de resolver dicho problema es hacer que la computadora produzca mediante simulación dichos datos.

MINITAB tiene una lista grande de distribuciones conocidas, que pueden ser simuladas, esta lista se puede ver seleccionando Random Data en el menú Calc.

Ejemplo 5.22. Supongamos que deseamos simular 30 notas de una población normal que tiene media 70 y desviación estándar 10. La ventana de diálogo correpondiente será como sigue:

135

Page 143: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

Figura 5.9. Ventana de diálogo para generar al azar una muestra de una población Normal.

Los datos aparecen con 4 decimales, pero si se elige la opción Format column del menú Editor, se puede definir que el número de decimales sean cero para que los datos salgan enteros, que es lo más común para notas. Los datos generados aparecen en la ventana session como sigue:

Data Display

C1 80 80 77 75 54 69 53 79 81 64 73 64 69 84 60 95 71 63 58 65 79 69 64 87 75 95 58 68 63 81

136

Page 144: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

EJERCICIOS

1. En una caja hay 5 fichas numeradas del 3 al 7. Se extraen al azar 3 de ellas a la vez. Hallar la función de probabilidad y el valor esperado de la variable aleatoria X: El menor de los números extraidos. (Por ejemplo si se extrajo la muestra 4, 3 y 6 entonces X=3).

2. De acuerdo a datos del gobierno, 30% de las mujeres que trabajan nunca han estado casadas, se elige al azar una muestra de 11 mujeres trabajadoras. ¿Cuál es la probabilidad de que:

a) Exactamente 2 de ellas nunca hayan estado casadas?b) A lo más 3 de ellas nunca hayan estado casadas?c) Por lo menos 7 de ellas hayan estado casadas?

3. Un criminólogo afirma que el 80% de los condenados por "lavado de dinero" no vuelven a cometer un acto criminal por lo menos durante los primeros cinco años de ser liberados. Se elige al azar una muestra de 8 criminales que han sido liberados despues de estar encarcelados por "lavado” de dinero. ¿Cuál es la probabilidad de que:

a) Ninguno de ellos comete crimen alguno por lo menos durante los cinco primeros años?

b) Por lo menos 2 de ellos no cometan algún crimen por lo menos durante los cinco primeros años?

c) No más de 3 de ellos cometan algún crimen por lo menos durante los primeros cinco años?

4. En un estudio clínico se determinó que 1 de cada 5 personas sufren de enfermedades mentales. Se seleccionaron al azar 30 personas:

a) ¿Cuál es la probabilidad de que 7 de estas personas sufran de enfermedades mentales?

b) ¿Cuál es la probabilidad de que al menos 8 de estas personas no sufran de enfermedades mentales?

c) ¿Cuál es la probabilidad de que a lo más 6 sufran de enfermedades mentales?

5. Se ha encontrado que el 16% de los articulos producidos por una maquinaria tienen defectos. Un inspector de control de calidad selecciona 30 articulos aleatoriamente encuentre la probabilidad de que:

a) 6 de los articulos seleccionados sean defectuosos .b) a lo más 10 de éstos articulos sean defectuosos.c) Al menos 15 de ellos no sean defectuosos.d) Al menos 6 de ellos pero, no más de 18 sean defectuosos.

6. Se estima que el 30% de los accidentes automovilisticos se debe a que el conductor está ebrio.

a) Calcular en promedio cuántos accidentes se deberán al hecho de que el conductor esté ebrio en los siguientes 82 accidentes reportados.

b) Calcular la desviación estandar del número medio de accidentes en los siguientes 82 accidentes reportados.

137

Page 145: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

7. Una empresa tiene dos plantas de producción: A y B. En A se produce un 40% de la producción total y en B un 60%. Se sabe además que un 2% de la produccion de A y un 7% de la producción de B son defectuosas. Se elige al azar 12 articulos producidos por la empresa. ¿Cuál es la probabilidad de que:

a) Solamente 3 salgan defectuosos?b) A lo mas 2 salgan defectuosos?c) Por lo menos 9 salgan buenos?

8. En el estudio Framingham acerca de factores que afectan las enfermedades cardíacas se hizo un seguimiento por un período de 16 años a una gran cantidad de hombres sanos. Se encontró que inicialmente la distribución de los niveles de colesterol de los hombres era Normal con media µ = 224 y con desviación estándar σ = 48

a) Una persona con un colesterol menor de 200 es considerada como una con bajo riesgo de tener complicaciones cardíacas. ¿Qué porcentaje de hombres tendrán bajo riesgo?

b) Si el colesterol de la persona es mayor de 250 entonces tendrá problemas cardiacos en el futuro. ¿Qué porcentaje de hombres tendrán problemas cardiacos?

c) Los hombres que tienen el 5% más alto de colesterol serán sometidos a una dieta, para bajarle su colesterol y evitar que tenga problemas cardiacos en el futuro. ¿Cuál será el nivel de colesterol máximo permitido para NO someterse a la dieta?

9. Un profesor considera que el tiempo que los estudiantes necesitan para terminar el examen se distribuye normalmente con media µ = 60 minutos y desviación estándar σ = 10 minutos.

a) ¿Cuál es la probabilidad de que un estudiante demore más de una hora y 15 minutos en terminar el examen?

b) ¿Cuál es la probabilidad de que un estudiante demore más de 45 minutos pero menos de 85 minutos en terminar el examen?

c) Se elige al azar 8 estudiantes que cogieron el examen, ¿Cuál es la probabilidad que exactamente 5 de ellos tarden más de 40.4 minutos pero menos de 79.6 minutos en terminar el examen?

10. El contenido de las botella de jugo de naranja llenadas por una máquina automática tiene una distribución aproximadamente normal con media 63.9 onzas y desviación estándar de 0.25. Encontrar la probabilidad de que:

a) Una botella contenga menos de 64 onzas de jugo de naranja.b) Una botella contenga al menos 63.75 onzas de jugo de naranja.

11. Un análisis realizado al contenido de grasa en jamones determina que en cada corte de 5 onzas de jamón se tiene en promedio 12.34 gramos de grasa si se asume que la cantidad de grasa tiene distribución normal con desviación estándar de 0.8 gramos.

a) ¿Qué porcentaje de cortes de jamón de 5 onzas tiene un contenido de grasa entre 10.2 gramos y 12.5 gramos.

b) ¿Qué porcentaje de cortes de jamón de 5 onzas tienen más de 14 gramos de grasa

12. Se sabe que X es una variable aleatoria con distribución normal y con media 72. Hallar la desviación estándar si en un 10% de las veces X tiene un valor mayor a 89.

138

Page 146: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 5 Distribuciones de Probabilidades

13. Se estima que un conductor conduce un promedio de 12,400 millas al año, con una desviación estándar de 3800 millas. Calcular la probabilidad de que en el próximo año el conductor conduzca:

a) Más 12,100 millas pero menos que 13,200 millasb) Más de 15,000 millas.

139

Page 147: Estadistica con Mitab.pdf

CAPÍTULO 6

DISTRIBUCIONES MUESTRALES

Uno de los objetivos de la estadística es saber acerca del comportamiento de

parámetros poblacionales tales como: la media ( ), la varianza ( 2 ) o la proporción ( p ).

Para ello se extrae una muestra aleatoria de la población y se calcula el valor de un

estadístico correspondiente, por ejemplo, la media muestral ( X ), la varianza muestral

( 2s ) o la proporción muestral ( p ). El valor del estadístico es aleatorio porque depende de

los elementos elegidos en la muestra seleccionada y, por lo tanto, el estadístico tiene una

distribución de probabilidad la cual es llamada la Distribución Muestral del Estadístico.

6.1 Distribución de la Media Muestral cuando la población es normal

Si se estraen muestras aleatorias de tamaño n de una población infinita que tiene

media poblacional y varianza 2 , entonces sea cual sea la distribución de la población

se tiene que:

i) La media de las medias muestrales es igual a la media poblacional. Es decir

x .

ii) La varianza de las medias muestrales es igual a la varianza poblacional dividida por

n . En consecuencia la desviación estándar de las medias muestrales (llamada

también el error estándar de la media muestral), es igual a la deviación estándar

poblacional dividida por la raíz cuadrada de n . Es decir n

x

.

Si la población fuera finita de tamaño N , entonces se aplica el factor de correción

1

N n

N

al error estándar de la media muestral. Pero en la práctica este factor es omitido a

menos que la muestra sea lo suficientemente grande comparada con la población.

Si además la población se distribuye normalmente, entonces la media muestral

también tiene una distribución normal con la media y varianza anteriormente indicadas.

6.2 El Teorema del Límite Central

Un importante resultado en Probabilidades y Estadística es el llamado Teorema del

Límite Central que dice que si de una población infinita con media y varianza 2 se

extraen muestras aleatorias de tamaño n , entonces la media muestral se comporta

aproximadamente como una variable aleatoria normal con media igual a la media

Page 148: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 6 Distribuciones Muestrales 141

poblacional y con varianza igual a la varianza poblacional dividida por el tamaño de la

muestra, siempre que n sea grande. Lo importante de este resultado es que es

independiente de la forma de la distribución de la población. Es decir,

),(~2

nNX

Estandarizando, esto es equivalente a:

)1,0(~ N

n

XZ

Si la población es bastante simétrica entonces, un tamaño de muestra n mayor que

30 es suficiente para una buena aproximación a la normal. Si la población es bastante

asimétrica, entonces el tamaño de muestra debe ser mucho más grande.

En MINITAB se puede tratar de corroborar el Teorema del Límite Central a través

de un proceso de simulación.

Ejemplo 6.1 Considerar una población que consiste de 3, 4, 6, 8, 10, 11, 12, 15, 20.

Primero calculamos la media y desviación estándar de dicha población.

Descriptive Statistics

Variable N Mean Median Tr Mean StDev SE Mean

C1 9 9.89 10.00 9.89 5.42 1.81

Variable Min Max Q1 Q3

C1 3.00 20.00 5.00 13.50

Notar que 89.9 y 42.5 .

Segundo, extraemos 30 muestras de tamaño 4 de dicha población, ejecutando 4 veces la

siguiente secuencia CalcRandom DataSample from columns. Guardar cada una de

las 4 observaciones de las muestras en 4 columnas distintas: Obs1, Obs2, Obs3, y Obs4.

Tercero, calculamos las medias de todas esas muestras usando la opción Row Statistics

del menú Calc y tratamos de ver gráficamente al menos si hay acercamiento a

Normalidad. Asimismo se debe observar que la media de todas estas medias debería estar

cerca de y la varianza cerca de 2/n.

Las 30 muestras elegidas y sus respectivas medias son:

Muestra obs1 obs2 obs3 obs4 media

Page 149: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 6 Distribuciones Muestrales 142

1 6 4 3 8 5.25

2 11 8 4 3 6.50

3 3 3 15 3 6.00

4 10 8 10 6 8.50

5 15 12 11 8 11.50

6 4 12 6 6 7.00

7 12 11 20 10 13.25

8 12 8 20 12 13.00

9 8 10 12 11 10.25

10 8 20 11 20 14.75

11 20 10 6 8 11.00

12 11 10 12 12 11.25

13 11 3 8 11 8.25

14 3 10 11 4 7.00

15 20 12 20 3 13.75

16 20 3 15 11 12.25

17 12 20 20 15 16.75

18 3 3 11 20 9.25

19 20 11 10 15 14.00

20 11 3 11 15 10.00

21 6 8 6 15 8.75

22 11 3 12 6 8.00

23 10 8 3 20 10.25

24 6 20 12 6 11.00

25 15 6 4 12 9.25

26 11 10 3 4 7.00

27 11 11 11 11 11.00

28 10 10 6 10 9.00

29 4 20 20 3 11.75

30 11 6 6 8 7.75

Las medidas estadísticas de la media muestral son:

Variable N Mean Median Tr Mean StDev SE Mean

media 30 10.108 10.125 10.019 2.806 0.512

Variable Min Max Q1 Q3

media 5.250 16.750 7.938 11.875

En la Figura 6.1 se muestra el histograma de la distribución de las medias muestrales y la

curva normal que más se aproxima al histograma.

Interpretación: Notar que la media de las medias muestrales es 10.108x que está

bien cerca de la media poblacional 89.9 . Además la desviación estándar de la media

muestral es 2.806 mientras que n es igual a 5.42/2=2.71 ambos valores también

están relativamente cerca. El histograma si está un poco alejado de la normalidad.

Page 150: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 6 Distribuciones Muestrales 143

Si se incrementa el tamaño de las muestras se puede notar una mejor aproximación a la

Normal.

Figura 6.1 Histograma de la distibución de las medias maestrales del Ejemplo 6.1

Luego de aplicar estandarización, las siguientes fórmulas se cumplen, aproximadamente si

la población no es normal y exactamente si lo es.

i) )()(

n

aZPaXP

ii) )()(

n

bZ

n

aPbXaP

iii) )()(

n

bZPbXP

Las probabilidades pueden ser calculadas usando la tabla de la normal estándar que

aparece en al apéndice del texto. Sin embargo, éstas pueden ser halladas directamente en

MINITAB sin necesidad de estandarización.

Page 151: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 6 Distribuciones Muestrales 144

Ejemplo 6.2. El tiempo de atención por cliente de un cajero de un Banco es normal con

media 6 minutos y desviación estándar 2.5 minutos.

a) ¿Cuál es la probabilidad de que el tiempo promedio de atención para una muestra de

15 clientes sea menor de 7 minutos?

b) ¿Cuál es la probabilidad de que el tiempo de atención a un grupo de 15 clientes sea

más de una hora y 15 minutos?

c) Si el tiempo en que el cajero atiende a un grupo de 15 clientes excede las dos horas

entonces éste es despedido. ¿Cuál es la probabilidad de que esto ocurra?

Solución:

Usando el hecho que el tiempo promedio de atención para una muestra de tamaño 15 es

normal con media 6, y desviación estándar 645.015

5.2 , con la ayuda de MINITAB se

obtiene:

a) 9395.0)7( XP

b) Un tiempo de atención de 75 minutos a 15 clientes equivale a un tiempo promedio de

atención de 75/15 = 5 minutos. Luego, hay que hallar 9395.00605.01)5( XP

c) Un tiempo de atención de 120 minutos a 15 clientes equivale a un tiempo promedio de

atención de 120/15 = 8 minutos por cliente. Luego, hay que hallar )8(XP 1 -

0.9990 = .001.

Ejemplo 6.3. Los pesos de las personas que suben a un ascensor se distribuyen

normalmente con media igual a 125 libras y desviación estándar de 30 libras. Un grupo de

9 personas sube al ascensor:

a) ¿Cuál es la probabilidad de que el peso promedio del grupo sea menor de 100 libras?

b) El ascensor tiene una capacidad máxima de 1400 libras. ¿Cuál es la probabilidad de

que se exceda ésta capacidad con un grupo de 9 personas?

Solución:

a) El peso promedio de un grupo de 9 personas se distribuye normalmente con media 125

y desviación estándar igual a 109

30 . Luego usando la secuencia CalcProbability

Distributions Normal en MINITAB se obtiene que 0062.0)100( XP .

b) Decir que la suma de los pesos del grupo sea mayor que 1400, equivale a que el peso

promedio del grupo de 9 personas sea mayor que 1400/9 = 166.66 libras. Luego, la

probabilidad pedida será 0011.09989.1)66.166(1)66.166( XPXP .

6.3 Distribución de la Proporción Muestral

Si de una población distribuida Binomialmente con probabilidad de éxito p , se

extrae una muestra aleatoria de tamaño n , entonces se puede mostrar que la media de X:

Page 152: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 6 Distribuciones Muestrales 145

número de éxitos en la muestra, es np y que su varianza es npq2 . En

consecuencia la proporción muestral n

Xp ˆ tiene media p , y varianza

n

pq. Así, por el

Teorema del Limite Central, cuando el tamaño de muestra es grande, entonces:

n

pq

pp

npq

npXz

ˆ

Se distribuye aproximadamente como una normal estándar. La aproximación es

bastante confiable si tanto pnˆ como qn ˆ son mayores que 5. Cuando p es cercano a 0 ó 1

se debe tomar un tamaño de muestra más grande para mejorar la aproximación.

Asímismo, como se están aproximando probabilidades de una distribución discreta

por probabilidades de una distribución contínua, se debe aplicar un Factor de Corrección

por Continuidad de 1/2, antes de calcular las probabilidades. Este 1/2 se explica porque

un valor entero k de la variable discreta representa a todos los valores de la variable

continua que caen en el intervalo 21,21 kk . Cuando el tamaño de muestra es bien

grande entonces el efecto de considerar el factor de corrección por continuidad es

insignificante.

Fórmulas de aproximación Normal a la Binomial.

Si X es una Binomial con parámetros n y p, entonces

i) )5.5.

()5.5.(npq

npkZ

npq

npkPkXkPkXP

ii) )5.5.

()5.5.(npq

npbZ

npq

npaPbXaPbXaP

iii) )5.5.

()5.5.(npq

npbZ

npq

npaPbXaPbXaP

Similarmente se pueden definir fórmulas para aproximar probabilidades para proporciones

muestrales.

Page 153: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 6 Distribuciones Muestrales 146

Ejemplo 6.4. Según reportes del centro nacional para estadísticas de salud, alrededor del

20 % de la población masculina adulta de los Estados Unidos es obesa. Se elige al azar

una muestra de 150 hombres adultos en los Estados Unidos. ¿Cuál es la probabilidad de

que:

a) Haya a lo más 25 personas obesas?

b) Haya más de 22 pero menos de 35 obesos?

c) Haya por lo menos un 25% de obesos en la muestra?

Solución:

Usando aproximación normal a la Binomial se tiene que:

a) 1814.091.024

305.255.2525

ZPZPXPXP

b)

24

305.34

24

305.225.345.223522 ZPxPXP

8123.00063.08186.091.053.1 ZP .

c) P(

)24

305.37()5.37()25.ˆ ZPXPp P(Z>1.53) = 1-P(Z<1.53) =

1-.9730 = .0630.

Page 154: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 6 Distribuciones Muestrales 147

EJERCICIOS

1. Los tiempos de espera en la fila de un proceso de matrícula de una universidad se

distribuyen normalmente con media 45 minutos y desviación estándar de 20 minutos.

Se elige al azar una muestra de 16 estudiantes que se van a matricular.

a) ¿Cuál es la probabilidad de que el tiempo de espera promedio de la muestra sea

mayor de 60 minutos?

b) ¿Cuál es la probabilidad de que el tiempo de espera promedio de la muestra sea

mayor de 35 minutos pero menor de 55 minutos?

2. Los tiempos que se demoran los empleados de una fábrica en realizar una tarea de

ensamblaje se distribuyen normalmente con media de 12 minutos y desviación

estándar de 6. Se toma una muestra de 10 empleados:

a) ¿Cuál es la probabilidad de que el tiempo promedio que usan los empleados para

terminar la tarea de ensamblaje sea mayor de 15, pero menor de 17 minutos?

b) Si los 10 empleados tardan menos de hora y media en terminar la tarea de

ensamblaje entonces la fábrica recibe un premio. ¿Cuál es la probabilidad de que

esto ocurra?

3. El contenido promedio de cereal en un paquete es de 450 gramos con una desviación

estándar de 13 gramos. Si se tomó una muestra de 35 paquetes

a) ¿Cuál es la probabilidad de que el promedio de esta muestra sea mayor a 455

gramos?

b) ¿Cuál es la probabilidad de que el promedio de ésta muestra se encuentre entre 445

y 458 gramos?

4. Haga uso del programa MINITAB para:

a) Generar 60 muestras aleatorias de tamaño 25 de una población normal con media

60 y deviación estandar 13.

b) Calcule la media para cada muestra generada en la parte a).

c) Calcule la desviación estándar de los promedios calculados en la parte a)

d) Compare los resultados obtenidos en la parte b) y c) , con lo propuesto en la parte

a)

5. Un restaurant determinó que en 1 de cada 5 almuerzos vendidos el cliente pide un

postre. Si en un día el restaurant realiza 600 ventas:

a) Calcular la probabilidad de más de 150 clientes acompañe su almuerzo con un

postre.

b) Calcular la probabilidad de que a lo más 450 clientes acompañen su almuerzo con

un postre.

6. En la época de invierno en los Estados Unidos se estima que el 90% de la población

contrae enfermedades respiratorias, para una muestra de 350 cuál es la probabilidad de

que más de 315 podrian eventualmente sufrir algún tipo de enfermedades

respiratorias?.

Page 155: Estadistica con Mitab.pdf

CAPÍTULO 7

INFERENCIA ESTADÍSTICA

La Inferencia Estadística comprende los métodos que son usados para obtener conclusiones de la población en base a una muestra tomada de ella. Incluye los métodos de estimación de parámetros y las pruebas de hipótesis. En la estimación de parámetros la idea es hallar un estimado del parámetro poblacional usando una muestra aleatoria tomada de la población. Uno espera que el estimado esté lo más cerca posible del parámetro. Por ejemplo la media muestral estima la media poblacional.

La Estimación de parámetros comprende a su vez la Estimación Puntual, en donde se estudian los diversos métodos de encontrar estimadores y las propiedades óptimas que deben tener éstos, y la Estimación por Intervalos de Confianza, en donde se estima un parámetro usando un intervalo centrado en un estimado del parámetro y de longitud igual a dos veces el error de estimación. El Error de estimación depende del nivel de confianza deseado, usualmente, 90, 95 ó 99 por ciento.

En este texto solamente se tratará el cálculo de intervalos de confianza. Los diversos métodos de encontrar estimadores y las propiedades de estimadores óptimos son discutidos en un curso de Estadística Matemática.

Una Hipótesis Estadística es una afirmación que se hace acerca de un parámetro poblacional. Por ejemplo, el tiempo de vida promedio para una persona diagnosticada con cáncer de pulmón es 180 días. El porcentaje de personas que favorecen a un candidato a la presidencia es 60%.

La afirmación que está establecida y que se espera sea rechazada después de aplicar una prueba estadística es llamada la hipótesis nula y se representa por Ho.

La afirmación que se espera sea aceptada después de aplicar una prueba estadística es llamada la hipótesis alterna y se representa por Ha.

Una prueba estadística es una fórmula, basada en la distribución del estimador del parámetro que aparece en la hipótesis y que va a permitir tomar una decisión acerca de aceptar o rechazar una hipótesis nula.

Al igual que una prueba de laboratorio para detectar cierta enfermedad, una prueba estadística no es cien por ciento segura y puede llevar a una conclusión errónea. Por ejemplo, no es frecuente pero puede ocurrir que una prueba de sangre para detectar una enfermedad E concluya que una persona sana tiene la enfermedad E, o que una persona no tiene la enfermedad E cuando en realidad si la tiene.

Page 156: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Hay dos tipos de errores que pueden ocurrir. El error tipo I, que se comete cuando se rechaza una hipótesis nula que realmente es cierta y el error tipo II que se comete cuando se acepta una hipótesis nula que realmente es falsa.

El nivel de significación, representada por α, es la probabilidad de cometer error tipo I, y por lo general se asume que tiene un valor de .05 ó .01. También puede ser interpretado como el área de la región que contiene todos los valores posibles de la prueba estadística para los cuales la hipótesis nula es rechazada.

La probabilidad de cometer error tipo II, representado por β y al valor 1-β se le llama la potencia de la prueba. Una buena prueba estadística es aquella que tiene una potencia de prueba alta.

En este capítulo, primero se discutirá el cálculo de intervalos de confianza y pruebas de hipótesis para la media poblacional, para una proporción y finalmente para la varianza de una población. Luego se tratarán los intervalos de confianza y prueba de hipótesis para la razón de dos varianzas poblacionales, para la diferencia de dos medias poblacionales y por último para la diferencia de dos proporciones.

7.1 Inferencias acerca de la Media Poblacional (varianza conocida).

Supongamos que de una población normal con media desconocida µ y varianza conocida σ2 se extrae una muestra de tamaño n, entonces de la distribución de la media muestral x se obtiene que:

n

xZσ

µ−=

se distribuye como una normal estándar. Luego α−=<<− 1)( 2/2/ aa ZZZP . Donde Zα/2

es el valor de la normal estándar tal que el área a la derecha de dicho valor es α/2, como se muestra en la siguiente figura:

Figura 7.1. Relación de α/2 y Zα/2 en la curva normal estándar

149

Page 157: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Sustituyendo la fórmula de Z se obtiene:

Haciendo un despeje algebráico, se obtiene

P( x - Zα/2 σ/ n < µ < x + Zα/2 σ/ n ) = 1 - α

Notar que los dos extremos del intervalo son aleatorios. Si se toma una muestra aleatoria y se calcula su media entonces los extremos del intervalo dejan de ser aleatorios y ya no se puede hablar de probabilidad sino de confianza. De lo anterior se puede concluir que un Intervalo de Confianza del 100 (1-α) % para la media poblacional µ, es de la forma:

x - Zα/2 σ/ n , x + Zα/2 σ/ n

Usualmente α = .1, .05 ó .01, que corresponden a intervalos de confianza del 90, 95 y 99 por ciento respectivamente. La siguiente tabla muestra los Zα/2 más usados.

Nivel de Confianza

Zα/2

90 1.64595 1.9699 2.58

Usando MINITAB se pueden hallar intervalos de confianza y hacer prueba de hipótesis para µ. Para esto se sigue la secuencia Stat Basic Statistics 1-sample Z

Ejemplo 7.1 Un cardiólogo desea hallar un intervalo de confianza del 90% para el nivel colesterol promedio de todos los pacientes que presentan problemas cardiacos. Para esto asume que la distribución de los niveles de colesterol es normal con una desviación estandar σ = 13 y usa la siguiente muestra al azar de niveles de colesterol de 20 pacientes con problemas cardiacos.

217 223 225 245 238 216 217 226 202 233 235 242 219 221 234 199 236 248 218 224

Solución:Después de entrar los datos en la columna colesterol, la ventana de diálogo será completada como lo muestra la siguiente figura:

150

ασ

µαα −=<−<− 1)( 2/2/ Z

n

xZP

Page 158: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Figura 7.2. Ventana de diálogo de 1-sample Z para el Ejemplo 7.1

No se escribe nada en la ventanita Test mean. Luego hay que oprimir el botón Options para entrar el nivel de confianza como lo muestra la siguiente figura:

Aún cuando en Alternative aparece not equal, MINITAB sólo calculará el Intervalo de confianza tal como aparece en la ventana session:

One-Sample Z: colesterolThe assumed standard deviation = 13

Variable N Mean StDev SE Mean 90.0 % CIcolester 20 225.90 13.09 2.91 ( 221.12, 230.68)

151

Page 159: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Interpretación: Hay un 90% de confianza de que el nivel de colesterol de todos los pacientes con problemas cardíacos caiga entre 221.12 y 230.68.

En la práctica si la media poblacional es desconocida entonces, es bien probable que la varianza también lo sea puesto que en el cálculo de σ2 interviene µ. Si ésta es la situación, y si el tamaño de muestra es grande (n > 30, parece ser lo más usado), entonces σ2 es estimada por la varianza muestral s2 y se puede usar la siguiente fórmula para el intervalo de confianza de la media poblacional:

x - Zα/2 s/ n , x + Zα/2 s/ n

Ejemplo 7.2 Supongamos que la distribución de los puntajes en la prueba de aprovechamiento matemático del College Board de los estudiantes admitidos a cierta universidad en 1994 se comportan normalmente. Se extrae una muestra de 40 estudiantes que tomaron la prueba y se obtienen los siguientes datos:

Aprovech 658 562 679 731 710 631 663 654 565 654 669 710 720 700 657 721 795 635 617 580 638 642 704 767 641 721 625 694 615 617 623 689 689 683 702 694 729 710 689 741

Hallar un intervalo de confianza del 95% para el puntaje promedio en la prueba de aprovechamiento de todos los estudiantes admitidos a la Universidad.

Solución:Primero, debemos estimar la desviación estándar muestral s. Escoga Column Statistics del menú Calc y luego en la ventana de diálogo escoga standard deviation y guarde el resultado en la constante s. En la ventana session se obtendrá:

Column Standard Deviation

Standard deviation of aprovech = 51.862

152

Page 160: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Seguidamente elija la secuencia StatBasic Statistics1-sample Z y complete la ventana de diálogo 1-sample Z como sigue:

Figura 7.3. Ventana de diálogo de 1-sample Z para el Ejemplo 7.2.

Luego oprima el botón Options y en la ventanita Confidence Level entre 95. En la ventana session aparecerá lo siguiente:

One-Sample Z: aprovech

The assumed standard deviation = 51.8617

Variable N Mean StDev SE Mean 95% CIaprovech 40 673.100 51.862 8.200 (657.028, 689.172)

Interpretación: Hay un 95% de confianza de que la media del puntaje en la parte de aprovechamiento matemático de todos los estudiantes que tomaron el College Board caiga entre 657 y 689 puntos.

153

Page 161: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Por otro lado, también se pueden hacer pruebas de hipótesis con respecto a la media poblacional µ. Por conveniencia, en la hipótesis nula siempre se asume que la media es igual a un valor dado. La hipótesis alterna en cambio, puede ser de un sólo lado: menor ó mayor que el número dado, ó de dos lados: distinto a un número dado.

Existen dos métodos para hacer la prueba de hipótesis: el método clásico y el método del "P-value".

En el método clásico, se evalúa la prueba estadística de Z y al valor obtenido se le llama Z calculado (Zcalc). Por otro lado el nivel de significancia α, definido de antemano determina una región de rechazo y una de aceptación. Si Zcalc cae en la región de rechazo, entonces se concluye que hay suficiente evidencia estadística para rechazar la hipótesis nula basada en los resultados de la muestra tomada.

Las fórmulas están resumidas en la siguiente tabla:

Caso I Caso II Caso III Ho : µ=µ0 Ho : µ=µ0 Ho : µ=µ0

Ha : µ<µ0 Ha : µ ≠ µ0 Ha : µ>µ0

Prueba Estadística:

n

xZ o

σµ−

=

Decisión:

Si Zcal < -Zα entonces Si |Zcal |>Zα/2 entonces Si Zcal >Zα entoncesse rechaza Ho se rechaza Ho se rechaza Ho

Aquí Zα es el valor de la normal estándar tal que el área a la derecha de dicho valor es α. Recordar también que σ puede ser sustituído por s, cuando la muestra es relativamente grande (n > 30). Los valores de α más usados son 0.01 y 0.05. Si se rechaza la hipótesis nula al .01 se dice que la hipótesis alterna es altamente significativa y al .05 que es significativa.

Trabajar sólo con esos dos valores de α simplificaba mucho el aspecto computacional, pero por otro lado creaba restricciones. En la manera moderna de probar hipótesis se usa una cantidad llamada “P-value”.

Nota: El “P-value” llamado el nivel de significación observado, es el valor de α al cual se rechazaría la hipotesis nula si se usa el valor calculado de la prueba estadística. En la práctica un “P-value” cercano a 0 indica un rechazo de la hipótesis nula. Así un “P-value” menor que .05 indicará que se rechaza la prueba estadística.

154

Page 162: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Fórmulas para calcular “P-value”: Depende de la forma de la hipótesis alterna

i) Si Ha: µ>µo, entonces P-value = Prob (Z>Zcalc).ii) Si Ha: µ<µo, entonces P-value = Prob (Z<Zcalc).iii) Si Ha: µ≠µo, entonces P-value = 2Prob (Z>|Zcalc||).

Los principales paquetes estadísticos, entre ellos MINITAB, dan los “P-values” para la mayoría de las pruebas estadísticas.

A través de todo el texto usamos el método del “P-value” para probar hipótesis.

Ejemplo 7.3. En estudios previos se ha determinado que el nivel de colesterol promedio de pacientes con problemas cardíacos es 220. Un cardiólogo piensa que en realidad el nivel es más alto y para probar su afirmación usa la muestra del Ejemplo 7.1. ¿Habrá suficiente evidencia estadística para apoyar la afirmación del cardiólogo? Justificar su contestación.

Solución:La hipótesis nula es Ho: µ = 220 (el nivel de colesterol promedio es 220)La hipótesis alterna es Ha: µ > 220 (el cardiólogo piensa que el nivel promedio de colesterol es mayor de 220).La ventana de diálogo 1-Sample Z se completa como lo muestra la siguiente figura:

Figura 7.4. Ventana de diálogo de 1-sample Z para el Ejemplo 7.3.

155

Page 163: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Luego se oprime el botón Options y en la ventanita de alternative se elige “greater than” como se muestra a continuación:

No importa lo que se escriba en Confidence level, porque MINITAB sólo hará la prueba de hipótesis. Si la hipótesis alterna es “<”, entonces se elige “less than”, y si la alterna es “ ≠” entonces se elige “not equal”.

Los resultados son los siguientes:

One-Sample Z: colesterol

Test of mu = 220 vs > 220The assumed standard deviation = 13

90% LowerVariable N Mean StDev SE Mean Bound Z Pcolesterol 20 225.900 13.094 2.907 222.175 2.03 0.021

Interpretación: El valor del “P-value” (el área a la derecha de 2.03) es .021 menor que el nivel de significación α=.05, por lo tanto; se rechaza la hipótesis nula y se concluye de que si hay evidencia estadística de que el nivel de colesterol promedio de los pacientes con problemas cardíacos es mayor de 220. O sea los resultados apoyan lo que afirma el cardiólogo.

Ejemplo 7.4 Un profesor de matemáticas piensa que los datos de la muestra del Ejemplo 7.2 sugieren que el puntaje promedio en la parte de aprovechamiento matemático ha disminuido desde 1980, ya que en ese año la media de todos los puntajes en aprovechamiento era de 700 pts. ¿A qué conclusión se llegará después de hacer una prueba de hipótesis? Considerando que la variabilidad de los puntajes no ha cambiado de 1980 a 1994.

156

Page 164: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Solución:La hipótesis nula es H0: µ = 700 (el puntaje promedio en 1994 sigue siendo el mismo que en 1980) y la hipótesis alterna es Ha: µ < 700 (el puntaje promedio disminuyó).

La ventana de diálogo 1-Sample Z deberá ser completada como sigue:

Figura 7.5. Ventana de diálogo de 1-sample Z para el Ejemplo 7.4

Luego se oprime el botón Options y se elige less than en la ventanita de Alternative. Los resultados aparecerán en la ventana session de la siguiente manera:

One-Sample Z: aprovech

Test of mu = 700 vs < 700The assumed standard deviation = 51.8617

90% UpperVariable N Mean StDev SE Mean Bound Z Paprovech 40 673.100 51.862 8.200 683.609 -3.28 0.001

157

Page 165: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Interpretación: El valor del “P-value” (el área a la izquierda de –3.28) es .001 menor que el nivel de significación α = .05, por lo tanto se rechaza la hipótesis nula y se concluye de que si hay evidencia estadística de que el puntaje promedio de la parte de aprovechamiento ha disminuído desde 1980.

7.2 Inferencias acerca de la Media Poblacional (Varianza Desconocida)

Supongamos que la población es normal con media y varianza desconocida y que se desea hacer inferencias acerca de µ, basada en una muestra pequeña (n < 30) tomada de la población. En este caso la distribución de la media muestral x ya no es normal, sino que sigue la distribución t de Student.

La distribución t de Student es bastante similar a la Normal Estándar, con la diferencia que se aproxima más lentamente al eje horizontal. El parámetro de esta distribución es llamado grados de libertad, y se puede notar que a medida que los grados de libertad aumentan, la curva de la t y la curva normal estándar se asemejan cada vez más. Los grados de libertad guardan relación con el número de datos que se usan para calcular el estadístico y el número de estimaciones de parámetros que aparecen en la misma. Por cada estimación de parámetro que aparece en la fórmula del estadístico se pierde un grado de libertad.

Figura 7.6. Relación entre la curva normal estándar y una curva t.

Propiedad: Si de una población Normal con media µ y desviación estándar σ se extrae una muestra de tamaño n, entonces el estadístico:

ns

xt µ−=

158

-4 -3 -2 -1 0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

x

C2

Curva Normal Estandar y T con 5 grados de libertad

Hecho por Edgar Acuna

Curva NormalEstandar

t con 5gl.

Page 166: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

se distribuye como una t de Student con n-1 grados de libertad. Esta expresión es la base para hacer inferencia estadística para la media de una población Normal cuando la varianza no es conocida.

Un intervalo de confianza del 100 (1-α) % para µ es de la forma:

( x - t(n-1,α/2) s/ n , x + t(n-1,α/2) s/ n )

donde s es la desviación estándar muestral. Aquí t(n-1,α/2) es un valor de t con n-1 grados de libertad y tal que el área a la derecha de dicho valor es α/2.

También se pueden hacer las siguientes pruebas de hipótesis:

Caso I Caso II Caso IIIHo : µ=µ0 Ho : µ=µ0 Ho : µ=µ0

Ha : µ<µ0 Ha : µ ≠ µ0 Ha : µ>µ0

Prueba Estadística

T=ns

x oµ− es una t con n-1 g.l.

Decisión

Si Tcal < -tα entonces Si |Tcal |>tα/2 entonces Si Tcal >tα entonces se rechaza Ho se rechaza Ho se rechaza Ho

En MINITAB, para hallar intervalos de confianza y hacer pruebas de hipótesis acerca de la media, cuando la varianza poblacional no es conocida, hay que seguir la secuencia Stat Basic Statistics1-sample t.

Ejemplo 7.5 Los tiempos de sobrevivencia (en años) de 12 personas que se han sometido a un transplante de corazón son los siguientes:

3.1 .9 2.8 4.3 .6 1.4 5.8 9.9 6.3 10.4 0 11.5

Hallar un intervalo de confianza del 99 por ciento para el promedio de vida de todas las personas que se han sometido a un transplante de corazón.

159

Page 167: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Solución:Asumiendo que la columna Tiempo contiene los datos, la ventana de diálogo 1-sample t se completará como se muestra en la Figura 7.7. Notar que la ventana de diálogo es similar a la de 1-sample Z.

A continuación hay que oprimir el botón Options para entrar al nivel de confianza deseado en la ventanita Confidence Level como se muestra en la Figura 7.8.Los siguientes resultados aparecerán en la ventana session:

One-Sample T: tiempo

Variable N Mean StDev SE Mean 99% CItiempo 12 4.75000 4.04599 1.16798 (1.12249, 8.37751)

Figura 7.7. Ventana de diálogo de 1-sample t para el Ejemplo 7.5.

160

Page 168: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Figura 7.8. Ventana de diálogo de Options para 1-sample t.

Ejemplo 7.6 Usando los datos del Ejemplo 7.5, un cardiocirujano afirma que el tiempo de vida promedio de los transplantes es mayor que 4 años. ¿A qué conclusión se llegará después de hacer la prueba de hipótesis?

Solución:La hipótesis nula es H0: µ = 4 (el tiempo de vida promedio de todos los transplantes es 4 años) y la hipótesis alterna es Ha: µ > 4 (el tiempo de vida promedio es mayor que 4 años).

La ventana de diálogo 1-sample t se completará como se muestra en la Figura 7.9. Luego hay que oprimir el botón Options y elegir “greater than” en la ventanita Alternative.

161

Page 169: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Figura 7.9. Ventana de diálogo de 1-sample t para el Ejemplo 7.6.

Los siguientes resultados aparecerán en la ventana session:

One-Sample T: tiempo

Test of mu = 4 vs > 4 99% LowerVariable N Mean StDev SE Mean Bound T Ptiempo 12 4.75000 4.04599 1.16798 1.57535 0.64 0.267

Interpretación: El valor del “P-value” (el área a la derecha de 0.64) es .267 mayor que el nivel de significación α = .05, por lo tanto NO se rechaza la hipótesis nula y se concluye de que no hay evidencia de que el tiempo promedio de vida después del transplante haya aumentado de 4 años.

7.3 Inferencia para Proporciones

Muchas veces estamos interesados en estimar la proporción p (o el porcentaje) de ocurrencia de un evento, por ejemplo el porcentaje de estudiantes que fuman en una

162

Page 170: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

universidad, el porcentaje de votantes que favorecen a un cierto candidato, etc. Para esto necesitamos definir una variable aleatoria X que indique el número de veces que ocurre el evento en una muestra de tamaño n y con probabilidad de éxito, p. Se puede mostrar que cuando el tamaño de muestra es grande, tal que np > 5, entonces el estadístico

npq

ppZ −=ˆ

se distribuye aproximadamente como una normal estándar. Aquí p representa la

proporción poblacional que se desea estimar, y nxp =ˆ es la proporción muestral. Cuando

p es cercano a 0 ó a 1 se debe tomar un tamaño de muestra más grande para que la aproximación sea buena.

Un Intervalo de confianza aproximado del 100 (1-α) % para la proporción poblacional p será:

Las fórmulas para las pruebas de hipótesis serán como sigue:

Caso I Caso II Caso IIIHo : p=p0 Ho : p=p0 Ho : p=p0

Ha : p<p0 Ha : p ≠ p0 Ha : p>p0

Prueba Estadistica (Aproximada):

nqpppZ

00

0 )( −=

Decisión

Si Zcal <-Zα entonces Si |Zcal |>Zα / 2 entonces Si Zcal >Zα entoncesse rechaza Ho se rechaza Ho se rechaza Ho

Para hacer inferencias para proporciones en MINITAB, se sigue la secuencia Stat Basic Statistics 1 proportion.

163

nqpZp

nqpZp

ˆˆˆ,ˆˆˆ 2/2/ αα +−

Page 171: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Ejemplo 7.7 En 1990 en un cierto país, se reportó que dos de cada 5 personas pensaban que debería incrementarse el poder nuclear. En una encuesta reciente hecha en 1996 a 1225 personas se encontró que 478 de ellos pensaban que se debería aumentar el poder nuclear. Hallar un intervalo de confianza del 90 por ciento para la proporción poblacional en 1996. ¿Piensa Ud. que hay evidencia de que la opinión de la gente en 1996 ha cambiado con respecto a 1990? Justificar su contestación.

Solución: Hay que hallar un intervalo de confianza del 90% para la proporción p, y probar la siguiente hipótesis:

4.:0 =pH (la proporción no cambió de 1990 a 1996).4.: ≠pH a (la proporción cambió de 1990 a 1996).

El intervalo de confianza y la prueba de hipótesis se pueden hallar simultáneamente. La ventana de diálogo se completará como sigue:

Figura 7.10. Ventana de diálogo de 1-proportion para el Ejemplo 7.7.

Primero se elige la opción Summarized Data. La opción Samples in columns se usa cuando en una columna se entran las secuencias de éxitos y fracasos que realmente ocurren en la muestra. Luego en la ventanita Number of Trials, se entra el tamaño de la muestra y en la ventanita Number of successes se entra el número de éxitos. Después se oprime el botón Options y se completa la ventana de diálogo que aparece en la Figura 7.11.

164

Page 172: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Notar que se marca la opción Use test and interval based on normal distribution, porque estamos usando la prueba estadística aproximada por la normal.

Figura 7.11. Ventana de diálogo que aparece al oprimir options en 1-proportion.

Los siguientes resultados aparecen en la ventana session:

Test and CI for One Proportion

Test of p = 0.4 vs p not = 0.4

Sample X N Sample p 90% CI Z-Value P-Value1 478 1225 0.390204 (0.367280, 0.413128) -0.70 0.484

Interpretación: Viendo que el “p-value” es .484 mucho mayor que .05 se llega a la conclusión de que no hay suficiente evidencia para concluir que la proporción de personas a favor de un incremento del poder nuclear haya cambiado de 1990 a 1996.

Nota: Si en una columna se introduce los éxitos y fracasos entonces, MINITAB identifica el éxito (SUCCESS) y fracaso (FAILURE) según el orden alfabético, o sea fracaso es el valor de la variable que empieza con una letra que aparece antes en el alfabeto.

165

Page 173: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Ejemplo 7.8. El director de un hospital afirma que el 25 por ciento de los nacimientos que ocurren allí son por cesárea. Un médico que trabaja en dicho hospital piensa que ese porcentaje es mayor. Para probar su afirmación recolecta información de los 25 nacimientos ocurridos durante una semana. Los datos son como siguen:

PartosCesárea normal cesárea normal normal normal normal cesárea normal cesárea normal cesárea normal normal normal normal normal cesárea normal normal cesárea normal normal cesárea normal ¿Habrá suficiente evidencia estadística para apoyar la afirmación del médico?

Solución: En este caso los datos son entrados en una columna llamada partos, en consecuencia se usará la opción samples in columns en la ventana 1-proportion. En este ejemplo, éxito será que el parto sea normal y fracaso, que el parto sea por cesárea pues C está antes que N. Luego las hipótesis deben ser planteadas así:

Ho: p =.75 (el 75% de los partos son normales y el 25% por cesárea)Ha: p <.75 (menos del 75% de los partos son normales, o sea, más del 25% son por cesárea). La ventana de diálogo se completa como sigue:

Figura 7.12. Ventana de diálogo de 1 proportion para el Ejemplo 7.8.

166

Page 174: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

El contenido de la ventana session será:Test and Confidence Interval for One ProportionTest of p = 0.75 vs p < 0.75

Success = normalVariable X N Sample p 95.0 % CI Z-Value P-Valuepartos 17 25 0.680000 (0.497145, 0.862855) -0.81 0.209

Interpretación: De acuerdo al “P-value” = 0.209 > .05 no se rechaza la hipótesis nula. Por lo tanto, no hay evidencia suficiente para concluir que lo que afirma el médico es correcto.

7.4 Inferencia acerca de la Varianza Poblacional.

Para hacer inferencia acerca de la varianza de una población Normal se requiere hacer uso de la distibución Ji-Cuadrado, la cuál será explicada brevemente antes de discutir la inferencia.

7.4.1. La Distribución Ji-Cuadrado

Sean X1, X2,…, Xn observaciones de una muestra de tamaño n de una población normal N (µ,σ2). Entonces:

21

2

2)(

σχ

∑=

−=

n

ii XX

se distribuye como una Ji-Cuadrado ( χ2 ) con n-1 grados de libertad. La distribución Ji-Cuadrado no es simétrica, pero a medida que los grados de libertad aumentan se va observando más simetría. En la Figura 7.13 se muestra la gráfica de una χ2 con 9 grados de libertad.

167

Page 175: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Se puede mostrar que el cuadrado de una normal estandarizada es una Ji-Cuadrado con un grado de libertad y que si se suman dos variables Ji-Cuadrado independientemente distribuidas, entonces se obtiene otra Ji-Cuadrado cuyos grados de libertad es igual a la suma de los grados de libertad de los otros dos.

Figura 7.13 Gráfica de una Ji-Cuadrado con 9 grados de libertad

Recordando que la fórmula de la varianza muestral es 1

)(2

2

−=

∑ −n

isXX , se obtiene

que:

2

22 )1(

σχ sn −=

Se acostumbra usar la notación 2)(mχ para representar a una distribución Ji-Cuadrado con

m grados de libertad.

Usos de la Ji-Cuadrado

a) Para hacer inferencias acerca de la varianza poblacional. Es decir, para calcular Intervalos de Confianza y Prueba de hipótesis para la varianza poblacional.

b) Para hacer pruebas de Bondad de Ajuste. O sea, para probar si un conjunto de datos sigue una distribución pre-determinada.

c) Para hacer análisis de tablas de contigencia.

En este capítulo sólo se discutirá el primer uso, los otros dos se discutirán en el Capítulo 8.

168

0 10 20 30 40 50 60

0.00

0.05

0.10

x

f(x)

Ji-Cuadrado con 9 grados de libertad

Hecho por Edgar Acuna

Page 176: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

7.4.2 Intervalos de Confianza para la Varianza Poblacional

Partiendo de la siguiente relación, la cual puede ser fácilmente entendida con una gráfica:

P( χ α /22 < 2

2)1(σ

sn − < χ α1 22

− / ) = 1-α

Donde χ α /22 y χ α1 2

2− / representan los valores de una Ji-Cuadrado con n-1 grados de

libertad, de tal manera que el área a la izquierda de dichos valores son α/2 y 1 - α/2 respectivamente. Se puede llegar a establecer que un intervalo de confianza del 100 (1-α) % para la varianza poblacional σ2 de una población normal es de la forma:

( 22/1

2)1(

αχ −

− sn, 2

2/

2)1(

αχsn −

)

MINITAB no tiene un comando u opción para calcular un intervalo de confianza para la varianza, así que hay que calcular la fórmula usando las opciones Calculator y Probability Distributions del menú Calc.

Ejemplo 7.9 Los siguientes datos representan espesor de la membrana del plasma (medido en angstroms) de 20 especies de una planta:

80 90 85 82 75 58 70 84 87 81 87 61 73 84 85 70 78 95 77 52

Hallar un intervalo de confianza del 95 % para la varianza poblacional.

Solución:En este caso n = 20 y α = .05. Luego el intervalo de confianza del 95 % para σ2 será de la forma:

( 2975.

219χ

s, 2

025.

219χ

s)

En MINITAB, la varianza muestral s2 puede ser calculada usando la secuencia opción STATBasic StatisticsStore Descriptive Statistics, y luego eligiendo Variance en la opción Statistics. Esto da S2 = 122.116.

169

Page 177: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Los percentiles χ .9752 y χ .025

2 de la Ji- Cuadrado con 19 grados de libertad pueden ser calculados usando Chi-Square de la opción Probability Distributions del menú CALC, como lo muestra la siguiente Figura 7.14.

Figura 7.14. Ventana de diálogo para calcular percentiles de una Ji-Cuadrado.

Esto produce los siguientes resultados:

Inverse Cumulative Distribution Function

Chi-Square with 19 DF

P( X <= x ) x 0.025 8.90652

O sea, χ .0252 = 8.9065 y similarmente χ .975

2 = 32.8523. Luego, el intervalo de confianza del 95 % para la varianza poblacional será (70.6253, 260.507).

Por otro lado, tomando en cuenta que la desviación estándar es la raíz cuadrada positiva de la varianza, se puede usar la fórmula anterior para hallar un intervalo de confianza para la desviación estándar poblacional σ.

O sea, el intervalo de confianza del 100(1-α)% para la desviación estándar poblacional será:

170

Page 178: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

( 22/1

2)1(

αχ −

− sn, 2

2/

2)1(

αχsn −

)

MINITAB da este intervalo de confianza cuando siguiendo la secuencia STATBasic StatisticsGraphical Summary.

Para los datos del ejemplo se obtienen los resultados que aparecen en la siguiente Figura:

Figura 7.15. Resultados de Graphical Summary para el Ejemplo 7.9Interpretación: Un intervalo de confianza del 95% para σ es (8.4039, 16.1402). Si se cuadra ambos valores se obtiene el intervalo de confianza para la varianza, y se concluye de que hay un 95% de confianza de que la varianza del espesor de la membrana del plasma de todas las especies caen entre 70.6253 y 260.507.

7.4.3 Prueba de Hipótesis para la Varianza Poblacional

Asumiendo que la población de donde se extrae la muestra se distribuye normalmente se pueden hacer las siguientes hipótesis acerca de la varianza poblacional:

Caso I Caso II Caso III Ho : σ2 =σ 0

2 Ho : σ2 =σ 02 Ho : σ2 =σ 0

2

Ha : σ2 < σ 02 Ha : σ2 ≠ σ 0

2 Ha : σ2 > σ 02

Prueba Estadística:

171

Page 179: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

χσ

22

02

1=

−( )n s con n-1 g.l.

Decisión:

Si χ cal2 < χ α

2 entonces Si χ cal2 < χ α /2

2 ó χ cal2 > χ α1 2

2− / Si χ cal

2 > 21 αχ −

se rechaza Ho se rechaza Ho se rechaza Ho

Tampoco existe un comando para hacer esta prueba de hipótesis en MINITAB.

Ejemplo 7.10 Usando los datos del ejemplo anterior, probar si hay suficiente evidencia para concluir que la varianza poblacional sea mayor que 100. Usar un nivel de significación del 5 por ciento.

Solución:

Se desea probar:

Ho : σ2 = 100

Ha : σ2 > 100

El valor de la prueba estadística será (19)(122.116)/100 = 23.2020 que comparado con χ .952

= 30.1435 resulta ser menor. Luego, no hay evidencia suficiente para rechazar la hipótesis nula. Al 5 % de significación, la varianza poblacional no parece ser mayor que 100.

7.5 Comparando la varianza de dos poblaciones

Supongamos que se tienen dos poblaciones normales con varianzas desconocidas 21σ y 2

2σ . Si de la primera población se toma una muestra de tamaño m que tiene una varianza muestral 2

1s y de la segunda poblacion se toma una muestra, independiente de la primera, de tamaño n que tiene una varianza muestral 2

2s , se puede mostrar que la razón

22

22

21

21

σσ

ss

se distribuye como una F con m-1 grados de libertad en el numerador y n-1 en el

denominador. Esta es la base para la prueba de F de igualdad de varianza entre dos grupos Las fórmulas para las pruebas de hipótesis son como sigue:

Caso I Caso II Caso IIIHo : 2

221 σσ = Ho : 2

221 σσ = Ho : 2

221 σσ =

Ha : 22

21 σσ < Ha : 2

221 σσ ≠ Ha : 2

221 σσ >

172

Page 180: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Prueba Estadística:

22

21

ssF = con m-1 g.l. en el numerador y n-1 g.l en el denominador

Decisión:

Si calF < αF entonces Si calF < 2/αF o calF > 2/1 α−F Si calF > α−1Fse rechaza Ho se rechaza Ho se rechaza Ho

MINITAB hace pruebas de igualdad de varianza de dos o más grupos. Para esto se selecciona la opción 2 Variances del submenú Basic Statistics del menú STAT. Otra posibilidad es elegir Test for Equal Variances del submenú ANOVA del menú STAT.

Ejemplo 7.11 En el siguiente ejemplo se trata de comparar las varianzas de los puntajes de aprovechamiento de los estudiantes de escuelas públicas y privadas. Los datos recolectados son:

Est aprovech escuela1 580 pública2 638 pública3 642 privada4 704 pública5 767 privada6 641 privada7 721 privada8 625 privada9 694 pública10 615 pública11 617 pública12 623 pública13 689 privada14 689 pública

Solución:Las hipótesis son las siguientes:Ho: Varianza de los puntajes de estudiantes de escuela pública es igual a la varianza de puntajes de los estudiantes provenientes de escuela privada.Ha: Las varianzas no son iguales.

La ventana de diálogo de 2 Variances se completará como lo muestra la Figura 7.16. Oprimiendo el botón Options se puede elegir el nivel de confianza y poner un título a la gráfica que aparecerá:

173

Page 181: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Figura 7.16. Ventana de diálogo de 2 variances para el Ejemplo 7.11.

La ventana session mostrará los siguientes resultados:

Test for Equal Variances: aprovech versus escuela

95% Bonferroni confidence intervals for standard deviations

escuela N Lower StDev Upperprivada 6 32.4522 55.3477 158.347pública 8 28.2368 45.1347 103.380

F-Test (normal distribution)Test statistic = 1.50, p-value = 0.601

Levene's Test (any continuous distribution)Test statistic = 0.30, p-value = 0.594

Además aparece una gráfica mostrando los intervalos de confianza para cada una de las desviaciones estándar y una comparación de la variabilidad de cada muestra, como aparece en la Figura 7.17.

174

Page 182: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Figura 7.17. Intervalos de confianza y boxplots para comparar las varianzas.

Interpretación: El “P-value” de la prueba de F es .601 mucho mayor que .05, luego se acepta la hipótesis nula y se concluye que los puntajes en la prueba de aprovechamiento en las escuelas pública y privada tienen igual varianza. De las gráficas se puede ver que los “boxplots” de ambos grupos tienen aproximadamente el mismo alargamiento.

Ejemplo 7.12. Comparar la varianza de los promedios académicos de estudiantes hombres y mujeres matriculados en una clase básica de Estadística. Los datos están en el archivo gpasex, en la página de internet del texto.

Solución:Los datos están guardados en dos columnas una llamada hombres y la otra mujeres. Eligiendo la secuencia StatBasic Statistics2 variances se obtiene una ventana de diálogo la cual se completa como aparece en la Figura 7.18.

175

Page 183: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Figura 7.18. Ventana de diálogo de 2 Variances para el Ejemplo 7.12

Los resultados que se obtienen son como sigue:

Test for Equal Variances: hombre, mujer

95% Bonferroni confidence intervals for standard deviations

N Lower StDev Upperhombre 12 0.427001 0.631455 1.16725 mujer 16 0.254628 0.359156 0.59546

F-Test (normal distribution)Test statistic = 3.09, p-value = 0.045

Levene's Test (any continuous distribution)Test statistic = 6.16, p-value = 0.020

176

Page 184: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Además aparece el análisis gráfico mostrado en la Figura 7.19.

Figura 7.19. Intervalos de confianza y boxplots para comparar las varianzas del Ejemplo 7.12

Interpretación: Como el "p-value" de la prueba de F es 0.045 menor que 0.05 se rechaza la hipótesis nula de igualdad de varianza, y se concluye que las varianza de los promedios académicos de los hombres y las mujeres no son iguales. De las gráficas se pueden ver que la distribución de los promedios académicos de las mujeres es menos variable que la de los hombres.

7.6 Comparación entre dos medias poblacionales usando muestras independientes

Supongamos que se tienen dos poblaciones distribuídas normalmente con medias desconocidas µ1 y µ2, respectivamente. Se puede aplicar una prueba t de Student para comparar las medias de dichas poblaciones basándonos en dos muestras independientes tomadas de ellas. La primera muestra es de tamaño m, con media x y varianza 2

1s y la segunda muestra es de tamaño n, tiene media y y varianza 2

2s .

177

Page 185: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Si las varianzas de las poblaciones son iguales ( 222

21 σσσ == ) entonces se puede

mostrar que:

nms

yxt

p11

)()( 21

+

−−−=

µµ

se distribuye como una t con 2−+ nm grados de libertad. En este caso la varianza poblacional 2σ es estimada por una varianza combinada de las varianzas de las dos muestras tomadas, dada por la siguiente fórmula:

2)1()1( 2

2212

−+−+−

=nm

snsms p

Un intervalo de confianza del 100(1-α) % para la diferencia µ1-µ2 de las medias poblacionales será de la forma:

nmstyx pmn

11)2,2/( +±− −+α

Las fórmulas para las pruebas de hipótesis son las siguientes:

Caso I Caso II Caso IIIHo : 21 µµ = Ho : 21 µµ = Ho : 21 µµ =Ha : 21 µµ < Ha : 21 µµ ≠ Ha : 21 µµ >

Prueba Estadística:

nms

yxt

p11 +

−= con m+n-2 grados de libertad

Decisión:

Si calt < αt− entonces Si calt < 2/αt o calt > 2/1 α−t Si calt > α−1tse rechaza Ho se rechaza Ho se rechaza Ho

Las fórmulas se pueden generalizar para probar hipótesis de las diferencias de las dos medias es una cantidad especificada Do. En MINITAB, para hallar intervalos de confianza de diferencia de dos medias poblacionales y hacer prueba de hipótesis para comparar dos grupos se sigue la secuencia STAT2-sample t.

178

Page 186: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Ejemplo 7.13. Se desea comparar si los estudiantes de escuelas privadas y públicas tienen igual rendimiento en la prueba de aprovechamiento matemático del College Board. Los datos aparecen en el Ejemplo 7.11.

Solución:En el Ejemplo 7.11 se concluyó usando la prueba de F que que había igualdad de varianzas de las poblaciones de donde provenían las muestras. Luego la ventana de diálogo 2 sample t se completa como se muestra en la Figura 7.20.

Notar que aparece seleccionada la opción samples in one column porque los datos de las dos muestras van en una misma columna (aprovech), y en otra columna (escuela) van los valores que permiten identificar a qué muestra pertenece el dato. La opción Samples in different columns se usa cuando las dos muestras están en columnas separadas. Notar además que la opción Assume equal variances aparece marcada.

Al oprimir el botón Options se puede elegir el nivel de confianza, el valor de la hipótesis que se quiere probar y la dirección de la hipótesis alterna tal como se muestra en la Figura 7.21

Figura 7.20. Ventana de diálogo de 2-sample t para el Ejemplo 7.13.

179

Page 187: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Figura 7.21. Ventana de diálogo de Options para 2-sample t.

Los siguientes resultados aparecerán en la ventana session:

Two-Sample T-Test and CI: aprovech, escuela

Two-sample T for aprovech SEescuela N Mean StDev Meanprivada 6 680.8 55.3 23pública 8 645.0 45.1 16

Difference = mu (privada) - mu (pública)Estimate for difference: 35.833395% CI for difference: (-22.5849, 94.2516)T-Test of difference = 0 (vs not =): T-Value = 1.34 P-Value = 0.206 DF = 12Both use Pooled StDev = 49.6461

Interpretación: El valor del “P-value” es .206 mayor que el nivel de significación α = .05, por lo tanto NO se rechaza la hipótesis nula y se concluye de que no hay evidencia de que los estudiantes de escuela pública tengan un rendimiento distinto que los de escuela privada en las pruebas de aprovechamiento. El número de grados de libertad de la t es 12. Notar que el intervalo de confianza del 95% para la diferencia es (–22.6, 94.3) que contiene a cero, ésta es otra manera de justificar que se acepta la hipótesis nula.

180

Page 188: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Eligiendo la opción Graphs de la ventana de diálogo 2-Sample t se obtiene los boxplots de los dos grupos, como aparece en la siguiente figura:

Figura 7.22. Comparación de dos grupos usando boxplots.

Interpretación: No se puede apreciar una marcada diferencia entre las medianas (representadas por las lineas dentro de las cajas), ni las medias (representadas por los puntos) de los grupos. La variabilidad de los dos grupos también es bastante similar ya que los dos “boxplots” tienen alargamiento similar.

Si las varianzas de las poblaciones no son iguales, entonces se usa una prueba aproximada de t, donde el número de grados de libertad es calculado aproximadamente.

La prueba de t aproximada está dada por:

ns

ms

yxt22

21 +

−=

donde los grados de libertad gl son aproximados por la siguiente fórmula:

181

Page 189: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

11

)(22

21

221

−+

+=

nc

mc

ccgl

con msc

21

1 = y nsc

22

2 = .

Ejemplo 7.14. Usando los datos del Ejemplo 7.12, probar si las estudiantes mujeres tienen mejor promedio académico que los varones.

Solución:En este caso los datos de cada muestra están en dos grupos separados y ya se mostró en el Ejemplo 7.12 que ellos no tienen igual varianza. La ventana de diálogo se muestra en la Figura 7.23. Notar que no se ha seleccionado la opción Assume equal variances. Luego se oprime el botón Options y se elige “greater than” en la ventanita Alternative.

Los resultados que aparecen en la ventana session serán:

Two-Sample T-Test and CI: hombre, mujer

Two-sample T for hombre vs mujer

N Mean StDev SE Meanhombre 12 2.954 0.631 0.18mujer 16 3.249 0.359 0.090

Difference = mu (hombre) - mu (mujer)Estimate for difference: -0.29520895% CI for difference: (-0.725972, 0.135555)T-Test of difference = 0 (vs not =): T-Value = -1.45 P-Value = 0.166 DF = 16

182

Page 190: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Figura 7.23. Ventana de diálogo de 2-sample t para el Ejemplo 7.14.

Interpretación: Como el “P-value” es .083 > .05 aunque no por mucho, se concluye que no hay suficiente evidencia de que el promedio académico de las mujeres sea mayor que el de los hombres.

7.7 Comparando media de dos poblaciones usando muestras pareadas

En este caso se trata de comparar dos métodos o tratamientos, pero se quiere que las unidades experimentales donde se aplican los tratamientos sean las mismas, ó los más parecidas posibles, para evitar influencia de otros factores en la comparación, como por ejemplo, cuando se desea comparar dos medicamentos para curar una emfermedad es bastante obvio que el sujeto al cual se aplican los medicamentos influye sustancialmente en la comparación de los mismos. Otro ejemplo es en educación, supongamos que se da un seminario sobre un tópico en particular y queremos luego evaluar la efectividad del seminario. Es natural pensar que algunos individuos entenderán mejor el material que otros, tal vez, debido a la preparación que tienen de antemano. Así que lo más justo es dar una prueba antes y después del seminario y comparar estos resultados individuo por individuo.

Sea Xi el valor del tratamiento I y Yi el valor del tratamiento II en el i-ésimo sujeto. Consideremos di = Xi - Yi la diferencia de los tratamientos en el i-ésimo sujeto. Las

183

Page 191: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

inferencias que se hacen son acerca del promedio poblacional µd de las di. Si µd = 0, entonces significa que no hay diferencia entre los dos tratamientos.

En MINITAB eligiendo la secuencia StatBasic Statisticspaired t se hacen inferencias para muestras pareadas. Básicamente lo que se hace es obtener una columna de diferencias y a ésta columna es que se le aplica la opción 1-sample t test.

Un intervalo de confianza del 100(1-α)% para la diferencia poblacional µd dada una mestra de mataño n es de la forma

( d - t(n-1,α/2) sd/ n , d + t(n-1,α/2) sd/ n )

donde d , es media de las diferencias muestrales di y 1

)( 2

−=

∑n

dds i

i

des la

desviación estándar.

También se puede hacer las siguientes pruebas de hipótesis:

Caso I Caso II Caso III Ho : µd = 0 Ho : µd =0 Ho : µd =0Ha : µd < 0 Ha : µd ≠0 Ha : µd >0

Prueba Estadística:

t =

nsd

d se distribuye con una t de Student con n-1 gl.

Decisión:

Si t<-tα entonces Si | t |>tα/2 entonces Si Tcal >tα entonces se rechaza Ho se rechaza Ho se rechaza Ho

Las fórmulas pueden generalizarse para probar la hipótesis de que la diferencia poblacional entre los dos tratamientos es Do.

Ejemplo 7.15 Un médico desea investigar si una droga tiene el efecto de bajar la presión sanguinea en los usuarios. El médico eligió al azar 15 pacientes mujeres y les tomó la presión, luego les recetó la medicina por un periodo de 6 meses, y al final del mismo nuevamente les tomó la presión. Los resultados son como siguen:

Sujetos1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Antes 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84Después 68 72 62 70 58 66 68 52 64 72 74 60 74 72 74

184

Page 192: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Solución:Sea µd que representa la media poblacional de las diferencias. Entonces:La hipótesis nula es que Ho: µd = 0 (La droga no tiene ningún efecto)La hipótesis alterna es Ha: µd >0 (La droga tiene efecto, la presión antes de usar la droga era mayor que después de usarla).

La ventana de diálogo paired t se completará como se muestra en la Figura 7.24 y oprimiendo Options…, se obtiene una ventana de diálogo que se completa como en la Figura 7.25. Los resultados en la ventana session serán como sigue:

Paired T-Test and CI: Antes, Despues

Paired T-Test and Confidence IntervalPaired T for Antes - Despues N Mean StDev SE MeanAntes 15 75.87 6.86 1.77Después 15 67.07 6.67 1.72Difference 15 8.80 10.98 2.8395% CI for mean difference:(2.72, 14.88)T-Test of mean difference = 0 (vs > 0): T-Value = 3.11 P-Value = 0.004

Figura 7.24. Ventana de diálogo de Paired t para el Ejemplo 7.15

185

Page 193: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Interpretación: Notando que el “P-value” es .004 menor que .05, se rechaza la hipótesis nula y se llega a la conclusión de que, efectivamente la droga reduce la presión sanguinea. Por otro lado, se puede observar que el intervalo de confianza del 95% para la diferencia de medias es (2.72, 14.88), el cual no contiene a cero, ésta es otra razón para rechazar la hipótesis nula.

Figura 7.25. Ventana de diálogo que aparece al oprimir options en Paired t.

7.8 Comparando dos proporciones

Algunas veces se desea comparar la proporción con que ocurre un mismo evento en dos poblaciones distintas. Esto conlleva a hacer inferencias acerca de la diferencia p1 - p2. Supongamos que de una de las poblaciones sacamos una muestra de tamaño m, y que en ella ocurre el evento X1 veces, y de la segunda población sacamos una muestra de tamaño n y que en ella ocurre el evento X2 veces. Se puede mostrar que el siguiente estadístico:

nqp

mqp

ppppz2211

2121 )()ˆˆ(

+

−−−=

donde mXp 1

1ˆ = , n

Xp 22ˆ = , q1 = 1-p1 y q2 = 1-p2 se distribuye aproximadamente como

una normal estándar cuando n y m son grandes tal que, 1pm y 2pn son mayores que 5.

Un intervalo de confianza aproximado del 100(1-α) para la diferencia de las proporciones será de la forma:

nqp

mqpzpp 2211

2/121

ˆˆˆˆ+±− − α

186

Page 194: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Si la hipótesis nula Ho: p1 = p2 es cierta, entonces el estadístico mencionado anteriormente se convierte en:

)11(

ˆˆ 21

nmpq

ppz+

−=

donde, p es estimado por nmXXp

++= 21 . Luego, las fórmulas para pruebas de hipótesis

serán como siguen:

Caso I Caso II Caso III Ho : 21 pp = Ho : 21 pp = Ho : 21 pp =

Ha : 21 pp < Ha : 21 pp ≠ Ha : 21 pp >

Prueba Estadística:

)11)(1(

21

nmpp

ppZ+−

−=

Decisión:

Si calZ < αZ Si calZ < 2/αZ o calZ > 2/1 α−Z Si calZ > α−1Z entonces se rechaza Ho entonces se rechaza Ho entonces se rechaza Ho

En MINITAB, para hacer inferencia acerca de la diferencia de dos proporciones se sigue la secuencia StatBasic Statistics2 proportions.

Ejemplo 7.16 Un médico ha sugerido que un ataque cardíaco es menos probable que ocurra en hombres que practican alguna clase de deporte. Se elige una muestra al azar de 300 hombres, de los cuales 100 practican alguna clase de deporte y de ellos sólo 10 han sufrido un ataque cardíaco. De los 200 que no practican deportes, 25 han sufrido ataques cardíacos. Probar si los resultados de las muestras apoyan lo sugerido por el médico.

Solución:La hipótesis nula es Ho: p1 = p2 (las probabilidades de sufrir ataque cardíaco son iguales para ambos grupos) y la hipótesis alterna es Ha: p1 < p2 (la probabilidad de sufrir ataque cardíaco es menor en hombres deportistas).

La ventana de diálogo se completará como se muestra en la Figura 7.26.

Notar que hay tres maneras de entrar los datos para hacer esta prueba estadística.

187

Page 195: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

El primer caso es cuando los datos están en dos columnas, en la primera columna van las secuencias de éxitos y fracasos y en la segunda se identifica a que grupo pertenece cada uno de ellos y se usa Samples in one column.

El segundo caso es cuando las secuencias de éxitos y fracasos de cada grupo van en columnas distintas y se usa Samples in diferent columns.

En el tercer caso se dan los totales de éxitos y los tamaños de cada grupo y se usa Summarized data. En el ejemplo se ha usado esta última opción, ver Figura 7.26.

Figura 7.26. Ventana de diálogo de 2 Proportions para el Ejemplo 7.16

Oprimiendo Options… en la ventana de diálogo de la Figura 7.26 se obtiene:

188

Page 196: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Figura 7.27. Ventana de diálogo que aparece al oprimir options en 2 Proportions.Notar que aparece marcado que la prueba estadística usa un estimado combinado

para la proporción poblacional. Se obtienen los siguientes resultados en la ventana session:

Test and CI for Two Proportions

Sample X N Sample p1 10 100 0.1000002 25 200 0.125000

Difference = p (1) - p (2)Estimate for difference: -0.02595% upper bound for difference: 0.0375666Test for difference = 0 (vs < 0): Z = -0.66 P-Value = 0.256

Interpretación: En los resultados aparece el estimado de la diferencia de las dos proporciones, el intervalo de confianza del 95% para dicha diferencia, la prueba estadística para igualdad de proporciones y su “p-value”. Viendo que el “P-value” = .256 es mucho mayor que .05 se concluye que no hay evidencia suficiente para afirmar que la probabilidad de sufrir un ataque cardiaco entre los hombres deportistas es menor que de la de los hombres que no practican deportes. Notar que el intervalo de confianza contiene a cero, lo cual es otra razón para aceptar la hipótesis nula.

Ejemplo 7.17. Un profesor piensa que el porcentaje de estudiantes admitidos a la Universidad durante el presente año es mayor para los solicitantes de escuela privada que para los que vienen de escuela pública. El basa su afirmación en una muestra de 30 solicitantes tomadas al azar. Los datos están en el archivo comp2pr. ¿Habrá suficiente evidencia para apoyar la afirmación del profesor?

Solución:Sea ph la proporción de estudiantes admitidos entre todos los solicitantes de escuela privada y pe la proporción de estudiantes admitidos entre todas las solicitudes de escuela pública. Entonces, las hipótesis nula y alterna serán:

eh ppH =:0 (o también ph-pe = 0)

eha ppH >: (o también ph-pe > 0)

La ventana de diálogo se completará como en la Figura 7.28.

Es importante hacer notar que en la ventanita samples va la columna que contiene los valores de la variable que se desea comparar en este caso admisión y en la columna Subscripts van los grupos, en este caso escuela.

189

Page 197: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Como la variable escuela también asume dos valores distintos, es posible intercambiar las dos columnas, pero se estarían probando otras hipótesis, como por ejemplo, comparar las proporciones de estudiantes de escuela pública entre los admitidos y no admitidos.

Figura 7.28. Ventana de diálogo de 2 Proportions para el Ejemplo 7.17.

Al oprimir el botón Options aparece una ventana de diálogo que se completa como sigue:

Figura 7.29. Ventana de diálogo de options en 2 Proportions para el Ejemplo 7.17.

190

Page 198: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Los resultados que aparecen en la ventana session son los siguientes:

Test and CI for Two Proportions: admision, escuela

Event = si

escuela X N Sample ppriv 13 17 0.764706publ 5 13 0.384615

Difference = p (priv) - p (publ)Estimate for difference: 0.38009095% lower bound for difference: 0.100994Test for difference = 0 (vs > 0): Z = 2.11 P-Value = 0.018

* NOTE * The normal approximation may be inaccurate for small samples.

Fisher's exact test: P-Value = 0.061

Interpretación: Como el “P-value” = .0018 es menor que .05 se rechaza la hipótesis nula y se concluye que hay evidencia para apoyar lo que afirma el profesor, el porcentaje de estudiantes solicitantes de escuela privada que son admitidos es mayor que el de las escuelas públicas. Notar que el intervalo de confianza para la diferencia de proporciones no contiene a CERO, ésta es otra razón para rechazar la hipótesis nula.

191

Page 199: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

EJERCICIOS

Para conseguir los archivos de datos accesar a la siguiente dirección en la internet www.math.uprm.edu/~edgar/datos.html o mandar un mensaje al autor.

1. Una empresa afirma que su nuevo programa de dieta hace que una persona pierda en promedio 22 libras en 5 semanas, con una desviación estándar de 10.2 libras. Se toma una muestra del peso perdido en 5 semanas por 56 participantes del programa y se obtiene un promedio de 23.5 libras. Al 5 por ciento de significación, ¿Habrá suficiente evidencia para concluir que la afirmación de la empresa es cierta?

2. El puntaje promedio en la parte matemática del College Board de los estudiantes admitidos a programas de ciencias en ingeniería en 1994, fue de 685 con una desviación estándar de 80. Un profesor universitario piensa que ese promedio ha bajado en 1997 porque en una muestra de 15 estudiantes elegidos al azar obtuvo los siguientes resultados:

620 683 679 580 593 690 695 559 601 720 745 540680 579 611

192

Page 200: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

Al 1 por ciento de significación, ¿Habrá suficiente evidencia para apoyar lo que dice el profesor? Asumir que la desviación estándar para 1997 es la misma que para 1994.

3. Una compañia embotelladora afirma que sus botellas plásticas de refresco tienen una capacidad de 300 mililitros. Un cliente de la compañía piensa que ese número está sobreestimado, pués en una muestra de 72 botellas se obtuvo un peso promedio de 295 mililitros por botella. Asumiendo que la desviación estándar poblacional de los pesos es de 3 ml.

a) ¿Habrá suficiente evidencia para apoyar la afirmación del cliente? Usar un nivel de significación del 1%.

b) ¿Cuál es el valor P de la Prueba? Interpretar el resultado.

4. Un investigador desea hallar un intervalo de confianza del 99% para el tiempo promedio de supervivencia (en años) para todos los pacientes sometidos a una operación cardiaca usando la siguiente muestra de 12 pacientes:

10.8 15.3 8.1 6.9 15.4 10.9 11.4 9.4 12.1 13.2 7.9 13.3

Considerar que la desviación estándar es 3 años.

5. Un intervalo de Confianza del 95% para estimar el peso promedio de los recién nacidos en un hospital basado en una muestra de tamaño 36 resultó ser (4.0, 10.5).

a) Hallar el peso promedio muestral.b) Hallar un Intervalo de Confianza del 90% para el peso promedio de todos los

recién nacidos en el hospital. Interpretar su resultado.

6. Según estudios médicos se estima que el nivel promedio de fosfato en un paciente de diálisis es de 5 miligramos por decilitro (mg/dl). Un patólogo obtuvo las siguientes mediciones de niveles de fosfato en la sangre de 18 pacientes de diálisis:

5.2 4.6 4.8 5.7 6.2 6.1 4.9 5.5 4.9 6.0 5.6 5.2 5.3 5.7 6.2 5.8 5.6 6.9

¿Dará esta muestra tomada suficiente evidencia para comprobar lo que afirman los estudios médicos acerca de pacientes de diálisis? Usar un nivel de significación del 1 por ciento.

7. Los datos en el archivo transp representan los tiempos de vida (en años) de 12 personas a las que se le efectuó un transplante de corazón. Probar, usando un 5 por ciento de significación, que la varianza de los tiempos es menor que 20.

193

Page 201: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

8. Los datos en el archivo cold representan dos grupos. El primer grupo consiste de 10 personas que cogieron catarro y a quienes se les dio tabletas de 1 gramo de vitamina C 4 veces al dia. El segundo es el grupo Control, que consiste de 12 personas a quienes se les dio tabletas Placebo, que parecían y tenían sabor de vitamina C. Se continuó el experimento hasta que las personas se curaban del catarro y se registró el número de días que tardaron en curarse. ¿Piensa Ud. que hay suficiente evidencia para concluir que tomar 4 gramos diarios de vitamina C reduce el tiempo de duración del catarro? Asumir que las poblaciones de donde proceden las muestras tienen igual varianza.

9. Un Sociólogo desea probar si hay diferencia entre los salarios de mujeres y hombres recién graduados de la Escuela de Leyes. Para esto elige al azar 8 firmas de abogados y en cada una de ellas registra el sueldo anual (en miles) de un hombre y mujer abogado recién contratado. Los resultados están en el archivo lawsal. Probar que los salarios de los abogados varones es mayor que el de las mujeres.

10. Los datos en el archivo compcancer.mtw representan dos grupos. El primer grupo consiste de los tiempos de vida de 13 personas después que se les diagnosticó cáncer de Estómago, y el segundo los tiempos de vida de 17 personas a quienes se les diagnosticó cáncer de pulmón.

a) Al 5 por ciento de significación, probar si la varianza del tiempo de vida de los que sufren de cáncer de pulmón es menor que 60000.

b) Probar si la varianza de los tiempos de vida para ambos tipos de pacientes es la misma

c) Probar si el tiempo de vida promedio de los pacientes de pulmón es menor que el de los pacientes de estómago.

11. Los datos en el archivo adiest, representan los puntajes en un test de comprensión de un idioma extranjero de 12 personas antes de asistir a un curso de verano y después de terminar el curso. Se desea probar si el curso mejora el nivel de comprensión del idioma extranjero.

12. El archivo hospital contiene información acerca de varias características de 25 pacientes que ingresaron al hospital. Estas son:

dur_stay: duración de la estadía en el hospital.edad: edad del paciente.sexo: sexo del paciente.temp: temperatura que tenía al ingresar.wbc: contaje de glóbulos blancos.antibio: si le pusieron antibiótico o no.bact_cul: Si le hicieron cultivo de bacteria o no.servicio: El tipo de servicio que le hiceron, médico o quirúgico.

194

Page 202: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 7 Inferencia Estadística

a) Probar si hay igualdad de varianza de la duracion de la estadía en el hospital tanto para hombres como mujeres.

b) Probar si la estadia en el hospital es más larga para los varones que para las mujeres.

c) Probar si la proporcion de pacientes que son intervenidos quirúrgicamente es menor para las mujeres que para los hombres.

195

Page 203: Estadistica con Mitab.pdf

CAPÍTULO 8

ANÁLISIS DE DATOS CATEGÓRICOS

En este capítulo se discutiran técnicas estadísticas para anilizar datos categoricos, los

cuales representan atributos o categorías. Primero se dicuten la relación entre las variables

que definen las filas y las columna de las tablas y luego se estudian medidas que dan una

medida del grado de asociación entre las dos variables categóricas.

Finalmente se estudia la prueba de bondad de ajuste que permite ver si un conjunto de

datos sigue una distribución conocida agrupando previamente los datos en categorias.

8.1 Pruebas de Independencia y Homegeneidad

Consideremos datos de dos variables cualitativas A y B como por ejemplo, nivel

económico y partido político al cual pertenece.una persona. También podrían ser dos

variables cuantitativas que han sido categorizadas, como por ejemplo, Nivel de Educación

y Nivel de salario. Como ya se había visto, en la sección 3.7.1 de este texto, los datos se

organizan en una tabla de doble entrada, llamada Tabla de contingencia, cuya forma

general es la siguiente:

VAR A

A1 A2 A3 … Ac Total

VAR B

B1 O11 O12 O13 O1C R1

B2 O21 O22 O23 O2C R2

B3 O31 O32 O33 O3C R3

… …

Br OR1 OR2 OR3 … ORC Rr

Total C1 C2 C3 … Cc N

Aquí Oij es el número de sujetos que tienen las características Ai y Bj a la vez.

Ri (i = 1,…,r) es la suma de la i-ésima fila de la tabla. Es decir, es el total de sujetos que

poseen la característica Bi.

Cj {j = 1,…,c) es la suma de la j-ésima columna de la tabla. Es decir, es el total de sujetos

que poseen la característica Aj.

n representa el total de observaciones tomadas.

La tabla anterior es llamada una tabla de contigencia r x c, porque tiene r filas y c

columnas.

Las tablas más elementales son aquellas con dos variables, donde cada una de ellas

asume sólo dos valores distintos, ésta es llamada una tabla 2 x 2. Consideremos la

siguiente tabla:

A1 A2 Total

Page 204: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 194

B1 8 6 14

B2 12 9 21

Total 20 15 35

La primera pregunta que uno se hace es si existirá o no relación entre las variables A y B,

es decir si A y B son o no independientes. A y B serán independientes si cada entrada de

la tabla es igual al producto de los totales marginales dividido entre el número de datos.

Esto es si cumple,

n

CRO

ji

ij

para cada celda (i, j). Claramente, esto se cumple para la tabla anterior. Por ejemplo,

8 = (14)(20)/35. En consecuencia, no hay relación entre las variables A y B.

Otra pregunta que se puede tratar de responder es sí las proporciones de los valores de la

variable B en cada columna son iguales. Por ejemplo si A: El estudiante graduando

consigue trabajo, B: Sexo del graduando. Uno puede estar interesado en comparar la

proporción de mujeres graduandas que consiguen trabajo con la proporción de mujeres

graduandas que no consiguen trabajo.

Consideremos ahora la tabla:

A1 A2 Total

B1 10 6 16

B2 5 16 21

Total 15 22 37

Notar que los valores de la segunda fila están en sentido contrario a los de la primera fila.

O sea hay un efecto en la variable A al cambiar los valores de B, en consecuencia aquí si

hay relación entre las variables. Es bien obvio, también que la fórmula de independencia

no se cumple para ninguna de las entradas. Por otro lado las proporciones de los valores de

la variable B no son los mismos en cada columna. Por ejemplo para B1 las proporciones son

10/15 versus 6/22.

Cuando consideramos que los valores de nuestra tabla han sido extraídos de una

población, entonces nos interesaría probar las siguientes dos hipótesis:

i) La prueba de Independencia, que se efectúa para probar si hay asociación

entre la variables categóricas A y B, y

ii) La prueba de Homogeneidad, que es una generalización de la prueba de

igualdad de dos proporciones, que se discutió en la sección 7.8. En este caso se

trata de probar si para cada nivel de la variable B, la proporción con respecto a

cada nivel de la variable A es la misma. Si A tiene 3 niveles y B tiene 2 niveles

entonces Ho : p

Page 205: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 195

Por ejemplo, nos gustaría saber si hay o no relación entre el nivel económico de una

persona y su afiliación política. También podríamos estar interesados en determinar si hay

relación entre el nivel de educación y el nivel de salario. En ambos casos se usaría una

prueba de independencia.

Por otro lado, también podríamos estar interesados en probar si para cada nivel

económico hay igual proporción de personas en cada partido politico, o si para cada nivel

de educación hay igual proporción de personas en cada nivel de salario. En estos casos se

usaría una prueba de homogeneidad.

Sin embargo; ambos tipos de hipótesis se pueden probar de la misma manera y el

procedimiento se resume en el recuadro que sigue:

Las hipótesis de independencia son:

Ho: No hay asociación entre las variables A y B ( es decir hay independencia)

Ha: Si hay relación entre las variables A y B

Las hipótesis de Homogeneidad son:

Ho: Las proporciones de cada valor de la variable B son iguales en cada columna

Ha: Al menos una de las proporciones para cada valor de la variable B no son iguales en cada

columna.

Ambas hipótesis se prueban usando una prueba de Ji-Cuadrado:

c

i

r

i ij

ijij

E

EO

1 1

2

2)(

donde Oij es la frecuencia observada de la celda que está en la fila i , columna j, y n

CRE

ji

ij ,

es la frecuencia esperada de la celda (i, j). La frecuencia esperada es aquella que debe ocurrir para

que la hipótesis nula sea aceptada.

La prueba estadística se distribuye como una Ji-Cuadrado con (r-1)(c-1) grados de libertad.

La hipótesis Nula se rechaza si

2

1

2

cal, donde es el nivel de significancia o

equivalentemente si el "P-value" es menor que 0.5.

Si la tabla de contingencia presenta pocas observaciones en algunas celdas (digamos

menos de 5), entonces la prueba no es confiable. Existen pruebas exactas para tablas de

contingencia, pero no se han considerado en este texto.

Para analizar tablas de contingencia en MINITAB se usa la opción Tables del menú

STAT, ésta a su vez tiene un submenú que contiene las opciones Cross Tabulation y Chi

Square. La opción Cross Tabulacion se usa en dos situaciones. La primera de ellas es

cuando los datos están dados en dos columnas, o sea como si hubiesen sido las

contestaciones a dos preguntas de un cuestionario. En el siguiente ejemplo se mostrará

este primer uso.

Page 206: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 196

Ejemplo 8.1. Usando los datos del ejemplo 3.16, supongamos que deseamos establecer si

hay relación entre las variables tipo de escuela superior y el resultado (aprueba o no

aprueba), de la primera clase de matemáticas que toma el estudiante en la universidad,

basados en los resultados de 20 estudiantes.

Solución:

Para la prueba de Independencia las hipótesis son:

Ho: No hay relación entre el tipo de escuela y el resultado obtenido en la primera clase de

Matemáticas.

Ha: Si hay relación entre ambas variables.

Para la prueba de homogeneidad las hipótesis son:

Ho: La proporción de aprobados en la primera clase de matemáticas es igual tanto para

estudiantes que provienen de escuela pública como de escuela privada.

Ha: La proporción de aprobados en la primera clase de matemáticas no es la misma para

ambos tipos de escuela.

La ventana de diálogo se completerá como aparece en la siguiente figura:

Figura 8.1. Ventana de diálogo de la opción Cross Tabulation del submenú Tables del menú

Stat

Los resultados aparecerán en la ventana session como siguen:

Tabulated Statistics

Rows: escuela Columns: aprueba

Page 207: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 197

si no All

priv 7 3 10

6.00 4.00 10.00

públ 5 5 10

6.00 4.00 10.00

All 12 8 20

12.00 8.00 20.00

Chi-Square = 0.833, DF = 1, P-Value = 0.361

2 cells with expected counts less than 5.0

Cell Contents --

Count

Exp Freq

Interpretación: Como el “P-value” es mayor que .05 se puede concluir que la hipótesis

nula de Independencia entre las variables es aceptada. O sea no hay asociación entre el

tipo de escuela de donde proviene el estudiante y el resultado que obtiene en la primera

clase de matemáticas.

Por otro lado, la hipótesis nula de homogeneidad también es aceptada y se concluye de

que, la proporción de estudiantes que aprueban el curso de matemáticas es la misma para

estudiantes de escuela pública y escuela privada.

La segunda situación donde Cross Tabulation es usada para hacer el análisis de Ji-

cuadrado, es cuando los datos ya están resumidos en tablas con filas y columnas, ésta es la

manera usual como aparecen en los textos. En este caso, para que MINITAB pueda hacer

el análisis se deben entrar los datos en 3 columnas. En una columna deben ir las

frecuencias observadas en cada celda de la tabla y en las otras dos columnas deben ir los

valores de las variables en filas y columnas que permitan identificar a qué celda le

corresponde la frecuencia absoluta entrada.

Ejemplo 8.2. Usar los datos del ejemplo 3.17, para tratar de establecer si hay relación

entre el Sexo del entrevistado y su opinión.

Solución: Las hipótesis correpondientes son:

Ho: No hay asociación entre el sexo del entrevistado y su opinión, y

Ha: Si hay relación entre las variables.

En este caso los datos son entrados en tres columnas: Conteo (frecuencia en cada celda),

Sexo y Opinión. La ventana de diálogo se completará como se muestra en la figura 8.2

Los resultados serán los siguientes:

MTB > Table 'sexo' 'opinion';

SUBC> Frequencies 'conteo';

SUBC> ChiSquare 2.

Tabulated Statistics

Rows: sexo Columns: opinión

Page 208: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 198

si no abst All

male 10 20 30 60

10.00 20.40 29.60 60.00

female 15 31 44 90

15.00 30.60 44.40 90.00

All 25 51 74 150

25.00 51.00 74.00 150.00

Chi-Square = 0.022, DF = 2, P-Value = 0.989

Cell Contents --

Count

Exp Freq

Interpretación: Como el "P-value" es mayor que .05, la conclusión en este caso es que

la hipótesis nula es aceptada o sea no hay relación entre el sexo y la opinión del

entrevistado.

Figura 8.2. Ventana de diálogo de cross tabulation para analizar el ejemplo 8.2.

Notar que la opción Chi-square analysis aparece seleccionada. Como se ha elegido la opción

above and expected count, la tabla de salida mostrará las frecuencias absolutas y las frecuencias

esperadas de cada celda, en la ventanita de frecuencies are in: se asigna la columna conteo.

Page 209: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 199

Existe una última posibilidad de hacer el análisis de la tabla de contingencia usando

la opción Chi-Square Test. En este caso se supone que las columnas de la tabla son

entradas columna por columna en el worksheet de MINITAB.

Ejemplo 8.3. Para los datos del ejemplo 3.17, donde la tabla es:

SI NO Abst

Hombres 10 20 30

Mujeres 15 31 44

Primero se entran los datos en 3 columnas: SI, NO y ABST y luego se completa la ventana

de diálogo de Chi-Square Test como sigue:

Figura 8.3. Ventana de diálogo para la opción Chi-Square Test del menú Tables

Los resultados aparecerán de la siguiente manera:

MTB > ChiSquare 'si'-'abst'.

Chi-Square Test Expected counts are printed below observed counts

si no abst Total

1 10 20 30 60

Page 210: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 200

10.00 20.40 29.60

2 15 31 44 90

15.00 30.60 44.40

Total 25 51 74 150

Chi-Sq = 0.000 + 0.008 + 0.005 +

0.000 + 0.005 + 0.004 = 0.022

DF = 2, P-Value = 0.989

Se puede notar que la presentación de la tabla no es tan buena como en los dos casos

anteriores, pero si se presentan los cálculos intermedios de la prueba de Ji-Cuadrado.

8.2 Medidas de Asociación

Asumiendo que se rechaza la hipótesis Nula Ho: No hay relación entre las variables

de la tabla, entonces el próximo paso es determinar el grado de asociación de las dos

variables categóricas, para ello se usan las llamadas medidas de asociación. Existen un

gran número de estas medidas, nosotros sólo consideraremos dos de ellas:

a) El Coeficiente de Contingencia:

Se define por

2

2

nC , donde

2 es el valor calculado de la prueba de Ji-Cuadrado y n es el

número de datos.

El valor de C varía entre 0 y 1. Si C = 0, significa que no hay asociación entre las

variables. El coeficiente de contigencia tiene la desventaja de que no alcanza el valor de

uno aún cuando las dos variables sean totalmente dependientes. Otra desventaja es que su

valor tiende a aumentar a medida que el tamaño de la tabla aumenta.

En general, un valor de C mayor que .30, indica una buena asociación entre las

variables. Sin embargo hay que tomar en consideración también el tamaño de la tabla.

A diferencia de otros programas estadísticos como SPSS y SAS, MINITAB no calcula el

coeficiente de contingencia directamente. Se tiene que usar Calculator del menú CALC.

Ejemplo 8.4. Calcular el coeficiente de contingencia para la siguiente tabla, donde se trata

de relacionar las variables: asistir a servicios religiosos y faltar a clases.

Rows: va a igl Columns: falta a

de vez e frecuent nunca All

de vez e 78 119 140 337

75.56 103.44 158.01 337.00

frecuent 106 90 296 492

110.31 151.01 230.68 492.00

nunca 68 136 91 295

66.14 90.55 138.31 295.00

All 252 345 527 1124

252.00 345.00 527.00 1124.00

Chi-Square = 86.842, DF = 4, P-Value = 0.000

Page 211: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 201

La ventana de diálogo de Calculator se debe completar de la siguiente manera:

Figura 8.4. Ventana de diálogo de Calculator para hallar el coeficiente de contigencia del ejemplo

8.4

Data Display coef-conting

0.267807

Interpretación:

No existe una buena asociación entre asistir a la iglesia y faltar a clases.

b) El Coeficiente de Cramer:

Se calcula por

Page 212: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 202

ntV

2 , donde t es el menor de los números r-1 y c-1, aqui r representa el número

de filas y c el número de columnas. Si V=0 entonces, no hay asociación entre las variables.

El coeficiente de Cramer si alcanza un máximo de 1. Un valor de V mayor .30 indica ya

un cierto grado de asociación entre las variables. En el ejemplo anterior el coeficiente de

Cramer es .1965, lo que reafirma que no existe buena asociación entre las variables.

MINITAB no calcula el coeficiente de contingencia directamente. Se tiene que usar

Calculator del menú CALC.

Ejemplo 8.5. Calcular el coeficiente de Cramer para la siguiente tabla, donde se trata de

relacionar las variables: sobrevivir a un ataque cardiaco y tener mascota (“pet”).

La ventana de diálogo de Calculator se debe completar de la siguiente manera:

Tabulated Statistics

Rows: status Columns: pet?

no si All

muere 11 3 14

5.93 8.07 14.00

vive 28 50 78

33.07 44.93 78.00

All 39 53 92

39.00 53.00 92.00

Chi-Square = 8.851, DF = 1, P-Value = 0.003

En este caso r=2 y c=2, luego t es el menor de r-1=1 y c-1=1, asi t=1

Page 213: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 203

Figura 8.5. Ventana de diálogo de Calculator para hallar el coeficiente de Cramer del ejemplo

8.5.

Usando la secuencia Manip Data Display, se obtiene:

Data Display

V

0.310172

Por otro lado, el coeficiente de contingencia C resultó ser .3121

Intrepretación: Se concluye que existe buena asociación entre tener mascota y sobrevivir

a un ataque cardíaco.

8.3. Prueba de Bondad de Ajuste

Otra aplicación de la prueba de Ji-Cuadrado, es la prueba de Bondad de Ajuste.

Aquí se trata de probar si los datos de una muestra tomada siguen una cierta distribución

predeterminada. Los n datos tomados deben estar divididos en categorias.

Categoría 1 2 3 … K

Frecuencia

observada

Obs1 Obs2 Obs3 Obsk N

Se asume que las probabilidades pi , de caer en la categoría i deben ser conocidos.

Page 214: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 204

La hipótesis nula es Ho: p1 = p10, p2 = p20 = … = pk = pk0, es decir los datos siguen la

distribución deseada, y la hipótesis alterna es Ha: al menos una de las pi es distinta de la

probabilidad dada pi0.

La prueba estadística es:

donde pio representa la proporción deseada en la i-ésima categoría, Obsi la frecuencia

observada en la categoría i y n es el tamaño de la muestra. La prueba estadística se

distribuye como una Ji-Cuadrado con k-1 grados de libertad donde, k es el número de

categorias. Si el valor de la prueba estadística es mayor que 2

1 se rechaza la hipótesis

nula.

MINITAB no tiene un comando que lleve a cabo la prueba de bondad de ajuste,

pero ésta se puede efectuar escribiendo algunas lineas de comandos.

Ejemplo 8.6. Los siguientes datos representan los nacimientos por mes en PR durante

1993. Probar si hay igual probabilidad de nacimiento en cualquier mes del año. Usar un

nivel de significación del 5%.

5435 4830 5229 4932 5052 5072 5198 5712

6126 5972 5748 5936

Solución:

La hipótesis nula es Ho: Hay igual probabilidad de nacer en cualquier mes del año (es

decir, p1 = p2 = … = p12 = 1/12 = .083). La hipótesis alterna es que no hay igual

probabilidad de nacer en cualquier mes del año.

La ventana Session es como sigue:

MTB > let c3=sum(Obs)*p

MTB > let c4=(Obs-c3)**2/c3

MTB > let k5=sum(c4)

Esta es la prueba de Ji-Cuadrado para Bondad de ajuste MTB > print k5

Data Display K5 402.384

La ventana Data contendrá lo siguiente:

k

i io

ioi

np

npObs

1

2)(

Page 215: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 205

El valor de 2

95. con 11 grados de libertad es 19.6751, se encuentra usando la opción

Probability distribution del menú Calc

Interpretación: Comparando el valor de la prueba estadística con una Ji-Cuadrado con

11 grados de libertad y nivel de significación del 5 por ciento que es 19.6751 se concluye

que se rechaza la hipótesis nula, es decir no hay igual probabilidad de nacimiento para

los meses.

Ejemplo 8.7. Según el último censo se sabe que la distribución porcentual del estado

marital de las personas adultas en los Estados Unidos es como sigue:

Soltero Casado Viudo Divorciado

30 40 12 18

De acuerdo al censo de 1990, en Puerto Rico se tiene la siguiente distribución de personas adultas

por estado marital:

Soltero Casado Viudo Divorciado

811,291 1’279,628 198,553 189,346

Se desea establecer si la distribución del estado marital en Puerto Rico, es igual a la de los

Estados Unidos. Usar un nivel de significación del 5%.

Page 216: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 206

Solución:

La hipotesis nula Ho: Los datos tomados en Puerto Rico siguen la misma distribución de

la de Estados Unidos, mientras que la hipótesis alterna Ha: Los datos no siguen la misma

distribución.

Las ventanas Session y Data aparecerán como sigue:

MTB > Let 'np' = sum(obs)*p

MTB > Let '(Obs-np)^2/np' = (obs-np)**2/np

MTB > Let k5 = sum('(Obs-np)^2/np')

Esta es la prueba de Ji-Cuadrado

MTB > print k5

Data Display

K5 270598

Interpretación: Claramente la prueba estadística es mayor que una Ji-Cuadrado con 3

grados de libertad al nivel de significación del 5 por ciento. Luego se rechaza la hipótesis

nula y se concluye que la distribución del estado marital en Puerto Rico es distinta a la

de Estados Unidos.

Existen muchas otras pruebas de bondad de ajuste, especialmente pruebas

noparamétricas.

Page 217: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 207

EJERCICIOS

1. La siguiente tabla muestra los resultados de un estudio para mostrar la relación entre

asistir a la iglesia los domingos y la ausencia a clases para jovenes entre 13 y 18 años:

Falta a Clases

Va a la Iglesia Nunca De vez en Cuando Frecuentemente

Nunca 91 68 136

De vez en Cuando 140 78 119

Frecuentemente 296 106 90

a) Usando la siguiente salida de MINITAB, probar la hipotesis de independencia

entre faltar a clases e ir a la iglesia los domingos. En la salida deden aparecer los

nombres de las filas y columnas

b) ¿Cuál es la frecuencia esperada de los que nunca van a la Iglesia y faltan

frecuentemente a clase?. Explicar cómo se calcula e interpretarlo.

2. El consumo de alcohol y nicotina (cigarrillos) durante el periodo de gestación puede

afectar al bebé. Se hizo un estudio en 452 madres y se las clasificó de acuerdo a su

consumo de alcohol (medido en onzas por dia), y al de nicotina (medida en

miligramos por dia). Los datos están en el archivo alcohoynico, que está disponible

en la pagina de internet del texto.

a) Usando la salida de MINITAB, probar la hipótesis de independencia entre el

consumo de alcohol y nicotina. En la salida deben aparecer los nombres de las

filas y columnas

b) Escribir la hipótesis de homogeneidad.

c) ¿Cuál es la frecuencia esperada de las madres que consumen 1 onza o más por día

y no fuman. Cómo se calcula dicho valor e Interpretar el significado de dicho

valor.

3. En una ciudad se hace un estudio para relacionar los hábitos de fumar de los

estudiantes de escuela superior con las de sus padres. Los resultados que se obtienen

aparecen en la siguiente tabla:

Estudiante

Fuma

Estudiante

no Fuma

Ambos padres fuman 400 1380

Sólo uno de los padres fuma 416 1823

Ninguno de los padres fuma 188 1168

a) Calcular la proporción de estudiantes que fuman para cada uno de los grupos de padres.

¿Qué puede concluir de estos resultados?

Page 218: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 208

b) Calcular las frecuencias esperadas de cada celda de la tabla si no hubiera relación entre

los hábitos de fumar de los estudiantes con las de sus padres.

c) Probar la hipótesis de que no hay relación entre los hábitos de fumar de los estudiantes

con los de sus padres.

4. La siguiente tabla reporta información acerca del sexo, status económico de la mayoría de

los pasajeros del TITANIC, un crucero británico de lujo que se hundió en 1912.

Hombres Mujeres

Status Murió Sobrevivió Murió Sobrevivió

Alto 111 61 6 126

Medio 150 22 13 40

Bajo 419 85 107 101

Total 680 168 126 317

a) ¿Hay suficiente evidencia para concluir que la proporción de hombres que

murieron fue mayor que el de las mujeres?

b) Para cada uno de los sexos, probar si hay relación entre el status económico del

pasajero y si sobrevivió o nó al hundimiento.

5. Las encuestas sobre asuntos sensitivos pueden dar diferentes resultados dependiendo

de como se hace la pregunta. Se hace una encuesta a 2400 personas para estimar el

uso de cocaína. Se dividieron al azar a los encuestados en 3 grupos de 800 cada uno,

y se les preguntó si alguna vez habían usado cocaína El primer grupo fue entrevistado

por teléfono, y 21% dijeron que habían usado cocaina. El Segundo grupo fue

entrevistado personalmente, y 25% dijeron que habían usado cocaína. En el tercer

grupo, donde se permitió una respuesta escrita anónima, el 28% contestaron

positivamente a la pregunta.

Probar si hay efecto del método de hacer la pregunta en la estimación de la proporción

de usuarios de cocaína.

6. En una ciudad se hace una encuesta a 103 personas entre los 25 y 30 años acerca de su

estado marital. Los resultados están resumidos en la siguiente tabla:

Estado Marital Hombre Mujer

Nunca Casado 20 9

Casado 19 39

Viudo, Divorciado, Separado 9 7

a) ¿Piensa Ud. que la distribución del estatus marital es la misma para ambos

sexos?.

b) Si las distribuciones son diferentes, con quiénes se están casando las mujeres?

Page 219: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 8 Análisis de datos categóricos 209

7. En un estudio acerca de hábitos de fumar de los estudiantes de una universidad

realizado en 1990, se reportó que 40 % de los fumadores proceden de la facultad de

Administración de Empresas, 30 % de la facultad de Artes y Ciencias, 25% de

Ingeniería, y un 5% de Agricultura. Un estudiante de la clase de Estadística quiere

comprobar si esos porcentajes se mantienen aún en 1998 para ello toma una muestra

de estudiantes fumadores de las distintas facultades de la universidad y obtiene los

siguientes resultados:

Empresas Artes y Ciencias Ingenieria Agricultura

45 40 22 8

Usar un nivel de significación del 1%.

8. La siguiente tabla reporta la distribución de la población de un país de acuerdo a su

nivel educacional y el número de alcaldes elegidos en cada una de las categorías en las

últimas elecciones:

Nivel Educacional País Alcaldes electos

Elemental 30% 6

Secundaria 45% 15

Universitaria Incompleta 12% 27

Universitaria Completa 13% 30

¿Habrá suficiente evidencia para concluir que la distribución del nivel educacional de

los alcaldes electos sigue la misma distribución del país?. Usar un nivel de

significación del 5%.

9. Un Sociólogo piensa que hay más probabilidad de que un crimen ocurra durante los

fines de semana. En particular él piensa que la probabilidad de que un crimen ocurra

el sábado es igual a la probabilidad de que un crimen ocurra el domingo, y éstas a su

vez son el doble de probabilidad de que un crimen ocurra un dia de semana. Para

probar su afirmación usa los siguientes datos de crímenes ocurridos en un mes

cualquiera del año.

Lunes Mártes Miércoles Jueves Viernes Sábado Domingo

18 23 19 16 21 42 37

Usar un nivel de significación del 1%.

Page 220: Estadistica con Mitab.pdf

CAPÍTULO 9

REGRESIÓN LINEAL

En este capítulo, primero se tratará la Regresión Lineal Simple, cuyos aspectos

descriptivos ya fueron considerados en la Sección 3.8 del texto. La inferencia estadística

en regresión simple es discutida en gran detalle. Luego se considerará el caso donde hay

más de una variable predictora y se hacen las inferencias correspondientes. Finalmente se

discutirá los métodos de elegir las mejores variables predictoras que produzcan un modelo

confiable con el menor número de variables.

9.1 Regresión Lineal Simple

Supongamos que tenemos datos de dos variables cuantitativas continuas X e Y, las

cuales se relacionan siguiendo una tendencia lineal, que puede ser detectada haciendo un

diagrama de dispersion de los datos. Tendencia lineal significa que los puntos están

dispuestos alrededor de una línea recta, desviándose por una cantidad aleatoria de la

misma. Si además, asumimos que se trata de predecir el comportamiento de Y usando X,

entonces el modelo de regresión lineal simple es de la forma:

XY

Donde, Y es llamada la variable de respuesta o dependiente,

X es llamada la variable predictora o independiente,

es el intercepto de la línea con el eje Y,

es la pendiente de la línea de regresión y

es un error aleatorio, el cual se supone que tiene media 0 y varianza constante 2.

y son parámetros desconocidos y para estimarlos se toma una muestra de

tamaño n de observaciones (xi,yi). La variable Y se asume que es aleatoria, pero X no

necesariamente lo es.

El estimado de y el estimado de son hallados usando el método de

mínimos cuadrados, que se basa en minimizar la suma de cuadrados de los errores Q(,)

=

n

i

ii

n

i

i xye1

2

1

2 )( . Usando técnicas de cálculo diferencial para minimizar una

función de dos variables y se obtienen:

xx

xy

s

s y xy ˆˆ

Page 221: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 211

las cantidades Sxx y Sxy aparecen definidas en la Sección 3.8 del texto.

La ecuación XY ˆˆˆ , es llamada la línea de regresión estimada. Para obtener

esta línea en MINITAB se sigue la secuencia: STATRegressionRegression. En la

salida, además de la ecuación, aparecen los valores de la prueba de t para probar hipótesis

acerca del intercepto y la pendiente. También se muestra la tabla del Análisis de Varianza

para regresión que permiten hacer inferencia estadística acerca de la pendiente de la línea

de regresión poblacional.

Ejemplo 9.1. Se desea hallar una línea de regresión que permita predecir el precio de una

casa (Y) basado en el área de la misma (X). Se recolectaron 15 datos: Casa área precio

1 3060 179000

2 1600 126500

3 2000 134500

4 1300 125000

5 2000 142000

6 1956 164000

7 2400 146000

8 1200 129000

9 1800 135000

10 1248 118500

11 2025 160000

12 1800 152000

13 1100 122500

14 3000 220000

15 2000 141000

La ventana de diálogo para Regression se completará como sigue:

Figura 9.1. Ventana de diálogo para regresión.

Page 222: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 212

En la ventana Response se entra la variable de respuesta Y, en la ventana de Predictors se

entra la variable independiente X

El botón Results permite controlar los resultados que aparecerán en la ventana session.

Hay 4 alternativas para controlar la salida según se muestra en la Figura 9.2.

Figura 9.2. Ventana de diálogo que aparece al seleccionar el botón results en regression.

El botón Storage permite guardar algunas medidas importantes que aparecen en el análisis

de regresión y que posteriormente se pueden usar, por ejemplo, en el análisis de residuales.

La ventana de diálogo se muestra en la Figura 9.3.

Figura 9.3. Ventana de diálogo que aparece al oprimir el botón storage en regression

El efecto de oprimir los botones Graphs y Options se explicará en las siguientes

secciones. Al oprimir el botón OK en la ventana regression se obtendrán los siguientes

resultados:

MTB > Regress 'precio' 1 'area';

SUBC> Constant;

SUBC> Brief 2.

Page 223: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 213

Regression Analysis

The regression equation is

precio = 73168 + 38.5 area

Predictor Coef StDev T P

Constant 73168 12674 5.77 0.000

area 38.523 6.391 6.03 0.000

S = 14118 R-Sq = 73.6% R-Sq(adj) = 71.6%

Analysis of Variance

Source DF SS MS F P

Regression 1 7241245891 7241245891 36.33 0.000

Residual Error 13 2591087442 199314419

Total 14 9832333333

Unusual Observations

Obs area precio Fit StDev Fit Residual St Resid

14 3000 220000 188737 7923 31263 2.68R

R denotes an observation with a large standardized residual

9.1.1. Interpretación de los Coeficientes de Regresión:

Interpretación del intercepto :

Indica el valor promedio de la variable de respuesta Y cuando X es cero. Si se tiene

certeza de que la variable predictora X no puede asumir el valor 0, entonces la

interpretación no tiene sentido. En el ejemplo anterior, = 73,168 indicaría que si la casa

no tiene área, su precio promedio será 73,158, lo cual no es muy razonable. Es más

conveniente hallar una línea de regresión que no tenga intercepto.

Interpretación de la pendiente :

Indica el cambio promedio en la variable de respuesta Y cuando X se incrementa en

una unidad. En el ejemplo anterior = 38.5 indica que por cada píe cuadrado adicional

de la casa su precio aumentará en promedio en 38.5 dólares.

9.2 Inferencia en Regresión Lineal

Para poder hacer inferencia en regresión hay que asumir que los errores ei del

modelo se distribuyen en forma normal con media cero y varianza constante 2 y además

que sean idependientes entre sí. Se pueden hacer prueba de hipótesis y calcular intervalos

de confianza para el intercepto y de la pendiente de la línea de regresión poblacional.

Page 224: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 214

Asimismo se pueden establecer intervalos de confianza para el valor medio y para el valor

individual de la variable de respuesta dado un valor particular de la variable predictora.

9.2.1 Inferencia acerca de los coeficientes de regresión

Con respecto a prueba de hipótesis lo más frecuente es probar Ho: = 0 versus Ha:

0 y Ho: = 0 versus Ha: 0. De aceptarse la primera hipótesis significaría que la

línea de regresión pasaría por el origen, es decir, que cuando la variable predictora es cero,

entonces el valor promedio de la variable de respuesta es también cero. De aceptarse la

segunda hipótesis significaría que la pendiente de la línea de regresión es cero, es decir,

que la variable predictora no se relaciona linealmente con la variable de respuesta. En

ambos casos la prueba estadística que se usa es una prueba de t de Student.

Sólo discutiremos la prueba de hipótesis para la pendiente. La prueba estadística

viene dada por:

xxS

sest

ˆ

)ˆ(.

ˆ

La cual se distribuye como una t con n-2 grados de libertad. Aquí 2

)ˆ(1

2

n

yy

s

n

i

ii

es

la desviación estándar del error, Sxx es la suma de cuadrados corregida de la variable X y

s.e( ) es el error estándar de . En el Ejemplo 9.1, s=14,118 y s.e( )= xxss / =6.391.

En MINITAB aparece el valor de la prueba estadística y el “p-value” de la prueba,

él cual se puede usar para llegar a una decisión. Un "p-value" cercano a 0, digamos menor

que 0.05, lleva a la conclusión de rechazar la hipótesis nula. Si se rechaza la hipótesis

nula quiere decir de que de alguna manera la variable X es importante para predecir el

valor de Y usando la regresión lineal. En cambio si se acepta la hipótesis nula se llega a la

conclusión de que, la variable X no es importante para predecir el comportamiento de Y

usando una regresión lineal.

En el Ejemplo 9.1 el valor de la prueba estadística de t es 6.03 y el P-value = .0000

por lo que se rechaza la hipótesis nula. Luego hay suficiente evidencia estadística para

concluir que la variable área de la casa puede ser usada para predecir el precio de la casa.

También se pueden establecer intervalos de confianza para los parámetros de

regresión. Por ejemplo, un intrevalo de confianza del 100 (1-) % para la pendiente será

de la forma:

xx

nS

st )2,2/(

ˆ

Page 225: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 215

MINITAB no da este intervalo de confianza. Hay que calcular el percentil de la t

de student usando la secuencia CalcProbability Distributionst. En el ejemplo

anterior, un intervalo del 95 % para la pendiente será:

38.523 (2.1604)6.391

O sea, hay una confianza del 95 % de que la pendiente de la regresión poblacional caiga en

el intervalo (24.7150, 52.3301).

9.2.2 El Análisis de Varianza para Regresión Lineal Simple.

El análisis de varianza, que fue introducida por Fisher, consiste en descomponer la

variación total de una variable en varias partes, cada una de las cuales es llamada una

fuente de variación. En el caso de regresión, la descomposición de la variación de la

variable de respuesta Y es como sigue:

VAR. TOTAL DE Y = VAR. DEBIDA A LA REGRESIÓN + VAR. DEBIDA AL ERROR

Cada variación es representada por una suma de cuadrados, definidas de la siguiente

manera:

Suma de Cuadrados Total = SST =

n

i

i yy1

2)(

Suma de Cuadrados de Regresión = SSR =

n

i

i yy1

2)ˆ(

Suma de Cuadrados del Error = SSE = 2

1

)ˆ(

n

i

ii yy

Cada una de estas sumas de cuadrados tiene una distribución Ji-Cuadrado, SSR tiene

una distribución Ji-Cuadrado no central con 1 grado de libertad, SSE tiene una

distribución Ji-Cuadrado con n-2 grado de libertad, y SST se comporta como una Ji-

Cuadrado no central con n-1 grados de libertad. Al dividir las sumas de cuadrados por sus

grados de libertad se obtienen los Cuadrados Medios. Si la hipótesis de que la pendiente

es 0 es cierta, entonces la división del cuadrado medio de la regresión por el cuadrado

medio del error se distribuye como una F con 1 grado de libertad en el numerador y n-2 en

el denominador. Luego, la hipótesis Ho: = 0 se rechaza si el "p-value" de la prueba de F

es menor que .05. Los cálculos se resumen en la siguiente tabla llamada tabla del análisis

de varianza para la regresión lineal simple.

Fuentes de

Variación

Grados de

Libertad

Suma de

Cuadrados

Cuadrados

Medios

F

Debido a la

regresión

1 SSR MSR=SSR/1 MSR/MSE

Debido al Error n-2 SSE MSE=SSE/n-2

Total n-1 SST

Page 226: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 216

En el ejemplo anterior la prueba de F es 36.33 y el "P-value"=.0000, por lo que se rechaza

la hipótesis nula. Notar que el valor de la prueba de F = 36.33 = (6.03)2 es el cuadrado de

la prueba t.

9.2.3 El Coeficiente de Determinación

El coeficiente de determinación, denotado por R2, es una medida de la bondad de

ajuste del modelo de regresión hallado. Se calcula por:

SST

SSRR 2

donde, SSR representa la suma de cuadrados debido a la regresión, y SST representa la

suma de cuadrados del total. Puede demostrarse que el coeficiente de detreminación es

simplemente el cuadrado del coeficiente de correlación. El coeficiente de Determinación

varía entre 0 y 1, aunque es bastante común expresarlo en porcentaje. Un R2 mayor del 70

% indica una buena asociación lineal entre las variables, luego la variable X puede usarse

para predecir Y. Hay que tener presente que el R2

es afectado por la presencia de valores

atípicos.

También R2 indica qué porcentaje de la variabilidad de la variable de respuesta Y

es explicada por su relación lineal con X, mientras más alto sea este valor mejor es la

predicción de Y usando X.

Existen otras medidas para medir la precisión de la predición de un modelo de

regresión, pero son discutidas en este texto.

9.2.4 Intervalos de Confianza para el valor medio de Y e Intervalo de Predicción

A nivel poblacional para cada valor de la variable X existe una población de valores

de Y, la cual se asume que se distribuye normalmente con cierta media y varianza

constante 2. Lo que se busca es establecer un intervalo de confianza para dicha media

asumiendo que la relación entre X e Y es lineal. Dado un valor Xo de la variable X es

natural pensar, que un estimado del valor medio de las Y’s es oo XY ˆˆˆ . Usando las

propiedades distribucionales de este estimado se puede establecer que un intervalo de

confianza del 100 (1-) % para el valor medio de todos los valores Y dado que X = X0 es

como sigue:

Por otro lado muchas veces estamos interesados en estimar solamente un valor de Y

correspondiente a un valor dado X0. El estimado puntual será el mismo oY , y usando

xx

nS

xx

nstY

2

0

)2,2/1(0

)(1ˆ

Page 227: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 217

propiedades distribucionales de oo YY ˆ se obtiene que un Intervalo de confianza del 100

(1-) % para el valor predicho de Y dado que X = X0 es de la forma:

Este intervalo de confianza es llamado intervalo de predicción.

Es más riesgoso hacer predicciones para un sólo valor que para un valor medio, por

esta razón el intervalo de predicción de Y es más ancho que el intervalo de confianza para

el valor medio.

El botón Options de la ventana regression permite hallar estos intervalos de

confianza. La Figura 9.4 muestra la ventana de diálogo que aparece cuando se oprime el

botón Options. En este ejemplo se trata de determinar el intervalo de confianza e

intervalo de predicción para el precio de la casa cuando ésta tiene un área de 3,500 pies

cuadrados usando un nivel de confianza del 95 %. Para ello hay que seleccionar las

opciones Confidence limits y Prediction limits.

Figura 9.4. Ventana de diálogo que se obtiene al oprimir options en regression.

xx

nS

xx

nstY

2

0

)2,2/1(0

)(11ˆ

Page 228: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 218

En la ventana session aparecerá el siguiente resultado:

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI

1 207998 10861 ( 184536, 231461) ( 169518, 246479) X

X denotes a row with X values away from the center

Values of Predictors for New Observations

New Obs Area

1 3500

Interpretación: Hay un 95 % de confianza de que el valor medio de todas las casas de

3,500 píes cuadrado de área caiga entre 184,536 y 231,461.

Hay un 95 % de confianza de que el valor de una casa de 3,500 píes cuadrados caiga

entre 169,518 y 2246,479.

Asímismo, la opción Fitted line Plot del menú de Regression permite hallar bandas

de confianza tanto para el valor predicho como para el valor medio de las Y. Para esto se

deben elegir las opciones Display Confidence Interval y Display Prediction Interval al

oprimir el boton Options. Con las bandas de confianza se pueden tener intervalos de

confianzas para cualquier valor dado de X. Para el presente ejemplo se obtiene:

Figura 9.5 Bandas de Confianza para el valor medio y el valor predicho de Y

Page 229: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 219

Notar que las bandas de confianza son anchas en los extremos del eje X y angostas

en el centro del mismo. En realidad las bandas se van angostando cuando los valores de X

que se toman están cerca del promedio x .

9.3 Análisis de Residuales

Un residual ir es la diferencia entre el valor observado iY y el valor estimado por la

linea de regresión iY , es decir, iii YYr ˆ . El residual puede ser considerado como el

error aleatorio ie observado. También se acostumbra usar el Residual estandarizado, el

cual se obtiene al dividir el residual entre la desviación estándar del residual, y el

Residual estudentizado "deleted", que es similar al anterior pero eliminando de los

cálculos la observación cuyo residual se desea hallar.

El análisis de residuales permite cotejar si las suposiciones del modelo de regresión

se cumplen.

Se puede detectar:

a) Si efectivamente la relación entre las variables X e Y es lineal.

b) Si hay normalidad de los errores.

c) Si hay valores anormales en la distribución de errores.

d) Si hay varianza constante (propiedad de Homocedasticidad) y

e) Si hay independencia de los errores.

El análisis de residuales se puede llevar a cabo gráficamente o en forma analítica.

En este texto sólo consideraremos un análisis gráfico, las cuales pueden obtenerse de dos

maneras. La primera manera es escogiendo el botón Graphs de la ventana de diálogo

Regression.

Page 230: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 220

Figura 9.6. Ventana de diálogo que aparece al oprimir Graphs en Regression.

Hay tres posibles elecciones de residuales y hasta 5 plots de residuales que se pueden

hacer. Las ventanas de gráficas aparecerán en cascada como se muestra en la Figura 9.7.

En esta manera cada plot de residual sale en una ventana gráfica separada. Hay cinco plots

que se usan:

1) Plot de Normalidad: Permite cotejar normalidad. Si los puntos están bien cerca de

una línea recta se concluye, que hay normalidad.

2) Histograma de Residuales: También permite cotejar normalidad. Cuando el

histograma es simétrico, con un único pico en el centro, se concluye que hay

normalidad.

3) Plot de Residuales versus los valores predichos (FITS): Se usa para detectar si hay

datos anormales, cuando hay datos que caen bastantes alejados, tanto en el sentido

vertical como horizontal. También permite detectar si la varianza de los errores es

constante con respecto a la variable de respuesta.

4) Plot de Residuales versus el indice de la observación: Es más específico para

detectar que observación es un dato anormal. Si se usan residuales estandarizados,

entonces un dato con residual más allá de 2 ó -2 es considerado un "outlier" en el

sentido vertical.

5) Plot de Residuales versus la variable predictora: Es usado para detectar datos

anormales así como si la varianza de los errores es constante con respecto a la variable

predictora.

Page 231: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 221

Figura 9.7. Plots de residuales mostrados en cascada.

La segunda manera de obtener los plots de residuales es, escogiendo la opcion Four

in One en el botón Graph de la ventana de diálogo de Regression como aparece en la

Figura 9.8.

Figura 9.8. Ventana de diálogo de la opcion graph de regression.

Page 232: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 222

Figura 9.9. Plots de residuales en una misma ventana.

Aparecerán en una misma página los cuatro primeros plots de la lista mencionada

anteriormente, como se muestra en la Figura 9.9.

Figura 9.10. Plots de residuales versus la variable area.

Page 233: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 223

Interpretación: Los puntos del plot de normalidad no caen cerca de una línea recta y en

el extreno superior se detecta un “outlier”. Similarmente, el histograma no es simétrico

con un pico central y también muestra un “outlier” en el extremo superior. En

conclusión, no hay normalidad de los errores. El plot de residuales versus el índice de la

observación muestra que la observacion 14 es un "outlier", pues el residual estandarizado

cae más allá de dos. El plot de los residuales versus los valores predichos muestra que la

varianza de los errores no es constante con respecto a la variable de respuesta, pues

tiende ha aumentar cuando el valor de la variable de respuesta aumenta.

Hay maneras de corregir algunas de las anomalías encontradas en el análisis de residuales,

las cuales pueden ser leídas en un texto especializado de regresión.

9.4 Modelos No Lineales y Transformaciones

Cuando se construyen modelos de regresión el objetivo es conseguir un modelo con

R2

alto que se aproxime a 100 %, asumiendo que no hay datos atípicos presentes. Si no se

desea incluir variables predictoras adicionales en el modelo, hay dos alternativas:

i) Tratar de usar modelos polinómicos de grado mayor o igual a dos, y

ii) Transformando las variables tanto la predictora como la de respuesta.

9.4.1 Regresión Cuadrática

Un modelo cuadrático es de la forma:

2cXbXaY

donde a, b y c son constantes a estimar. Usando la técnica de mínimos cuadrados se

pueden obtener fórmulas explícitas para calcular a, b y c.

En MINITAB, para obtener la ecuación del modelo cuadrático, hay que elegir la

opción Quadratic en la ventana de diálogo de Fitted Line Plot que es una opción del

menú Regression. La ventana de diálogo se muestra en la Figura 9.11.

Page 234: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 224

Figura 9.11. Ventana de diálogo para hacer una regresión cuadrática.

Ejemplo 9.2. Ajustar un modelo cuadrático para los datos del Ejemplo 9.1.

La ventana de diálogo se muestra en la Figura 9.11, y los resultados en la ventana session

serán:

Polynomial Regression

precio = 117591 - 8.29281 area + 1.13E-02 area**2

R-Sq = 76.5 %

Analysis of Variance

SOURCE DF SS MS F P

Regression 2 7.52E+09 3.76E+09 19.4906 1.70E-04

Error 12 2.31E+09 1.93E+08

Total 14 9.83E+09

SOURCE DF Seq SS F P

Linear 1 7.24E+09 36.3308 4.25E-05

Quadratic 1 2.77E+08 1.43495 0.254083

Además se obtiene el siguiente plot:

Page 235: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 225

Figura 9.12. Regresión Cuadrática para el Ejemplo 9.1.

Interpretación: El R2

del modelo cuadrático es 76.5% comparado con 73.6% del modelo

lineal (ver ejemplo 9.1), se ha ganado un 3% en confiabilidad, lo cual no es un aumento

sustancial y se puede seguir usando un modelo lineal ya que hacer inferencias con él es

mucho más simple que con un modelo cuadrático.

También se pueden tratar modelos polinómicos más generales (el modelo cúbico

sigue después del cuadrático), pero debido a que éstos presentan muchos cambios en la

tendencia no son muy adecuados. Otro problema es que se puede llegar a un modelo

“sobreajustado”, es decir a un modelo que tiene un R2 perfecto porque pasa por todos los

puntos, pero que al momento de predecir fracasa terriblemente. Por ejemplo, si tenemos 8

observaciones, un modelo polinómico de grado 9 tendría un R2 de 100%.

9.4.2 Modelos Nolineales que pueden ser transformados en lineales

La segunda alternativa para aumentar el R2

consiste en usar modelos no lineales que

pueden ser convertidos en lineales, a través de transformaciones tanto de la variable

independiente como dependiente.

Después de hacer un plot para visualizar la relación entre X e Y se puede elegir entre los

siguientes modelos linealizables:

Page 236: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 226

Nombre del modelo Ecuacion del Modelo Transformación Modelo Linealizado

Exponencial Y=eX

Z=Ln Y X=X Z=Ln +X

Logarítmico Y= +Log X Y=Y W=Log X Y= +W

Doblemente

Logarítmico Y=X

Z=Log Y W=Log X Z= Log +W

Hiperbólico Y= +/X Y=Y W=1/X Y= +W

Inverso Y=1/( +X) Z=1/Y X=X Z= +X

Para predecir el valor de Y usando el modelo linealizado hay que aplicar la inversa

de la transformación correspondiente al mismo.

Ejemplo 9.3. Los siguientes datos representan como ha cambiado la poblacion en Puerto

Rico desde 1930 hasta 1990.

Año Población

1930 1543913

1940 1869255

1950 2210703

1960 2349544

1970 2712033

1980 3196520

1990 3522037

Se desea establecer un modelo para predecir la población de Puerto Rico en el año 2000.

Solución:

Observando el diagrama de puntos de población versus años que aparece en la figura de

abajo.

Figura 9.13. Crecimiento poblacional de Puerto Rico

El plot sugiere que podemos ajustar los datos al modelo exponencial:

Page 237: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 227

Poblac=eyear

Y el modelo linealizado da como ecuación:

Ln(Poblac) = - 11.4 + 0.0133 year

con un R2

del 98.9%, mejorando el R2 del modelo lineal que era de 98.7%. Para predecir

la población para el año 2000 se obtiene que:

2.156.264.112000*0133.04.11)( PoblacLn

luego 787,992,32.15 ePoblac . Así, 3,992,787 será la población estimada de PR para

el año 2000.

9.5 Regresión lineal múltiple

Frecuentemente una sola variable predictora no es suficiente para explicar el

comportamiento de la variable de respuesta. Por ejemplo, para explicar la nota que un

estudiante saca en un examen lo primero que uno piensa es en el número de horas que

estudio para tomarlo (X1), pero también puede influir el número de créditos que lleva (X2),

el número de horas semanales que mira televisión (X3), el número de horas que se divierte

(X4), el número de personas que viven con el o ella (X5), etc. La idea en regresión lineal

múltiple es usar más de una variable predictora para explicar el comportamiento de la

variable de respuesta.

El modelo de regresión lineal múltiple con p variables predictoras X1,…Xp, es de la

siguiente forma:

pp XbXbXbXbbY ...3322110

Las constantes pbbb ,...,, 10 , llamadas coeficientes de regresión, se estiman usando el

método de mínimos cuadrados, y usando n observaciones de la forma ipiii xxxy ,...,,, 21 ,

donde ni ,...,1 . La cantidad es una variable aleatoria con media 0 y varianza 2 .

Usando notación vectorial y matricial se puede escribir una fórmula explícita para los

coeficientes de regresión, pero esto cae más allá del alcance de este texto. Se hará uso de

MINITAB para hallar dichos coeficientes.

Interpretación del coeficiente de regresión estimado j

El estimado del coeficiente de regresión poblacional bj, con pj ,...,1 , se

representará por j. Este estimado indica el cambio promedio en la variable de respuesta

Y cuando la variable predictora Xj cambia en una unidad adicional asumiendo que las

otras variables predictoras permanecen constantes.

Page 238: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 228

Ejemplo 9.4 Se desea explicar el comportamiento de la variable de respuesta IGS (Indice

General del Estudiante admitido a la Universidad de Puerto Rico) de acuerdo a X1

(puntaje en la parte de aptitud matemática del College Borrad), X2 (puntaje en la parte de

aprovechamiento matemático) y X3 (Tipo de Escuela; 1: Pública, 2: Privada). La muestra

de 50 observaciones está disponible en el archivo igs de la página del texto.

Solución:

La ventana de diálogo de Regression se completa como se muestra en la siguiente figura:

Figura 9.14. Ventana de diálogo para la regresión multiple del ejemplo 9.4

En la ventanita de Response se escribe la columna que contiene los datos de la variable

dependiente igs, y en Predictors, se escriben las columnas que contienen las variables

dependientes.

La ventana session cuando se ejecuta una regresión tendrá un contenido como el que

sigue:

Regression Analysis: igs versus escuela, aprovech, aptitud

The regression equation is

igs = 136 + 1.93 escuela + 0.197 aprovech + 0.0569 aptitud

Predictor Coef SE Coef T P

Constant 135.93 24.50 5.55 0.000

escuela 1.933 3.091 0.63 0.535

aprovech 0.19698 0.03152 6.25 0.000

aptitud 0.05688 0.03140 1.81 0.077

S = 10.8896 R-Sq = 56.0% R-Sq(adj) = 53.2%

Page 239: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 229

Analysis of Variance

Source DF SS MS F P

Regression 3 6952.0 2317.3 19.54 0.000

Residual Error 46 5454.8 118.6

Total 49 12406.9

Source DF Seq SS

escuela 1 52.9

aprovech 1 6510.1

aptitud 1 389.0

Unusual Observations

Obs escuela igs Fit SE Fit Residual St Resid

18 1.00 263.00 286.58 6.47 -23.58 -2.69RX

27 1.00 347.00 315.10 2.95 31.90 3.04R

48 2.00 285.00 307.09 2.76 -22.09 -2.10R

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence.

Interpretación: El coeficiente de una variable predictora indica el cambio promedio en

la variable de respuesta igs cuando, se incrementa en una unidad la variable predictora

asumiendo que las otras variables permanecen constantes. En este ejemplo, el aumento

promedio en el igs es de 0.0569 por cada punto adicional en la parte de aptitud

matemática, asumiendo que las otras dos variables permanecen constantes, asímismo el

aumento promedio en el igs es de 0.197 por cada punto adicional en la parte de

aprovechamiento matemático asumiendo que las otras variables permanezcan constantes

y hay un aumento promedio de 1.93 en el igs cuando nos movemos de escuela pública a

privada asumiendo que las otras variables permanecen constantes.

Aún cuando el R2 es bajo del 56%, eligiendo el botón Options se puede predecir el

igs de un estudiante para hacer predicciones de la variable de respuesta Y para valores

dados de las variables predictoras.

Por ejemplo el igs estimado de un estudiante que obtuvo 600 puntos en la prueba de

aptitud y 750 en la prueba de aprovechamiento y que proviene de escuela privada será

321.66, como lo muestra el contenido de la ventana session: Predicted Values for New Observations

New

Obs Fit SE Fit 95% CI 95% PI

1 321.66 4.05 (313.51, 329.81) (298.28, 345.05)

Values of Predictors for New Observations

New

Obs escuela aprovech aptitud

1 2.00 750 600

Page 240: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 230

Estimación de la varianza 2

La estimación de la varianza de los errores 2 es crucial para hacer inferencias

acerca de los coeficientes de regresión. Si en nuestro modelo hay p variables predictoras

entonces, 2 es estimada por:

MSEpn

SSE

pn

YY

s

n

i

ii

11

)ˆ(1

2

2

Aquí, SSE representa la suma de cuadrados del error y MSE representa el cuadrado medio

del error.

9.6 Inferencia en regresión lineal múltiple

9.6.1 Prueba de hipótesis de que cada coeficiente de regresión es cero

En este caso la hipótesis nula es 0:0 jH ( pj ,...,1 ), o sea, la variable Xj no es

importante en el modelo, versus la hipótesis alterna 0: jaH , que significa que la

variable Xj si es importante. La prueba estadística es la prueba de t dada por:

)ˆ(.

ˆ

j

j

est

MINITAB da el valor de la prueba estadística y de los “p-values” correspondientes.

En el Ejemplo 9.4 los "P-values" de la prueba de t que son mayores que .05 sugieren que

las variables Escuela y aptitud no contribuyen al modelo, pues se acepta la hipótesis nula

de que dicho coeficiente es cero. La variable aprovechamiento si es importante en el

modelo ya que su “P-value” es menor que .05.

9.6.2 Prueba de hipótesis de que todos los coeficientes de regresión son ceros.

En este caso la hipótesis nula es 0...: 210 pH , o sea, que el modelo

no sirve, versus la hipótesis alterna Ha: Al menos uno de los coeficientes es distinto de

cero, o sea, al menos una de las variables del modelo sirve.

La prueba estadística es la prueba de F que se obtiene al hacer la tabla del análisis de

varianza para la regresión múltiple. La suma de cuadrados de Regresión tiene p grados de

libertad que es igual al número de variables predictoras en el modelo. La Suma de

Cuadrados del Total tiene 1n grados de libertad y la suma de cuadrados del error tiene

1 pn grados de libertad. Si la hipótesis nula es cierta, entonces:

Page 241: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 231

MSE

MSR

pn

SSE

p

SSR

F

1

Se distribuye como una F con p grados de libertad en el numerador y 1 pn grados de

libertad en el denominador.

En el Ejemplo 9.4, el "P-value" de la Prueba de F es 0.0000. Esto lleva a la

conclusión de que el al menos una de las variables predictoras presentes en el modelo es

importante para predecir el igs.

Por otro lado, el R2 del 56% indica que el modelo no es muy confiable para hacer

predicciones, porque sólo el 56% de la variación en el igs es explicada por su relación con

las variables predoctoras.

9.6.3 Prueba de hipótesis para un subconjunto de coeficientes de regresión

Algunas veces estamos interesados en probar si algunos coeficientes del modelo de

regresión son iguales a 0 simultánemente. Por ejemplo, si el modelo tiene p variables

predictoras y quisiéramos probar si los k primeros coeficientes son ceros. O sea,

0...: 210 kH . En este caso al modelo que tiene las p variables se le llama

el modelo completo y al modelo que queda, asumiendo que la hipótesis nula es cierta, se

le llama modelo reducido. Para probar si la hipótesis nula es cierta se usa una prueba de

F que es llamada F-parcial. La prueba de F parcial se calcula por:

)(

)()(

1

)(

)()(

CMSE

k

RSSRCSSR

pn

CSSEk

RSSRCSSR

Fp

Donde, SSR(C) y MSE(C), representan la suma de cuadrados de regresión y el cuadrado

medio del error del modelo completo, respectivamente, y SSR(R) es la suma de cuadrados

de regresión del modelo reducido. Si pF es mayor que 1F , usando k grados de libertad

para el numerador y 1 pn para el denominador, entonces se rechaza Ho en caso

contrario se acepta.

MINITAB no tiene una opción que haga directamente la prueba de F parcial. Hay

que calcular los dos modelos de regresión y usar las sumas de cuadrados de regresión de

ambos modelos para calcular la prueba de F parcial usando Calculator.

Page 242: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 232

Ejemplo 9.5. Usando los datos del Ejemplo 9.4, probar la hipótesis 0: 210 H ,

versus Ha: al menos uno de los dos: 1 o 2 no es cero. Interpretar sus resultados.

Solución:

0: 210 H (significa que las variables: aptitud y aprovechamiento no influyen

simultáneamente en la predicción del igs).

Ha: al menos uno de los dos: 1 o 2 no es cero (significa que al menos una de las dos

variables influye en el comportamiento de Y)

En este caso p=3, k=2, p-k = 1, y de la tabla del análisis de varianza del Ejemplo 9.4,

SSR(C) = 6952 y MSE(C) = 118.6. Para obtener SSR(R), se hace la regresión simple

entre Y = igs y X = aptitud y de la tabla del análisis de varianza se obtiene SSR(R) = 203.

Luego la prueba de F parcial será igual a 6952 203 2 118.6 29.128pF . Por otro

lado, para obtener la F con 2 g.l en el numerador y 46 en el denominador se usa la

secuencia calcprobability distributionsF y se obtiene una 1996.3F . Luego, se

rechaza la hipótesis nula y se concluye, que al 5% de significación hay suficiente evidencia

estadística para afirmar que al menos una de las dos variables (aptitud o aprovechamiento)

influye en el comportamiento de la variable de respuesta Y.

En forma similar a la regresión lineal simple se pueden hacer predicciones de la variable

de respuesta asignando valores adecuados a las variables predictoras. Asímismo, las

gráficas que se usan para analizar los residuales pueden ser obtenidas usando la secuencia

statregressionregression. Luego escoger opción Graph en la ventana de diálogo de

Regresión. Escoger la opción “Four in one”. Para el Ejemplo 9.4 las gráficas resultantes

son las siguientes:

Page 243: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 233

Standardized Residual

Pe

rce

nt

3.01.50.0-1.5-3.0

99

90

50

10

1

Fitted Value

Sta

nd

ard

ize

d R

esid

ua

l

340320300

3.0

1.5

0.0

-1.5

-3.0

Standardized Residual

Fre

qu

en

cy

2.41.20.0-1.2-2.4

16

12

8

4

0

Observation Order

Sta

nd

ard

ize

d R

esid

ua

l

50454035302520151051

3.0

1.5

0.0

-1.5

-3.0

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Plot de Residuales para IGS

Figura 9.15. Análisis de Residuales para el Ejemplo 9.4

Interpretación: El plot de normalidad y el histograma de los residuales indican que hay

algo de normalidad en la distribución de los errores, debido a que los puntos no se alejan

mucho de una línea recta en el primer plot y algo de simetría que se puede ver en el

segundo. Sin embargo es clara la presencia de los “outliers” en ambos extremos, lo cual

afecta la condición de normalidad.

El plot de residuales versus el orden de la observación sugiere que las observaciones 18,

27 y 48 son "outliers" en el sentido vertical, estos "outliers" también se pueden notar en

el plot de residuales versus valores predichos ("fits").

El plot de residuales versus valores predichos sugiere que la varianza de los errores es

constante, porque no hay un patrón definido que siguen los puntos.

9.7 Selección de variables en Regresión Múltiple

Una buena propiedad de un modelo de regresión lineal es que permita explicar el

comportamiento de la variable de respuesta Y lo mejor posible, haciendo uso del menor

número de variables predictoras posibles, esta propiedad es llamada “parsimonía”.

Existen dos métodos generales de lograr este objetivo: los métodos “stepwise” y el

método de los mejores subconjuntos.

9.7.1 Los metodos "stepwise"

Page 244: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 234

Comprenden los siguientes métodos:

Método de eliminación hacia atrás (“Backward Elimination”): Aqui en el paso

inicial se incluyen en el modelo a todas las variables predictoras y en cada paso se elimina

la variable cuyo "P-value" es más grande para la prueba de t o cuyo valor de la prueba t

menor que 2 en valor absoluto. Una variable que es eliminada del modelo ya no puede

volver a entrar en un paso subsiguiente. El proceso termina cuando todos los "P-values"

son menores que .05, o cuando todos los valores de la prueba t son mayores que 2 en valor

absoluto. Lo anterior también se puede hacer con una prueba F-parcial, puesto que F = t2

(cuando el numerador tiene grados de libertad igual a 1). Luego, el método terminará

cuando todas las F son mayores que 4.

Método de Selección hacia adelante (“Forward Selection”): Aqui en el paso inicial

se considera una regresión lineal simple que incluye a la variable predictora que da la

correlación más alta con la variable de respuesta. Luego se incluye una segunda variable

en el modelo, que es aquella variable dentro de las no incluidas aún, que da el "P-value"

más bajo para la prueba t o el valor de la prueba de t más grande en valor absoluto. Y así

se siguen incluyendo variables, notando que una vez que ésta es incluida ya no puede ser

sacada del modelo. El proceso termina cuando los "P-values" para la prueba t de todas las

variables que aún no han sido incluidas son mayores que .05 ó la prueba de t es menor que

2 para dichas variables. Si se usa la prueba de F, entonces el proceso termina cuando

todas las F son menores que 4.

Método Paso a Paso ("Stepwise"): Es una modificación del método “Forward”,

donde una variable que ha sido incluida en el modelo en un paso previo puede ser

eliminada posteriormente. En cada paso se cotejan si todas las variables que están en el

modelo deben permanecer alli. La mayoría de las veces, pero no siempre, los tres métodos

dan el mismo resultado para el mejor modelo de regresión.

En MINITAB, la opción Stepwise del submenú Regression selecciona el mejor

modelo de regresión usando los métodos "Stepwise". En el siguiente ejemplo se muestra

el método "stepwise" paso por paso y luego directamente usando la opción stepwise.

Ejemplo 9.6. El conjunto de datos grasa contiene 13 variables que sirven para predecir

el porcentaje de grasa en el cuerpo humano.

Columna Nombre

C1 grasa VARIABLE DE RESPUESTA

C2 edad en años

C3 peso en libras

C4 altura en pulgadas

C5 cuello en cms

C6 pecho en cms

C7 abdomen en cms

C8 cadera en cms

C9 muslo en cms

Page 245: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 235

C10 rodilla en cms

C11 tobillo en cms

C12 biceps en cms

C13 antebrazo en cms

C14 muñeca en cms

Se tomaron las mediciones en 250 sujetos.

Se trata de hallar el mejor modelo de regresión usando los métodos "Stepwise".

Solución:

A) Usando el método de eliminación hacia atrás.

Primero, haremos paso a paso el método "Backward" y luego directamente con las

opciones que están disponibles en MINITAB.

Paso 1. Se hace la regresión con todas las variables The regression equation is

grasa = - 18.2 + 0.0621 edad - 0.0884 peso - 0.0696 altura - 0.471 cuello

- 0.0239 pecho + 0.955 abdomen - 0.208 cadera + 0.236 muslo

+ 0.015 rodilla + 0.174 tobillo - 1.62 muñeca + 0.182 biceps

+ 0.452 antebrazo

Predictor Coef StDev T P

Constant -18.19 17.35 -1.05 0.296

edad 0.06208 0.03235 1.92 0.056

peso -0.08844 0.05353 -1.65 0.100

altura -0.06959 0.09601 -0.72 0.469

cuello -0.4706 0.2325 -2.02 0.044

pecho -0.02386 0.09915 -0.24 0.810

abdomen 0.95477 0.08645 11.04 0.000

cadera -0.2075 0.1459 -1.42 0.156

muslo 0.2361 0.1444 1.64 0.103

rodilla 0.0153 0.2420 0.06 0.950

tobillo 0.1740 0.2215 0.79 0.433

muñeca -1.6206 0.5349 -3.03 0.003

biceps 0.1816 0.1711 1.06 0.290

antebraz 0.4520 0.1991 2.27 0.024

S = 4.305 R-Sq = 74.9% R-Sq(adj) = 73.5%

Se elimina del modelo la variable rodilla, pués su "P-value"=0.950 es el mayor.

Paso 2. Regresion sin la variable rodilla The regression equation is

grasa = - 17.9 + 0.0626 edad - 0.0876 peso - 0.0691 altura - 0.473 cuello

- 0.0244 pecho + 0.954 abdomen - 0.207 cadera + 0.239 muslo

+ 0.176 tobillo - 1.62 muñeca + 0.181 biceps + 0.453 antebrazo

Predictor Coef StDev T P

Constant -17.93 16.84 -1.06 0.288

edad 0.06259 0.03125 2.00 0.046

peso -0.08758 0.05165 -1.70 0.091

altura -0.06907 0.09545 -0.72 0.470

cuello -0.4728 0.2293 -2.06 0.040

Page 246: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 236

pecho -0.02442 0.09855 -0.25 0.805

abdomen 0.95440 0.08606 11.09 0.000

cadera -0.2071 0.1455 -1.42 0.156

muslo 0.2386 0.1384 1.72 0.086

tobillo 0.1763 0.2179 0.81 0.419

muñeca -1.6181 0.5323 -3.04 0.003

biceps 0.1808 0.1703 1.06 0.289

antebraz 0.4532 0.1979 2.29 0.023

S = 4.296 R-Sq = 74.9% R-Sq(adj) = 73.6%

Se elimina del modelo la variable pecho, pués su "p-value"=0.805 es el mayor.

Paso 3. Regresión sin las variables rodilla y pecho

The regression equation is

grasa = - 19.7 + 0.0625 edad - 0.0927 peso - 0.0638 altura - 0.475 cuello

+ 0.944 abdomen - 0.200 cadera + 0.245 muslo + 0.179 tobillo

- 1.61 muñeca + 0.177 biceps + 0.448 antebrazo

Predictor Coef StDev T P

Constant -19.69 15.24 -1.29 0.198

edad 0.06249 0.03118 2.00 0.046

peso -0.09271 0.04723 -1.96 0.051

altura -0.06378 0.09285 -0.69 0.493

cuello -0.4754 0.2287 -2.08 0.039

abdomen 0.94421 0.07545 12.51 0.000

cadera -0.2004 0.1427 -1.41 0.161

muslo 0.2451 0.1356 1.81 0.072

tobillo 0.1785 0.2173 0.82 0.412

muñeca -1.6149 0.5311 -3.04 0.003

biceps 0.1771 0.1693 1.05 0.297

antebraz 0.4477 0.1963 2.28 0.023

S = 4.288 R-Sq = 74.9% R-Sq(adj) = 73.7%

Se elimina del modelo la variable altura, pués su "p-value"=0.493 es el mayor.

Paso 4. Regresion sin las variables rodilla, pecho y altura

The regression equation is

grasa = - 26.0 + 0.0651 edad - 0.107 peso - 0.467 cuello + 0.958 abdomen

- 0.179 cadera + 0.259 muslo + 0.185 tobillo - 1.66 muñeca

+ 0.186 biceps + 0.453 antebrazo

Predictor Coef StDev T P

Constant -26.00 12.15 -2.14 0.033

edad 0.06509 0.03092 2.11 0.036

peso -0.10740 0.04207 -2.55 0.011

cuello -0.4675 0.2281 -2.05 0.042

abdomen 0.95772 0.07276 13.16 0.000

cadera -0.1791 0.1391 -1.29 0.199

muslo 0.2593 0.1339 1.94 0.054

tobillo 0.1845 0.2169 0.85 0.396

muñeca -1.6567 0.5271 -3.14 0.002

biceps 0.1862 0.1686 1.10 0.271

antebraz 0.4530 0.1959 2.31 0.022

S = 4.283 R-Sq = 74.8% R-Sq(adj) = 73.8%

Se elimina del modelo la variable tobillo, pues su "p-value"=.396 es el mayor.

Page 247: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 237

Paso 5. Regresión sin incluir las variables: rodilla, pecho, altura y tobillo

The regression equation is

grasa = - 23.3 + 0.0635 edad - 0.0984 peso - 0.493 cuello + 0.949 abdomen

- 0.183 cadera + 0.265 muslo - 1.54 muñeca + 0.179 biceps

+ 0.451 antebrazo

Predictor Coef StDev T P

Constant -23.30 11.73 -1.99 0.048

edad 0.06348 0.03084 2.06 0.041

peso -0.09843 0.04070 -2.42 0.016

cuello -0.4933 0.2260 -2.18 0.030

abdomen 0.94926 0.07204 13.18 0.000

cadera -0.1829 0.1389 -1.32 0.189

muslo 0.2654 0.1336 1.99 0.048

muneca -1.5421 0.5093 -3.03 0.003

biceps 0.1789 0.1683 1.06 0.289

antebraz 0.4515 0.1958 2.31 0.022

S = 4.281 R-Sq = 74.8% R-Sq(adj) = 73.8%

Se elimina del modelo la variable biceps, pués su "p-value"=.289 es el mayor.

Paso 6. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo y biceps

The regression equation is

grasa = - 22.7 + 0.0658 edad - 0.0899 peso - 0.467 cuello + 0.945 abdomen

- 0.195 cadera + 0.302 muslo - 1.54 muneca + 0.516 antebrazo

Predictor Coef StDev T P

Constant -22.66 11.71 -1.93 0.054

edad 0.06578 0.03078 2.14 0.034

peso -0.08985 0.03991 -2.25 0.025

cuello -0.4666 0.2246 -2.08 0.039

abdomen 0.94482 0.07193 13.13 0.000

cadera -0.1954 0.1385 -1.41 0.159

muslo 0.3024 0.1290 2.34 0.020

muñeca -1.5367 0.5094 -3.02 0.003

antebraz 0.5157 0.1863 2.77 0.006

S = 4.282 R-Sq = 74.7% R-Sq(adj) = 73.8%

Se elimina del modelo la variable cadera, pués su "p-value"=.159 es el mayor.

Paso 7. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo, biceps y

cadera.

The regression equation is

grasa = - 33.3 + 0.0682 edad - 0.119 peso - 0.404 cuello + 0.918 abdomen

+ 0.222 muslo - 1.53 muneca + 0.553 antebrazo

Predictor Coef StDev T P

Constant -33.258 9.007 -3.69 0.000

edad 0.06817 0.03079 2.21 0.028

peso -0.11944 0.03403 -3.51 0.001

cuello -0.4038 0.2206 -1.83 0.068

abdomen 0.91788 0.06950 13.21 0.000

muslo 0.2220 0.1160 1.91 0.057

muneca -1.5324 0.5104 -3.00 0.003

Page 248: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 238

antebraz 0.5531 0.1848 2.99 0.003

S = 4.291 R-Sq = 74.4% R-Sq(adj) = 73.7%

Se elimina del modelo la variable cuello, pués su "p-value"=.068 es el mayor.

Paso 8. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo, biceps,

cadera y cuello.

The regression equation is

grasa = - 38.3 + 0.0629 edad - 0.136 peso + 0.912 abdomen + 0.220 muslo

- 1.78 muñeca + 0.489 antebrazo

Predictor Coef StDev T P

Constant -38.322 8.612 -4.45 0.000

edad 0.06290 0.03080 2.04 0.042

peso -0.13648 0.03288 -4.15 0.000

abdomen 0.91179 0.06975 13.07 0.000

muslo 0.2202 0.1166 1.89 0.060

muneca -1.7788 0.4947 -3.60 0.000

antebraz 0.4891 0.1823 2.68 0.008

S = 4.311 R-Sq = 74.1% R-Sq(adj) = 73.5%

Se elimina del modelo la variable muslo, pués su "p-value".060 es el mayor.

Paso 9. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo, biceps,

cadera, cuello y muslo.

The regression equation is

grasa = - 31.0 + 0.0410 edad - 0.111 peso + 0.939 abdomen - 1.83 muñeca

+ 0.508 antebrazo

Predictor Coef StDev T P

Constant -30.970 7.724 -4.01 0.000

edad 0.04100 0.02869 1.43 0.154

peso -0.11095 0.03014 -3.68 0.000

abdomen 0.93901 0.06860 13.69 0.000

muñeca -1.8296 0.4965 -3.68 0.000

antebraz 0.5085 0.1830 2.78 0.006

S = 4.334 R-Sq = 73.7% R-Sq(adj) = 73.2%

Se elimina del modelo la variable edad, pués su "p-value"=.154 es el mayor.

Paso 10. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo, biceps,

cadera, cuello, muslo y edad. The regression equation is

grasa = - 34.9 - 0.136 peso + 0.996 abdomen - 1.51 muñeca + 0.473 antebrazo

Predictor Coef StDev T P

Constant -34.854 7.245 -4.81 0.000

peso -0.13563 0.02475 -5.48 0.000

abdomen 0.99575 0.05607 17.76 0.000

muñeca -1.5056 0.4427 -3.40 0.001

antebraz 0.4729 0.1817 2.60 0.010

Page 249: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 239

S = 4.343 R-Sq = 73.5% R-Sq(adj) = 73.1%

El proceso termina, porque todos los "p-values" son menores que 0.05 o las pruebas t en valor

absoluto son mayores que 2. El mejor modelo para predecir el porcentaje de grasa en el cuerpo

será el que incluyea las variables:peso, circunferencia de abdomen, nuñeca y antebrazo.

Ahora, haremos todo lo anterior en forma directa. La ventana de diálogo para hacer

selección de variables en MINITAB se obtiene al elegir la opción Stepwise del menú

regresión. La ventana de diálogo se completara como se muestra en la Figura 9.16

Figura 9.16. Ventana de diálogo para el método "Stepwise"

Al seleccionar Methods aparece la ventana de diálogo de la Figura 9.17:

Page 250: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 240

Figura 9.17. Ventana de diálogo que aparece al oprimir methods en "stepwise".

En el método de eliminación hacia atrás se selecciona Backward Elimination.

Aparece seleccionado 0.15 en Alpha to remove. Este 0.15 es el nivel de significación que

se usa en la prueba de F al momento de decidir si se elimina o no una variable del modelo.

Este valor puede ser cambiado por el usuario. Si se elige un valor más pequeño de “alpha”

entonces, es probable que el modelo incluya más variables predictoras, lo contrario ocurre

si se elige un “alpha” grande.

En las versiones anteriores de MINITAB se usaba un valor de 4.0 en F to Remove.

Este valor corresponde a un “alpha” de 0.05 cuando se tiene una F con 1 grado de libertad

en el numerador y grados de libertad del denominador relativamente grande, mayor que

30. Con este cambio MINITAB ha adoptado la técnica de hacer “stepwise” que aparece

en la mayoría de los programas estadísticos.

Para los datos de la hoja de trabajo grasa.mtw en donde se trata de ver qué medidas

del cuerpo sirven para determinar el porcentaje de grasa en el cuerpo humano, el método

de eliminación hacia atrás da los siguientes resultados:

Stepwise Regression: grasa versus edad, peso, ...

Backward elimination. Alpha-to-Remove: 0.05

Response is grasa on 13 predictors, with N = 252

Step 1 2 3 4 5 6 7

Constant -18.19 -17.93 -19.69 -26.00 -23.30 -22.66 -33.26

Page 251: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 241

edad 0.062 0.063 0.062 0.065 0.063 0.066 0.068

T-Value 1.92 2.00 2.00 2.11 2.06 2.14 2.21

P-Value 0.056 0.046 0.046 0.036 0.041 0.034 0.028

peso -0.088 -0.088 -0.093 -0.107 -0.098 -0.090 -0.119

T-Value -1.65 -1.70 -1.96 -2.55 -2.42 -2.25 -3.51

P-Value 0.100 0.091 0.051 0.011 0.016 0.025 0.001

altura -0.070 -0.069 -0.064

T-Value -0.72 -0.72 -0.69

P-Value 0.469 0.470 0.493

cuello -0.47 -0.47 -0.48 -0.47 -0.49 -0.47 -0.40

T-Value -2.02 -2.06 -2.08 -2.05 -2.18 -2.08 -1.83

P-Value 0.044 0.040 0.039 0.042 0.030 0.039 0.068

pecho -0.024 -0.024

T-Value -0.24 -0.25

P-Value 0.810 0.805

abdomen 0.955 0.954 0.944 0.958 0.949 0.945 0.918

T-Value 11.04 11.09 12.51 13.16 13.18 13.13 13.21

P-Value 0.000 0.000 0.000 0.000 0.000 0.000 0.000

cadera -0.21 -0.21 -0.20 -0.18 -0.18 -0.20

T-Value -1.42 -1.42 -1.41 -1.29 -1.32 -1.41

P-Value 0.156 0.156 0.161 0.199 0.189 0.159

muslo 0.24 0.24 0.25 0.26 0.27 0.30 0.22

T-Value 1.64 1.72 1.81 1.94 1.99 2.34 1.91

P-Value 0.103 0.086 0.072 0.054 0.048 0.020 0.057

rodilla 0.02

T-Value 0.06

P-Value 0.950

tobillo 0.17 0.18 0.18 0.18

T-Value 0.79 0.81 0.82 0.85

P-Value 0.433 0.419 0.412 0.396

biceps 0.18 0.18 0.18 0.19 0.18

T-Value 1.06 1.06 1.05 1.10 1.06

P-Value 0.290 0.289 0.297 0.271 0.289

antebraz 0.45 0.45 0.45 0.45 0.45 0.52 0.55

T-Value 2.27 2.29 2.28 2.31 2.31 2.77 2.99

P-Value 0.024 0.023 0.023 0.022 0.022 0.006 0.003

muneca -1.62 -1.62 -1.61 -1.66 -1.54 -1.54 -1.53

T-Value -3.03 -3.04 -3.04 -3.14 -3.03 -3.02 -3.00

P-Value 0.003 0.003 0.003 0.002 0.003 0.003 0.003

S 4.31 4.30 4.29 4.28 4.28 4.28 4.29

R-Sq 74.90 74.90 74.90 74.85 74.77 74.66 74.45

R-Sq(adj) 73.53 73.64 73.75 73.81 73.84 73.82 73.71

C-p 14.0 12.0 10.1 8.5 7.2 6.4 6.3

Step 8 9 10

Constant -38.32 -30.97 -34.85

edad 0.063 0.041

T-Value 2.04 1.43

P-Value 0.042 0.154

peso -0.136 -0.111 -0.136

T-Value -4.15 -3.68 -5.48

Page 252: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 242

P-Value 0.000 0.000 0.000

altura

T-Value

P-Value

cuello

T-Value

P-Value

pecho

T-Value

P-Value

abdomen 0.912 0.939 0.996

T-Value 13.07 13.69 17.76

P-Value 0.000 0.000 0.000

cadera

T-Value

P-Value

muslo 0.22

T-Value 1.89

P-Value 0.060

rodilla

T-Value

P-Value

tobillo

T-Value

P-Value

biceps

T-Value

P-Value

antebraz 0.49 0.51 0.47

T-Value 2.68 2.78 2.60

P-Value 0.008 0.006 0.010

muneca -1.78 -1.83 -1.51

T-Value -3.60 -3.68 -3.40

P-Value 0.000 0.000 0.001

S 4.31 4.33 4.34

R-Sq 74.10 73.72 73.50

R-Sq(adj) 73.46 73.19 73.07

C-p 7.7 9.2 9.3

Interpretación: El método termina en 10 pasos. La primera variable eliminada del

modelo es rodilla, cuyo valor de la prueba t, 0.06, es el más pequeño de todos, luego se

eliminan, pecho, altura, tobillo, biceps, cadera, cuello, muslo y edad en ese orden. El

mejor modelo será:

Grasa= 34.85 -.136 peso+ .996 abdomen +0.47 antebrazo - 1.51muñeca

El cual tiene un R2 de 73.50, mientras que el modelo completo con 13 variable predictoras

tiene un R2 de 74.90%, se ha perdido un 1.40% de confiablidad en las predicciones pero

se ha economizado 9 variables, lo cual es más conveniente.

Page 253: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 243

B) Usando el método "Forward"

Haciendo paso a paso el método "Forward":

Paso 1. Se halla la regresión simple con la variable predictora más altamente correlacionada

con la variable de respuesta En este caso, es abdomen que tiene correlación 0.803 con grasa. The regression equation is

grasa = - 39.3 + 0.631 abdomen

Predictor Coef StDev T P

Constant -39.280 2.660 -14.77 0.000

abdomen 0.63130 0.02855 22.11 0.000

S = 4.877 R-Sq = 66.2% R-Sq(adj) = 66.0%

Paso 2. Se halla todas las regresiones con dos variables predictoras, una de las cuales es

abdomen. Aqui se muestran sólo dos de las 12 regresiones posibles.

Con la variables aabdomen y pecho The regression equation is

grasa = - 30.3 + 0.818 abdomen - 0.261 pecho

Predictor Coef StDev T P

Constant -30.274 4.057 -7.46 0.000

abdomen 0.81794 0.07006 11.67 0.000

pecho -0.26066 0.08961 -2.91 0.004

S = 4.806 R-Sq = 67.3% R-Sq(adj) = 67.0%

Con las variables adomen y peso

The regression equation is

grasa = - 46.0 + 0.990 abdomen - 0.148 peso

Predictor Coef StDev T P

Constant -45.952 2.605 -17.64 0.000

abdomen 0.98950 0.05672 17.45 0.000

peso -0.14800 0.02081 -7.11 0.000

S = 4.456 R-Sq = 71.9% R-Sq(adj) = 71.7%

Notar que el valor absoluto de la prueba t para la variable pecho es 2.91 (p-value = .004), y para la

variable peso es 7.11 ( p-value = 0.000). La variable peso entra al modelo porque es aquella con

valor de t más grande en valor absoluto entre todas las variables que aún no estaban incluídas.

Paso 3. Se hallan todas las regresiones con tres variables predictoras, las dos incluidas en

los dos pasos anteriores y cada una de las variables no incluidas aún. Aqui se muestran sólo

dos de las 11 regresiones posibles.

The regression equation is

grasa = - 45.8 + 0.990 abdomen - 0.148 peso - 0.002 cadera

Predictor Coef StDev T P

Constant -45.846 7.059 -6.49 0.000

abdomen 0.98974 0.05866 16.87 0.000

peso -0.14763 0.03087 -4.78 0.000

cadera -0.0020 0.1199 -0.02 0.987

S = 4.465 R-Sq = 71.9% R-Sq(adj) = 71.5%

Page 254: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 244

Regression Analysis

The regression equation is

grasa = - 27.9 + 0.975 abdomen - 0.114 peso - 1.24 muneca

Predictor Coef StDev T P

Constant -27.930 6.817 -4.10 0.000

abdomen 0.97513 0.05615 17.37 0.000

peso -0.11446 0.02364 -4.84 0.000

muñeca -1.2449 0.4362 -2.85 0.005

S = 4.393 R-Sq = 72.8% R-Sq(adj) = 72.4%

La variable muñeca entra al modelo porque es aquella con el valor de t más grande en valor

absoluto entre todas las variables que aún no estaban incluídas.

Paso 4. Se hallan todas las regresiones con cuatro variables predictoras, las tres incluídas

en los tres pasos anteriores y cada una de las variables no incluidas aún. Aqui se muestran

sólo dos de las 10 regresiones posibles.

Regression Analysis

The regression equation is

grasa = - 35.1 + 0.979 abdomen - 0.144 peso - 1.10 muñeca + 0.158 muslo

Predictor Coef StDev T P

Constant -35.117 8.414 -4.17 0.000

abdomen 0.97856 0.05607 17.45 0.000

peso -0.14355 0.03096 -4.64 0.000

muñeca -1.0990 0.4467 -2.46 0.015

muslo 0.1585 0.1092 1.45 0.148

S = 4.383 R-Sq = 73.0% R-Sq(adj) = 72.6%

Regression Analysis

The regression equation is

grasa = - 34.9 + 0.996 abdomen - 0.136 peso - 1.51 muñeca + 0.473 antebrazo

Predictor Coef StDev T P

Constant -34.854 7.245 -4.81 0.000

abdomen 0.99575 0.05607 17.76 0.000

peso -0.13563 0.02475 -5.48 0.000

muñeca -1.5056 0.4427 -3.40 0.001

antebraz 0.4729 0.1817 2.60 0.010

S = 4.343 R-Sq = 73.5% R-Sq(adj) = 73.1%

La variable antebrazo entra al modelo porque es aquella con el valor de t más grande en valor

absoluto entre todas las variables que aún no estaban incluídas.

Aquí termina el proceso porque al hacer las regresiones de grasa con las cuatro variables

consideradas hasta ahora y cada una de las 9 variables no incluidas hasta ahora se obtienen “p-

values” para la prueba t mayores de 0.05.

Page 255: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 245

Para hacer selección hacia adelante en MINITAB se sigue la secuencia

STATRegressionStepwiseMethods y luego se elige Forward Selection. En la

ventanita Alpha-to-Enter aparece 0.25, que es el nivel de significación que usa la prueba

de F para decidir si una variable debe o no entrar en el modelo. Este valor puede ser

cambiado por el usuario, tomando en cuenta que si elige un valor de “alpha” más pequeño

es más probable que el modelo incluya un menor número de variables que cuando se

escoge una “alpha” más grande.

En las versiones anteriores de MINITAB se usaba un valor de 4.0 en F to Enter.

Este valor corresponde a un “alpha” de 0.05 cuando se tiene una F con 1 grado de libertad

en el numerador y grados de libertad del denominador relativamente grande, mayor que

30.

Para los datos de la hoja de trabajo grasa.mtw, el método de selección hacia

adelante da los siguientes resultados, usando “alpha” = 0.05.

Stepwise Regression: grasa versus edad, peso, ...

Forward selection. Alpha-to-Enter: 0.05

Response is grasa on 13 predictors, with N = 252

Step 1 2 3 4

Constant -39.28 -45.95 -27.93 -34.85

abdomen 0.631 0.990 0.975 0.996

T-Value 22.11 17.45 17.37 17.76

P-Value 0.000 0.000 0.000 0.000

peso -0.148 -0.114 -0.136

T-Value -7.11 -4.84 -5.48

P-Value 0.000 0.000 0.000

muneca -1.24 -1.51

T-Value -2.85 -3.40

P-Value 0.005 0.001

antebraz 0.47

T-Value 2.60

P-Value 0.010

S 4.88 4.46 4.39 4.34

R-Sq 66.17 71.88 72.77 73.50

R-Sq(adj) 66.03 71.65 72.44 73.07

C-p 72.9 20.7 14.2 9.3

C) Usando el método “Stepwise”.

Page 256: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 246

Para llevar a cabo en MINITAB selección de variables usando el método “stepwise”

se sigue la secuencia STATRegressionStepwiseMethods y luego se elige

Stepwise. Aparece la ventana de diálogo de la Figura 9.18. En las ventanitas Alpha-to-

Enter y Alpha to-Remove, aparece el mismo valor 0.15, el cual puede ser cambiado por

el usuario. El valor de Alpha-to-Enter debe ser menor que Alpha to-Remove. En las

versiones anteriores de MINITAB aparecían las ventanitas F-to-Enter y F-to-Remove

donde se asignaba el valor de 4.0

Figura 9.18. Ventana de diálogo para hacer selección “stepwise”.

Para el conjunto de datos grasa el método “stepwise” usando Alpha-to-Enter =

0.10 y Alpha to-Remove = 0.05, produce los siguientes resultados:

Stepwise Regression: grasa versus edad, peso, ...

Alpha-to-Enter: 0.1 Alpha-to-Remove: 0.15

Response is grasa on 13 predictors, with N = 252

Step 1 2 3 4 5

Constant -39.28 -45.95 -27.93 -34.85 -30.65

abdomen 0.631 0.990 0.975 0.996 1.008

T-Value 22.11 17.45 17.37 17.76 17.89

P-Value 0.000 0.000 0.000 0.000 0.000

peso -0.148 -0.114 -0.136 -0.123

T-Value -7.11 -4.84 -5.48 -4.75

P-Value 0.000 0.000 0.000 0.000

muneca -1.24 -1.51 -1.25

T-Value -2.85 -3.40 -2.66

P-Value 0.005 0.001 0.008

antebraz 0.47 0.53

Page 257: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 247

T-Value 2.60 2.86

P-Value 0.010 0.005

cuello -0.37

T-Value -1.65

P-Value 0.100

S 4.88 4.46 4.39 4.34 4.33

R-Sq 66.17 71.88 72.77 73.50 73.79

R-Sq(adj) 66.03 71.65 72.44 73.07 73.26

C-p 72.9 20.7 14.2 9.3 8.6

9.7.2 Método de los mejores subconjuntos.

La opción Best Subsets del submenú Regression del menú Stat se usa para

seleccionar los mejores modelos para un número dado de variables de acuerdo a 3

criterios:

El coeficiente de Determinación. El mejor modelo es aquél con SST

SSRR 2 más

alto pero con el menor número de variables posibles. Por decir, si con 3 variables

predictoras se obtiene un R2 de .84 y con 4 variables se obtiene un R

2 de .87 se debería

preferir el primer modelo porque la cuarta variable ha incrementado el R2

pero por muy

poco.

El coeficiente de Determinación Ajustado. Es una variante del R2 y que a

diferencia de éste no aumenta necesariamente al incluir una variable adicional en el

modelo. Se calcula por:

1

1)1(1 22

pn

nR

MST

MSRRAjust

La manera de usar este criterio es similar al anterior.

El Coeficiente Cp de Mallows. Se calcula por:

Donde SSEp es la suma de cuadrados del error del modelo que incluye p variables

predictoras y s2 es la varianza estimada del error en el modelo que incluye todas las

variables.

El mejor modelo es aquel para el cual se cumple aproximadamente 1 pC p , pero

con el menor número de variables posibles. Notar que la igualdad anterior también se

cumple cuando se usa el modelo completo.

nps

SSEC

p

p )1(22

Page 258: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 248

Para el ejemplo anterior, la ventana de diálogo aparece a continuación:

Figura 9.19. Ventana de diálogo para Bests Subsets, usando los datos del Ejemplo 9.6

y la ventana session contendrá los siguientes resultados:

Best Subsets Regression

Response is grasa

a

a r t n

a c b c o o b t m

l u p d a m d b i e u

e p t e e o d u i i c b n

d e u l c m e s l l e r e

Adj. a s r l h e r l l l p a c

Vars R-Sq R-Sq C-p s d o a o o n a o a o s z a

1 66.2 66.0 72.9 4.8775 X

1 49.4 49.2 232.2 5.9668 X

2 71.9 71.7 20.7 4.4556 X X

2 70.2 70.0 36.6 4.5866 X X

3 72.8 72.4 14.2 4.3930 X X X

3 72.4 72.0 18.0 4.4251 X X X

4 73.5 73.1 9.3 4.3427 X X X X

4 73.3 72.8 11.4 4.3609 X X X X

5 73.8 73.3 8.6 4.3276 X X X X X

5 73.7 73.2 9.2 4.3336 X X X X X

6 74.1 73.5 7.7 4.3111 X X X X X X

6 74.1 73.4 8.0 4.3138 X X X X X X

7 74.4 73.7 6.3 4.2906 X X X X X X X

7 74.3 73.6 7.4 4.2998 X X X X X X X

8 74.7 73.8 6.4 4.2819 X X X X X X X X

8 74.6 73.8 7.0 4.2872 X X X X X X X X

9 74.8 73.8 7.2 4.2808 X X X X X X X X X

9 74.7 73.8 7.7 4.2851 X X X X X X X X X

10 74.8 73.8 8.5 4.2832 X X X X X X X X X X

Page 259: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 249

10 74.8 73.8 8.7 4.2850 X X X X X X X X X X

11 74.9 73.7 10.1 4.2879 X X X X X X X X X X X

11 74.8 73.7 10.5 4.2920 X X X X X X X X X X X

12 74.9 73.6 12.0 4.2963 X X X X X X X X X X X X

12 74.9 73.6 12.1 4.2968 X X X X X X X X X X X X

13 74.9 73.5 14.0 4.3053 X X X X X X X X X X X X X

Interpretación: De acuerdo al R2

el mejor modelo podría ser aquél con las dos variables

predoctoras peso y abdomen que aún cundo su R2

es de 71.9 está cerca del mayor posible

que es de 74.9 y además es donde el R2 ha tenido un mayor incremento. Un resultado

similar cuando se usa el R2 ajustado. De acuerdo al Cp de Mallows, el mejor modelo es

aquél que tiene las siguientes 6 variables predictoras: edad, peso, muslo, abdomen,

antebrazo y cadera con un valor de 7.7pC muy próximo a 7161 p .

Page 260: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 250

EJERCICIOS

Para conseguir los archivos de datos accesar a la siguiente dirección en la internet

www.math.uprm.edu/~edgar.datos.html o mandar un mensaje al autor.

1. Los siguientes datos corresponden el tiempo de experiencia en dias de 10 técnicos

recientemente contratados por una compañia de electricidad, y el tiempo (en minutos)

que demoran en hacer una instalación.

experiencia (X) : 5 2 3 10 7 6 5 7 1 8

tiempo de demora (Y) : 30 42 35 20 28 31 32 19 39 25

a) Construir un diagrama de dispersión (“scatterplot”) de los datos.

b) Hallar la línea de cuadrados mínimos que representa la relación entre la experiencia

y el tiempo de demora.

c) Calcular el coeficiente de Determinación e interpretar el resultado.

d) Probar usando un 5% de significación si la pendiente de ésta relación es cero.

e) Si se sabe que un técnico tiene 5 dias de experiencia, ¿En cuánto tiempo se espera

que realice una instalación?

f) Hallar el intervalo de confianza del 95% del tiempo medio de duración para todos

los ténicos que tienen 5 días de experiencia. Calcular también el intervalo de

prediccion. Interpretar sus resultados.

g) Hacer un análisis de varianza y sacar sus conclusiones.

2. La tienda “Sweet Dreams”, especializada en vender dulces y regalos, registra durante

12 días el número de personas que entran a la tienda y la cantidad de venta (en

dólares) de dulces en cada uno de esos días. # de personas (X) : 174 112 166 138 172 90 148 116 196 116 124 95

ventas (Y) :145.2 83.2 120.5 113.6 119 67 109.3 96.8 140.8 77.8 105 98.6

a) Construir un diagrama de dispersión (“scatterplot”) de los datos.

b) Hallar la linea de cuadrados mínimos para aproximar la relación entre el número de

personas que entran a la tienda y la venta de dulces por día.

c) Probar a un 5% de nivel de significancia si la pendiente es cero.

d) Probar a un 5% de nivel de significancia si el intercepto es cero.

e) Calcular el coeficiente de correlación entre el número de personas y las ventas.

f) Calcular el coeficiente de Determinación e interpretar éste resultado.

g) Si el número de personas que entran a la tienda es de 130, predecir las ventas de

ese día a un 95% de confianza.

h) Obtener las bandas de confianza para el valor medio y de predicción

i) Realizar un análisis de varianza y sacar sus conclusiones.

Page 261: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 251

3. En un país se eligen 10 pueblos al azar y se anota el ingreso personal promedio de los

habitantes ( en miles ) y la tasa de divorcio ( por cada 1000 personas). Los datos están

en el archivo divorcio.

a) Hacer un plot de los datos

b) Hallar el coeficiente de correlación r e interpretarlo

c) Hallar la línea de regresión estimada e interpretar las constantes a y b

d) Probar si la pendiente de la línea de regresión es cero.

e) Trazar la línea de regresión sobre el plot de los puntos

f) ¿Cuánto es el coeficiente de Determinación y qué significa?

g) ¿Cuál será la tasa de divorcio estimada de un pueblo en donde el ingreso promedio

anual es 12,500.

h) Hallar además el intervalo de confianza del valor medio y el intervalo de

predicción. Interpretar cada uno de ellos.

i) Obtener la gráfica de las bandas de confianza.

j) ¿Qué conclusión se obtendrá de la siguiente tabla de análisis de varianza?

k) Hallar una regresión que pase por el origen e interpretar el resultado.

4. En un pueblo se eligen 15 personas al azar y se anota su salario mensual (X) y la

cantidad que ahorran mensualmente (Y):

Salario Ahorro

800 150

850 100

900 280

1200 400

1500 350

1700 500

1900 635

2000 600

2300 750

2500 680

2700 900

3000 800

3200 300

3500 1200

5000 1000

a) Hallar la línea de regresión. e interpretar sus coeficientes.

b) Trazar la linea de regresión por encima del diagrama de puntos.

c) Probar la hipótesis de que la pendiente es cero. Comentar su resultado

d) Hacer una regresión que pase por el orígen e interpretar la pendiente

e) Asigne un valor adecuado a la variable predictora y halle un intervalo de confianza

del 90 por ciento para el valor medio de la variable de respuesta e intrepretar el

resultado.

Page 262: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 252

f) Asigne un valor adecuado a la variable predictora y halle un intervalo de

predicción del 95% para un valor individual de la variable, de respuesta e

interpretar su resultado.

g) Obtenga las bandas de confianza para el valor medio y de predicción y explicar

para qué se usan..

h) Interpretar el coeficiente de determinación

i) Hacer un análisis de residuales y comentar sus resultados

j) Si existen "outliers" eliminar uno de ellos y explicar su efecto en los cálculos del

coeficiente de determinación y de la linea de regresión.

k) Hacer una regresión cuadrática y compararla con la regresión lineal

5. El conjunto de datos brain contiene las variables:

MRI (X), conteo en pixels del 18 scans de resonancia magnética del cerebro de una

persona

Score_IQ, (Y) score en un test de inteligencia.

Mientras más alto sea el conteo de pixels más grande es el cerebro de las personas.

a) Hallar la línea de regresión. e interpretar los coeficientes de la linea de regresión

b) Trazar la línea de regresión encima del diagrama de puntos.

c) Probar la hipótesis de que la pendiente es cero. Comentar su resultado

d) Hacer una regresión que pase por el origen e interpretar la pendiente

e) Asigne un valor adecuado a la variable predictora y halle un intervalo de confianza

del 90 por ciento para el valor medio de la variable, de respuesta e intrepretar el

resultado.

f) Asigne un valor adecuado a la variable predictora y halle un intervalo de

prediccion del 95% para un valor individual de la variable, de respuesta e

interpretar su resultado.

g) Obtenga las bandas de confianza para el valor medio y de prediccion y explicar

para qué se usan.

h) Interpretar el coeficiente de determinación

i) Hacer un análisis de residuales y comentar sus resultados

j) Si existen "outliers" eliminar uno de ellos y explicar su efecto en los cálculos del

coeficiente de determinación y de la linea de regresión.

k) Hacer una regresión cuadrática y compararla con la regresión lineal

6. El conjunto de datos pesobajo contiene las variables:

peso, (Y): peso del recién nacido en gramos

duración (X): duración del período de gestación

a) Hallar la linea de regresión. e interpretar los coeficientes de la linea de regresión

b) Trazar la linea de regresión encima del diagrama de puntos.

c) Probar la hipótesis de que la pendiente es cero. Comentar su resultado

d) Hacer una regresión que pase por el origen e interpretar la pendiente

Page 263: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 253

e) Asigne un valor adecuado a la variable predictora y halle un intervalo de confianza

del 90 por ciento para el valor medio de la variable, de respuesta e intrepretar el

resultado.

f) Asigne un valor adecuado a la variable predictora y halle un intervalo de

predicción del 95% para un valor individual de la variable, de respuesta e

interpretar su resultado.

g) Obtenga las bandas de confianza para el valor medio y de predicción y explicar

para qué se usan.

h) Interpretar el coeficiente de determinación

i) Hacer un análisis de residuales y comentar sus resultados

j) Si existen "outliers" eliminar uno de ellos y explicar su efecto en los cálculos del

coeficiente de determinación y de la linea de regresión.

k) Hacer una regresión cuadrática y compararla con la regresión lineal

7. En la siguiente tabla se presentan las presiones arteriales Sistólica y Diastólica de 20

personas

persona pres. Sisto pres. Dias Persona pres. Sisto pres. Dias

1 130 80 11 120 75

2 100 70 12 130 95

3 130 80 13 130 80

4 140 80 14 140 90

5 130 70 15 110 80

6 115 75 16 160 95

7 120 85 17 150 110

8 125 75 18 130 95

9 110 65 19 125 75

10 125 70 20 130 80

a) Construya un diagrama de dispersión (“scatteplot”) para los datos.

b) Hallar la Regresión lineal, considerando como variable dependiente la Presión

Arterial Diastólica.

c) Interpretar los coeficientes de la regresión obtenida en la parte a).

d) Trazar la línea de regresión estimada encima del diagrama de Dispersión.

e) Estime la presión Arterial Diastólica de una persona que tiene una presión Arterial

Sistólica de 128.

f) Determine un intervalo al 95% para el valor medio de la variable, de respuesta si

la presión arterial Sistólica es de 128, interpretarlo.

g) Graficar las bandas de confianza para el valor medio y de predicción.

h) Realizar un análisis de Residuales.

8. La siguiente tabla muestra el número (en cientos) de bacterias que sobreviven después

de ser expuestas a rayos X de 200 kilovoltios por períodos de tiempo T de 6 minutos

de duración cada uno: Tiempo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Bacterias 355 211 197 166 142 106 104 60 56 38 36 32 21 19 13

Page 264: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 254

a) Hacer un plot de los datos que relacione el número de bacterias sobrevivientes

versus el tiempo.

b) Ajustar varios modelos que pueden ser linealizados y decidir acercar el mejor

modelo para representar la relación entre las variables.

c) Predecir el número de bacterias sobrevivientes después de 18 periodos de

exposición

9. Usar los archivos de datos homedat.mtw, salary.mtw y pulse.mtw que están dentro

de MINITAB. Para homedat escoger Y=c1, para salary escoger Y=C7 y no usar las

columnas c1 y c2, para Pulse escoger Y=c2.

a) Hallar el modelo de regresión múltiple e interpretar tres de los coeficientes de

regresión.

b) Interpretar el coeficiente de Determinación.

c) Probar que todos los coeficientes del modelo de regresión son ceros. Comentar el

resultado.

d) Probar que cada uno de los coeficientes del modelo de regresión es cero. Comentar

el resultado.

e) Probar la hipótesis Ho: B2=B4=0. Comentar su resultado.

f) Hallar un Intervalo de Confianza para el valor medio de Y y el valor Predicho del

99% para Y, escogiendo valores adecuados de las variables predictoras. Comentar

sus resultados

g) Usar los métodos “Backward” y "Forward" para elegir el modelo de Regresión.

Interpretar la salida de MINITAB. Osea explicar cada paso del método y porqué es

que se detiene.

10. Dada la siguiente información:

Y: medida de severidad de la enfermedad respiratoria

X1: años de educación

X2: número de personas en el edificio donde vive la persona

X3: medida de la calidad del aire (un número grande indica pobre calidad)

X4: nivel de nutrición

X5: 0 es no fuma y 1 si fuma.

Y X1 X2 X3 X4 X5

40 7 25 22 94 0

67 7 33 61 18 1

30 6 19 30 103 0

71 15 29 50 17 1

47 11 21 43 109 0

53 10 24 54 0 1

39 8 21 28 33 0

55 14 22 35 21 1

47 10 26 22 76 0

56 9 32 43 97 1

43 8 22 48 104 0

41 8 19 27 37 0

Page 265: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 255

51 9 28 32 87 1

48 8 22 62 131 0

36 8 19 37 53 0

a) Hallar la regresión lineal múltiple. Comentar los coeficientes.

b) Hacer un análisis de residuales y comentar sus resultados.

c) Aplicar el método "stepwise" para elegir el mejor modelo. Comentar los

resultados.

d) Aplicar el método de "Los mejores subconjuntos" para elegir el mejor modelo.

Comentar sus resultados.

11. El archivo de datos rendimiento contiene la siguiente información:

Y=rendimiento de la enfermera

X1=firmeza de carácter

X2=entusiasmo

X3=ambición

X4=habilidad para comunicarse

X5=habilidad para resolver problemas

X6=iniciativa

a) Hallar la regresión lineal múltiple. Comentar los coeficientes.

b) Probar las hipótesis de que las variables entusiasmo e iniciativa no son importantes

para predecir el rendimiento de la enfremera.

c) Hacer una análisis de residuales y comentar sus resultados.

d) Aplicar el método "stepwise" para elegir el mejor modelo. Comentar los

resultados.

e) Aplicar el método de "Los mejores subconjuntos" para elegir el mejor modelo.

Comentar sus resultados.

12. El archivo de datos detroit que aparece en la página de internet del texto contiene la

siguiente información acerca de la tasa de homicidio en Detroit entre 1966 y 1973

FTP - Full-time police per 100,000 population

UEMP - % unemployed in the population

LIC - Number of handgun licences per 100,000 population

CLEAR - % homicides cleared by arrests

WM - Number of white males in the population

NMAN - Number of non-manufacturing workers in thousands

GOV - Number of government workers in thousands

HE - Average hourly earnings

HOM - Number of homicides per 100,000 of population

a) Hallar la regresión lineal múltiple considerando Y=HOM. Comentar los

coeficientes.

b) Hacer un análisis de residuales y comentar sus resultados.

Page 266: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 256

c) Aplicar el método "stepwise" para elegir el mejor modelo. Comentar los

resultados.

d) Aplicar el método de "Los mejores subconjuntos" para elegir el mejor modelo.

Comentar sus resultados.

13. Los siguientes datos corresponden al precio de venta (en dólares) de 25 propiedades.

Para cada una de ellas se tomó datos acerca del número de cuartos, años de

antiguedad, área total de la propiedad (en metros cuadrados) y área patio exterior (en

metros cuadrados)

Precio Cuartos Antiguedad Área Patio

108360 5 41 463 243

460800 20 7 1779 340

189000 5 33 594 379

611440 20 32 1775 395

198000 5 28 520 175

360000 10 32 1250 150

130500 4 41 730 426

331846 11 12 515 160

504000 20 9 1175 750

714000 32 36 1750 1400

672000 26 37 1121 821

321600 13 28 1200 400

348000 9 38 1600 469

207840 6 11 550 100

387600 11 12 1180 280

195000 5 9 530 150

424200 20 31 1500 160

161280 4 35 600 100

224400 8 10 908 158

186840 4 29 650 100

111000 4 41 658 248

132000 4 25 460 80

887000 14 5 11200 8820

96600 4 41 762 372

336600 4 42 910 510

a) Construir diagramas de dispersión entre el precio y el área total, el precio y la

antiguedad de la propiedad.

b) Hallar el modelo de Regresión Lineal Múltiple e interpretar los coeficientes de

Regresión.

c) Presentan los datos evidencia suficiente para concluir que los coeficientes de

regresión son distintos de cero? , use un = 0.05.

d) Hacer un análisis de varianza, e interpretar los resultados.

Page 267: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 9 Regresión Lineal 257

14. Los siguientes datos corresponden a las mediciones de peso (en libras), estatura (en

pulgadas) y edad de 26 personas

Peso (y) Talla (x1) Edad (x2)

123 4.7 17

111 4.9 19

130 4.9 19

150 5.1 19

164 5.3 23

151 5 23

147 5.2 26

138 5.1 27

159 5.2 28

160 5.1 28

150 4.8 28

175 5 28

152 4.9 29

156 5.2 30

145 4.8 30

143 5.3 30

171 5.4 30

172 5.2 30

177 5.5 31

202 5.3 36

199 5.5 38

174 5.1 40

186 5.3 44

170 5.2 44

210 5.3 50

199 5.4 55

a) Hallar un modelo de regresión lineal múltiple de la variable peso en función de las

variables predictoras; estatura y edad. Interpretar los coeficientes.

b) Hacer un Análisis de Residuales y comentar sus resultados.

Page 268: Estadistica con Mitab.pdf

CAPÍTULO 10

DISEÑOS EXPERIMENTALES

10.1 Diseños Experimentales de Clasificación Simple

En un diseño experimental de clasificación simple, se trata de comparar varios

grupos generalmente llamados Métodos o Tratamientos, como por ejemplo diferentes

maneras de tratar una enfermedad: con medicamentos, quirúrgicamente, acupuntura, etc. o

de enseñar un curso: dando conferencias, usando transparencias, cooperativamente, etc.

Para hacer la comparación se usa una variable de respuesta cuantitativa Y que es medida

en cada uno de los grupos. Los grupos también pueden ser los niveles de una variable

cualitativa que es llamada Factor, como por ejemplo niveles de conocimiento: básico,

intermedio, avanzado.

Los datos deben ser recolectados de la siguiente manera:

Grupo 1 Grupo 2 Grupo 3 … Grupo k

Y11 Y21 Y31 Yk1

Y12 Y22 Y32 Yk2

Y13 Y23 Y33 Yk3

… …

Y1n1 Y2n2 Y3n3 … Yknk

Donde el Grupo 1 tiene n1 observaciones, el Grupo 2 tiene n2 observaciones, y así

sucesivamente. Un Diseño experimental se puede escribir como un modelo lineal al estilo

de un modelo de regresión. Así

ijiijy , donde:

ijy : Es la j-ésima observación del grupo i .

: Es la media total.

i : Es el efecto del grupo i .

ij : Error aleatorio de la j-ésima observación del grupo i .

Comparar los grupos se reduce a determinar si hay igualdad de medias poblacionales

de la variable de respuesta en todos los grupos. Es decir,

Ho: 1 = 2 = 3 = … = k ( Los k grupos tienen medias poblacionales iguales) versus

Ha: Al menos un grupo tiene distinta media poblacional

La prueba estadística que se usa para tomar una decisión es la prueba de F. Para que

la prueba sea válida se requiere que se cumplan ciertas suposiciones tales como, que la

variable de respuesta se distribuya normalmente y con igual variabilidad en cada grupo.

La prueba F es obtenida al completar la tabla del análisis de varianza.

Page 269: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 257

La tabla del análisis de varianza tiene el siguiente formato:

Fuentes de

Variación

Grados de

Libertad

Suma de

Cuadrados

Cuadrados Medios F

Entre Grupos k-1 BSS BMS = BSS/k-1 BMS/MSE

Dentro de Grupos n-k SSE MSE = SSE/n-k

Total n-1 SST

Aquí

k

i

inn1

representa el total de datos tomados,

La Suma de cuadrados del total (SST) se calcula por:

n

y

ySST

k

i

n

j

ijk

i

n

i

ij

k

k

1 1

2

1 1

2

)(

La Suma de cuadrados Entre Grupos (BSS) se calcula por:

n

y

n

T

n

T

n

TBSS

k

i

n

j

ij

k

k

k

1 1

2

2

2

2

2

1

2

1

)(

....

donde: Ti representa el total del i-ésimo Grupo.

SSE es la suma de cuadrados del Error, llamado también Suma de Cuadrados

Dentro de Grupos y se calcula por diferencia: SSE = SST – BSS.

Si la F calculada es mayor que una F con k-1 y n-k al nivel de significación

entonces, se rechaza la hipótesis nula. MINITAB da el “p-value” para la prueba de F y

con ese valor se puede llegar a tomar una decisión.

En MINITAB, el análisis de Diseños Experimentales se lleva a cabo usando la

opción ANOVA del menú Stat, cuyo submenú aparece en figura 10.1.

La opción One-Way del menú ANOVA se usa para hacer análisis de varianza de

clasificación simple cuando los datos de la variable de respuesta van en una sola columna

y los niveles del factor (o Grupos) van en otra columna. La opción One-Way (Unstacked),

se usa también para hacer diseños de clasificación simple, pero cuando los datos de los

grupos a comparar son entrados columna por columna.

Page 270: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 258

Figura 10.1. Las opciones del menú ANOVA

Ejemplo 10.1. Se desea comparar 3 métodos de enseñanza A, B y C, se eligen al azar una

muestra de estudiantes de cada método y se le aplica una prueba final común. Los

resultados son como sigue:

método A método B método C

89 78 64

45 85 69

59 93 82

46 81 74

64 79 79

71 98

94

¿Habrá suficiente evidencia para concluir que hay diferencia entre métodos?

Solución:

Los datos son escritos en tres columnas llamadas: método A, método B y método c

respectivamente. Usando la opción One-way[Unstacked] la ventana de diálogo se

completará como sigue:

Page 271: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 259

Figura 10.2. Ventana de diálogo de One-way[Unstacked] para el ejemplo 10.1

y la ventana session mostrará el siguiente contenido:

One-way ANOVA: Método A, Método B, Método C

Source DF SS MS F P

Factor 2 1957 978 7.44 0.006

Error 15 1971 131

Total 17 3928

S = 11.46 R-Sq = 49.81% R-Sq(adj) = 43.12%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ------+---------+---------+---------+---

Método A 6 62.33 16.54 (-------*-------)

Método B 7 86.86 8.07 (------*-------)

Método C 5 73.60 7.30 (--------*--------)

------+---------+---------+---------+---

60 72 84 96

Pooled StDev = 11.46

Interpretación: Observando el “P-value”=.006 se rechaza la afirmación, “todos los

métodos sean iguales”, o sea en al menos uno de los métodos el rendimiento de los

estudiantes es distinto al de los otros métodos. También aparecen los intervalos de

confianza para las medias de los tres grupos y se puede ver que no hay superposición

entre los intervalos de confianza para los métodos A y B, lo cual sugiere también que se

debe rechazar la hipótesis nula.

Page 272: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 260

También se puede hacer una comparación gráfica de los grupos oprimiendo el botón

Graph, en la ventana de diálogo lo cual produce:

Figura 10.3 Ventana de diálogo para elegir la gráfica en un Anova de clasificación simple.

Eligiendo boxplots se obtiene la gráfica que aparece en la figura 10.4.

Figura 10.4. Boxplots para comparar los tres métodos del ejemplo 10.1

Page 273: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 261

Interpretación: La posición de la mediana y las medias sugiere que aún cuando los

métodos B y C no están muy distantes, si existe una diferencia marcada entre los métodos

B y A, lo cual llevará a rechazar la hipótesis de iguldad de medias. Hay que notar que la

variabilidad del método A es mucho mayor que los otros dos métodos.

Para usar la opción One-Way los datos deben ser entrados en dos columnas: Una de ellas

conteniendo los valores de la variable de respuesta y la otra los valores que indican a que

grupo pertenecen dichos datos. Para el ejemplo anterior se han usado dos columnas: notas,

que contiene los valores de la variable de respuesta y método que contiene los grupos.

De la siguiente manera: notas método

89 1

45 1

59 1

46 1

64 1

71 1

78 2

85 2

93 2

81 2

79 2

98 2

94 2

64 3

69 3

82 3

74 3

79 3

La ventana de diálogo se completará como lo muestra la figura 10.5

Page 274: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 262

Figura 10.5. Ventana de diálogo para la opción oneway de ANOVA

y el contenido de la ventana session será similar al anterior:

One-way ANOVA: notas versus método

Source DF SS MS F P

método 2 1957 978 7.44 0.006

Error 15 1971 131

Total 17 3928

S = 11.46 R-Sq = 49.81% R-Sq(adj) = 43.12%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ------+---------+---------+---------+---

1 6 62.33 16.54 (-------*-------)

2 7 86.86 8.07 (------*-------)

3 5 73.60 7.30 (--------*--------)

------+---------+---------+---------+---

60 72 84 96

Pooled StDev = 11.46

Es posible convertir datos de grupos que aparecen en varias columnas a datos en dos

columnas, esto se llama hacer un stack, ver el ejemplo 2.1.

Page 275: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 263

10.2 Comparaciones Múltiples

Una vez que se ha rechazado que todos los grupos son iguales hay que determinar

cuáles de ellos son comparables entre si. Existen muchos métodos para hacer estas

comparaciones, pero los métodos más usados son: Tukey y Fisher. Todos los métodos

son similares y aplican el siguiente criterio:

Los Grupos i y j son comparables entre ellos, si se cumple:

| media del Grupo i -Media del Grupo j | < valor crítico

La diferencia entre ellos está en la manera como se calcula el valor crítico.

En MINITAB las pruebas de comparaciones múltiples se obtienen al oprimir el

botón Comparisons de Oneway. Aparece la ventana de diálogo que se muestra en la

figura 10.6

En el método de Tukey, el valor crítico está dado por:

ji nns

Q 11

2

donde: ni es el tamaño del i-ésimo grupo y, nj es el tamaño del j-ésimo grupo, s es igual a

la desviación estándar combinada de los grupos y es igual a la raíz cuadrada del cuadrado

medio del error (MSE), y Q es el percentil de 100% de la distribución del rango

estudentizado con parámetros k-1 y n-k..

En el método de Fisher, el valor crítico está dado por:

ji

knnn

st11

),2/(

Aquí, t(/2,n-k) representa el valor de la distribución t tal que, el área a la derecha es /2.

Page 276: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 264

Figura 10.6. Ventana de diálogo para la opción comparisons de one-way.

Los resultados para los datos del ejemplo anterior serán como sigue:

Tukey 95% Simultaneous Confidence Intervals

All Pairwise Comparisons among Levels of método

Individual confidence level = 97.97%

método = 1 subtracted from:

método Lower Center Upper -----+---------+---------+---------+----

2 7.97 24.52 41.08 (-------*--------)

3 -6.75 11.27 29.28 (--------*--------)

-----+---------+---------+---------+----

-20 0 20 40

método = 2 subtracted from:

método Lower Center Upper -----+---------+---------+---------+----

3 -30.68 -13.26 4.16 (-------*--------)

-----+---------+---------+---------+----

-20 0 20 40

Fisher 95% Individual Confidence Intervals

All Pairwise Comparisons among Levels of método

Simultaneous confidence level = 88.31%

Page 277: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 265

método = 1 subtracted from:

método Lower Center Upper ----+---------+---------+---------+-----

2 10.93 24.52 38.12 (------*------)

3 -3.53 11.27 26.06 (-------*------)

----+---------+---------+---------+-----

-20 0 20 40

método = 2 subtracted from:

método Lower Center Upper ----+---------+---------+---------+-----

3 -27.56 -13.26 1.05 (------*-------)

----+---------+---------+---------+-----

-20 0 20 40

Interpretación: Por cada combinación de grupos aparecen los limites inferiores y

superiores de los intervalos de confianza para la diferencia poblacional de las dos

medias. Si los limites de los intervalos son de signos distintos entonces los grupos son

comparables de lo contario no. Básicamente esto equivale a ver si CERO está contenido o

no en el intervalo.

En este ejemplo los métodos de Tukey y Fisher llevan a la conclusión que los métodos

de enseñanza A y C son comparables al igual que B y C pero A y B no lo son. Hay un

nivel superior formado por los métodos B y C y un nivel inferior formado por C y A. Notar

que C aparece en ambos niveles.

Ejemplo 10.2. Los siguientes datos representan los tiempos de sobrevivencia a varios

tipos de cáncer, después que se lo ha diagnosticado Estómago Pulmón Colon Ovario Seno

248 124 1234 81 1235

377 42 89 461 24

189 25 201 20 1581

1843 45 356 450 1166

180 412 2970 246 40

537 51 456 166 727

519 1112 63 3808

455 46 64 791

406 103 155 1804

365 876 859 3460

942 146 151 719

776 340 166

372 396 37

163 223

101 138

20 72

283 245

Hacer un análisis de varianza para probar si hay igual tiempo de sobrevivencia para los

diversos tipos de cáncer. Aplicar los métodos de comparaciones múltiples de Fisher y

Tukey para identificar los tipos de cáncer con tiempos de sobrevivencia similares.

Page 278: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 266

Solución:

La hipótesis nula es Ho: Los tiempos promedios de sobrevivencia de los pacientes

diagnosticados con cáncer de estómago, pulmón, colon, ovario y seno son iguales.

La hipotesis alterna es Ha: Al menos uno de los tipos de cáncer tiene tiempo de

sobrevivencia promedio distinto a los otros.

Primero se entran los datos en dos columnas: Sobrevivencia, que contiene los tiempos de

sobrevivencia y Organo, que contiene los órganos donde el cáncer es detectado. Luego se

sigue la secuencia Stat ANOVA One-Way , y oprimiendo el botón comparisons se

obtiene los siguientes resultados en la ventana session:

One-way ANOVA: tiempo versus cancer

Source DF SS MS F P

cancer 4 11535761 2883940 6.43 0.000

Error 59 26448144 448274

Total 63 37983905

S = 669.5 R-Sq = 30.37% R-Sq(adj) = 25.65%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

colon 6 884.3 1098.6 (----------*----------)

estomago 17 457.4 427.2 (-----*------)

ovario 17 211.6 209.9 (-----*------)

pulmon 13 286.0 346.3 (-------*------)

seno 11 1395.9 1239.0 (-------*-------)

--+---------+---------+---------+-------

0 500 1000 1500

Pooled StDev = 669.5

Tukey 95% Simultaneous Confidence Intervals

All Pairwise Comparisons among Levels of cancer

Individual confidence level = 99.34%

cancer = colon subtracted from:

cancer Lower Center Upper ---------+---------+---------+---------+

estomago -1321.7 -426.9 467.8 (--------*--------)

ovario -1567.5 -672.7 222.0 (--------*--------)

pulmon -1528.3 -598.3 331.6 (--------*--------)

seno -444.7 511.6 1467.9 (--------*---------)

---------+---------+---------+---------+

-1000 0 1000 2000

cancer = estomago subtracted from:

cancer Lower Center Upper ---------+---------+---------+---------+

ovario -892.1 -245.8 400.5 (------*-----)

pulmon -865.6 -171.4 522.8 (------*------)

seno 209.4 938.5 1667.6 (------*-------)

---------+---------+---------+---------+

-1000 0 1000 2000

Page 279: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 267

cancer = ovario subtracted from:

cancer Lower Center Upper ---------+---------+---------+---------+

pulmon -619.8 74.4 768.6 (------*------)

seno 455.2 1184.3 1913.4 (------*------)

---------+---------+---------+---------+

-1000 0 1000 2000

cancer = pulmon subtracted from:

cancer Lower Center Upper ---------+---------+---------+---------+

seno 338.0 1109.9 1881.8 (-------*-------)

---------+---------+---------+---------+

-1000 0 1000 2000

Fisher 95% Individual Confidence Intervals

All Pairwise Comparisons among Levels of cancer

Simultaneous confidence level = 72.17%

cancer = colon subtracted from:

cancer Lower Center Upper -------+---------+---------+---------+--

estomago -1063.1 -426.9 209.3 (------*-----)

ovario -1308.9 -672.7 -36.6 (-----*------)

pulmon -1259.6 -598.3 62.9 (------*------)

seno -168.4 511.6 1191.5 (------*------)

-------+---------+---------+---------+--

-1000 0 1000 2000

cancer = estomago subtracted from:

cancer Lower Center Upper -------+---------+---------+---------+--

ovario -705.3 -245.8 213.7 (----*---)

pulmon -665.0 -171.4 322.2 (----*----)

seno 420.1 938.5 1456.9 (----*-----)

-------+---------+---------+---------+--

-1000 0 1000 2000

cancer = ovario subtracted from:

cancer Lower Center Upper -------+---------+---------+---------+--

pulmon -419.2 74.4 568.0 (----*----)

seno 665.9 1184.3 1702.7 (----*----)

-------+---------+---------+---------+--

-1000 0 1000 2000

cancer = pulmon subtracted from:

cancer Lower Center Upper -------+---------+---------+---------+--

seno 561.1 1109.9 1658.8 (----*-----)

-------+---------+---------+---------+--

-1000 0 1000 2000

Page 280: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 268

Interpretación:

El "P-value" de la prueba de F es .0000, lo cual sugiere que la hipótesis nula se rechaza y

se concluye que hay suficiente evidencia estadística para afirmar que al menos uno de los

tipos de cáncer tiene tiempo de sobrevivencia promedio distinto a los otros.

De acuerdo al método de Tukey:

El tiempo promedio de sobrevivencia para cáncer de estómago es similar al cáncer al

pulmón, al colon y al ovario, pero no al seno.

El tiempo promedio de sobrevivencia para cáncer de pulmon es similar al cáncer al

estómago y al colon, pero no al ovario, ni al seno.

El tiempo promedio de sobrevivencia para cáncer de colon es similar al cáncer al

estómago, al pulmón y al ovario, pero no al seno.

El tiempo promedio de sobrevivencia para cáncer de ovarios es similar al cáncer al

estómago, al colon, al pulmón, y al seno.

El tiempo promedio de sobrevivencia para cáncer de senos es similar al cáncer a los

ovarios, pero no al estómago, ni al pulmón, ni al colon.

En resumen: Los cáncer al pulmón, estómago, colon y ovarios tienen tiempos de

sobrevivencia similares, formado una categoría inferior. Los cáncer de ovarios y senos

tienen tiempos promedios de sobrevivencias similares, formando una categoría superior.

De acuerdo al método de Fisher:

Hay un sólo cambio con respecto al método de Tukey y es que los tiempos promedios de

sobrevivencia de cáncer de pulmón y ovarios son similares.

En resumen: Los cáncer al pulmón, estómago y colon tienen tiempos de sobrevivencia

similares y forman una categoría inferior. Los cáncer al estómago, colon y ovarios tienen

tiempos de sobrevivencia similares y forman una categoría intermedia. Los cáncer de

ovarios y senos tienen tiempos promedios de sobrevivencias similares y forman la

categoría superior.

10.3 Diseños Experimentales de clasificación Doble

En este caso se trata de comparar grupos (métodos o tratamientos) pero, tomando en

cuenta un segundo factor el cual podría afectar la comparación de los mismos. Los datos

de un experimento de clasificación doble con k grupos, B bloques y con dos observaciones

por celdas, pueden ser representados de la siguiente manera:

Grupo 1 Grupo 2 … Grupo k

Bloque 1 Y111

Y112

Y211

Y212

… Yk11

Yk12

Bloque 2 Y121

Y122

Y221

Y222

… Yk21

Yk22

… … …

… … …

Bloque B Y1B1 Y2B1 … YkB1

Page 281: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 269

Y1B2 Y2B2 YkB2

Hay dos pruebas de hipótesis que se pueden hacer:

Ho: 1 = 2 = 3 = … = k ( Los k grupos tienen medias poblacionales iguales) versus

Ha: Al menos un grupo tiene distinta media poblacional que los otros

y,

Ho: 1= 2=3=…=B ( Los B bloques tienen medias poblacionales iguales) versus

Ha: Al menos un bloque tiene media poblacional distinta al de los otros.

La prueba estadística correspondiente es la prueba de F, la cual es obtenida al completar la

tabla del análisis de varianza.

La tabla del análisis de varianza para un diseño con k grupos, b bloques y c observaciones

en cada celda tiene el siguiente formato:

Fuentes de

Variación

Grados de

Libertad

Suma de

Cuadrados

Cuadrados Medios F

Grupos k-1 SSG MSG=SSG/k-1 MSG/MSE

MSB/MSE Bloques b-1 SSB MSB=SSB/b-1

Error kbc-k-b+1 SSE MSE=SSE/kbc-k-b+1

Total kbc-1 SST

Donde MSG es el cuadrado medio de Grupos, y MSB es el cuadrado medio de Bloques y

MSE es el cuadrado medio del Error. Si la F calculada es mayor que una F con k-1 y kbc-

k-b+1 al nivel de significación entonces, se rechaza la hipótesis nula de igualdad de

medias de grupos, y si la F calculada es mayor que una F con b-1 y kbc-k-b+1 al nivel de

significación entonces se rechaza la hipótesis nula de igualdad de medias de bloques.

MINITAB da el “p-value” para ambas prueba de F y con ese valor se puede llegar

a tomar una decisión.

La opción Two-Way se usa para analizar diseños de clasificación doble siempre y cuando

haya igual número de observaciones por celda.

Ejemplo 10.3 Se trata de comparar 3 métodos de enseñanza (a, b y c) pero tomando en

cuenta además el factor turno (m, t y n), es decir el tiempo del día al cual se da clase. Los

datos son como siguen:

a b c

m 80.000 65.000 66.000

78.000 79.000 49.000

Page 282: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 270

t 69.000 50.000 34.000

72.000 58.000 58.000

n 73.000 62.000 46.000

74.000 65.000 59.000

Solución:

Primero se entran los datos en tres columnas:

nota método turno

80 a m

78 a m

69 a t

72 a t

73 a n

74 a n

65 b m

79 b m

50 b t

58 b t

62 b n

65 b n

66 c m

49 c m

34 c t

58 c t

46 c n

59 c n

Las hipótesis que se deben probar son:

Ho: No hay diferencia entre los tres métodos de enseñanza

Ha: Al menos uno de los métodos de enseñanza tiene un rendimiento distinto a los otros, y

Ho: Hay igual rendimiento de los estudiantes en los tres turnos

Ha: En al menos uno de los turnos los estudiantes rinden distinto a los otros dos turnos.

Eligiendo la secuencia Stat Anova Two-Way se obtiene la ventana de diálogo de la figura

10.7.

Notar que la opción Fit Additive model debe ser seleccionada, de lo contario se ajustará

un modelo con Interacción que será discutido en la siguiente sección.

Page 283: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 271

Figura 10.7. Ventana de diálogo para la opción two-way del menú ANOVA.

Los resultados son los siguientes:

Two-way ANOVA: nota versus turno, método

Source DF SS MS F P

turno 2 481.33 240.667 4.41 0.034

método 2 1496.33 748.167 13.72 0.001

Error 13 708.83 54.526

Total 17 2686.50

S = 7.384 R-Sq = 73.61% R-Sq(adj) = 65.50%

Individual 95% CIs For Mean Based on

Pooled StDev

turno Mean --------+---------+---------+---------+-

m 69.5000 (--------*---------)

n 63.1667 (--------*---------)

t 56.8333 (--------*--------)

--------+---------+---------+---------+-

56.0 63.0 70.0 77.0

Individual 95% CIs For Mean Based on

Pooled StDev

método Mean -----+---------+---------+---------+----

a 74.3333 (-----*------)

b 63.1667 (-----*------)

c 52.0000 (------*------)

-----+---------+---------+---------+----

50 60 70 80

Page 284: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 272

Una mejor alternativa es usar la opción General Linear Model del menú ANOVA la cual

permite analizar diseños de clasificación doble aún cuando no haya igual número de

observaciones por celda y además tiene una opción que permite hacer comparaciones

múltiples. Para el ejemplo anterior la ventana de diálogo lucirá así:

Figura 10.8 Ventana de diálogo para la opción General Linear Model de ANOVA.

Los resultados obtenidos serán:

General Linear Model: nota versus método, turno

Factor Type Levels Values

método fixed 3 a, b, c

turno fixed 3 m, n, t

Analysis of Variance for nota, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P

método 2 1496.33 1496.33 748.17 13.72 0.001

turno 2 481.33 481.33 240.67 4.41 0.034

Error 13 708.83 708.83 54.53

Total 17 2686.50

S = 7.38415 R-Sq = 73.61% R-Sq(adj) = 65.50

Page 285: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 273

Interpretación: Viendo los “P-values” correpondientes a ambos factores se llega a la

conclusión de que en al menos uno de los métodos de enseñanza el rendimiento es distinto

y que en al menos uno de los turnos los estudiantes rinden distinto a los de los otros dos

turnos.

Oprimiendo el botón comparisons se puede hacer comparaciones de medias de los dos

factores. La ventana de diálogo se muestra en la siguiente figura:

Figura 10.9. Ventana de diálogo para hacer comparaciones múltiples usando General

Linear Model.

y los resultados serán:

Tukey 95.0% Simultaneous Confidence Intervals

Response Variable Nota

All Pairwise Comparisons among Levels of Método

Método = a subtracted from:

Método Lower Center Upper ----+---------+---------+---------+--

b -22.41 -11.17 0.08 (----------*----------)

c -33.58 -22.33 -11.09 (-----------*----------)

----+---------+---------+---------+--

-30 -20 -10 0

Page 286: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 274

Método = b subtracted from:

Método Lower Center Upper ----+---------+---------+---------+--

c -22.41 -11.17 0.07766 (----------*----------)

----+---------+---------+---------+--

-30 -20 -10 0

Tukey Simultaneous Tests

Response Variable Nota

All Pairwise Comparisons among Levels of Método

Método = a subtracted from:

Difference SE of Adjusted

Método of Means Difference T-Value P-Value

b -11.17 4.263 -2.619 0.0520

c -22.33 4.263 -5.239 0.0004

Método = b subtracted from:

Difference SE of Adjusted

Método of Means Difference T-Value P-Value

c -11.17 4.263 -2.619 0.0520

Tukey 95.0% Simultaneous Confidence Intervals

Response Variable Nota

All Pairwise Comparisons among Levels of Turno

Turno = m subtracted from:

Turno Lower Center Upper +---------+---------+---------+------

n -17.58 -6.33 4.911 (-------------*-------------)

t -23.91 -12.67 -1.422 (-------------*-------------)

+---------+---------+---------+------

-24.0 -16.0 -8.0 0.0

Turno = n subtracted from:

Turno Lower Center Upper +---------+---------+---------+------

t -17.58 -6.333 4.911 (-------------*-------------)

+---------+---------+---------+------

-24.0 -16.0 -8.0 0.0

Tukey Simultaneous Tests

Response Variable Nota

All Pairwise Comparisons among Levels of Turno

Turno = m subtracted from:

Difference SE of Adjusted

Turno of Means Difference T-Value P-Value

n -6.33 4.263 -1.486 0.3293

t -12.67 4.263 -2.971 0.0273

Turno = n subtracted from:

Difference SE of Adjusted

Turno of Means Difference T-Value P-Value

t -6.333 4.263 -1.486 0.3293

Page 287: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 275

Interpretación:

El método A es comparable con el B, pero no con el C. El método B es comparable con

el C. El turno de la mañana es comparable con el turno de la noche pero no con el de la

tarde. El turno de la noche es comparable con el de la tarde.

10.4 Modelos con Interacción

En un diseño de clasificación doble, algunas veces es conveniente cotejar si existe

un efecto combinado de ambos factores en el comportamiento de la variable de respuesta,

este efecto es llamado Interacción.

El efecto interacción puede ser detectado gráficamente, usando los llamados plots de

interacción. La ventana de diálogo de la opción Interaction Plots de ANOVA para los

datos del ejemplo anterior se completará como se muestra en la figura 10.10. Los plots de

interacción para los datos del ejemplo 10.3 son mostrados en la figura 10.11.

Figura 10.10. Ventana de diálogo para hacer los plots de interacción para el ejemplo 10.3

Page 288: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 276

Figura 10.11 Interacción plots para el ejemplo 10.3

Interpretación: Si hay cierto paralelismo entre las líneas entonces, hay muy poca

interacción. Si las lineas se cruzan bastante entonces hay bastante interacción. En el

ejemplo se puede ver que no hay interacción.

En este caso además de las hipótesis acerca de igualdad de medias de grupos y de

igualdad de medias de bloques hay una tercera hipótesis referente a Interacción:

Ho: No hay interacción entre grupos y bloques

Ha: Si hay interacción.

En MINITAB la tabla de Análisis de varianza es obtenida usando two-way con la

opción Fit Additve Model sin ser elegida. Los resultados son como siguen:

Page 289: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 277

MTB > Twoway 'nota' 'turno' 'metodo'.

Two-way Analysis of Variance

Analysis of Variance for nota

Source DF SS MS F P

turno 2 481.3 240.7 3.29 0.085

método 2 1496.3 748.2 10.23 0.005

Interaction 4 50.3 12.6 0.17 0.947

Error 9 658.5 73.2

Total 17 2686.5

Otra alternativa es usar General Linear Model. La interacción está representada en el

modelo por la expresión método*turno. Los resultados son como siguen: MTB > GLM 'nota' = metodo turno método*turno;

SUBC> Brief 2 .

General Linear Model

Factor Type Levels Values

metodo fixed 3 a b c

turno fixed 3 m n t

Analysis of Variance for nota, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P

método 2 1496.33 1496.33 748.17 10.23 0.005

turno 2 481.33 481.33 240.67 3.29 0.085

método*turno 4 50.33 50.33 12.58 0.17 0.947

Error 9 658.50 658.50 73.17

Total 17 2686.50

Interpretación: El valor del "P-value" para Interacción es .947 que lleva a concluir que

se debe aceptar la hipótesis nula de que no existe interacción entre los factores, lo cual ya

se habia concluido gráficamente.

Page 290: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 278

EJERCICIOS

1. Se toma una muestra de la produccion de 36 fincas donde se han sembrado 4

variedades de maíz y se observan los siguientes resultados:

VAR 1 VAR 2 VAR 3 VAR 4

29.5 30.1 23.7 35.7

24.7 29.0 26.4 36.9

28.0 26.6 26.5 35.0

31.5 36.4 37.5 36.5

39.8 36.6 34.6 34.9

29.8 35.3 35.6 48.2

33.8 54.7 39.7 41.3

37.7 53.2 46.2 43.3

35.5 31.4 34.2 51.7

a) ¿Habrá diferencia entre las producciones promedios de cada variedad de maíz?

Escribir las hipótesis y comentar sus resultados.

b) Hacer Boxplots para comparar las producciones promedio por variedad Comentar

la gráfica.

2. Los siguientes datos representan los niveles de colesterol para consumidores de tres

tipos de carne:

Res Cerdo Pollo/Mariscos

241 245 249

218 197 222

261 199 221

190 162 215

238 191 207

256 182 193

248 160 205

224 180 227

225 208 203

238 227 180

178 174 200

185 209 154

194 225 211

224 271 204

221 187 169

a) ¿Habrá diferencia de niveles de colesterol entre los tres tipos de consumidores?.

Escribir las hipótesis y comentar sus resultados.

b) Hacer Boxplots para comparar los niveles de colesterol por tipo de consumidor

Comentar la gráfica.

3. Se hace un experimento para probar los efectos de 5 diferentes dietas en pavos. Se

asignan al azar 6 pavos a cada una de las 5 dietas y, se los alimentó por un período fijo

Page 291: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 279

de tiempo. Luego se registró la ganancia en peso en libras. Los resultados son como

siguen.

dieta a dieta b dieta c dieta d dieta e

4.10000 5.20000 6.30000 6.50000 9.50000

3.30000 4.80000 6.50000 6.80000 9.60000

3.10000 4.50000 7.20000 7.30000 9.20000

4.20000 6.80000 7.40000 7.50000 9.10000

3.60000 5.50000 7.80000 6.90000 9.80000

4.40000 6.20000 6.70000 7.00000 9.10000

a) Probar si la ganancia en peso es la misma en todas las dietas.Justificar su

contestación.

b) Hacer comparaciones múltiples para detectar qué dietas producen igual ganancia

en peso. Comentar sus resultados.

4. Los siguientes datos representas los niveles de Sarcodiosis en 5 grupos de pacientes

A B C D E

102 64 130 82 123

74 56 136 51 113

63 42 137 72 138

67 39 107 77 126

68 29 155 45 135

58 42 137 85 138

77 61 138 80 124

55 67 120 51 102

80 40 138 76 125

78 89 165 95 103

87 47 138 82 124

89 44 163 92 128

a) Probar si los niveles de sarcodiosis son los mismos para los 5 grupos.Justificar su

contestación.

b) Hacer comparaciones múltiples para detectar qué tipos de pacientes tienen iguales

niveles de sarcodiosis. Comentar sus resultados

5. Se toma una muestra de los salarios y de los años de educacion de 48 empleados de 4

departamentos de una cierta empresa y se observan los siguientes resultados:

Filas: EDUC Columnas: DEPT

1 2 3 4

0 29548 30115 23654 35487

24749 28985 26452 36487

27985 26578 26548 34987

Educ: Años de educacion después de la escuela superior

4 31528 36431 37548 36512

39828 36571 34632 34869

29876 35468 35631 48184

Dept: 1 = ventas, 2 = compras, 3 = publicidad, y 4 = ingenieria.

Page 292: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 280

6 33791 54679 39743 41255

37674 53234 46211 43331

35467 31425 34231 51698

10 28985 24782 36578 65487

32920 56326 68425 58695

31889 47536 69246 54899

a) ¿Habrá diferencia entre los salarios promedios de cada departamento?

b) Hacer Boxplots para comparar los salarios promedios por departamentos.

Comentar la gráfica

c) Hacer comparaciones múltiples para comparar los salarios promedios por

departamento. ¿A qué conclusión se llegará?

d) Hacer un análisis de clasificación doble para ver si la variable educación afecta a la

comparación de los salarios por departamentos. ¿A qué conclusiones se llegará?

6. Se seleccionaron al azar ministros de 3 religiones: 8 metodistas, 10 católicos y 9

pentecostales y, se desea probar si poseen el mismo conocimiento sobre enfermedades

mentales. Los resultados de un test para medir sus conocimientos son los siguientes: Metodista Católico Pentecostal

32 32 28

30 32 21

30 26 15

29 26 15

26 22 14

23 20 14

18 14 09

19 16 11

14 08

15

a) Probar si los ministros de las 3 religiones poseen igual conocimiento de

enfermedades mentales.

b) Usar comparaciones múltiples para comparar los 3 grupos. Comentar sus

resultados.

c) Hacer un boxplot para comparar los 3 grupos. Comentar su gráfica

7. Una panadería desea saber si hay un efecto de la posición ( abajo, en medio, arriba)

en que se colocan en los anaqueles, y del ancho de los anaqueles (normal, bastante

ancho), en la venta de sus panes. Se registran el número de bolsas de panes vendidas

diariamente en 24 supermercados, y los datos que se obtienen son:

Posición Ancho del anaquel

Normal Bastante Ancho

Abajo 47 43

50 55

46 40

41 38

Page 293: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 10 Diseños Experimentales 281

En Medio 62 68

65 70

67 71

65 69

Arriba 41 39

35 37

42 46

40 45

a) Hacer una prueba de análisis de varianza para probar las hipótesis de que los

promedios de ventas son los misnos para cada posición . Comentar sus resultados

b) Hacer una gráfica de boxplots para comparar los promedios de ventas según la

posición, comentar su gráfica.

c) Hacer comparaciones de medias para identificar las posiciones en los anaqueles

que producen en promedio iguales ventas de los panes.

d) Hacer un diseño de clasificación doble para determinar si hay un efecto del ancho

del anaquel en las ventas promedio según la posición. ¿A qué conclusión se

llegará?

Page 294: Estadistica con Mitab.pdf

CAPÍTULO 11

PRUEBAS NOPARAMÉTRICAS

En las pruebas estadísticas que se han discutido hasta ahora se hacen suposiciones

acerca de la forma como se distribuye la población, la que por lo general se asume que se

distribuye normalmente. De no haber normalidad las pruebas estadísticas no son válidas.

Como se ha visto en el capítulo 5 la normalidad de la población se puede cotejar en base a

la muestra tomada. Frecuentemente se arriva a la conclusión de que no hay normalidad y

en consecuencia las pruebas que se hacen no son muy confiables, pero a pesar de todo se

usan.

En este capítulo se estudiarán las pruebas noparamétricas, las cuales no requieren

asumir normalidad de la población y que en su mayoría se basan en el ordenamiento de los

datos. Todas las pruebas vistas en este capítulo requieren que la población sea contínua. El

parámetro que se usa para hacer las pruebas estadísticas es la Mediana y no la Media.

Existen una serie de pruebas noparámetricas, nosotros sólo veremos las más usadas.

En MINITAB, las pruebas noparamétricas aparecen cuando se elige la secuencia

STAT Noparametrics.

11.1 Pruebas Noparamétricas para una sola muestra

11.1.1 Prueba de los Signos

Se usa para hacer pruebas de hipótesis acerca de la mediana de una población de una

variable continua. Es una alternativa a la prueba de Z o de t para la media poblacional.

La hipótesis nula es Ho: La Mediana poblacional es igual a un valor dado y la Hipótesis

alterna Ha: La mediana es menor (mayor ó distinta ) del valor dado.

La prueba estadística está basada en la distribución Binomial con probabilidad de

éxito p=1/2, puesto que la probabilidad de que un dato sea mayor o menor que la mediana

es ½. Para calcularla se determinan las diferencias de los datos con respecto al valor dado

de la mediana y se cuenta los signos positivos y negativos.

Cuando la hipótesis alterna es "mayor que" y el número de diferencias positivas es

mayor que las diferencias negativas entonces, el "p-value" se calcula por nc

i i

nP )

2

1(

0

1

,

donde c es el número de diferencias positivas y, n es igual al número de datos pero, si hay

datos de valor igual a la mediana que se asume en la hipótesis nula entonces, n es igual al

número de datos menos la cantidad de datos iguales a la mediana asumida, cuando el

Page 295: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 280

número de diferencias positivas es menor que el número de diferencias negativas entonces

el "p-value" es igual a nn

ci i

nP )

2

1(2

.

Si la hipótesis alterna es "menor que", y el número de diferencias positivas es mayor

que el número de diferencias negativas entonces "p-value"=P2 en caso contrario "p-

value"=P1. Cuando la hipótesis alterna es de dos lados y el número de diferencias

positivas son mayores que el número de diferencias negativas entonces, el ”p-value"=2P2,

si hay menor número de diferencias positivas entonces "p-value"=2P1, y si hay igual

número de diferencias positivas y negativas entonces, "p-value"=1.0.

Si n>20 se puede usar aproximación Normal a una Binomial con p=q=.5, para

calcular los "p-values". Es decir,

n

nXZ

5.

.5.

La aproximación mejora si incluímos el factor de corrección por continuidad igual a 1/2.

En MINITAB, para hacer la prueba de los signos, se sigue la secuencia STAT

Noparametrics 1-sample Sign.

Ejemplo 11.1 Probar si los datos del tiempo de vida después del transplante del ejemplo

7.5 sugieren que la mediana sea distinta de 5.

Solución:

La hipótesis nula Ho, es que la mediana del tiempo de sobrevivencia es igual a 5

años y, la hipótesis alterna Ha, es que la mediana de los tiempos de sobrevivencia es

distinta de 5 años.

La ventana de diálogo se completará como se muestra en la figura 11.1. En la

ventana session aparecerán los siguientes resultados:

Sign Test for Median: tiempo

Sign test of median = 5.000 versus not = 5.000

N Below Equal Above P Median

tiempo 12 7 0 5 0.7744 3.700

Interpretación: Como el "P-value" es mayor que .05 se aceptará la hipótesis nula. Es

decir que la mediana del tiempo de vida después del transplante es 5.0. En este ejemplo el

"P-value" es 2 veces la probabilidad de que una binomial con n=12 y p=.5 sea menor o

igual que 5, ya que el número de diferencias positivas es menor que el de las negativas.

Page 296: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 281

Si usamos aproximación normal a la binomial el P-value=2P(X5)=2P(Z<

125.

65.5 )=2P(Z<-.2886)=2(.38864)=.77728. El valor aproximado está bastante cerca al

valor exacto a pesar de que el tamaño de muestra es n=12 menor que 20.

Figura 11.1. Ventana de diálogo para la prueba de signo del ejemplo 11.1

11.1.2 La Prueba de Rangos con signos de Wilcoxon

Al igual que la prueba de los signos, es usada para hacer pruebas de hipótesis acerca

de la mediana. La prueba estadística se basa en el estadístico de Wilcoxon (1945), el cual

se calcula de la siguiente manera:

i) Se resta de cada dato el valor de la mediana que se considera en la hipótesis nula.

ii) Se calcula los rangos de las diferencias sin tomar en cuenta el signo de las mismas ( o

sea en valor absoluto). En el caso de haber empate se asigna un rango promedio a

todas las diferencias empatadas es decir; se les asigna el rango: (menor rango del

grupo del empate + mayor rango del grupo del empate)/2.

iii) Finalmente el estadístico W de Wilcoxon será la suma de los rangos correspondientes

a las diferencias positivas.

Cuando la hipótesis alterna es "mayor que" y la suma de los rangos

correspondientes a las diferencias positivas es mayor que el de las diferencias negativas,

entonces el "p-value" se calcula por P1=P(WWc), donde Wc es el valor calculado de la

prueba de Wilcoxon. Cuando la suma de los rangos correspondientes a las diferencias

Page 297: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 282

positivas es menor que el de las diferencias negativas, entonces el "p-value" se calcula por

P2=P(WWc).

Si la hipótesis alterna es "menor que", y la suma de los rangos correspondientes a

las diferencias positivas es mayor que el de las diferencias negativas, entonces "p-

value"=P2. En caso contrario "p-value"=P1.

Cuando la hipótesis alterna es de dos lados y la suma de los rangos correspondientes

a las diferencias positivas es mayor que el de las diferencias negativas, entonces el ”p-

value"=2P2, si la suma de los rangos correspondientes a las diferencias positivas es la

menor entonces "p-value"=2P1 y si las sumas de los rangos correpondientes a las

diferencias positivas y negativas son iguales entonces "p-value"=1.0.

Sea n, número de diferencias distintas de cero, es decir se está considerando que

todos los valores de la muestra son distintos que el valor de la mediana que aparece en la

hipótesis nula. Si n.16 entonces, los "p-values" se encuentran usando tablas de la

distribucion del estadístico de Wilcoxon.

Cuando n es mayor que 16, se usa aproximación Normal para hallar el "P-value" de

la prueba pués, se puede mostrar que el estadístico de Wilcoxon se aproxima a una normal

con media igual a n(n+1)/4, y varianza n(n+1)(2n+1)/24 , cuando no hay empates. Más

especificamente, si no hay empates se tiene que:

)1,0(~

24

)12)(1(

4

)1(

Nnnn

nnW

z

No hay que olvidarse de aplicar un factor de corrección por continuidad igual a 1/2, pues

se está aproximando una distribución discreta por una contínua. Si hubieran empates

entonces, la varianza sufre una ligera moddificación.y se aplica:

)1,0(~

224

)12)(1(

4

)1(

1

3N

ttnnn

nnW

zg

i

ii

donde, g es el número de grupos empatados y ti es el tamaño del i-ésimo grupo empatado.

En MINITAB, para hacer la prueba de Wilcoxon se sigue la secuencia STAT

Noparametrics 1-Sample Wilcoxon.

Ejemplo 11.2. Aplicar la prueba de Wilcoxon a los datos del ejemplo anterior.

Solución: La ventana de diálogo se completará como se muestra en la figura 11.2

Los resultados en la ventana session serán:

Page 298: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 283

Wilcoxon Signed Rank CI: tiempo

Confidence

Estimated Achieved Interval

N Median Confidence Lower Upper

tiempo 12 4.63 94.5 1.85 7.30

Figura 11.2 . La ventana de diálogo para la prueba de Wilcoxon del ejemplo 11.2

Interpretación: Como el “P-value”=.906 es mayor que .05 no se rechaza la hipótesis

nula. Es decir, hay suficiente evidencia estadística para concluir que la mediana de los

tiempos de vida es 5.0.

La media del estadístico de Wilcoxon es 39 y su varianza es 162.5. Como la hipótesis

alterna es de dos lados entonces, el "P-value" es dos veces la probabilidad de que W37.

Usando aproximación normal para calcular el “P-value”, después de aplicar el factor de

correción por continuidad y estandarizar, resulta que el “P-value”=2P(Z<-

1.5/12.7475)=2(0.4532)=0.9064.

11.2 Pruebas Noparamétricas para muestras pareadas.

La prueba de los signos y la prueba de Wilcoxon se pueden usar también como una

prueba alterna a la prueba de t para comparaciones pareadas. En este caso se aplica la

Page 299: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 284

prueba noparamétrica a las diferencias entre los dos grupos. En el siguiente ejemplo se

ilustra la prueba de Wilcoxon para comparar dos muestras pareadas.

Ejemplo 11.3. Se desea probar si el rendimiento en la prueba de aprovechamiento

matemático es mejor que en la prueba de aptitud matemática. Para ello se toma una

muestra de los resultados de 40 estudiantes:

Row aprovech aptitud diferenc

1 658 598 60

2 562 623 -61

3 679 587 92

4 731 644 87

5 710 630 80

6 631 616 15

7 663 682 -19

8 654 598 56

9 565 673 -108

10 654 567 87

11 669 694 -25

12 710 647 63

13 720 674 46

14 700 609 91

15 657 644 13

16 721 720 1

17 795 673 122

18 635 673 -38

19 617 694 -77

20 580 619 -39

21 638 651 -13

22 642 688 -46

23 704 661 43

24 767 674 93

25 641 660 -19

26 721 705 16

27 625 643 -18

28 694 780 -86

29 615 619 -4

30 617 609 8

31 623 457 166

32 689 662 27

33 689 641 48

34 683 717 -34

35 702 624 78

36 694 630 64

37 729 664 65

38 710 598 112

39 689 673 16

40 741 636 105

Wilcoxon Signed Rank Test: diferenc

Test of median = 0.000000 versus median > 0.000000

N

for Wilcoxon Estimated

N Test Statistic P Median

diferenc 40 40 591.0 0.008 27.75

Page 300: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 285

Interpretación: Como el "P-value" es menor que .05, se rechaza la hipótesis nula y se concluye

que hay evidencia estadística de que el rendimiento en aprovechamiento es mejor que en aptitud.

11.3. La prueba de Mann-Withney para dos muestras independientes

Se usa cuando se quiere comparar dos poblaciones usando muestras independientes,

es decir; es una prueba alterna a la prueba de t para comparar dos medias usando muestras

independientes. También es conocida como la prueba de suma de rangos de Wilcoxon.

La hipótesis nula es que la mediana de las dos poblaciones son iguales y la hipótesis

alterna puede ser que la mediana de la población 1 sea mayor ( menor ó distinta) de la

mediana de la población 2.

Consideremos que se ha tomado una muestra de tamaño n1 de la población 1 y de

tamaño n2 de la población 2. Para calcular la prueba estadística se combinan las dos

muestras tomadas en una sola y se calculan los rangos en orden ascendente, en caso de

datos empatados se asigna un rango promedio a ellos. Luego el estadístico W es igual a la

suma de los rangos correspondientes a la muestra tomada de la población 1. Existen

tablas para calcular los “p-values” de la prueba estadística.

Cuando tanto n1 como n2 sean mayores que 10, se puede demostrar que si no hay

empates, entonces W se distribuye aproximadamente como una normal con media

n1(n1+n2+1)/2 y varianza n1n2(n1+n2+1)/12. Es decir; cuando no hay empates:

)1,0(~

12

)1(

2

)1(

2121

211

Nnnnn

nnnW

z

No hay que olvidarse de aplicar un factor de corrección por continuidad igual a 1/2, pués

se está aproximando una distribución discreta por una continua. Cuando hay empates

entonces, la varianza es modificada.y se obtiene:

)1,0(~

)1)((1[

12

2

)1(

1 2121

3

2121

211

N

nnnn

ttnn

nn

nnnW

zg

i

ii

donde, g y ti tienen el mismo significado dado anteriormente.

En MINITAB, para hacer la prueba de Mann-Withney, se sigue la secuencia STAT

Noparametrics Mann-Withney.

Page 301: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 286

Ejemplo 11.4. Usando los datos del ejemplo 7.11 probar si el rendimiento en la prueba de

aprovechamiento matemático de los estudiantes de escuela pública y privada es el mismo.

Los datos son como siguen: privada pública

642 580

767 638

641 704

721 694

625 615

689 617

623

689

Solución: La ventana de diálogo se completará así:

Figura 11.3. Ventana de diálogo para la prueba de Mann-Whitney del ejemplo 11.4

La ventana session mostrará los siguientes resultados:

Mann-Whitney Test and CI: privada, pública

N Median

privada 6 665.5

pública 8 630.5

Point estimate for ETA1-ETA2 is 26.5

95.5 Percent CI for ETA1-ETA2 is (-47.0,104.0)

W = 56.5

Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.1556

The test is significant at 0.1551 (adjusted for ties)

Page 302: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 287

Interpretación: Como el "P-value" 0.1551 (ajustado por empates), es mayor que 0.05 se

acepta hipótesis nula. Es decir; que hay evidencia estadística para concluir que el

rendimiento en aprovechamiento matemático es el mismo para estudiantes de escuela

pública y privada.

11.4 La prueba de Kruskal-Wallis para comparar más de dos grupos

La prueba de Kruskal-Wallis, es una alternativa a la prueba F del análisis de varianza

para diseños de clasificación simple. En este caso se comparan varios grupos pero usando

la mediana de cada uno de ellos, en lugar de las medias. Es decir, la hipótesis nula es Ho:

La mediana de las k poblaciones consideradas son iguales, y la alterna Ha: Al menos una

de las poblaciones tiene mediana distinta a las otras.

La prueba estadística, denotada por H, se calcula hallando primero los rangos de

cada una de los k grupos pero, considerando que se ha combinado todos los grupos en

uno sólo. En caso de haber datos empatados se asigna un rango promedio a cada dato del

grupo empatado.

Sea Rk la suma de los rangos del grupo k, el estadístico de Kruskal-Wallis necesario

para hacer la prueba estadística se calcula por.

)1(3)1(

12

1

2

nn

R

nnH

k

i i

i

donde, n es el total de datos. Si hay empates en los datos entonces, se aplica la siguiente

modificación a H.

nn

tt

HH

g

i

ii

3

1

3

1

'

Se puede mostrar que si los tamaños de cada grupo son mayores que 5 entonces, H se

distribuye como una Chi-Cuadrado con, k-1 grados de libertad. Luego, la hipótesis nula se

rechaza si 2

1,1 kH .

Para hacer la prueba de Kruskal-Wallis en MINITAB, los datos de la variable

cuantitativa deben ir en una columna y los niveles del factor en otra. No se permite en este

caso entrar los grupos en columnas separadas.

Ejemplo 11.5. Usar la prueba de Kruskal-Wallis para comparar los métodos de enseñanza

del ejemplo 10.1

Solución:

Page 303: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 288

La hipótesis nula es Ho: Las medianas de los tres métodos de enseñanza son iguales y la

hipótesis alterna es Ha: Al menos uno de los métodos de enseñanza tiene mediana distinta

a los otros.

La ventana de diálogo se completará así:

Figura 11.4 Ventana de diálogo para la prueba de Kruskal-Wallis del ejemplo 11.5

En la ventana session se obtendrá:

Kruskal-Wallis Test: notas versus método

Kruskal-Wallis Test on notas

método N Median Ave Rank Z

1 6 61.50 5.4 -2.29

2 7 85.00 13.8 2.72

3 5 74.00 8.4 -0.54

Overall 18 9.5

H = 8.23 DF = 2 P = 0.016

H = 8.25 DF = 2 P = 0.016 (adjusted for ties)

Interpretación: Como el “P-value” es 0.016 menor que .05, se rechaza la hipótesis nula

y se concluye que los métodos no son todos iguales. Es decir; al menos uno de los métodos

tiene mediana distinta a los otros.

Page 304: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 289

11.5. El Coeficiente de Correlación de Spearman.

La correlación de Spearman mide el grado de asociación entre dos variables

cuantitativas que siguen una tendencia siempre creciente o siempre decreciente. Es decir,

es más general que el Coeficiente de correlación de Pearson, el cual asume que la relación

entre las dos variables solamente es lineal, la correlación de Spearman, en cambio se

puede calcular para relaciones exponenciales o logaritmicas entre las variables.

El coeficiente de correlación de Spearman es simplemente la correlación de Pearson

entre los rangos del los valores de las dos variables. Para hallar los ordenamientos, se usa

la opción Rank del menú Calc. Los ordenamientos se guardan en otras columnas y, luego

se halla simplemente el coeficiente de correlación usual entre éstas dos columnas usando

la opción correlación del submenú Basic Statistics del menú STAT.

Ejemplo 11.6. Calcular el coeficiente de Correlación de Spearman y compararlo con el

coeficiente de correlación de Pearson para los siguientes datos:

Años como

Realtor (X)

3 4 6 7 8 12 15 20 22 26

Casas

Vendidas(Y)

9 12 16 19 23 119 34 37 40 45

Solución:

Ordenando los datos de cada variable se obtiene:

rankx 1 2 3 4 5 6 7 8 9 10

ranky 1 2 3 4 5 10 6 7 8 9

La correlación de Spearman de las variables X e Y será igual a la correlación de

Pearson entre las variables rankx y ranky dando un valor de 0.879 lo que indica una alta

asociación entre las variables. Sin embargo; la correlación de Pearson entre las variables X

e Y da solamente 0.371, lo que indica una baja asociación lineal entre las variables. Notar

que el "outlier" 119 ha afectado grandemente al coeficiente de correlación de Pearson,

pero no ha tenido efecto sobre la correlación de Spearman.

MINITAB también incluye en el menú de Pruebas Noparamétricas a la Prueba de

Friedman para análisis de diseños en bloques al azar y la prueba de Mood.

Page 305: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 290

EJERCICIOS

1. En un hospital oncológico se llevan estadisticas acerca del tiempo de supervivencia de

pacientes de cáncer Los resultados en una muestra aleatoria de 25 pacientes fueron

los siguientes.

42 45 51 46 340 81 246 63 155 151 37 138 245 377 455 365 776 163 20 1234 201 2970 456

1235 1581

Usar una prueba noparamétrica para probar que la mediana del tiempo de

supervivencia de pacientes de cáncer, es mayor de 300 dias. Escribir las hipótesis y

comentar sus resultados.

2. Se eligen al azar 10 empleados de una empresa y se anotan sus sueldos mensuales

(en dólares

1500 1250 900 800 1450 990 1200 1900 1300 1050

Usando un nivel de significación del 10% ¿se podrá concluir que el sueldo mediana

excede a 1200?

3. El tiempo de producción (en horas) de un artículo de 15 máquinas elegidas al azar en

una gran planta de fabricación son: 5.80 6.06 5.90 5.92 5.68 6.27 6.08 6.15 5.93 5.96 5.88 5.63 6.00 5.96 5.70

A un nivel de significación de 0.05:

a) Probar si la mediana del tiempo requerido difiere de 5.8

b) Probar si la mediana es mayor a 5.8

4. Las notas de una evaluación hecha a 40 estudiantes elegidos al azar son: 78 75 52 65 68 75 52 62 73 75 77 70 50 72 66 62 77 76 74 75

68 71 70 66 68 66 67 85 82 66 72 65 71 77 67 82 65 69 82 87

a) Probar si la mediana de las notas difiere de 70. Usar = 0.05

b) Probar si la mediana de las notas es menor de 70. Usar = 0.05

5. La efectividad de Bezendrine en acelerar el rítmo cardíaco (medido en pulsaciones por

minuto), fue cotejado en 10 pacientes elegidos al azar. Cada paciente sirvió como su

propio control con la mitad de los pacientes asignados al recibir Bezendrine durante el

primer período de estudio y, la otra mitad a recibir un Placebo(solución alcalina).

Todos los pacientes fueron examinados para determinar su rítmo cardiaco, 2 horas

después de recibir el medicamento. Después de dos semanas donde no se les dio

ninguna medicina a los pacientes que habían recibido el Placebo se les dio

Bezendrine, y a la otra mitad el Placebo. Los resultados son como siguen:

Paciente Placebo Bezendrine

1 250 258

Page 306: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 291

2 271 285

3 243 245

4 252 250

5 266 268

6 272 278

7 293 280

8 296 305

9 301 319

10 298 308

Usar una prueba no paramétrica para probar la efectividad del Bezendrine. Escribir las

hipótesis correspondientes. Comparar su resultado con el de la prueba T

6. Se está estudiando la efectividad de un nuevo medicamento para reducir la presión

arterial Sistólica, el medicamento fue suministrado a 20 pacientes . Se les ha medido

la presión arterial, antes y dos horas después de suministrarles el medicamento.

Los datos se presentan en la siguiente tabla:

Sujeto pre. Inic Pre. Post sujeto pre. Inic pre. Post

1 102 103 11 118 114 2 142 140 12 144 139 3 185 182 13 136 137 4 110 108 14 130 126 5 143 140 15 121 125 6 131 129 16 151 150 7 115 111 17 137 135 8 124 126 18 142 136 9 150 145 19 120 117

10 108 108 20 153 149

A un nivel se significación del 1%, probar si hay evidencia suficiente para afirmar que

el medicamento es efectivo.

7. Se desea comparar la eficacia de dos compuestos en la producción de glucosa en la

sangre, para tratar a personas que padecen de Hipoglicemia, para tal propósito se

seleccionaron al azar 7 ratones, los resultados del estudio se presentan en la siguiente

tabla:

Ratón Comp 1 Comp 2

1 4.6 5

2 5.3 5.2

3 3.8 3.5

4 7.2 6.3

5 8.4 8.6

6 4.8 4.2

7 3.5 4.4

¿A qué conclusión llegará usando un nivel de significación del 5 por ciento?

Page 307: Estadistica con Mitab.pdf

Edgar Acuña Capítulo 11 Pruebas Noparamétricas 292

8. El presidente de una empresa piensa que el número de ausencias injustificadas para el

personal gerencial es menor que la de los obreros. Para esto se eligen al azar 7 gerentes y 10

obreros, y se registran sus ausencias injustificadas durante un año.

Gerentes: 20 14 19 22 25 30 17

Obreros: 37 29 51 18 40 26 41 24 19 28

a) Probar la hipótesis usando una prueba noparametrica. ¿A qué conclusión llega?

b) Probar la hipótesis usando una prueba de t. ¿A qué conclusión llega? ¿Cómo se

comparan los P-values?

9. Se seleccionaron al azar ministros de 3 religiones: 8 metodistas, 10 católicos y 9

pentecostales y se desea probar si poseen el mismo conocimiento sobre enfermedades

mentales. Los resultados de un test para medir sus conocimientos son los siguientes

Metodista Católico Pentecostal

32 32 28

30 32 21

30 26 15

29 26 15

26 22 14

23 20 14

18 14 09

19 16 11

14 08

15

Escribir la hipótesis correspondiente y usar una prueba noparamétrica para probarla.

Analizar sus resultados y compararlo con la prueba F del análisis de varianza.

10. El peso (en libras), y estatura (en pulgadas) de 15 jóvenes se muestra en la siguiente

tabla. Calcule el coeficiente de correlación de Spearman y compararlo con el

coeficiente de correlación de Pearson.

estatura Peso

4.8 115.3

4.9 124.9

5.1 123.8

5.2 137.2

5.3 138.3

4.8 113.1

5.2 137.9

4.8 101.2

5.4 131.9

4.8 102.7

4.9 115.0

5.3 130.5

5.2 108.0