Texto N° 2 Estadística Inferencial - analisis-estadistico.cl · criterios del público sobre...
Transcript of Texto N° 2 Estadística Inferencial - analisis-estadistico.cl · criterios del público sobre...
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
1
1
Texto N° 2 Estadística Inferencial
En este documento se presentan conceptos relativos a la estadística Inferencial recogidos de variadas fuentes teniendo como objetivo mostrar las nociones involucradas a la hora de realizar un estudio.
La estadística Inferencial tiene dentro de sus propósitos estudiar y estimar las características poblacionales relativas a un fenómeno en especial, examinando la información obtenida de una muestra, de una población. Como se hace muy difícil estudiar a toda la población entonces se opta por centrar el interés en la muestra, asegurando a través de métodos técnicas y procedimientos que dicha muestra sea representativa de la población que se estudiará.
Los métodos nos proporcionan marcos que nos aseguran el grado de certeza del estudio, para ello se deberán seguir ciertos procedimientos de selección para afirmar que las muestras reflejen observaciones a la población de la que proceden, ya que solo se pueden hacer observaciones probabilísticas sobre una población cuando se usan muestras representativas de la misma.
Una población está formada por la totalidad de las observaciones en las cuales se tiene cierto observa.
Una muestra es un subconjunto de observaciones seleccionadas de una población.
Muestras Aleatorias
Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras por muchas razones; una enumeración completa de la población, llamada censo, puede ser económicamente imposible, o no se cuenta con el tiempo suficiente.
A continuación se verá algunos usos del muestreo en diversos campos:
1. Política. Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinión pública y el apoyo en las elecciones.
2. Educación. Las muestras de las calificaciones de los exámenes de estudiantes se usan para determinar la eficiencia de una técnica o programa de enseñanza.
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
2
2
3. Industria. Muestras de los productos de una línea de ensamble sirve para controlar la calidad.
4. Medicina. Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la eficacia de una técnica o de un fármaco nuevo.
5. Agricultura. Las muestras del maíz cosechado en una parcela proyectan en la producción los efectos de un fertilizante nuevo.
6. Gobierno. Una muestra de opiniones de los votantes se usaría para determinar los criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional.
Población
Se denomina población a un conjunto de elementos pudiendo ser sujetos u objetos de los que se quiere realizar un estudio a cerca de alguna de sus características, con frecuencia resulta muy complejo estudiar una característica en toda la población, si bien porque el volumen de ésta es enorme o por otras variables que lo hacen muy difícil, por ejemplo el estudio del comportamiento de los salmones en la etapa reproductiva, no se puede tomar a toda la población de salmones puesto que esta especie habita en distintos territorios, por ello la estadística aplica técnicas que resultan útiles como es la toma de muestra que representa a dicha población .
Muestra
En estadística se conoce como muestreo a la técnica para la selección una muestra de una población, el muestreo intenta procurar condiciones estables para que los resultados sean confiables y con ello extrapolables a toda la población de modo que los errores sean los menos posibles.
Técnicas de muestreo
Podemos señalar que la estadística cuenta con dos métodos para seleccionar muestras de poblaciones:
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
3
3
• El muestreo no aleatorio o de juicio • El muestreo aleatorio (que incorpora el azar como recurso en el proceso de
selección).
Cuando este último cumple con la condición de asegurar que todos los elementos de la población tienen alguna oportunidad de ser escogidos en la muestra, si la probabilidad correspondiente a cada sujeto de la población es conocida de antemano, recibe el nombre de muestreo probabilístico. Una muestra seleccionada por muestreo de juicio puede basarse en la experiencia de alguien con la población. Algunas veces una muestra de juicio se usa como guía o muestra tentativa para decidir cómo tomar una muestra aleatoria más adelante.
¿CÓMO PRODUCIR DATOS?
Tipos de actividades para aplicar con sus estudiantes
Para empezar es necesario la conveniencia de que apoyes tus decisiones en información cuantitativa, es decir, en datos.
La información completa es en general imposible o toma un tiempo y costos excesivos. Por otro lado, todos los instrumentos de medición tienen una precisión limitada. El muestreo permite obtener conclusiones basadas en una información limitada.
Población. Se denomina población al conjunto total de objetos o individuos de interés en estudio, cada elemento de la población se le llama individuo o unidad. El tamaño de la población es el número de unidades que la conforman.
El número de objetos o individuos que componen la población se denota por N.
En general si el tamaño N de la población es muy grande, el tiempo y el costo de observar cada uno de los elementos es muy alto. Estas razones, entre otras, nos obligan a restringirnos a observar un subconjunto (una parte) de la población.
Muestra
Población
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
4
4
Se denomina muestra a un subconjunto de unidades seleccionadas de la población de interés.
El número de objetos o individuos que componen la muestra es denominado tamaño muestra y usualmente se denota por n. Si observas a tus compañeros notarás que ellos tienen distintos color de pelo, distinto tipo de cabello, distinto peso, altura y obtienen distintos promedios en matemática. A algunos la actividad que más les gusta es hacer deportes, a otros ir al cine, bailar, estudiar, etc. En fin, las características o rasgos de tus compañeros varían. Las opiniones de la personas sobre una teleserie o alguna reforma del gobierno varían. Las personas opinan y votan de manera diferente.
Estas características que varían de individuo a individuo se denominan variables.
Se llama variable estadística o simplemente variable a cualquier característica asociada a una colección de objetos o individuos bajo estudio susceptible de medición u observación.
Un dato es un valor de la variable asociada a un elemento de una población o muestra.
Los datos u observaciones es el conjunto de valores que toma esta variable en cada individuo u objeto observado (encuestado).
ACTIVIDAD: Responder la siguiente encuesta. Identifica los nombres de las variables.
ENCUESTA
El siguiente cuestionario busca recabar información general sobre los alumnos de una clase.
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
5
5
Nombre y apellidos
Fecha de nacimiento
Edad (en años cumplidos)
Estatura (en centímetros)
Peso (en Kilogramos)
Género F ‐ M
Lugar de nacimiento (Región y ciudad)
Características físicas(Color de piel, ojos y cabello)
Edad de los padres
Número de hermanos
Número de horas promedio que dedica al estudio
Asignatura que más le agrada
Pulso antes del ejercicio físico
Pulso después del ejercicio físico
Tipos de variables: variables que obtiene información cualitativa y variables que obtienen información cuantitativa. Dentro de las variables cualitativas distinguimos dos tipos.
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
6
6
Variables cualitativas nominales: son aquellas cuyos posibles valores son clases o categorías, que clasifican los elementos observados, pero no lo ordenan. Ejemplo: sexo, estados civil, nombre, equipo favorito,...
Ejercicio: Identifica dos variables cualitativas nominales que proporcionen
información sobre la personalidad de tus compañeros.
Variables cualitativas ordinales: son aquellas cuyos valores son categorías o clases que clasifican y ordenan los elementos observados. Ejemplo: estrato social, grados militares, nivel educacional (educación básica, media, superior), etc. Ejercicio: Identifica dos variables cualitativas ordinales que proporcionen información sobre los clientes de un banco. De manera similar, las variables cuantitativas pueden clasificarse en:
• Variables cuantitativas discretas: son aquellas cuyos valores forman un conjunto numerable de números, que surgen frecuentemente de un conteo, como por ejemplo número de hermanos.
• Variables cuantitativas continuas: son aquellas cuyos posibles valores forman un intervalo de números reales y que resultan normalmente de una medición, como por ejemplo estatura o peso de un individuo. No obstante muchas variables continuas son discretizadas en su uso diario. Por ejemplo, habitualmente medimos edad en años, peso en kilos, etc.
Ejercicio: Menciona dos variables que proporcionen información sobre los clientes de una tienda de ropa.
Ejercicio: Determina si las siguientes variables son cualitativas o cuantitativas.
a. El peso de las cuentas que vienen en cartas por el correo postal. b. Medio de transporte utilizado para ir al trabajo c. El número de canciones de un disco compacto d. El número de días que llueve en un mes del año en invierno. e. La temperatura al amanecer en Valparaíso f. El color de la escuela g. La cantidad de lluvia caída en una estación del año en la VII Región h. Puntaje obtenido en la PSU
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
7
7
i. La religión de cada persona j. El largo de un traje k. La edad mínima para poder votar l. El tiempo de música en un disco compacto
Observemos
Los encargados de pesar las encomiendas que salen del terminal de buses de Concepción en cierto día registraron los siguientes valores: 9kg., 5kg., 4kg., 3kg., 12kg., etc.
Todos los valores son números enteros, ¿implica esto que la variable es discreta?
La variable peso es continua. Se ha medido el peso, se redondea el valor obtenido. Una encomienda donde se registro un valor de 9kg., podría realmente pesar 9.3kg. o 8,995, o cualquier valor en el intervalo que va desde 8.5 a 9.5.
Punto clave: La apariencia de los datos después que ellos han sido registrados, puede llevar a confusión respecto al tipo de variable que ha sido observada.
Considera nuevamente la variable peso. Supón que las encomiendas que pesan 5 kilos o menos son clasificadas como livianas, las que pesan 20 kilos o más como pesadas y las más de 5 y menos de 20 kilos como moderadas. Ahora los encargados registran los valores: liviano, moderado y pesado, implica esto que la variable es cualitativa?
Punto clave: El tipo de variable depende principalmente del proceso de medición, no de la propiedad que es observada.
Es importante hacer muchas preguntas sobre el origen de los datos y como fueron obtenidos. ¿Qué se está midiendo?¿Cómo se está midiendo?¿Quién efectúa las mediciones?¿Cuándo fueron realizadas las observaciones?
No importa cuál sea la variable respuesta; si la herramienta de medición es suficientemente exacta habrá variabilidad en lo datos. Uno de los objetivos primordiales del análisis estadístico es la medición de la variabilidad. Por ejemplo, en el estudio de control de calidad, la medición de la variabilidad es absolutamente
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
8
8
indispensable. Controlar (o reducir), la variabilidad en un proceso de manufactura es todo un campo por sí mismo.
MUESTREO Una muestra será representativa de una población si todos los elementos del universo tienen la misma posibilidad de integrar la muestra. Por lo tanto en primer lugar será necesario definir el Universo o Población que se desea investigar, a fin de determinar cuál es el marco muestral que se posee. Es recién a partir de estos datos que se puede determinar el tamaño de la muestra y elegir el procedimiento más adecuado para la selección (Probabilístico o No Probabilístico).
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
9
9
No Probabilísticos
En este tipo de muestreo No se puede conocer si todos los miembros de una población cuentan con la misma probabilidad de figurar dentro de la muestra, ya que la selección no se realiza aleatoriamente. Se conocen pocos casos pero en profundidad, por lo tanto los datos que se extraen de este tipo de estudios no se pueden extrapolar al total de la población. Para realizar una buena representación de la población a ser estudiada es necesario tener en claro cuales son los objetivos perseguidos en el brief de investigación a fin de contar con los filtros exactos para cada estudio. Este método es el más utilizado en las investigaciones de tipo cualitativo.
Muestra por conveniencia. La muestra por conveniencia es aquella que se elige siguiendo la comodidad del investigador, (por ej. Transeúntes que digan lo que opinan sobre un tema). Si bien son elegidos al azar no se puede determinar que dichos individuos sean representativos de la población ya que los mismos se encuentran en determinado lugar a determinada hora y deciden o no colaborar Esto produce un sesgo de la muestra que le quita representatividad.
Muestra autogenerada. Las muestras autogeneradas son aquellas en las cuales los individuos por si mismos deciden dar su opinión sobre un tema, (por ej. Oyentes de un programa de radio o T.V. que se comunican telefónicamente para opinar sobre el tema tratado).
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
10
10
Muestra por criterio o fines especiales. Las muestras por fines especiales son muestras por conveniencia pero en las que se escogen a aquellos miembros que cumplan con criterios previamente establecidos que se juzgan importantes, (por ej. Sujetos consumidores de pan lactal, de sexo femenino entre 20 y 40 años etc.).
Muestras por cuotas: Teóricamente es considerado un procedimiento de muestreo no porbabilístico. Sin embargo, en la práctica se lo utiliza como un procedimiento de ajuste que acompaña a los muestreos probabilísticos. Se divide a la población en distintas categorías (por ej. Distintas especialidades médicas: oftalmólogos, cardiólogos, anestesistas, etc.) y luego de los miembros de esta primera muestra se escogen aquellos que sean lo más semejante a la población a ser estudiada siguiendo cuotas establecidas (sexo, edad, escolaridad, o más dimensiones).
Probabilísticos.
En este tipo de métodos de selección la muestra se escoge aplicando un proceso aleatorio donde cada miembro de la población tiene la misma probabilidad conocida de figurar en ella. Este tipo de conocimiento ofrece la ventaja de estimar objetivamente el grado de error y de determinar matemáticamente el tamaño de la muestra. No requiere tener un conocimiento previo de la población sino simplemente la cantidad de individuos que la componen. Permite por lo tanto proyectar los resultados de la muestra con un grado conocido de exactitud a la población en general.
Diseños Monoetápicos
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
11
11
Muestra aleatoria simple. Por este medio todos los individuos de la población tienen posibilidades de figurar dentro de la muestra. El procedimiento es realizado por computadoras que eligen siguiendo una tabla de números aleatorios a los miembros incluidos dentro de una base de datos completa (por ejemplo en padrones o guías telefónicas). La principal desventaja es que es muy difícil contar con el total de los datos actualizados de todos los miembros de una población. Por otro lado, a mi entender, sigue estando sesgada por la posibilidad de contar o no con teléfono, por ej.
Muestra sistemática al azar. Este método se parece mucho al anterior y consiste en seleccionar un punto de partida aleatorio, escogiendo después cada K‐ésimo elemento en una lista. Si queremos una muestra de 100 sujetos de una lista de 5.000 escogeremos un número al azar entre 1 y 50 y después elegiremos a ese individuo y contaremos 50 más para elegir al próximo.
Muestra estratificada al azar. Este método es similar al muestreo por cuotas en tanto se divide a la población en categorías diferenciadas y luego se realiza un muestreo en cada categoría como si fuese una población independiente.
a) Proporcional. El porcentaje de individuos incluidos en la muestra es el mismo porcentaje que se encuentra el la población total. Por ejemplo, el 10% de los médicos en la población general de médicos son cardiólogos y en la muestra seleccionada ese 10 % es mantenido.
b) No proporcional.
Diseños Polietápicos
Muestra por conglomerados. Este tipo de muestreo tiene como finalidad seleccionar grupos de individuos y no a los miembros en particular. Se divide a la población en grandes grupos, se eligen aleatoriamente algunos de estos grupos y luego se selecciona una muestra dentro de cada grupo seleccionado a fin de obtener una muestra final total.
Por áreas geográficas: Los grupos o divisiones de la población se realiza siguiendo áreas geográficas que determina los distintos estratos sociales de la población, (partidos, barrios, manzanas, etc.)
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
12
12
DISTRIBUCIONES DE MUESTREO
Es evidente que los resultados obtenidos del estudio de una muestra no son del
todo fiable, pero sí en buena medida. Los parámetros que obtienen de una muestra
(estimadores estadísticos) nos permitirán arriesgarnos a predecir una serie de
resultados para toda la población. De estas predicciones y del riesgo que conllevan
se ocupa la Inferencia Estadística.
Repaso de la distribución normal
Ejercicios:
1) Si Z es una N(0, 1), calcular las siguientes probabilidades:
a) p(Z<1) b) p( Z>1´3) c) p(Z<‐0´5) d) p(‐0´5<Z<1´3)
2) Si X es una N(15, 3), responder a las siguientes cuestiones:
a) Tipificarla a una N(0, 1) con el cambio σμ−
=XZ
b) Calcular las siguientes probabilidades:
p(X<21) p(X<‐7) p(X>31)
Parámetros muestrales
Elegida una muestra, hallaremos en ella la media X y la desviación típica S. Lo que
tendremos que estudiar será la representatividad de estos parámetros muestrales
con los parámetros reales de la población, es decir: la media poblacional μ, y la
desviación típica de la población σ . Si en una población de N individuos tomamos
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
13
13
todas las muestras posibles de tamaño n, se puede demostrar que la media de las
medias muestrales coincide con la media poblacional, esto es μ=X
Sin embargo, no se cumple lo mismo para la desviación típica de las medias
muestrales, sino que se verifica que n
S σ= , siendo n el tamaño de las muestras.
Teorema central del límite
La distribución de las medias muestrales de tamaño n, extraídas de una
población normal ),( σμN , se ajustan a una normal ),(n
N σμ .
Si las medias muestrales provienen de una población no normal, pero el tamaño
de las mismas es n≥30, la distribución de las medias muestrales también se ajusta
a una ),(n
N σμ .
Ejemplo: en el último año, el peso de los recién nacidos en una maternidad se ha
distribuido según una ley normal de parámetros μ=3.100 gramos y σ= 150 gramos.
a) ¿Cuál es la probabilidad de que un recién nacido pese más de 3.130 gramos?
b) ¿Qué distribución seguirán las muestras de tamaño 100 de recién nacidos?
c) ¿Cuál será la probabilidad de que la media de una muestra de tamaño 100 sea
superior a 3.130 gramos?
Ejercicio: en una oposición en la que participan miles de candidatos se hizo un
examen tipo test. Las calificaciones se distribuyeron normalmente con media μ=72
puntos y desviación típica σ=10.
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
14
14
a) ¿Cuál es la probabilidad de que un opositor elegido al azar obtenga más de 76
puntos?
b) ¿Cuál es la probabilidad de que una muestra de 64 opositores obtenga un promedio
superior a 76 puntos?
Ejercicios:
1) Supongamos que la estatura media de las alumnas de E. media es 165 cm, con
desviación típica 8 cm.
a) Halla los parámetros de las medias muestrales de tamaños n=36 y n= 64
b) ¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una media
superior a 167 cm? ¿Y de que una muestra de 64 alumnas supere esa misma medida?
c) ¿Tiene algo de extraño que una muestra de tamaño 36 tenga una media de 170 cm?
INTERVALOS DE PROBABILIDAD
A los intervalos simétricos respecto de la media o proporción poblacionales se les
denomina intervalos de probabilidad.
Intervalos de probabilidad para la media muestral
Sabemos que la distribución de medias muestrales es normal de media μ=X y
desviación típica, donde μ y σ son los parámetros de la población.
Nos haremos la siguiente pregunta:
¿Cuál es la probabilidad de que la media muestral se encuentre entre dos valores
simétricos respecto de la media poblacional?, es decir, queremos evaluar las
siguientes probabilidades:
)( aXap +≤≤− μμ
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
15
15
Se llama intervalo de probabilidad para la media a uno de la forma
⎟⎠
⎞⎜⎝
⎛ ⋅+⋅−n
kn
k σμσμ αα ; tal que se cumple que la probabilidad de que X se
encuentre en él es igual a α. Al parámetro α se le llama nivel de confianza, y la
diferencia (1‐α) es el riesgo asumido.
Si tipificamos la variable X , llegaremos a una expresión de la forma:
21)( +
=≤α
αkZp , donde Z es una variable que se ajusta a una N(0, 1). De este modo
podremos evaluar el valor de kα consultando la tabla de valores de dicha
distribución.
Ejemplo: vamos a hallar el intervalo de probabilidad para el peso medio de una
muestra de 100 recién nacidos, con un nivel de confianza de 0,9, sabiendo que
μ=3.100 gramos y σ=150 gramos.
Solución: como se ha dicho anteriormente, tenemos que evaluar la siguiente
expresión
( ) 950́2
190́=
+=≤ αkZp
si consultamos en la tabla de la N(0, 1), comprobaremos que 6451́=αk , por lo
tanto, el intervalo de probabilidad será el siguiente:
⎟⎠
⎞⎜⎝
⎛ ⋅+⋅−100
150645,1100.3;100
150645,1100.3
Que simplificado, es el intervalo
(3.075´325 ; 3.124´675)
Ejercicios:
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
16
16
1. Hallar el intervalo de probabilidad con una confianza de 0´95 para la misma
distribución.
2. Para las muestras de tamaño 36 extraídas de la distribución de calificaciones en
una población de 120 alumnos, con media 5´5 y desviación típica 2´04, halla los
intervalos de probabilidad para un nivel de confianza de:
a) 75´4%
b) 0´87
Ejercicios:
1. Si la estatura de las alumnas de segundo de E media se ajusta a la normal N(165,8),
en cm, encontrar, para las muestras de tamaño 64:
a) El porcentaje de ellas que dará una media entre 163 y 167 cm.
b) El intervalo de probabilidad con un nivel de confianza del 80%.
2. El nivel medio de colesterol (en mg/dl), en individuos sanos, depende de la edad y el
sexo; para los hombres con menos de 21 años su distribución es normal con media
μ=160 y desviación típica σ=10. Un nivel fuera de σμ 2± resulta extraño: indica que
puede haber alguna anomalía. Lo mismo cabe decir de las muestras: un nivel
muestral fuera de x
σμ 2± resulta extraño.
3. ¿Cuál es el intervalo de probabilidad admisible (no extraño) para las muestra de
tamaño
a) 1
b) 9
c) 100
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
17
17
d) ¿Qué porcentaje de individuos o muestras se encuentran en los intervalos
hallados para los diferentes tamaños de la muestra?
ESTIMACIÓN ESTADÍSTICA
1.‐ ESTIMACIÓN A PARTIR DE UNA MUESTRA
Habitualmente, lo normal es que se desconozcan la media y la desviación típica de la
población y que, mediante técnicas de muestreo, se busque estimarlas con la
fiabilidad necesaria. Así, si para 400 individuos de una región, elegidos al azar, se
obtiene una renta per cápita de $1.215.000, con una desviación típica de $650.000,
podemos hacernos dos preguntas:
1. ¿La renta per cápita de los habitantes de toda la región será de $1.215.000?
2. ¿Qué seguridad se tiene de tal afirmación?
Cuando se contestan estas preguntas se está haciendo una estimación a partir de la
muestra.
2.‐ INTERVALOS DE CONFIANZA
En este apartado vamos a dar respuesta a las dos preguntas anteriores.
Intervalo de confianza para la media muestral
Al intervalo ⎟⎠
⎞⎜⎝
⎛ ⋅+⋅−n
kXn
kX σσαα ; se le llama intervalo de confianza para la
media poblacional, siendo los elementos que aparecen en dicho intervalo, los ya
estudiados anteriormente.
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
18
18
La probabilidad de que la media de la población se encuentre en este intervalo esα,
que es el nivel de confianza. Si la confianza es α, suele decirse que el nivel de
significación es 1‐α , o nivel de riesgo.
En el caso en que la desviación típica de la población sea desconocida (σ), no
tendríamos más remedio que sustituirla por la desviación muestral s; así el intervalo
de confianza para la media poblacional μ, para 30≥n , sería
⎟⎠
⎞⎜⎝
⎛ ⋅+⋅−nskX
nskX αα ;
Con una probabilidad de α, siendo X y s la media y la desviación típica de la
muestra, respectivamente.
A ns se le llama error típico de la media.
Ejemplo: para una muestra de 400 personas elegidas al azar se obtiene una renta per
cápita de $ 1.215.000. Si la desviación típica de la renta per cápita para la población es
de $700.000, calcula el intervalo de confianza para la media poblacional con un nivel
de significación de:
a) 0,1
b) 0,05
Ejercicios:
1. Para una muestra de 30 alumnos se obtuvo una nota media en el último examen
de matemáticas de 83'5=x , con una desviación típica s= 1’92. Determina el
intervalo de confianza al 80%. Interpreta el resultado.
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
19
19
2. El peso medio de una muestra de 100 recién nacidos es 3.200 gramos. Sabiendo
que la desviación típica de los pesos de la población de recién nacidos es de 150
gramos, halla el intervalo de confianza para la media poblacional para una
significación de 0’05
3.‐ ERROR ADMITIDO Y TAMAÑO DE LA MUESTRA
Error admitido
Cuando decimos que la media poblacional ⎟⎠
⎞⎜⎝
⎛ ⋅+⋅−∈n
kXn
kX σσμ αα ; con un
nivel de confianza α , estamos admitiendo un error máximo de n
k σα ⋅ . A este
número se le llama error máximo admisible.
Tamaño muestral
El tamaño muestral mínimo de una encuesta depende de la confianza que se desee
para los resultados y del error máximo que se esté dispuesto a asumir.
El tamaño mínimo n de una muestra viene dado por:
Para la media: 2
⎟⎠⎞
⎜⎝⎛ ⋅=
Ekn σα
Para tamaños de muestra mayores que n el error será menor que E.
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
20
20
Ejercicios:
1. Se desea realizar una
investigación para estimar el
peso medio de los hijos recién
nacidos de madres fumadoras.
Se admite un error máximo de
50 gramos, con una confianza
del 95%. Si por estudios
anteriores se sabe que la
desviación típica del peso medio
de tales recién nacidos es de 400
gramos, ¿qué tamaño mínimo de
muestra se necesita en la
investigación?
2. Para 96 familias RM, elegidas al azar, se ha determinado que la televisión
permanece encendida en la casa una media de 217 minutos diarios; la
desviación típica de la muestra fue de 40 minutos.
a) Para una fiabilidad del 95%, ¿qué error se asume cuando se da por bueno
ese dato para el total de las familias de la RM?
b) ¿Qué tamaño muestral sería necesario para reducir ese error a la mitad?
Referencias
Cannavos G. Probabilidady Estadística Aplicación y métodos. Ed. en español Mc GRAW‐ HILL/INTERAMERICANA DE MEXICO.1995.
Pontificia Universidad Católica de Chile
Análisis Estadístico: Interpretando problemas de la vida cotidiana: Análisis Exploratorio de Datos
Guido del Pino, Lina Wistuba, Apolo Coba
COMCA 2010 Universidad de Tarapacá Arica 4 al 6 de agosto de 2010
21
21
Campbell D y Stanley J (1995) Diseños experimentales y cuasi experimentales en la investigación social. Buenos Aires:
Amorrortu. Cazau P (1991) Introducción a la investigación en ciencias sociales. Buenos Aires: Rundinuskín editores.
Cortada N (1994) Diseño estadístico para investigadores en ciencias sociales y de la conducta. Buenos Aires: Eudeba.