CONCEPTOS BÁSICOS DE INFERENCIA ESTADÍSTICA 1/Tema1.pdf · Conceptos Básicos de inferencia...

29
C ONCEPTOS B ÁSICOS DE INFERENCIA E STADÍSTICA

Transcript of CONCEPTOS BÁSICOS DE INFERENCIA ESTADÍSTICA 1/Tema1.pdf · Conceptos Básicos de inferencia...

CONCEPTOS BÁSICOS DE INFERENCIA

ESTADÍSTICA

Conceptos Básicos de inferencia Estadística

Contenidos

Introducción 14Muestreo 15

¿Por qué muestrear es difícil? 16Principales tipos de muestreo 18

Distribuciónes muestrales 24Un poco de historia 25Media 27Varianza 35Proporción 38

Pedro Valero [email protected] 13

Conceptos Básicos de inferencia Estadística Introducción

INTRODUCCIÓN

Un asunto de vida o muerte

• Una noticia tomada de un periódico- ¿Por qué se necesita un muestreo en esa situación?

a)b)c)

• Ejemplos de situaciones en Psicología que podrían necesitar muestreara)b)c)

Pedro Valero [email protected] 14

Conceptos Básicos de inferencia Estadística Muestreo

MUESTREO

• Muestreo hace referencia a las técnicas para seleccionar una muestra de una poblaciónEl objetivo del muestreo es conseguir una muestra representativa, es decir, que reproduzca de una manera fiellas características de la población de la que se ha muestreado

- Ejemplos de muestras representativasa)b)c)

- Ejemplos de muestras no representativasa)b)c)

• Conseguir que una muestra sea representativa es más difícil en ciertas situaciones que enotras. Por eso necesitamos diferentes técnicas de muestreo.

Pedro Valero [email protected] 15

Conceptos Básicos de inferencia Estadística Muestreo/¿Por qué muestrear bien es difícil?

¿Por qué muestrear bien es difícil?

• Vamos a hacer un juego, en la siguiente trasparencia hay números. Cuando pase latrasparencia elegir uno y apuntarlo.

Pedro Valero [email protected] 16

Conceptos Básicos de inferencia Estadística Muestreo/¿Por qué muestrear bien es difícil?

Pedro Valero [email protected] 17

Conceptos Básicos de inferencia Estadística Muestreo/Principales tipos de muestreo

Principales tipos de muestreo

• Los principales tipos de muestreo son:

Muestreo aleatorio simple: Consiste en extraer una muestra aleatoria de la población. Este tipo demuestreo sólo se puede hacer en situaciones con condiciones ideales.

Muestreo por conglomerados: Este muestreo tiene en cuenta que a menudo la gente se agrupa enconjuntos (llamados conglomerados) y no resulta práctico muestrear siguiendo el método aleatorio simple.

Muestreo por estratos: Este método tiene en cuenta que a veces queremos garantizar que ciertos gruposo subgrupos tengan suficiente representación en la muestra y por tanto forzamos el muestreo aleatorio simplepara lograrlo.

Pedro Valero [email protected] 18

Contenidos 19

Muestreo aleatorio simple

• Para poder hacer muestreo aleatorio simple tenemos que pensar en una situación ideal enla que todos los individuos de la muestra sean accesibles con la misma facilidad. Cuandoestas condiciones se dan se trata de hacer una lotería y seleccionar los números de los quesalen en esa lotería (hoy en día se puede hacer con ordenador fácilmente)- Ejemplos en los que se den estas condiciones

a)b)c)

- Ejemplos con personas en las que se den estas condiciones (más difícil)a)b)c)

- Ejemplos de muestreos no representativosa)b)c)

Conceptos Básicos de inferencia Estadística Muestreo/Principales tipos de muestreo/Muestreo aleatorio simple

Contenidos 20

Muestreo por conglomerados

• Si lo que hay que muestrear está organizado en grupos/conglomerados a menudo resultapoco práctico o económico hacer muestreo aleatorio simpleEn la práctica, hacemos un muestreo por etapas (si son 2 se llama bietápico, 3 trietápico, 4...

- Ejemplo: Supongamos que queremos saber lasrazones del uso/no uso de la bicicleta para eltransporte en la ciudad de Valencia. Podemosentrevistar a 200 personas y tenemos cinco díaspara hacerlo.Solución

- Ejemplo: Queremos saber las necesidades deapoyo psicológico de los adolescentes eninstitutos de la ciudad de Valencia. Podemosentrevistar a 100 estudiantes en cinco días.Solución

Conceptos Básicos de inferencia Estadística Muestreo/Principales tipos de muestreo/Muestreo por conglomerados

Contenidos 21

• Como hemos visto, el muestreo por conglomerados se hace por etapas en las que en cadanivel se realiza una selección aleatoria de una unidad, en el siguiente nivel se hace otraselección aleatoria y así hasta llegar al nivel al que se tiene que hacer la encuesta- Eso reduce los costes del muestreo porque...- Eso reduce el tiempo del muestreo porque...

• ¿Se obtienen conclusiones correctas obteniendo este método?- Las conclusiones que se obtienen son en general comparables a las que se obtendrían utilizando

el muestreo aleatorio simple- Además, es más fácil recoger una muestra más amplia lo cual compensaría los defectos de

recogida de datos

Conceptos Básicos de inferencia Estadística Muestreo/Principales tipos de muestreo/Muestreo por conglomerados

Contenidos 22

Muestreo por estratos

• El muestreo por estratos intenta garantizar que la representación de determinadascaracterísticas sea similar en las muestras que lo es en la población.- Hay muchas características que pueden tenerse en cuenta: género, nivel económico, raza,

religión, etc.Ejemplo: En una encuesta se intenta que haya la mitad hombres y la mitad mujeres.Ejemplo: Según una estimación, el consumo de cannabis en la población española de 15 a 64años en los últimos meses en el año 2009 fue de 10,6%. Una muestra que tuviera en cuenta esedato procuraría tener un 10,6% de consumidores de cannabis

- El problema de los estratos es que si empezamos a pensar en todas las características quequeremos representar que sean iguales a las de la población el muestreo se hace muycomplicado así que en la práctica sólo se tienen en cuenta los estratos para algunos aspectos muyconcretos.

Conceptos Básicos de inferencia Estadística Muestreo/Principales tipos de muestreo/Muestreo por estratos

Contenidos 23

• Sobre-muestrear o infra-muestrear- No estoy muy seguro de que esas dos palabras estén en el diccionario, por eso las he puesto con

guiones- La idea es que a veces queremos que en la muestra haya más gente o menos de lo que

proporcionalmente les tocaría según su representación en la poblaciónEjemplo: Supongamos que estamos haciendo una encuesta sobre consumo de drogas en lapoblación en general. Según una estimación, un 0,5% de la población en 2009 tuvo consumo dealucinógenos. Si seleccionamos una muestra de 100 personas, en principio deberíamos tenermedia persona con ese consumo. Ese número de consumidores no nos serviría de mucho siquisieramos saber algo más de ese tipo de consumidores así que en la práctica podríamossobre-muestrear para tener un número más alto. Del mismo modo, otros grupos podríamosreducirlos para así hacer sitio a los que queremos aumentar (por ejemplo, grupos raciales conmás casos se reducirían y otros con menos casos se aumentarían).

- No obstante, las matemáticas de los análisis de datos en estas situaciones son más complejas y enclase de Estadística básica sólo se enseñan las cálculos para el caso de que el muestreo haya sidoaleatorio simple.

Conceptos Básicos de inferencia Estadística Muestreo/Principales tipos de muestreo/Muestreo por estratos

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales

DISTRIBUCIÓNES MUESTRALES

La última para el camino

Pedro Valero [email protected] 24

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Un poco de historia

Un poco de historia

• ¿Qué tiene que ver la cerveza Guiness y la estadística?La estadística es un conocimiento muy aplicado, muchos de los avances y desarrollos se han debido aproblemas prácticos que se solucionaron mediante ella

Eso le pasó a Gosset, un investigador trabajando para la empresa Guiness, y que estabainteresado en mejorar su producto más famoso.

El problema de este señor consistía en que quería evaluar la calidad de ciertos productospero no podía comprobar toda la producción una por una. Por ejemplo, si quería saber si unlote de cerveza producido con cierto tipo de cebada era bueno en general no podíabeberse todas las botellas, o hacer análisis químicos de sus características.

•Lo que tenía que hacer para averiguar si ese lote era suficiente bueno eraseleccionar una...

Pedro Valero [email protected] 25

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Un poco de historia

• Realmente, Gosset no fué el primero que usó muestras para calcular valores de lapoblación. Galton o Pearson utilizaban muestras para sus estudios estadísticos pero en susestudios recogían muestras muy grandes y no les preocupaba el gran problema queGosset resolvió: Cómo de fiable es una estimación hecha a partir de una muestra.

• A continuación veremos la solución de ese problema para el calculo de la media que es elproblema más importante. También veremos la solución para la varianza y para laproporción. La idea general se puede extender a otros estadísticos y por tanto nosaparecerá en varias ocasiones a lo largo del curso.

Pedro Valero [email protected] 26

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Media

Media

• La historia cuenta que Gosset tuvo un accidentede tráfico que le tuvo en cama durante tresmeses y que durante ese periódo tuvo tiempode pensar en un problema que le preocupababastante. Aunque nos faltan los detalles más omenos el problema era el siguiente:- Gosset tenía un lote de cerveza fabricado según

cierto método, con ciertos productos,temperaturas, etc.

- Aunque todas las cervezas erán parecidas, losprocedimientos de fabricación producían ciertavariación, y algunas cervezas tenían por ejemplo,más alcohol que otras. Mirando en el dibujo, lasde abajo tendrían poco alcohol y las de arribademasiado

- Gosset seleccionaba 5 cervezas por ejemplo y calculaba la media de alcohol en esas cincocervezas

- Ese cálculo le permitía estimar la cantidad media de alcohol en el lote...

Poco alcohol

Mucho alcohol

Pedro Valero [email protected] 27

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Media

• ¿Qué seguridad tenía Gosset de que la estimación de la cantidad media de alcohol en ellote que había hecho era correcta?- Vemos que algunas cervezas tenían niveles de alcohol más altos que los otros. Si las cervezas

elegidas hubieran sido de la parte alta el nivel medio sería bastante diferente que las cervezaselegidas hubieran sido todas de la parte más alta

- Si nos saliera un valor inesperado y supiéramos qué nivel es el que tenía que salir el problematendría una solución medio buena: podríamos probar más cervezas hasta que nos aseguráramosde que el resultado es fiable. Es decir, aumentaríamos la muestra. Ahora bien, ¿cuánto tenemosque aumentar la muestra hasta que lleguemos a un punto en el que no valga la pena seguir?

- También, si el resultado es en principio el que deseábamos, ¿cómo podemos estar seguros deque ese es el resultado correcto y no una casualidad?

Hasta aquel momento, la solución que se aplicaba era usar muestras muy grandes, lo cual, aunque no tenía unfundamento muy claro daba cierta seguridad de que se estaba actuando correctamente. Gosset en cambiopensó en buscar una solución mejor.

Pedro Valero [email protected] 28

Contenidos 29

El experimento de Gosset

• Lo que hizo Gosset es repetir el proceso de seleccionar una muestra y calcular la mediamuchas veces.Aplicado al ejemplo de las cervezas, la idea sería seleccionar por ejemplo una muestra de cinco cervezas,calcular la media de alcohol de esas cinco cervezas, apuntar el valor, seleccionar otras cinco cervezas, sacar lamedia, apuntar el valor, ...

El resultado fue una lista de medias sobre las que averiguó dos cosas:

- La media de las medias era igual a la media de la población- La variación media entre las medias, que se denomina error típico, podría ser estimada mediante

la (cuasi) desviación típica de las puntuaciones entre las cervezas de una muestra dividida por laraíz cuadrada del número de casos en la muestra. En fórmula esto es:

De las dos cosas que averiguó, la primera es interesante pero si se piensa un poco no es muysorprendente...la segunda en cambio es muy importante y constituyó el pilar básico de losavances de la estadística y con ella de mucha ciencia aplicada en el ultimo siglo. Vamos aentender un poco la fórmula del error:

Errortipicosn 1–

n ------------=

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Media/El experimento de Gosset

Contenidos 30

El error muestral de la media

• Seguiremos con el ejemplo de la cerveza, si estamos probando un lote y hemos sacado unamuestra con varias cervezas, calculamos la media del alcohol que contienen y vemos queel resultado es razonable, pero nos podemos preguntar cómo de fiable es esa media. Lafiabilidad o falta de error de esa media dependerá de dos cosas:- El tamaño de la muestra- La desviación típica de los valores en la muestra

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Media/El error muestral de la media

Contenidos 31

El tamaño de la muestra: Como vimos, la fórmula delerror tiene como denominador la raíz de n=número decasos. Cuanto más grande sea n entonces menor será elerror. Ahora bien, si tenemos en cuenta cómo se comportala raíz de n podemos ver que cuando n sea bastantegrande el efecto de aumentar el tamaño de la muestra escada vez menos importante. La razón por lo que estoocurre es...

La desviación típica de los valores en la muestra: En el gráfico de la derecha tenemos cinco posiblesmuestras con cinco cervezas. En el primer caso (a) losvalores han sido bastante dispares entre sí por lo que sicalculamos la desviación típica nos saldrá un valor másgrande que para las otras muestras. La muestra b tambiéntendrá un valor más grande que c y así sucesivamente. Porúltimo, la muestra e tendría una desviación típica muy baja.

Aplicado a la fórmula del error, como la desviación típica de la muestra está en el numerador, la muestra atendría más error que la b, la b que la c y así sucesivamente. La que tendría menos error sería la e. En definitiva,cuanta más desviación típica hay en una muestra podemos esperar más error

x=?

a b c d e

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Media/El error muestral de la media

Contenidos 32

¿Por qué es tan importante la fórmula de Gosset?

• Lo primero que hay que tener en cuenta es que en la práctica, cuando se hace unainvestigación, sólo se tiene una muestra:Lo importante de la fórmula de Gosset es que necesita solamente de los datos de una muestra para seraplicada

• Además, en muchos estudios las muestras son pequeñas y hay problemas enormes paraque sean grandes:Los estudios de medicamentos muy novedosos por ejemplo no tiene sentido que se hagan con muestras muygrandes al principio

Otros ejemplos en los que las muestras generalmente serán pequeñas

a)

b)

c)

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Media/¿Por qué es tan importante la fórmula de Gosset?

Contenidos 33

La forma de la distribución muestral de la media

• Hagamos lo siguiente en nuestro ejemplo del alcohol que contiene una muestra decervezas- Cogemos todas las medidas de alcohol en cada una de las cervezas y les restamos su media y las

dividimos por su desviación típica (es decir las pasamos a puntuaciones z con media 0 ydesviación típica 1)

- Extraemos un número infinito de muestras de tamaño k=10, calculamos la media y la apuntamos-Dibujamos la línea de color naranja que nosindica la proporción de muestras con unamedia dada-Esto lo podemos repetir para k=1, 2, 5 o parak=infinito (bueno, esto último no se puedehacer en realidad pero se puede calcularmatemáticamente)

•¿Qué aprendemos de este ejercicio?-Las muestras en general tienen un pico deprobabilidad más alta en el cero, que significa

cerca de la media de, en este caso, la media de alcohol que tienen todas las cervezas

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Media/La forma de la distribución muestral de la media

Contenidos 34

- Cuanto más grande es la muestra, más apuntado es el pico de la probabilidad, lo que quiere decirque cuanto más grande es la muestra más probable es que la media de la muestra esté más cercade la media de la población de cervezas

- La forma de la distribución se parece mucho a la distribución...?- La mayoría de los resultados están entre -2 y +2- Una forma de ver los valores exactos es utilizar las tablas de la distribución tEsta última parte de la explicación es la que nos permite hacer un uso práctico del descubrimiento de Gosset,pero esto tendrá que esperar hasta el próximo tema, antes veremos las distribuciones muestrales de otrosestadísticos tales como la varianza y la proporción.

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Media/La forma de la distribución muestral de la media

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Varianza

Varianza

• Un segundo problema que Gosset tenía con sus cervezas era lograr que fueran lo máshomogéneas posiblesSupongamos que un lote fabricado de una cierta manera tenía una media de alcohol de 5 grados, pero que enel mismo lote se podrían encontrar cervezas con 16 grados de alcohol y otras con casi cero grados de alcohol

Supongamos que otro lote de cervezas fabricado de otra manera tenía una media de alcohol de 5 grados, concervezas que iban desde 6 hasta 4

¿Qué lote sería preferible?

¿Se os ocurren situaciones en las que es importante que haya poca variabilidad entre las unidades?

a)

b)

c)

Pedro Valero [email protected] 35

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Varianza

• La forma de evaluar la variabilidad en una muestraes la varianza, o su raíz cuadrada, la desviacióntípica- Si repetimos el proceso de sacar muestras de una

población, calcular la varianza y la desviación típica dela muestra, y volverlo a hacer un número infinito deveces, con diferentes tamaños de muestra podemosobtener unos gráficos similares a los que mostramospara las medias

- Este es el de la varianza para unos datos que hemospasado a puntuaciones zSabemos que la varianza es 1 en este casoVemos que con tamaño de muestra v=10 laprobabilidad de estimar la varianza correctamente esla más altaCon tamaños de muestra menores es bastante fácil estimar menos varianza de la correcta

- La distribución que ajusta el error muestral de la varianza se llama Chi Cuadrado (quedaros coneste nombre por que lo veremos más adelante)

Pedro Valero [email protected] 36

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Varianza

• Para la desviación típica, la figura es más familiar (la roja es la línea con muestra igual a 2, lanaranja con 4 y luego sigue hasta violeta igual a 12)

- La distribución que ajusta el error muestral de la desviación típica es la distribución normal (apartir de un tamaño de muestra de 10 más o menos)

Pedro Valero [email protected] 37

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Proporción

Proporción

• Si la característica que estamos teniendo en cuenta sólo tienes dos valores, podemoscontar cuántos salen de un valor y dividir por el tamaño de la muestra para calcular laproporción de casos

- Ejemplos de proporciones en relación con por ejemplo consumo de drogasa) Supongamos que se intenta reducir el consumo de ciertas drogas entre la poblacióncarcelaria. Antes de empezar se quiere ver cuál es la proporción de sujetos que consume cocaínadentro de la cárcel, para luego ver si al cabo de unos años se ve una reducción. No obstante,hacer pruebas a todos los que están en prisión sería muy caro así que se hace un muestreo encada una de las prisiones ¿Qué distribución tendrían las proporciones obtenidas en todas lasmuestras para todas las prisiones?b)c)

p yn---=

Pedro Valero [email protected] 38

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Proporción

• De nuevo, si extraemos muestras de una población un gran número de veces y calculamospara cada muestra la proporción de casos con una característica, en unos casos esaproporción será mayor y en otro será menor del verdadero valor de la población. Sirepetimos esto muchas veces llegamos a resultados muy parecidos a los que encontramospara las medias:- La media de las proporciones obtenidas para todas las muestras sería igual a la proporción en la

población- La variabilidad entre la proporción obtenida con unas muestras y la obtenida con otras puede ser

estimada mediante

Un pequeño detalle a observar es que esta fórmula se puede calcular una vez se tiene p, laproporción de casos con una característica dada (se suele llamar éxito, p=proporción de éxitos).A partir de ahí se hace 1-p=q. n es el número de casos en la muestra.

ET p pqn------=

Pedro Valero [email protected] 39

Conceptos Básicos de inferencia Estadística Distribuciónes muestrales/Proporción

• La forma de la distribución muestral de las proporciones es la llamada distribuciónbinomial. Esta distribución está basada, no obstante, en una fórmula que cuando lasmuestras son grandes necesita muchas operaciones, así que en la práctica se utiliza lallamada aproximación normal a la binomial. Esta aproximación se puede usar cuando:- Los tamaños de muestra no son muy grandes con respecto a la población (no más de un 10%)

Esto tiene más consecuencias al revés, no se puede aplicar cuando la población es pequeña, peroeso no suele ser un problema en estadística

- El números de éxitos o fracasos no debería ser menos de 10, por lo que si la proporción de uncaso u otro es muy pequeña habría que aumentar la muestra para poder llegar hasta 10Supongamos que tenemos 100 casos en nuestra muestra, en donde el 98% es un “éxito” y un 2%es un “fracaso”, el 2% de 100 es 2 así que no podríamos usar la aproximación normal.

La aproximación normal no es totalmente exacta y con los ordenadores hoy en día no habría mucha necesidadde usarla salvo en casos muy extremos. No obstante, para cálculos que usaremos posteriormente tiene laventaja de que no hay que hacer ningún cálculo, ya que con aprenderse un par de valores de memoria essuficiente.

Pedro Valero [email protected] 40