Tema 6 Estadística

download Tema 6 Estadística

of 13

Transcript of Tema 6 Estadística

  • 7/25/2019 Tema 6 Estadstica

    1/13

    Tema 6: INFERENCIA ESTADSTICA:Estimacin puntual e intervalos de confianza

    Introduccin

    En temas anteriores hemos estudiado la Estadstica Descriptiva que se dedica al

    anlisis y tratamiento de datos.

    A partir de ellos resume, ordena y extrae los aspectos ms relevantes de la informacin

    que contienen. Sin embargo, los objetivos de la Estadstica pretenden adems extraer

    conclusiones para la poblacin de la que fueron extrados.

    A esta ltima tarea la llamamos Inferencia Estadstica.

    Obtendremos las muestras de forma aleatoria y por tanto necesitaremos la Teora de

    la Probabilidad vista anteriormente para valorar nuestras afirmaciones. Hemos visto

    algunos modelos de variables discretas y continuas para una poblacin y sus

    caractersticas ms importantes, como la media y varianza poblacionales y otros

    parmetros. En este tema vamos a construir estimadores de los parmetros de inters

    a partir de una muestra y adems vamos a estudiar qu propiedades deben tener los

    estimadores para obtener buenas estimaciones.

    Comenzamos recordando algunos conceptos bsicos para este tema ya introducidos

    anteriormente:

    La Inferencia Estadstica es una tcnica matemtica basada en el Clculo de

    Probabilidades que tiene por objeto incrementar el conocimiento acerca de

    una poblacin a partir de la informacin facilitada por muestras de la misma.

    Poblacines un conjunto finito o infinito de individuos sobre los que interesa

    estudiar una caracterstica. Por ejemplo deseamos conocer el gasto de los

    turistas que pernoctan, en Galicia durante un cierto mes, en hoteles de dos,

    tres o cuatro estrellas. O queremos conocer la intencin de voto de los

    electores en las siguientes elecciones.

  • 7/25/2019 Tema 6 Estadstica

    2/13

    Tema 6: Estimacin puntual e intervalos de confianza

    2

    M. Angeles Fdez. Sotelo

    Cuando se recoge informacin de la caracterstica de inters en todos y cada uno de

    los elementos de la poblacin se dice que se est realizando un censou observacin

    exhaustiva.

    Al resultado de medir la caracterstica de inters sobre un subconjunto de la poblacinse le denomina muestra. Con esto la informacin ser manejable y evitaremos el coste

    que conlleva, en algunos casos, trabajar con toda la poblacin.

    El tamao muestrales el nmero de elementos que componen la muestra.

    Cabe hablar de una primera distincin, al hablar de Inferencia, segn la naturaleza del

    problema que se plantee:

    1) Inferencia paramtrica: cuando conocemos de qu tipo es la variable de

    inters y queremos averiguar el parmetro o parmetros de los que depende.

    Por ejemplo, la variable de inters puede ser la estatura de una poblacin, se

    sabe que es Normal y nos interesan los parmetros y 2, es decir, la media y

    la varianza de la estatura. A su vez, dentro de la inferencia paramtrica,

    vamos a distinguir distintos enfoques:

    a) Estimacin puntual: como valor del parmetro desconocido vamos a dar

    un nmero.

    b)

    Intervalos de confianza: daremos un intervalo que contiene al parmetro

    con un cierto "nivel de confianza".

    c) Test (o contraste) de hiptesis: tenemos una hiptesis sobre el valor del

    parmetro desconocido y se trata de aceptar o rechazar esa hiptesis

    utilizando la informacin que nos proporciona la muestra.

    2) Inferencia no paramtrica: cuando no conocemos de qu tipo es la variable de

    inters. Tambin se pueden plantear las tareas de estimacin, intervalos de

    confianza y contrastes de hiptesis, aunque las tcnicas estadsticas son

    diferentes.

    Consideramos un experimento aleatorio sobre el cual medimos una cierta variable

    aleatoria, que denotaremos por X. El objetivo es estudiar la variable aleatoria X, cuya

    funcin de distribucin F es en mayor o menor grado desconocida.

    Ejemplo 1: Provocamos una reaccin qumica y medimos el calor que se desprende: X.

  • 7/25/2019 Tema 6 Estadstica

    3/13

    Tema 6: Estimacin puntual e intervalos de confianza

    3

    M. Angeles Fdez. Sotelo

    Nos interesa saber qu valores puede tomar y con qu probabilidades, esto es, su

    distribucin.

    Ejemplo 2: Queremos conocer la proporcin de individuos con cierta caracterstica en

    una poblacin. El experimento consiste en extraer uno al azar y as la distribucin deBernoulli que indica la presencia de la caracterstica tiene como parmetro la

    proporcin desconocida.

    Suponemos que la distribucin de X, an siendo desconocida, sigue un modelo como

    los del tema anterior. En el caso del calor desprendido en la reaccin del Ejemplo 1,

    podra ser normal, y en el caso de la proporcin del Ejemplo 2, es claramente de

    Bernoulli.

    As, el problema se reduce a averiguar los parmetros caractersticos.

    Vamos a estudiar los distintos enfoques citados dentro de la inferencia paramtrica.

    Hacemos notar que los resultados que obtendremos son vlidos para el caso de

    poblaciones infinitas o muy grandes. En caso contrario hay que hacer algunas

    modificaciones, debido al cambio de valor de los errores muestrales.

    ESTIMACIN PUNTUAL DE UNA MEDIA Y DE UNA PROPORCIN

    Supongamos un experimento aleatorio susceptible de repeticin en unas condicionessimilares (por ejemplo, supongamos que seleccionamos personas en una comunidad).

    A cada resultado del experimento le asociamos el valor de una variable de inters, X

    (por ejemplo, la estatura). Supongamos que conocemos el tipo de la variable (por

    ejemplo, es normal) y nos interesa el valor de un parmetro (por ejemplo, la media).

    Para obtener informacin vamos a observar repetidamente la variable objeto de

    estudio. Estadsticamente, eso quiere decir que vamos a considerar una muestra

    aleatoria de tamao n, un conjunto de nvariables:

    1 2, ,...,

    nX X X

    independientes y con la misma distribucin que la variable en estudio. Un valor

    concreto de las n variables que constituyen la muestra aleatoria es lo que recibe el

    nombre de realizacin muestral o simplemente muestra. (La idea es que vamos a

    tomar una muestra de nestaturas, pero los valores de esa muestra dependen de las

    personas concretas que consideremos, por tanto realmente partimos de nvariables y

    despus consideraremos un valor concreto de cada una de esas variables).

  • 7/25/2019 Tema 6 Estadstica

    4/13

    Tema 6: Estimacin puntual e intervalos de confianza

    4

    M. Angeles Fdez. Sotelo

    Un estadsticoes una funcin de la muestra aleatoria. Es tambin una variable

    aleatoria y por tanto tendr una cierta funcin de distribucin que se denomina

    distribucin del estadstico en el muestreo.

    Un ejemplo de estadstico es la "media muestral" (suma de las nvariables dividido porn). Al valor del estadstico para una muestra concreta se le denomina estimacin(por

    ejemplo, la media de una muestra de nestaturas).

    Cuando en una variable de una poblacin desconocemos un parmetro y como valor

    de ese parmetro tomamos una estimacin, diremos que estamos ante un problema

    de estimacin puntual.

    Cuando un estadstico se utiliza en un problema de estimacin puntual se le

    denomina estimador.

    Indudablemente el problema est en elegir un "buen" estimador, es decir, una funcin

    de la muestra con "buenas propiedades":

    Insesgado(centrado): el valor esperado del estimador (su centro) coincide con

    lo que queremos estimar.

    Eficiente: es el de mnima varianza entre los insesgados.

    Consistente: al aumentar el tamao muestral el estimador se acerca

    indefinidamente al parmetro que queremos estimar.

    Formalmente,

    Llamamos sesgode un estimador para un parmetro poblacional a

    Sesgo ( )=E ( )-

    y diremos que el estimador es insesgadosi su sesgo vale cero.

    Definimos el error cuadrtico medio de un estimador

    para un parmetropoblacional como

    E ( -)2= (Sesgo ( ))

    2+Var ( )

    y diremos que dicho estimador es consistentesi lim E( - )2= 0 , cuando n tiende a .

    Es intuitivo y se puede demostrar matemticamente que, en general, un buen

    estimador de un parmetro poblacional (media, proporcin, etc.) va a ser el

    correspondiente parmetro muestral (media de la muestra, proporcin muestral, etc.),

    aunque en algn caso deba modificarse ligeramente. Por ejemplo, para estimar la

    varianza de una poblacin la varianza muestral no es un estimador insesgado y

    podemos sustituirlo por la cuasivarianza muestral, definida como

  • 7/25/2019 Tema 6 Estadstica

    5/13

    Tema 6: Estimacin puntual e intervalos de confianza

    5

    M. Angeles Fdez. Sotelo

    2

    2 1

    1

    n

    i

    i

    X

    n

    (es decir, dividimos por n-1 en vez de hacerlo por n).

    Observemos que, al ser la varianza muestral

    22 1

    n

    i

    i

    X

    sn

    , se tiene

    2 2

    1

    ns

    n

    Ejemplo de Estimacin Puntual

    Supongamos que nuestra poblacin es un conjunto de 4 nmeros:

    {0, 2, 3, 5}

    y que deseamos conocer la proporcin, p, de cincos en la poblacin. Obviamente la

    respuesta es:

    10.25

    4p

    Pero vamos a utilizar argumentos propios de inferencia estadstica para obtener

    aproximadamente el valor de p. (Ntese que el problema que estamos tratando

    presenta caractersticas anlogas, por ejemplo, al de conocer la proporcin devotantes de un partido poltico antes de unas elecciones, proporcin de piezas que

    fallan en una instalacin,).

    Para resolver el problema, en lugar de trabajar con toda la poblacin, vamos a

    considerar una muestra (con reemplazamiento) de tamao 2 y vamos a considerar

    como estimador la proporcin de cincos en la muestra, es decir, la proporcin

    muestral. Esta proporcin muestral es, en principio, una variable aleatoria, porque

    depende de la muestra.

    Posibles muestras (de tamao 2):

    0, 0 0, 2 0, 3 0, 5

    2, 0 2, 2 2 ,3 2 ,5

    3, 0 3, 2 3, 3 3, 5

    5, 0 5, 2 5, 3 5, 5

    La proporcin muestral es, en este caso, una variable discreta, que se distribuye de la

    siguiente forma:

  • 7/25/2019 Tema 6 Estadstica

    6/13

    Tema 6: Estimacin puntual e intervalos de confianza

    6

    M. Angeles Fdez. Sotelo

    ix

    ip

    i ix p 2

    i ix p

    0 9/16 0 0

    1/2 6/16 6/32 6/64

    1 1/16 1/16 4/64

    La media de esta variable es 0.25 (precisamente el verdadero valor de p) y su

    varianza es 3/32.

    Las posibles estimaciones son 0, 1/2 y 1.

    Notemos que ninguna estimacin coincide con el verdadero valor dep.

    Tomando muestras de tamao 3, las estimaciones que se pueden conseguir son: 0,

    1/3, 2/3 y 1.

    En la prctica, en un problema de estimacin puntual:

    1) Fijaremos el tamao de la muestra, de acuerdo con ciertos criterios.

    2) Obtendremos una muestra de tamao n, por medio de algn mtodo de

    muestreo.

    3) Calcularemos el valor del estadstico para nuestra muestra. Ese valor, que es

    una estimacin, nos da un valor aproximado para el parmetro desconocido.

    Dado que el estadstico es una variable, si elegimos una muestra distinta obtendremos

    una estimacin distinta. Por eso es importante elegir un estadstico con buenas

    propiedades, y un tamao adecuado para la muestra.

    ESTIMACIN DE UNA PROPORCIN (O PARMETROpDE UNA BINOMIAL)

    Consideremos un experimento aleatorio, E, que admite dos posibles resultados:

    AyAc

    siendo ( )p p A

    Si X es la variable aleatoria nmero de veces que ocurre A en una prueba de este

    experimento, sabemos queXes una variable aleatoria binomial de parmetros 1 yp.

    Si p es desconocido, vamos a considerar 1 2, ,..., nX X X , n variables aleatorias

    independientes con la misma distribucin que X, es decir, vamos a considerar n

    pruebas del experimento E y definimos el siguiente estadstico al que se denomina

    proporcin muestral:

  • 7/25/2019 Tema 6 Estadstica

    7/13

    Tema 6: Estimacin puntual e intervalos de confianza

    7

    M. Angeles Fdez. Sotelo

    nmero de veces que ocurre en pruebas

    A np

    n

    Como todo estadstico, p es una variable aleatoria. Se puede probar que para n

    grande:

    (1 ) ,

    p pp N p

    n

    As pues, el estadstico p tiene las siguientes propiedades:

    p tiene distribucin Normal.

    p es una variable, ahora bien, aunque puede tomar diferentes valores se

    verifica que

    E p p . Como hemos dicho, un estadstico cuya esperanza esel verdadero valor del parmetro se dice que es insesgado.

    La varianza del estadstico es importante. De poco sirve que su esperanza

    coincida con el parmetro desconocido si presenta mucha varianza. En nuestro

    caso lim ( ) 0n

    V p

    .

    Ejemplo

    El fabricante de un determinado tipo de lmparas desea averiguar la proporcin de

    lmparas defectuosas que produce. Para ello selecciona y prueba 200 unidades y

    descubre un total de 80 unidades defectuosas.

    Una estimacin de la proporcinde lmparas defectuosas es

    p = 80/200=0.4

    ESTIMACIN DE LA MEDIA DE UNA VARIABLE NORMAL

    Consideramos una poblacin en la que la variable de inters, X, sigue una distribucin2( , )N . Si

    1 2

    , ,...,n

    X X X es una muestra aleatoria, vamos a definir el

    siguiente estadstico, al que denominamos media muestral:

    1 2 ...

    n

    X X X

    n

    , se tiene que

    2

    ,Nn

    .

    Por tanto, vemos que este estadstico tambin es insesgado.

  • 7/25/2019 Tema 6 Estadstica

    8/13

    Tema 6: Estimacin puntual e intervalos de confianza

    8

    M. Angeles Fdez. Sotelo

    Si n es grande, sigue siendo aproximadamente

    2

    ,Nn

    sin necesidad de

    exigir queX sea2( , )N . Por ello, las tcnicas que veremos a continuacin para la

    media de poblaciones normales, siguen siendo vlidas para poblaciones que no sean

    normales, si las muestras son grandes.

    Ejemplo

    En una poblacin de 10000 individuos se sabe que la estatura sigue una distribucin

    aproximadamente normal, y estamos interesados en estimar la estatura media. Para

    ello se elige una muestra de 50 individuos elegidos al azar, se miden sus estaturas y se

    calcula la media de esos 50 valores; se obtiene como media 162 cm.

    Este valor, =162, constituye una estimacin de la mediade la poblacin.

    OBTENCIN DE INTERVALOS DE CONFIANZA

    La estimacin puntual tiene el inconveniente de que no tenemos una medida de la

    seguridad con la que el estadstico se aproxima al verdadero parmetro. Para poder

    dar respuesta a esta cuestin construimos intervalos de confianza, que permiten

    precisar la incertidumbre existente en la estimacin.

    Un intervalo de confianza es aqul cuyos extremos son funciones de una

    muestra aleatoria (y por tanto variables aleatorias) y que contienen al

    parmetro con una cierta probabilidad que se denomina nivel de confianza.

    Sea el parmetro desconocido y1

    L y2

    L los extremos del intervalo. Se dice

    que el intervalo 1 2,L L tiene un nivel de confianza 1 , 0 1 , sidicho intervalo contiene al parmetro con probabilidad1 .

    El nivel de confianza se suele expresar en tanto por cien, as un intervalo de confianzadel 95 por cien es un intervalo de extremos aleatorios que contiene al parmetro con

    una probabilidad de 0.95.

    INTERVALO DE CONFIANZA PARA UNA PROPORCIN

    Si p es la proporcin de individuos que en una poblacin verifican una cierta

    propiedad, un intervalo de confianzade nivel 1 para dicha proporcinser, paravalores grandes de n:

  • 7/25/2019 Tema 6 Estadstica

    9/13

    Tema 6: Estimacin puntual e intervalos de confianza

    9

    M. Angeles Fdez. Sotelo

    2 2

    (1 ) (1 ) ,

    p p p pp z p z

    n n

    Donde, como sabemos, 2z es tal que, si ZN(0,1), 2( ) 2P Z z y p denota la proporcin muestral.

    Notemos que a mayor valor de n, menor longitud del intervalo de confianza y que a

    mayor nivel de confianza mayor longitud del intervalo.

    Ejemplo

    Con los datos: El fabricante de un determinado tipo de lmparas desea averiguar la

    proporcin de lmparas defectuosas que produce. Para ello selecciona y prueba 200

    unidades y descubre un total de 80 unidades defectuosas. Obtener un intervalo de

    confianzadel 99 por cien para la proporcin de lmparas defectuosas.

    El intervalo es:

    2 2

    (1 ) (1 ) ,

    p p p pp z p z

    n n

    Sustituyendo 0.4p ,2 2.575z

    y n=200 se obtiene el intervalo

    (0.311,0.489).

    INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA VARIABLE NORMAL

    Consideramos ahora una poblacin en la que la variable de inters, X, sigue una

    distribucin2( , )N . Vamos a estudiar el intervalo de confianza para la media,

    de nivel 1 en distintas situaciones:

    Cuando la varianza de la poblacin es conocida, el intervalo es:

    2 2 ,z z

    n n

    Cuando la varianza de la poblacin no es conocida, el intervalo adecuado es:

    1; 2 1; 2

    ,

    n nt t

    n n

  • 7/25/2019 Tema 6 Estadstica

    10/13

    Tema 6: Estimacin puntual e intervalos de confianza

    10

    M. Angeles Fdez. Sotelo

    siendo1; 2n

    t

    tal que si tes una distribucin t de Student con n-1grados de

    libertad, se tiene 1; 2( ) 2nP t t y es la cuasidesviacin tpica

    muestral, estimacin de la desviacin tpica, que viene dada por

    21

    1

    n

    i

    i

    X

    n

    Cuando la varianza de la poblacin no es conocida, y el tamao de la muestraes grande(nmayor que 30), debido a la aproximacin de la distribucin t a lanormal, el intervalo anterior puede sustituirse por

    2 2

    ,z z

    n n

    Vemos que es el mismo intervalo del caso de varianza conocida sustituyendo la

    varianza por su estimacin.

    Ejemplo

    La administracin de una empresa desea saber el tiempo que los trabajadores

    emplean en desplazarse al trabajo. Para ello observa una muestra de 200 trabajadores,

    que dan un tiempo medio de 45 minutos y una desviacin tpica de 30 minutos.

    Vamos a calcular un intervalo de confianza del nivel 95% para el tiempo medio.

    Se trata de un caso de varianza desconocida y tamao muestral grande por lo que el

    intervalo ser2 2

    ,z z

    n n

    . Teniendo en cuenta la relacin

    entre la varianza y la cuasivarianza, tenemos que200

    30199

    . Adems

    2 1.96z

    . Por tanto, el intervalo tendr los lmites 45 4.17

    3045 1.96

    199

    ,

    con lo cual se obtiene (40.83, 49.17).

    Si la muestra fuese de solo 20 trabajadores y la media y desviacin tpica fuesen las

    mismas, el intervalo sera1; 2 1; 2

    ,

    n nt t

    n n

    , suponiendo que la

    variable es normal.

  • 7/25/2019 Tema 6 Estadstica

    11/13

    Tema 6: Estimacin puntual e intervalos de confianza

    11

    M. Angeles Fdez. Sotelo

    En este caso,1; 2 19;0.025

    2.093n

    t t

    y los lmites del intervalo son

    45 4.17 45 14.40530

    45 2.09319

    , es decir (30.595,59.405).

    Observemos que es mucho ms amplio que en el caso anterior, lo cual nos confirma

    que la precisin de la estimacin es mayor al aumentar el tamao de la muestra.

    INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES

    Consideramos dos poblaciones independientes y en cada una de ellas estudiamos la

    proporcin de un suceso A. Estamos interesados en comparar las dos proporciones

    (que denotaremosp1yp2), para lo cual construiremos un intervalo de confianza para la

    diferenciap1-p2. Haremos n1pruebas en la primera poblacin y n2en la segunda.

    Se obtiene el siguiente intervalo de confianza, para valores de n1y n2suficientemente

    grandes:

    1 1 2 2 1 1 2 21 2 2 1 2 2

    1 2 1 2

    (1 ) (1 ) (1 ) (1 ) ,

    p p p p p p p pp p z p p z

    n n n n

    siendo1

    p y2

    p las proporciones muestrales.

    Ejemplo

    Se quiere estimar la diferencia de proporciones de estudiantes de dos titulaciones que

    encuentran trabajo cuando terminan sus estudios. Observados 200 individuos de cada

    titulacin, con la primera se colocaron el 85% mientras quede la segunda se colocaron

    el 80%. Determinar un intervalo de confianza al 95% para la diferencia de

    proporciones.

    Los valores para sustituir en la expresin del intervalo son1

    p =0.85,2

    p =0.80,

    2z

    =1.96, n1=n2=200 con lo cual se obtiene el intervalo de lmites

    0.850.15 0.800.20.85 0.80 1.96200 200

    , que resulta ser (-0.0243, 0.1243).

    INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE POBLACIONESNORMALES INDEPENDIENTES

    Consideramos ahora dos poblaciones en donde las variables de inters sern X e Y,

    independientes y con distribuciones2

    1 1( , )N y 2

    2 2( , )N respectivamente.

    Con el objeto de poder comparar las dos medias, construiremos un intervalo de

  • 7/25/2019 Tema 6 Estadstica

    12/13

    Tema 6: Estimacin puntual e intervalos de confianza

    12

    M. Angeles Fdez. Sotelo

    confianza para la diferencia 1-2. Tomaremos dos muestras,11 2

    , ,...,n

    X X X y

    21 2, ,...,

    nY Y Y . Al igual que en el caso de una poblacin, debemos distinguir varias

    situaciones:

    Las dosvarianzas sonconocidas. En este caso, el intervalo ser

    2 2 2 2

    1 2 1 21 2 2 1 2 2

    1 2 1 2

    ,z zn n n n

    Las varianzas son desconocidas pero podemos suponer que son iguales. Seobtiene el intervalo cuyos lmites son

    1 2

    2 2

    1 1 2 21 2 2; 2

    1 2 1 2

    ( 1) ( 1) 1 1

    2n n

    n nt

    n n n n

    Las varianzas son desconocidas y no podemos suponer que son iguales.Cuando los tamaos muestrales son suficientemente grandes, podemos utilizar

    el mismo intervalo que en el caso de varianzas conocidas sustituyndolas por

    sus estimaciones (cuasivarianzas), es decir, obtendremos el intervalo

    2 2 2 2

    1 2 1 21 2 2 1 2 2

    1 2 1 2

    ,z z

    n n n n

    pero si las muestras son pequeas, este intervalo no resulta adecuado y debe

    sustituirse2

    z

    por ; 2ft en dondefviene dado por la llamada aproximacin

    de Welch, que no estudiaremos.

    Ejemplo

    Se quiere comparar la eficiencia de dos lneas de produccin de una empresa, para locual se observa el nmero de piezas fabricadas en cinco das por cada una de ellas. En

    la primera han sido 50, 48, 53, 60 y 37 mientras que en la segunda 40, 51, 62, 55 y 64.

    Vamos a construir un intervalo de confianza al nivel 95% para la diferencia de medias

    suponiendo que las variables son normales y las varianzas son iguales (en realidad, a

    partir de los datos podramos deducir que esta suposicin efectivamente es admisible,

    pero no vamos a estudiar la tcnica correspondiente).

  • 7/25/2019 Tema 6 Estadstica

    13/13

    Tema 6: Estimacin puntual e intervalos de confianza

    13

    M. Angeles Fdez. Sotelo

    Sabemos que en este caso el intervalo viene dado por

    1 2

    2 2

    1 1 2 21 2 2; 2

    1 2 1 2

    ( 1) ( 1) 1 1

    2n n

    n nt

    n n n n

    De los datos deducimos1

    =49.6,2

    =54.4, 21 =8.38

    2, 22 =9.61

    2,

    1 2 2; 2 8;0.025n nt t

    =2.306, n1=n2=5 y, haciendo las operaciones, resulta

    24.80 2.3069.02 4.80 13.16

    5 , es decir, el intervalo es

    (-17.96, 8.36)