Download - Inferencia Estadística Estimación de Parámetros. Estimación Buscar valores razonables para los parámetros que caracterizan una distribución Si la distribución.

Inferencia Estadística

Estimación de ParámetrosEstimación de Parámetros

Estimación

Buscar valores razonables para los parámetros que caracterizan una distribución

Si la distribución supuesta es normal, los parámetros más buscados son la esperanza o media (µ) y la varianza (2)

Ejemplo

Una empresa de comercialización de semillas desea estimar la altura promedio de un sorgo forrajero que ha desarrollado. Para ello se toma una muestra de 50 plantas y se calcula la media de la altura, la que resulta ser de 130 cm.

Estimación

estimación puntual

por intervalo de confianza

Estimación Puntual

su promedio es

igual a µ

la media muestral es un estimador

130x

Insesgado Consistente Eficiente

de la media poblacional

está más cerca de µa medida que crece

el tamaño de la muestra

es más eficiente que la mediana por

tener menor varianza

Intervalos de Confianza

Encontrar el intervalo cerrado [LI, LS] donde:

LI = Límite Inferior LS = Límite Superior Entonces: P(LI ≤ ≤ LS) = 1-

Intervalo de Confianza para µ

Si 1- = 0.95, puede interpretarse como: “si se tomaran todas las muestras

posibles de tamaño n y se construyeran 100 intervalos, 95 incluirán a la verdadera media poblacional µ y sólo 5 no la contendrán”

Ejemplo

Se sabe que =22 cm.

Un intervalo para estimar a con una confianza del 95%, es:

El verdadero valor de la altura promedio del sorgo estará en este intervalo con un 95%

de confianza

22 22130 1.96 130 1.96

50 50

123.95 136.05

Ejemplo

El verdadero valor de la altura promedio del sorgo estará en este intervalo con un 99%

de confianza

22 22130 2.576 130 2.576

50 50

121.98 138.01

Un intervalo para estimar a con una confianza del 99%, es:

Efecto del cambio en el nivel de confianza

Si la confianza es del 95%

a= 136.05 – 123.95 = 12.1

Si la confianza es del 99%

a= 138.01 – 121.98 = 16.03

Sea la amplitud a = LS – LI

A mayor confianza mayor amplitud

Efecto del cambio en el tamaño de la muestra

Si n = 100

Para una confianza del 99% y n = 50

a = 138.01 – 121.98 = 16.03

a = 135.67 – 124.33 = 11.34

A mayor n menor amplitud

Conclusión

La amplitud de un intervalo de confianza es directamente

proporcional a la confianza de la estimación e inversamente

proporcional al tamaño de la muestra

Intervalos de Confianza

Efecto del coeficiente de confianza y del tamaño muestral sobre la amplitud del intervalo

Tamaño muestral necesario para estimar un parámetro con una precisión deseada

Tamaño de Muestra para estimar a µ con una precisión deseada

¿Cuál debería ser el tamaño mínimo de muestra, para que la amplitud no supere los 12.1 cm, cuando se aumenta la confianza al 99%?

Tamaño de Muestra para estimar a µ con una precisión deseada

1 2

22 Z

nc

Donde c es la amplitud del intervalo de confianza

Ejemplo

22 2.576 22

8812.1

n

Se debería tomar una muestra de al menos 88 plantas para que al estimar la altura promedio del sorgo forrajero con una confianza del 99% la amplitud del intervalo no sea mayor a 12,1

Intervalos de confianzaBilateralEstimación paramétrica

Campos Variable Parám. Estim. E.E. n LI(95%) LS(95%)A prof Media 81,79 2,35 14 76,71 86,86 B prof Media 79,43 2,62 14 73,77 85,08

Otro ejemplo

Se desea utilizar un suelo cuya profundidad no sea inferior a 75cm

Intervalos de confianzaUnilateral izquierdoEstimación paramétrica

Campos Variable Parám. Estim. E.E. n LI(95%)A prof Media 81,79 2,35 14 77,63 B prof Media 79,43 2,62 14 74,79

Otro ejemplo

Inferencia basada en una muestra

Contraste de HipótesisContraste de Hipótesis

Son proposiciones sobre uno o más parámetros de la distribución de la variable aleatoria en estudio.

Hipótesis estadísticas

Hipótesis nula (H0) Hipótesis alternativa (H1)

niega la hipótesis nulaestablece valores o

relaciones sobre uno o más parámetros

H0: 75 vs. H1: > 75

Prueba T para un parámetro

Valor del parámetro probado: 75campos Variable n Media DE LI(95) T p(Unilateral D)A prof 14 81,79 8,79 77,63 2,89 0,0063 B prof 14 79,43 9,80 74,79 1,69 0,0573

Ejemplo profundidad del suelo

Inferencia basada en dos muestras

Estimación de ParámetrosEstimación de Parámetros

Contraste de HipótesisContraste de Hipótesis

Inferencia basada en dos muestras

Contrastar hipótesis sobre la diferencia entre dos medias

0 1 2: = 0 H

Si el contraste es bilateral:

1 1 2 : 0 H

versus

Caso Normal-Muestras independientes

La inferencia se basa en el siguiente estadístico:

1 2

1 2 1 2

2

2

1 2

~1 1

n n

p

X XT T

Sn n

2 22 1 1 2 2

1 2

( 1) ( 1)

2p

n S n SS

n n

Varianzas desconocidas pero iguales

prueba T para muestras independientes cuando las varianzas son homogéneas

Intervalo de confianza bilateral para la diferencia de medias está dado por:


1 2

21 2 (1 / 2) ; 2

1 2

1 1n n px x t s

n n

Varianzas desconocidas pero iguales

Ejemplo

Para comparar el contenido promedio de aceites de las semillas de dos variedades de maní, se plantean las hipótesis H0: 1= 2 vs H1: 1 2

Se diseña un ensayo en el que para cada variedad se obtienen los contenidos de aceite de 10 bolsas de 1 kg de semillas de maní, extraídas aleatoriamente de distintos productores de semillas.

Ejemplo

Los resultados del ensayo son los siguientes:

Variedad n S2

1 10 160.4 65.3

2 10 165.6 67.9

X

¿Cómo saber si las varianzas son iguales o diferentes?

Suponiendo normalidad para las observaciones de las muestras, una prueba de homogeneidad de varianzas se basa en el estadístico:

1 2

21

( 1, 1)22

~ n n

sF F

s

¿Cómo saber si las varianzas son iguales o diferentes?

2 21 1 2 :H

2 20 1 2: H versus

65.30.96

67.9F

Bajo H0 se

distribuye como una F con 9 y 9 grados de libertad

Prueba F

0.0 1.5 3.0 4.5 6.00.248 4.03

Distribución F de Snedecor

La región de aceptación para un nivel de significación del 5% está delimitada por 0.248 y 4.03, correspondientes a los cuantiles /2 y (1 - /2) respectivamente

Ejemplo

Como F=0.96 está en el intervalo

(0.248; 4.03) se acepta H0: 12= 2

2

Se concluye que no hay diferencias entre las varianzas poblacionales, lo que indica el cumplimiento del supuesto de homogeneidad de varianzas

Prueba T para la diferencia de medias

1 2

1 2 1 2

2

2

1 2

~1 1

n n

p

X XT T

Sn n

Prueba T

-4.0 -2.7 -1.3 0.0 1.3 2.7 4.0-2.101 2.101

Distribución T de Student

La región de aceptación para un nivel de significación del 5% está delimitada por -2.101 y 2.101, correspondientes a los cuantiles /2 y (1 - /2) respectivamente y 18 grados de libertad

160.4 165.6 01.42

1 166.6

10 10

T

Como T=-1.42 está en el intervalo

(-2.101; 2.101) se acepta H0: 1= 2

Se concluye que no hay diferencias entre las dos variedades de maní considerando el contenido de aceites en la semilla

Prueba T


La inferencia se basa en el estadístico:

1 2 1 2

2 21 2

1 2

' ~X X

T TS S

n n

22 21 2

1 2

2 22 21 2

1 2

1 2

2

1 1

S Sn n

S Sn n

n n

Varianzas desconocidas y diferentes

prueba T para muestras independientes cuando las varianzas no son homogéneas

Intervalo de confianza bilateral 1- para la diferencia de medias está dado por:

2 21 2

1 2 (1 / 2) ;1 2

s sx x t

n n


Varianzas desconocidas y diferentes

Comparar el efecto de la restriccion alimentaria sobre los metabolitos Ca y P.

Se realiza un experimento en el cual se seleccionan al azar 10 animales para cada tratamiento: alimentación restrigida y alimentación no restringida. En cada animal se mide el nivel de Ca y de P.

Prueba T – Otro ejemplo

Clasific Variable Grupo(1) Grupo(2) n(1) n(2)Trat Ca {No Restr} {Restr} 10 10

media(1) media(2) LI(95%) LS(95%) 8,87 8,68 -0,71 1,09

Varianza(1) Varianza(2) p(Var.Hom.) T gl 1,33 0,49 0,1490 0,45 18

p prueba 0,6612 Bilateral

Prueba T - Muestras independientes

Clasific Variable Grupo(1) Grupo(2) n(1) n(2)Trat P {No Restr} {Restr} 10 10

media(1) media(2) LI(95%) LS(95%) 7,92 8,00 -1,03 0,86

Varianza(1) Varianza(2) p(Var.Hom.) T gl 1,65 0,23 0,0072 -0,19 12

p prueba 0,8530 Bilateral

Prueba T - Muestras independientes

Clasific Variable Grupo(1) Grupo(2) n(1)Lecitina lts./dia {CON} {SIN} 9

n(2) media(1) media(2) LI(95%) LS(95%)8 17,71 14,45 2,30 4,22

Varianza(1) Varianza(2) p(Var.Hom.) 0,75 0,97 0,7215

T gl p prueba 7,25 15 <0,0001 Bilateral

Prueba T - Muestras independientesEjemplo suplemento con lecitina

Clasific Variable Grupo(1) Grupo(2)Lecitina lts./dia {CON} {SIN}

n(1) n(2) media(1) media(2) LI(95%)LS(95%) 9 8 17,71 14,45 2,47 sd

Varianza(1) Varianza(2) p(Var.Hom.) 0,75 0,97 0,7215

T gl p prueba 7,25 15 <0,0001 UnilatD

Prueba T - Muestras independientesEjemplo suplemento con lecitina

Caso Normal- Muestras dependientes

Los datos se obtienen de muestras que están relacionadas, es decir, los resultados del primer grupo no son independientes de los del segundo.

Por ejemplo, esto ocurre cuando se mide el nivel de un metabolito en cada uno de los individuos de un grupo experimental antes y después de la administración de una droga.


El objetivo es comprobar si la droga produce efectos en el nivel del metabolito

Los pares de observaciones (antes y después) obtenidas en cada individuo no son independientes ya que el nivel posterior a la administración de la droga depende del nivel inicial.


La inferencia se basa en el siguiente estadístico, que depende de la media y la varianza de las diferencias y del valor hipotetizado para el promedio poblacional de las diferencias ()

1

2~ n

D

DT t

S

n

La prueba de hipótesis para la diferencia de medias se conoce como prueba T para muestras apareadas.

Intervalo de confianza bilateral 1- para la diferencia de medias () está dado por:

2

(1 / 2); 1D

n

SD t

n


ANTES DESPUES DIF8,69 7,24 1,457,13 7,10 0,037,79 7,80 -0,017,93 7,95 -0,027,59 7,50 0,097,86 7,79 0,079,06 9,00 0,069,59 9,48 0,11

Caso Normal- Muestras dependientesEjemplo

Prueba T (muestras apareadas)

Obs(1) Obs(2) N media(dif)ANTES DESPUES 8 0,22

DE(dif) LI(95%) LS(95%) T 0,50 -0,19 0,64 1,26

Bilateral 0,2469

Caso Normal- Muestras dependientesEjemplo

Tanto cuando no se rechaza la hipótesis nula como cuando se rechaza, es posible

cometer errores

Errores en la Prueba de Hipótesis

Frente a una hipótesis nula se toma una decisión

o Aceptar H0

Es incorrecto si fuese falsa

Rechazar H0

Es incorrecto si fuese verdadera

Errores

Error de Tipo Ila hipótesis nula es cierta y se rechaza

erróneamente

La probabilidad de cometer este tipo de error está bajo control del experimentador. Su máximo valor se simboliza con y recibe el nombre de nivel de significación

Error de tipo I

Error de tipo II

Error de Tipo II: la hipótesis nula es falsa y no se rechaza

La probabilidad () de cometer este tipo de error queda determinada por:

el nivel de significación elegido el tamaño muestral la magnitud de la discrepancia entre la

hipótesis postulada y la situación verdadera.

Punto crítico 1 Punto crítico 2Zona de aceptación de H0

Zona de rechazo 0

/21 -

Zona de rechazo

/2

( -0)/(/n)

Error Tipo II

Potencia

Se define a la potencia como: = 1 - Probabilidad de error de Tipo II

Esta probabilidad es una medida de la potencialidad que se tiene en un experimento para detectar que la hipótesis nula es falsa.

= 1-

Regresión LinealModelar la relación entre dos o más variables

La variable respuesta es la dependiente y las otras variables son las independientes o regresoras

Estimar los parámetros del modelo

Probar hipótesis sobre los parámetros

Predecir el nivel medio de la respuesta para determinados valores de las regresoras

Regresión Lineal

Ejemplo

Estudiar la relación entre la longitud de la planta y la temperatura

0 5 10 15 20 25 30

Temp (C°)

0

5

10

15

20

25

30

35

LP

(m

m)

Regresión Lineal

ij i ijY x Modelo propuesto:

Variable respuesta

(longitud)

Ordenada al origen

Valor de Y para X=0

PendienteTasa de cambio en Y (longitud) ante el cambio unitario en X (temperatura)

Variable independiente

(temperatura)

Error aleatorio

Regresión Lineal Variable N R² LP (mm) 19 0,60

Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valorconst 8,69 2,54 3,32 14,06 3,42 0,0033 Temp 0,72 0,14 0,42 1,02 5,04 0,0001

Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valorTemp (C°) 317,86 1 317,86 25,41 0,0001Error 212,66 17 12,51 Total 530,53 18

Regresión Lineal

ˆ

ˆ 8,69 0,72

y a bx

y x

Modelo ajustado

Valor predicho para x= 22 ° C

ˆ 8,69 0,72 22

ˆ 24,53

y

y

Regresión Lineal

0 5 10 15 20 25 30

Temp (C°)

0

5

10

15

20

25

30

35L

P (

mm

)

Regresión LinealVariable N R² LP (mm) 19 0,60 Valor predictivo del

modelo ajustado

Proporción de la variabilidad total explicada por el modelo.

El 60% de la suma de cuadrados totales de la variable longitud es explicada a través de una relación lineal, por la variación observada en la temperatura.