Inferencia Estadística
Estimación de ParámetrosEstimación de Parámetros
Estimación
Buscar valores razonables para los parámetros que caracterizan una distribución
Si la distribución supuesta es normal, los parámetros más buscados son la esperanza o media (µ) y la varianza (2)
Ejemplo
Una empresa de comercialización de semillas desea estimar la altura promedio de un sorgo forrajero que ha desarrollado. Para ello se toma una muestra de 50 plantas y se calcula la media de la altura, la que resulta ser de 130 cm.
Estimación
estimación puntual
por intervalo de confianza
Estimación Puntual
su promedio es
igual a µ
la media muestral es un estimador
130x
Insesgado Consistente Eficiente
de la media poblacional
está más cerca de µa medida que crece
el tamaño de la muestra
es más eficiente que la mediana por
tener menor varianza
Intervalos de Confianza
Encontrar el intervalo cerrado [LI, LS] donde:
LI = Límite Inferior LS = Límite Superior Entonces: P(LI ≤ ≤ LS) = 1-
Intervalo de Confianza para µ
Si 1- = 0.95, puede interpretarse como: “si se tomaran todas las muestras
posibles de tamaño n y se construyeran 100 intervalos, 95 incluirán a la verdadera media poblacional µ y sólo 5 no la contendrán”
Ejemplo
Se sabe que =22 cm.
Un intervalo para estimar a con una confianza del 95%, es:
El verdadero valor de la altura promedio del sorgo estará en este intervalo con un 95%
de confianza
22 22130 1.96 130 1.96
50 50
123.95 136.05
Ejemplo
El verdadero valor de la altura promedio del sorgo estará en este intervalo con un 99%
de confianza
22 22130 2.576 130 2.576
50 50
121.98 138.01
Un intervalo para estimar a con una confianza del 99%, es:
Efecto del cambio en el nivel de confianza
Si la confianza es del 95%
a= 136.05 – 123.95 = 12.1
Si la confianza es del 99%
a= 138.01 – 121.98 = 16.03
Sea la amplitud a = LS – LI
A mayor confianza mayor amplitud
Efecto del cambio en el tamaño de la muestra
Si n = 100
Para una confianza del 99% y n = 50
a = 138.01 – 121.98 = 16.03
a = 135.67 – 124.33 = 11.34
A mayor n menor amplitud
Conclusión
La amplitud de un intervalo de confianza es directamente
proporcional a la confianza de la estimación e inversamente
proporcional al tamaño de la muestra
Intervalos de Confianza
Efecto del coeficiente de confianza y del tamaño muestral sobre la amplitud del intervalo
Tamaño muestral necesario para estimar un parámetro con una precisión deseada
Tamaño de Muestra para estimar a µ con una precisión deseada
¿Cuál debería ser el tamaño mínimo de muestra, para que la amplitud no supere los 12.1 cm, cuando se aumenta la confianza al 99%?
Tamaño de Muestra para estimar a µ con una precisión deseada
1 2
22 Z
nc
Donde c es la amplitud del intervalo de confianza
Ejemplo
22 2.576 22
8812.1
n
Se debería tomar una muestra de al menos 88 plantas para que al estimar la altura promedio del sorgo forrajero con una confianza del 99% la amplitud del intervalo no sea mayor a 12,1
Intervalos de confianzaBilateralEstimación paramétrica
Campos Variable Parám. Estim. E.E. n LI(95%) LS(95%)A prof Media 81,79 2,35 14 76,71 86,86 B prof Media 79,43 2,62 14 73,77 85,08
Otro ejemplo
Se desea utilizar un suelo cuya profundidad no sea inferior a 75cm
Intervalos de confianzaUnilateral izquierdoEstimación paramétrica
Campos Variable Parám. Estim. E.E. n LI(95%)A prof Media 81,79 2,35 14 77,63 B prof Media 79,43 2,62 14 74,79
Otro ejemplo
Inferencia basada en una muestra
Contraste de HipótesisContraste de Hipótesis
Son proposiciones sobre uno o más parámetros de la distribución de la variable aleatoria en estudio.
Hipótesis estadísticas
Hipótesis nula (H0) Hipótesis alternativa (H1)
niega la hipótesis nulaestablece valores o
relaciones sobre uno o más parámetros
H0: 75 vs. H1: > 75
Prueba T para un parámetro
Valor del parámetro probado: 75campos Variable n Media DE LI(95) T p(Unilateral D)A prof 14 81,79 8,79 77,63 2,89 0,0063 B prof 14 79,43 9,80 74,79 1,69 0,0573
Ejemplo profundidad del suelo
Inferencia basada en dos muestras
Estimación de ParámetrosEstimación de Parámetros
Contraste de HipótesisContraste de Hipótesis
Inferencia basada en dos muestras
Contrastar hipótesis sobre la diferencia entre dos medias
0 1 2: = 0 H
Si el contraste es bilateral:
1 1 2 : 0 H
versus
Caso Normal-Muestras independientes
La inferencia se basa en el siguiente estadístico:
1 2
1 2 1 2
2
2
1 2
~1 1
n n
p
X XT T
Sn n
2 22 1 1 2 2
1 2
( 1) ( 1)
2p
n S n SS
n n
Varianzas desconocidas pero iguales
prueba T para muestras independientes cuando las varianzas son homogéneas
Intervalo de confianza bilateral para la diferencia de medias está dado por:
Caso Normal-Muestras independientes
1 2
21 2 (1 / 2) ; 2
1 2
1 1n n px x t s
n n
Varianzas desconocidas pero iguales
Ejemplo
Para comparar el contenido promedio de aceites de las semillas de dos variedades de maní, se plantean las hipótesis H0: 1= 2 vs H1: 1 2
Se diseña un ensayo en el que para cada variedad se obtienen los contenidos de aceite de 10 bolsas de 1 kg de semillas de maní, extraídas aleatoriamente de distintos productores de semillas.
Ejemplo
Los resultados del ensayo son los siguientes:
Variedad n S2
1 10 160.4 65.3
2 10 165.6 67.9
X
¿Cómo saber si las varianzas son iguales o diferentes?
Suponiendo normalidad para las observaciones de las muestras, una prueba de homogeneidad de varianzas se basa en el estadístico:
1 2
21
( 1, 1)22
~ n n
sF F
s
¿Cómo saber si las varianzas son iguales o diferentes?
2 21 1 2 :H
2 20 1 2: H versus
65.30.96
67.9F
Bajo H0 se
distribuye como una F con 9 y 9 grados de libertad
Prueba F
0.0 1.5 3.0 4.5 6.00.248 4.03
Distribución F de Snedecor
La región de aceptación para un nivel de significación del 5% está delimitada por 0.248 y 4.03, correspondientes a los cuantiles /2 y (1 - /2) respectivamente
Ejemplo
Como F=0.96 está en el intervalo
(0.248; 4.03) se acepta H0: 12= 2
2
Se concluye que no hay diferencias entre las varianzas poblacionales, lo que indica el cumplimiento del supuesto de homogeneidad de varianzas
Prueba T para la diferencia de medias
1 2
1 2 1 2
2
2
1 2
~1 1
n n
p
X XT T
Sn n
Prueba T
-4.0 -2.7 -1.3 0.0 1.3 2.7 4.0-2.101 2.101
Distribución T de Student
La región de aceptación para un nivel de significación del 5% está delimitada por -2.101 y 2.101, correspondientes a los cuantiles /2 y (1 - /2) respectivamente y 18 grados de libertad
160.4 165.6 01.42
1 166.6
10 10
T
Como T=-1.42 está en el intervalo
(-2.101; 2.101) se acepta H0: 1= 2
Se concluye que no hay diferencias entre las dos variedades de maní considerando el contenido de aceites en la semilla
Prueba T
Caso Normal-Muestras independientes
La inferencia se basa en el estadístico:
1 2 1 2
2 21 2
1 2
' ~X X
T TS S
n n
22 21 2
1 2
2 22 21 2
1 2
1 2
2
1 1
S Sn n
S Sn n
n n
Varianzas desconocidas y diferentes
prueba T para muestras independientes cuando las varianzas no son homogéneas
Intervalo de confianza bilateral 1- para la diferencia de medias está dado por:
2 21 2
1 2 (1 / 2) ;1 2
s sx x t
n n
Caso Normal-Muestras independientes
Varianzas desconocidas y diferentes
Comparar el efecto de la restriccion alimentaria sobre los metabolitos Ca y P.
Se realiza un experimento en el cual se seleccionan al azar 10 animales para cada tratamiento: alimentación restrigida y alimentación no restringida. En cada animal se mide el nivel de Ca y de P.
Prueba T – Otro ejemplo
Clasific Variable Grupo(1) Grupo(2) n(1) n(2)Trat Ca {No Restr} {Restr} 10 10
media(1) media(2) LI(95%) LS(95%) 8,87 8,68 -0,71 1,09
Varianza(1) Varianza(2) p(Var.Hom.) T gl 1,33 0,49 0,1490 0,45 18
p prueba 0,6612 Bilateral
Prueba T - Muestras independientes
Clasific Variable Grupo(1) Grupo(2) n(1) n(2)Trat P {No Restr} {Restr} 10 10
media(1) media(2) LI(95%) LS(95%) 7,92 8,00 -1,03 0,86
Varianza(1) Varianza(2) p(Var.Hom.) T gl 1,65 0,23 0,0072 -0,19 12
p prueba 0,8530 Bilateral
Prueba T - Muestras independientes
Clasific Variable Grupo(1) Grupo(2) n(1)Lecitina lts./dia {CON} {SIN} 9
n(2) media(1) media(2) LI(95%) LS(95%)8 17,71 14,45 2,30 4,22
Varianza(1) Varianza(2) p(Var.Hom.) 0,75 0,97 0,7215
T gl p prueba 7,25 15 <0,0001 Bilateral
Prueba T - Muestras independientesEjemplo suplemento con lecitina
Clasific Variable Grupo(1) Grupo(2)Lecitina lts./dia {CON} {SIN}
n(1) n(2) media(1) media(2) LI(95%)LS(95%) 9 8 17,71 14,45 2,47 sd
Varianza(1) Varianza(2) p(Var.Hom.) 0,75 0,97 0,7215
T gl p prueba 7,25 15 <0,0001 UnilatD
Prueba T - Muestras independientesEjemplo suplemento con lecitina
Caso Normal- Muestras dependientes
Los datos se obtienen de muestras que están relacionadas, es decir, los resultados del primer grupo no son independientes de los del segundo.
Por ejemplo, esto ocurre cuando se mide el nivel de un metabolito en cada uno de los individuos de un grupo experimental antes y después de la administración de una droga.
Caso Normal- Muestras dependientes
El objetivo es comprobar si la droga produce efectos en el nivel del metabolito
Los pares de observaciones (antes y después) obtenidas en cada individuo no son independientes ya que el nivel posterior a la administración de la droga depende del nivel inicial.
Caso Normal- Muestras dependientes
La inferencia se basa en el siguiente estadístico, que depende de la media y la varianza de las diferencias y del valor hipotetizado para el promedio poblacional de las diferencias ()
1
2~ n
D
DT t
S
n
La prueba de hipótesis para la diferencia de medias se conoce como prueba T para muestras apareadas.
Intervalo de confianza bilateral 1- para la diferencia de medias () está dado por:
2
(1 / 2); 1D
n
SD t
n
Caso Normal- Muestras dependientes
ANTES DESPUES DIF8,69 7,24 1,457,13 7,10 0,037,79 7,80 -0,017,93 7,95 -0,027,59 7,50 0,097,86 7,79 0,079,06 9,00 0,069,59 9,48 0,11
Caso Normal- Muestras dependientesEjemplo
Prueba T (muestras apareadas)
Obs(1) Obs(2) N media(dif)ANTES DESPUES 8 0,22
DE(dif) LI(95%) LS(95%) T 0,50 -0,19 0,64 1,26
Bilateral 0,2469
Caso Normal- Muestras dependientesEjemplo
Tanto cuando no se rechaza la hipótesis nula como cuando se rechaza, es posible
cometer errores
Errores en la Prueba de Hipótesis
Frente a una hipótesis nula se toma una decisión
o Aceptar H0
Es incorrecto si fuese falsa
Rechazar H0
Es incorrecto si fuese verdadera
Errores
Error de Tipo Ila hipótesis nula es cierta y se rechaza
erróneamente
La probabilidad de cometer este tipo de error está bajo control del experimentador. Su máximo valor se simboliza con y recibe el nombre de nivel de significación
Error de tipo I
Error de tipo II
Error de Tipo II: la hipótesis nula es falsa y no se rechaza
La probabilidad () de cometer este tipo de error queda determinada por:
el nivel de significación elegido el tamaño muestral la magnitud de la discrepancia entre la
hipótesis postulada y la situación verdadera.
Punto crítico 1 Punto crítico 2Zona de aceptación de H0
Zona de rechazo 0
/21 -
Zona de rechazo
/2
( -0)/(/n)
Error Tipo II
Potencia
Se define a la potencia como: = 1 - Probabilidad de error de Tipo II
Esta probabilidad es una medida de la potencialidad que se tiene en un experimento para detectar que la hipótesis nula es falsa.
= 1-
Regresión LinealModelar la relación entre dos o más variables
La variable respuesta es la dependiente y las otras variables son las independientes o regresoras
Estimar los parámetros del modelo
Probar hipótesis sobre los parámetros
Predecir el nivel medio de la respuesta para determinados valores de las regresoras
Regresión Lineal
Ejemplo
Estudiar la relación entre la longitud de la planta y la temperatura
0 5 10 15 20 25 30
Temp (C°)
0
5
10
15
20
25
30
35
LP
(m
m)
Regresión Lineal
ij i ijY x Modelo propuesto:
Variable respuesta
(longitud)
Ordenada al origen
Valor de Y para X=0
PendienteTasa de cambio en Y (longitud) ante el cambio unitario en X (temperatura)
Variable independiente
(temperatura)
Error aleatorio
Regresión Lineal Variable N R² LP (mm) 19 0,60
Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valorconst 8,69 2,54 3,32 14,06 3,42 0,0033 Temp 0,72 0,14 0,42 1,02 5,04 0,0001
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valorTemp (C°) 317,86 1 317,86 25,41 0,0001Error 212,66 17 12,51 Total 530,53 18
Regresión Lineal
ˆ
ˆ 8,69 0,72
y a bx
y x
Modelo ajustado
Valor predicho para x= 22 ° C
ˆ 8,69 0,72 22
ˆ 24,53
y
y
Regresión Lineal
0 5 10 15 20 25 30
Temp (C°)
0
5
10
15
20
25
30
35L
P (
mm
)
Regresión LinealVariable N R² LP (mm) 19 0,60 Valor predictivo del
modelo ajustado
Proporción de la variabilidad total explicada por el modelo.
El 60% de la suma de cuadrados totales de la variable longitud es explicada a través de una relación lineal, por la variación observada en la temperatura.
Top Related