SEMINARIO DE INVESTIGACIÓN IV · PDF fileSEMINARIO DE INVESTIGACIÓN IV ING....
Transcript of SEMINARIO DE INVESTIGACIÓN IV · PDF fileSEMINARIO DE INVESTIGACIÓN IV ING....
1
SEMINARIO DE INVESTIGACIÓN IV ING. MARÍA TERESA CASTAÑEDA GALVIS
MAESTRIA EN ADMINISTRACIÓN
2
ESTADISTICA INFERENCIAL
3
Deducir los valores reales que toma una variable en una población, a partir de los valores que toma esa variable en una muestra aleatoria de la misma.
QUÉ ES ESTADISTICA INFERENCIAL?
4 TIPOS DE ERROR EN LA INFERENCIA ESTADISTICA
REALIDAD RESULTADO DEL
JUICIO INOCENTE CULPABLE
INOCENTE ACIERTO ERROR TIPO II
CULPABLE ERROR TIPO I ACIERTO
Cuando se juzga a una persona, puede declarársele inocente o culpable. Independientemente del resultado del juicio, la persona será inocente o culpable de verdad.
Nos planteamos entonces qué es más grave, si declarar culpable a un inocente (error tipo I) o declarar inocente a un culpable (error tipo II). En las sociedades democráticas, se toma como menos grave la última situación, por lo que se parte del supuesto de inocencia.
5
Una manera de hacer inferencia es haciendo una afirmación acerca del valor que el parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar basada en alguna creencia o experiencia pasada que será contrastada con la evidencia que nosotros obtengamos a través de la información contenida en la muestra. Esto es a lo que llamamos Prueba de Hipótesis
PRUEBA DE HIPÓTESIS
6
-Hipótesis Nula
-Hipótesis Alternativa
-Estadística de Prueba
-Región de Rechazo
PRUEBA DE HIPÓTESIS
Una prueba de hipótesis comprende cuatro componentes principales:
7 PRUEBA DE HIPÓTESIS Ho: Hipótesis nula. Denotada como Ho siempre especifica un solo valor del parámetro de la población si la hipótesis es simple o un conjunto de valores si es compuesta (es lo que queremos desacreditar) H1: Hipótesis Alterna. Hipótesis de investigación denotada como H1 es la que responde nuestra pregunta, la que se establece en base a la evidencia que tenemos. Puede tener cuatro formas:
Ejemplo: ¿Se puede concluir que la media de una población es diferente de 50? Ho: μ= 50 H1: μ≠ 50
8
Nivel de significación α: Es la probabilidad de rechazar una hipótesis nula. Los valores que se encuentran con mayor frecuencia son: 0,01; 0,05 y 0,1. valor-p
PRUEBA DE HIPÓTESIS
La Región de Rechazo es el conjunto de valores tales que si la prueba estadística cae dentro de este rango, decidimos rechazar la Hipótesis Nula.
Conclusiones de una Prueba de Hipótesis: Si rechazamos la Hipótesis Nula, concluimos que “hay suficiente evidencia estadística para inferir que la hipótesis nula es falsa” Si no rechazamos la Hipótesis Nula, concluimos que “no hay suficiente evidencia estadística para inferir que la hipótesis nula es falsa”
9
A tener en cuenta en prueba de hipótesis
• Media poblacional
• Si el tamaño de muestra es suficientemente grande (n >30), • a ) C u a n d o l a v a r i a n z a poblacional sea conocida, use la distribución normal, usando el valor de Z tal que Z à N(0, 1)
• b ) C u a n d o l a v a r i a n z a poblacional sea desconocida, use el estimador y con ello calcule Z tal que Z à N(0, 1)
• Si el tamaño de muestra es pequeño; es decir, si n < 30 use la distribución t de Student, usando a l a v a r i a n z a m u e s t r a l c o m o e s t i m a d o r d e l a v a r i a n z a poblacional, cuando ésta es desconocida.
A tener en cuenta en prueba de hipótesis
• Diferencia de medias en dos poblaciones
• a) Con varianzas poblacionales conocidas: Use la distribución normal con el Z apropiado para la diferencia de medias, tal que Z à N(0, 1)
• b) Con varianzas poblacionales desconocidas:
• i) Cuando la suma de los tamaños de muestras, digamos (n = n1 + n2) sea no mayor a 30: Use la dist r ibución t de Student estimando apropiadamente la varianza de la diferencia de med ias mues t ra le s . En e l t calculado usar como grados de libertad a n1 + n2 – 2. Aquí debe distinguir los estimadores de la varianza de la diferencia de medias cuando las varianza son iguales o diferentes.
• ii) Cuando la suma de los tamaños de las muestras es mayor o igual a 30: Use la distribución n o r m a l , c a l c u l a n d o e l Z apropiadamente tal que Z à N(0, 1).
A tener en cuenta en prueba de hipótesis
• Varianza poblacional
• Use la distribución Chi – Cuadrado ya que suponemos que tanto la v a r i a n z a c o m o l a m e d i a p o b l a c i o n a l e s d e b e n s e r desconocidos. Para ello use sus respectivos estimadores puntuales.
• Razón de varianzas
• Use la distribución F de Fisher empleando los es t imadores correspondientes a la media y varianza poblacionales con (n-1) y (m-1) grados de libertad en el numerador y denominador, respectivamente.
• Proporción poblacional
• U s e l a d i s t r i b u c i ó n n o r m a l calculando el Z mediante los estimadores de la proporción poblacional tal que Z à N(0, 1)
• Diferencia de proporciones
• Como en el caso anterior, use Z
PRUEBA DE HIPÓTESIS
10
Además de ingresar los datos anteriores debe activar la casilla <Perform hypotesis test> y en la ventana de opciones debe seleccionar la forma de la hipótesis alternativa (less tan, not equal o greater tan).
El “p – value” es el nivel de significación calculado a partir de a , que permite:
Rechazar la Hipótesis Nula si el valor de p es muy pequeño (tiende a 0 digamos, el Mintab usa como límite); esto es, que sea menor a 0.05
No rechazar la Hipótesis Nula, si el valor de p es mayor que 0.05
PRUEBA DE HIPÓTESIS En minitab
11 PRUEBA DE HIPÓTESIS (Medias Poblacionales)
Suponga que la siguiente data corresponde a los ingresos salariales de 50 trabajadores durante una semana en el cual se sabe que el ingreso promedio es de 469.200 pesos con una desviación estándar de 24.840 pesos
454.020 474.720 515.430 497.490 484.380
462.300 478.860 429.870 475.410 474.030
468.510 458.850 489.900 511.290 487.140
504.390 414.000 461.610 496.800 500.250
489.900 497.490 438.150 462.300 477.480
435.390 485.760 442.290 431.250 447.120
457.470 425.730 475.410 471.270 465.060
451.260 503.010 475.410 483.000 467.820
453.330 451.260 489.900 440.220 467.820
442.980 424.350 425.730 462.300 467.820
Si el Sindicato de Trabajadores exige un incremento de salarios afirmando que el promedio de los mismos es inferior al valor que le corresponde por el incremento en el costo de vida. Tendrá razón el Sindicato?
N >30 Media Poblacional y desviación estándar conocida
EJERCICIO_1
12
Hipótesis Nula la afirmación (Ho): “El ingreso promedio es igual a 469.200 pesos”; es decir μo = 469.200.
Supondremos que la Hipótesis Alternativa (H1) consiste en afirmar que “El ingreso promedio es menor que 469.200 pesos”; es decir, μ1 < μo .
EJERCICIO_1
13 EJERCICIO_1
Como p = 0.26 es mayor que 0.05 entonces no existe evidencia suficiente para rechazar la Hipótesis Nula; es decir, el Sindicato no tiene razón en sus reclamos.
14
Si las varianzas son desconocidas se utilizan sus estimadores; es decir, las varianzas de la muestra.
Si n1 + n2 < 30, se usará la distribución t de Student con n1+ n2 – 2 grados de libertad.
Los tipos de Prueba de Hipótesis que se pueden plantear serán
PRUEBA DE HIPÓTESIS (Caso de la Diferencia de media en dos poblaciones)
15
Supongamos que el Director de la Oficina de Admisión afirma que el rendimiento promedio (Prom.Gral.) de los alumnos de Biología, provenientes de los colegios privados es mayor que el rendimiento promedio de los alumnos de Biología , provenientes de los colegios públicos. Abra el archivo Ingre99.Mtw para comprobar esta afirmación.
Sea H1 : “El rendimiento promedio de los alumnos de Biología, provenientes de los colegios privados es mayor que el rendimiento promedio de los alumnos de Biología , provenientes de los colegios públicos”.
Debemos probar: Ho: m priv = m pub
H1: m priv > m pub
EJERCICIO_2
16
En la base de datos Ingre99.Mtw tenemos 120 datos, de los cuales 23 corresponden a la Facultad de Biología, provenientes de colegios privados y públicos. Vamos a extraer de esta hoja sólo los alumnos que ingresaron a Biología.
EJERCICIO_2
17 EJERCICIO_2
18 EJERCICIO_2
Puesto que el p – value es mayor que el nivel de significación 0.05, no se rechaza Ho y se concluye de que no hay evidencia suficiente para afirmar que el rendimiento de los alumnos provenientes de colegios privados es mayor que los que provienen de los colegios públicos.
19 PRUEBA DE HIPÓTESIS (Caso de la Medias de Datos Pareados)
Para la diferencia de medias cuando nuestras muestras están pareadas (misma medición, misma unidad experimental, circunstancias diferentes) podemos usar la prueba de diferencia de medias. Sin embargo debemos notar que la varianza de la diferencia de medias lleva implícita la covarianza entre los estimadores.
20
Por ejemplo, cuando a una muestra de n pacientes se les evalúa su nivel de colesterol antes de aplicarles algún medicamento y luego se vuelve a evaluarlos después de la aplicación del medicamento.
A un grupo de trabajadores de una empresa se les somete a dos métodos de capacitación para medir la eficacia de los dos métodos. En ambos ejemplos se trata de la misma muestra
PRUEBA DE HIPÓTESIS (Caso de la Medias de Datos Pareados)
El programa Minitab dispone de una opción dentro del comando <Stat>, lo que se consigue usando la siguiente secuencia:
21 EJERCICIO_3
Una empresa fabricante de zapatos desea comparar dos materiales, A y B, para utilizar en las suelas de los zapatos para niños varones. En este ejemplo, cada uno de diez niños en un estudio usó un par especial de zapatos con la suela de un zapato hecha con el material A y con la suela del otro zapato hecha con el material B. El tipo de suela fue asignado de forma aleatoria para explicar las diferencias sistemáticas en el desgaste entre el pie izquierdo y el derecho. Después de tres meses, los zapatos se miden para su uso. HOJA DE TRABAJO eja_estad.mtv
µD =µP-µSP = 0
H0 : mD = 0 (No existe diferencia significativa en el rendimiento de las dos pruebas) H1: mD ≠ 0 (Sí existe diferencia significativa en el rendimiento de las dos pruebas)
IC y Prueba T pareada: Mat-A, Mat-B T pareada para Mat-A - Mat-B Error estándar de la N Media Desv.Est. media Mat-A 10 10.630 2.451 0.775 Mat-B 10 11.040 2.518 0.796 Diferencia 10 -0.410 0.387 0.122 IC de 95% para la diferencia media:: (-0.687, -0.133) Prueba t de diferencia media = 0 (vs. no = 0): Valor T = -3.35 Valor P = 0.009
Conclusión: El valor p pequeño (p = 0.009) también sugiere que los datos no concuerdan con H0: m d = 0, es decir, los dos materiales no tienen el mismo rendimiento
22 PRUEBA DE HIPÓTESIS (Proporción Poblacional)
Test and Confidence Interval for One Proportion Test of p = 0.55 vs p > 0.55 Success = Públ Exact Variable X N Sample p 95.0 % CI P-Value Colegio 53 120 0.441667 (0.351108, 0.535173) 0.993
BASE DE DATOS (IGRE99). Analicemos la variable: “Colegio
de procedencia”.
De los datos anteriores se sabe que el 55% de los alumnos
provienen de Colegios públicos. Si el Director del Colegio afirmaba
que para este año este porcentaje se incrementaría tenia
razón esta autoridad?
Como se puede ver, los alumnos ingresantes provienen de
colegios Públicos y Privados. Ho: Po = 0.55 H1: Pcp > Po
“Puesto que este valor es bastante mayor que 0.05, entonces no es cierto que el porcentaje de ingresantes de los colegios públicos se hayan incrementado.”
EJERCICIO_4
23 PRUEBA DE HIPÓTESIS Diferencia Proporciones)
En Minitab existe tres formas diferentes de realizar una prueba de hipótesis para una diferencia de proporciones muestrales:
Se usa la primera opción si los datos se encuentran en dos columnas: En la primera se encuentran los éxitos y fracasos(recuerde que el problema de proporciones deriva de poblaciones binomiales y el muestreo realizado constituye n ensayos de Bernoulli) y En la segunda se identifica al grupo que pertenece cada uno.
Se usa la segunda opción cuando cada una de las muestras ocupan una columna diferente, en el cual se encuentran los éxitos y fracasos.
Se usa la tercera opción cuando sólo se posee resultados del muestreo y no los datos. Como cuando se dispone del tamaño de cada muestra y el número de éxitos dentro de ellas.
24
Con relación a los datos de los ingresantes Ingre99.Mtw el Director del Departamento de Admisión afirma que hay diferencia entre la proporción de varones provenientes de colegios privados que aquellos que provienen de colegios públicos.
Solución. Luego de abrir la hoja Ingre99.mtw. La columna C2 contiene la variable Sexo y la columna C3 contiene la variable Colegio. Sea P(vcpriv) la proporción de varones provenientes de colegios privados. Sea P(vcpub) la proporción de varones provenientes de colegios públicos.
Sea p1 - p2 la diferencia proporcional de varones de los colegios privados y públicos. Deseamos encontrar el Intervalo de confianza del 95% para p1 - p2 y realizar una prueba de hipótesis del tipo. H0 : P(vcpriv) = P(vcpub) H1: P(vcpriv) ≠ P(vcpub)
EJERCICIO_5
25
Puesto que el p-value es mayor que 0.05 entonces aceptamos la hipótesis nula; es decir, no existe suficiente evidencia para afirmar de que los porcentajes de colegios de procedencia de ingresantes varones sean diferentes.
EJERCICIO_5
26 PRUEBA DE HIPÓTESIS (Varianza Poblacional)
Con frecuencia nuestro interés está en el parámetro de variabilidad, en cuyo caso podemos hacer las pruebas sobre un valor específico de la varianza poblacional. Para ello nos basamos en el estimador del estimador de σ 2 que es una χ 2 con n-1 grados de libertad.
La varianza poblacional también puede ser estimada a través de su estimador que será la varianza muestral s². Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n, extraída de una población normal N(m, s²). Si = s² y = s² entonces podemos definir la variable aleatoria.
27
Usted es un inspector de control de calidad en una fábrica que produce repuestos de alta precisión para motores de aeronaves, incluyendo un pasador de metal que debe medir 15 pulgadas de longitud. Las leyes de seguridad establecen que la varianza de la longitud de los pasadores no debe ser mayor que 0.001 pulgadas2. Análisis anteriores determinaron que la longitud del pasador está normalmente distribuida. Usted recolecta una muestra de 100 pasadores y mide su longitud para realizar una prueba de hipótesis y crear un intervalo de confianza para la varianza de la población.
Abra la hoja de trabajo AVIÓNPIN.MTW. 2 Elija Estadísticas > Estadísticas básicas > 1 varianza. 3 En Datos, elija Muestras en columnas. 4 En Columnas, ingrese 'Longitud pin'. 5 Marque Realizar prueba de hipótesisy elija Varianza hipotética. 6 En Valor, ingrese 0.001. 7 Haga clic en Opciones. En Hipótesis alterna, elija menor que. 8 Haga clic en Aceptar en cada cuadro de diálogo.
EJERCICIO_6
28 EJERCICIO_6 Estadísticas Variable N Desv.Est. Varianza Longitud pin 100 0.0267 0.000715 95% Intervalos de confianza unilaterales Límite Límite superior superior para para Variable Método Desv.Est. varianza Longitud pin Chi-cuadrada 0.0303 0.000919 Bonett 0.0296 0.000878 Pruebas Estadística Variable Método de prueba GL Valor P Longitud pin Chi-cuadrada 70.77 99 0.014 Bonett — — 0.004
El valor p para una prueba de h ipótes i s unilateral es de 0.014. E s t e v a l o r e s suf icientemente bajo para rechazar la hipótesis nula y concluir que la v a r i a n z a d e l o s pasadores es menor que 0.001.
29 ANOVA
El análisis de varianza (ANOVA) de un factor nos s i rve para comparar varios grupos en una variable cuantitativa.
30
Tomando los datos de la hoja Ingre99.Mtw, determine si la varianza del rendimiento de los alumnos provenientes de colegios privados es igual a la varianza del rendimiento de los alumnos provenientes de colegios públicos.
Este es un problema de comparación de varianzas. Por la pregunta deducimos que el rendimiento será “idéntico” o mejor : “Homogéneo” si el cociente de la variabilidad del rendimiento en cada tipo de colegio es aproximadamente igual a 1.
PRUEBA DE HIPÓTESIS (Varianza de dos Poblaciones)
31 EJERCICIO_7
Puesto que el p – value es mayor que 0.05 aceptamos la Hipótesis de igualdad de varianzas. Las gráficas que se muestran en la figura anterior contienen, aproximadamente, el mismo alargamiento en ambas cajas del boxplot.