Unidad Academica Univesistaria La Paz

67
Estadística básica CUADERNILLO UNIDAD ACADEMICA UNIVESISTARIA LA PAZ ESTADÍSTICAS BÁSICAS “CUADERNILLO” INTEGRANTES: Audelo Rebollar Karla Estrada Olvera Nallely Haydee Ramírez Ortiz Gerardo San Vicente Fernández Gabriela 1 [ESTADISTICA BASICA]

Transcript of Unidad Academica Univesistaria La Paz

Page 1: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

UNIDAD ACADEMICA UNIVESISTARIA LA PAZ

ESTADÍSTICAS BÁSICAS

“CUADERNILLO”

INTEGRANTES:

Audelo Rebollar Karla

Estrada Olvera Nallely Haydee

Ramírez Ortiz Gerardo

San Vicente Fernández Gabriela

1

[ESTADISTICA BASICA]

Page 2: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

TEMARIO

UNIDAD TEMAS SUBTEMAS

1 Estadística descriptiva.

1.1 Definición y campo de la estadística.1.2 Planteamiento de un caso específico.1.3 Organización de datos.1.4 Medidas de tendencia central.1.5 Medidas de dispersión.1.6 Aplicación en el caso específico.

2 Distribuciones muéstrales.2.1 Introducción.2.2 Distribución muestral de la media con varianza conocida.2.3 Teorema del límite central.2.4 Distribución muestral de la proporción.2.5 Distribución muestral de la diferencia de medias y de diferencia de proporciones.2.6 Distribución muestral de la media con varianza desconocida.2.7 Distribución muestral de la diferencia de medias.2.8 Distribución muestral de la varianza.2.9 Distribución muestral de la razón de varianzas.2.10 Aplicación en el caso específico.

3 Teoría de la estimación.3.1 Introducción.3.2 Estimación y propiedades de los

2

[ESTADISTICA BASICA]

Page 3: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L Oestimadores.3.3 Estimación por intervalo.3.4 Intervalo de confianza para la media con varianza conocida y desconocida.3.5 Intervalo de confianza para una proporción y diferencia de proporciones.3.6 Intervalo de confianza para diferencias de medias con varianza conocida y desconocida.3.7 Intervalo de confianza para una varianza.3.8 Intervalo de confianza para una razón de varianzas.3.9 Aplicación en el caso específico.

4 Pruebas de hipótesis.4.1 Conceptos de la teoría de prueba de hipótesis.4.2 Errores tipo I y II.4.3 Prueba de hipótesis para una media con varianza conocida y desconocida.4.4 Prueba de hipótesis para una proporción y diferencia de proporciones.4.5 Prueba de hipótesis para diferencia de medias con varianzas conocidas y desconocidas.4.6 Prueba de hipótesis para una varianza4.7 Prueba de hipótesis para una razón de varianzas.4.8 Prueba de bondad de ajuste.4.9 Aplicación en el caso

ESTADISTICA:

3

[ESTADISTICA BASICA]

Page 4: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

La estadística es la ciencia cuyo objetivo es reunir información cuantitativa relacionada a individuos, grupos, series de hechos, entre otros. Gracias al análisis de estos datos se pueden deducir algunos significados precisos o algunas previsiones para el futuro. La estadística, en general, es la ciencia que trata la recopilación, la organización, la presentación, el análisis y la interpretación de datos numéricos con el fin de realizar una toma de decisiones más efectiva.

“Ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente complejos y enmarcados en un universo variable, mediante el empleo de modelos de reducción de la información y de análisis de validación de los resultados en términos de representatividad”. La información puede ser numérica, alfabética o simbólica. Consta de las fases de recogida de información, de análisis y de presentación e interpretación de los resultados y elaboración de métodos.

IMPORTANCIA

La estadística resulta muy útil no sólo para recopilar y describir datos, sino también para interpretar la información obtenida, que puede ser aprovechada para demostrar la evolución de un fenómeno a través de cierto tiempo.

En México, el Instituto Nacional de Estadística y Geografía (INEGI) se encarga de recabar información estadística y geográfica de todo el país, en diferentes áreas y contextos. Los datos que publica sirven para dar a conocer a cualquier persona la situación en la que se encuentra el área de donde se obtuvo la información.

Al gobierno le son muy útiles para tomar decisiones, por ejemplo, para saber qué acciones se deben implementar en tal o cual zona del país, conocer los avances que se han registrado o como herramienta para la evaluación de un proyecto. Los métodos estadísticos se utilizan prácticamente en investigaciones de todas las áreas de conocimiento; tanto en el ámbito académico, como en el profesional y laboral.

DIVISIÓN DE LA ESTADÍSTICA

4

[ESTADISTICA BASICA]

Page 5: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial.

Estadística Descriptiva: La función descriptiva de la estadística se enfoca en la presentación y clasificación de los datos obtenidos de la población que se analiza.

Estadística Inferencial: Esta aplicación de la estadística busca plantear y resolver problemas específicos y/o hacer previsiones a partir de los datos de una muestra.

La estadística descriptiva describe datos.La estadística Inferencial infiere con esos datos, entendiendo inferir como la predicción de un resultado.

CONCEPTOS BÁSICOS:

Población: Conjunto de todos los elementos que presentan una característica común determinada, observable y medible. Por ejemplo, si el elemento es una persona, se pueden estudiar las características edad, peso, nacionalidad, sexo, etc. Los elementos que integran una población pueden corresponder apersonas, objetos o grupos (por ejemplo, familias, las manzanas de una cosecha, empleados de una empresa, etc.).

Individuo: Un individuo o unidad estadística es cada uno de los elementos que componen la población. Nota que un individuo en estadística puede ser distinto a un individuo como persona. Por ejemplo, en los censos económicos se obtienen datos de los negocios. En este caso cada negocio, que está formado por varias personas, es un individuo de la población.

Muestra: La mayoría de los estudios estadísticos se realiza, no a partir de toda la población, sino de un subconjunto o parte de ésta, llamado muestra, partiendo del supuesto de que este sub conjunto presenta el mismo comportamiento y características que la población. En general el tamaño de la muestra es mucho menor al tamaño de la población.

5

[ESTADISTICA BASICA]

Page 6: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

Muestreo: Es el proceso de recabar los datos que se desean analizar, obtenidos de una proporción reducida y representativa de la población.

Variable: Se llama variable a una característica que se observa en una población o muestra, y a la cual se desea estudiar. La variable puede tomar diferentes valores dependiendo de cada individuo. Las variables se pueden clasificar en cuantitativas y cualitativas:

a) Variable cuantitativa: se expresa en valores numéricos. Dentro de ella, se subdividen en: Discreta: Se tratan de variables expresadas con valores enteros. Ej. N°

de hijos de una Familia, n° de alumnos de un curso. Continua: son valores que pueden tomar cualquier valor dentro de un

intervalo. Ej. Peso, estatura, sueldos.

b) Variable cualitativa: es aquella que describe cualidades. No son numéricas y se subdividen en:

Nominal: son variables presentadas sin orden ni jerarquía. Ej. Estado civil, preferencia por una marca, sexo, lugar de residencia.

Ordinal: son variables organizadas de acuerdo con una clasificación. Ej. grado de estudios, días de la semana, calidad de la atención, nivel socioeconómico.

6

[ESTADISTICA BASICA]

Page 7: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

DATOS AGRUPADOS

Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias

Una ordenación de datos es una de las formas más sencillas de presentarlos: organiza los valores en orden ascendente o descendente. La ordenación de datos ofrece varias ventajas con respecto a los datos sin procesar:

Podemos identificar los valores mayor y menor rápidamente

Es fácil dividir los datos en secciones

Podemos ver si algunos valores aparecen más de una vez en el arreglo

Podemos observar la distancia entre valores sucesivos de los datos

DATOS AGRUPADOS

Para ilustrar el método de datos agrupados, observaremos la tabla 1, que muestra los rendimientos anuales de ACCIONES de una empresa a lo largo de un periodo de 30 años expresados en tanto porciento y corregidos por el nivel de inflación. Para resumir estos datos, podríamos calcular su media y varianza.

La tarea de interpretar los datos de la tabla 1 pueda hacerse más fácil si se reduce la cantidad de información que ha de ser asimilada, agrupando las observaciones.

TABLA 1 Rendimientos anuales en tanto porciento y corregidos por el nivel de inflación de unas ordinarias en un periodo de 30 años.

1.1 TABLA 1

7

[ESTADISTICA BASICA]

Page 8: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O-3,2 17,4 -13,4 -9,9 20,4 15,1

2,7 -1,6 41,0 20,8 6,1 -21,8

20,9 53,4 10,3 15,1 -13,8 -34,8

24,6 31,1 -1,0 10,3 -1,5 28,3

17,2 3,6 26,0 -13,0 10,6 18,2

1.2 TABLA 2. Subdivisión de los rendimientos de la tabla 1 en clases

Los sub intervalos en los que se han dividido el conjunto de datos, reciben el nombre de clases, y el número de observaciones de cada clase se llama frecuencia. Para cada clase particular, la frecuencia acumulada es el número total de observaciones que hay en esa clase y en las anteriores.

EJERCICIO

8

[ESTADISTICA BASICA]

Rendimiento corregido por el nivel de inflación

Número de años (frecuencias)

Frecuencias Acumuladas

-39,95% a -19,95% 2 2

-19,95% a 0,05% 8 10

0,05% a 20,05% 11 21

20,05% a 40,05% 7 28

40,05% a 60,05% 2 30

Page 9: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

Venta en dólares

fFrecuenci

a

MMarca de

clasef M fM 2

10-20 1 15 15 22520-30 8 25 200 500030-40 10 35 350 1225040-50 9 45 405 1822550-60 8 55 440 2420060-70 4 65 260 1690070-80 2 75 150 11250

Σfᵢ=42 ΣfᵢMᵢ=1820 ΣM 2ᵢ=88050

a) Encuentre la media aritmética

x=∑i=1

nf ᵢ M ᵢ

Σf ᵢx=1820

42=43.33

b) Determine la varianza

S2=∑i=1

nfi M2

N−x2S2=8850

42−¿

2096.428571-1877.4889= 218.93

C) Encuentre la desviación estándar de la muestra

S=√ S2 S=√218.93=14.7

DISTRIBUCIONES MUÉSTRALES

Las muestras aleatorias obtenidas de una población son, por naturaleza propia, impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y tomadas de la misma población tenga la misma media muestral o que sean completamente parecidas; puede esperarse que cualquier estadístico, como la

9

[ESTADISTICA BASICA]

Page 10: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos los valores posibles de un estadístico. Tales distribuciones serán muy importantes en el estudio de la estadística Inferencial, porque las inferencias sobre las poblaciones se harán usando estadísticas muéstrales. Como el análisis de las distribuciones asociadas con los estadísticos muéstrales, podremos juzgar la confiabilidad de un estadístico muestral como un instrumento para hacer inferencias sobre un parámetro poblacional desconocido.

Como los valores de un estadístico, tal como x, varían de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribución de frecuencias.

La distribución de frecuencia de un estadístico muestral se denomina distribución muestral. En general, la distribución muestral de un estadístico es la de todos sus valores posibles calculados a partir de muestras del mismo tamaño.

Suponga que se han seleccionado muestras aleatorias de tamaño 20 en una población grande. Se calcula la madia muestral x para cada muestra; la colección de todas estas medias muéstrales recibe el nombre de distribución muestral de medias.

Suponga que se eligen muestras aleatorias de tamaño 20, de una población grande, y se calcula la deviación estándar de cada una. La colección de todas

10

[ESTADISTICA BASICA]

Page 11: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

estas desviaciones estándar muéstrales se llama distribución muestral de la desviación estándar, y lo podemos ver en la siguiente figura:

EJEMPLO 1

Una población normal tiene μ=80 σ=14

a) Calcule la probabilidad de tener un valor entre 75 y 90

μ=80 Z=90−8014

=0.7142=0.2611

σ =14

P (75<X<90)

Z=75−8014

=0.3571=0.1368 0.2611+0.1368=39.79%

11

[ESTADISTICA BASICA]

Page 12: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

b) Halle la probabilidad de tener un valor de 75 0 menor

μ=80 0.5 + .1368 = .6368

σ =14 1 - .6368 = .3632

P (75<X) =36.32%

c) Calcule la probabilidad de tener un valor entre 75 y 70

μ=80

σ =14

P (75<X<70) Z=70−8014

=0.7142 =.2611

.2611 - .1368= .1243

=12.43%

EJEMPLO 2

12

[ESTADISTICA BASICA]

Page 13: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

La media de la población normal, es 60 y la desviación=12. Se toma una muestra aleatoria de 9. Calcule la probabilidad de que la media muestral.

a) Sea mayor que 63

xM =60 P (xM >63)

σ =56 Z=63−2012√9

=34

=.75

.5 + 2734 = .7734 1 - .7734 = 0.2266 = 22.66%

b) Menor que 56

P (xM >56) .05 + .0398 = .539

Z=56−6012√9

=44=1 1 - .5398 = .4602= 46.02%

13

[ESTADISTICA BASICA]

Page 14: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

c) Este entre 56 y 63

P (56<X<63) .0398 + .2734 = 0.3132 0.3132X100 = 31.32%

14

[ESTADISTICA BASICA]

Page 15: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN

Uno de los objetivos de la estadística es conocer acerca del comportamiento de parámetros poblacionales tales como: la media (μ), la varianza (σ 2) o la proporción (p).

Para ello se extrae una muestra aleatoria de la población y se calcula el valor de un estadístico correspondiente, por ejemplo, la media muestral (X), la varianza muestral.

Y es el conjunto de todas las muestras posibles del mismo tamaño extraídas de una población, junto con el conjunto de todas las proporciones muéstrales posibles del mismo tamaño extraídas de una población, junto con el conjunto de todas las proporciones muéstrales.

La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico media.

15

[ESTADISTICA BASICA]

Page 16: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

EJEMPLO 2

Se elige una muestra de 2000 electores potenciales en el estado de México; se encontró que 1550 planearon botar por el gobernador actual. ¿Cuál es la probabilidad de que el gobernador sea elegido presidente de la república? En una encuesta previa se determino que el 80% de la población total del padrón votante elegiría a dicho candidato

P ( A ) T . FT . P

P ( A )=15502000

=.775

P= .80Z= .775−.80

√ (.775)(.225)2000

=−2.67

p= .775 Z= p−P√ p

n= 2000

q= .225

16

[ESTADISTICA BASICA]

Page 17: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

DISTRIBUCIÓN MUESTRAL DE DIFERENCIA DE MEDIAS

Suponga que se tienen dos poblaciones distintas, la primera con media 1 y

desviación estándar 1, y la segunda con media 2 y desviación estándar 2.

Más aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias se llama distribución muestral de las

diferencias entre medias o la distribución muestral del estadístico

La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras.

17

[ESTADISTICA BASICA]

Page 18: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

EJEMPLO

De una población se toma una muestra de 40 observaciones. La media muestral es de 102 y la desviación estándar de 5. De otra población se toma una muestra de 50 observaciones y la media muestral es ahora 99 y la desviación estándar es 6. Calcule el valor estadístico de la prueba.

Supongo que las medias poblacionales son iguales a las varianzas.

x� 1= 102 Z=¿¿¿= 99

S1=5 Z=(102−99)(0)

1.18= 31.18

=2.54

S2=6

S2=(n−1 ) S1

2+(n2−1)S22

n1+n2−2 = (40−1 )52+(50−1 )62

40+50−2 =975+176488=273988 = 31.13

σ x1x2√ S2

n1+

S22

n2 =√ 31.1340 + 31.13

50=√0.77+0.62=√1.3926=1.18

.5+.4945=0.9945

.1-0.9945=.0055

DISTRIBUCION DE PROBABILIIDAD

T DE STUDENT

DISTRIBUCIÓN DE PROBABILIDAD

18

[ESTADISTICA BASICA]

Page 19: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

Con respecto a una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria.

Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

“T” DE STUDENT

Permite decidir si dos variables aleatorias normales y con la misma varianza tienen medias diferentes. Dada la ubicuidad de la distribución normal puede aplicarse en numerosos contextos, para comprobar si la modificación en las condiciones de un proceso (humano o natural) esencialmente aleatorio producen una elevación o disminución de la media poblacional. Esto opera decidiendo si una diferencia en la media muestral entre dos muestras es estadísticamente significativa, y entonces poder afirmar que las dos muestras corresponden a distribuciones de probabilidad de media poblacional distinta, o por el contrario afirmar que la diferencia de medias puede deberse a oscilaciones estadísticas.

La eficacia aumenta con el número de datos del que constan las dos muestras, en concreto del número de grados de libertad conjunto de las dos muestras, este número viene siendo Ni el tamaño muestral, es decir, el número de datos en cada muestral.

EJEMPLOS

19

[ESTADISTICA BASICA]

Page 20: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

1.- Suponga que los datos siguientes se seleccionan al azar de una población de valores normalmente distribuidos y realicen un intervalo de confianza del 95%para calcular la media poblacional.

40,51,43,48,44,57,54,39,42,48,45,39 y 43

χ=∑i=1

n X i

n=40+51+43+48+44+57+54+39+42+48+45+39+43

13=59313

= 45.61

s2=∑i=1

n ( x−xi)n−1

=¿¿

+¿¿

+¿¿

s=√s2=√32.42=5 .69

∝=1− .95%=0.05÷2=0.025

gl=n−1=13−1=12

S x=5.69√13

=1.57

I∝=x ± t S x

I∝=45.61+(2.179 ) (1.57 )=¿

45.61+3.42=49 .03Límite

superior

45.61−3.42=42.12Límite

inferior

(42.12, 49.03)

2.-Si se supone que X esta normalmente distribuida utiliza la siguiente información para calcular un intervalo de confianza de 90% para estimar la media poblacional.

20

[ESTADISTICA BASICA]

Page 21: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

χ=∑i=1

n X i

n 313, 320, 319, 340, 325, 310, 321, 329, 317, 311, 307, 318.

313 ,320 ,319 ,340 ,325 ,310 ,321 ,329 ,317 ,311 ,307 ,318.12

= 319.16

S2=∑

i=1

n

¿¿¿

¿

¿¿¿

37.9456+0.7056+0.0256+434.305634 .1056+83.9056+3.3856+96.82564 .6656+66.5856+¿147.8656+1.34512−1

=911.667211

= 82.87√82.87= 9.10

x=319.16

σ 2=82.87

σ=9.10

gl= n-1

gl= 12-1=11

∝ 1-.90%= 0.2/2=0.05

IC=319.16+ (1.796) (2.6269) Sx=9.10

√12 =2.6269

319.16 + 4.7179=323.8779Límite Superior

319.16 – 4.7179=314.4421Límite Inferior

(314.4, 323.8)

21

[ESTADISTICA BASICA]

Page 22: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

3.-Si una muestra aleatoria de 27 Artículos produce x= 128.4 y S= 20.6, cual es el intervalo de confianza de 98% para la media poblacional. Suponga que X esta normalmente distribuida para la población. ¿Cuál es la estimación puntual?

x= 128.4

S= 20.6

σ= 4.53

gl= n-1

gl= 27-1= 26

∝= 1-.98%= 0.02/2=0.01

IC= 128.4+ (2.479) (3.96) Sx=20.6

√27 =3.96

128.4 + 9.8168=138.21Límite Superior

128.4 – 9.8168=118.58 Límite Inferior

(118.58, 138.21)

22

[ESTADISTICA BASICA]

Page 23: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

INTERVALO DE CONFIANZA PARA ESTIMAR P

Si el estadístico S es la proporción de “éxitos “en una muestra de tamaño, obtenida de una población binomial en la que p es la proporción de éxitos es decir la probabilidad de éxito, entonces los limites de confianza para p están dados por la proporción de éxitos en la muestra de tamaño N. Usando los valores de p obtenidos, ve que los limites de confianza para la proporción poblacional están dados por:

P ± Zc

Si el muestreo se efectuó de una población finita o de una población infinita con reemplazamiento y están dados por:

P± Zc

Si el muestreo se hizo sin el reemplazamiento de una población de tamaño finito Np. Para calcular estos límites de confianza se puede usar el estimado muestral P que por lo general, mostrara ser satisfactorio si N es mayor o igual a 30.

INTERVALOS DE CONFIANZA PARA DIFERENCIAS Y SUMAS

Si S1 y S2 son dos estadísticos muéstrales con distribuciones de muestreo aproximadamente normales, entonces los límites de confianza se puede usar para

23

[ESTADISTICA BASICA]

Page 24: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

la diferencia de los parámetros poblacionales correspondientes a S1 y S2 están dados por:

S1 y S2 ± zc s1 - s2

EJEMPLO

Una compañía textil produce pantalones para hombre, los pantalones se confeccionan y venden con corte regular o con corte de bota. En un esfuerzo por estimar la proporción del mercado de sus pantalones para hombre en el centro de la ciudad que prefiere pantalones con corte de bota, el analista toma una muestra aleatoria de 212 ventas de pantalones de las 2 tiendas de venta al público de la ciudad solo 34 de las ventas fueron de pantalones de corte de bota. Construya un intervalo de confianza de 90% para estimar la proporción de la población en toda la ciudad que prefieren pantalones con corte de bota.

N=212

P= .16

P=√ pqn

P=√( .16 )(.84)212

P=0.025

P (A)=34212

=.16

P= IC=P± ZP

IC=.16± (1.65 ) (0.25 )=0.41

24

[ESTADISTICA BASICA]

Page 25: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

.16+0.41=.2

.16-0.41=.11

PROBLEMAS

Use la información sobre cada una de las siguientes muestras para calcular el intervalo de confianza para estimar la proporción de la población.

a) n= 44 p=¿ .51 ; calcule un intervalo de confianza del 99%b) n= 300 p=¿ .82 ; calcule un intervalo de confianza del 95%c) n= 1,150 p=¿ .48 ; calcule un intervalo de confianza del 90%d) n= 95 p=¿ .32 ; calcule un intervalo de confianza del 88%

a) n=44 p=.51 ; Calcule un Intervalo de Confianza del 99%

σ p= √ pqn

=√ .51(.49)44= 0.075 p= IC∝ = p ±Z√ p

p=.51 IC= .51± (2.57) (0.075)

IC= .51+ 0.192= 0.70 Limite Superior

IC= .51- 0.192= 0.31 Limite Inferior

(.31, .70)

b) n=300 PM =.82; calcule un intervalo de confianza de 95%

σ PM = √ pqn

σPM =√( .82 )(.18)300

=.022 n= 44 p= IC∝ =p ±Z√ p

25

[ESTADISTICA BASICA]

Page 26: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

p=.82 IC= .82± (1.96) (0.022)

IC= .82+ .043= .863 Limite Superior

IC= .82- .043= .777 Limite Inferior

(.77, .86)

|

c)n=1150 PM =.48; calcule un intervalo de confianza de 90% σPM =√ pqn

σPM =√( .48 )(.52)1150

=.014 p= IC∝ =p ±Z√ p

p=.48 IC= .48± (1.65) (0.014)

IC= .48+ 0.023= .503 Limite Superior

IC= .48- 0.023= .45 Limite Inferior

(.45, 50)

d) n=95 PM =.32; calcule un intervalo de confianza de 88%

26

[ESTADISTICA BASICA]

Page 27: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

σPM =√ pqn

σPM =√( .32 )(.68)95

=.047 p= IC∝ =p ±Z√ p

p=.32 IC= .32± (1.56) (0.047)

IC= .32+ 0.073= .393 Limite Superior

IC= .32- 0.073= .247 Limite Inferior

(.24, 39)

EJERCICIOS

Use la siguiente información para cumplir intervalo de confianza del 90%, 95% y 99% para estimar la media poblacional de los siguientes datos que proviene de una población normalmente distribuida datos son:

12.3, 11.6, 11.9, 12.8, 12.5, 11.4, 12, 11.7, 11.8, 12.3.

x=12.3+11.6+11.9+12.8+12.5+11.4+12+11.7+11.8+12.310

=12.03

σ 2=

(12.3−12.03)2+(11.6−12.03 )2+(11.9−12.03 )2+(12.8−12.03 )2+ (12.5−12.03 )2+(11.4−12.03 )2

(12−12.03 )2+(11.7−12.03 )2+(11.8−12.03 )2+(12.3−12.03 )2

10−1=1.721

9=0 .19

27

[ESTADISTICA BASICA]

Page 28: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

σ 2=√0.19= 0.43 sx=0.43

√10=0 . 13

g'=10-1=9

∝=1− .90=0.12

=0 .05

t=1.833

ICM =12.03+ (1.833) (0.13)

ICM =12.03 + 0.23 =12.26L.S

ICM =12.03 – 0.23 =11.8 L.I

(11.8, 12.2)

g'=10-1=9

∝=1− .95=0.052

=0 .025

t=2.262

ICM =12.03+ (2.262) (0.13)

ICM =12.03 + 0.29 = 12.32 L.S

ICM =12.03 – 0.29 = 11.74 L.I

(11.7, 12.32)

28

[ESTADISTICA BASICA]

Page 29: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

g'=10-1=9

∝=1− .99=0.012

=0 .005

t=3.250

ICM =12.03+ (3.250) (0.13)

ICM =12.03 + 0.42 = 12.45 L.S

ICM =12.03 – 0.42 = 11.61 L.I

(11.61, 12.45)

EJERCICIO 2:

Use la siguiente información para calcular el intervalo de confianza para calcular la proporción poblacional.

a) n= 284 ṗ=.71 90% de confianzab) n=1250 ṗ=.48 95% de confianza

29

[ESTADISTICA BASICA]

Page 30: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

a)n=284

ṗ=.71

σṗ=√( .71 )(.29)284

=.026

IC =.71± (1.65) (0.026)

IC =.71 + 0.042 = 0.752

IC =.71 – 0.042 = 0.668

(0.66, 0.75)

b)n=1250

ṗ=.48

σṗ=√( .48 )(.52)1250

=0.014

IC =.48± (1.96) (0.014)

IC =.48+ 0.027 = 0.50

IC =.71 – 0.027 = 0.45

30

[ESTADISTICA BASICA]

Page 31: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

(o.45, 0.05

PRUEBA DE HIPÓTESIS.

Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, proposiciones sobre la muestra .Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes:

1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro.

2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo

3. Cuando el valor del parámetro proviene de consideraciones externas tales como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones.

31

[ESTADISTICA BASICA]

Page 32: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

Los procedimientos de prueba de hipótesis dependen del empleo de la información contenida en la muestra aleatoria de la población de interés.

TIPOS DE PRUEBAS DE TIPOS HIPÓTESIS

Se pueden presentar dos tipos de pruebas de hipótesis que son:

1. De dos colas, o bilateral.

2. De una cola, o unilateral.

Este último puede ser de cola derecha o izquierda.

La hipótesis es una afirmación sobre un parámetro de la población,Como la media, la varianza o la desviación estándar.

La hipótesis inicial que se define sobre la población se llama hipótesis nula; pero si rechazamos esa hipótesis nula debemos tener una hipótesis alternativa, la cual tomaremos si la hipótesis inicial o nula es falsa.

El proceso de revisión de la hipótesis para determinar si se consideraVerdadera o falsa se llama Prueba de Hipótesis.

Una prueba de hipótesis es una regla que especifica

1. Para que valores de la muestra se toma la decisión de que H0 esVerdadera.

2. Para que valores de la muestra se rechaza H0 y se acepta H1 comoVerdadera.

CONCEPTOS BÁSICOS PARA EL PROCEDIMIENTO DE PRUEBA DE HIPÓTESIS

HIPÓTESIS ESTADÍSTICA:

Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la población aplicada.

Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.

32

[ESTADISTICA BASICA]

Page 33: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

Son, en general, enunciados acerca de las distribuciones de probabilidad de las poblaciones.

HIPÓTESIS NULA.

En muchos casos formulamos una hipótesis estadística con el único propósito de rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada, formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la probabilidad de cara).

Analógicamente, si deseamos decidir si un procedimiento es mejor que otro, formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier diferencia observada se debe simplemente a fluctuaciones en el muestreo de la misma población). Tales hipótesis se suelen llamar hipótesis nula y se denotan por Ho.

Para todo tipo de investigación en la que tenemos dos o más grupos, se establecerá una hipótesis nula.

La hipótesis nula es aquella que nos dice que no existen diferencias significativas entre los grupos.

Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se somete a un entrenamiento intensivo de natación, éstos serán mejores nadadores que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma al azar una muestra de jóvenes, y también al azar los distribuye en dos grupos: uno que llamaremos experimental, el cual recibirá entrenamiento, y otro que no recibirá entrenamiento alguno, al que llamaremos control. La hipótesis nula señalará que no hay diferencia en el desempeño de la natación entre el grupo de jóvenes que recibió el entrenamiento y el que no lo recibió.

Una hipótesis nula es importante por varias razones:

Es una hipótesis que se acepta o se rechaza según el resultado de la investigación.

El hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre los grupos, si esta diferencia es significativa, y si no se debió al azar.

No toda investigación precisa de formular hipótesis nula. Recordemos que la hipótesis nula es aquella por la cual indicamos que la información a obtener es contraria a la hipótesis de trabajo.

Al formular esta hipótesis, se pretende negar la variable independiente. Es decir, se enuncia que la causa determinada como origen del problema fluctúa, por tanto, debe rechazarse como tal.

OTRO EJEMPLO:

33

[ESTADISTICA BASICA]

Page 34: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

Hipótesis: el aprendizaje de los niños se relaciona directamente con su edad.

HIPÓTESIS ALTERNATIVA.

Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p " 0,5 ó p > 0,5.

Una hipótesis alternativa a la hipótesis nula se denotará por H1.

Al responder a un problema, es muy conveniente proponer otras hipótesis en que aparezcan variables independientes distintas de las primeras que formulamos. Por tanto, para no perder tiempo en búsquedas inútiles, es necesario hallar diferentes hipótesis alternativas como respuesta a un mismo problema y elegir entre ellas cuáles y en qué orden vamos a tratar su comprobación.

EJEMPLO 1

34

[ESTADISTICA BASICA]

Page 35: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

Un desarrollador considera dos ubicaciones alternativas para un centro comercial regional dado que el ingreso domestico de la comunidad es una consideración importante en la selección del sitio, el desarrollador desea probar la hipótesis nula de que no existe ninguna diferencia entre los montos de ingreso domestico medio de las dos comunidades. En consonancia con esta hipótesis se supone que la desviación estándar del ingreso domestico también es igual en las dos comunidades. En una muestra de n1=30hogares de la primera comunidad el ingreso anual promedio es de x1=45,500 con una desviación estándar S1=1,800. En una muestra de n2=40 hogares de la segunda comunidad x2=44,600 y S2=2,400. Pruebe la hipótesis nula al nivel de significancia de 5%.

H 0 : μ1−μ2=0

H 1: μ1−μ2≠0

n1=30

x1=45,500

S1=1,800

n2=40

x2=44,600

S2=2,400

α=.05

Z=( x1−x2 )−(μ1−μ2)

σ x1−x2 Z=

(45,500−44,600)−(0)σ x1−x2

= 900522.78

=1.74

S2=(n1−1 ) S12+(n2−1)S2

2

n1+n2−2

S2=(30−1)1,8002+(40−1)2,4002

30+40−2 =318600000

68=4,685,294

√ 4,685,29430+ 4,685,294

40=522.78

∴ Se acepta la hipótesis nula y se rechaza la hipótesis alternativa

35

[ESTADISTICA BASICA]

Page 36: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

EJEMPLO 2

Una muestra aleatoria de N1=12 estudiantes de informática tiene un promedio de calificación media de 2.70 (donde A=4) con una desviación estándar de .40 en el caso de los estudiantes de ingeniería en sistemas una muestra aleatoria de N=2 10 estudiantes tiene un promedio de calificación media de 2.90 con una desviación estándar de .30 se supone que los valores de calificación sigue una distribución normal ,prueba la hipótesis nula de que el promedio de calificación de las 2 categorías de estimación no es diferente con un nivel de significancia de .5%

H 0 : μ1−μ2=0

H 1: μ1−μ2≠0

n1=12

x1=2.7

S1=40

n2=10

x2=2.90

S2=30

α=.05

.05/2=.025

gl=n1+n2−2=12+10−2=20 t=2.086

t=( x1−x2)−(μ1−μ2)

σ x1−x2 t=

(2.7−2.9 )−(0)σ x1−x2

= −0.2.1534

= -1.30

S2=(n1−1 ) S12+(n2−1)S2

2

n1+n2−2

S2=(12−1) .42+(10−1) .32

12+10−2 =2.5720

=.1285

√ .128512 + .128510

=.1534

∴ Se acepta la hipótesis nula y se rechaza la hipótesis alternativa

36

[ESTADISTICA BASICA]

Page 37: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

EJEMPLO 3

El representante de un grupo comunitario le informa al posible desarrollador de un centro comercial al sur de la ciudad, el ingreso promedio por hogar en la zona es de 45000. Supongamos que puede sumirse que, para el tipo de zona del que se trata, el ingreso hogar tiene una distribución aproximadamente normal y que puede aceptarse que la desviación estándar es igual a 2000, con base a un estudio anterior. A partir de una muestra aleatoria de 15 hogares se determina que el ingreso domestico medio es x=44000. Pruebe la hipótesis nula µ =45000 estableciendo los limites críticos de la media muestral en términos de pesos y con un nivel de significancia del 5%

a) Pruebe la hipótesis del problema con la variable normal estándar Z como estadística de prueba

b) Prueba de hipótesis del problema con la variable normal t como estadística de prueba

a)H0 µ1- µ2=0 45000H1 µ1- µ2≠0 45000n=45000

σ =2000

x=44000

n=15

∝=0.5= .95/2= .475 tabla

45000+ (1.96) (2000

√15 )

45000+1012.13=46012.13

45000-1012.13=43987.87

37

[ESTADISTICA BASICA]

Page 38: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

b)

gl= 15-1=14

∝=1 - .05% = .95/2 =0.475 Z=1.96tabla

.05/2=0.025 =2.1415tabla

ICM

44000+ (2.1415) (2000

√15 )

44000+1107.65=1107.65

44000-1107.65=42892.35

EJEMPLO 4

El salario medio semanal de una muestra de n1=30 empleados de una gran empresa manufacturera es x1=280, por una distribución estándar de 14 pesos. En otra gran empresa una muestra aleatoria n2=40 empleados tiene un salario medio de x2=270 pesos, con una desviación estándar de 10 pesos. Pruebe la hipótesis de que no existe diferencia entre los montos salariales semanales medio de las dos empresas con un nivel de significancia del 5%.

n=30x1=280 S=14n2=40x2=270σ =10

Z=( x1−x 2 )−(µ1−µ2)

√ x1−x2 =

(280 )−(0)2.86

=102.86

=3.49

38

[ESTADISTICA BASICA]

Page 39: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

S²=(n1−1 ) S1 ²+ (n2−1 ) S2 ²

n1+n2−2=

(30−1 )14 ²+(40−1)10 ²30+40−2

= 5684+3900

68=958468

=140.94

√ 140.9430+ 140.94

40=2.86

∴No se acepta lahipótesis

39

[ESTADISTICA BASICA]

Page 40: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

EJEMPLO 5

En una muestra aleatoria de n1=10 focos en un promedio de vida de los focos x1=4000 horas S1=200 horas. Para otra marca de focos de cuya vida útil también se presume que sigue una distribución normal, una muestra aleatoria de n2= 8 focos tiene una media muestral de X2=4300 horas y una desviación estándar muestral de 250 pruebe la hipótesis de que no existe ninguna diferencia entre el ciclo medio de vida útil de las 2 marcas de focos con un nivel de significancia del 1%

n1=10x1=4000 S1=200n2=8x2=4300S2=250

t=¿( x1−x 2 )−(µ1−µ2)

σ x 1−x 2

S²=(n1−1 ) S1 ²+ (n2−1 ) S2 ²

n1+n2−2=

(10−1 )200 ²+(8−1)250 ²16

= 360000+437500

16=958468

=49843.75

σ x 1−x2 √ S1 ²n1

+ S2 ²n2

√ 49843.7510+ 49843.75

48=¿105.90

t= (4000-43000) (0)=−300105.90

= -2.83

40

[ESTADISTICA BASICA]

Page 41: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

.01/2 =0.005

gl= 10+8-2=16 =2.921

∴Se acepta lahipótesis

EJERCICIO 1

Un especialista en administración de hospitales dice que el número de empleados de tiempo completo de un hospital se puede estimar al contar el número de camas de hospital. Una investigadora de campo de servicios de salud decidió crear un modelo de regresión para pronosticar el número de empleados de tiempo completo de un hospital respecto al número de camas por lo que realizo una encuesta en 12 y obtuvo los datos que se presentan en secuencia según el número de camas.

Hospital N° de Camas Empleados de Tiempo

x2 xy

1 23 69 529 15842 29 95 841 2755

3 29 102 841 2958

4 35 118 1225 4130

5 42 126 1764 5292

6 46 125 2116 5750

7 50 138 2500 6900

8 54 178 2916 9612

9 64 156 4096 9984

10 66 184 4356 12144

11 76 176 5776 13376

12 78 225 6084 7550

∑x

¿592 ∑y

¿1692 ∑x2

¿33044 ∑xy

¿92038

41

[ESTADISTICA BASICA]

Page 42: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

X=59212

=49.333Y=169212

=141

b=∑ xy−n x y

∑ x2−n x2

b=92038−(12 ) (49.333 ) (141 )33044−(12 ) (2433.744 )

=8566.5643839.072

=b=2.231

a= y−b x

a=141−(2.231 ) (49.33 )=141−110.061=¿ a=30.93

y=30.939+2.231x

y=30.939+2.231 (23 )=82.25

y=30.939+2.231 (78 )=204.95

42

[ESTADISTICA BASICA]

Page 43: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

ANALISIS DE REGRESION

La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra.

EJERCICIO 1

Un especialista en administración de hospitales dice que el número de empleados de tiempo completo de un hospital se puede estimar al contar el número de camas de hospital. Una investigadora de campo de servicios de salud decidió crear un modelo de regresión para pronosticar el número de empleados de tiempo completo de un hospital respecto al número de camas por lo que realizo una encuesta en 12 y obtuvo los datos que se presentan en secuencia según el número de camas.

Hospital N° de Camas Empleados de x2 xy

43

[ESTADISTICA BASICA]

Page 44: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L OTiempo

1 23 69 529 15842 29 95 841 2755

3 29 102 841 2958

4 35 118 1225 4130

5 42 126 1764 5292

6 46 125 2116 5750

7 50 138 2500 6900

8 54 178 2916 9612

9 64 156 4096 9984

10 66 184 4356 12144

11 76 176 5776 13376

12 78 225 6084 7550

∑x

¿592 ∑y

¿1692 ∑x2

¿33044 ∑xy

¿92038

X=59212

=49.333Y=169212

=141

b=∑ xy−n x y

∑ x2−n x2

b=92038−(12 ) (49.333 ) (141 )33044−(12 ) (2433.744 )

=8566.5643839.072

=b=2.231

a= y−b x

a=141−(2.231 ) (49.33 )=141−110.061=¿ a=30.93

y=30.939+2.231x

y=30.939+2.231 (23 )=82.25

y=30.939+2.231 (78 )=204.95

44

[ESTADISTICA BASICA]

Page 45: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

EJERCICIO 2

Un analista toma una muestra de 10 embarques recientes por una compañía que registro la distancia en millas y tiempo de entrega al medio día más cercano a partir del momento en que el embarque estuvo listo para su cargo.

Elabora el diagrama de dispersión y considere si el análisis de regresión lineal parece apropiado.

Embarque muestreado 1 2 3 4 5 6 7 8 9 10Distancia en millas (x) = 825 215 1070 550 480 920 1350 325 670 1215Tiempo de entrega (y)= 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0

Embarque X Y x2 xy y2

1 825 3.5 680625 2887.5 12.252 215 1.0 46225 215 1

45

[ESTADISTICA BASICA]

Page 46: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O3 1070 4.0 1144900 4280 16

4 550 2.0 302500 1100 4

5 480 1.0 230400 480 1

6 920 3.0 846400 2760 9

7 1350 4.5 1822500 6075 20.25

8 325 1.5 105625 487.5 2.25

9 670 3.0 448900 2010 9

10 1215 5.0 1476225 6075 25

∑x

¿7620 ∑y

¿28.5 ∑x2

¿7104300 ∑xy

¿26370 ∑y2

¿99.75

x=762010

=762 y=2810

=2.85

b=Σxy−n x/ y/ = ¿Σ x2−n x�

2¿

b=26,370−10 (762 ) (2.85 )7,104,300−10 (580,644 )

= 26,370−21,7177,104,300−5,806,440

=b= .003582

46

[ESTADISTICA BASICA]

Page 47: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

Se seleccionaron al azar las siguientes observaciones de muestra:

a) Establezca la ecuación de regresiónb) Obtenga el valor de ycuando x=7c) Determine el error estándar de estimación d) Determine el intervalo de confianza de 95% para el valor medio

pronosticado cuando x =7e) Obtenga el coeficiente de determinación suponiendo una relación directa

entre las variablesf) Cuál es el coeficiente de correlación

a)

x Y x2 xy y2

4 4 16 16 165 6 25 30 363 5 9 15 256 7 36 42 49

10 7 100 70 49∑

x

¿28 ∑y

¿29 ∑x2

¿186 ∑xy

¿173 ∑y2

¿173

47

[ESTADISTICA BASICA]

Page 48: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

X=285

=5.6Y=295

=5.8

b=∑ xy−n x y

∑ x2−n x2

b=173−(5 ) (5.6 ) (5.8 )186−(5 ) (31.36 )

=0.3630

a= y−b x

a=5.8− (0.3630 ) (5.6 ) ¿3.7672

y=3.7672+0.3630 (3 )=4.85

y=3.7672+0.3630 (10 )=7.39

b)

ŷ=a+b x

48

[ESTADISTICA BASICA]

Page 49: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

ŷ=3.7672+0.3630(7)= 6.3082

c)

Syx=√∑ y2−a ∑ y−b ∑ x yn−2

Syx=√175−3.7672 (29 )−0.3630(173)5−2

=0.9920

d)

gl=n−2

gl=5−2=3

1−.95=0.5 /2=.025 = 3.182 t

ŷ ±t Sxy

6.3082±3.182 (.9920)

6.3082+3.1565=9.46

6.3082−3.1565=3.15

(3.1, 9.4)

e)

r2=√a ∑ y+b ∑ x y−n y2

∑ y2−n y2

r2=√3.7672 (29 )+ .3630 (173 )−5(5.8)2

175−5(5.8)2 =0.5658

f)

r=√r2

49

[ESTADISTICA BASICA]

Page 50: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

r=√0.5658

r=0.7521

REGRESION LINEAL MULTIPLE

Es evidente que lo más económico y rápido para modelar el comportamiento de una variable Y es usar una sola variable preeditora y usar un modelo lineal. Pero algunas veces es bastante obvio de que el comportamiento de Y es imposible que sea explicada en gran medida por solo una variable.

Por ejemplo, es imposible tratar de explicar el rendimiento de un estudiante en un examen, teniendo en cuenta solamente el número de horas que se preparó para ella. Claramente, el promedio académico del estudiante, la carga académica que lleva, el año de estudios, son tres de las muchas otras variables que pueden explicar su rendimiento. Tratar de explicar el comportamiento de Y con más de una variable preeditora usando una funcional lineal es el objetivo de regresión lineal múltiple.

Frecuentemente, uno no es muy familiar con las variables que están en juego y basa sus conclusiones solamente en cálculos obtenidos con los datos tomados.

Es decir, si ocurre que el coeficiente de determinación R 2 sale bajo (digamos menor de un 30%) , considerando además que su valor no se ha visto afectado por datos anormales, entonces el modelo es pobre y para mejorarlo hay tres alternativas que frecuentemente se usan:

a) Transformar la variable preeditora, o la variable de respuesta Y, o ambas y usar luego un modelo lineal.

b) Usar regresión polinómica con una variable preeditora.

c) Conseguir más variables preeditoras y usar una regresión lineal múltiple.

En el primer caso, se puede perder el tiempo tratando de encontrar la transformación más adecuada y se podría caer en “overfitting”, es decir, encontrar un modelo demasiado optimista, que satisface demasiado la tendencia de los datos tomados pero que es pobre para hacer predicciones debido a que tiene una varianza grande.

50

[ESTADISTICA BASICA]

Page 51: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

En el segundo caso el ajuste es más rápido, pero es bien fácil caer en “overfitting” y, además se pueden crear muchos problemas de cálculo ya que pueden surgir problemas de colinealidad, es decir relación lineal entre los términos del modelo polinomio.

El tercer caso es tal vez la alternativa más usada y conveniente. Tiene bastante analogía con el caso simple, pero requiere el uso de vectores y matrices.

En el siguiente ejemplo se mostrará el uso interactivo de las tres alternativas a través de seis modelos de regresión y servirá como un ejemplo de motivación para introducirnos en regresiónlineal múltiple

En la tabla se presentan datos muéstrales relativos a números de horas de estudio fuera durante un periodo de 3 semanas de algunas de 1 curso de estadística y a sus calificaciones en el examen final de ese periodo. Elabore un diagrama de dispersión para estos datos y observe si cumplen con los siguientes datos.

51

[ESTADISTICA BASICA]

Page 52: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

Estudiantemuestreado

1 2 3 4 5 6 7 8

Horas deEstudio(x)

20 16 34 23 27 32 18 22

CalificaciónEn examen(y)

64 61 84 70 88 92 72 77

∑ x=¿¿192

x=1928

=24

∑ y=608

y=6088

=76

x2 400 256 1156 529 729 1024 324 484 ∑ x2=4902xy 1280 976 2856 1610 2376 2994 1296 1694 ∑ xy=15032y2 4096 3721 7056 4900 7744 6464 5184 5929 ∑ y2=47094

a) Determine la línea de regresión de mínimos centrados de los datos y trácela en el diagrama.

b) Calcule el error estándar de la estimación.c) Use la ecuación de regresión para estimar la calificación en el examen

de un estudiante que dedico 30 horas al estudio de la materia que curso.

52

[ESTADISTICA BASICA]

Page 53: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

d) Elabore el intervalo de confianza del 90% para estimar la calificación media de los estudiantes que dedicaron 30 horas al estudio en curso.

e) Calcule el coeficiente de determinación y el coeficiente de correlación, interprete los coeficientes calculados.

b=∑ xy−nx/ y/

∑ x2−n x/2

b=15032−8(24 )(76)4902−8(576)

b=440294

b=1.4965

a= y−b x=76−(1.4965 ) (24 )=40.084

y=40.084+1.4965 (16 )=64.028

y=40.084+1.4964 (34 )=90.965

53

[ESTADISTICA BASICA]

Page 54: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

ŷ=40.084+1.49658 (30 )=84.979

sx=√∑ y2−a∑ y−b∑ x y

n−2

sx=√47094−40.084 (608 )−1.496 (15032 )

8−2

sx=√227.546

sx=√37.9233

sx=6.1581

54

[ESTADISTICA BASICA]

Page 55: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

ɡl=8−2=6

1−.90=0.12

=0.05

t=1.943

Iс∝=84.979+1.943 (6.1581 )=96.94

Iс∝=84.979−1.943 (6.1581 )=73.01

r2=a∑ y+b∑ x y−n ȳ2

∑ y2−n ȳ2

55

[ESTADISTICA BASICA]

Page 56: Unidad Academica Univesistaria La Paz

Estadística básica

C U A D E R N I L L O

r2=40.084 (608 )+1.4965 (15032 )−8 (5776)

47094−8(5776)

r2=658.46886

r2=0.7431

r=√r2

r=√0.7431

r=0.8620

INTERPRETACION

EL 86.02% DE LOS ALUMNOS QUE ESTUDIAN 30 HRS PASAN EL EXAMEN.

56

[ESTADISTICA BASICA]