Download - Estadistica descriptiva1 (1)

Transcript

04/18/2023

Estadística DescriptivaTextos guías

Estadística para Ingenieros y científicosWilliam Navidi

McGrawHillEstadística y Probabilidad. Montgomery

Henry Lamos DEstadística Descriptiva. Doctor en

Matemáticas Lamos H1

Evaluaciones

04/18/2023Estadística Descriptiva. Doctor en

Matemáticas Lamos H2

Tres previosI. Estadística descriptiva y probabilidad + Trabajo

0.3II. Variables aleatorias. Distribuciones de

probabilidad + trabajo. 0.35III. Modelado Estadístico + trabajo 0.35IV. El peso del previo y del trabajo es igual

04/18/2023Estadística Descriptiva. Doctor en

Matemáticas Lamos H3

BIG DATA

04/18/2023Estadística Descriptiva. Doctor en

Matemáticas Lamos H4

Estadística Descriptiva. Doctor en Matemáticas Lamos H

504/18/2023

1-1

• Proceso de asignar números o etiquetas a las cosas, según reglas especificas, para representar atributos de cantidad o calidad

http://proexpansion.com/es/articles/615-big-data-los-desafios-del-uso-de-datos-masivos

Medir lo que es medible y tratar de hacer medible lo que todavía no lo es. Galileo Galilei

“Todas las verdades son fáciles de entender, una vez descubiertas. La cuestión es descubrirlas.”

Escalas de medición

NOMINAL. Los datos son categorías mutuamente excluyentes. Los números que se asignan a objetos o fenómenos son nombres o clasificaciones, solo son etiquetas.

Sexo (masculino, femenino) se le asigna 0 a masculino y 1 a femenino.

Área geográfica (urbana , rural )

04/18/2023 6Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Escalas de medición

ORDINAL. En la escala se introduce un orden. Los números ordinales se emplean para indicar orden de clasificación.

Nivel de medición ordinal. Ordene de mayor a menor preferencia hacia los siguientes sabores de gaseosas de postobon

Uva ____ Naranja _____ Kola ____

Qué factores tuvo en cuenta en la selección de la entidad bancaria a la hora de adquirir alguno de sus productos. (Ordene numéricamente en grado de importancia, donde 1 es más importante que 2 y así sucesivamente)

 

04/18/2023 7Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Escalas de medición

ESCALA DE INTERVALO.

Los números se utilizan para clasificar objetos, de manera que las distancias numéricamente iguales en la escala representan distancias iguales en la característica que se mide.

Las preferencias por los 10 supermercados en Colombia en una escala de 7 Carulla recibe 6 y Jumbo 2, no significa que Carulla se prefiera 3 veces mas que Jumbo.

Carulla 6Jumbo 2

04/18/2023 8Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Escalas de medición

ESCALA DE RAZON. Tiene todas las propiedades de las anteriores y además punto cero absoluto. Con esta escala podemos clasificar los objetos, ordenarlos y comparar diferencias. Estatura

edad, peso, presión, permeabilidad, voltaje, ventas, participación de mercado.

04/18/2023 9Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Escalas de medición

10

IngresosCompra de Lacteos (Mensual)

Tamaño de la Familia

N. de niños menores de 10 años Estrato

Nivel de Educacion Cabeza de Hogar

3000000 150000 4 0 2TECNOLOGO4000000 80000 4 0 4UNIVERSITARIO4500000 250000 4 2 4UNIVERSITARIO2500000 40000 3 0 4BACHILLER4000000 85000 4 0 5UNIVERSITARIO2000000 100000 4 0 2UNIVERSITARIO4000000 150000 4 1 3UNIVERSITARIO1500000 50000 5 0 1BACHILLERATO4300000 100000 5 0 4UNIVERSITARIO2500000 180000 3 0 3UNIVERSITARIO3500000 220000 6 1 3Bachiller 2000000 140000 3 1 3UNIVERSITARIO

Tabla de datos estructurados

• La media y la varianza de la población son parámetros de posición y dispersión.

• Valor de resumen, un representante de los datos. • La media se define como la suma de todos los valores

ponderados por 1/N; N es el tamaño de la población:

N

xN

1ii

3-2

11Estadística Descriptiva. Doctor en

Matemáticas Lamos H

poblaciónla de Tamaño-N)(

=

2N

1i2

N

xxi

04/18/2023

Medidas de resumen

11.0

61.12

04/18/2023 12Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Un ejemplo. Ventas anuales medición

04/18/2023Estadística Descriptiva. Doctor en

Matemáticas Lamos H13

YYXX

XY

x

y

i

R

xN

x

XY

i

razón llama se

0

ticacaracterís la tiene si-1

N

1i=

Parámetros: Proporción, Razón, Correlación

18/04/2023 14Henry Lamos Ph.D en Matemáticas

Medidas de posición: media de una muestra

Suponga que se tienen los siguientes datos de una muestra.Se define el siguiente valor llamado media aritmética

La edad en meses de 5 perros de estudiantes de Ingeniería Industrial se presenta a continuación: 2, 5, 7, 9, 36 = 11.8

18/04/2023 15Henry Lamos Ph.D en Matemáticas

La mediana de una muestra

Suponga que se tienen los siguientes datos de una muestra. Se ordena la muestra en orden ascendente, sea el orden La mediana se define comoel siguiente valor llamado media aritmética si n es impar, en caso contrario

La edad en meses de 5 perros de estudiantes de Ingeniería Industrial se presenta a continuación: 2, 5, 7, 9, 36

Todo conjunto de datos de nivel de intervalo y de nivel de

razón tiene un valor medio.

04/18/2023 16Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Propiedades de la media

Al evaluar la media se incluyen todos los valores.Un conjunto de valores sólo tiene una media.La cantidad de datos a evaluar rara vez afecta la media.

La media es la única medida de ubicación donde la suma de las desviaciones de cada valor con respecto a la media, siempre es cero.

La mediana es única para cada conjunto de datos.

04/18/2023 17Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Propiedades de la mediana

No se ve afectada por valores muy grandes o muy pequeños, y por lo tanto es una medida valiosa de tendencia central cuando ocurren.Puede obtenerse para datos de nivel de razón, de intervalo y ordinal.

• Puede calcularse para una distribución de frecuencias con una clase de extremo abierto, si la mediana no se encuentra en una de estas clases.

La función de masa de probabilidad condicional

Moda

• La moda es el valor de la observación que aparece con más frecuencia.

• EJEMPLO 5: las calificaciones de un examen de diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Como la calificación 81 es la que más ocurre, la moda es igual 81.

La función de masa de probabilidad condicional

Media Geométrica

• La media geométrica (MG) de un conjunto de n números positivos se define como la raíz n-ésima del producto de los n valores. Su fórmula es:

• La media geométrica se usa para encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento.

n nXXXXMG ))...()()(( 321

La función de masa de probabilidad condicional

Media Geométrica. Ejemplo

Las tasas de interés de tres bonos son 5%, 7% y 4%.

3 )4)(5)(7(MG

La media aritmética es (5 + 7 + 4)/3 = 5.333La MG da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la tasa de 7%.

04/18/2023 21Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Medidas de variabilidad

minmax

max

min

,..,max

,..,min

xxR

xxxx

xxxx

n21

n21

Recorrido : Para un conjunto de datos se halla el mayor valor y el

menor valor

04/18/2023 22Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Medidas de dispersión

Desviación media: media aritmética de los valores absolutos de las

desviaciones respecto a la media aritmética. Sea las calificaciones

de un examen de diez estudiantes son: 3.5, 4.3, 3.8, 3.7, 3.6, 3.8,

3.9, 3.5, 3.5, 3.8. La media es 3.74, por lo tanto, las desviaciones

serían: -0.24, 0.56,…0.06l luego se calcula el promedio de las

desviaciones en valor absoluto,

N

1i

i

N

xXDMA )(

La función de masa de probabilidad condicional

Varianza

La varianza poblacional es el promedio de las desviaciones cuadráticas.

Se llama desviación cuadrática a

2i

2i xd )(

La varianza se denota con la letra sigma al cuadrado

22

i2

iN

1i

2

N

x

N

x )(

La varianza muestral estima la varianza de la población.

n

xxs

n

xs

i

i

)(=

1

)x-(Σ=ˆ

n

1i2

2i2

La desviación estándar muestral es la raíz cuadrada de

la varianza muestral.

la amplitud o rango es la diferencia entre los valores

mayor y menor en un conjunto de datos.

4-11

04/18/2023 24Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Estimaciones de la desviación media absoluta y de la varianza

El coeficiente de variación es la razón de la

desviación estándar a la media aritmética,

expresada como porcentaje:

CVs

X (100%)

4-17

04/18/2023 25Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Coeficiente de variación

Teorema de Chebyshev: para cualquier conjunto

de observaciones, la proporción mínima de

valores que está dentro de k desviaciones

estándar desde la media es al menos

1 – 1/k2, donde k2 es una constante mayor que 1.

04/18/2023 26Estadística Descriptiva. Doctor en

Matemáticas Lamos H

Interpretación y usos de la desviación estándar

27

Hora 8.30 am 9.30 am 10.30 am 11.30 am 12.30 am Muestra 1 2 3 4 5 6x1 33 33 35 30 33 38x2 29 31 37 31 34 37x3 31 35 33 33 35 39x4 32 37 34 34 33 40x5 33 31 36 33 34 38Promedio 31,6 33,4 35 32,2 33,8 38.4R 4 6 4 4 2 3

La pieza de una turbina de avión se fabrica mediante un proceso de colada de precisión. La abertura del aspa en este vaciado es un parámetro funcional importante de la pieza. En la tabla se presenta 6 de las 20 muestras que se encuentran en el archivo “oberturas” de cinco piezas. Los valores dados se han codificado usando los tres últimos dígitos de la dimensión, esto es, 31.6 debería ser 0.50316 pulgadas

Diámetro de una pieza

28

Diámetro de una pieza

Muestra x1 x2 x3 x4 x5

1 33 29 31 32 33

2 33 31 35 37 31

3 35 37 33 34 36

4 30 31 33 34 33

5 33 34 35 33 34

6 38 37 39 40 38

7 30 31 32 34 31

8 29 39 38 39 39

9 28 33 35 36 43

10 38 33 32 35 32

11 28 30 28 32 31

12 31 35 35 35 34

13 27 32 34 35 37

14 33 33 35 37 36

15 35 37 32 35 39

16 33 33 27 31 30

17 35 34 34 30 32

18 32 33 30 30 33

19 25 27 34 27 28

20 35 35 36 33 30

Grafica de control para la abertura de las aspas

29

En minitab, seleccionar las observaciones para un subgrupo están en una fila de columnas.Elegir x1, x2, x3, x4, x5

Cuartiles, quintiles, percentiles• Un cuartil de una muestra, , es un valor para el que una fracción

específica f (f=1/4, f= 2/4, f= ¾) de los valores de los datos es menor o igual a

• El primer, segundo y tercer cuartil se representan como , y respectivamente.

• Los datos se ordenan en forma creciente y el valor divide el conjunto de datos en dos partes, en la parte izquierda se encuentra el 25% de los datos, en la parte derecha el 75% de los datos.

• El valor representa la mediana por debajo de él hay 50% de datos como por encima

• La amplitud entre cuartiles es la distancia entre el tercer cuartil y el primer cuartil

4-19

Cuartiles, quintiles, percentiles4-19

• La desviación entre cuartiles es la mitad de la distancia entre

EJEMPLO

• Sean los datos 29 31 31 34 37 37 (vea que los datos se encuentran ordenados), el número 32.5 es el segundo cuartil, el tercero es 35.5 y el primero es 31.

4-23

Percentiles

• Cada conjunto de datos tiene 99 percentiles, que dividen el conjunto en 100 partes iguales.

• La amplitud cuartílica es la distancia entre dos porcentiles establecidos. La amplitud cuartílica 10 a 90 es la distancia entre el 10º y 90º percentiles.

4-24

Fórmula para percentiles4-25

100)1+(=

PnLp