01_Estadistica Descriptiva 1

5
Universidad T´ ecnica Federico Santa Mar´ ıa Departamento de Matem´ atica Profesor: Ronny Vallejos 1 Clase 1: Nociones de Estad´ ıstica Descriptiva Los primeros conceptos que necesitamos introducir antes de ir de lleno a las ideas de estad´ ıstica descriptiva son las nociones de poblaci´ on y muestra. Definici´ on 1.1. Una poblaci´ on es un conjunto que contiene la totalidad de individuos a ser estudiados por sus caracter´ ısticas. Definici´ on 1.2. Una muestra es un subconjunto de una poblaci´ on seleccionada de acuerdo a alg´ un etodo de muestreo. En este curso no estudiaremos los m´ etodos cl´ asicos de muestreo, sino que asumiremos que la muestra seleccionada ha sido obtenida por alg´ un m´ etodo apropiado. En general denotaremos por N al tama˜ no de la pobllaci´ on y por n al tama˜ no de la muestra. Tambi´ en enfatizamos el hecho que existen f´ ormulas que permiten calcular el tama˜ no muestral de tal manera que el error asociado al muestreo es m´ ınimo. Estas ormulas deben ser combinadas con las restricciones relativas a los recursos para producir un tama˜ no muestral ´ optimo. En general, si X es la variable estad´ ıstica de inter´ es definida para cada uno de los elementos de la poblaci´ on, entonces denotaremos las observaciones pertenecientes a la muestra como X 1 ,X 2 ,...,X n . La rama de la estad´ ıstica que se ocupa de organizar, representar y producir resultados de datos muestrales se denomina estad´ ıstica descriptiva. 1.1 Escalas de Medidas Si X es la variable estad´ ıstica de inter´ es definida para cada uno de los elementos de la poblaci´ on, entonces la variable X puede ser clasificada en al menos tres escalas de medidas. Escala Nominal Las realizaciones de la variable X son categor´ ıas en las cuales no existe orden. Estas categor´ ıas se usan s´ olo para distinguir las realizaciones de X . Ejemplo 1.1. Sea X : color de los ojos. Claramente las realizaciones de X son categor´ ıas. En particular los valores de la variable son colores (verde, azul, cafe, negro). Escala Ordinal En este caso las realizaciones de X se pueden ordenar aunque no sean necesariamente umeros. Ejemplo 1.2. Sea X : calificaciones de un examen (A, B, C, D y F). Claramente existe un orden entre las calificaciones ya que por ejemplo es mejor obtener una A que una B. Escala Intervalar En este caso el recorrido de la variable X es alg´ un subconjunto de R . Ejemplo 1.3. Sea X : Tiempo de funcionamiento correcto de un componente electr´ onico. Claramente Rec(X )= R + . Luego la variable X puede ser medida en una escala intervalar. En este curso estudiaremos principalmente variables que se miden en una escala intervalar. Dentro de estas variables existen dos categor´ ıas: las variables discretas y continuas. Una variable estad´ ıstica es discreta si su reccorido es un subconjunto de N. En caso contrario diremos que una variable es continua si el recorrido de la misma es alg´ un subintervalo de R. Si X : Tiempo de funcionamiento correcto de un componente electr´ onico. Entonces X 1 ,X 2 ,...,X n representa el tiempo de funcionamiento correcto de las componentes 1, 2,...,n, respectivamente. Supongamos que hemos observado los valores X 1 ,X 2 ,...,X n de una variable estad´ ıstica de inter´ es. Una pregunta es: ¿ C´ omo resumir la informaci´ on contenida en esta muestra?. En la siguiente secci´ on abordamos este tipo de problem´ aticas. MAT-043 1 Septiembre 11, 2013

description

estadistica

Transcript of 01_Estadistica Descriptiva 1

Page 1: 01_Estadistica Descriptiva 1

Universidad Tecnica Federico Santa MarıaDepartamento de Matematica Profesor: Ronny Vallejos

1 Clase 1: Nociones de Estadıstica Descriptiva

Los primeros conceptos que necesitamos introducir antes de ir de lleno a las ideas de estadıstica descriptivason las nociones de poblacion y muestra.

Definicion 1.1. Una poblacion es un conjunto que contiene la totalidad de individuos a ser estudiadospor sus caracterısticas.

Definicion 1.2. Una muestra es un subconjunto de una poblacion seleccionada de acuerdo a algunmetodo de muestreo.

En este curso no estudiaremos los metodos clasicos de muestreo, sino que asumiremos que la muestraseleccionada ha sido obtenida por algun metodo apropiado. En general denotaremos por N al tamano dela pobllacion y por n al tamano de la muestra. Tambien enfatizamos el hecho que existen formulas quepermiten calcular el tamano muestral de tal manera que el error asociado al muestreo es mınimo. Estasformulas deben ser combinadas con las restricciones relativas a los recursos para producir un tamanomuestral optimo.

En general, si X es la variable estadıstica de interes definida para cada uno de los elementos de lapoblacion, entonces denotaremos las observaciones pertenecientes a la muestra como X1, X2, . . . , Xn.

La rama de la estadıstica que se ocupa de organizar, representar y producir resultados de datosmuestrales se denomina estadıstica descriptiva.

1.1 Escalas de Medidas

Si X es la variable estadıstica de interes definida para cada uno de los elementos de la poblacion, entoncesla variable X puede ser clasificada en al menos tres escalas de medidas.

Escala Nominal Las realizaciones de la variable X son categorıas en las cuales no existe orden. Estascategorıas se usan solo para distinguir las realizaciones de X.

Ejemplo 1.1. Sea X : color de los ojos. Claramente las realizaciones de X son categorıas. En particularlos valores de la variable son colores (verde, azul, cafe, negro).

Escala Ordinal En este caso las realizaciones de X se pueden ordenar aunque no sean necesariamentenumeros.

Ejemplo 1.2. Sea X : calificaciones de un examen (A, B, C, D y F). Claramente existe un orden entrelas calificaciones ya que por ejemplo es mejor obtener una A que una B.

Escala Intervalar En este caso el recorrido de la variable X es algun subconjunto de R .

Ejemplo 1.3. Sea X : Tiempo de funcionamiento correcto de un componente electronico. ClaramenteRec(X) = R+. Luego la variable X puede ser medida en una escala intervalar.

En este curso estudiaremos principalmente variables que se miden en una escala intervalar. Dentro deestas variables existen dos categorıas: las variables discretas y continuas. Una variable estadıstica esdiscreta si su reccorido es un subconjunto de N. En caso contrario diremos que una variable es continuasi el recorrido de la misma es algun subintervalo de R.

Si X : Tiempo de funcionamiento correcto de un componente electronico. Entonces X1, X2, . . . , Xn

representa el tiempo de funcionamiento correcto de las componentes 1, 2, . . . , n, respectivamente.Supongamos que hemos observado los valores X1, X2, . . . , Xn de una variable estadıstica de interes.

Una pregunta es: ¿ Como resumir la informacion contenida en esta muestra?. En la siguiente seccionabordamos este tipo de problematicas.

MAT-043 1 Septiembre 11, 2013

Page 2: 01_Estadistica Descriptiva 1

Universidad Tecnica Federico Santa MarıaDepartamento de Matematica Profesor: Ronny Vallejos

2 Medidas de Tendencia Central y Dispersion

Existen tres tipos de medidas que se pueden usar para resumir la informacion contenida en una muestraX1, X2, . . . , Xn acerca de una variable medida en escala intervalar. Estas son las medidas de tendenciacentral, las medidas de dispersion y las medidas de forma.

Medidas de Tendencia Central o LocalizacionEstas medidas proporcionan un representante de la muestra que es una buena medida resumen de la

informacion. En terminos matematicos, una medida de tendencia central, dispersion o de forma puedecaracterizarse como una funcion

T : Rn −→ R

tal que T (X1, X2, . . . , Xn) es un numero real que cumple el rol de resumir adecuadamente las tendencias(en algun sentido especıfico) contenidas en la muestra.

1. El promedio (Media Aritmetica)

X =1

n

n∑i=1

Xi.

2. El promedio Ponderado

El caso anterior es un ejemplo de un promedio que considera pesos que son todo iguales a 1/n.¿Es posible generalizar esta idea al considerar un promedio que pondera los pesos de manera difer-ente?. La respuesta a esta pregunta es afirmativa. A la cantidad siguiente le llamaremos promedioponderado:

Xw =n∑

i=1

wiXi,

donde wi ≥ 0 ∀i = 1, 2, . . . , n, y∑n

i=1wi = 1.

Observacion 2.1. Note que el promedio y el promedio ponderado no son necesariamente un valorde la muestra. Es decir, la medida de tendencia central puede no ser un valor de la muestra, peroesto no significa que no es un buen representante. En este contexto existe un ejemplo popularmenteconocido: dos personas van a un restaurante a comer pollo. La primer persona se come dos pollosy la segunda no come pollo. Entonces usando la notacion introducida anteriormente tenemos queX1 = 2 y X2 = 0 y el promedio de estas dos observaciones es X = 1. Es decir, en promedio estaspersonas comieron un pollo, aunque en realidad la segunda persona no comio pollo. Esto ilustraque el promedio no es una medida que es capaz de representar las tendencias individuales de lasobservaciones, sino que es una medida global asociada a la muestra completa.

3. La Moda

La moda (M0)es quel valor que mas se repite en la muestra. Es posible que existan dos o tres modas,en tal caso se habla de medidas bimodales o trimodales respectivamente.

3. La Mediana

La mediana (Me) es un valor que divide la muestra en dos partes iguales. Es decir no se concentraen los valores en si mismos de la muestra sino en la cantidad de datos que hay en cada grupo.Para calcular la mediana es necesario ordenar las observaciones. Para distinguir, las observacionesordenadas de las observaciones originales usamos la siguiente notacion para denotar los valoresordenados: X(1), X(2), . . . , X(n), donde X(1) = min{Xi} y X(n) = max{Xi}. Entonces para calcular

MAT-043 2 Septiembre 11, 2013

Page 3: 01_Estadistica Descriptiva 1

Universidad Tecnica Federico Santa MarıaDepartamento de Matematica Profesor: Ronny Vallejos

el valor central de la muestra (la mediana) diferenciamos dos casos dependiendo si el tamano de lamuestra n es par o impar:

Me =

X(n+1

2 ), n es impar,

X(n2 )+X(n2 +1)

2, n es par.

Medidas de DispersionEstas medidas tienen como objetivo caracterizar la variabilidad de las observaciones respecto de alguna

medida de dispersion.

1. La Varianza

Consideremos la muestra X1, X2, . . . , Xn. Supongamos que nuestro interes es encontrar una medidade tendencia central T tal que la suma de las distancias al cuadrado entre todos los valores de lamuestra y T sea mınima. Es decir, queremos encontrar T tal que la cantidad

Q(T ) =n∑

i=1

(Xi − T )2

sea mınima. Supongamos que la funcion Q(T ) es diferenciable respecto a T . Entonces

dQ(T )

dT= 0⇐⇒ −2

n∑i=1

(Xi − T ) = 0⇐⇒ −n∑

i=1

Xi + nT = 0⇐⇒ T =1

n

n∑i=1

Xi = X.

Ademas es facil ver que d2Q(T )dT 2 T=X = 2n > 0. Por lo tanto, T = X es un mınimo. Es decir, el

promedio es aquella cantidad que produce la menor suma de todas las distancias al cuadrado. Sireemplazamos T = X en la ecuacion original para Q(T ) obtenemos una cantidad llamada varianza,definida por

S2n =

1

n

n∑i=1

(Xi −X)2.

Alternativamente, definimos la varianza muestral como

S2n−1 =

1

n− 1

n∑i=1

(Xi −X)2.

Note que las unidades de S2n o S2

n−1 no son las mismas que las unidades de los datos originales. Estosugiere definir la siguiente cantidad llamada desviacion estandar:

Sn−1 =

√√√√ 1

n− 1

n∑i=1

(Xi −X)2.

La definicion en el caso de Sn es similar.

Podemos decir entonces que tanto S2n−1 y Sn−1 son medidas de dispersion asociadas a la muestra

pero la diferencia radica en que la primera tiene distintas unidades a los datos originales. Notetambien que S2

n−1 ≥ 0, Sn−1 ≥ 0, S2n ≥ 0 y Sn ≥ 0 por definicion.

MAT-043 3 Septiembre 11, 2013

Page 4: 01_Estadistica Descriptiva 1

Universidad Tecnica Federico Santa MarıaDepartamento de Matematica Profesor: Ronny Vallejos

Resultado. La cantidad

Q(T ) =n∑

i=1

|Xi − T |

es minimizada por T = Me.

2. El Rango Intecuartılico (IQR)

Previo a la definicion de rango intercuartılico necesitamos definir los percentiles. En general los

percentiles similarmente a la mediana dividen los datos en grupos. En el caso de los percentiles la

masa de datos se divide en 100 partes tal que el percentil de orden 50 coincide con la mediana y

en este caso la muestra se divide en dos mitades iguales. Precisamente, si los datos ordenados son

X(1), X(2), . . . , X(n), entonces el percentil de orden j, 1 ≤ j ≤ 100 esta dado por:

Pj = X( j100 (n+1)).

En particular los valores P25, P50, P75 y P100 reciben el nombre de primer, segundo, tercer y cuartocuartil respectivamente. Es decir

Q1 = P25,

Q2 = P50,

Q3 = P75,

Q4 = P100.

El rango Intercuartılico se define como sigue:

IQR =Q3 −Q1

2.

Note que entre los valores Q1 y Q3 se concentra el 50 de los datos de la muestra. Luego, si Q3−Q1

es un valor pequeno es un indicador de menor dispersion en la muestra.

3. El Coeficiente de Variacion(CV) El coeficiente de variacion es una medida que compara ladesviacion estandar con el promedio de una muestra:

CV =S

X.

Este coeficiente no tiene dimensiones y es util para comparar dos o mas muestras. Un valor del CVpequeno esta asociado a una muestra homogenea.

3 Ejemplos

Ejemplo 3.1. Demostrar

a) S2n = 1

n

∑ni=1(Xi −X)2 = 1

n

∑ni=1X

2i −X

2.

b) S2n−1 = 1

2n(n−1)

∑ni=1

∑nj=1(Xi −Xj)

2.

MAT-043 4 Septiembre 11, 2013

Page 5: 01_Estadistica Descriptiva 1

Universidad Tecnica Federico Santa MarıaDepartamento de Matematica Profesor: Ronny Vallejos

Ejemplo 3.2. Considere los datos siguientes: 4; 7; 18; 1; 7; 13, 2.a) Calcule IQRb) ¿Que porcentaje de datos es menor o igual a 7?

Ejemplo 3.3. Para un material compuesto de 21 observaciones se calculo la media aritmetica y lavarianza. El resultado fue el siguiente: X = 1 y S2

n = 50. Despues de realizados los calculos, descubrieronun error en el material original. Una observacion con valor -5, en realidad tenıa un valor igual a +16.Calcular el valor correcto tanto de la media aritmetica como de la varianza.

MAT-043 5 Septiembre 11, 2013