Estadistica descriptiva 1

60
Roberto Castro Z 1 Introducción -Definición de Estadística - Estadística Descriptiva - Estadística Inferencial - Conceptos básicos: • Unidad estadística • Variable • Población • Muestra • Tipos de Variables

Transcript of Estadistica descriptiva 1

Roberto Castro Z

1

Introducción

-Definición de Estadística- Estadística Descriptiva- Estadística Inferencial- Conceptos básicos:

• Unidad estadística• Variable• Población• Muestra • Tipos de Variables

Roberto Castro Z

2

Definición

Estadística: es todo lo que se relacione con la recolección, procesamiento, análisis e interpretación de datos numéricos.La estadística se clasifica en dos categorías: descriptiva y inferencial

Estadística Descriptiva: es la presentación de datos en cuadros y gráficas, incluye también la síntesis de ellos mediante descripciones numéricas

Estadística Inferencial: son las técnicas que tratan de generalizaciones de una población de datos basadas en muestras de datos de ésta

Roberto Castro Z

3

1986 1987 1988 1989

Guatemala 6,335.2 7,084.4 7,609.2 8,458.8El Salvador 3,952.9 4,628.1 5,473.2 5,755.4Honduras 3,798.0 4,064.0 4,625.5 3,744.2Nicaragua 323.6 409.4 468.4Costa Rica 4,400.8 4,510.7 4,604.5 5,226.0Panamá 5,145.1 5,309.7 4,551.4 4,639.3

FUENTE: SIECA, Series Estadísticas Seleccionadas, 1994.

CUADRO 1

AÑOPAIS

CENTROAMERICA: PRODUCTO INTERNO BRUTO POR AÑO SEGÚN PAIS

(En millones de US dólares)

Gráfico 1 Centroamérica: Producto Interno Bruto por Año

0 2000 4000 6000 8000 10000 12000

Guatemala

El Salvador

Honduras

Nicaragua

Costa Rica

Panamá

Pa

ís

Millones de Dólares

1993

1992

Estadística Descriptiva

Promedio: 2.54

Moda: 3.45

Mediana: 3.05

Desviación Estándar: 1.2

Cuadros, gráficos, descripciones numéricas

Roberto Castro Z

4

Población

Muestra

Generalización: con los datos de la muestra se

hacen conclusiones sobre toda la población

Cálculos y descripciones sobre la muestra

¿Por qué es necesaria la Inferencia?

Problema: en la población existe algún valor que NO podemos calcular (desconocido) que nos interesa, por ejemplo: el peso promedio de los peces de un lago.

Técnicas probabilísticas

Estadística Inferencial

Valor desconocido en la población

Roberto Castro Z

5

Unidad Estadística : es el objeto o entidad sobre el cual se desea medir alguna característica o atributo. Debe definirse claramente en tiempo y en espacio

Variable: es el atributo o característica a medir sobre la unidad estadística de interés. Se llama variable porque para cada unidad estadística el valor de la medición puede variar

Conceptos Básicos

Población: es el conjunto de todas las mediciones del atributo de interés de la unidad estadística en estudio. A un valor que se calcula con todos los datos de la población se le llama Parámetro.

Muestra: es un subconjunto de la población, a estas mediciones se les llama observaciones. A un valor que se calcula con datos de la muestra se le llama Estimador.

Roberto Castro Z

6

Introducción

Lecturas:

Mason & Lind: pág 1 a 11

Roberto Castro Z

7

Variables

Variable Cualitativa: solamente se le asignan valores de atributos. Si-No, Bueno-Malo-Regular, Correcto-Incorrecto, Hombre-Mujer, etc.

Variable Cuantitativa: se le pueden asignar valores numéricos. Tamaño, contenido, resultado de un test, etc.

Variable : es una característica (magnitud, vector o número) que puede ser medida (u observada), adoptando diferentes valores en cada uno de los casos de un estudio (para cada unidad estadística)

Tipos de Variables

Roberto Castro Z

8

Variable Ordinal: aquella variable que mide categorías o modalidades ordenadas. Nivel de estudios, grado de aceptación, etc.

Variable Nominal: aquella variable que mide categorías o modalidades no ordenadas. Sexo, Provincia de residencia, etc.

Variable Binaria: aquella variable que solamente puede asumir dos categorías. Conoce un producto , Presencia de un enfermedad, etc.

Variables Cualitativas

Roberto Castro Z

9

Variable Discreta: aquella variable que puede asumir solamente un número finito de valores o un número infinito contable de valores. Número de hijos, edad en años cumplidos, etc.

Variable Continua: aquella variable que puede asumir solamente un número infinito no contable de valores. Temperatura, Edad real, Contenido de un recipiente, etc.

Variables Cuantitativas

Entre dos números enteros no existe ningún otro número entero. Entre dos números reales existen infinitos números reales

Roberto Castro Z

10

Estadística Descriptiva

Componentes de un Cuadro

1986 1987 1988 1989

Guatemala 6,335.2 7,084.4 7,609.2 8,458.8El Salvador 3,952.9 4,628.1 5,473.2 5,755.4Honduras 3,798.0 4,064.0 4,625.5 3,744.2Nicaragua 323.6 409.4 468.4Costa Rica 4,400.8 4,510.7 4,604.5 5,226.0Panamá 5,145.1 5,309.7 4,551.4 4,639.3

FUENTE: SIECA, Series Estadísticas Seleccionadas, 1994.

CUADRO 1

AÑOPAIS

CENTROAMERICA: PRODUCTO INTERNO BRUTO POR AÑO SEGÚN PAIS

(En millones de US dólares)

Absoluto Relativo Absoluto Relativo

Total de Hogares 627,866 100.0 656,445 100.0Pobreza Extrema 39,095 6.2 45,146 6.9No Satisf. las Neces. Bás. 88,831 14.1 96,331 14.7No Pobres 499,940 79.6 514,968 78.4

FUENTE: Encuesta de Hogares de Propósitos Múltiples 1995 y 1996. Dirección General de Estadística y Censos

TOTAL DE HOGARES COSTARRICENSES POR AÑO SEGÚN CATEGORIA DE POBREZA

CUADRO 3

1995-1996(Valores absolutos y relativos)

1995 1996AÑO

CATEGORIA DE POBREZA

Roberto Castro Z

11

Número del Cuadro: Se usa cuando dentro del documento cuando existen dos o más cuadros

Título: Es una descripción de la naturaleza, clasificación y referencia en tiempo de los datos presentados. Debe responder a las preguntas: qué son los datos, cuándo y dónde se recolectaron, cómo y bajo qué criterios se clasificaron

Nota Introductoria: Es una frase (entre paréntesis o guiones) se utiliza para brindar información sobre el cuadro: Indicar unidades con que se trabaja; darle más claridad al cuadro; prevenir al usuario de las limitaciones de la información; establecer la base sobre la que se realizan las comparaciones

Encabezados: Son los títulos del resto de las columnas. Describen en forma general las clasificaciones de cada columna

Cuerpo: Son las cifras o datos que se quieren presentar

Columna Matriz: Contiene la clasificación principal que se hizo de la información

Componentes de un Cuadro

Roberto Castro Z

12

Convenciones para el título de un Cuadro

•Centrado

• Se usa la palabra SEGÚN para la clasificación primaria (la de la columna matriz)

• Se usa la palabra POR para la clasificación secundaria (la de los encabezados)

Nota al Pie: Una frase que aclara alguna cifra o clasificación, su función es más específica que la nota introductoria. Por lo general se llama la atención sobre esta nota con números o símbolos: (*) (1) (a)

Fuente: Es una cita bibliográfica exacta del origen de los datos. Esta no se incluye si los datos fueron obtenidos por la persona u organización que los publica

Componentes de un Cuadro

Roberto Castro Z

13

Componentes de un Gráfico

FUENTE: SIECA, Series Estadísticas Seleccionadas, 1994

GRAFICO 10 EVOLUCION DEL PRODUCTO INTERNO BRUTO EN COSTA RICA Y

GUATEMALA, 1986-1993

0

2000

4000

6000

8000

10000

12000

1986 1987 1988 1989 1990 1991 1992 1993

AÑO

Mill

on

es

de

lare

s

Guatemala

Costa Rica

Estadística Descriptiva

Roberto Castro Z

14

Gráficos de barras

Son gráficos con barras rectangulares de igual ancho y de longitud determinada por la cantidad que representa El espacio de separación entre las barras debe ser constante. Pueden ser horizontales o verticales y se pueden utilizar valores absolutos o relativos (%). Los ejes deben iniciar en cero y la escala deber ser continua (sin interrupciones). Existen tres tipos: Barras simples, Barras compuestas, Barras comparativas

FUENTE: Costo de la Canasta Básica de Alimentos. Año 3, No. 4. Dirección General de Estadística y Censos

GRAFICO 1 ESTRUCTURA DE COSTOS DE LOS GRUPOS DE ALIMENTOS DE LA CANASTA BASICA DE ALIMENTOS.

ABRIL 1997

0 5 10 15 20 25

VARIOS

HUEVOS

RAICES

FRIJOLES

AZUCAR

GRASAS

VERDURAS

LACTEOS

CEREALES

CARNES

GR

UP

O

PORCENTAJE

FUENTE: USS Corporation. Annual Report. 1974

USS Corporation: Dividendos y ganancias retenidas. 1967-1974

0

100

200

300

400

500

600

700

1969 1970 1971 1972 1973 1974

Año

Mill

ones

de

Dól

ares

Ganancias Retenidas

Dividendos

FUENTE: USS Corporation. Annual Report. 1974

USS Corporation: Dividendos y ganancias retenidas. 1967-1974

0%10%20%30%40%50%60%70%80%90%

100%

1969 1970 1971 1972 1973 1974

Año

Mill

ones

de

Dól

ares

Dividendos Ganancias Retenidas

FUENTE: Gerencia de Mercadeo, Universidad Latina de Costa Rica

Grafico 6 Universidad Latina de Costa Rica: Estudiantes matriculados por

sexo, según provincia de procedencia. 1995

0 500 1000 1500 2000 2500 3000

Guanacaste

Limón

Puntarenas

Heredia

Cartago

Alajuela

San José

Pro

vin

cia

Estudiantes

Hombres

Mujeres

Barras Simples

Barras Comparativas

Barras Compuestas

Roberto Castro Z

15

Gráficos de barras

Un gráfico debe ser lo suficientemente claro de forma que se explique por el mismo. Se compone de:

Número: para identificar el gráfico se utiliza siempre que haya más de uno.

Título: debe indicar el qué, dónde, cómo, y cuándo de la información (se siguen las mismas reglas de los títulos de los cuadros)

Fuente: indica el origen de la información utilizada, puede servir para informar al usuario el lugar donde puede obtener mayor información al respecto.

Leyenda: cuando en un gráfico se incluyen varias series de datos, es necesario identificar cada una de ellas mediante símbolos o leyendas.

Escala: Identifica la unidad de medida correspondiente a los valores en ambos ejes.

Nota introductoria y nota al pie: se utilizan si son necesarias y en tal caso, se sigue las mismas reglas que en los cuadros.

Título de los ejes: se utiliza para identificar cada uno de los ejes.

Roberto Castro Z

16

Barras Compuestas: Es un gráfico con varias barras divididas para mostrar sus componentes. Se pueden usar cifras absolutas o relativas. Es útil para comparar los totales de las magnitudes de las categorías y además para comparar los totales de subcategorías ( o componentes dentro de cada categoría), pero no permite la comparación de las magnitudes de las subcategorías.

Barras Simples: Es útil para comparar las magnitudes de las categorías. Si la variable es cualitativa o geográfica las barras se colocan horizontalmente. Las barras se colocan según su longitud de mayor a menor (excepto cuando hay una categoría especial de “otros” o “varios”, que se incluye al final).

Barras Comparativas: Es un grafico con una serie de barras superpuestas que representan los componentes de un fenómeno con el fin de comparar sus magnitudes simultáneamente. Es útil para apreciar las magnitudes de las subcategorías dentro de un mismo atributo, además permite comparar las magnitudes de las subcategorías de las distintas categorías. Tiene la desventaja de que no permite resaltar las comparaciones entre los totales de las categorías.

Gráficos de barras

Roberto Castro Z

17

Gráfico circular: Es un gráfico en que cada componente esta representado por una parte de un círculo. Se utiliza para destacar la importancia relativa de las categorías dentro de un total

Gráfico lineal: Es una representación sobre un plano cartesiano, de los valores de dos variables por medio de puntos unidos con líneas. Se utiliza principalmente para representar series cronológicas. Permite representar varias series de datos en un mismo gráfico.

Gráfico Circular y Gráfico Lineal Aritmético

Roberto Castro Z

18

Gráficos: Ejemplos

Roberto Castro Z

19

Gráficos: Ejemplos

Roberto Castro Z

20

Distribución de Frecuencias

• Definición

• Variable Cualitativa Nominal

• Variable Cualitativa Ordinal

• Variable Cuantitativa Discreta

• Variable Cuantitativa Continua

• Histograma

• Medidas de sesgo y curtósis

• Diagrama de tallo y hojas

Roberto Castro Z

21

Distribución de Frecuencias

La distribución de frecuencias es el primer paso para analizar un conjunto numeroso de datos. Permite, de una forma conveniente y simple, resumirlos, ordenarlos y clasificarlos. Junto a la distribución de frecuencias están los histogramas, polígonos de frecuencias y diagramas de tallo y hojas que permiten visualizar las características básicas de un conjunto de datos.

La distribución de frecuencias es un conteo de la cantidad de veces que se repite un valor o la cantidad de veces que se repiten algunos valores en una serie de categorías. Por ejemplo al preguntarle a un grupo de mujeres sobre el número de hijos vivos, podemos contar cuántas mujeres dijeron tener 1; cuántas 2, etc. También podríamos entrevistar a un grupo de personas sobre sus ingresos y podríamos contar cuántos tienen ingresos entre 0 y 25 mil por semana; cuántos tienen ingresos de más de 25 mil y hasta 50 mil; y cuántos tienen ingresos de más de 50 mil por semana.

Las distribuciones de frecuencias varían en su forma y en la técnica para elaborarlas dependiendo del tipo de variable que se analice.

Distribución de Frecuencias

Roberto Castro Z

22

Distribución de Frecuencias

Variable cualitativa nominal

Intención de voto de un grupo de 32 delegados para la convención del PDN de octubre de 1997:

Categoría Conteo Frecuencia

Mora ///// ///// /// 13Vargas ///// 4Rojas ///// // 7González ///// /// 8

Total 32

Absoluta Relativa

fi fr %

Mora 13 40.6González 8 25.0Rojas 7 21.9Vargas 4 12.5

Total 32 100.0

Frecuencia

Candidato

Tabla de FrecuenciasDISTRIBUCIO DE FRECUENCIAS DE LOS VOTOS

PARA LOS PRECANDIDATOS DEL PDN(Octubre 1997)

0

2

4

68

10

12

14

Mora González Rojas Vargas

Candidato

me

ro d

e v

oto

s

Mora Mora Rojas Mora Mora González González MoraVargas Rojas Mora González González Mora Mora GonzálezRojas Vargas Mora Vargas Rojas Mora Mora MoraMora González Vargas Rojas Rojas Rojas González González

Roberto Castro Z

23

Distribución de Frecuencias

fi F F fi F F

Primaria 23 23 56 41.1 41.1 100.0Secundaria 9 32 33 16.1 57.1 58.9Técnico 12 44 24 21.4 78.6 42.9Universitaria 12 56 12 21.4 100.0 21.4

CategoríaFrecuencias

Absolutas Relativas

Variable cualitativa ordinal

F1= f1

F2 = F1 + f2 ...

Fk = Fk-1 + fk

“Menos de” F

Fk= fk

Fk-1 = Fk + fk-

1 ...

F1 = F2 + f1

“Más de” F

Algunas Interpretaciones: 9 personas tienen educación secundaria, 44 personas tienen educación técnica o inferior, el 42.9% de las personas tienen educación técnica o superior

DISTRIBUCION DE FRECUENCIAS DE LOS EMPLEADOS DE LA EMPRESA XYZ SEGUN NIVEL DE INSTRUCCION

(Octubre 1997)

0

5

10

15

20

25

Primaria Secundaria Técnico Universitario

Nivel de Insrtucción

me

ro d

e E

mp

lea

do

s

Tabla de Frecuencias

Nivel de Instrucción de los Empleados de la Empresa XYZ (Octubre 1997)

Roberto Castro Z

24

Distribución de Frecuencias

Variable cuantitativa discreta

13 13 10 2 68 12 7 9 493 19 15 14 7

11 6 4 32 1229 9 8 15 17

5 37 16 11 1221 11 7 16 1811 6 10 10 243 10 6 9 7

12 19 20 5 71

TRABAJADORES QUE FALTAN A UNA FABRICA EN 50 DIAS DE TRABAJO

Días

Categorías Frecuencia

0 - 4 45 - 9 15

10 - 14 1615 - 19 820 - 24 3

25 o más 4

Total 50

Trabajadores

Roberto Castro Z

25

Distribución de Frecuencias

Variable cuantitativa discreta

fi F F fi F F

0-4 4 4 50 8.0 8.0 100.0 5-9 15 19 35 30.0 38.0 70.0 10-14 16 35 19 32.0 70.0 38.0 15-19 8 43 11 16.0 86.0 22.0 20-24 3 46 8 6.0 92.0 16.0 25 o más 4 50 4 8.0 100.0 8.0

CategoríaFrecuencias

Absolutas Relativas

Algunas Interpretaciones: en 8 días (de los 50) faltaron a la fábrica entre 15 y 19 trabajadores, en 19 días faltaron a la fábrica 9 o menos trabajadores, el 22% de los días faltaron a la fábrica 15 o más trabajadores

Tabla de Frecuencias

Trabajadores que faltan a una fábrica en 50 días de trabajo

DíasTrabajadores

Roberto Castro Z

26

Distribución de Frecuencias

15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.222.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.726.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.719.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.018.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.514.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.18.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8

25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5

EMISION DIARIA (EN TONELADAS) DE OXIDO DE AZUFRE DE UN PLANTA INDUSTRIAL

Variable cuantitativa continua

Inferior Superior Inferior Superior fi F F fi F F

6.2 - 9.8 6.15 - 9.85 8.00 6 6 80 7.5 7.5 100.09.9 - 13.5 9.85 - 13.55 11.70 10 16 74 12.5 20.0 92.5

13.6 - 17.2 13.55 - 17.25 15.40 12 28 64 15.0 35.0 80.017.3 - 20.9 17.25 - 20.95 19.10 24 52 52 30.0 65.0 65.021.0 - 24.6 20.95 - 24.65 22.80 16 68 28 20.0 85.0 35.024.7 - 28.3 24.65 - 28.35 26.50 8 76 12 10.0 95.0 15.028.4 - 32.0 28.35 - 32.05 30.20 4 80 4 5.0 100.0 5.0

RelativasFrecuencias

Límites dados Límites realesPunto

Mediosxi

Absolutas

Distribución de frecuencias de las emisiones diarias de óxido de azufre en una planta industrial

(Toneladas)

80 días

Toneladas de Oxido de Azufre Días

Roberto Castro Z

27

Distribución de Frecuencias

Inferior Superior Inferior Superior fi F F fi F F

6.2 - 9.8 6.15 - 9.85 8.00 6 6 80 7.5 7.5 100.09.9 - 13.5 9.85 - 13.55 11.70 10 16 74 12.5 20.0 92.5

13.6 - 17.2 13.55 - 17.25 15.40 12 28 64 15.0 35.0 80.017.3 - 20.9 17.25 - 20.95 19.10 24 52 52 30.0 65.0 65.021.0 - 24.6 20.95 - 24.65 22.80 16 68 28 20.0 85.0 35.024.7 - 28.3 24.65 - 28.35 26.50 8 76 12 10.0 95.0 15.028.4 - 32.0 28.35 - 32.05 30.20 4 80 4 5.0 100.0 5.0

RelativasFrecuencias

Límites dados Límites realesPunto

Mediosxi

Absolutas

Distribución de frecuencias de las emisiones diarias de óxido de azufre en una planta industrial

(Toneladas)

Toneladas de Oxido de Azufre Días

Algunas Interpretaciones: en 24 días se presentaron emisiones de óxido de azufre entre 1.3 y 20.9 tóneladas, el 95% de los días se presentaron emision de óxido de azufre inferiores o iguales a 28.3 tóneladas, el 80% de los días se presentaron emisiones de +oxido de azufre superiores o iguales a 13.6 tóneladas

Variable cuantitativa continua

Roberto Castro Z

28

Distribución de Frecuencias

Histograma

Es un gráfico compuesto por una serie de rectángulos, de ancho proporcional al ancho de la clase y de altura proporcional al total de elementos de cada clase. En consecuencia el área contenida dentro del rectángulo (con respecto al área total) corresponde al porcentaje de la frecuencia relativa de la clase.

Roberto Castro Z

29

Distribución de Frecuencias: Sesgo

La distribución de una variable (y su representación mediante histogramas o curvas) puede ser simétrica o asimétrica (sesgada)

Es sesgo mide el grado de asimetría de una distribución con respecto a su media. La asimetría positiva indica una distribución que se extiende hacia valores más positivos. La asimetría negativa indica una distribución que se extiende hacia valores más negativos.

3

)2)(1( s

xx

nn

n iCoeficiente de Asimetría (Sesgo) =

Roberto Castro Z

30

Distribución de Frecuencias: Curtosis

La distribución de una variable ( y su representación mediante histogramas o curvas ) puede clasificarse de acuerdo con su altura y forma como mesocúrtica, leptocúrtica y platicúrtica. La curtosis caracteriza la elevación o el achatamiento relativos de una distribución, comparada con la distribución normal. Una curtosis positiva indica una distribución relativamente elevada, mientras que una curtosis negativa indica una distribución relativamente plana.

)3)(2(

)1(3

)3)(2)(1(

)1( 24

nn

n

s

xx

nnn

nn iCurtosis =

Roberto Castro Z

31

Distribución de Frecuencias: Sesgo y Curtosis

=COEFICIENTE.ASIMETRIA(B2:B81)

Cálculo en Excel

Curtosis = -0,4983

=CURTOSIS(B2:B81)

Rango de datos

Rango de datos

Roberto Castro Z

32

Distribución de Frecuencias: Sesgo y Curtosis

Cálculo en Minitab

Roberto Castro Z

33

Distribución de Frecuencias: Sesgo

Ejemplos

Roberto Castro Z

34

Distribución de Frecuencias

Diagrama de tallos y hojas

El diagrama consta de dos secciones:

• El tallo aparece en la parte izquierda quitando el último dígito. Si los datos van de 1500 a 2500, entonces los tallos serán 150*, 151*, 152*, etc.

• Al lado derecho de cada uno, se colocan las hojas que serán el último dígito para los datos que comienzan con el tallo correspondiente. Por ejemplo, a la derecha del tallo 23 se colocan las hojas 011235 que corresponden a los valores 230, 231, 231, 232, 233, 235

Ejemplo:

15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92

Tallos: 1, 2, 3, 4, 5, 6, 7, 8, 9

1* 52*3*4* 575* 3886* 277* 4588* 15559* 2

Roberto Castro Z

35

Distribución de Frecuencias

Diagrama de tallos y hojas. Elaborado por MInitab

92,6 142,7 164,5 199,9103,6 142,9 165,9 200,6109,2 144,0 166,5 201,3114,3 146,9 169,2 202,4123,1 147,3 172,0 208,4123,3 148,0 172,6 214,7127,1 151,9 173,3 216,6127,7 152,6 175,1 217,8127,9 153,4 179,3 218,0128,2 153,7 181,8 228,0130,1 153,7 182,2 231,2130,4 154,8 182,3 231,2130,6 155,0 183,5 241,7131,2 155,0 186,2 242,4133,6 155,3 186,9 255,8135,1 155,3 188,4135,3 158,2 190,5138,5 160,0 194,9140,3 160,6 197,5141,4 163,8 199,4

Roberto Castro Z

36

Diagrama de tallos y hojas: Ejemplos

Roberto Castro Z

37

Medidas de Posición y Variabilidad

Medidas de Posición

•Media Aritmética

• Mediana

• Moda

Medidas de Variabilidad

• Uso de las medidas de variabilidad

• Intervalo (Rango)

• Desviación absoluta promedio

• Desviación Estándar y Variancia

• Coeficiente de variación

• Cuartiles y percentiles

Roberto Castro Z

38

Medidas de Posición

Para una Población

Para una Muestra

N

xN

ii

1n

xx

n

ii

1_

En donde:N: el tamaño de la población n: el tamaño de la muestrax: variable

Ventajas: Su concepto es conocido y es intuitivamente claro, es una medida calculable, todo conjunto de datos posee una y sólo una media, es muy útil para realizar procedimientos estadísticos

Desventajas: Está afectada por los valores extremos que no sean representativos de ellos Su cálculo puede ser tedioso cuando hay muchos datos

Media Artimética (Media o Promedio)

Roberto Castro Z

39

Medidas de Posición

Media Artimética (Media o Promedio)

=CONTAR(B2:B9)=SUMA(B2:B9)

=PROMEDIO(B2:B9)

Rango: B2:B9

Cálculo en Excel

Ejemplo: media artimética

con y sin un valor extremo

Roberto Castro Z

40

Medidas de Posición

Es un valor del conjunto de datos que mide el elemento central: La mitad de los elementos se encuentran por arriba y la otra mitad por debajo de él.

Si n es impar

Si n es par

Mediana

Ventajas: No se afecta por los valores extremos, es fácil de entender, es una medida calculable, se puede obtener aún para variables ordinales

Desventajas: Los procedimientos estadísticos para tratarla son muy complejos, los datos deben estar ordenados

Roberto Castro Z

41

Medidas de Posición

=MEDIANA(B2:B10)

n = 9 es impar

(n+1)/2 = 10/2=5

Me = es el elemento 5: x5 = 18 Ejemplo

: Median

a con un

valor extremo

Cálculo en Excel

n = 8 es par

n/2 = 8/2 = 4

n/2 + 1 = 4+1= 5

Me = es el promedio del 5 y 6 elementos:

(x4 + x5)/2=(16+18)/2 = 34/2= 17

Mediana

Roberto Castro Z

42

Medidas de Posición

Moda

Rob

ert

o C

astr

o

Z.

Es el valor que se repite más dentro de un conjunto de datos.

Ventajas : no se afecta por los valores extremos, es fácil de entender, se puede obtener aún para variables ordinales y nominales.

Desventajas: algunas veces no existe el valor modal, otras veces la moda son todos los datos, cuando hay varias modas es muy difíciles interpretarlas y compararlas

Una sola moda

Cálculo en Excel

Varias Modas Sin moda

=MODA(B2:B9) ErrorModa Menor

Roberto Castro Z

43

Medidas de Posición

Media y Mediana en Minitab

Rob

ert

o C

astr

o

Z.

Roberto Castro Z

44

Medidas de Posición

Relación entre las medidas de posición

• La media, la mediana y la moda son idénticas en una distribución simétrica

• La mediana puede ser la idónea en distribuciones sesgadas, ya que siempre se encuentra entre la media y la moda, y no se afecta tanto por valores extremos y por la ocurrencia de un solo valor.

• Sin embargo no se cuenta con un criterio único para aplicar alguna de las tres medidas

Sesgo a la derecha Sesgo a la izquierda

Simétrica

Roberto Castro Z

45

Medidas de Variabilidad

• Las medidas de variabilidad suministran información que permite juzgar la confiabilidad de la medida de posición utilizada

• Permite reconocer la variabilidad o dispersión de los datos

Uso de las Medidas de Variabilidad

Tres curvas con el mismo promedio pero con variabilidades deferentes

Roberto Castro Z

46

Medidas de Variabilidad

Rango (Recorrido, amplitud, intervalo)

Es la diferencia entre valor máximo M y el valor mínimo m: Rango = R = M - m

• Su utilidad es escasa.

• Solo toma en cuenta el valor mayor y el menor sin tomar en cuenta el resto de las observaciones

• Esta muy afectado por los valores extremos

=MAX(B2:B8)

=B9-B10

=MIN(B2:B8)

Roberto Castro Z

47

Medidas de Variabilidad

En donde:

xi es la observación

x es el promedio de la muestra

µ es el promedio de la población

n es el tamaño de la muestra

N es el tamaño de la población

Para la Muestra

Para la Población

n

xxn

ii

_

1

N

xN

ii

1

Desviación Absoluta Promedio

1 2 -6 62 4 -4 43 6 -2 24 8 0 05 10 2 26 12 4 47 14 6 6

Suma 56 0 24Promedio 8

Desviación Absoluta: 24/7 = 3.4

La Desviación absoluta es el promedio de las distancias de todos

los valores con respecto al promedio (media aritmética)

Es una mejor medida que la amplitud pues toma en cuenta todas las observaciones. Indica a que distancia de la media se encuentra en promedio cada observación. Es muy limitado el desarrollo teórico estadístico a partir de esta medida.

2 8 6 6

La diferencia entre dos valores en valor absoluto es la “distancia” entre esos dos valores: el 2 se aleja del 8 en 6 unidades

Roberto Castro Z

48

Medidas de Variabilidad

Para la Muestra Para la Población

1

)( 2

1

n

xxs

n

ii

1

)( 2

1

N

xN

ii

En donde:

x es la observación

x es el promedio de la muestra, µ es el promedio de la población

n es el tamaño de la muestra, N es el tamaño de la población_

Desviación Estándar

• Incluye todos los valores en el cálculo.

• Permite determinar dónde se sitúan los valores en relación con su media.

• Se pueden comparar variables y sus distribuciones.

• Es muy utilizada en la inferencia estadística

• Esta afectada por valores extremos.

Roberto Castro Z

49

Medidas de Variabilidad

Desviación Estándar

x

x

N

x

N

2

2

2

11 2

11 2

71 6

11 2

71 6 4

x x

x x

n

x x

n

2

2

2

11 2

1

11 2

61 8 6 6 7

1

11 2

61 8 6 6 7 4 3 2

.

. .

=DESVESTP(B3:B9)

=DESVEST(B3:B9)

Para la Población Para la Muestra

Roberto Castro Z

50

Medidas de Variabilidad

Al igual que la desviación absoluta, la desviación estándar se puede interpretar como el promedio de las distancias de cada observación con respecto a la media aritmética (o el promedio de las diferencias de cada valor con respecto a la media)

La Desviación Estándar:

• Incluye todos los valores en el cálculo.

• Permite determinar dónde se sitúan los valores en relación con su media.

• Se pueden comparar variables y sus distribuciones.

• Es muy utilizada en la inferencia estadística

• Esta afectada por valores extremos (al igual que la media aritmética).

Desviación Estándar

Roberto Castro Z

51

Variancia

Rob

ert

o C

astr

o

Z.

Para la Muestra Para la Población

Unidades en que se expresa la variancia: dado que la diferencia entre cada observación y la media se eleva al cuadrado, las unidades en que se mide la variable también está elevada al cuadrado, por lo que las unidades se deben expresar de esta forma. Por ejemplo: colones al cuadrado (ingresos), años al cuadrado (edades), centímetros al cuadrado (altura), etc.

1

)( 2

12

n

xxs

n

ii

N

xN

ii

2

12

)(

Medidas de Variabilidad

=VAR(B3:B9)

=VARP(B3:B9)

Para la Muestra

Para la Población

Cálculo en Excel

Roberto Castro Z

52

Medidas de Variabilidad

Coeficiente de Variación

x

scv

El coeficiente de variación mide la variabilidad porcentual o relativa de un conjunto de datos con respecto a su promedio.

Es útil para comparar la variabilidad de diferentes conjuntos de datos

CV

Para la Muestra Para la Población

Roberto Castro Z

53

Medidas de Variabilidad

Los cuartiles dividen en cuatro partes las observaciones. El primer cuartil Q1 es un valor que deje por debajo de él 25% de las y por encima 75% de las observaciones. El Q2 es la mediana (50%) y Q3 deja por debajo 75% y por encima 25% de las observaciones

Cuartiles

Roberto Castro Z

54

Medidas de Variabilidad

Los percentiles dividen en dos partes las observaciones. Por ejemplo, el percentil 20, P20, es el valor que deja por debajo un 20% y por encima un 80% de las observaciones

Percentiles

Roberto Castro Z

55

Medidas de Variabilidad

Cálculo con Minitab

Roberto Castro Z

56

Medidas de Posición y Variabilidad

La información de los cuartiles se visualiza en el diagrama de caja.

La mitad central de los datos, que va desde el primer hasta el tercer cuartil, se representa mediante un rectángulo. La mediana se identifica mediante una barra vertical dentro de esta caja. Una línea se extiende desde el tercer cuartil hasta el valor máximo y otra línea se extiende desde el primer cuartil hasta el mínimo

Diagrama de Caja

Roberto Castro Z

57

Descriptive Statistics: Emisión

Variable N Mean Median TrMean StDev SE Mean Minimum Maximum Q1 Q3Emisión 80 18,896 19,050 18,917 5,656 0,632 6,200 31,800 14,825 22,975

Estadísticas Descriptivas

Diagrama de Caja

Roberto Castro Z

58

Medidas de Posición y Variabilidad

Diagrama de Caja: Ejemplos

Roberto Castro Z

59

Medidas de Posición y Variabilidad

Diagrama de Caja: Minitab

Roberto Castro Z

60

Estadísticas Descriptivas

Minitab: Resumen Gráfico