ESTADÍSTICA I
description
Transcript of ESTADÍSTICA I
ESTADÍSTICA I
Prof. MSc. Edwin Gerardo Acuña Acuña
San José. Costa Rica. 2013 1
• ¿Qué es estadística?
2
• La estadística es una rama de las matemáticas, que a través de un conjunto de técnicas, métodos, normas, reglas y procedimientos que se ocupan en observar, reunir, agrupar, cuantificar y organizar los datos de una muestra, permita no solo describir un hecho o comportamiento de un fenómeno, también analizar y evaluar conclusiones acerca de una población.
3
• Cualquier persona recibe información en forma de datos a través de los periódicos, la televisión u otros medios; y a menudo es necesario obtener alguna conclusión a partir de la información contenida en los datos.
4
Ejemplos de aplicación de la Estadística.
5
Ejercicio 1• Se desea investigar durante el mes de
enero de este año, la opinión de los costarricenses mayores de 18 años sobre los distintos casos de corrupción que involucra a expresidentes.
6
Ejercicio 2• Se desea conocer el porcentaje de
personas que observó el último encuentro de fútbol de la selección nacional, para ello se realizará un estudio telefónico en el Gran Área Metropolitana, entre personas mayores de 12 años.
7
Ejercicio 3• Ingreso salarial neto de los empleados del
ICE.• El número de citas que atiende una clínica.• El grado académico de un profesor
universitario.• El distrito de residencia de los costarricenses.• El número de personas que mueren a causa
del SIDA cada año.• Si una persona ha visitado el parque Simón
Bolívar.• Nivel de rating de una emisora radial• Número de placa de un vehículo
8
• Proporcionar las técnicas, métodos y procedimientos requeridos para describir y analizar un conjuntos de datos y así simplificar sus resultados.
• Permite describir sus características y analizar el estudio de los fenómenos, de los datos destacados (HOLGUIN, 1993, Pág. 14)
• Obtener conclusiones de una población, a partir de la descripción y análisis realizados a una muestra. (SANDOVAL, 2001, P. 15) 9
Las técnicas estadísticas utilizadas para interpretar los datos de una investigación pueden ser
clasificadas en dos grandes grupos en función de que su objetivo sea describir las características
observadas de una muestra o inferir conclusiones sobre la población de la que dicha muestra ha sido
extraída.
SE CLASIFICA EN DOS RAMAS
DESCRIPTIVA INFERENCIAL
10
PROCESO
La estadística descriptiva es una rama de la estadística, que se encarga en representar a un fenómeno
refiriendo variables que caracterizan los datos de la muestra de una población.
El proceso que sigue la estadística descriptiva para el
estudio de una cierta población consta de los siguientes pasos:
11
Selección de variables e indicadores (es una manifestación, observable y medible de los componentes de una variable) (Quivy, 2000) Mediante la recolección de datos se obtiene el valor de cada individuo en los caracteres seleccionados de la muestra.Elaboración de tablas de frecuencias, mediante la adecuada ordenación, clasificación y distribución de los datos del fenómeno estudiado. Representación gráfica de los resultados.
12
La estadística inferencial, extrae y analiza las características de los datos obtenidos de una
muestras formados por individuos de una población. A partir del estudio de la muestra se
pretende conducir a un resultado de los aspectos relevantes de toda la población. Para cuyo estudio se requiere de conocimientos de estadística, probabilidad y matemáticas.
(Esta rama de la estadística se estudia en la asignatura Estadística Aplicada a la Investigación Social II)
13
Concepto de estadística descriptiva e Inferencial.
14
POBLACION Es un conjunto de valores posibles
o el recuento de todos los elementos que presentan una característica común que toma de un colectivo o universo de objetos, ideas, acontecimientos o individuos, al cual se refiere el estudio que se pretende realizar.
El termino población, se usa para denotar el conjunto de elementos del cual extrae una muestra.
15
MUESTRA Es un subconjunto de una
población la cual nos puede servir para generalizar acerca de la población de estudio.Muestra aleatoria:Esta se obtiene cuando seleccionamos una muestra de una población en la que todos los elementos son INDEPENDIENTES Y tienen IGUAL oportunidad de ser seleccionados 16
MUESTRA• La muestra nos sirve para poder
representar el comportamiento de la población con alto grado de confianza.
• El éxito del proyecto depende de la forma en que se seleccione al elemento que participará en el estudio. 17
• Por qué emplear muestras?–La población es infinita–Población finita pero muy grande,
sería imposible o muy costoso estudiarla.
–La unidad estadística se transforma o destruye al ser analizada
–Los resultados que se obtendrían al realizar una encuesta por muestreo serían suficientes y precisos.
18
Existen diferentes tipos de diseño de muestreo, cada uno de ellos tienen características que se pueden ocupar según el tipo de población y el objetivo la investigación.
Es un proceso que determina cómo serán seleccionados los elementos de una parte de la población, para que se puedan
obtener conclusiones fiables a partir de la muestra, es importante tanto su tamaño como el modo en que han sido
extraídos los objetos, ideas, acontecimientos o individuos que componen el estudio.
19
Tipos de muestras• Aleatorias:
–Muestreo simple al azar–Muestreo sistemático–Muestreo estratificado–Muestreo por conglomerados
No aleatorias:–Muestreo por cuotas–Muestreo por criterio–Muestreo por conveniencia
20
Error de muestreo• Se presenta sólo en muestras
aleatorias.• Es la diferencia entre el resultado
dado por la muestra y el resultado que se hubiera obtenido si se hubiera hecho un censo.
• Ventaja: se puede medir haciendo uso de la teoría de la probabilidad. 21
Sesgo• Error sistemático (se da en todas las
observaciones) en un sólo sentido. • No es medible. • Tipos
– Sesgo de selección.– Sesgo de medición.
22
DATO• Se le conoce como dato u
observación, a cada resultado que se obtiene al realizar un experimento.
23
INFORMACION• A menudo se tiene que organizar
los hechos para que te digan algo. Es en ese momento en que habrás convertido los datos en información.
24
Un instrumento es un mecanismo por el cual se recopilan datos con las variables que pretende medir a través de:
la observación encuestaentrevista
o cuestionario basados en los objetivos de la investigación.
EL INSTRUMENTO TIENE QUE TENER LAS PROPIEDADES DE:
VALIDEZ CONFIABILIDAD
25
Validez de contenidoValidez de criterio Validez de constructo
El termino “validez” denota la utilidad científica de un instrumento de medida en el que puede establecer
ampliamente qué tan bien mide lo que pretende medir.
A la validez se le ha dado tres significados principales:
26
VALIDEZ DE CONTENIDO
Se refiere al grado en que la medición abarca la gama de significados que comprende el concepto
(marco teórico)
VALIDEZ DE CRÍTERIOSe basa en algún juicio externo (expertos)
VALIDEZ DE CONSTRUCTOSe refiere al grado en que una medición se relaciona consistentemente con otras mediciones. En la medida
en que la variable es abstracta y observable se le denomina de constructo.
27
Medidas de estabilidad (Test-retest)
Método de formas alternativas o paralelas
Método de mitades partidas (Split-Halves)
Coeficiente alfa de Cronbach
Coeficiente KR-20 Kuder y Richardson
El termino “confiabilidad” es una medida práctica de que tan consistente y estable podría ser un instrumento de
medición o prueba. Existen diversos procedimientos para calcular la confiabilidad de un instrumento de medición
entre los más utilizados son:
28
Fuentes de información• Fuentes primarias: Publican o
suministran datos recogidos por
ellas mismas.
• Fuentes secundarias: Toman
datos recogidos o publicados
anteriormente por otras.29
Técnicas de Recolección de la información
ENTREVISTA– Personal
– Telefónica
CUESTIONARIO AUTOADMINISTRADO
OBSERVACION Y MEDICION
REGISTRO
Requieren Cuestionario estructurado
30
ENTREVISTA PERSONAL• Motiva al
entrevistado• Permite aclarar
preguntas y/o verificar respuestas.
• Alto porcentaje de respuesta
• Permite accesar a todos los elementos de la población
• Alto costo• Desconfianza del
entrevistado• Longitud limitada
(en ocasiones)• Influencia del
entrevistador puede ser un elemento distorsionador
31
ENTREVISTA TELEFONICA
• Bajo costo• Alto porcentaje de
respuesta• Permite verificar las
respuestas• Más flexible con
respecto a la hora de la entrevista
• Longitud limitada• No permite accesar
a todos los elementos de la población (no todos tienen teléfono)
32
CUESTIONARIO AUTOADMINSTRADO
• Bajo costo• Longitud ilimitada• Libertad de
respuesta• Mayor tiempo para
responder• Permite tratar temas
delicados o embarazosos
• Porcentaje de respuesta bajo
• Dificulta la aclaración de dudas
• Requiere informantes con nivel educativo alto
• Requiere un sistema de correo eficiente
33
OBSERVACION Y MEDICION
• Neutralidad u objetividad
• Errores en la observación
• Instrumento mal calibrado
• Instrumento mal utilizado
• Alto costo en algunos casos
• No se pueden verificar los datos
34
REGISTRO• Bajo costo• Información real y
objetiva
• Puede tener información desactualizada o incompleta
• La información disponible no siempre coincide con los fines estadísticos.
35
El Cuestionario• Identificación
• Párrafo introductorio
• Tamaño
• Numeración
• Caracteres tipográficos (Tipo de letra,
Negrita)
• Símbolos de ayuda (-->, * )36
El Cuestionario• Clasificación de las preguntas
– Cerradas• De escogencia única• De escogencia múltiple• De rangos• De notas
– Abiertas– Abiertas con alguna
clasificación
37
El Cuestionario
• Precodificación
• Prueba del cuestionario
• Revisión y Crítica
• Codificación
• Tabulación
38
El Cuestionario• Longitud del cuestionario• Orden o secuencia de las preguntas
– Iniciales– Flujo de los temas– Delicadas
• Estilo de redacción de las preguntas– Clara, comprensible, precisa y lo más
específica posible.– No debe incomodar al entrevistado– Debe referirse a un solo aspecto– No debe inducir las respuestas 39
Fases de una investigación estadística
• Planteamiento del problema.• Diseño del instrumento de
recolección• Obtención de la información.• Preparación de la información• Análisis e Interpretación.• Presentación de resultados.
40
Presentación de la Información
• Presentación Textual
“En comparación con 1998, la economía experimentó en 1999 una reducción en la tasa de crecimiento, pues alcanzó apenas el 2.5%, mientras que el promedio anual entre 1985 y 1998 había sido de 4.9%”
41
• Presentación semitabular
“En el último mes, la mayoría de los bancos ha disminuido los intereses para vivienda, como se puede apreciar a continuación:
Interés antes del 1 de setiembre
Interés actual
Banco Comerial Banco Industrial Crédito Mutual Banco del Caribe
21.0% 21.5% 20.5% 21.0%
20.0% 20.5% 19.0% 20.0%
Se espera que esta reducción de intereses incentive el sector de la producción.”
Presentación de la Información
42
Presentación tabular: Cuadros
• Muestran la información de forma ordenada por filas y por columnas, de manera visualmente agradable.
• Permiten presentar y divulgar la información de una manera fácil de interpretar y útil para el usuario.
43
Componentes de un cuadro
Número de cuadroTítuloColumna matrizEncabezadosCuerpo o contenidoNota introductoria o
preliminarNota al pieFuente 44
Cuadro #
TITULO
(nota introductoria)
ColumnaMatriz
Encabezados Encabezados
CUERPO
Nota al pieFUENTE
45
CUADRO 2CONSUMO DE DROGAS
SEGÚN CANTÓN DE RESIDENCIA POR TIPO DE DROGA, COSTA RICA, 2,000
(Valores Porcentuales)
*
*Datos preliminaresFUENTE: Consumo de alcohol, tabaco y otras drogas. Distribución geográfica 2001. I.A.F.A.
CANTON Alcohol Tabaco Mariguana Cocaína Crack
Central de San José 69.3 43.4 4.5 1.1 0.4
Desamparados 68.6 41.5 4.2 0 0
Central de Alajuela 61.3 30.7 2.7 0.7 0
Central de Cartago 55.3 31.1 4.9 0 0
Central deHeredia 81.8 36.4 9.1 3 3
Liberia 56 36 4 2 0
Central dePuntarenas 56.9 24.5 1 0 0
Central de Limón 73.5 38.2 16.2 2.9 1.5
46
EXPERIMENTO• Actividad planeada cuyos
resultados producen un conjunto de datos.
47
PARÁMETRO• Valor numérico que resume toda
la información de una población completa.
• Promedio, moda, mediana, desviación estándar, rango, etc.
48
Existen diferentes tipos de variables, entre las más utilizadas son:
VARIABLES
CUALITATIVAS CUANTITATIVAS
Una variable es susceptible de medir cualquier característica de un objeto que
pueda tomar diferentes valores de un conjunto de datos (Un dato es una medida
que se realiza sobre los sujetos de un experimento).
49
EJEMPLO: Sexo, estado civil, o la profesión de una persona.
Una variable cualitativa, también llamada no numérica, se denomina por sus atributos porque expresa distintas cualidades, características o modalidades, que son susceptibles de describirse mediante palabras, cuya medición solo puede ser por una escala nominal u ordinal.
50
• TIPOS DE VARIABLES CUALITATIVAS• Dicotómicas: Sólo hay dos
categoría, que son excluyentes una de la otra
• Ejemplo: enfermo-sano, muerto-vivo, mujer-hombre
• Nominal: tiene mas de dos categorías y no hay orden entre ellas.
• Ejemplo: color de los ojos, grupo sanguíneo
• Ordinal: tiene varias categorías y hay orden entre ellas.
• Ejemplo: grado tumoral, calificación del riesgo en anestesia.
51
Una variable cuantitativa, también llamada numérica, es aquella susceptible de ser expresada numéricamente, cuya medición puede ser utilizada con una escala de intervalo o de razón según el objetivo de la investigación.EJEMPLO: A los pacientes atendidos en la Institución Musas
de Metal se les pregunta el ingreso mensual de sus familias.
$0 a $5,999 b) $6,000 a $11,999 c)$12,000 a $17,999 d)$18,000 a $23,999
52
• TIPOS DE VARIABLES CUANTITATIVAS
• Continuas: números infinito no numerables de elementos. Tiene asociado el concepto de medida
• Ejemplo: Presión arterial, Edad, peso.
• Discretas: números finitos o infinitos numerables de elementos. Se asocia con el concepto de conteo.
• Ejemplo: N° de hijos, N° de casos de tuberculosis por estado. 53
• Hay ocasiones en las que las medidas cuantitativas continuas son transformadas en ordinales mediante la utilización de uno o varios puntos de corte.
• Ejemplo: La variable peso es codificada en varias categorías y se utiliza en términos como: Bajo-peso, peso-normal, Sobrepeso, Obesidad
54
• Las descripciones numéricas de datos suelen ser importantes. Dado un conjunto de n observaciones
• La estadística descriptiva nos puede ayudar mediante resúmenes numéricos, que son medidas de tendencia central, o también llamadas de posición y medidas de dispersión
nxxx ,.....,, 21
55
RECOPILACION DE DATOS
• Es el proceso mediante el cual obtenemos los datos u observaciones de una muestra.
• Posteriormente los datos se organizarán de acuerdo al uso que se les de.
• Experimento, encuesta, censo.
56
ORGANIZAR Si se tiene una serie de datos,
primero hay que organizarlos en forma ordenada y en subconjuntos que presenten características similares.
Los datos agrupados se pueden resumir gráficamente o en tablas y mediante medidas numéricas (parámetros) que obtendremos posteriormente como la media, la mediana, la desviación estándar, etc. 57
• Los datos ordenados en grupos o categorías reciben el nombre de:
distribución de frecuencias.• Para obtener el rango de una
distribución de frecuencias, se realiza la diferencia entre el mayor y el menor valor de los datos.
• Cuando se tiene un gran número de datos, habrá que distribuirlos en : clases, categorías. 58
Marca de Clase
Frecuencia Absoluta.
Frecuencia Relativa.
Frecuencia Porcentual.
Frecuencia Acumulada.
Algunos tipos de distribución
La distribución de datos ó de frecuencias la cual es la presentación de cuadros o tablas estadísticas. El objetivo principal de una distribución de frecuencias consiste en
presentar los datos de un modo que facilite su comprensión e interpretación.
59
.
Tabla No 1.3 Datos de la encuesta del ahorro mensual de acuerdo al salario que perciben
los trabajadores. (pesos mexicanos)
VARIABLE FRECUENCIA
ABSOLUTA
AHORRO F
09-12 18
13-15 26
16-18 7
19-21 4
22-24 1
25-27 4
Total 60
La frecuencia absoluta, es el número de veces que se repite un determinado valor o una determinado atributo de la variable. Está influida por el tamaño de la muestra, al aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia absoluta y la suma de las frecuencias absolutas debe ser igual al número total de los datos en estudio.
60
SE OBTIENE FR = F Frecuencia del intervalo
N Suma de frecuencias
La frecuencia relativa consiste en la proporción del número total de datos que aparece en cada intervalo, la suma de la
frecuencia es siempre la unidad (1).Se obtiene al dividir la frecuencia absoluta de cada intervalo
entre el número total de datos o elementos del conjunto.La frecuencia relativa también se expresa, en ocasiones, en
tanto por ciento
61
La frecuencia porcentual, consiste en calcular el porcentaje de la relación que se establece entre una de las partes con respecto al todo multiplicándolas por 100, que pertenece a cada intervalo o categoría.
La frecuencia porcentual también se expresa, en ocasiones en frecuencia
relativa.
La palabra porcentaje significa por cien.
PORCENTAJE = ( F / N ) X 100
PORCENTAJE = FR X 100Ó
62
VARIABLE
FRECUENCIA FRECUENCIA
ABSOLUTA ACUMULADA
AHORRO F FA
09-10 18 18
13-15 26 44
16-18 7 51
19-21 4 55
22-24 1 56
25-27 4 60
Total 60
La frecuencia acumulada, indica cómo se van concentrando los datos de un
valor de cada intervalo o una determinada modalidad del atributo.
Puede incluir a cualquiera de las frecuencias: absoluta, relativa o
porcentual; sugiriendo se calcule sólo la que sea necesaria para los fines de
la investigación.
Tabla No. 1.6 Datos de la encuesta del ahorro mensual de acuerdo al salario que perciben
los trabajadores. (pesos mexicanos) 63
Marca de clase = ( Límite inferior + Límite superior ) / 2
9 - 12 10.5Intervalos de clase
Con clasificación continuaMarca
de ClaseX
La marca de clase, solo es aplicable a datos agrupados y es:
Es el punto medio de cada intervalo de clase. Es el valor que representa a todos los datos que
puedan estar integrados en éste.
64
VARIABLEFRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA
MARCA DE CLASEABSOLUTA RELATIVA PORCENTUA
L ACUMULADA
AHORRO F FR % FA MC
9-12 18 0,3 30 18 10,513-15 26 0,43 42 44 1416-18 7 0,12 12 51 1719-21 4 0,07 7 55 2022-24 1 0,02 2 56 23
25-27 4 0,07 7 60 26
Total 60 1 100
Tabla No. 1.7 Se ha realizado una encuesta a 60 personas a las que se les ha preguntado cuanto dinero ahorran mensualmente de acuerdo al salario que perciben, obteniéndose los siguientes resultados (pesos mexicanos) 65
DIAGRAMA DE BARRAS
OJIVASECTORIAL
HISTOGRAMAPOLIGONOS DE FRECUENCIA
Las gráficas se basa por completo en una tabla de datos y sirve para visualizar la forma de distribución de los datos, porque permite mostrar, explicar, interpretar y describir de manera
sencilla, clara y efectiva, los datos estadísticos mediante formas geométricas tales como líneas, áreas, volúmenes.
Para la descripción gráfica, podrá disponer de una amplia galería de gráficas entre las más utilizadas son:
66
Fig. No. 1 Histograma Ahorro (colones)Frecuencia
I n t e r v a l o
Cuantitativa
Se considera uno de las más sencillas y útiles de representar los datos cuantitativos (numéricas) Representa a los niveles de medición ordinal, de intervalo o de razón Se puede graficar con la frecuencia: absoluta, porcentual ó relativa, según los objetivos de la investigación
0
10
20
30
1
9-12 13-15 16-18 19-21 22-24 25-27
67
HISTOGRAMA
TRABAJADORES DEL TALLER ELÉCTRICO
518
42
27
8
01020304050
61 64 67 70 73EDAD DE LOS TRABAJADORES
NU
MER
O E
TR
ABAJ
ADO
RES
edad
68
C a t e g o r i a
Cualitativa
Es una gráfica más utilizada por su sencillez, para representar las características cuantitativas (numérica) y cualitativas (no numérica) Representa a los niveles de medición nominal u ordinal Se puede graficar con la frecuencia: absoluta, porcentual o relativa
Fig. No. 2 Diagrama de Barras Percepción del ahorro
(colones)
05
1015202530
Baja Muybaja
Regular Alta Muy alta
69
Para ello se utiliza la siguiente expresión aritmética:
Total de grados = ( porcentaje ) ( 360 )
Se utilizada para representar principalmente variables cualitativas (no numéricas)
Representa al nivel de medición nominal Se puede graficar con la frecuencia: porcentual o relativa Resultan adecuado cuando hay pocos valores
MUY BAJ OBAJ OREGULARALTO MUY ALTO Cualitativas
Porcentajes
Fig. No. 3 Gráfica sectorial
Ahorro (dólares)
70
Frecuencia
Se utiliza para representar principalmente variables cuantitativas (numéricas) Representa al nivel de medición de intervalo o de razón Se puede graficar con la frecuencia: marca de clase
9-12 13-15 16-18 19-21 22-24 25-27
0,000,100,200,300,400,50
Fig. No. 4 Polígono de Frecuencia
Ahorro (euros)
71
TRABAJADORES DEL TALLER ELÉCTRICO
518
42
27
80
1020304050
61 64 67 70 73EDAD DE LOS TRABAJADORES
NU
MER
O E
TR
ABAJ
ADO
RES
edad
POLIGONO DE FRECUENCUA
72
010203040506070
9 * 12 13 * 15 16 * 18 19 * 21 22 * 24 25 - 27
Fig. No. 5 Ojiva Ahorro (colones)
Los polígonos de frecuencia pueden emplearse asimismo para representar frecuencia acumulada que en tal caso resulta designar como ojiva.
Es aplicable a variables ordinales. Representa a la distribución de frecuencias
acumuladas, sean absolutas, porcentuales o relativas. Es una gráfica ascendente.
73
CLASE Ó CATEGORIA• La utilidad de lo anterior, es que
se puede analizar con mayor facilidad un conjunto de números sin que se tenga que considerar cada número.
• Una categoría o clase recibe el nombre de :
intervalo de clase.74
INTERVALO DE CLASE• Los valores extremos de un
intervalo de clase reciben el nombre de:
limites de clase. (inferior y superior)
• Existen otros limites de gran importancia llamados limites reales de clase.
• Para hallar el limite real inferior se suma el limite inferior mas el número anterior y esto se divide entre dos.
75
• Para hallar el limite real superior se suma el limite superior mas el número que le sigue y esto se divide entre dos.
• Tamaño o anchura de clase: basta con realizar la diferencia entre los limites reales considerando primero el superior.
• Marca de clase: se obtiene sumando los limites superior e inferior y dividiendo entre dos.
76
Con la información anterior podemos formar las distribuciones de frecuencia con mayor facilidad si consideramos primero el rango. Después de calcularlo, lo dividimos en un número conveniente de intervalos de clase del mismo tamaño y considerando al mismo tiempo que las marcas de clase coincidan en lo posible con los datos que fueron observados. Por último indicamos la frecuencia de clase.
77
• Al construir una distribución de frecuencias podemos representarla gráficamente, ya sea por medio de un histograma (rectángulo sobre el eje X) o por un polígono de frecuencias (gráfico de línea trazado sobre las marcas de clase)
78
II semana
79
EJEMPLO 1• Se tiene el número de accidentes
que ocurren día a día durante un periodo de 50 días en la autopista Veracruz-Xalapa.
2 9 6 7 0 8 2 5 42
4 4 5 4 4 2 5 6 73
8 3 8 4 4 7 4 7 56
4 7 3 5 1 7 3 8 06
1 5 2 3 0 6 5 6 36
DIA 24
80
Observar que los datos constan de enteros.
Puesto que el mayor número de accidentes es 9 y el menor es 0, por lo tanto el :
rango: 9 – 0 = 9 Considerando 5 intervalos de
clase: (Rango + 1)/5 =
(9+1)/5=10/5=2 Podemos considerar que cada
intervalo de clase constará de : 2 elementos.
81
Formando los intervalos de clase y contabilizando la cantidad de elementos en cada intervalo de clase obtenemos la siguiente distribución de frecuencia:
INTERVALOS DE CLASE FRECUENCIA
0-1 52-3 114-5 166-7 138-9 5
Total ( N) = 50
1ºDIA 152ºDIA 22
82
Identificando las partes de la distribución de frecuencia:
• Primer intervalo de clase: 0-1• Frecuencia de la tercera de clase: 16• Limite inferior del primer intervalo
de clase: 0• Limite superior del tercer intervalo
de clase: 5• Tamaño de tercera la clase: 5.5-
3.5= 2• Marca de la primer clase :
(0+1)/2=.5• Marca de la quinta clase :
(8+9)/2=8.5 …etc.
83
FRECUENCIA RELATIVA• Es la frecuencia de clase
dividida por el total de frecuencias de todas las clases. El resultado se expresa generalmente como porcentajes.
F.R.= f/ N o bien: F.R.%=(f/N) * 100
• Esto nos servirá para la representación gráfica circular o de pastel.
84
FRECUENCIA ACUMULADAS
• Este tipo de frecuencia está diseñada para mostrar el número o porcentajes de elementos que son menores que cierto valor específico o iguales a este.
85
DISTRIBUCION DE FRECUENCIA RELATIVA
F.R. (0-1)= 5/50 = 0.10 o bien 10%
F.R. (2-3)= 11/50= 0.22 o bien 22%
F.R. (4-5)= 16/50= 0.32 o bien 32%
F.R. (6-7)= 13/50= 0.26 o bien 26%
F.R. (8-9)= 5/50 = 0.10 o bien 10%
1.00
100%
86
DISTRIBUCION DE FRECUENCIA ACUMULADA
F.A. (0-1) 0.10F.A. (2-3)
0.22+0.10=0.32F.A. (4-5)
0.32+0.32=0.64F.A. (6-7)
0.26+0.64=0.90F.A. (8-9)
0.10+0.90=1.00
Se puede observar que el 64% de los días no
excedió de 5 accidentes y que el 90% de los días
no excedió de 7 accidentes. 87
HISTOGRAMA DEFRECUENCIAS RELATIVAS
NUMERO DE ACCIDENTES EN LA AUTOPISTA VERACRUZ-XALAPA
EN UN PERIODO DE 50 DIAS
0,10,22
0,32 0,260,1
00,10,20,30,4
0-1 2-3 4-5 6-7 8-9RANGO (NUMERO DE
ACCIDENTES)
FREC
UEN
CIA
RELA
TIVA
FrecuenciaRelativa
88
POLIGONO DE FRECUENCIAS ACUMULADAS
NUMERO DE ACCIDENTES EN LA AUTOPISTA VERACRUZ-XALAPA EN
UN PERIODO DE 50 DIASDIAS
0,10,32
0,640,9 1
00,20,40,60,8
11,2
0-1 2-3 4-5 6-7 8-9RANGO (NUMERO DE
ACCIDENTES)
FREC
UEN
CIA
ACUM
ULAD
A FrecuenciaAcumulada
89
EJEMPLO 2CONSIDEREMOS LA EDAD DE CIEN
ADULTOS MAYORES QUE VARIAN ENTRE 60 Y 74 AÑOS62 72 72 69 69 69 61 68 71 7164 67 64 67 60 64 67 62 64 6765 64 74 64 73 65 63 74 64 6373 64 67 73 71 71 67 65 67 6767 63 63 63 64 71 64 74 71 7170 67 70 66 70 67 70 66 70 6666 68 66 66 69 67 67 68 68 68
68 66 68 70 70 66 67 66 66 70 68 68 68 70 67 67 68 68 67 6967 67 67 70 70 70 70 61 70 70
90
RESOLUCION DE EJEMPLO 2• Rango 74-60= 14 años
• Dividiremos todo en cinco intervalos de clase. intervalos de clase (AÑOS)
60-62 63-65
66-68 69-71
72-74
91
RESOLUCION DE EJEMPLO 2
60 Limite inferior del primer intervalo de clase.
62 Limite superior de primer intervalo de clase.
(59+60)/2 = 59.5 Limite real inferior.(62+63)/2 = 62.5 Limite real superior.
Tamaño C = 62.5 - 59.5 = 3C = 65.5 - 62.5 = 3, ……..,
etc.92
DISTRIBUCION DE FRECUENCIAS
(AÑOS) ( ADULTOS MAYORES)
INTERVALOS DE CLASE FRECUENCIAS
60-62 563-65 18 66-68 4269-71 2772-74 8 100
93
RESOLUCION DE EJEMPLO 2
• Marca de Clase(60+62)/2 = 61(63+65)/2 = 64, ……., etc
94
DISTRIBUCION DE FRECUENCIAS
MARCAS DE CLASE FRECUENCIA61 564 1867 4270 2773 8
N= 100
AÑOS ADULTOS MAYORES
95
DISTRIBUCIÓN DE FRECUENCIA RELATIVA.
• Distribución de frecuencia relativa. F. R. (60-62) = 5/100 = 0.05
F. R. (63-65) = 18/100 = 0.18 “ “ 0.42 “ “ 0.27 “ “ 0.08 1.00
96
DISTRIBUCIÓN DE FRECUENCIAS ACUMULADAS
F.A. (60-62) 0.05F.A. (63-65) 0.18+0.05=0.23F.A. (66-68) 0.42+0.23=0.65F.A. (69-71) 0.27+0.65=0.92F.A. (72-74) 0.08+0.92=1.00 97
MEDIDAS DE TENDENCIA CENTRAL
• Estas medidas se emplean para indicar un valor que tiende a ser el más representativo de un conjunto de números. Las tres medidas de mayor importancia son:
• Media• Mediana• Moda 98
X = x1+ x2+…+xn = ∑nj=1xj =
∑xj N N
N
MEDIA• De las 3 medidas está es la más
importante. La media se determina al sumar los valores de un conjunto y dividir el resultado de esta suma entre el número de valores del mismo.
99
MEDIA Esta medida de tendencia central
posee varias propiedades:• Se puede calcular para un conjunto
de números• La media es única, es decir, existe
una y solo una para un conjunto de datos.
• Si cambia algún valor del conjunto de números, entonces también cambia la media.
• La suma de desviaciones de los números a partir de la media es 0.
∑(xj-X) = 0
100
MEDIA• Cuando se tiene una tabla de una
distribución de frecuencias en donde hemos clasificado nuestros datos y deseamos calcular la media tenemos que considerar únicamente las marcas de clase de cada intervalo. Estas marcas de clase multiplicadas por las frecuencias y divididas entre la frecuencia total, nos da como resultado la media.X = f1x1+ f2x2+…+fkxk = ∑k
j=1fjxj = ∑fxj
N N N
101
EJEMPLO 3• En un examen de habilidad
matemática aplicado a 25 alumnos se les pidió completar en forma individual un “cuadro mágico”. El tiempo que necesitó cada estudiante para completar el trabajo fue registrado en minutos . Los resultados fueron los siguientes:
Minutos x 1 2 3 4 5 6 7Alumnos f 1 2 3 0 4 6 9 102
HALLANDO LA MEDIAX = f1x1+ f2x2+…+fkxk = ∑k
j=1fjxj = ∑fxj N N
N
X = 1(1)+2(2)+3(3)+0(4)+4(5)+6(6)+9(7)= 133= 25 25
X= 5.32 min.103
MEDIANA• La característica de mayor
importancia es que divide un conjunto ordenado en dos grupos iguales, es decir, la mediana de un conjunto de datos ordenados en orden de magnitud, es el valor medio o la media de los valores medios.
• Una regla para obtener la mediana es:
• Clasificación u ordenamiento de los datos.
104
MEDIANA• Contar para conocer si existen
un numero par o impar de datos.• Si se tiene un numero impar de
valores, la mediana es el valor intermedio. Para un numero par de valores, la mediana es la media de los valores intermedios.
105
MEDIANA• Considerando una distribución de frecuencias
para datos agrupados, la mediana se obtiene mediante:
• Donde:• L1 = Limite real inferior de la clase mediana
(esto es, la clase que contiene la mediana).• N = Frecuencia Total (Numero total de Datos)• (∑f)1=Suma dde las frecuencias de todas las
clases que se encuentran debajo de la clase mediana.
• Fmediana = Frecuencia de la clase mediana• C= Tamaño del intervalo de la clase mediana.
Mediana = L1 + N/2 – (∑F )1
Fmediana
C
106
EJEMPLO 4• En un examen de habilidad
matemática aplicado a 25 alumnos se les pidió completar en forma individual un “cuadro mágico”. El tiempo que necesitó cada estudiante para completar el trabajo fue registrado en minutos . Los resultados fueron los siguientes:
Minutos x 1 2 3 4 5 6 7Alumnos f 1 2 3 0 4 6 9 107
HALLANDO LA MEDIANAMediana = L1 + N/2 –
(∑F )1 c FmedianaRecuerde que gráficamente la mediana
es el valor que corresponde a la mitad de la frecuencia total.25/2= 12.5 = N/2La ∑ de la “f” hasta la quinta clase es 10 : (∑F )1
La ∑ de la “f” hasta la sexta clase es 16En esta clase se localiza la mediana.Clase mediana : sexta clase
108
HALLANDO LA MEDIANA
Limite real inferior de la sexta clase:
L1 = (5+6)/2= 5.5(∑F )1= 10
Fmediana = 6
C= 1N/2= 12.5
Mediana: 5.5 + 12.5-10 (1) 6Mediana=5.5 +0.416 = 5.916 min.
109
MODA• La moda es el valor que mayor
número de veces se presenta en un conjunto de números. Existen algunos casos en los cuales no existe la moda y otros en los cuales existen mas de una moda. Una distribución que cuenta con una moda se le conoce como unímodal.
110
MODA• Para una distribución de frecuencias, la moda es
el valor o los valores máximos de la curva y se puede calcular por medio de
• Donde:• L1 = Limite real inferior de clase de la clase
modal. La clase modal es aquella donde se localiza la moda.
• Δ1 = Es la diferencia entre la frecuencia de la clase modal y la frecuencia anterior o premodal
• Δ2 = Es la diferencia entre la frecuencia de la clase modal y la frecuencia siguiente o posmodal
• C = Tamaño del intervalo de clase modal
Moda = L1 + Δ1
Δ1 + Δ2
C
111
EJEMPLO 5• En un examen de habilidad
matemática aplicado a 25 alumnos se les pidió completar en forma individual un “cuadro mágico”. El tiempo que necesitó cada estudiante para completar el trabajo fue registrado en minutos . Los resultados fueron los siguientes:
Minutos x 1 2 3 4 5 6 7Alumnos f 1 2 3 0 4 6 9
Moda: 7 min. 112
EJEMPLO MEDIDAS DE TENDENCIA CENTRAL
• En una compañía automotriz hay 100 trabajadores los cuales producen refacciones. Algunos por sus capacidades y experiencias construyen mas que otros al termino de cada mes. La distribución de frecuencias es la siguiente:
113
Intervalo de Clase Frecuencia(f) x 45-47 2
4648-50 44951-53 155254-56 2155
57-59 3958
60-62 561
63-65 1464
114
MEDIA, MEDIANA Y MODA
MEDIA X =56.86 refacciones producidas
MEDIANA =57.11 refacciones producidas
MODA= 57.53 refacciones producidas
115
MEDIA Promedio aritmético del
conjunto de datos. Un dato extremo disperso afecta
al resultado de la media.
116
MEDIANA Es el número del medio del
conjunto de datos, establece un punto que divide al conjunto de datos en dos grupos de la misma cantidad.
117
MODA Es el número más popular en el
conjunto de datos.“Es importante saber la marca de
cereales que se vende más de manera que se pueda estar seguro de tener suficiente en el almacén.
118
MEDIA Y MEDIANA Para un conjunto de datos con
dos o más modas, será mejor usar la media o la mediana como característica del grupo, recordando que al haber un extremo disperso, es mejor el uso de la mediana.
119
EJEMPLO 6 Una persona que sirve mesas en
el restaurante del hotel “PLAZA VERACRUZ” de Veracruz, Veracruz, registra las propinas que percibió durante 7 días.
Día 1 2 3 4 5 6 7$ 24 15 22 80 16 21 19
120
ANALISIS ¿Cuánto te haces de propina en
un día?X = $ 28.14Moda : no hayMediana: 15,16,19,21,22,24,80
= $ 21 ¿Cuál seria el valor más
característico o representativo de este conjunto de datos? 121
EJEMPLO 7Datos de producción de tres
operarios.Número de artículos producidos
por díaDía de trabajo
Operario día 1 día 2 día 3 día 4 día 5 día 6 día 7 día 8 día 9 día 10 A 1 2 2 3 3 4 5 4 5 5 B 6 1 2 5 3 2 2 2 7 1 C 7 6 5 4 2 3 2 3 2 2
122
MODA
MEDIA
MEDIANA
OPERARIO A
5 3.5 3.4
OPERARIO B
2 2.5 3.2
OPERARIO C
2 3 3.6¿Qué operario elegirías para que continuara en el puesto?
¿Te ayudaría el rango a reafirmar tu decisión? ¿Qué mas observas?
123
MEDIDAS DE DISPERSION
• Este tipo de medidas también reciben el nombre de Medidas De Variación.
• Las Medidas de Dispersión o Variación se emplean para saber si los valores están relativamente cercanos uno al otro o si se encuentran dispersos. Todas las medidas de dispersión exceptuando la de Amplitud o Rango toman a la media como punto de referencia.
124
MEDIDAS DE DISPERSION
Las medidas de dispersión son:
• Rango o Amplitud de Variación• Desviación Media o Promedio de
Desviación• Varianza• Desviación Estándar
125
RANGO O AMPLITUD DE VARIACION
• Es la diferencia entre el mayor valor y el menor de todos ellos.
• El rango es una medida limitada puesto que considera a los valores extremos de un conjunto y no proporciona mayor información respecto a los demás valores del mismo.
126
DESVIACION MEDIA O PROMEDIO DE DESVIACION
• Se emplea para medir el promedio de los alejamientos de los datos observados en la muestra respecto a la media de estos datos.
• Para un conjunto de valores se obtiene al restar la media de cada valor del grupo, eliminando el signo negativo (esto se logra por medio del valor absoluto) dividida entre el número total de observaciones. 127
DESVIACION MEDIA O PROMEDIO DE DESVIACION
• Sus formulas son: Para una distribución
de frecuencias:
• N = numero total de datos.• x = Marcas de clase• X = Media• f = frecuencias de clase
DM = ∑ x-X N
DM = ∑f x-X N
128
VARIANZA• La varianza de una muestra se
determina en forma similar que la desviación media pero con las siguiente diferencia:
Las desviaciones se elevan al cuadrado antes de ser sumadas.
129
VARIANZA• Sus formulas son: Para una
distribución de frecuencias
• Donde:• N = numero total de datos.• x = Marcas de clase o datos• X = Media• f = frecuencias de clase
S2 = ∑(x-X)2
NS2 = ∑f (x-X)2
N
130
DESVIACION ESTANDAR• La desviación estándar es la raíz
cuadrada positiva de la varianza. Para obtener la desviación estándar se debe calcular la varianza y hallar su raíz cuadrada positiva.
• La desviación estándar queda representada por la letra mayúscula S.
• La desviación estándar es una de las medidas mas importantes dentro de la Estadística.
131
DESVIACION ESTANDAR• Sus formulas son: Para una
distribución de frecuencias
Donde:• N = numero total de datos.• x = Marcas de clase o datos• X = Media• f = frecuencias de clase
S = ∑(x-X)2
N√ √S = ∑f (x-X)2
N
132
DESVIACION ESTANDAR• El 68% de los valores cae dentro del
rango de una vez la desviación estándar con respecto de la media.
• En cualquier conjunto de valores graficados que se ajusten a una curva normal, el 95% de los valores quedan dentro de dos desviaciones típicas respecto del valor de la media del conjunto.
• Generalmente en un rango de 3 desviaciones típicas con respecto a la media queda contenido el 100% de los valores del conjunto. Esta información tiene uso inmediato en la aplicación de tolerancia o medidas de control de calidad de artículos manufacturados.
133
68 %
LA MEDIA, LA MODA Y LA MEDIANA SON IGUALES
PUNTOS DE INFLEXION
PUNTOS DE INFLEXION
UNA DESVIACION TÍPICA O
ESTANDAR
REPRESENTACION DE LA DESVIACION ESTANDAR
DOS DESVIACIONES
TÍPICAS O ESTANDAR
134
EJEMPLO DE MEDIDAS DE DISPERSION
• En un experimento aleatorio se obtuvo la muestra de elementos:
17, 15, 25, 23, 18, 18, 20, 19, 20, 20, 20, 21, 20, 20
Determinar • Desviación Media• Varianza• Desviación estándar.
135
OBTENIENDO LA DISTRIBUCION DE FRECUENCIAS
x f f.x15 1 1517 1 1718 2 3619 1 1920 6 12021 1 2123 1 2325 1 25
N = 14 ∑fx= 276136
MEDIA
Media = ∑fx / N
= 276/14
= 19.714
137
x media Desv│x-X│ F F.│x-X│15 19.7142857 4.7142857 1 4.714285717 19.7142857 2.7142857 1 2.714285718 19.7142857 1.7142857 2 3.428571419 19.7142857 0.7142857 1 0.714285720 19.7142857 0.2857143 6 1.714285821 19.7142857 1.2857143 1 1.285714323 19.7142857 3.2857143 1 3.285714325 19.7142857 5.2857143 1 5.2857143
N = 14
∑ F.│x-X │= 23.1428572
138
DESVIACION MEDIA
DESV. MEDIA 1.65306123
139
CALCULO DE LA DESV. ESTANDAR Y LA VARIANZA
Desviación │x-X│ (x-X)2 f f(x-X)2
4.7142857 22.2244897 1 22.22448972.7142857 7.36734686 1 7.367346861.7142857 2.93877546 2 5.877550920.7142857 0.51020406 1 0.510204060.2857143 0.08163266 6 0.489795971.2857143 1.65306126 1 1.653061263.2857143 10.7959185 1 10.79591855.2857143 27.9387757 1 27.9387757
N = 14
∑ f(x-X)2 = 76.8571429
140
DESVIACION ESTANDAR Y VARIANZA
varianza 5.48979592Desv. Estandar 2.340309
141
CUARTILES, DECILES Y PERCENTILES.
• Los cuartiles, deciles y percentiles se asemejen mucho a la mediana porque también subdividen una distribución de mediciones de acuerdo con la proporción de frecuencias observadas y ordenadas.
• Mientras la mediana divide una distribución en dos mitades, los cuartiles la dividen en cuatro cuartos, los deciles la dividen en 10 décimos y los puntos percentiles la dividen en 100 partes. 142
• Considerando que el lugar de la mediana se puede encontrar por:
Lugar de la mediana: n/2 + ½• Para el primer cuartil será:
n/4 + ½• Para el tercer decil será:
3n/10 + ½• Para el septuagésimo percentil será:
70n/100 + ½
143
EJEMPLO
• Si ocho empresas vendieron las siguientes cantidades de unidades de aire acondicionado, 5, 8, 8, 11, 11, 11, 14, 16.
Busque la posición del tercer cuartel para esta distribución;
C3 = 3n/4 + ½C3 = 3(8)/4 + ½= 6.5
• Lo cual nos indica que el tercer cuartel se encuentra ubicado entre el sexto y séptimo valor del grupo ordenado. O sea:
(11 + 14)/ 2 = 12.5
144
DESVIACION CUARTIL• Es la medida de dispersión más
usada en relación con la mediana; también es llamada rango semiintercuartil. Se simboliza por Q y se le define por la fórmula:
• en la cual Q1 y Q3 son los puntos bajo los cuales se halla el 25% y el 75% de los datos, respectivamente, como ya se había visto anteriormente. 145
146