Probabilidad y Estadistica

29
Instituto Tecnológico Superior de Salvatierra Salvatierra, Gto. a 15 de Febrero del 2012 “Estadística Descriptiva” Probabilidad y Estadística Bautista Duarte Elizabeth García Mejía Claudia Alejandra Pérez Montalvo Ana Lilia

Transcript of Probabilidad y Estadistica

Page 1: Probabilidad y Estadistica

Instituto Tecnológico Superior de Salvatierra

Salvatierra, Gto. a 15 de Febrero del 2012

“Estadística Descriptiva”Probabilidad y Estadística

Bautista Duarte Elizabeth

García Mejía Claudia Alejandra

Pérez Montalvo Ana Lilia

Page 2: Probabilidad y Estadistica

20

Indice

1. Introducción………………………………………………………………….…….3

2. Marco teórico………………………………………………………………………4

a. Probabilidad……………………………………………………………......4

b. Estadística………………………………………………………………….4

i. Descriptiva………………………………………………………….4

ii. Inferencial.………………………………………………………….4

c. Datos agrupados.……………………………………….

………………....4

i. Marca de clase.…………………....………………………………4

ii. Amplitud de la clase………...……….……………………………

5

iii. Límites de clase……………………………………………………5

iv. Distribución de frecuencias agrupadas…….…………………..5

d. Medidas de tendencia central……………………………………………6

i. Media……………………………………….

……………………….6

ii. Mediana……………………...…………….……………………….6

iii. Moda……………………...…………….…………….

………….....7

e. Medidas de dispersión……..…...…………….…………….

………….....7

i. Varianza……………………...…………….…………….………...7

ii. Desviación estándar.…...…………….…………….

…………......7

f. Medidas de posición………………………………………………………8

g. Representación gráfica……………………………………………………

8

Probabilidad y Estadística |

Page 3: Probabilidad y Estadistica

20

i. Histograma………………………………………………………….

8

ii. Polígono de frecuencia……………………………………………8

iii. Diagrama de pie o

pastel………………………………………….8

3. Recolección de datos……………………………………………………………..9

a. Datos agrupados…………………………………………………………..9

4. Analisis de los datos……………………………………………………………..10

a. Medidas de tendencia central…………………………………………..10

i. Media………………………………………………………………

10

ii. Mediana……………………………………………………………

11

iii. Moda……………………………………………………………….1

2

b. Medidas de dispersión…………………………………………………..13

i. Varianza…………………………………………………………..13

ii. Desviación estándar……………………………………………..14

iii. Coeficiente de Asimetría de Pearson…………….……………14

iv. Coeficiente de variación…………………………………………15

c. Medidas de posición……………………………………………………..15

5. Interpretación de los datos……………………………………………………...17

a. Histograma………………………………………………………………..17

b. Polígono de

frecuencia…………………………………………………..18

c. Diagrama de pastel………………………………………………………19

6. Conclusión………………………………………………………………………..20

7. Bibliografía………………………………………………………………………..21

Probabilidad y Estadística |

Page 4: Probabilidad y Estadistica

20

1. Introducción

En este trabajo llevaremos a cabo la recolección, análisis e interpretación de datos, tomando en cuenta las calificaciones de 50 alumnos del Tecnológico Superior de Salvatierra, en la materia de matemáticas.

Son datos confidenciales por lo que no se darán a conocer ningún dato de los respectivos dueños de estas calificaciones.

Por las cuales determinaremos todo lo que involucra la estadística descriptiva como es:

Determinar la media, moda, mediana, desviación estándar, la varianza y se dará la explicación de cómo se comportan los datos obtenidos mediante la interpretación de estos.

También se demostraran algunas gráficas para demostrar y ver el comportamiento de los datos.

Además de que demostraremos los conocimientos obtenidos en el transcurso de esta unidad, esto no es más que un ejercicio en el cual determinaremos si el conocimiento obtenido podemos llevarlo a la práctica, y demostrar que es aplicable.

Probabilidad y Estadística |

Page 5: Probabilidad y Estadistica

20

2. Marco teórico

a. Probabilidad

La probabilidad de un suceso es un número, comprendido entre 0 y 1, que indica las posibilidades que tiene de verificarse cuando se realiza un experimento aleatorio.

b. Estadística

La Estadística es la parte de las Matemáticas que se encarga del estudio de una determinada característica en una población, recogiendo los datos, organizándolos en tablas, representándolos gráficamente y analizándolos para sacar conclusiones de dicha población.

Según se haga el estudio sobre todos los elementos de la población o sobre un grupo de ella, vamos a diferenciar dos tipos de Estadística:

i. Estadística descriptiva

Probabilidad y Estadística |

Page 6: Probabilidad y Estadistica

20

No. Total de observaciones

No. Recomendado de clases

9-16 4

17-32 5

33-64 6

65-128 7

129-256 8

257-512 9

513-1024 10

Realiza el estudio sobre la población completa, observando una característica de la misma y calculando unos parámetros que den información global de toda la población.

ii. Estadística inferencial.

Realiza el estudio descriptivo sobre un subconjunto de la población llamado muestra y, posteriormente, extiende los resultados obtenidos a toda la población.

c. Datos agrupados

i. Marca de clase

Es el punto medio de cada intervalo y es el valor que se representa a todo el intervalo para el cálculo de algunos parámetros.

N° de clases: K= 1+3.332

N° de clases: K =

ii. Amplitud de la clase

Es la diferencia entre el límite superior e inferior de clase.

C=

Probabilidad y Estadística |

Page 7: Probabilidad y Estadistica

20

iii. Límites de claseLos limites inferiores y superiores son los valores mínimos y máximos de

una distribución. Cada clase está limitada por el límite inferior de la clase y el límite superior de la clase.

iv. Distribución de frecuencias agrupadas

La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua.

Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.

Probabilidad y Estadística |

Page 8: Probabilidad y Estadistica

20

d. Medidas de tendencia central

i. Media

También denominada promedio, es la que se utiliza principalmente y se define como la suma de los valores de todas las observaciones divididas por el número total de datos. Se representa por x o por la letra μ según se calcule en una muestra o en la población, respectivamente.

Dado que se tiene una distribución de frecuencias el promedio se calcula por:

Donde:

Mi: marca de clase.

Fi: frecuencia absoluta.

ii. Mediana

Se define como el valor que deja igual número de observaciones a su izquierda que a su derecha, es decir, divide al conjunto de datos en dos partes iguales y se denota por Med.

Si los datos no están tabulados la mediana se determina, ordenando las observaciones de menor a mayor y determinando el valor central. Si la cantidad de datos es impar, la mediana se representa justamente por ese valor. En cambio, si la cantidad es par, la mediana es el promedio de los datos centrales.

Si los datos están agrupados la mediana se calcula observando los siguientes pasos: primero se debe determinar cuánto es n/2, luego se verá en cuál intervalo estará contenido este valor. Una vez ubicado el intervalo que lo contiene se procede a reemplazar en la siguiente fórmula:

Donde:

Li: Límite inferior de la clase mediana.

(∑f)1: suma las frecuencias anteriores a la clase mediana.

Probabilidad y Estadística |

Page 9: Probabilidad y Estadistica

20

iii. Moda

Es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. Puede haber más de una moda en una distribución. Se denota por Mo.

La fórmula es:

Donde:

C: amplitud de clase.

LMo: límite inferior de la clase modal.

d1: diferencia entre la clase modal y la clase anterior.

d2: diferencia entre la clase modal y la clase siguiente.

e. Medidas de dispersión

i. Varianza

ii. Desviación estándar

Es una medida de dispersión usada en estadística que nos dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución. Específicamente, la desviación estándar es "el promedio de la distancia de cada punto respecto del

promedio". Se suele representar por una S o con la letra sigma, según se

calcule en una muestra o en la población.

Probabilidad y Estadística |

Page 10: Probabilidad y Estadistica

20

f. Medidas de posición

i. Cuartiles

Son los tres valores que dividen al conjunto de datos ordenados en cuatro porciones iguales, son un caso particular de los percentiles, correspondiendo a los percentiles 25, 50 y 75.

El primer cuartil Q1 es el valor de la variable que deja a la izquierda el 25% de la distribución.

El segundo cuartil Q2 (la mediana), es el valor de la variable que deja a la izquierda el 50% de la distribución.

El tercer cuartil Q3 es el valor de la variable que deja a la izquierda el 75% de la distribución.

Donde:

Li: Límite inferior exacto del intervalo que contiene Q1.J: No. De datos que faltan para llegar al primer cuartil una vez que se ha alcanzado el límite inferior exacto del intervalo que contiene al primer cuartil.FQ1: Frecuencia del primer cuartil.C: Ancho de clase.

g. Representación grafica

i. HistogramaLos histogramas constituyen una forma gráfica de representarlas. Un

histograma se constituye asignando a las medidas de las clases la escala horizontal y a las frecuencias de cada una de las clases la escala vertical. En general no es conveniente emplear histogramas cuando algunas clases son abiertas o cuando los intervalos de las clases no son iguales.

ii. Polígono de frecuenciaEn los polígonos de frecuencias cada clase se representa por un punto

cuya coordenada horizontal es la marca de clase y cuya coordenada vertical es la frecuencia de la clase.

iii. Diagrama de pie o pastelEs donde las categorías son representadas como sectores o rebanadas proporcionales al tamaño de las categorías.

Probabilidad y Estadística |

Page 11: Probabilidad y Estadistica

20

K=

C= DM-Dm/K

3. Recolección de datos

Dentro de la recolección de datos nos dimos a la tarea de investigar las calificaciones de 50 alumnos inscritos en el ITESS de la materia en la cual creímos que sería más variable en comportamiento de los datos como las matemáticas ya que dentro de esta materia a muchos de nosotros se nos complica por varias razones.

Los datos que obtuvimos son:

0, 83, 12, 81, 75, 80, 73, 71, 72, 70, 91, 72, 92, 71, 83, 73, 0, 80, 76, 80, 71, 73, 81, 83, 0, 70, 75, 78, 95, 80, 75, 73, 77, 86, 70, 87, 96, 72, 99, 86, 71, 84, 73, 85, 92, 77, 88, 84, 96, 100

Posteriormente se calculó el número de clases para agrupar los datos obtenidos mediante la fórmula:

En donde k será el número de clases y n es el número total de los datos que tenemos. Al realizar la operación obtenemos que el número de clases con las que trabajaremos sea 7 clases.

Antes de determinar las clases tenemos que obtener la amplitud que deben tener cada una para lo que utilizaremos la fórmula de amplitud que es:

Donde la amplitud es la diferencia entre el dato mayor y el dato menor de los datos divididos entre el número de clases que es 7. Y obtenemos el resultado de 14.2 y lo redondeamos en 14, esta será la amplitud que tendremos entre el límite inferior y el límite superior en cada una de las clases. Ahora podemos determinar la distribución de frecuencias.

Probabilidad y Estadística |

Calificación Frecuencia (fi)

0-14 415-29 0

30-44 0

45-59 0

60-74 15

75-89 23

90-104 8

Page 12: Probabilidad y Estadistica

20

=

En esta tabla están determinadas las 7 clases con la amplitud de 14, en la segunda columna encontramos la frecuencia de la clases, que no es más que el número de datos que entran en esa clase.

4. Analisis de los datos

a. Medidas de tendencia central

Media

Posterior mente se determinara la media mediante la fórmula:

En donde nos dice que la media la obtendremos de la sumatoria de la marca de clase por la frecuencia de la clase, entre el número de datos.

Para esto le agregaremos una columna a nuestra tabla en donde determinaremos la marca de clase, la cual la obtenemos de la suma de los limites interior y superior dividiendo entre 2, lo cual significa que la marca de clase es el punto medio de la clase.

Probabilidad y Estadística |

Calificación Frecuencia (fi)

Marca de Clase (mi)

0-14 4 715-29 0 2230-44 0 3745-59 0 5260-74 15 6775-89 23 82

90-104 8 97

Calificación

Frecuencia (fi)

Marca de Clase (mi)

mifi

0-14 4 7 2815-29 0 22 030-44 0 37 045-59 0 52 060-74 15 67 100575-89 23 82 188690-104 8 97 776

∑= 3695

Page 13: Probabilidad y Estadistica

20

Li+ ( ) c

Al realizar la operación de multiplicar la frecuencia por la marca de clase los resultados los resultados se suman y se dividen entre 50 que son el número total de nuestros datos, el resultado de esto es el promedio o media.

=3695/50

En donde el resultado nos indica que el promedio de las calificaciones de los 50 alumnos del ITESS, en la materia de matemáticas es de:

=73.9

Mediana

Para determinar la mediana necesitamos saber en qué clase se encuentra el dato de la mediana, para esto necesitaremos la fórmula:

En donde al número de datos le sumanos 1 y se divide entre dos para determinar el número de dato al que le corresponde por su posición ser la mediana.

Después utilizaremos la siguiente formula:

En donde Li es el límite inferior de la clase en donde se encuentra el dato que determinamos anteriormente.

Que en este caso es 25.5, buscamos en la tabla en la columna de la frecuencia acumulada y el límite inferior de esa clase es que se utilizara para determinar la mediana, posteriormente el número de datos los dividimos entre dos, le sumamos la frecuencia acumulada anterior, lo dividimos entre la frecuencia que tiene la clase en la que se encuentra la mediana, este resultado lo multiplicamos por la amplitud y por ultimo le sumamos el límite inferior y obtendremos la mediana.

Probabilidad y Estadística |

Med =

Page 14: Probabilidad y Estadistica

20

Calificación

Frecuencia (fi)

Marca de Clase (mi)

mifi Frecuencia Acumulada (fa)

0-14 4 7 28 415-29 0 22 0 430-44 0 37 0 445-59 0 52 0 460-74 15 67 1005 1975-89 23 82 1886 42

90-104 8 97 776 50∑= 3695

En este caso la mediana se encuentra en la sexta clase porque nos dice la frecuencia acumulada que la quinta clase termina en el dato número 19 y la sexta comienza del dato 20 hasta el 42, por eso esta será la clase la cual emplearemos para determinar la mediana.

Por lo tanto nuestra formula quedaría de la siguiente manera sustituyendo los valores que ya sabemos.

En donde nos da como resultado:

Med=78.64

Esto es que la mediana, la calificación que se encuentra justo en medio de las 50 calificaciones es la de 78.64.

Moda

Para determinar la moda de las calificaciones utilizaremos la siguiente formula:

Para obtener la moda necesitamos el límite de la clase en donde está la moda, esto es la clase que tiene la mayor frecuencia, en la segunda parte de la formula será la división de d1 entre la suma de d1 y d2, en donde d1 es la diferencia de la frecuencia de la clase modal y la clase anterior, d2 es la diferencia de la frecuencia de la clase modal y la frecuencia de la siguiente clase, el resultado de esta división se multiplica por la amplitud y se suma el límite inferior de la clase modal.

Probabilidad y Estadística |

Med = 75+ ( ) 14

Mo= + ( ) c

Page 15: Probabilidad y Estadistica

20

Esto queda de la siguiente manera:

Donde el resultado obtenido de 77.94 nos dice que la calificación que más se repite es el 77.94 o sus más cercanos en promedio la mayoría de los alumnos están entre el 75 y 80 de calificación.

b. Medidas de dispersión

Varianza

La varianza es la diferencia promedio entre los datos. Y se determina por la siguiente formula:

En donde Sxx lo determinamos por:

Sxx= ∑mi2fi – ((∑mifi)2/n)

n- 1Entonces para que estas operaciones nos sean más fáciles agregamos columnas a nuestra tabla.

Calificación

Frecuencia (fi)

Marca de Clase (mi)

mifi Frecuencia Acumulada

(fa)

mi2 mi2fi

0-14 4 7 28 4 49 19615-29 0 22 0 4 484 030-44 0 37 0 4 1369 045-59 0 52 0 4 2704 060-74 15 67 1005 19 4489 6733575-89 23 82 1886 42 6724 154652

90-104 8 97 776 50 9409 7527250 3695 297455

Ahora sustituimos los valores en nuestra formula:

Probabilidad y Estadística |

Mo= 77.94Mo=75+ ( ) 14

S2=

Page 16: Probabilidad y Estadistica

20

Sxx= 297455- (3695)2

El resultado que obtenemos es:

Sxx= 497.8

Si en realidad es una cantidad muy grande para que sea la varianza pero esto sucede porque los datos que agrupamos van de cero hasta 100 por lo que la varianza es tan grande pero ahora veremos la desviación estándar.

Desviación Estándar

La desviación estándar la tenemos dada por la fórmula:

En donde se realiza la misma operación que en la varianza pero en este caso se le saca raíz cuadrada.

En donde el resultado obtenido es:

S=22.3

Esta quiere decir que los datos están concentrados entre este promedio, ya que si le sumamos a la media este valor no da en donde están más cargados los datos, como quien dice en donde es la escala en donde se encuentra concentrada la mayor cantidad de datos, es el marco de error, hacia sonde se desvían los datos.

Coeficiente de Asimetría de Pearson

Para determinar la asimetría de Pearson necesitamos la fórmula:

Asimetría = 3 ( -Med)

S

Al sustituirla obtenemos:

Probabilidad y Estadística |

50

49

S=

Page 17: Probabilidad y Estadistica

20

Asimetría = 3 (73.9-78.64)

22.3

El resultado final es de:

Asimetría = - 0.63

Esto nos servirá para determinar qué tipo de simetría es cuando tenemos el siguiente enunciado “si es igual a 0 es simétrica, si es diferente a 0 es asimétrica” dependiendo de las formas de curva, al igual que lo determinaremos con las diferentes representaciones graficas más adelante.

Coeficiente de variación

Para obtener el coeficiente de variación necesitamos la fórmula:

Cv = S (100%)

Que sustituyendo obtenemos: Cv = 22.3 (100%)

73.9

Donde el resultado es: Cv = 30%

En donde sabemos que la varianza va a tener un marco de error del 30%.

c. Medidas de posición

Para determinar las medidas de posición, solo calcularemos los cuartiles para lo cual necesitamos la siguiente formula:

Q= Li + J (C) FQ

En donde necesitaremos determinar primero la posición de cada uno de los cuartiles con la fórmula:

Q= n/4

Probabilidad y Estadística |

Page 18: Probabilidad y Estadistica

20

En este caso iremos multiplicando n por el número de cuartil que vayamos a calcular. J es la diferencia de la posición que obtengamos entre la frecuencia de la clase en donde estará el cuartil y la frecuencia acumulada anterior, y c es a amplitud.

Para determinar el primer cuartil obtenemos:

Q1= 50/4 = 12.5

Posteriormente solo sustituimos los valores.

Q1= 60 + (12.5-4) (14) 15

Donde nos el resultado nos dice que el cuartil numero uno es:

Q1= 67.84

Para el cuartil número 2 y 3 desarrollamos los mismos pasos.

Q2= 2(50)/4 = 25 Q2= 75 + (25-19) (14) 23

Q2= 78.64

Q3= 3(50)/4 = 37.5 Q2= 75 + (37.5-19) (14) 23

Q3= 89.8

Además de que los cuartiles no dicen en donde esta divididos nuestros datos en cuartos, determinando los 25% de estos. El cuartil uno nos dice que el 25% de los datos esta desde 0 hasta el dato 67.84. El cuartil dos nos dice que el 50% de las calificaciones están hasta el 78.64, y el cuartil tres nos dice que el 75% de las calificaciones esta hasta el 89.8. Por lo tanto que el determinar el cuarto cuartil ya no es necesario ya que este nos dará el 100% de los datos.

Tanto que podemos ver que el cuartil dos y tres se encuentran en la misma clase.

Probabilidad y Estadística |

Page 19: Probabilidad y Estadistica

20

5. Interpretación de los datos

a. Histograma

Parte de la interpretación de los datos obtenidos ya se estuvo dando dentro de los apartados anteriores, ahora solo se analizara el comportamiento de estos mediante las diferentes representaciones gráficas.

Comenzaremos con el histograma, en el que empleamos en el eje de las x las clases, en el eje de las y la frecuencia por lo tanto obtenemos lo que se representa en la figura siguiente.

Probabilidad y Estadística |

Page 20: Probabilidad y Estadistica

20

Podemos ver lo que se veía en la tabla pero ahora en gráfica, vemos que la que tiene más frecuencia es en la clase número 6, seguida de la 5 y así sucesivamente.

Al igual que nos dice que la media, moda y mediana se encuentran en la sexta clase por lo tanto ahora podemos decir que nuestra muestra de datos es un asimétrica negativa ya que las tres medidas de tendencia centran se encuentran dentro de la misma clase, nos muestra que las frecuencias tienen tendencia hacia la derecha.

b. Polígono de frecuencia

En el polígono de frecuencia los datos que empleamos son: la frecuencia y en este caso la marca de clase. Para que obtengamos el punto medio más alto de la frecuencia dentro de la clase por eso se emplea la marca de clase porque es el punto medio de la clase.

Probabilidad y Estadística |

Page 21: Probabilidad y Estadistica

20

Como podemos ver, los puntos están en los centros de las clases porque como lo mencione anteriormente se toma como referencia la marca de clase, y la frecuencia es el número de alumnos que tienen esa calificación.

Ahora, se denomina polígono de frecuencia ya que se observa como en la primera clase solo 4 de los 50 alumnos son reprobados, que es una calificación menor a 20.

En las siguientes 3 clases la frecuencia es de 0, en donde estas clases abarcan las calificaciones de 15 a 60 de calificación, por lo que continuamos con un indice de 4 con calificación más baja.

Como podemos ver en la siguiente parte hay un incremento de cero 15 los alumnos que comenzaron a ser parte de los alumnos que con el mínimo de calificación alcanzaron a pasar en la materia de matemáticas.

Posteriormente vemos que hay otro incremento donde 23 de los 50 alumnos tienen una calificación entre el 75 y 89, pero después hay un decremento donde solo 8 de los 50 alumnos tienen una calificación de 90 a 100 que es la calificación máxima.

c. Diagrama de pastel

El diagrama de pastel es una circunferencia en la cual delimitamos el porcentaje de los datos, que porcentaje ocupan del 100%.

Probabilidad y Estadística |

Page 22: Probabilidad y Estadistica

20

Aquí podemos ver que la primera clase que es de 0 a 14 de calificación le corresponde 8%, en cambio de las clases 2, 3, 4, no aparecen dentro de la gráfica porque tienen un valor de cero ya que no hay alumnos con la calificación que se encuentran dentro de esas clases.

La quinta clase tiene un porcentaje del 16%, la sexta tiene un 46% y finalmente la séptima cuenta con un 30%.

Por lo tanto confirmamos que el 76% tiene una calificación mayor a 75, por lo que podemos deducir que más del 70% de los alumnos del ITESS son buenos en matemáticas pero como en todos lados hay sus excepciones.

6. Conclusión

Para finalizar este pequeño análisis en donde aplicamos todo lo aprendido de la primera unidad.

Nos dimos cuenta de que en el Tecnológico Superior de Salvatierra no son muchos los que reprueban, y son más los que aprueban en la materia de matemáticas, en un segundo análisis llevaremos a cabo la investigación solo de un grupo pero tomando en cuenta todas las materias que se lleven en ese semestre para sí determinar cuál es el aprovechamiento de los alumnos en el ITESS.

Probabilidad y Estadística |

Page 23: Probabilidad y Estadistica

20

Pues como ya lo demostramos, al finalizar esta unidad de la materia de probabilidad y estadística, los conocimientos adquiridos fueron, desde datos no agrupados a datos agrupados, calcular las medidas de tendencia central, medidas de desviación y medidas de posición, además de que aprendimos a graficas los resultados que esto nos arrojaba.

Además de que en su momento lo aplicaremos en la industria.

7. Bibliografía

http://www.vitutor.com/pro/2/a_1.html

http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/definicion_est.htm

http://www.demre.cl/text/doc_tecnicos/p2009/estadistica_descriptiva.pdf

http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/3.html

Probabilidad y Estadística |

Page 24: Probabilidad y Estadistica

20

Estadística básica, Guillermo Pastor, Editorial Trillas.

Probabilidad y Estadística |