TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer...

9
ACCESO UNIVERSIDAD 1 TEMA 11. ESTADÍSTICA En esta sociedad resulta imprescindible disponer de técnicas que permitan obtener, de forma sencilla y fiable, información de los diferentes conjuntos de datos con los que nos encontramos. Uno de los objetivos de la estadística es extraer información de un conjunto de observaciones (recogidas mediante experimentos o encuestas). Y el procedimiento habitual es resumir los datos. Estos resúmenes pueden ser gráficos (como los diagramas de barras o los histogramas) o numéricos (como la media, mediana o desviación típica). Recordemos algunos conceptos básicos: POBLACIÓN: Es el conjunto de todos los elementos que queremos estudiar. Desde el punto de vista estadístico, una población podría ser tanto los habitantes de una ciudad como los coches que se fabrican en una determinada factoría. MUESTRA: Es una parte de la población. Muchas veces es imposible estudiar el total de los elementos de una población, bien porque es una cantidad extremadamente grande, bien porque depende de procesos aleatorios, etc… Por eso, en la mayoría de los casos nos limitamos a estudiar un grupo de elementos de la población, que llamamos muestra. El estudio de una muestra sirve para sacar conclusiones sobre toda la población. Generalmente elegimos muestras aleatorias, es decir, en las que sus elementos se escogen al azar, mediante algún tipo de sorteo. De esta forma, la muestra es representativa de toda la población. CENSO: Cuando se estudia toda la población, se dice que estamos haciendo un censo de la misma. INDIVÍDUO: Es cada uno de los elementos que forman la población o la muestra. VARIABLE ESTADÍSTICA: Son cada uno de los rasgos a estudiar de los elementos de la población. Pueden ser de dos tipos: - Cualitativas: No se expresan mediante números, sino mediante categorías. Ejemplo: Color de pelo (Rubio, castaño, moreno…), Estado civil (soltero, casado, viudo, …) - Cuantitativas: aparecen como números. Ejemplo: Edad, estatura, ingresos, peso, número de hijos, etc… Se distinguen entre: o Discretas: Toman sólo algunos números aislados (número de hijos). o Continuas: Pueden tomar todos los valores de un intervalos (temperatura, peso, estatura, …)

Transcript of TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer...

Page 1: TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer información de un conjunto de ... La representación gráfica más común a partir de

ACCESO UNIVERSIDAD

1

TEMA 11. ESTADÍSTICA

En esta sociedad resulta imprescindible disponer de técnicas que permitan obtener, de forma sencilla y fiable, información de los diferentes conjuntos de datos con los que nos encontramos.

Uno de los objetivos de la estadística es extraer información de un conjunto de

observaciones (recogidas mediante experimentos o encuestas). Y el procedimiento habitual es resumir los datos. Estos resúmenes pueden ser gráficos (como los diagramas de barras o los histogramas) o numéricos (como la media, mediana o desviación típica).

Recordemos algunos conceptos básicos:

POBLACIÓN: Es el conjunto de todos los elementos que queremos estudiar. Desde el punto de vista estadístico, una población podría ser tanto los habitantes de una ciudad como los coches que se fabrican en una determinada factoría. MUESTRA: Es una parte de la población. Muchas veces es imposible estudiar el total de los elementos de una población, bien porque es una cantidad extremadamente grande, bien porque depende de procesos aleatorios, etc… Por eso, en la mayoría de los casos nos limitamos a estudiar un grupo de elementos de la población, que llamamos muestra. El estudio de una muestra sirve para sacar conclusiones sobre toda la población.

Generalmente elegimos muestras aleatorias, es decir, en las que sus elementos se escogen al azar, mediante algún tipo de sorteo. De esta forma, la muestra es representativa de toda la población. CENSO: Cuando se estudia toda la población, se dice que estamos haciendo un censo de la misma. INDIVÍDUO: Es cada uno de los elementos que forman la población o la muestra. VARIABLE ESTADÍSTICA: Son cada uno de los rasgos a estudiar de los elementos de la población. Pueden ser de dos tipos:

- Cualitativas: No se expresan mediante números, sino mediante categorías. Ejemplo: Color de pelo (Rubio, castaño, moreno…), Estado civil (soltero, casado, viudo, …)

- Cuantitativas: aparecen como números. Ejemplo: Edad, estatura, ingresos,

peso, número de hijos, etc… Se distinguen entre:

o Discretas: Toman sólo algunos números aislados (número de hijos). o Continuas: Pueden tomar todos los valores de un intervalos

(temperatura, peso, estatura, …)

Page 2: TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer información de un conjunto de ... La representación gráfica más común a partir de

ACCESO UNIVERSIDAD

2

Ejemplo: Todos los habitantes de España mayores de edad forman una población, la de los ciudadanos con derecho a voto. Cada uno de esos ciudadanos es un individuo de la población.

Cuando se realiza un sondeo electoral para estimar los resultados de unas

elecciones, se toma una muestra aleatoria (por ejemplo, 10.000 personas elegidas al azar) a las que se les pregunta su intención de voto (que sería una variable aleatoria cualitativa en la que las diferentes modalidades serían cada uno de los partidos que se presentan a las elecciones).

TABLAS DE FRECUENCIAS La realización de un trabajo estadístico suele generar grandes conjuntos de datos.

Las tablas de frecuencias sirven para ordenarlos y organizarlos. Supongamos que se ha realizado una encuesta a 110 matrimonios de un cierto

barrio. Se les ha preguntado cuántos hijos tienen y hemos anotado las respuestas: 2 2 0 3 1 2 4 3 1 3 3 3 2 2 3 3 2 3 3 3 2 2 2 1 1 1 2 1 3 4 2 3 3 3 2 2 4 2 2 3 3 1 5 2 0 2 4 3 2 6 3 1 2 2 4 2 2 2 1 3 1 2 2 1 3 1 2 3 3 2 5 2 2 2 3 2 3 2 2 4 3 5 2 4 1 2 3 3 1 4 3 2 4 1 3 3 1 4 2 2 4 2 1 3 2 3 2 1 0 0 Vamos a ver cómo realizaríamos la tabla de frecuencia de los datos anteriores. Las

columnas de la tabla son las siguientes: Variable (xi): Dónde aparecen todos los posibles valores de la variable que

estamos estudiando. En este ejemplo, la variable es el número de hijos y sus posibles valores son 0, 1, 2, 3, 4, 5, y 6.

Frecuencias absolutas (ni): Es el número de veces que se repite cada uno de los valores de la columna de la variable (xi). En el ejemplo anterior, la frecuencia correspondiente al valor de la variable 1 es 18, porque hay 18 matrimonios con 1 hijo.

Frecuencias relativas (fi): Nos da el porcentaje en “tantos por uno”, y se calcula

dividiendo la frecuencia absoluta entre el número total de individuos estudiados (N). fi = ni / N La frecuencia relativa también se puede expresar en “tantos por cien” con tan sólo

multiplicarla por 100. En ocasiones, para calcular algunas medidas necesarias para el estudio estadístico

conviene añadir también las frecuencias absolutas acumuladas que se calculan sumando sucesivamente las frecuencias.

Por lo tanto, tendremos dos nuevas columnas, la de las frecuencias absolutas

acumuladas (Ni) y la de las frecuencias relativas acumuladas (Fi).

Page 3: TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer información de un conjunto de ... La representación gráfica más común a partir de

ACCESO UNIVERSIDAD

3

Veamos cómo quedaría la tabla de frecuencias del ejemplo anterior:

xi ni Ni fi Fi 0 4 4 0.036 0.036 1 18 22 0.164 0.2 2 41 63 0.373 0.573 3 32 95 0.291 0.864 4 11 106 0.1 0.964 5 3 109 0.027 0.991 6 1 110 0.009 1 110 1

TABLAS CON DATOS AGRUPADOS Cuando en una distribución estadística el número de valores que toma la variable

es muy grande, conviene agruparlos en intervalos a la hora de realizar la tabla de frecuencias.

Al punto medio de cada intervalo se le llama marca de clase y es el valor que

representa al intervalo. Ejemplo: Anotamos la estatura de 40 alumnos del centro y los resultados son los

siguientes: 168 167 178 162 160 161 170 165 160 168 166 165 165 162 165 173 167 158 158 163 154 166 150 164 175 149 163 156 163 163 167 169 175 160 171 174 165 159 164 170 Como hay un número grande de valores que casi no se repiten, es adecuado

agruparlos en intervalos. Pero para ello hemos de decidir cuántos intervalos queremos poner y de qué amplitud (siempre será constante para todos los intervalos). En este caso no tenemos excesivos datos, por lo que decidimos hacer 6 intervalos. Hemos de intentar que el primer intervalo comience antes del dato más pequeño (149) y que el último intervalo acabe después del dato más grande (178).

Intervalos Marcas de clase (xi) ni Ni fi Fi

[148.5, 153.5[ 151 2 2 0.05 0.05 [153.5, 158.5[ 156 4 6 0.1 0.15 [158.5, 163.5[ 161 11 17 0.275 0.425 [163.5, 168.5[ 166 14 31 0.35 0.775 [168.5, 173.5[ 171 5 36 0.125 0.9 [173.5, 178.5] 176 4 40 0.1 1

40 1 Ejercicio: Reparte los datos del ejemplo en 8 y 10 intervalos respectivamente.

Page 4: TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer información de un conjunto de ... La representación gráfica más común a partir de

ACCESO UNIVERSIDAD

4

GRÁFICOS ESTADÍSTICOS La representación gráfica más común a partir de una variable cualitativa o

cuantitativa discreta es el diagrama de barras, que se construye dibujando sobre cada valor de la variable una barra vertical cuya altura representa la frecuencia (puede ser la absoluta o la relativa).

Para variables continuas agrupadas en intervalos el gráfico más común es el

histograma, en el que en lugar de levantar barras, levantamos rectángulos que tienen como base la amplitud de dicho intervalo.

Generalmente, la altura de dichos rectángulos viene expresada por las frecuencias

(absolutas o relativas). Sin embargo, hay casos (especialmente en los que los intervalos no son de igual amplitud) en los que la frecuencia no marca la altura del rectángulo, sino su área.

Otros gráficos estadísticos

Gráfico de sectores. Se utiliza en variables cualitativas o cuantitativas discretas y es un círculo en el que se representan sectores con ángulos proporcionales a las frecuencias.

Page 5: TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer información de un conjunto de ... La representación gráfica más común a partir de

ACCESO UNIVERSIDAD

5

Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio sobre los datos de la vivienda, en lugar de barras, se pueden utilizar edificios. En estos casos, el tamaño de cada figura es proporcional a su frecuencia.

Polígono de frecuencias. Para variables continuas. Se construye uniendo con

segmentos los puntos medios de las bases superiores de los rectángulos del histograma.

Polígono de frecuencias acumuladas. Sirve para todo tipo de variables. Representamos en el eje de abcisas los valores xi de la variable (o las marcas de clase en caso de variables agrupadas) y en el eje de ordenadas las frecuencias absolutas acumuladas (también se puede hacer con frecuencias relativas, aunque es menos común). Luego se unen todos los puntos.

PARÁMETROS ESTADÍSTICOS

Los parámetros estadísticos son unos valores que nos resumen en un número toda la distribución. Entre ellas cabe destacar las medidas de posición y las de dispersión.

MEDIDAS DE POSICIÓN

MEDIA ARITMÉTICA

Es una medida que nos describe básicamente el centro de un conjunto de datos. Es

la medida de centralización más usual.

La definición de esta medida es: N

xnx ii

Pero en la práctica se calcula la media aritmética ( x ) a partir de una tabla de

frecuencias. Para ello hemos de construir una nueva columna con el producto xi · ni . Luego sumamos todos los valores de esa columna y lo dividimos por el número de observaciones.

Page 6: TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer información de un conjunto de ... La representación gráfica más común a partir de

ACCESO UNIVERSIDAD

6

Veámoslo con el primer ejemplo. Recordemos que estábamos estudiando el número de hijos de 110 matrimonios:

xi ni Ni fi Fi xi · ni 0 4 4 0.036 0.036 0 1 18 22 0.164 0.2 18 2 41 63 0.373 0.573 82 3 32 95 0.291 0.864 96 4 11 106 0.1 0.964 44 5 3 109 0.027 0.991 15 6 1 110 0.009 1 6 110 1 261

37,2110261x

MODA

Es el valor de la variable o el intervalo que más se repite, es decir, el que mayor frecuencia absoluta tiene.

La moda no es necesariamente única, puede ocurrir que haya 2 o más modas. Por

tanto, hay distribuciones unimodales, bimodales, trimodales… En el ejemplo anterior, el valor que más se repite es el 3, con una frecuencia de 32

(es decir, hay 32 matrimonios que tienen 3 hijos). Por lo tanto,

Mo = 3

MEDIANA Es una medida numérica que se basa en el orden de los datos. Para encontrarla,

bastará con ordenarlos de menor a mayor y elegir el que ocupe el lugar central, que será la mediana. Si hay un número par de observaciones se toma como mediana la semisuma de los dos datos centrales.

Si tenemos muchos datos, podemos calcularla fácilmente a partir de una tabla de

frecuencias. Para ello nos hemos de fijar en la columna de las frecuencias relativas acumuladas, para ver dónde se encuentra el 50% (el 0,5).

En el ejemplo, si miramos la columna Fi, vemos que Me = 2.

MEDIDAS DE DISPERSIÓN

Las medidas de centralización no son suficientes para describir el conjunto de datos. Conviene también utilizar otro valor que refleje la dispersión de las observaciones alrededor de la media.

Page 7: TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer información de un conjunto de ... La representación gráfica más común a partir de

ACCESO UNIVERSIDAD

7

VARIANZA

Una manera adecuada de medir esa dispersión es considerar las desviaciones de los valores con la media ( xi - x ) y hallar la media de esas desviaciones. Pero habremos de evitar de alguna forma que valores negativos y positivos se compensen. Una opción es elevar esas desviaciones al cuadrado.

Así, definimos la varianza como:

N

nxxVar i

2

i

Cuanto mayor es el valor de la varianza, más dispersas están las observaciones. Para calcularla a partir de la tabla de frecuencias, añadimos tres columnas nuevas: 1ª) xi - x 2ª) (xi - x )2 3ª) (xi - x )2 · ni Ahora sumaremos esta última columna y la dividiremos por el número total de

observaciones.

xi ni Ni fi Fi xi · ni xi - x (xi - x )2 (xi - x )2 · ni 0 4 4 0.036 0.036 0 -2.37 5.62 22.48 1 18 22 0.164 0.2 18 -1.37 1.88 33.84 2 41 63 0.373 0.573 82 -0.37 0.14 5.74 3 32 95 0.291 0.864 96 0.63 0.4 12.8 4 11 106 0.1 0.964 44 1.63 2.66 29.26 5 3 109 0.027 0.991 15 2.63 6.92 20.76 6 1 110 0.009 1 6 3.63 13.18 13.18 110 1 261 138.06

26.1110

06.138Var

DESVIACIÓN TÍPICA

Un inconveniente de la varianza es que no tiene las mismas unidades que los datos (ya que éstos los elevamos al cuadrado). Por ello, resulta conveniente definir una nueva medida de dispersión que venga dada con las mismas unidades que los datos.

Definimos Desviación Típica = σ = Var En nuestro ejemplo, σ = 1,12.

Page 8: TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer información de un conjunto de ... La representación gráfica más común a partir de

ACCESO UNIVERSIDAD

8

COEFICIENTE DE VARIACIÓN Tanto la varianza como la desviación típica están medidas en unidades que

dependen de los datos. Si lo que nos interesa es comparar la dispersión de varios conjuntos de datos medidos en distintas unidades, necesitamos otra medida que nos indique la variación relativa de la distribución, y que además, se pueda expresar como porcentaje.

Definimos el Coeficiente de Variación = CV = x

En nuestro ejemplo, CV = 47.037.212.1

, es decir, un 47% (aunque esta medida

adquiere realmente importancia cuando se comparan distintas distribuciones).

CUARTILES, DECILES Y PERCENTILES

Son unas medidas de posición no centrales. Si en lugar de separar la totalidad de los individuos que forman la población por la

mitad como hacíamos con la mediana, los separamos en cuatro partes iguales, estos nuevos puntos de separación se llaman cuartiles.

Q1 = cuartil inferior. Es el valor de la variable que deja por debajo un 25% de la

población. Q2 = Me Q3 = cuartil superior. Es el valor de la variable que deja por debajo un 75% de la

población.

Ejemplo. Supongamos que las notas de un alumno en una asignatura son 5, 2, 10, 5, 6, 3, 1, 9, 2, 5, 8 y 4 Para calcular los cuartiles las ordenamos de menor a mayor: 1, 2, 2, 3, 4, 5, 5, 5, 6, 8, 9, 10 ║ ║ ║ Q1 = 2,5 Q2 = 5 Q3 = 7 Cuando tenemos muchos datos utilizaremos una tabla de frecuencias y nos

fijaremos en la columna Fi de las frecuencias relativas acumuladas, como hacíamos con la mediana.

Los deciles se definen como los cuartiles, pero dividiendo la población en diez

partes. Y los percentiles dividiéndola en cien. Así, por ejemplo, D5 = P50 = Q2 = Me, o Q1 = P25.

Page 9: TEMA 11. ESTADÍSTICA - epavillena.es · Uno de los objetivos de la estadística es extraer información de un conjunto de ... La representación gráfica más común a partir de

ACCESO UNIVERSIDAD

9

EJERCICIOS

1. Tenemos los siguientes pesos de una muestra de alumnos de una clase:

65, 67, 89, 56, 45, 67, 56, 57, 66, 45

Calcula la media aritmética, la varianza y la desviación típica.

2. Haz el mismo ejercicio anterior suponiendo que los pesos son:

42, 93, 98, 40, 51, 66, 100, 98, 65, 45

3. Hemos preguntado a 100 personas sobre un líder político, pidiéndoles una

valoración del 1 al 4. Los resultados han sido los siguientes:

Valoración 1 2 3 4 Frecuencia 25 30 40 5

Calcula la media aritmética, la varianza y la desviación típica.

4. La siguiente tabla indica el tiempo dedicado al estudio por 50 alumnos.

Horas 1 2 3 4

Alumnos 22 18 9 1

Calcula la media aritmética, la varianza y la desviación típica.

5. La media de las notas obtenidas en las tres pruebas realizadas en unas oposiciones ha sido de 6. Sé que dos de las notas eran 7 y 4. Calcula la tercera nota.