Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

16
1 Estadística I Guión de la Práctica 1 Introducción a la Estadística con Excel; Estadística Descriptiva En el siguiente guión vamos a ver cómo realizar Estadística Descriptiva con el software Excel 2007. 1. Introducción a la Estadística con Excel 1.1 Cargar o importar datos En Excel 2007 podemos introducir lo datos a mano, generarlos con el programa a través de algunas funciones (por ejemplo, “ALEATORIO()”), o cargarlos desde un archivo externo. Por ejemplo, en una hoja Excel en blanco vamos a introducir los siguientes números (2, 5, 7, 9, 13) de la siguiente manera: Supongamos que queremos calcular la media de los números anteriores y escribirla en la celda A7. Para ello podemos utilizar una de las fórmulas programadas en Excel 2007, siguiendo los siguientes pasos: 1. Seleccionar la celda A7 y Fórmulas en el Menú de arriba (se trata de la línea que contiene Inicio, Insertar, Diseño de página, Fórmulas, Datos, etc.): 2. Seleccionar Insertar función:

Transcript of Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

Page 1: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

1

Estadística I

Guión de la Práctica 1

Introducción a la Estadística con Excel; Estadística Descriptiva

En el siguiente guión vamos a ver cómo realizar Estadística Descriptiva con el software Excel 2007.

1. Introducción a la Estadística con Excel

1.1 Cargar o importar datos

En Excel 2007 podemos introducir lo datos a mano, generarlos con el programa a través de algunas

funciones (por ejemplo, “ALEATORIO()”), o cargarlos desde un archivo externo. Por ejemplo, en una hoja

Excel en blanco vamos a introducir los siguientes números (2, 5, 7, 9, 13) de la siguiente manera:

Supongamos que queremos calcular la media de los números anteriores y escribirla en la celda A7. Para

ello podemos utilizar una de las fórmulas programadas en Excel 2007, siguiendo los siguientes pasos:

1. Seleccionar la celda A7 y Fórmulas en el Menú de arriba (se trata de la línea que contiene Inicio,

Insertar, Diseño de página, Fórmulas, Datos, etc.):

2. Seleccionar Insertar función:

Page 2: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

2

3. Buscar la función que permite calcular la media de un conjunto de números: “PROMEDIO()”. Hay dos

maneras: (1) buscar la función que nos interesa entre las funciones Usadas recientemente (en este caso

se trata de la tercera función); y (2) buscarla en la categoría Todas o en su categoría, en este caso

Estadísticas. En los dos casos, pulsar Aceptar una vez encontrada y seleccionada la función:

4. Una vez pulsado Aceptar Excel 2007 ofrecerá la siguiente vista:

Page 3: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

3

Podemos notar que Excel 2007 ha seleccionado automáticamente unas celdas (A1:A6) que puede

traducirse en “desde A1 hasta A6”, pero nosotros queremos la media de los números contenidos en las

celdas “desde A1 hasta A5”. Entonces, tendremos que introducir en el recuadro Número 1 el texto

“A1:A5”. Otra manera de hacerlo, que muchas veces resulta mucho más cómoda, es la siguiente:

Primero, minimizar la ventana Argumentos de función usando el botón del interior del recuadro

Número 1. Segundo, seleccionar con el ratón las celdas desde A1 hasta A5, pulsar el botón Enviar del

teclado y después pulsar Aceptar:

5. Excel 2007 nos ofrecerá la siguiente vista, donde 7,2 representa la media que se buscaba:

Observación: En Excel 2007 resultan más accesibles sus funciones programadas. En nuestro caso, desde la

pestaña Fórmulas podemos acceder directamente a las funciones estadísticas.

Por otro lado, podemos importar datos de un fichero. Por ejemplo, el conjunto de datos que vamos a

utilizar está recogido en el fichero de nombre “Paises.xlsx” y se refieren a 91 países para los que se

describen 7 variables, 6 de ellas cuantitativas (tasa de natalidad, tasa de mortalidad, tasa de mortalidad

infantil, expectativa de vida – hombres, Expectativa de vida – mujeres, PIB) y 1 de ellas, cualitativa (zona).

Para abrir el fichero “Paises.xlsx” hay que seguir los siguientes pasos:

1. Pulsar el Botón de Office:

2. Seleccionar Abrir:

Page 4: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

4

3. Seleccionar el fichero “Paises.xlsx” en su ubicación y pulsar Abrir.

1.2 Cómo cargar el módulo para Estadística

En Excel 2007 existe la posibilidad de cargar un módulo para hacer cálculos estadísticos. Como no es un

módulo básico, hay que cargarlo expresamente. Para hacer que el submenú Análisis de datos aparezca en

la pestaña Datos, podemos seguir los pasos que nos proporciona la ayuda de Excel 2007:

1. Pulsar el Punto Interrogación (arriba a la derecha) para abrir la Ayuda de Excel 2007:

Introducir Herramientas para análisis en el buscador de la Ayuda y pulsar Buscar. En nuestro caso lo

que estamos buscando es el artículo Cargar Herramientas para análisis. Seleccionarlo entonces, y

seguir las instrucciones.

Una vez completado el proceso, en la pestaña Datos aparece una nueva herramienta (a la derecha): la

herramienta para el Análisis de datos:

Page 5: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

5

2. Estadística descriptiva

2.1. Análisis de datos

A continuación realizamos un análisis descriptivo de la variable PIB considerando todas las observaciones.

Para hacer eso podemos utilizar una de las opciones del paquete que hemos instalado gracias a la primera

parte de este guion, es decir el complemento Análisis de datos.

Los pasos a seguir son los siguientes:

1. Seleccionar Análisis de datos en la pestaña Datos; seleccionar Estadística descriptiva y pulsar Aceptar:

2. Se abrirá una ventana en la que hay que introducir el rango de entrada (a mano, o seleccionando las

celdas desde la hoja); en este caso el rango es “$G$1:$G$92”. Hay que seleccionar Agrupados por:

Columnas y Rótulos en la primera fila porque hemos seleccionado también el titulo de la columna.

Además, hay que indicar dónde queremos que Excel 2007 nos ponga los resultados; nuestro consejo es

En una hoja nueva: An_Uni_PIB (se trata simplemente de un nombre que nos puede ayudar a recordar

qué hay en aquella hoja). Finalmente, hay que seleccionar Resumen de estadísticas y pulsar Aceptar:

Page 6: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

6

3. Una vez seleccionado pulsar Aceptar, Excel 2007 nos ofrecerá una vista parecida a la siguiente:

Otra opción interesante del complemento Análisis de datos, para el análisis descriptivo de una variable (en este caso PIB) es Jerarquía y percentil.

En este caso en una ventana parecida a la de Estadística descriptiva podríamos seleccionar entre las Opciones de salida, Rango de salida, y seleccionar la celda “’An_Uni_PIB’!$D$1”, para que el resultado aparezca en la misma hoja donde estamos guardando los resultados que se refieren a la variable PIB:

Una vez seleccionado pulsar Aceptar, Excel 2007 nos ofrecerá una vista parecida a la siguiente:

Page 7: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

7

Gracias a la ordenación obtenida (que es decreciente), podemos obtener el primer, el segundo y el tercer cuartil (aunque el segundo cuartil ya lo tenemos, porque equivale a la mediana). En este caso, como el número de las observaciones es impar, entonces, una vez ordenadas las observaciones, el primer cuartil será la observación que ocupa la posición 3(n+1)/4, el segundo cuartil será la observación que ocupa la posición 2(n+1)/4=(n+1)/2, y el tercer cuartil será la observación que ocupa el lugar (n+1)/4. Podemos sacar estos tres valores utilizando Excel como una simple Calculadora. Nos posicionamos en la celda “I1” y introducimos el siguiente código “=3*(B15+1)/4”, donde B15 representa la celda donde Excel 2007 ha calculado el numero de observaciones, es decir n. A continuación, en las celdas “I2” y “I3”, introducimos “=(B15+1)/2” y “=(B15+1)/4” respectivamente. Los resultados que obtenemos son 23, 46 y 69, y los cuartiles que estamos buscando son 470, 1690 y 7600. Claramente, podemos escribir esta nueva información en la hoja An_Uni_PIB, por ejemplo:

Page 8: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

8

Nota: el problema anterior se puede abordar también a través del uso de las funciones PERCENTIL() o CUARTIL(), aunque Excel 2007 para calcular un cuartil, por ejemplo Q1, hace la media de las posiciones 23 y 24.

Nota: El valor de un cuartil NO es la posición, es el valor numérico de la observación QUE OCUPA la posición. La opción Estadística descriptiva no proporciona toda la información que nos puede interesar; por ejemplo, si nos interesa el coeficiente de variación, podemos calcularlo directamente, aplicando la fórmula, es decir Desviación estándar/Media. Este coeficiente se ha calculado en la celda “B22” con el código “=B7/B3”. El conjunto de datos utilizado en estos guiones posee también una variable categórica. Supongamos que se quiere hacer un análisis descriptivo de la variable PIB sólo sobre los países europeos. Para hacer eso, a la hora de utilizar las opciones del paquete Análisis de datos, habrá que seleccionar solo aquellos países con la etiqueta EU en la variable Zona. Nota: en este caso las observaciones están ya ordenadas según la variable Zona. Si no fuera así, habría que ordenarlas a través de:

1. Pestaña Inicio.

2. Ordenar y Filtrar:

3. Introducir las instrucciones (en este caso se ordena alfabéticamente por Zona, y a continuación por País):

2.2. Tablas de frecuencias e histogramas: variables cuantitativas

En este apartado vamos a mostrar cómo crear tablas de frecuencias e histogramas para variables cuantitativas, utilizando la variable ln(PIB), que hemos visto cómo calcular en la primera parte del guión.

Page 9: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

9

Posicionarse en una nueva hoja, y cambiarle el nombre: nosotros le daremos el nombre Hist_Frec_PIB. En la primera columna vamos a calcular los límites de las clases utilizando la siguiente regla:

· Número de observaciones: 91

· Valor mínimo: 4,38202663 _ Considerar 4,3

· Valor máximo: 10,4359964 _ Considerar 10,5

· Rango: 6,2

· Número de clases: 91^(1/2)= 9,53939201 _ 9 o 10 clases.

Supongamos que se van a utilizar 10 clases, ¿cómo podemos crearla?

1. En la celda “B2” calculamos la longitud de cada intervalo con el código “=(10,5- 4,3)/10”:

2. En la celda “A4” calculamos el límite superior de la primera clase, que es igual a “minimo+longitud” y que podemos implementar con el código “=4,3+$B$1”:

3. A continuación, calculamos los restantes nueve límites superiores. El primero es igual a “límite superior anterior+longitud”, y de hecho todos pueden ser calculados con la anterior fórmula. Para calcular el primero, nos ponemos en la celda A5 y introducimos el código “=A4+$B$1”. Finalmente copiamos el contenido de la celda A5 en la celdas desde A6 hasta A13:

Una vez obtenidos los limites superiores de las clases, se pueden hacer las tablas de frecuencias y los histogramas:

Page 10: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

10

1. Seleccionar Análisis de datos en la pestaña Datos; seleccionar Histograma y pulsar Aceptar.

2. En la ventana emergente hay que introducir el Rango de entrada “Hoja1!$H$1:$H$92”, el Rango de clases “$A$3:$A$13”, seleccionar Rótulos, introducir el Rango de salida (por ejemplo, nosotros escogemos sacar los resultados en la celda A15 de la hoja Hist_Frec_PIB), y seleccionar Crear Gráfico:

3. Una vez pulsado Aceptar, Excel 2007 nos ofrecerá una vista parecida a la siguiente:

Los resultados obtenidos pueden mejorarse en dos sentidos:

· Podemos ofrecer más información acerca de las frecuencias.

· Podemos mejorar el histograma.

Por lo que se refiere al primer punto, a partir de las frecuencias absolutas, podemos calcular las frecuencias relativas, frecuencias absolutas acumuladas y las frecuencias relativas acumuladas. Para hacer eso:

1. Copiamos la tabla de frecuencia que se obtuvo mediante los pasos anteriores (excepto la última fila que se refiere a la clase y mayor…); a continuación, seleccionamos la columna de Lim_Sup y pulsamos el botón derecho del ratón y seleccionamos Insertar… _ Desplazar las celdas hacia la derecha. En esta nueva columna podemos calcular los límites inferiores de las clases para completar

Page 11: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

11

la información. Nos posicionamos en la celda vacía y escribimos “=4.92-$B$1”, y luego copiamos su contenido en las otras celdas.

2. En las celdas a la derecha vamos a calcular las frecuencias relativas; en la primera celda introducimos el código para calcular frecuencias relativas, y luego copiamos su contenido en las otras celdas.

3. En la misma manera calculamos frecuencias relativas acumuladas y frecuencias acumuladas.

Por lo que se refiere al segundo punto, Excel 2007 saca un histograma con espacios entre las barras, cuando nuestras clases al ser contiguas comparten los limites superior e inferior. Para juntar las barras:

1. Posicionarse con el ratón arriba de una barra del histograma, pulsar el botón derecho del ratón, y seleccionar Dar formato a serie de datos…:

2. En la ventana emergente, cambiar el Ancho de intervalo a 0%. El histograma final que se obtiene es el siguiente:

2.3. Tablas de frecuencias y grafico circular: variables cualitativas

En este apartado vamos a mostrar cómo crear tablas de frecuencias y diagramas de barras para variables cualitativas, utilizando la variable Zona. Posicionarse en una nueva hoja, y cambiarle el nombre: nosotros le daremos el nombre Zona. En la primera columna vamos a escribir las modalidades de la variable:

0

5

10

15

20

Fre

cue

nci

a

lim_sup

Histograma

Frecuencia

Page 12: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

12

En la segunda columna, en la celda B2 vamos a calcular la frecuencia absoluta de la modalidad AFR; para hacer eso utilizamos la función CONTAR.SI() de la siguiente manera: “=CONTAR.SI(Hoja1!I$2:I$92;A2)”. A continuación, copiamos su contenidos en B3, B4 y B5. Para comprobar que esté todo bien, en la celda B6 calculamos la suma de las frecuencias absolutas (“=SUMA(B2:B5)”):

A partir de estas frecuencias absolutas, ya sabemos cómo calcular las frecuencias relativas.

Finalmente, vamos a ver cómo crear un grafico circular:

1. Posicionarse en cualquiera celda, moverse a la pestaña Insertar y seleccionar la opción Circular.

2. Excel 2007 creará un gráfico vacío. Para pasar a Excel 2007 los datos con los que queremos generar un grafico circular, seleccionar la opción Seleccionar Datos.

3. En Rango de datos del gráfico hay elegir desde la tabla de las frecuencias los valores de los grupos y las frecuencias correspondientes. El gráfico circular final que se obtiene es la siguiente:

30%

26%

15%

29%

Gráfico Circular

AFR

ASIA

AME

EU

Page 13: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

13

2.4. Diagramas de cajas

En Excel 2007 no existe un procedimiento para hacer diagramas de cajas. Hay que hacerlo usando macros, que son programas de Excel que realizan las tareas. Específicamente, esta macro dibuja diagramas de cajas:

http://www.cms.murdoch.edu.au/areas/maths/statsnotes/samplestats/BoxPlotMacro.xls

Para usarla hay que permitir el uso de macros quitando las restricciones de seguridad del programa Excel 2007. Primero ir a Opciones de Excel -> Más frecuentes, marcar (si no lo estuviera) la casilla Mostrar ficha Programador en la cinta de Opciones. Luego aparece una nueva pestaña en el menú principal denominada Programador. Desde allí pinchar en la pestaña Seguridad de macros:

Allí marcar en Habilitar todas las macros (no recomendado…

Evidentemente en general hay que tener siempre cuidado, si se ejecutan macros con origen dudoso (este no es nuestro caso aquí)…

Cargar la macro: Boton de Office -> Arbrir -> BoxPlotMacro

Y usarla con un conjunto de datos. Por ejemplo en el fichero “Paises.xlsx” marcar una columna y ejecutar la macro del diagrama de cajas desde el menú Macros.

Page 14: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

14

Se obtiene directamente

Pinchando en <Chart Title> y en <Data scale…> se pueden modificar las etiquetas del gráfico.

0

10

20

30

40

50

60

<Dat

a sc

ale

de

scri

pti

on

>

<Chart Title>

Tasa de natalidad n = 91

Page 15: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

15

Ejercicios (entregar al final de la clase, utilizando las últimas páginas de este guión)

Generar una nueva variable X “expectativa de vida media”, la cual es el promedio de la expectativa de vida de hombres y mujeres. Generar otra variable Y “expectativa cualitativa”, la cual divide la expectativa media de vida media en tres categorías: corta (<50), mediana (50-65) y larga (>65) usando la formula:

=SI(J2<50;"Corta";SI(J2<65;"Mediana";"Larga"))

1. Analizar la variable cuantitativa X. Reportar los resultados en la Tabla 1. 2. Analizar la variable cualitativa Y. Reportar los resultados en la Tabla 2. 3. Analizar la variable cuantitativa X considerando sólo la zona de Europa. Reportar los resultados

en la Tabla 3.

Page 16: Estadística I Guión de la Práctica 1 Introducción a la Estadística con ...

16

Respuestas del apartado 3.

Nombre y Apellidos:____________________________________________________________

NIU:_____________________Grado:___________________________________Grupo______

Tabla 1

Recuento

Promedio

Desviación Estándar

Coeficiente de Variación

Mínimo

Máximo

Rango

Sesgo Estandarizado

Curtosis Estandarizada

Tabla 2

Clase

Valor

Frecuencia

Frec. rel.

Frec. acum.

Frec. Rel. acum.

1

2

3

Tabla 3

Recuento

Promedio

Desviación Estándar

Coeficiente de Variación

Mínimo

Máximo

Rango

Sesgo Estandarizado

Curtosis Estandarizada