Estadística i tema 1 2
Click here to load reader
-
Upload
melanie-nogue -
Category
Documents
-
view
120 -
download
2
Transcript of Estadística i tema 1 2
Estadística I Melanie Nogué Fructuoso
1
1
ESTADÍ STÍCA Í TEMA 1 ESTADÍ STÍCA DESCRÍPTÍVA
1.1. Población y muestra. Variables y datos
La estadística es un conjunto de técnicas el objetivo de las cuales es entender y
proveer conclusiones sobre un fenómeno en un lugar y tiempo particular.
El fenómeno a estudiar se llama variable.
Lugar y tiempo determinado es la población.
El conjunto de datos es la muestra u observaciones.
1.1.1. Definiciones
Estadística descriptiva: es un subcampo de la estadística que trata de
organizar los datos de tal modo que su análisis sea lo más simplificado posible. Una
vez todo organizado, se pueden usar las técnicas de la inferencia estadística, que
usa herramientas probabilísticas para extender las conclusiones obtenidas de la
muestra a toda la población que se está estudiando.
1.2. Tipos de variables
Existen diferentes tipos de variables según su naturaleza:
Cuantitativas (o medibles): pueden ser medidas numéricamente.
o Continuas: toman valores dentro de un rango.
o Discretas: toman valores de una lista finita o contable.
Cualitativas (o categóricas): no pueden medirse numéricamente. Cada
observación es asociada a un número o a una letra.
1.2.1. Distribución de frecuencias de variables
Las distribuciones de frecuencias consisten en contar el número de veces que cada
valor aparece en los datos. Tenemos las frecuencias absolutas y las frecuencias
relativas.
Frecuencia absoluta ( es el número de veces que el valor aparece en el
conjunto de datos.
Frecuencia relativa ( ) es el porcentaje de veces que el valor aparece en el
conjunto de datos.
Además, estas dos están relacionadas por:
Estadística I Melanie Nogué Fructuoso
2
2
No obstante, hay que tener en cuenta que en variables continuas (ingresos,
gastos…) una tabla de distribución de frecuencias proporcionaría poca información por
poder tomar muchos valores. Entonces, lo aconsejable es que se reúnan los datos en
intervalos. Para construir intervalos:
Rango: distancia entre el valor menor y el valor mayor que toma una variable
en la muestra.
Longitud de intervalo: una vez sabido el rango, éste lo tenemos que dividir
en tantos intervalos que se necesiten. El número de intervalos (I) dependerá de
lo que estemos estudiando.
Construir intervalos.
Marca de clase: es el punto medio del intervalo en cuestión. Pueden ser útiles
para calcular algunas características de la variable.
1.3. Medidas de centralización, dispersión y otras
1.3.1. Medidas de tendencia central
En este grupo tenemos la media, la mediana y la moda.
La media: es la más usada y se calcula haciendo un promedio, es decir, suma
de todos los valores dividido entre el total de éstos. No obstante, existen dos
formas según la frecuencia para calcular la media:
- Con las frecuencias absolutas:
∑
- Con las frecuencias relativas:
∑
En el caso de variables continuas, usando los dos anteriores cálculos se
obtiene una aproximación a la media. Esto sucede porque están en intervalos, y por
ello deberemos usar marcas de clase en vez de los valores observados.
Las propiedades de la media son:
Si cambiamos las unidades de los valores, no hace falta cambiarlos todos, sólo
hará falta que cambiemos el valor final.
Estadística I Melanie Nogué Fructuoso
3
3
Linealidad de la media. La media de cualquier combinación lineal de dos
variables es igual a:
La mediana: es el valor central de la muestra de modo que un 50% de las
observaciones son iguales o menores que este valor y un 50% son iguales o
mayores. Tenemos que ordenar los valores de menor a mayor y el valor de la
mitad es la mediana. Para calcularla dependerá de si el tamaño de la muestra
es par o impar.
o Par: se va a obtener 2 medianas. Si son dos números diferentes, lo que
se debe hacer es el cálculo de la media de estos dos valores.
Si los datos los tenemos en una tabla de frecuencias, la mediana se encuentra
mirando la columna de frecuencias acumuladas absolutas. Es decir, buscamos la
mitad de nuestra muestra y la mediana será aquél valor que sobrepase la mitad de
ésta. Por ejemplo, si tenemos 350 muestras, la mitad es 175, y entonces la media será
el valor de aquella muestra que supere el 175.
En frecuencia relativa acumulada, es aquella que sobrepasa el 50% (o 0,5).
La moda: tomará el valor que aparezca con mayor frecuencia. Para detecta si
un valor es moda o no debemos mirar los valores de uno por arriba y uno por
debajo. Por ejemplo:
Por lo tanto diríamos que 2,4, 5 y 8 son
moda pues son los que tienen mayor
frecuencia absoluta a su alrededor.
La moda absoluta es el valor más alto. En
nuestro ejemplo tomaría el valor de 2.
En el caso de variables continuas, la moda
se denomina clase modal.
Valor de x Frecuencia
absoluta
2 3
3 1
4 2
5 2
7 1
8 1
Estadística I Melanie Nogué Fructuoso
4
4
1.3.2. Medidas de dispersión
Lo que veremos es cuán dispersados estás nuestros valores respecto al valor
central, el cual lo llamaremos v.
El error cuadrático medio es una medida de error entendido como la
diferencia entre el valor de una observación y la medida de centralización v.
∑
No obstante, esto presenta un problema, y es cuando el error total da 0 y da
lugar a la INCORRECTA conclusión de que todas las observaciones son iguales al
valor central. Entonces, la solución es elevar los errores al cuadrado y además lo
dividiremos por el total de valores, obteniendo así el error cuadrático medio.
∑
Cuando v sea la media, el ECM se llamará varianza:
∑
La varianza sirve para que si tenemos 2 muestras con la misma media podamos
ver cuál de ellas está más dispersa que la otra.
La varianza corregida se calcula:
∑(
)
Propiedad importante: para cualquier valor central de v se tiene que:
Desviación típica: es la raíz cuadrada de la varianza y la denotaremos con
una S. esto es así pues cuando calculamos algo con la varianza nos da las
unidades elevadas al cuadrado. Así conseguiremos la misma medida que
nuestros datos.
√
Estadística I Melanie Nogué Fructuoso
5
5
Si tenemos 2 datos con unidades diferentes (como años y quilómetros) no
podemos usar la desviación típica. Entonces miraremos si están dispersos con el
coeficiente de variación, el cual no mira unidades de medida, pues es un valor sin
medida.
Coeficiente de variación: éste se calcula:
Los cuartiles (o rango intercuartílico): indican diferentes posiciones en la
muestra, la cual se divide en 4 grupos y los cuartiles serán los últimos números
de los 4 subgrupos.
o Primer cuartil: hasta el 25%.
o Segundo cuartil: hasta el 50%.
o Tercer cuartil: hasta el 75%.
o Cuarto cuartil: el 100%.
Para ello, deberemos observar la tabla de frecuencia relativa acumulada.
Importante: Q2=Mediana.
Para calcular el rango intercuartílico haremos:
Dando lugar a que cuanto más grande sea RI más desviación hay en nuestra
muestra.
1.4. Histogramas y otras representaciones gráficas
Cuando tenemos variables cualitativas las representaremos con diagramas de
barras o sectores.
Diagrama de barras:
o Representan las frecuencias de una variable.
o La altura representa la frecuencia relativa acumulada de cada valor.
Diagrama de sectores:
o Se usa con los valores de la variable. El tamaño de los sectores viene
determinado por la frecuencia relativa acumulada.
En cambio, cuando tenemos variables continuas usaremos:
Histogramas: son equivalentes a los diagramas de barras pero representan la
frecuencia relativa acumulada de los intervalos.
o Son muy usados en estadística ya que nos puede mostrar como si fuera
una probabilidad. Mirando las barras más altas tenemos el intervalo con
más probabilidades.
Diagrama de cajas: son muy útiles para ver el grado de dispersión.
Estadística I Melanie Nogué Fructuoso
6
6
1.5. Frecuencias multivariantes: frecuencias marginales y
condicionadas
Hasta ahora lo que hemos hecho es analizar una a una las variables y ahora
haremos un análisis multivariante. Esto es así porque nos interesa saber cómo
están relacionadas entre sí las variables.
Variables cuantitativas: tabla de correlación.
Cualitativa+cuantitativa: tabla de contingencias.
Por ejemplo, X1 es el número de miembros en la familia y X5 es si tienen (1) o no
(0) ADSL:
Esta tabla se llama bidimensional de frecuencias.
Además es una tabla de contingencias pues tiene
una variable cualitativa (X5).
Llamamos x e y a las variables. Los valores que
tomen en la tabla tendrán 2 subíndices y vienen
denotados por n.
Frecuencia absoluta conjunta:
X5
X1
0 1
2 2 1
3 1 0
4 0 2
5 1 1
7 0 1
8 0 1
Mayor valor
Q3
Media
Mediana=Q2
Q1
Menor valor
RI
Estadística I Melanie Nogué Fructuoso
7
7
Frecuencias marginales: buscamos lo mismo, el grado de relación entre las
variables. A partir de la frecuencia conjunta se puede sacar información
individual. En nuestro ejemplo, podemos saber el total de familias con dos
miembros sumando el número que tiene o no tiene ADSL.
Propiedades: las frecuencias marginales cumplen que el sumatorio da el
total.
Frecuencia condicionada: nos puede interesar también la distribución de
una de las variables cuando fijamos un valor de la otra variable. Por ejemplo,
de las familias con 3 miembros que tengan ADSL.
Por ello, tendremos que buscar la frecuencia relativa conjunta, la cual en
nuestro ejemplo es 0.1 si miramos la frecuencia marginal.
Ahora miremos la frecuencia condicionada preguntándonos:
¿De las familias que tienen ADSL, qué porcentaje son de 3 miembros?
Nos miramos la columna de y2 y vemos que hay 0 familias. Ahora, en vez
de 3 miembros, miremos el porcentaje de 4 miembros, y vemos que son 2.
Calculamos:
X5
X1
0 1
2 2 1 3 0.3
3 1 0 1 0.1
4 0 2 2 0.2
5 1 1 2 0.2
7 0 1 1 0.1
8 0 1 1 0.1
4 6 10 1
0.4 0.6 1
Frecuencia marginal
de variable X5
Distribución marginal
absoluta de X1
Distribución relativa
marginal de X1
Estadística I Melanie Nogué Fructuoso
8
8
1.6. Covarianza y correlación
La covarianza es una medida del grado de relación existente entre dos
variables X e Y: . El signo que tenga la covarianza indica cómo cambian las dos
variables:
>0 para altos valores de una variable también lo será la otra.
<0 para altos valores de una variable la otra será más baja.
∑∑
∑∑
Y con las frecuencias relativas:
∑∑
De la covarianza analizamos el signo y no el número, por lo tanto no lo
podemos interpretar pues sólo indica cuán grandes son los valores con los que
estamos trabajando.
La covarianza depende de las unidades de las variables, y por ello no es un
buen indicador de la intensidad de relación.
Coeficiente de correlación: es la solución al planteamiento anterior.
También se llama coeficiente de Pearson.
Como vemos simplemente es un ratio el cual no tiene unidad de medida.
Siempre fluctuará entre 1 y -1. Cuanto más próximo sea a +-1, más intensa es la
relación.
La relación es nula cuando sea igual a 0. No obstante, que sea próximo a 0 no
significa que no haya relación.
Estadística I Melanie Nogué Fructuoso
9
9
1.7. Medida y varianza de combinaciones lineales de variables
Muchas veces las variables se pueden expresar como combinaciones de otras
variables. Por ejemplo los costes de una empresa.
Entonces, diremos que una variable X es una combinación lineal de las variables X1 y
X2 si podemos encontrar dos coeficientes a1 y a2 tales que: