Estadística i tema 1 2

Estadística I Melanie Nogué Fructuoso

1

1

ESTADÍ STÍCA Í TEMA 1 ESTADÍ STÍCA DESCRÍPTÍVA

1.1. Población y muestra. Variables y datos

La estadística es un conjunto de técnicas el objetivo de las cuales es entender y

proveer conclusiones sobre un fenómeno en un lugar y tiempo particular.

El fenómeno a estudiar se llama variable.

Lugar y tiempo determinado es la población.

El conjunto de datos es la muestra u observaciones.

1.1.1. Definiciones

Estadística descriptiva: es un subcampo de la estadística que trata de

organizar los datos de tal modo que su análisis sea lo más simplificado posible. Una

vez todo organizado, se pueden usar las técnicas de la inferencia estadística, que

usa herramientas probabilísticas para extender las conclusiones obtenidas de la

muestra a toda la población que se está estudiando.

1.2. Tipos de variables

Existen diferentes tipos de variables según su naturaleza:

Cuantitativas (o medibles): pueden ser medidas numéricamente.

o Continuas: toman valores dentro de un rango.

o Discretas: toman valores de una lista finita o contable.

Cualitativas (o categóricas): no pueden medirse numéricamente. Cada

observación es asociada a un número o a una letra.

1.2.1. Distribución de frecuencias de variables

Las distribuciones de frecuencias consisten en contar el número de veces que cada

valor aparece en los datos. Tenemos las frecuencias absolutas y las frecuencias

relativas.

Frecuencia absoluta ( es el número de veces que el valor aparece en el

conjunto de datos.

Frecuencia relativa ( ) es el porcentaje de veces que el valor aparece en el

conjunto de datos.

Además, estas dos están relacionadas por:


2

2

No obstante, hay que tener en cuenta que en variables continuas (ingresos,

gastos…) una tabla de distribución de frecuencias proporcionaría poca información por

poder tomar muchos valores. Entonces, lo aconsejable es que se reúnan los datos en

intervalos. Para construir intervalos:

Rango: distancia entre el valor menor y el valor mayor que toma una variable

en la muestra.

Longitud de intervalo: una vez sabido el rango, éste lo tenemos que dividir

en tantos intervalos que se necesiten. El número de intervalos (I) dependerá de

lo que estemos estudiando.

Construir intervalos.

Marca de clase: es el punto medio del intervalo en cuestión. Pueden ser útiles

para calcular algunas características de la variable.

1.3. Medidas de centralización, dispersión y otras

1.3.1. Medidas de tendencia central

En este grupo tenemos la media, la mediana y la moda.

La media: es la más usada y se calcula haciendo un promedio, es decir, suma

de todos los valores dividido entre el total de éstos. No obstante, existen dos

formas según la frecuencia para calcular la media:

- Con las frecuencias absolutas:

∑

- Con las frecuencias relativas:

∑

En el caso de variables continuas, usando los dos anteriores cálculos se

obtiene una aproximación a la media. Esto sucede porque están en intervalos, y por

ello deberemos usar marcas de clase en vez de los valores observados.

Las propiedades de la media son:

Si cambiamos las unidades de los valores, no hace falta cambiarlos todos, sólo

hará falta que cambiemos el valor final.


3

3

Linealidad de la media. La media de cualquier combinación lineal de dos

variables es igual a:

La mediana: es el valor central de la muestra de modo que un 50% de las

observaciones son iguales o menores que este valor y un 50% son iguales o

mayores. Tenemos que ordenar los valores de menor a mayor y el valor de la

mitad es la mediana. Para calcularla dependerá de si el tamaño de la muestra

es par o impar.

o Par: se va a obtener 2 medianas. Si son dos números diferentes, lo que

se debe hacer es el cálculo de la media de estos dos valores.

Si los datos los tenemos en una tabla de frecuencias, la mediana se encuentra

mirando la columna de frecuencias acumuladas absolutas. Es decir, buscamos la

mitad de nuestra muestra y la mediana será aquél valor que sobrepase la mitad de

ésta. Por ejemplo, si tenemos 350 muestras, la mitad es 175, y entonces la media será

el valor de aquella muestra que supere el 175.

En frecuencia relativa acumulada, es aquella que sobrepasa el 50% (o 0,5).

La moda: tomará el valor que aparezca con mayor frecuencia. Para detecta si

un valor es moda o no debemos mirar los valores de uno por arriba y uno por

debajo. Por ejemplo:

Por lo tanto diríamos que 2,4, 5 y 8 son

moda pues son los que tienen mayor

frecuencia absoluta a su alrededor.

La moda absoluta es el valor más alto. En

nuestro ejemplo tomaría el valor de 2.

En el caso de variables continuas, la moda

se denomina clase modal.

Valor de x Frecuencia

absoluta

2 3

3 1

4 2

5 2

7 1

8 1


4

4

1.3.2. Medidas de dispersión

Lo que veremos es cuán dispersados estás nuestros valores respecto al valor

central, el cual lo llamaremos v.

El error cuadrático medio es una medida de error entendido como la

diferencia entre el valor de una observación y la medida de centralización v.

∑

No obstante, esto presenta un problema, y es cuando el error total da 0 y da

lugar a la INCORRECTA conclusión de que todas las observaciones son iguales al

valor central. Entonces, la solución es elevar los errores al cuadrado y además lo

dividiremos por el total de valores, obteniendo así el error cuadrático medio.

∑

Cuando v sea la media, el ECM se llamará varianza:

∑

La varianza sirve para que si tenemos 2 muestras con la misma media podamos

ver cuál de ellas está más dispersa que la otra.

La varianza corregida se calcula:

∑(

)

Propiedad importante: para cualquier valor central de v se tiene que:

Desviación típica: es la raíz cuadrada de la varianza y la denotaremos con

una S. esto es así pues cuando calculamos algo con la varianza nos da las

unidades elevadas al cuadrado. Así conseguiremos la misma medida que

nuestros datos.

√


5

5

Si tenemos 2 datos con unidades diferentes (como años y quilómetros) no

podemos usar la desviación típica. Entonces miraremos si están dispersos con el

coeficiente de variación, el cual no mira unidades de medida, pues es un valor sin

medida.

Coeficiente de variación: éste se calcula:

Los cuartiles (o rango intercuartílico): indican diferentes posiciones en la

muestra, la cual se divide en 4 grupos y los cuartiles serán los últimos números

de los 4 subgrupos.

o Primer cuartil: hasta el 25%.

o Segundo cuartil: hasta el 50%.

o Tercer cuartil: hasta el 75%.

o Cuarto cuartil: el 100%.

Para ello, deberemos observar la tabla de frecuencia relativa acumulada.

Importante: Q2=Mediana.

Para calcular el rango intercuartílico haremos:

Dando lugar a que cuanto más grande sea RI más desviación hay en nuestra

muestra.

1.4. Histogramas y otras representaciones gráficas

Cuando tenemos variables cualitativas las representaremos con diagramas de

barras o sectores.

Diagrama de barras:

o Representan las frecuencias de una variable.

o La altura representa la frecuencia relativa acumulada de cada valor.

Diagrama de sectores:

o Se usa con los valores de la variable. El tamaño de los sectores viene

determinado por la frecuencia relativa acumulada.

En cambio, cuando tenemos variables continuas usaremos:

Histogramas: son equivalentes a los diagramas de barras pero representan la

frecuencia relativa acumulada de los intervalos.

o Son muy usados en estadística ya que nos puede mostrar como si fuera

una probabilidad. Mirando las barras más altas tenemos el intervalo con

más probabilidades.

Diagrama de cajas: son muy útiles para ver el grado de dispersión.


6

6

1.5. Frecuencias multivariantes: frecuencias marginales y

condicionadas

Hasta ahora lo que hemos hecho es analizar una a una las variables y ahora

haremos un análisis multivariante. Esto es así porque nos interesa saber cómo

están relacionadas entre sí las variables.

Variables cuantitativas: tabla de correlación.

Cualitativa+cuantitativa: tabla de contingencias.

Por ejemplo, X1 es el número de miembros en la familia y X5 es si tienen (1) o no

(0) ADSL:

Esta tabla se llama bidimensional de frecuencias.

Además es una tabla de contingencias pues tiene

una variable cualitativa (X5).

Llamamos x e y a las variables. Los valores que

tomen en la tabla tendrán 2 subíndices y vienen

denotados por n.

Frecuencia absoluta conjunta:

X5

X1

0 1

2 2 1

3 1 0

4 0 2

5 1 1

7 0 1

8 0 1

Mayor valor

Q3

Media

Mediana=Q2

Q1

Menor valor

RI


7

7

Frecuencias marginales: buscamos lo mismo, el grado de relación entre las

variables. A partir de la frecuencia conjunta se puede sacar información

individual. En nuestro ejemplo, podemos saber el total de familias con dos

miembros sumando el número que tiene o no tiene ADSL.

Propiedades: las frecuencias marginales cumplen que el sumatorio da el

total.

Frecuencia condicionada: nos puede interesar también la distribución de

una de las variables cuando fijamos un valor de la otra variable. Por ejemplo,

de las familias con 3 miembros que tengan ADSL.

Por ello, tendremos que buscar la frecuencia relativa conjunta, la cual en

nuestro ejemplo es 0.1 si miramos la frecuencia marginal.

Ahora miremos la frecuencia condicionada preguntándonos:

¿De las familias que tienen ADSL, qué porcentaje son de 3 miembros?

Nos miramos la columna de y2 y vemos que hay 0 familias. Ahora, en vez

de 3 miembros, miremos el porcentaje de 4 miembros, y vemos que son 2.

Calculamos:

X5

X1

0 1

2 2 1 3 0.3

3 1 0 1 0.1

4 0 2 2 0.2

5 1 1 2 0.2

7 0 1 1 0.1

8 0 1 1 0.1

4 6 10 1

0.4 0.6 1

Frecuencia marginal

de variable X5

Distribución marginal

absoluta de X1

Distribución relativa

marginal de X1


8

8

1.6. Covarianza y correlación

La covarianza es una medida del grado de relación existente entre dos

variables X e Y: . El signo que tenga la covarianza indica cómo cambian las dos

variables:

>0 para altos valores de una variable también lo será la otra.

<0 para altos valores de una variable la otra será más baja.

∑∑

∑∑

Y con las frecuencias relativas:

∑∑

De la covarianza analizamos el signo y no el número, por lo tanto no lo

podemos interpretar pues sólo indica cuán grandes son los valores con los que

estamos trabajando.

La covarianza depende de las unidades de las variables, y por ello no es un

buen indicador de la intensidad de relación.

Coeficiente de correlación: es la solución al planteamiento anterior.

También se llama coeficiente de Pearson.

Como vemos simplemente es un ratio el cual no tiene unidad de medida.

Siempre fluctuará entre 1 y -1. Cuanto más próximo sea a +-1, más intensa es la

relación.

La relación es nula cuando sea igual a 0. No obstante, que sea próximo a 0 no

significa que no haya relación.


9

9

1.7. Medida y varianza de combinaciones lineales de variables

Muchas veces las variables se pueden expresar como combinaciones de otras

variables. Por ejemplo los costes de una empresa.

Entonces, diremos que una variable X es una combinación lineal de las variables X1 y

X2 si podemos encontrar dos coeficientes a1 y a2 tales que:

Estadística i tema 1 2

Documents

Transcript of Estadística i tema 1 2