ESTADÍSTICA BÁSICA

64
Estadística básica

Transcript of ESTADÍSTICA BÁSICA

Estadística básica

Unidad 0.

Conceptos básicos de estadística

Colectivos estadísticos

Se llama población objetivo o de referencia la cual

interesa conocer. Esta población puede ser:

Concreta o finita, es decir, estar delimitada e

identificada, en el sentido de saber quiénes y cuáles son

sus miembros

Hipotética, cuando no sabemos cuántos elementos

conforman la población, lo importante es caracterizar con

precisión cuándo un elemento pertenece o no a ella, lo

cual establece los límites de la población.

Colectivos estadísticos

Juicios

Análisis

Resultados

Medición

Inferencia

Muestra

Población

Objetivo

Datos

Juicios

Análisis

Resultados

Medición

Inferencia

Muestra

Población

ObjetivoPoblación de

muestreo

Datos

Estudios enumerativos y

estudios analíticos

En la terminología estadística:

Se dice que el estudio es de carácter enumerativo

cuando la población objetivo es concreta o finita,

es decir, puede expresarse en forma explícita.

Se trata de un estudio analítico cuando la

población objetivo es hipotética.

Estudios enumerativos

Para su aplicación requiere una población objetivo

finita (de tamaño N), es decir, bien delimitada

construida bajo criterios que nos puedan garantizar

cierta representatividad.

En tales estudios su interés radica en conocer

cantidades como el total en alguna característica, la

proporción, el promedio o alguna razón (parámetros).

Estudios analíticos

En este tipo de situaciones no interesa la población

de la que se extrae la muestra (población hipotética),

sino la relación causa-efecto definida sobre una

población más general

En tales estudios su interés radica en estudiar

relaciones causa-efecto

Es muy importante modelar relaciones causa-efecto y

probar hipótesis sobre ellas.

Datos

Dato: unidad estadística básica resultado de una

medición.

Los datos son la materia prima de la estadística y

tiene asociada una escala y un significado.

El uso de gráficos y estadísticos descriptivos

depende de las características de los datos.

Escalas de Medición

Los datos o mediciones pueden clasificarse según su

escala en:

No-métricas (Datos Discretos)

Nominales

Ordinales

Métricas (Datos Continuos)

De intervalo

De razón

Nominal

• Frecuencias y porcentajes

• Barras y pasteles

Ordinal

• Estadísticas de orden

Intervalo

• Distancias (media aritmética)

Razón

• Distancias relativas

Escala de

medición

Mediciones de Tipo Nominal

La escala de medición más baja es la escala nominal. Como

su nombre lo indica, consiste en designar o "nombrar" las

observaciones o clasificarlas en varias categorías mutuamente

excluyentes y colectivamente exhaustivas. Pueden contener la

descripción del grupo o pueden ser codificadas

numéricamente en forma arbitraria, es decir, no existe un

ordenamiento natural en la clasificación. Por ejemplo:

Marca de refresco

Candidato por el que votará

Género

Estado Civil

País de procedencia

Programa de TV preferido

Mediciones de Tipo Ordinal

Siempre que las observaciones no solo difieran de categoría a

categoría, sino que además puedan clasificarse por grados de

acuerdo con algún criterio, se dice que se miden sobre una

escala ordinal. Ejemplos:

Cambio en la calidad de la prestación de un servicio:

1. Mejor calidad

2. Igual calidad

3. Peor calidad

Nivel socio-económico:

1. Bajo

2. Medio-bajo

3. Medio

4. Medio-alto

5. Alto

Mediciones de Intervalo

La escala de intervalo es más especializada que la nominal

y la ordinal. Con esta escala, no sólo es posible ordenar las

mediciones, sino que también se conoce la distancia entre

dos mediciones cualesquiera.

Una particularidad de la escala de intervalo es que el valor

de cero es asignado arbitrariamente y por lo tanto, una

diferencia igual en la escala no corresponde con una

diferencia igual en la característica medida.

En esta escala el cero no indica una ausencia total de la

cantidad que se esta midiendo.

Ejemplo: Temperatura, fechas.

Escalas de Razón

El nivel más alto de medición es la escala de razón. En este

tipo de escala, las mediciones consisten de números que, a

igual tasa de razón sobre la escala representan igual tasa de

razón sobre la característica medida.

En esta escala el cero es absoluto.

El doble en la medición significa el doble en la característica

medida.

Mediciones de este tipo se utilizan para analizar dimensiones

físicas como peso y estatura, entre otras.

Variabilidad y estadística

Variabilidad: fluctuaciones en los datos que resultan

de la medición de algún proceso. O, dicho de otra

forma, es la discrepancia observada entre las

mediciones.

La variabilidad está presente en los procesos. El

estudio, cuantificación e interpretación de la

variabilidad es competencia de la estadística.

Variabilidad y estadística

La variabilidad puede ser de dos tipos:

La asociada a causas atribuibles, que conocemos

por experiencia ya que difiere substancialmente

en alguna época, temporada, etc.

La asociada con el azar, es una variabilidad

natural, que no sabemos a que se deba y por eso

decimos que es no explicada.

Medidas descriptivas para el

análisis exploratorio e inicial de

datos

Estadística Descriptiva:

Organización y Presentación de datos

Tablas:

Proporcionan información a través de conteos.

Gráficos:

Proporcionan información fuertemente a través de la

impresión visual.

Estadísticos Descriptivos:

Valores numéricos que proporcionan información

sobre el “comportamiento de los datos”.

Herramientas de organización datos

Nominales

Tablas de Frecuencias

–Frecuencias absolutas (número de casos)

–Frecuencias relativas (proporción de casos)

Herramientas de organización datos

Ordinales

ADICIONAL a herramientas para datos nominales:

•Tablas de frecuencia

–Frecuencias acumuladas (número acumulado de casos)

–Frecuencias relativas acumuladas (proporción

acumulada de casos)

Herramientas de organización de datos en

escalas de intervalo y de razón

Estadísticos descriptivos:

Medidas de tendencia central

Media aritmética

Mediana

Moda

Medidas de dispersión

Rango

Varianza

Desviación estándar

Medidas Tendencia Central

Las medidas de tendencia central, también conocidas

como medidas de posición central, nos informan sobre los

valores medios de la serie de datos. Entre los principales

indicadores se encuentran:

•Media aritmética

•Mediana

•Moda

Media aritmética

La media aritmética (también llamada promedio o

simplemente media) de un conjunto finito de números es

el valor de una serie de datos cuantitativos que se obtiene

a partir de la suma de todos sus valores dividida entre el

número total de datos.

Una muestra con 𝒏 (minúscula) observaciones, tiene una media 𝒙 .

Una población con 𝑵 (mayúscula) elementos tiene una media 𝝁 .

Media aritmética

• Si constituyen las realizaciones de una

variable aleatoria entonces la media aritmética

(muestral) es:

• Es el número que se obtiene al dividir la suma de todos

los valores de la variable entre el número total de

observaciones.

1 2, , , nx x x

1

n

i

i

x

xn

Mediana

• Si constituyen las realizaciones, ordenadasascendentemente, de una v.a. entonces la mediana es elelemento en la posición central.

• Es el valor de la serie de datos que se sitúa justamente en elcentro de la muestra (un 50% de valores son inferiores y otro50% son superiores).

• No presentan el problema de estar influido por los valoresextremos, pero en cambio no utiliza en su cálculo toda lainformación de la serie de datos.

(1) (2) ( ), , , nx x x

𝑥 =

𝑥 𝑛+1 2 𝑆𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟

𝑥𝑛 2 + 𝑥 𝑛 2 +1

2 𝑆𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟

Moda

• La moda (Mo) es el elemento que aparece con más

frecuencia en los datos.

• Es posible que en algunas ocasiones se presente dos

valores con la mayor frecuencia, lo cual se denomina

bimodal o en otros casos más de dos valores, lo que se

conoce como multimodal.

Algunas consideraciones de la

media aritmética

Aunque la media aritmética es la medida de tendenciacentral más simple y más utilizada, hay ocasiones en lasque la mediana es más adecuada para describir latendencia central de un conjunto de datos.

Lo más positivo de la media es que en su cálculo seutilizan todos los valores de la serie, por lo que no sepierde ninguna información.

Sin embargo, presenta el problema de que su valor sepuede ver muy influido por valores extremos, que seaparten en exceso del resto de la serie. Estos valoresanómalos podrían condicionar en gran medida el valor dela media, perdiendo ésta representatividad.

Medidas de Dispersión

Las medidas de dispersión, también llamadas medidas de

variabilidad, muestran la variabilidad de una distribución,

indicando por medio de un número, si las diferentes

puntuaciones de una variable están muy alejadas de la

media aritmética.

• Rango

• Varianza

• Desviación estándar

• Coeficiente de variación

Rango

• La medida más simple es el rango.

• El rango mide la amplitud de los valores de la muestra y

se calcula por diferencia entre el valor más elevado y el

valor más bajo.

𝑹 = 𝒅𝒂𝒕𝒐 𝒎𝒂𝒚𝒐𝒓− 𝒅𝒂𝒕𝒐 𝒎𝒆𝒏𝒐𝒓

Varianza

• Mide la distancia existente entre los valores de la serie de

datos y la media.

• La varianza siempre será mayor que cero.

• Mientras más se aproxima a cero, más concentrados

están los valores de la serie alrededor de la media.

• Por el contrario, mientras mayor sea la varianza, más

dispersos están.

• Sus unidades son las de la variable original al cuadrado.

VarianzaVarianza poblacional

𝜎2 = 𝑋𝑖 − 𝜇 2𝑁

𝑖=1

𝑁

Donde:

𝜇 = 𝑀𝑒𝑑𝑖𝑎 𝑃𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑁 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑋𝑖 = 𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖 𝑒𝑛 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑋

Varianza muestral

𝑠2 = 𝑋𝑖 − 𝑥 2𝑛

𝑖=1

𝑛 − 1

Donde:

𝑥 = 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎

𝑋𝑖 = 𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖 𝑒𝑛 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑋

Desviación estándar

Se calcula como la raíz cuadrada positiva de la varianza.

Posee la propiedad de medir la variabilidad en las unidades

originales de la variable de interés.

Desviación estándar poblacional

𝜎 = 𝜎2 Desviación estándar muestral

𝑠 = 𝑠2

Coeficiente de variación (CV)

Se calcula como cociente entre la desviación estándar y el

valor absoluto de la media aritmética.

𝐶𝑉 =𝜎

𝜇 ∗ 100

𝑐𝑣 =𝑠

𝑥 ∗ 100

Coeficiente de variación (CV)

Se utiliza cuando se quiere comparar el grado de dispersión

de dos distribuciones que no vienen dadas en las mismas

unidades o que las medias no son iguales. Es invariante

ante cambios de escala.

Cuanto mayor es CV mayor es la dispersión y menor la

representatividad de la media.

El valor del CV es igual a 0 cuando no existen diferencias

entre los puntos, resultando entonces una distribución

totalmente homogénea.

Representación gráfica de

datos

Herramientas de organización datos

Nominales

Gráficos

–Gráfica de barras

–Gráfico de pastel

–Polígonos de frecuencias

Herramientas de organización datos

Ordinales

Gráficos

–Polígonos de frecuencias acumuladas

–Gráfica de barras

–Gráfico de pastel

–Polígonos de frecuencias

Herramientas de organización de datos

en escalas de intervalo y de razón

Gráficos:

–Histograma

–Diagrama de dispersión

–Diagrama de Caja (Box-Plot)

–Diagrama de Tallo y Hojas (Stem-and LeafDiagram)

–Diagrama de puntos

Coeficiente de Correlación Muestral

Coeficiente de Correlación r de Pearson

El coeficiente de correlación muestral “r” es aquél que se

utiliza cuando se determina estudiar si existe relación entre

2 variables.

No es utilizado para predecir el valor de una variable

partiendo de otra.

Coeficiente de Correlación r de Pearson

• La correlación indica la fuerza y la dirección de unarelación lineal entre dos variables aleatorias.

• Se considera que dos variables cuantitativas estáncorrelacionadas cuando los valores de una de ellasvarían sistemáticamente con respecto a los valoreshomónimos de la otra:

• Si tenemos dos variables (x y y), existe correlación si alaumentar los valores de x lo hacen también los de y(correlación positiva) y viceversa .

• La correlación entre dos variables no implica, por símisma, ninguna relación de causalidad.

Diagramas de dispersión

Supuestos:

El coeficiente de Correlación de Pearson parte de los

siguientes supuestos:

• X y Y son variables aleatorias.

• No existe una variable explicativa y otra explicada.

• Existe una relación lineal entre las variables, la cual

está medida por el coeficiente de correlación.

Propiedades del coeficiente r de Pearson

• El valor de r no depende de cuál de las dos variables estudiadas

es x y cual es y.

• El valor de r es independiente de las unidades en las cuales x y y

estén medidas.

• Los valores que puede tomar el coeficiente: -1 ≤ r ≤ 1.

• r = 1 si y sólo si todos los pares (xi, yi) quedan en una línea recta

con pendiente positiva

• r = -1 si y sólo si todos los pares (xi, yi) quedan en una línea recta

con pendiente negativa.

• El cuadrado del coeficiente de correlación muestral da el valor del

coeficiente de determinación que resultaría de ajustar el modelo

de regresión lineal simple.

Interpretación del valor r de Pearson

Valor r Interpretación

r = 1Existe una correlación directa y perfecta entre las variables

0.7 < r < 1r>0.7 y r<1

Existe una correlación directa y fuerte entre las variables

0 < r ≤ 0.7

r>0 y r ≤ 0.7

Existe una correlación directa y baja entre las variables

r = 0No existe una correlación entre las variables

-0.7 ≤ r <0

r <0 y r ≥-0.7

Existe una correlación baja e inversa entre las variables

-1 <r < -0.7

r <-0.7 y r ≥-1

Existe una correlación fuerte e inversa entre las variables

r = -1Existe una correlación perfecta e inversa entre las variables

Correlación

En términos muestrales la correlación están dadas por:

Cuando trabajamos con parejas de variables y nos interesa

determinar el nivel de relación o asociación lineal que existe

entre ellas, debemos recurrir al cálculo de la covarianza

1

ˆ ,ˆ ˆ, y ,

1

n

i i

i

x y

x x y yCov x y

Cov x y Corr x yn s s

1

ˆ ,ˆ ˆ, y ,

1

n

i i

i

x y

x x y yCov x y

Cov x y Corr x yn s s

Prueba de hipótesis para r

Partiendo del supuesto de que la distribución conjunta de las variables

X, Y es la distribución normal bivariada. Sea:

H0: = 0

vs

H1: 0

es el coeficiente de correlación lineal poblacional

Estadístico de prueba:

Regla de decisión; se rechaza H0 con un nivel de significancia de si

21

2

r

nrt

2 ,2/ ntt

Tablas de Contingencia

Cuando se trabaja con variables categóricas, los datos se

organizan en tablas de doble entrada.

Cada entrada representa un criterio de clasificación (variable

categórica).

Como resultado de la clasificación, las frecuencias aparecen

organizadas en casillas.

Las tablas de contingencia son utilizadas para analizar la -

nominales u ordinales –dependencia o independencia entre

variables cualitativas

Por ejemplo: se desea clasificar una muestra de personas por su

género, por sus preferencias políticas, nivel de ingresos, entre

otros.

Tabla r x c general

La tabla de contingencia se define por el número

de niveles que posee cada una de las características

que se están analizando.

Por ejemplo si se tienen dos características (Fuma

y Género) y cada uno tiene dos niveles, entonces

tendríamos una tabla de contingencia 2 x 2.

Tablas r x c general

leve mod sev … c Totales

0-10 n11 n12 n12 . n1c n1.

11-30 n21 n22 n23 . n2c n2.

31-70 n31 n32 n33 . n3c n3.

… . . . . . .

r nr1 nr2 nr3 . nrc nr.

Totales n.1 n.2 n.3 . n.c N

Característica B

Car

acte

ríst

ica

A

Frecuencias

Marginales

Estadísticos

Para determinar si dos variables categóricas se encuentran

relacionadas debemos utilizar alguna medida de

asociación, preferiblemente acompañada de su

correspondiente prueba de significancia.

Existe una amplia variedad de procedimientos estadísticos

diseñados para evaluar el grado de asociación entre dos

variables categóricas (nominales y ordinales) en

diferentes tipos de situaciones.

Prueba de Hipótesis

Si las dos características (variables) de

clasificación son independientes, entonces:

Ho: Existe independencia entre las variables

Ha: No existe independencia entre las variables

Chi cuadrado

Proporciona un estadístico propuesto por Pearson que

permite contrastar la hipótesis de que los dos criterios de

clasificación utilizados (dos variables categóricas) son

independientes.

Se basa en la comparación de las frecuencias observadas

con las frecuencias esperadas.

El estadístico chi cuadrada valdrá cero cuando las

variables sean completamente independientes (frecuencias

observadas=frecuencias esperadas)

Chi cuadrada

La regla general para obtener la frecuencia

esperada de cualquier celda está dada por:

Frecuencia esperada = (Total de la columna) x (Total del renglón)

Total de observaciones

Frecuencia esperada = . .j i

ij

n ne

N

Chi cuadrada

Estadístico de prueba

Donde la suma se extiende a

Si con ν = (r –1)(c – 1) grados de

libertad, se rechaza la hipótesis nula de

independencia y se concluye que las variables

categóricas están relacionadas.

2

,

2

2

2

1 1

c rij ij

j i ij

n e

e

Correlación para datos nominales

El estadístico Chi cuadrado de Pearson permite contrastar la

hipótesis nula de independencia en una tabla de contingencia , pero

no nos dice nada sobre la fuerza de la asociación entre las

variables estudiadas.

Para seleccionar una medida concreta hay que tomar en cuenta el

tipo de variable estudiada y la hipótesis que nos interesa

contrastar.

Las medidas nominales sólo aprovechan información nominal.

Únicamente informan del grado de asociación existente , no de

la dirección o naturaleza de tal asociación.

Correlación para datos nominales

Coeficiente de contingencia:

Toma valores entre 0 y 1, pero difícilmente llega a 1.

Su valor máximo depende del número de filas y columnas.

Un coeficiente de cero significa independencia.

Un coeficiente que alcanza su valor máximo indica asociación

perfecta.

Phi :

En tablas de contingencia (2x2) toma valores entre 0 y 1. Su valor

es idéntico al r de pearson.

En tablas donde una variable tiene más de 2 categorías phi puede

tomar valores más grandes que 1 (no recomendable).

En algunas ocasiones en los paquetes estdísticos toma valores

negativos (error).

Correlación para datos nominales

V de Cramer:

Incluye una ligera modificación de phi

Nunca excede el valor de 1.

En tablas de contingencia (2x2) su valor es idéntico al de phi.

Correlación para datos Ordinales

Con datos ordinales ya tiene sentido hablar de la

dirección de la relación.

Una relación positiva indica que valores altos de una

variable se asocian con valores altos de la otra. Y, los

valores bajos, con los valores bajos.

Una relación negativa indica que los valores altos de una

variable se asocian con los valores bajos de la otra, y los

valores bajos con los altos.

Correlación para datos Ordinales

El coeficiente de correlación de Pearson es una

medida de asociación lineal especialmente

apropiada para estudiar la relación entre variables

cuantitativas (de intervalo y razón).

El coeficiente de correlación de Spearman es una

medida de asociación lineal para estudiar la

relación que existe entre variables cualitativas

ordinales.

Correlación para datos Ordinales

Gamma:

Uno de los coeficientes más conocidos es gamma de

Goodman y Kruskal

Toma valores entre -1 y 1

Si la relación entre dos variables es perfecta y positiva

gamma=1

Si la relación entre dos variables es perfecta y negativa

gamma=-1

Si las variables son independientes gamma=0

Correlación para datos Ordinales

d de Somers:

Cuando una de las variables se considera independiente

(X) y la otra dependiente(Y)

Tau –b de Kendall

Toman valores entre -1 y 1 sólo en tablas de contingencia

cuadradas y si ninguna frecuencia marginal vale cero.

Tau –c de Kendall

Toman valores entre aproximadamente -1 y 1 sea cual sea

el número de filas y de columnas en las tablas de

contingencia.

Correlación cualitativa por cuantitativa

El coeficiente de correlación eta sirve para cuantificar el

grado de asociación existente entre una variable

cuantitativa (medida en escala de intervalo o razón) y

una variable categórica (medida en escala nominal u

ordinal) .

Se trata de un coeficiente que no supone linealidad y

cuyo cuadrado puede interpretarse como la proporción de

varianza de la variable cuantitativa que esta explicada por

la variable categórica.

Resumen

Variable 1 Variable 2 Coeficiente

Cuantitativa-razón Cuantitativa-razón r de Pearson

Cualitativa-nominal Cualitativa-nominal V de Cramer

Cualitativa-ordinal Cualitativa-ordinal Spearman

Cualitativa-

(nominal, ordinal)

Cuantitativa-

(Intervalo, razón)Eta