Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos,...

30
Elementos Básicos de Elementos Básicos de Probabilidad y Estadística Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE [email protected] Agosto 2010 http://www.cide.edu/investigadores/aparicio/metodos

Transcript of Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos,...

Page 1: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

Elementos Básicos de Elementos Básicos de Probabilidad y EstadísticaProbabilidad y Estadística

Javier AparicioDivisión de Estudios Políticos, CIDE

[email protected]

Agosto 2010http://www.cide.edu/investigadores/aparicio/metodos

Page 2: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

2

Contenido

• Variables aleatorias (VA): X• Distribución de probabilidad• Valor esperado de una VA: E(X)• Varianza de una VA:• VA discretas y continuas• Covarianza y correlación• Muestreo y estimadores• Sesgo y eficiencia de los estimadores• Propiedades de los estimadores muestrales• Teorema del Límite Central

2)( XE

Page 3: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

3

rojo 1 2 3 4 5 6 verde

1 2 3 4 5 6 7

2 3 4 5 6 7 8

3 4 5 6 7 8 9

4 5 6 7 8 9 10

5 6 7 8 9 10 11

6 7 8 9 10 11 12

X f p 2 1 1/363 2 2/364 3 3/365 4 4/366 5 5/367 6 6/368 5 5/369 4 4/36

10 3 3/3611 2 2/3612 1 1/36

Una variable aleatoria X se puede definir como la suma de los números cuando se tiran dos dados. Se define f como las frecuencias asociadas asociadas a los posibles valores de X.

Finalmente se define p, como la probabilidad de ocurrencia de cada resultado, la cual es 1/36.

Un ejemplo de distribución de probabilidad: X es la suma de dos dados

Page 4: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

4

Esta es la distribución vista gráficamente. En este ejemplo es simétrica: más alta para X igual a 7, y decreciente en ambos lados.

6

__

36

5

__

36

4

__

36

3

__

36

2

__

36

2

__

36

3

__

36

5

__

36

4

__

36

probabilidad

2 3 4 5 6 7 8 9 10 11 12 X

Un ejemplo de distribución de probabilidad: X es la suma de dos dados

1

36

1

36

Page 5: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

5

Definición de E(X), el valor esperado de X:

Notación alternativa de E(X):

E(X) = μx

Valor esperado de una variable aleatoria

El valor esperado de una variable aleatoria, también conocida como la media poblacional, es el promedio ponderado de sus valores posibles.

n

iiinn pxpxpxXE

111 ...)(

Page 6: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

6

Del ejemplo anterior, el valor esperado es 7, lo cual es obvio porque, como vimos en la gráfica anterior, la distribución es simétrica en torno a 7.

Valor esperado de una variable aleatoria

xi pi xi pi xi pi xi pi

x1 p1 x1 p1 2 1/36 2/36

x2 p2 x2 p2 3 2/36 6/36

x3 p3 x3 p3 4 3/36 12/36

x4 p4 x4 p4 5 4/36 20/36

x5 p5 x5 p5 6 5/36 30/36

x6 p6 x6 p6 7 6/36 42/36

x7 p7 x7 p7 8 5/36 40/36

x8 p8 x8 p8 9 4/36 36/36

x9 p9 x9 p9 10 3/36 30/36

x10 p10 x10 p10 11 2/36 22/36

x11 p11 x11 p11 12 1/36 12/36

xi pi = E(X) 252/36 = 7

Page 7: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

7

Definición de E[g(X)], el valor esperado de una función de X:

Para encontrar el valor esperado de una función de una variable aleatoria, se calculan todos los posibles valores de la función, ponderándolos por las probabilidades correspondientes, y sumando el resultado.

Valor esperado de una función de una variable aleatoria

n

iiinn pxgpxgpxgXgE

111 )()(...)()(

Ejemplo:

n

iiinn pxpxpxXE

1

221

21

2 ...)(

Page 8: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

8

xi pi g(xi) g(xi ) pi xi pi xi2 xi

2 pi

x1 p1 g(x1) g(x1) p1 2 1/36 4 0.11

x2 p2 g(x2) g(x2) p2 3 2/36 9 0.50

x3 p3 g(x3) g(x3) p3 4 3/36 16 1.33

… … …... ……... 5 4/36 25 2.78

… … …... ……... 6 5/36 36 5.00

… … …... ……... 7 6/36 49 8.17

… … …... ……... 8 5/36 64 8.89

… … …... ……... 9 4/36 81 9.00

… … …... ……... 10 3/36 100 8.83

… … …... ……... 11 2/36 121 6.72

xn pn g(xn) g(xn) pn 12 1/36 144 4.00

g(xi) pi 54.83El valor esperado de X2 es la suma de sus valores ponderados en la columna final. Es el valor promedio de de los valores en la columna previa, tomando las distintas probabilidades en cuenta.

Valor esperado de una función de una variable aleatoria

Page 9: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

9

Varianza poblacional de X

El valor esperado de la desviación es conocida como la varianza poblacional de X. Es una medida de dispersión de la distribución de X alrededor de su media poblacional.

La desviación estándar de X es la raíz cuadrada de su varianza poblacional.

Varianza poblacional de una variable aleatoria discreta

2)( XE2X

])[( 2XE

X

Desviación estándar de X

i

n

iinn pxpxpxXE

1

221

21

2 )()(...)()(

Page 10: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

10

xi pi xi – (xi – )2 (xi – )2 pi

2 1/36 –5 25 0.69

3 2/36 –4 16 0.89

4 3/36 –3 9 0.75

5 4/36 –2 4 0.44

6 5/36 –1 1 0.14

7 6/36 0 0 0.00

8 5/36 1 1 0.14

9 4/36 2 4 0.44

10 3/36 3 9 0.75

11 2/36 4 16 0.89

12 1/36 5 25 0.69

5.83

Para obtener la varianza, primero es necesario sustraer la media a cada valor de x. Segundo, este resultado se eleva al cuadrado y finalmente se multiplica por la probabilidad de ocurrencia de cada x.

Varianza poblacional de una variable aleatoria discreta

Page 11: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

11

Dos variables aleatorias X y Y son independientes si y sólo si:

E[f(X)g(Y)] = E[f(X)] E[g(Y)]

para cualquier función de f(X) y g(Y).

Caso especial: si X y Y son independentes,

E(XY) = E(X) E(Y)

Independencia de dos variables aleatorias

Dos variables X y Y son independientes si y sólo si, dada cualquier función de f(X) y g(Y), el valor esperado del producto de f(X)g(Y) es igual al valor esperado de f(X) multiplicado por el valor esperado de g(Y).

Caso especial, el valor esperado de XY es igual al valor esperado de X multiplicado por el valor esperado de Y, si y sólo si X y Y son independientes.

Page 12: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

12

000

)()()()(

)()())((

YYXX

YX

YXYX

EYEEXE

YEXEYXE

))(( ),cov( YXXY YXEYX

Covarianza y correlación

Si dos variables son independientes, su covarianza es cero.

Para demostrarlo se reescribe la covarianza como el producto de de los valores esperados de sus factores. Esto se puede hacer porque X y Y son independientes.

El valor esperado de ambos factores es cero porque E(X) = X y E(Y) = Y. E(X) = X y E(Y) = Y porque X y Y son constantes. Por lo tanto la covarianza es cero.

Covarianza

Page 13: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

13

Covarianza y correlación

Cov(X, Y) es una medida de asociación insatisfactoria entre X y Y porque depende de las unidades de medida (o escala) de X y Y.

Una mejor medida es el coeficiente de correlación porque no es dimensional:

El numerador posee las unidades de medida de X y Y, mientras que la varianza de X y Y en el denominador posee las unidades de medida al cuadrado de estas varibles.

Si X y Y son independientes, XY será igual a cero porque XY será igual a cero.

Si hay una asociación positiva entgre ellos, XY, y por tanto XY, será positiva.

Si hay una exacta relación lineal positiva, XY tomará su valor máximo de 1.

Similarmente,si hay una relación negativa, XYserá negativa con un valor mínimo de –1.

Correlación

22YX

XYXY

Page 14: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

14

X

Variables aleatorias continuas

altura

55 60 70 7565

Las variables aleatorias continuas pueden tomar cualquier valor infinitesimal en un rango.

Un ejemplo es la temperatura de una habitación. Se asume que ésta puede situarse entre cualquier valor entre 55 y 75 grados Fahrenheit con la misma probabilidad en todo el rango.

En el caso de variables aleatorias continuas, la probabilidad de ser igual a un valor en el rango siempre es infinitesimal. Por esta razón, sólo se puede hablar de la probabilidad de una variable aleatoria continua se encuentre dentro de un rango de valores dados.

Page 15: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

15

55 60 70 75X

65

0.05

Variables continuas aleatorias

Densidad de probabilidad

f(X)

f(X) = 0.05 para 55 X 75f(X) = 0 para X < 55 y X > 75

Soponga que se requiere calcular la probabilidad de la temperatura entre 65 y 70 grados. Para obtenerla, se debe calcular el área debajo de la función de densidad entre 65 y 70.

La altura del rectángulo es 0.05 y su ancho es 5, por lo tanto su área es 0.25.

0.25

Page 16: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

16

Suponga que tenemos una variable aleatoria X, y deseamos estimar su (hasta ahora desconocida) media poblacional X…

Un primer paso es obtener una muestra de n observaciones: {X1, …, Xn}.

Aún antes de conseguir la muestra, Xi contiene valores aleatorios, los cuales provendrán de la distribución de X, pero no sabemos qué valores tomarán.

De modo que podemos pensar en variables aleatorias en DOS niveles:

1. La variable aleatoria X por si misma

2. El componente aleatorio de la muestra {X1, …, Xn}: error muestral.

Muestreo y estimadores

Page 17: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

17

Muestreo y estimadores

Una vez que tenemos una muestra de n observaciones {X1, …, Xn}, podemos usar fórmulas matemáticas para estimar la (desconocida) media poblacional, X.

Esta fórmula es un estimador. Un estimador típico es la media muestral:

…Este estimador es también una variable aleatoria porque depende de las valores aleatorios {X1, …, Xn}.

nXXn

X ...1

1

Page 18: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

18

Densidad de

probabilidad de X

X XXX

Densidad de probabilidad de X

Como se ve en el gráfico, X tiene la misma media que X. Sin embargo, la varianza ed la distribución de X es más pequeña que la de X.

Muestreo y estimadores

Page 19: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

19

Función de densidad de probabilidad

X

estimator B

¿Cómo elegir entre los estimadores A y B? La respuesta es usar el estimador más eficiente, es decir, aquel con la varianza más pequeña puesto que éste tiende a ser más acertado.

En el diagrama el estimador más eficiente es B.

Sesgo y eficiencia

estimador A

Page 20: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

20

Trade off entre sesgo y eficiencia (varianza)

Supongamos que hay un estimador alternativo de la población, uno insesgado, y otro sesgado pero con menor varianza. ¿Cómo escoger entre ambos?

Función de densidad de probabilidad

estimador B

estimador A

Page 21: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

21

Una medida ampliamente utilizada es la media del error cuadrado del estimador, definido como el valor esperado del cuadrado de las desviaciones del estimador respecto del verdadero parámetro de la población.

Función de densidad de probabilidad

Z

sesgo

222 )()()(MSE ZZZEZ

estimador B

Trade off entre sesgo y eficiencia (varianza)

Page 22: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

22

Varianza:

Estimador:

Covarianza:

Estimador:

Estimadores muestrales de varianza, covarianza y correlación

.1

1

1

22

n

iiX XX

ns

.1

1

1

n

iiiXY YYXX

ns

YXXY YXEYX ),(cov

22)var( XX XEX

Page 23: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

23

Correlación:

Estimador:

Estimadores de varianza, covarianza y correlación

•El coeficiente de correlación de la población XY para dos variables X y Y es definida por su covarianza dividida por la raíz cuadrada del producto de sus varianzas. •El coeficiente de correlación muestral, rXY, se obtiene de reemplazar la covarianza y las varianzas por sus estimadores.

22YX

XYXY

22

2222

11

11

11

YYXX

YYXX

YYn

XXn

YYXXn

ss

sr

YX

XYXY

Page 24: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

24

Consistencia

Un estimador de la población es consistente si satisface dos condiciones:

(1)Posee un límite probabilístico (plim), de modo que su distribución se vuelva un pico conforme el tamaño de la muestra tienda a infinito, y

(2)El pico de esta distribución se localice en el “verdadero valor” del parámetro poblacional.

Propiedades de los estimadores: consistencia

Page 25: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

25

En este ejemplo, el estimador cumple con ambas condiciones…Una condición suficiente de consistencia es que el estimador debe ser insesgado y su varianza debe tender a cero conforme n se incrementa.

50 100 150 200

n = 50000.8

0.4

0.2

0.6

Función de densidad de probabilidad de X

Propiedades de los estimadores: consistencia

Page 26: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

26

Sin embargo, la condición es suficiente, no necesaria. Es posible que un estimador esté sesgado en una muestra finita, pero el sesgo disminuye conforme el tamaño de muestra aumenta.

n = 100

n = 1000

n = 20

Función de densidad de probabilidad de Z

Z

n = 100000

Propiedades de los estimadores: consistencia

Page 27: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

27

Tamaño de muestra y margen de error

Page 28: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

28

Si una variable aleatoria X tiene una distribución normal, su media muestral, X, también tendrá una distribución normal.

Sin embargo, ¿qué ocurre si no conocemos la verdadera distribución de X? El teorema del límite central resuelve el problema.

El TLC establece que: si las observaciones Xi de una muestra son obtenidas de manera independiente (aleatoria) de la misma distribución y, si ésta distribución tiene una media y varianza poblacional finita la distribución de X convergerá hacia una distribución normal.

Es decir, que aunque la distribución de X sea desconocida, la distribución de sus estimadores muestrales tenderá a ser normal conforme N aumente.

Esto implica que tanto los estadísticos t como los intervalos de confianza serán aproximadamente válidos, siempre que la muestra sea suficientemente grande.

Teorema del Límite Central

Page 29: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

29

Teorema del Límite Central

0

5

10

15

-0.6 -0.4 -0.2 0 0.2 0.4 0.6

El gráfico muestra cómo, conforme n aumenta, la distribución de la media de X converge hacia una distribución normal.

n = 100

Page 30: Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Agosto 2010 .

Referencias

• Esta presentación sigue a:“Random variables and sampling theory”, en Dougherty (2002). Introduction to Econometrics, 2nd ed.

• Algunos applets relacionados:• A Central Limit Theorem Applet• Sample from a population • Sampling distributions

30