Vidal “Conceptos Estad´ısticos”

“ConceptosEstadısticos”

Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias

ProbabilidadCondicional

Distribucionesconocidas

Remuestreo

InferenciaEstadıstica

Prediccion yErrores dePredicion

Remuestreo

“Conceptos Estadısticos”

Carlos Valle [email protected]

Departamento de Informatica -Universidad Tecnica Federico Santa Marıa

Santiago, Marzo 2009

1 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades

3 Variables Aleatorias

4 Probabilidad Condicional

5 Distribuciones conocidas

6 Remuestreo y Distribuciones de remuestreo

7 Inferencia Estadıstica

8 Prediccion y Errores de Predicion

9 Remuestreo

2 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades







9 Remuestreo

3 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Introduccion

Estadıstica es la ciencia de recolectar, organizar y obtenerconclusiones de los datos

El diseno experimental y la teorıa del muestreo se encargande producir y recolectar datos de manera apropiada.

La estadıstica descriptiva se encarga de organizar y describirlos datos.

Inferencia Estadıstica se encarga de obtener conclusiones apartir de los datos.

4 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Introduccion (2)

En este Capıtulo repasaremos las ideas basicas de la teorıade probabilidad, ya que es la herramienta principal de lainferencia estadıstica.

Tambien discutiremos un tipo de remuestreo estadıstico paragenerar datos, y como esto se enlaza con la teorıa deprobabilidades para obtener conclusiones de los datos.

5 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades







9 Remuestreo

6 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Experimento Aleatorio

Debe satisfacer las siguientes condiciones:

Es posible conocer previamente todos los posibles resultados(espacio muestral) asociados al experimento.

Es imposible predecir el resultado del mismo antes derealizarlo.

Es posible repetirlo bajo las mismas condiciones iniciales unnumero ilimitado de veces.

El espacio muestral Ω de un experimento es el conjunto detodos sus posibles resultados. Ω = C,S.

7 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Experimento Aleatorio (2)

Debe satisfacer las siguientes condiciones:

Por ejemplo, en el lanzamiento de una moneda. En ellanzamiento de un dado Ω = 1,2,3,4,5,6Algo que podrıa o no ocurrir, se denomina evento. Porejemplo, que la moneda salga cara, o que el dado arroje unnumero par.

Un evento A es representado por un subconjunto del espaciode los resultados posibles. Para los ejemplos anteriores,A = C y A = 2,4,6

8 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Definicion Clasica de Probabilidad

Si todos los resultados en Ω son equiprobables, laprobabilidad de A es la cantidad de resultados quepertenecen a A, el que se denota por M(A), dividido por elnumero total de resultados M.

P(A) =M(A)

M

Si todos los sucesos son equiprobables la probabilidad deC en la moneda es 1/2 y la probabilidad de 1,4 es 1/3.

El supuesto de equiprobabilidad limita esta definicion,aunque la hace bastante util cuando se utiliza seleccionaleatoria para seleccionar los elementos que formaran partede una poblacion

Lo discutiremos mas adelante.

9 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Definicion Frecuentista de Probabilidad

Recalcando que debemos repetir un experimento aleatoriobajo condiciones identicas. Cuando el numero de ensayos deun experimento es incrementado de manera indefinida, lafrecuencia relativa de la ocurrencia del evento se aproxima auna constante.

Si m es el numero de ensayos y m(A) es numero de vecesque ocurre A, entonces

P(A) = limm→∞

m(A)m

La ley de los grandes numeros establece que este lımiteexiste. A medida que crece el numero de ensayos lafluctuacion de este valor decrece.

10 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Definicion Subjetiva de Probabilidad

El supuesto de que cada ensayo debe ser repetidoidenticamente hace complicada la aplicacion de la definicionanterior en la practica.

La probabilidad de un evento es la medida del grado decreencia de que el evento ocurrira.

Por ejemplo si existe o no vida extraterrestre (0-1).

11 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Axiomas de Probabilidad

Probabilidad se define como una funcion desde subconjuntos deΩ a los reales R, que satisface los siguientes axiomas:

No-negatividad: P(A)≥ 0

Aditividad: Si A⋂

B = /0⇒ P(A⋃

B) = P(A)+P(B)P(Ω) = 1

Las tres definiciones anteriores de probabilidad satisfacenestos axiomas.

12 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Probabilidad Condicional e Independencia

La probabilidad de que el evento A ocurra podrıa estarinfluenciada por la ocurrencia del evento B.

La probabilidad que ocurra A dado que B ocurre es llamadoprobabilidad condicional y se denota por P(A|B).

P(A|B) =P(A

⋂B)

P(B)

, con P(B) > 0.

Dos eventos A y B son independientes si la ocurrencia de unono depende del otro: P(A|B) = P(A) y consecuentementeP(B|A) = P(B), por lo tanto P(A

⋂B) = P(A)P(B).

13 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades







9 Remuestreo

14 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Variables Aleatorias

Una variable aleatoria X es una funcion desde el espaciomuestral a los reales:

X : Ω→ R

Ejemplo: Consideremos un experimento aleatorio donde selanza una moneda 2 veces, el espacio muestral esΩ = (C,C),(C,S),(S,C),(S,S)El numero de caras es una variable aleatoria definida por:

X((C,C)) = 2,X((C,S)) = X((S,C)) = 1,X((S,S)) = 0

15 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Funcion de Probabilidad

Una funcion de probabilidad p asigna a cada posiblerealizacion de x de una variable aleatoria discreta X laprobabilidad p(x) , es decir P(X=x). De los axiomas deprobabilidad se desprende que p(x)≥ 0 y ∑x p(x) = 1.

Ejemplo: El numero de caras en el lanzamiento de 2monedas (no sesgadas), es una variable aleatoria con lasiguiente funcion de probabilidad:p(0) = 1/4,p(1) = 1/2,p(2) = 1/4.

16 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribucion de Probabilidad

En variables continuas P(X = x) = 0 el concepto anterior esinutil, para compensarlo se define la distribucion deprobabilidad que representa la probabilidad como el areabajo la curva.

La funcion f : R→ R+ es llamado densidad de probabilidadde X si por cada par a≤ b

P(a < X ≤ b) =∫ b

af (x)dx

De los axiomas de probabilidad, f (x)≥ 0 y∫

∞

−∞f (x)dx = 1

Ejemplo: Consideremos la variable aleatoria X con funcion

de densidad: f (x) =

1/2 Si 0≤ x≤ 20 e.t.o.c.

17 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribucion de Probabilidad (2)

P(1/2 < X < 5/4) =∫ 5/4

1/2 1/2dx = (1/2)x|5/41/2 = 3/4

La funcion de distribucion es definida para variablesaleatorias continuas y discretas, como la funcion F que paracada x ∈ R la probabilidad de que suceso de X sea menor oigual que x:

F(x) = P(X ≤ x),x ∈ R

En el ejemplo anteriorP(1/2 < X < 5/4) = F(5/4)−F(1/2) = 3/4

18 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Entropıa

Entropıa de una variable aleatoria es la cantidad promedio deinformacion generada al observar su valor.

La informacion que provee el observar la realizacion X = xes:

H(X = x) = ln1

p(x)=− lnp(x)

Ejemplo: Consideremos un experimento aleatorio donde laprobabilidad de que al lanzar una moneda salga cara es iguala 0.9, y la variable aleatoria X con X(C) = 1 y X(S) = 0.

19 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Entropıa (2)

La informacion generada al observar x = 1?H(x = 1) =− ln0.9 = 0.105La informacion generada al observar x = 0?H(x = 0) =− ln0.1 = 2.303Intuitivamente el observar cara provee menos informacionque observar sello, ya que es mucho mas comun.Si repitiesemos este experimento muchas veces, ¿Cuantainformacion se en promedio?

H(X) =−∑i

p(xi) lnp(xi)

−(0.9ln0.9+0.1ln0.1) = 0.325.La entropıa promedio de un lanzamiento justo(P(C) = 0.5,P(S) = 0.5) es−(0.5ln0.5+0.5ln0.5) = 0.693.

20 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Esperanza

Para una variable discreta la esperanza o media es definidocomo:

E(X) = ∑x

xp(x), y E[h(X)] = ∑x

h(x)p(x)

Para una funcion h arbitraria h : R→ REjemplo, consideremos la variable aleatoria del lanzamientode las 2 monedas que analizamos anteriormente:

E(X) = 1/2 ·1+1/4 ·2+1/4 ·0

21 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Esperanza (2)

Para una Variable continua

E(X) =∫

∞

−∞

xf (x)dx, y E[h(X)] =∫

∞

−∞

h(x)f (x)dx

Ejemplo, consideremos la variable aleatoria continua de lapagina 18:

E(X) =∫ 2

0

12

dx =12

x|20 =12·2− 1

2·0

El valor esperado E(X) de una variable aleatoria se denotapor µ. La varianza σ2 es medida como la dispersion de losvalores respecto al promedio, es decir,

σ2 = V(X) = E(X−µ)2

La desviacion estandar σ =√

σ2 tiene la ventaja de estar enal misma dimension de X.

22 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades







9 Remuestreo

23 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribucion de probabilidad condicional

Para una v.a. discreta X definimos la funcion de probabilidadcondicional

p(x|C) = P(X = x|C) =P(X = x

⋂C)

P(C)

Ejemplo: Definamos la v.a. X que representa la suma de losvalores al lanzar 2 dados, X((3,2)) = 5.

Consideremos el evento C en el que ambos dados obtienenresultado par.

P(C) = 1/4.P(X = 6⋂

C) = 1/18

24 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribucion de probabilidad condicional (2)

P(X = 6|C) =P(X = 6

⋂C)

P(C)=

1/181/4

=29

E(X|C) = ∑x xp(x|C) = 8.

Para una v.a. continua X, la densidad condicional f (x|C) es

f (x|C) =

f (x)/P(C) si x ∈ C0 e.t.o.c.

25 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribucion de probabilidad conjunta eindependencia

En un par de v.a. discretas (X,Y) esta determinadaunivocamente por la funcion de probabilidad p : R→ R

p(x,y) = P((X,Y) = (x,y)) = P(X = x,Y = y)

Por axionas de probabilidad p(x,y) > 0 y ∑x ∑y p(x,y) = 1La funcion de probabilidad marginal pX(x) se deriva de lafuncion de probabilidad conjunta

pX(x) = p(X = x) = ∑y

P(X = x,Y = y) = ∑y

p(x,y)

La funcion de probabilidad condicional de X dado Y es

p(x|y) =P(X = x,Y = y)

P(Y = y)=

p(x,y)pY(y)

26 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Para variables continuasLa funcion f : R2→ R es la densidad de probabilidad de(X,Y) si ∀a≤ b,∀c≤ d

P(a < X ≤ b,c < Y ≤ d) =∫ b

a

∫ d

cf (x,y)dxdy

De los axiomas de probabilidad se desprende1 f (x,y)≥ 02

∫∞

−∞

∫∞

−∞f (x,y)dxdy = 1

La distribucion marginal de X obtenida de la distribucionconjunta

fX(x) =∫

∞

−∞

f (x,y)dy

y la funcion de densidad condicional de X dado Y = y es

f (x|y) =f (x,y)fY(y)

27 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Los eventos X = x e Y = y son independientes si solo si

P(X = x,Y = y) = P(X = x)P(Y = y)

Dos v.a X,Y son independientes si solo si

p(x,y) = pX(x)pY(y)∀(x,y)

Y como consecuencia p(x|y) = pX(x), y p(y|x) = pY(y)Esto tambien se cumple para variables continuas cambiandola funcion de densidad por la funcion de probabilidad.

28 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Ley de probabilidad total

Sea B1,B2, . . . ,Bs una particion de Ω con Bi⋂

Bj = /0∀i 6= j,ademas

⋃si=1 Bi = Ω.

De los axiomas de probabilidad se tiene que

P(A) =s

∑i=1

P(A|Bi)P(Bi)

Ejemplo: Una caja contiene 3 bolas blancas y una roja,sacamos una bola al azar y luego una segunda, sin poner laprimera de vuelta en la caja. ¿Cual es la probabilidad de quela segunda bola sea roja?

P(R2) = P(R2|B1)P(B1)+P(R2|R1)P(R1)= 1/3 ·3/4+0 ·1/4

= 1/4

29 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Regla de Bayes

Sea B1,B2, . . . ,Bs una particion de Ω con Bi⋂

Bj = /0∀i 6= j.

La regla de Bayes se deriva de los axiomas de probabilidad

P(Bi|A) =P(A|Bi)P(Bi)

∑j P(A|Bj)P(Bj)

Ejemplo: Un diagnostico medico para la presencia o ausenciade una rara enfermedad D que solo ocurre en el 0.1 % de lapoblacion. P(D)=0.001 (probabilidad apriori). T+ significaque el test salio positivo, T− que el test salio negativo.

30 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Regla de Bayes (2)

T+ T−

D 0.95 0.05D 0.02 0.98

¿Cual es la probabilidad de que un paciente tenga laenfermedad y el test salga positivo?

P(D|T+) =P(T+|D)P(D)

P(T+|D)P(D)+P(T+|D)P(D)

=.95 · .001

.95 · .001+ .02 · .999= .045

31 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades







9 Remuestreo

32 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribuciones discretas

un experimento aleatorio que distingue de dos resultados esllamado un experimento Bernoulli

Sus salidas generalmente se asocian a exito y fracasorespectivamente.

Sea X v.a que denota el numero de exitos de un experimentoBernoulli.

Si llamamos p a la probabilidad de exito, P(X = 0) = 1−p.P(X = 1) = p E(X) = p y σ2 = p(1−p).

33 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribuciones discretas (2)

Un numero de repeticiones identicas e independientes de unexperimento Bernoulli se denomina experimento binomial.

Y es la v.a que denota el numero de exitos en m repeticiones.

Cualquier secuencia de y exitos tiene probabilidad

py(1−p)m−y

existen(m

y

)secuencias diferentes formas de generar y exitos

en m intentos.

La distribucion de probabilidad de Y ∼ (m,p) es

p(y) =(

my

)py(1−p)m−y,p = 0,1, . . . ,m

E(Y) = µ = mp y σ2 = mp(1−p)34 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribuciones discretas (3)

La distribucion multinomial es una generalizacion de labinomial donde el resultado tiene n≥ 2 categorıas.Sea yi el numero de exitos de la categorıa i, sea pi laprobabilidad de obtener la categorıa i-esima en cada ensayo(∑n

i=1 pi).La distribucion de probabilidad conjunta Y1,Y2, . . . ,Yn parauna secuencia de m ensayos es

P(Y1 = y1,Y2 = y2, . . . ,Yn = yn) =m!

y1!y2! . . .yn!py1

1 py22 . . .pyn

n

Una v.a Y tiene distribucion Poisson (Y ∼ Po(µ)) conparametro µ si tiene distribucion

p(y) =µy

y!e−µ,y = 0,1,2, . . .

µ ∈ R+. E(Y) = V(Y) = µ35 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribuciones continuas

Sea Y ∼ U(α,β) v.a con distribucion Uniforme

f (y) =

1

β−α,si α≤ y≤ β

0 e.t.o.c.

E(Y) = α+β

2 , V(Y) = (β−α)2

12

Sea Y ∼ N(µ,σ2), v.a. que se distribuye Normal con funcionde distribucion

f (y) =e−(y−µ)2/(2σ2)

σ√

2π,y ∈ R,σ > 0

En especial µ = 0,σ2 = 1 se conoce como la NormalEstandar, y comunmente se denota por Z ∼ N(0,1)

36 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribuciones continuas (2)

La distribucion Binormal es una generalizacion de la normalpara el par de variables aleatorias(X,Y)∼ N2(µx,µy,σ

2x ,σ

2y ,ρ) con distribucion conjunta

P(x1,x2) =1

2πσ1σ2√

1−ρ2exp(

−z2(1−ρ2)

)donde

z≡ (x1−µ1)2

(σ21)

− 2ρ(x1−µ1)(x2−µ2)σ1σ2

+(x2−µ2)2

σ22

ρ es el coeficiente de correlacion −1≤ ρ≤ 1Para n≥ 2 variables aleatorias (Y1,Y2, . . . ,Yn) existe ladistribucion normal multivariada (Y1,Y2, . . . ,Yn)∼ Nn(µ,∑),donde µ = (µ1,µ2, . . . ,µn) es el vector de medias y ∑ es unamatriz de nxn con varianzas y covarianzas.

37 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Una v.a. T tiene una Distribucion exponencial con tasa λ > 0si tiene una densidad de probabilidad

f (t) = λe−λt, t ≥ 0

T es una v.a. que se asocia a tiempo de falla para artefactos,o tiempo de sobrevivencia de organismos.Con T asociamos una funcion de sobrevivencia

P(T > s) =∫

∞

sf (t)dt = e−λs

Que representa la probabilidad de sobrevivir sobre un tiempos, se caracteriza por su falta de memoria, es decir,

P(T > t + s|T > t) = P(T > s), t ≥ 0,s≥ 0

La probabilidad de sobrevivir s es la misma partiendo desdecero o de un tiempo t. Poco plausible para objetos que sevan degradando con el tiempo.

38 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Una v.a. X tiene una distribucion Beta con parametrosα > 0,β > 0 si tiene una funcion de densidad

f (x;α,β) =xα−1(1− x)β−1∫ 1

0 xα−1(1− x)β−1 dx,0≤ x≤ 1

Para α = β = 1 se reduce a una uniforme sobre el intervalo[0,1].La distribucion Beta es usada en inferencia Bayesiana conprobabilidades desconocidas.

39 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades







9 Remuestreo

40 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Remuestreo

El remuestreo busca obtener una muestra que permita hacerinferencias sobre la poblacion de interes.Las conclusiones que sacamos utilizando remuestreo tienenun error inherente, es importante estudiar cuan grande puedeser y que tan amenudo podemos obtener conclusioneserroneas.Cuando tenemos muestras de gran tamano, o un grannumero de posibles resultados solo tenemos 2 opciones pararealizar inferencias

1 La distribucion tiene una forma estandar que permite hacerderivaciones matematicas exactas para la distribucion de lamuestra.

2 Usaremos una distribucion lımite para aproximar ladistribucion de la muestra que nos interesa. Esta distribucionlımite podrıa derivar algunas caracterısticas de la distribucionoriginal.

41 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribuciones de una muestra

Hay poblaciones en las que se conoce la distribucion de unestadıstico de la muestra. Por ejemplo, consideremos X.E(X) = µ.V(X) = σ2/n.

Si la distribucion de X es N(µ,σ2), entonces la distribucionde X es N(µ,σ2/n).El estadıstico Fraccion (Fr), es decir, la fraccion de exitosdentro de la muestra con X variable 0−1.

42 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Distribuciones de una muestra (2)

El numero de exitos en una muestra de tamano n es la v.a.Y ∼ B(n,p), donde p es la fraccion de exito de la poblacionoriginal.

µy = np y σ2y = np(1−p).

Fr = Y/n. µFr = p y σ2Fr = p(1−p)/n.

Debido a que P(Fr = fr) = P(Y = n fr), la distribucion de lamuestra se puede derivar directamente de la distribucion deY .

Ejemplo: Consideremos una muestra de tamano 10 de unapoblacion con fraccion de exitos p = 0.8. ¿Cual es ladistribucion de Fr, la fraccion de exitos?. La distribucion sederiva de Y ∼ B(10,0.8).

43 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Convergencia en Probabilidad

En la practica confiamos en distribuciones aproximadas, lasque se denominan resultados asintoticos.

Para entender la idea, veremos definiciones relacionadas conla convergencia de secuencias de variables aleatorias.

Una secuencia Xm de variables aleatorias converge enprobabilidad a una constante c si, para cada numero positivoε y η, existe un entero positivo m0 = m0(ε,η) tal que

P(|Xm− c|> ε) < η,m≥ m0

Ejemplo: Consideremos la secuencia de v.a Xm condistribuciones de probabilidad P(xm = 0) = 1−1/m.P(xm = m) = 1/m. Entonces Xm converge en probabilidada cero.

44 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Convergencia distribucion

Una secuencia Xm converge en distribucion a una v.a. Xcon funcion de distribucion F(X) si ∀ε > 0, existe un enterom0 = m0(ε), tal que en cada punto donde F(X) es continua

|Fm(x)−F(x)|< ε,m≥ m0

donde Fm(x) es la funcion de distribucion de xm.

Ejemplo: Consideremos la secuencia de v.a Xm condistribuciones de probabilidad P(xm = 1) = 1/2+1/(m+1)y P(xm = 2) = 1/2−1((m+1),m = 1,2, . . . .

P(X = 1) = 1/2,P(X = 2) = 1/2 es llamado la distribucionlımite de Xm

45 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Teorema del lımite central

Si (x1,x2, . . . ,xn) es una muestra aleatoria de unadistribucion de probabilidad con media finita µ y varianzafinita σ2, y x = 1/m∑xi entonces

x−µσ/√

mD−→ N(0,1)

Observemos que el teorema no dice nada acerca de la tasade convergencia a la distribucion normal.

Fr ≈ N(p,p(1−p)/n),si np≥ 5,n(1−p)≥ 5

Si p es cercano a cero o uno, podemos usar la convergenciade la distribucion binomial a una distribucion Poisson(

ny

)py(1−p)n−y D−→ (np)y

y!e−np

46 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades







9 Remuestreo

47 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Inferencia Estadıstica

Hemos analizado la relacion entre la poblacion conocida a lamuestra observada.

Nos falta analizar a partir de la muestra observada lapoblacion desconocida.

Analizaremos distintas formas de hacer inferencia

48 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Inferencia Frecuentista

Para los frecuentistas, la inferencia podrıa ser interpretada yevaluada a partir de su comportamiento a lo largo derepeticiones hipoteticas bajo las mismas condiciones.

Esto se divide en estimacion (que valor o rango de valoresson plausibles para un parametro dede la poblacion), y test(si una hipotesis relacionada con un posible valor de unparametro desconocido podrıa ser aceptado o rechazadoobservando una muestra).

49 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Estimacion Puntual

Aca tratamos de dar un valor a un parametro desconocido dela poblacion que se denota por θ, y es el parametro a estimar.

Si G es el estimador de θ, entonces el error de estimacion esla v.a. G−θ, la cual queremos que sea cercana a cero.

Se define el sesgo del estimador

Bθ = Eθ(G−θ) = Eθ(G)−θ

50 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Estimacion Puntual (2)

Si Eθ(G) = θ, se dice que el estimador es insesgado

Se define la varianza del estimador

Eθ(G−Eθ(G))2

El error cuadratico medio

Mθ(G) = Eθ(G−θ)2

El cual se puede descomponer

Mθ(G) = B2θ(G)+Vθ(G)

El estimador µ es el que minimiza el error cuadratico de lamuestra.

51 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Estimacion por intervalos

Es un estimador de θ, de la forma (Gl,Gu)ancho esperado del intervalo Eθ(Gu−Gl)Probabilidad que el intervalo contenga el verdadero valor

Pθ(Gl < θ < Gu)≥ 1−α

(Gl,Gu) es el intervalo de confianza del 100(1−α)%La media de una muestra de tamano n se distribuyeX ∼ N(µ,σ2/n).Estandarizando

X−µσ/√

n∼ N(0,1)

La probabilidad de que X sea mayor que una desviacionestandar muestral mas µ desconocido es

P(X > µ+σ√n) = P

(X−µσ/√

n> 1)

= P(Z > 1) = 0.1587

52 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Estimacion por intervalos (3)

AdemasP(X− σ√

n< µ)

Por lo tanto la probabilidad de que el intervalo (X− σ√n ,∞)

contenga valor verdaderos de µ es 0.8413. Esto se llamaintervalo de confianza por la izquierda.

En general, intervalo de confianza por la izquierda(X− zα

σ√n ,∞), donde P(Z > zα) = α

Intervalo de confianza por la derecha (−∞,X + zασ√n)

Intervalo por ambos lados (X− zα/2σ√n ,X + zα/2

σ√n)

53 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Test de Hipotesis

Un test es un procedimiento estadıstico para generar unaeleccion entre dos hipotesis acerca del valor de un parametrode la poblacion θ

Una de ellas se conoce como la hipotesis nula y se denotapor H0 la cual tiene el “beneficio de la duda”.

Las posibilidades son rechazar o no rechazar H0. Solamentese rechaza H0 si hay fuerte evidencia en su contra (cuando elestadıstico de prueba G esta en la region critica C).

54 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Test de Hipotesis (2)

Existen dos tipos de errores:

Error Tipo I: Rechazar H0 cuando es verdadera.

Error Tipo II: Aceptar H0 cuando es falsa.

El error tipo I se considera mas serio.

El estadıstico G, estara relacionado con el parametro de lapoblacion en cuestion, por ejemplo, si es µ, G = X

Por ejmplo, el siguiente test de hipotesis:

H0 : θ≥ θ0,H1 : θ < θ0

Si G es mas bajo que θ0 conduce al rechazo de H0, por lotanto la region crıtica C = (−∞,cu], esto se conoce como testdel lado izquierdo.

55 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Un criterio de calidad del test es su conjunto potencia β

β(θ) = Pθ(Rechazar H0) = Pθ(G ∈ C)

Nos gustarıa tener β(θ) pequeno para θ ∈ H0 y largo cuandoθ ∈ H1

En la practica se restringe al maximo el error tipo I, llamadotest de significancia α

maxθ∈H0

β(θ)≤ α

Por lo tanto, el maximo alcanzado en θ = θ0 se reduce a larestriccion B(θ0)≤ α, o directamente B(θ0) = α, paradistribuciones muestrales continuas.

56 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Consideremos una poblacion con media µ con X ∼ N(µ,σ2)y el test

H0 : µ≥ µ0,H1 : µ < µ0

Tenemos el estadıstico X bajo el supuesto µ = µ0, es decirX ∼ N(µ,σ2/n)

α = Pµ0(X ≤ cu) = P(

X−µ0

σ/√

n≤ cu−µ0

σ/√

n

)Como P(Z ≤−zα) = α

cu−µ0

σ/√

n=−zα

Por lo tanto cu = µ0− zασ√n

57 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Verosimilitud

Si y = (y1, . . . ,yn) son observaciones independientes de ladensidad de probabilidad f (y|θ), donde θ es el vector deparametros que deseamos estimar

L(θ|y) ∝

n

∏i=1

f (yi|θ)

La funcion de verosimilitud mide la probabilidad de que losdiferentes θ hayan generado el y observado.

Queremos encontrar el θ que maximiza L.

58 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Verosimilitud (2)

Aplicando logaritmo

l(p|y) =n

∑i=1

(yi ln(p)+(1− yi) ln(1−p))

Si en 10 lanzamientos 7 fueron cara

l(p) = 7ln(p)+3ln(1−p)

Derivandoδlδp

=7p− 3

1−p= 0

p = 0.7

59 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Analisis Probit

Ahora el parametro a estimar depende del dato xi, es decirpi = g(xi)Asumimos que

pi = Φ(α+βxi)

, donde Φ es la normal estandar.Para el ejemplo anterior

l(α,β) =n

∑i=1

(yi ln(Φ(α+βxi)+(1− yi) ln(1−Φ(α+βxi)))

Debemos maximizar respecto de α y β para obtener elestimador de maxima verosimilitudObservemos que si la forma de la funcion de log-verosimilitudcerca del maximo es plana, provee poca informacion, encambio, si es empinada provee mucha informacion acerca deθ

60 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Analisis Probit (2)

La expansion de Taylor de la funcion de log-verosimilitud es

l(θ) = l(θ)+(θ− θ)δlδθ

+12(θ− θ)2 δ2l

δθ2 + . . .

El maximo esta en θ = θ, en este punto δlδθ

= 0

l(θ)≈ l(θ)+12(θ− θ)2 δ2l

δθ2

− δ2lδθ2 se conoce como Informacion de Fisher

Evaluando en θ tenemos la informacion observada (noconfundir con entropıa)

61 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Inferencia Bayesiana

Podemos inferir el valor un parametro desconocido θ de ladistribucion de los datos que tenemos.

Se parte con la probabilidad a priori, y se combina con lamuestra para obtener la probabilidad a posteriori usando laregla bayesiana

P(Mi|D) =P(D|Mi)P(Mi)

∑j P(D|Mj)P(Mj)

Mi son los diferentes modelos de los datos, es decir, lashipotesis relacionadas con el verdadero valor del parametrode la distribucıon de probabilidad que se quiere buscar.

Notese que estamos asumiendo que el resto de losparametros de la distribucion estan fijos.

62 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Inferencia Bayesiana (2)

Consideremos 2 hipotesis sobre la probabilidad de cara p enel lanzamiento de una moneda. M1 : π = 0.8 y M2 : π = 0.4Observamos 4 caras en 10 intentos. la probabilidad de esteresultado se puede obtener bajo las dos hipotesis.

AprioriP(Mi)

ProbabilidadP(y = 5|Mi)

A posterioriP(Mi|y = 5)

M1 : π =0.8

0.7 0.027 0.239

M1 : π =0.4

0.3 0.201 0.761

En general la distribucion de probabilidad de un parametrocon conjunto de valores continuos, se puede estimarutilizando Bayes

f (θ|y) =f (y|θ)f (θ)∫

Ωf (y|θ)f (θ)δθ

63 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Supongamos que para el ejemplo anterior no tenemosinformacion a priori, podemos reemplazarla por unadistribucion uniforme sobre Ω = [0,1]Para este caso especial

f (p|y) =f (y|p)f (p)∫ 1

0 f (y|p)f (p)δp

Si observamos que de 10 lanzamientos hay 7 caras,entonces f (y|p) = p7(1−p)3. Como f (p) = 1 eldenominador queda∫ 1

0p7(1−p)3dp =

11320

La densidad a posteriori es

f (p|y) = 1320p7(1−p)3

64 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


El calculo de la integral es computacionalmente caro. Debidoa esto se utiliza una clase especial de a prioris.

Asumamos que nuestra distribucion a priori para p esp∼ Beta(4,6)

f (p) =p3(1−p)5∫ 1

0 p3(1−p)5dp∫ 10 p3(1−p)5dp = 1/504, tenemos que

f (p) = 504p3(1−p)5. Multiplicado con la probabilidadresulta 504p10(1−p)8, ası el denominador es∫ 1

0504p10(1−p)8 =

2846189

f (p|y) = 831402p10(1−p)8, es decir Beta(11,9).

65 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


En general si tenemos una muestra binomial de tamano n y rexitos, las combinamos con la distribucion a priori Beta(l,k) yobtenermos una distribucion a posteriori Beta(l+ r,k+m− r)Una vez calculada la distribucion a posteriori, podemosestudiar para que valor de p es maximal, o el intervalo deconfianza de valores posibles.

66 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades







9 Remuestreo

67 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Prediccion

El valor de una v.a. Y depende de la salida de unexperimento aleatorio.

Antes del experimento el valor de la v.a. es desconocido, sinembargo, muchas veces nos gustarıa predecir el futuro valorque la v.a. tendra.

El supuesto comun es asumir que Y depende de un vectoraleatorio X = (X1,X2, . . . ,Xn)En regresion lineal Yi ∼ N(β0 +β1xi,σ

2ε)

Si Y es una variable 0-1, Y ∼ B(1,Φ(β0 +β1xi))

68 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Prediccion (2)

Meta AIDA:

T = (x1,y1),(x2,y2), . . .(xn,yn) V modelo V prediccion

Si Y es numerica hablamos de regresion

Si Y toma valores discretos en un conjunto no ordenado,hablamos de clasificacion

Supuestos sobre la distribucion de Y V sesgo inductivo

Es lo que se llama Especificacion del modelo.

Ejemplo: Supongamos que Yi ∼ N(µ = 2.0+0.5xi,σ2ε = 1),

es decir,E(Y) = 2.0+0.5x

69 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Prediccion (3)

70 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Prediccion (4)

71 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Error de prediccion en regresion

Para un T fijo, podemos calcular el error cuadratico medio

E[(Y− f (x|T))2]

Descomponiendo

E[(Y− f (x|T))2] = [f (x)− f (x|T)]2 +E[(y− f (x))2]

Donde f (x)≡ E[Y|x]El segundo termino de la suma es desconocido, por tanto nosconcentraremos en el primero.

Para una realizacion particular T la calidad del estimador f ,podemos calcular la esperanza a lo largo de la muestra ydescomponerla en sesgo varianza

ET [(f (x)− f (x|T))2] = (f (x)−ET)2 +ET [(f (x|T)−ET [f (x|T)])2]

72 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Error de prediccion en regresion (2)

La esperanza en esta descomposicion se mide respecto detodas las muestras posiblesPor Ejemplo, podemos generar 1000 muestras(T1,T2, . . . ,T1000) de 10 pares (x,y),xi = 1,2, . . . ,10

Yi ∼ N(µ+0.5xi,σ2ε = 1)

x f (x) E(f1) E(f2) E(f3) V (f1) V (f2) V (f3)1 2.50 2.48 2.48 2.49 0.34 0.61 0.842 3.00 2.99 2.98 2.98 0.25 0.27 0.293 3.50 3.49 3.49 3.48 0.18 0.18 0.334 4.00 3.99 4.00 3.99 0.13 0.20 0.325 4.50 4.50 4.50 4.50 0.10 0.23 0.256 5.00 5.00 5.00 5.01 0.10 0.22 0.237 5.50 5.50 5.51 5.52 0.13 0.19 0.288 6.00 6.01 6.01 6.02 0.17 0.18 0.319 6.50 6.51 6.51 6.51 0.24 0.28 0.3010 7.00 7.01 7.01 7.00 0.33 0.62 0.8

73 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Predicciones de fj(4)

74 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Error de prediccion en regresion (4)

Generemos una muestra

Yi ∼ N(µ = 2+0.5xi +0.02x2i ,σ

ε

2 = 1)

Sesgo cuadrado Varianza E.C.Mn 10 100 1000 10 100 1000 10 100 1000

lineal(f1) .021 .022 .022 .197 .022 .002 .218 .043 .024cuadratico(f2) .000 .000 .000 .299 .037 .004 .299 .037 .004

cubico(f3) .001 .000 .000 .401 .054 .006 .401 .054 .006

75 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Error de prediccion en clasificacion (1)

En problemas de clasificacion, asumimos un conjunto noordenado discreto de clases y ∈ y1, . . . ,yLAnalicemos para L = 2,y ∈ 0,1

E[y|x]≡ f (x) = P(y = 1|x) = 1−P(y = 0|x)

La idea es construir una regla que prediga y(x) ∈ 0,1, paracada clase y y para cada entrada x

El error se mide como la tasa de error P(y 6= y)

yB(x) = I(f (x)≥ 1/2)

Donde I(·) es la funcion indicatriz sobre el argumentoverdadero.

76 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Error de prediccion en clasificacion (2)

Significa que x va a estar colocado en la clase con mayorprobabilidad.

La probabilidad del error P(yB 6= y)≡ error irreductibleanalogo a E.C.M. en regresion.

Usando la muestra T , estimamos f (x|T) de f (x) paraconstruir la regla de decision

y(x|T) = I(f (x|T)≥ 1/2)

77 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Descomposiciones del error de clasificacion

Entre las tecnicas mas conocidas para descomponer el error declasificacion estan:

Descomposicion Sesgo-Varianza de Friedman paraClasificadores

Descomposicion Aditiva del Error de Breiman

78 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Descomposicion Sesgo-Varianza de Friedman paraClasificadores

Friedman descompone la tasa de error en una partereductible y otra irreductible

P(y(x) 6= y(x))= |2f (x)−1|P(y(x) 6= yB(x))+P(yB(x) 6= y(x))

El primer sumando es reductible, y agrega error cuandof (x) < 1/2, el cual equivale a la probabilidad de dicho evento

Ejemplo: Supongamos P(y = 1|x) = f (x) = 0.8 yE(f )(x) = 0.78

f (x)≥ 1/2⇒ yb = 1

El error de la regla de bayes P(y = 0|x) = 1−0.8 = 0.2

79 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Descomposicion Sesgo-Varianza de Friedman paraClasificadores (2)

f (x) difiere de Bayes si es menor que 1/2Asumamos que P(f (x) < 1/2) = 0.1, por lo tanto,P(y(x) 6= yb(x)) = 0.1Podemos calcular el error de la siguiente manera

P(y(x) 6= yb(x)) = P(f (x)≥ 1/2)P(y = 0|x)+P(f (x) < 1/2)P(y = 1|x)= 0.9 ·0.2+0.1 ·0.8

La descomposicion de Friedman nos muestra que este errorpuede ser descompuestoEl error irreductible: P(yB(x) 6= y(x)) = 0.2Asumimos que P(y(x) 6= yb(x)) = 0.1|2f (x)−1|= 2 ·0.8−1 = 0.6Por lo tanto la descomposicion de Friedman queda

P(y(x) 6= y(x)) = 0.6 ·0.1+0.2 = 0.26

80 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Contrario a regresion, una mala estimacion f (x) de f (x) nonecesariamente lleva a una ubicacion diferente respecto dela regla de Bayespbb: positive boundary bias

Figura: Lınea solida: f (x1,x2) = 1/2, lınea punteada E[f (x1,x2)] = 1/281 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Considemos las distribuciones f de la figura

Asumamos f (x) = 0.6(a) E[f (x)] = 0.6(b)E[f (x)] = 0.65

82 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Considemos las distribuciones f de la figura

En la fila superior hay nbbEn la fila inferior hay pbbAl aumentar la varianza el primero aumenta el error, elsegundo lo disminuye.

83 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo


Cuando E[f ] y f estan al mismo lado de 1/2 (nbb)1 El error de clasificacion disminuye al aumentar |E[f ]−1/2|

independiente del aumento del sesgo f −E[f ]2 Podemos reducir el error de clasificacion disminuyendo

solamente la varianza de f

Lo mas comun es el sesgo negativo en el lımite, por lo tanto,los metodos de aprendizaje que minimizan sesgo reduciendovarianza, producen nbb

84 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Descomposicion Sesgo-Varianza de Breiman paraClasificadores

Sea un clasificador agregado

yA(x) = I(E[f (x)]≥ 1/2)

Breiman define:

fA(x) = E(I(f ≥ 1/2))

Y por lo tanto,yA(x) = I(fA(x)≥ 1/2)

La primera definicion promedia la salida de los clasificadoresy elige la clase cuya salida promediada tenga la mayorprobabilidad.En la segunda definicion elegimos la clase que ha sidoseleccionada por la mayorıa.Si p(f ) es simetrica y unimodal, las dos definiciones sonequivalentes.

85 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Descomposicion Sesgo-Varianza de Breiman paraClasificadores (2)

Concentremonos en la primera definicionHemos visto que el error reductible de x es

r(x) = P(y(x) 6= y(x))−P(yB(x) 6= y(x))

Breiman le llama sesgo a la region con pbb y varianza a laregion con nbbEl sesgo de x se define

sesgo(x) = I(yA(x) 6= yB(x))r(x)

Y la varianza

var(x) = I(yA(x) = yB(x))r(x)

Por definicion r(x) = sesgo(x)+ var(x), por lo tanto

P(f (x) 6= y(x)) = sesgo(x)+ var(x)+P(yB(x) 6= y(x))

86 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Descomposicion Sesgo-Varianza de Breiman paraClasificadores: Ejemplo

Volviendo al ejemplo de la pagina 79

yA(x) = I(E[f (x)]≥ 1/2) = I(0.78≥ 0.5) = 1

El error reductible r(x) = 0.26−0.2 = 0.06

Como el clasificador agregado se encuentra en la mismaclase de la regla de Bayes tenemos

sesgo = I(yA(X) 6= yB(x))r(X) = 0 ·0.06 = 0

Yvar = I(yA(X) = yB(x))r(X) = 1 ·0.06 = 0.06

87 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Temario

1 Introduccion

2 Probabilidades







9 Remuestreo

88 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Remuestreo

Las tecnicas de remuestreo son computacionalmente caraspara hacer inferencia estadıstica.

Sin embargo, a medida que la capacidad de computoaumenta con la tecnologıa, se ha convertido en una tecnicapopular.

89 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Cross-Validation

Es una tecnica que habitualmente se utiliza para seleccionarel modelo y para estimar el error de prediccion(clasificacion oregresion)

Ya vimos que en regresion el error de prediccion se mide

EP = E(y− f )2

Estimar el error de prediccion a partir de la misma muestracon la que se genero el modelo genera un sesgo “haciaabajo”

Modelo overfitted

Una alternativa consiste en dividir los datos en una muestrade entrenamiento y una de prueba

Presenta problemas con muestras de tamano pequeno

90 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Cross-Validation (2)

El k-fold cross validation consiste en

Algoritmo 1 k fold cross validation1: Dividir los datos en k grupos de igual tamano2: for i = 1 to k do3: Entrenar el modelo con los k−1 grupos restantes4: Calcular el error de prediccion con el i-esimo grupo.5: end for

Si k = n se conoce como leave-one-out cross-validation: Unaobservacion es descartada, y se obtiene f con las n−1observaciones restantes.

91 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Cross-Validation (3)

Sea k(i) la parte que contiene la i-esima observacion, y

f−k(i)i el valor predicho de la observacion i por el modelo que

tiene la k(i) parte removida.

El E.C.M usando validacion cruzada es

PEcv =1m

m

∑i=1

(yi− f−k(i)i )2

Consideremos 50 observaciones (x,y), con X ∼ U(0,10) yY ∼ N(µ = 2+3x+1.5x2,σε = 5)

muestra leave-one-outlineal 150.72 167.63

cuadratico 16.98 19.89cubico 16.66 20.66

92 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Problematica

Hemos visto que en algunos casos podemos obtenerestadısticamente la distribucion del estadıstico muestral, o enotros, la distribucion lımite.

Sin embargo, esto no siempre puede ser obtenidoanalıticamente, y en otros casos las distribuciones lımites noayudan para ciertas muestras finitas.

Bootstrapping se presenta como una tecnica alternativa.

93 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Bootstrapping

Sea F(z) = 1m ∑

mi=1 I(xi ≤ z),−∞ < z < ∞

I es la funcion indicatriz, y x = (x1,x2, . . . ,xn) una muestraaleatoria de una poblacion con funcion de distribucion F

Aproximaremos la distribucion muestral del estadıstico t(x)sacando repetidas muestras de F

Se eligen x(r) muestras de tamano n remuestreandoindependientemente y con reemplazo desde (x1,x2, . . . ,xn)

94 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Bootstrapping (2)

Si todas las observaciones son distintas, tenemos(2n−1

n

)distintas muestras en

β =

x(r),r = 1, . . . ,

(2n−1

n

)Cada una con probabilidad multinomial

P(x(r)) =n!

j(r)1 !j(r)2 ! . . . j(r)n !

(1n

)n

j(r)i es el numero de copias de xi dentro de x(r)

Para calcular la distribucion de t(x) calculamos t(x(r)) paracada muestra bootstrap y se le asigna a cada unaprobabilidad P(x(r))Si n→ ∞ , F converge F

95 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Bootstrapping (3)

En principio habrıa que computar los estadısticos para las(2n−1n

)muestras

usando montecarlo podemos aproximar la distribucionbootstrap

Existe la version parametrica donde θ es el vector deparametros desconocidos, y bootstrap estima θ desde x

Si Fθ representa la dependencia sobre θ las muestrasbootstrap se generan desde F = F

θ

96 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Bootstrapping (4)

Ejemplo: Consideremos el coeficiente de correlacion linealρxy = σxy

σxσy

ρ tiene el mismo signo que σxy

La distribucion del estadıstico de la muestra no se puedederivar matematicamente en general.

Podemos generar 30 pares (x,y) con distribucion binormalcon ρ = 0.7

(X,Y)∼ N2(µx = 0,µy = 0,σ2x = 1,σ2

y = 1,ρ = 0.7)

Bootstrap no-parametrico: Obtener las muestras de tamano30, computar ρ y obtener la distribucion empırica.

97 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Bootstrapping (5)

Bootstrap parametrico: Hacer supuestos apropiados sobre ladistribucion conjunta de X e YPodemos construir la distribucion empırica generandomuestras de tamano 30 de

N2(x,y,s2x ,s

2y ,r)

podemos generar 1000 muestras y generar la distribucion deρ.Si queremos determinar el grado de confianza en que losintervalos hacen una buena covertura del valor real,repetimos 100 veces el siguiente procedimiento

1 Generar una muestra de tamano 302 Construir la distribucion para ρ y su intervalo de 90% de

confianza3 Determinar si ρ esta dentro del intervalo.

98 / 99


Carlos ValleVidal

Introduccion

Probabilidades

VariablesAleatorias



Remuestreo



Remuestreo

Consultas y Comentarios

99 / 99

Vidal “Conceptos Estad´ısticos”

Documents

Transcript of Vidal “Conceptos Estad´ısticos”