Trabajo Final AED
-
Upload
juan-antonio-roldan-diaz -
Category
Documents
-
view
243 -
download
0
description
Transcript of Trabajo Final AED
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 1/13
TRABAJO FINAL AED
DIP. ESTADÍSTICA
RESAMPLINGMétodos de estimación basados
en el remuestreo
Juan Antonio
Roldán Díaz
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 2/13
Índice:
Introducción…………………………………………………..1
Jackknife………………………………………………………..1
Jackknife con R……………………………………….2
Ejemplos de Jackknife…………………………….4
Bootstrap……………………………………………………….5
Estimación Bootstrap del error estándar…6
Intervalos de confianza Bootstrap…………..7
Bootstrap con R………………………………………8
Ejemplos de Bootstrap……………………………9
Referencias…………………………………………………..11
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 3/13
Introducción:
El término remuestreo (resampling) es aplicado a aquellas técnicas de
simulación empleadas en la teoría de probabilidades y la inferenciaestadística que, a partir de los datos observados generan nuevas muestrassimuladas con el propósito de examinar los resultados obtenidos en esasremuestras.
Estas técnicas pretenden resolver el problema de la fiabilidad estadística
sin necesidad de suponer que los datos gozan de una distribución normal.
Otras dos características de estos métodos son, en primer lugar el que, en
general, apenas si requieren suposiciones sobre la población modelo dedonde se extrae la muestra; en segundo lugar, que el número de
remuestreos (es decir, de sucesivas muestras que se extraen de la muestra
dada) suele ser muy elevado, lo que requiere del uso del ordenador.
A continuación vamos a ver dos de estos métodos, Jackknife y Bootstrap.
Jackknife:
El Jackknife es un método para estimar el error muestral. Fue introducido
por Quennouille (1949) y Tukey (1958) como una nueva propuesta sobre
la estimación estadística no paramétrica. Su nombre que viene a significar
“navaja” fue ideado por Tukey y por ser una técnica no suele ser
traducido.
La estimación Jackknife de , que se denomina normalmente seobtiene normalmente de la siguiente forma:
Obtenemos una muestra de tamaño , , de una
variable aleatoria .
Se obtienen muestras de tamaño (por supresión de
un valor distinto de la serie de datos independientes con
reemplazamiento), para cada una de las k muestras esto da
Pag. 1
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 4/13
lugar a donde la componente -ésima
de nuestra muestra original de tamaño a sido suprimida.
Estas muestras no necesariamente tienen que ser de tamaño
aunque así venga descrito el Jackknife en la mayoría de
la literatura estadística, sino que también pueden ser
definidas por un tamaño , siendo un número real
menor que .
Se calcula el estadístico deseado para cada nueva muestra.
Así obtendremos estadísticos con los que podremos
estimar el estadístico de nuestra muestra original .
Las estimaciones de y del error muestral se efectúan
mediante las siguientes fórmulas:
Jackknife con R:
Como hemos visto en la introducción para trabajar con técnicas de
remuestreo es necesario el ordenador, hay software específicos que
aplican algunas de estas técnicas, pero a hacer una función utilizando Rcon el que se podrá ir viendo paso por paso que operaciones se están
realizando.
Jackknife<-function(x,est){
x<-x[!is.na(x)]
M<-array(rep(x,times=length(x)),
dim=c(length(x),length(x)))
for(i in 1:length(x)) M[i,i]<-NA
vest<-c(1:length(x))
MC<-c(1:length(x))
Pag. 2
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 5/13
print("Remuestras Jackknife")
for(j in 1:length(x)){
for(k in 1:length(x)){
MC[k]<-M[k,j]
}
vest[j]<-est(MC[!is.na(MC)])
print(MC[!is.na(MC)])
}
estj<-mean(vest)
errorj<-sqrt(((length(vest)-1)/length(vest))*
sum((vest-estj)^2))
errorm<-sqrt((1/(length(x)*(length(x)-1)))*sum((x-
est(x))^2))
out<-data.frame(c(errorm,est(x)),c(errorj,estj),
row.names=c("Error Estandar","Estadistico enestudio"),check.names = FALSE)
names(out)<-c("Est. Muestrales","Jackknife")
out
}
Esta función necesita dos variables para funcionar, la primera, un vector
llamado “x” que va a ser nuestra muestra inicial, y, la segunda, una
función numérica llamada “est” que va a ser el estadístico que queremos
estimar.
Una vez introduzcamos el vector con la muestra extraída y la función del
estadístico, esta función primero remplaza el vector “x” por un nuevo
vector con todos los valores de “x” excepto los posibles valores faltantes.
Después, genera una matriz “M” cuyas columnas son veces el vector “x”
(siendo “x” el vector original sin valores faltantes y el numero de
elementos que lo forman) y a esta matriz se le eliminan los valores de la
diagonal, teniendo de esta forma en cada columna un nueva muestra detamaño . Cada una de estas muestras son almacenadas
temporalmente en el vector “CM”, y se muestran por pantalla, previo a
esto, ya se a aplicado la función “est” a cada “CM” y se a almacenado cada
resultado en un vector llamado “vest”.
Una vez se tiene un vector con el valor del estadístico de cada nueva
muestra, se calcula la media de este para obtener al que he llamado
“estj”, y una vez aquí, solo hay que definir al que he llamado “errorj” y
el error estándar del estimador al que he llamado “errorm” . Por último,
Pag. 3
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 6/13
hay que hacer que R de una salida presentable de estos valores para lo
que he utilizado la función data.frame.
Ejemplos de Jackknife:
Obtener la mediana y el error estándar para los valores de Y del primer
conjunto de los datos de Anscombe.
Para el mismo conjunto de datos, obtener los resultados para el recorrido
intercuartílico.
En este caso primero hay que definir la función del estadístico del
recorrido intercuartílico (RIQ).
Pag. 4
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 7/13
Bootstrap:
Este método fue propuesto por Bradley Efron en 1979. El
término bootstrap procede de la expresión inglesa to pull oneself up byone's bootstrap (que podría traducirse por levantarse mediante el propioesfuerzo), la cual está tomada de una de las Aventuras del BarónMunchausen, personaje ficticio del siglo dieciocho creado por el escritorRudolph Erich Raspe, en la cual el barón había caído al fondo de un lagoprofundo y, cuando creía que todo estaba perdido, tuvo la idea de irsubiendo tirando hacia arriba de los cordones (bootstrap) de sus propiasbotas.
Esta propuesta recoge la idea de sacar conclusiones de la población dedonde proceden los datos, muestreando repetidamente dichos datos.
En realidad con el nombre de bootstrap se conocen una variedad de
técnicas basadas en la simulación que se usan para unas tareas
estadísticas particulares y que resultan una revisión y mejora del método
Jackknife.
Más formalmente los pasos básicos en la estimación bootstrap son los
siguientes (HincKley, 1988) (Lunneborg, 2001):
Extraer una sola muestra de la población (generalmente
pequeña) de tamaño , .
Construir una distribución de probabilidad empírica, , a
partir de la muestra, asignando una probabilidad de a cada
punto, . Esta es la función de distribución
empírica (FDE) de , la cual es el estimador no paramétricode máxima verosimilitud de la función de distribución de la
población, . Es decir:
A partir de la FDE, , se extrae una muestra aleatoria simple
de tamaño con reposición.
Se calcula el estadístico de interés , a partir de esa
“remuestra”; llamémosle al resultado.
Pag. 5
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 8/13
Se repiten los dos últimos pasos en ocasiones, donde es
un número “grande”.
Teóricamente, la magnitud de en la práctica depende de las
pruebas que se van a aplicar a los datos. Se ha afirmado que,
B debería ser de entre 50 a 200 para estimar el error típico de
, y de al menos de 1000 para estimar intervalos de confianza
alrededor de por el método del percentil (Efron y Tibshirani,
1986, 1993). Sin embargo, esto tiene reducida importancia en
la actualidad, pues los ordenadores son tan rápidos que no
tiene sentido tener un afán especial en trabajar con valores
bajos de y, por otra parte, nunca es pernicioso que sea
demasiado grande. Por lo general, con 1000 se suelenconseguir buenos resultados y valores de superiores a 5000
ya no agregan ninguna ventaja.
Construir una distribución de probabilidad a partir de los
valores , asignando una probabilidad de a cada punto,
. Esta distribución es la estimación bootstrap de
la distribución muestral de .
Como resultado de este proceso se pueden derivar al menos 3
aplicaciones prácticas:
Valorar el sesgo y el error muestral de un estadístico
calculado a partir de una muestra.
Establecer un intervalo de confianza para un parámetro
estimado.
Realizar pruebas de hipótesis respecto a uno o másparámetros poblacionales.
Estimación Bootstrap del error estándar:
El bootstrap fue introducido como un método basado en cálculos
intensivos mediante ordenador para estimar el error muestral de un
estadístico. Tiene la ventaja sobre los métodos tradicionales de no
Pag. 6
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 9/13
requerir formulaciones teóricas y poder emplearse para cualquier
estimador, por complejo que éste sea.
Explícitamente, la estimación bootstrap del error muestral de un
estadístico es como sigue:
Se extraen remuestras bootstrap independientes de la
función de distribución empírica, .
Se computa el estadístico de interés en cada una de las
remuestras, obteniendo .
Se estima el error muestral de mediante la desviación
estándar de la función de distribución obtenida a través de los
, es decir a través de .
Es fácil ver que en la medida que , , la estimación
bootstrap del error estándar, es mejor conforme aumenta el número de
réplicas bootstrap.
Intervalos de confianza Bootstrap:
Existen 3 métodos a través de los cuales se pueden construir intervalos de
confianza bootstrap:
Método de aproximación normal
Método de los percentiles
Método de los percentiles corregidos.
El primero de ellos utiliza la misma estructura de los procedimientos
paramétricos en la construcción de intervalos de confianza. Si es posible
Pag. 7
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 10/13
asumir que el estadístico se distribuye según la curva normal pero el
cálculo del error típico resulta analíticamente difícil o no existe fórmula
para su cálculo, entonces podemos emplear la distribución muestral
bootstrap para estimar el error típico e insertarlo en la correspondiente
expresión del IC paramétrico.
El método del percentil hace uso literal de la idea básica del bootstrap, es
decir se aproxima a . La idea es muy simple: un intervalo con
un nivel de confianza incluye todos los valores de entre los
percentiles y de la distribución de .
El método del percentil conserva la esencia no-paramétrica del enfoque
bootstrap y libera al usuario de las asunciones de la estadística
paramétrica.
El tercer método, es similar al procedimiento anterior; lo único que
cambia es el modo de calcular los percentiles para obtener el intervalo.
Según Efron y Tibshirani (1993), donde se explica en detalle cómo se
computan los percentiles corregidos, este método es el más adecuado, yaque corrige la asimetría que pudiera presentar la distribución muestral del
estadístico.
Bootstrap con R:
Al igual que para el método Jackknife voy a definir una función con el
programa R para poder ver algunos ejemplos de lo que hace esta técnica ypoder compararlos con Jackknife y con las estimaciones muestrales.
Bootstrap<-function(x,est,B=1000){
x<-x[!is.na(x)]
M<-array(rep(x, times=B),dim=c(length(x),B))
for(i in 1:B){
for(j in 1:length(x)){
M[j,i]<-x[runif(1, min=1, max=(length(x)+1))%/%1]
}}
vest<-c(1:B)MC<-c(1:length(x))
Pag. 8
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 11/13
for(k in 1:B){
for(l in 1:length(x)){
MC[l]<-M[l,k]
}
vest[k]<-est(MC)
}estb<-mean(vest)
errorb<-sqrt((1/(B-1))*sum((vest-estb)^2))
errorm<-sqrt((1/(length(x)*(length(x)-1)))*
sum((x-est(x))^2))
out<-data.frame(c(errorm,est(x)),c(errorb,estb),
row.names=c("Error Estandar","Estadistico
en estudio"),check.names = FALSE)
names(out)<-c("Est. Muestrales","Bootstrap")
out
}
Como se puede observar la estructura del programa es muy similar a la del
programa creado para el método Jackknife, la principal diferencia entre
estos es la forma de calcular la matriz “M” que en este caso en vez de
eliminar los valores de la diagonal para obtener muestras de tamaño
, se remplazan todos los valores de cada columna de la matriz por
una componente del vector “x” obtenida aleatoriamente mediante la
función runif(1, min=1, max=(length(x)+1))%/%1 que calcula la parte
entera de un valor generado aleatoriamente a través de una distribución
uniforme de mínimo 1 y máximo .
Ejemplos de Bootstrap:
Para ver claramente como influye el valor de en los resultados y poder
comparar los resultados de este método con los del anterior vamos a
realizar de nuevo una estimación para la mediana y el error estándar para
los valores de Y del primer conjunto de los datos de Anscombe, con
50, 100, 200 y 1000.
Pag. 9
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 12/13
Para finalizar, hacer bootstrap para esta misma muestra pero utilizandocomo estimador el recorrido intercuartílico y realizando 10000 remuestras
de la original.
Pag. 10
5/16/2018 Trabajo Final AED - slidepdf.com
http://slidepdf.com/reader/full/trabajo-final-aed 13/13
Referencias:
Material facilitado por el profesor.
http://www.eio.uva.es/~tapia/jackknif.pdf
http://nitro.biosci.arizona.edu/courses/EEB581-
2006/handouts/random.pdf
http://www.sld.cu/galerias/pdf/sitios/revsalud/tesis_de_resamplin
g.pdf
http://www.ugr.es/~proman/PDF/Simulacion_R.pdf
http://www.uned.es/experto-metodos-avanzados/
Pag. 11