Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M....

23
Estadística Computacional M. González Facultad de Medicina. Universidad de Extremadura M. González (UEx) Estadística Computacional 1 / 23

Transcript of Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M....

Page 1: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Estadística Computacional

M. González

Facultad de Medicina. Universidad de Extremadura

M. González (UEx) Estadística Computacional 1 / 23

Page 2: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Índice

Modelos Lineales GeneralizadosBioensayos: Modelos Dosis-Respuesta

Modelo Probit.Modelo Logit.Modelo Log-Log Complementario.

Regresión Logística

Análisis de SupervivenciaFunciones de Supervivencia y de Riesgo.Estimación de la Función de Supervivencia.

Método de Tablas de Vida.Método de Kaplan-Meier.

Comparación de Curvas de Supervivencia.

M. González (UEx) Estadística Computacional 2 / 23

Page 3: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados

Variable Respuesta: YVariables Regresoras: X1,X2, . . . ,Xk

Distribución de Probabilidad Variable Respuesta:Modelo Lineal: Distribución NormalModelo Lineal Generalizado: Distribución de la Familia Exponencial(Binomial, Poisson, Normal, Exponencial,...)

Relación Variable Respuesta - Variables Regresoras:Modelo Lineal: E[Y|X1 = x1, . . . ,Xk = xk] = β0 + β1x1 + . . .+ βkxk

Modelo Lineal Generalizado:g(E[Y|X1 = x1, . . . ,Xk = xk]) = β0 + β1x1 + . . .+ βkxk

g Función de Enlace (Link Function)

M. González (UEx) Estadística Computacional 3 / 23

Page 4: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: Ejemplo

Tendencia de la mortalidad: Para poblaciones grandes la probabilidad de queun individuo elegido al azar muera de una enfermedad dada en un instantedeterminado es pequeña. Si suponemos que la muerte de diferentes individuosson sucesos independientes, entonces el número de muertos, Y , durante unperíodo de tiempo fijo puede ser modelizado por una distribución de Poisson

fλ(y) =λye−λ

y!y = 0, 1, . . .

siendo λ el número medio de muertos por período de tiempo.La tendencia de la mortalidad puede ser modelizada tomando v.a.independientes Y1, . . . ,Yn que sean el número de muertes ocurridas enintervalos de tiempos sucesivos numerados por i = 1, . . . , n. Sea λi = E[Yi],i = 1, . . . , n.

M. González (UEx) Estadística Computacional 4 / 23

Page 5: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: EjemploTendencia de la mortalidad: El número de muertes por Sida en Australia enperíodos de tres meses entre 1983 y 1986 aparecen en la siguiente tabla y elsiguiente gráfico:

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14yi 0 1 2 3 1 4 9 18 23 31 20 25 37 45

2 4 6 8 10 12 14

010

2030

40

Periodos de 3 meses: Ene−Mar 1983 a Abr−Jun 1986

Num

ero

de m

uert

es p

or S

ida

M. González (UEx) Estadística Computacional 5 / 23

Page 6: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: EjemploTendencia de la mortalidad: El número de muertes por Sida en Australia enperíodos de tres meses entre 1983 y 1986 aparecen en la siguiente tabla y elsiguiente gráfico:

2 4 6 8 10 12 14

010

2030

40

Periodos de 3 meses: Ene−Mar 1983 a Abr−Jun 1986

Num

ero

de m

uert

es p

or S

ida

Modelo: basado en la distribución de Poisson con λi = γiθ, donde γ y θson parámetros a ser estimados.Modelo lineal generalizado: función de enlace esg(λi) = logλi = log γ + θ log i y por tanto xi = (log i), i = 1, . . . , n, yβ0 = log γ y β1 = θ.

M. González (UEx) Estadística Computacional 6 / 23

Page 7: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: InferenciaVariable Respuesta: YVariables Regresoras: X1,X2, . . . ,Xk

Datos:Y X1 X2 . . . Xk

Y1 x11 x12 . . . x1k

Y2 x21 x22 . . . x2k...

...... . . .

...Yn xn1 xn2 . . . xnk

Estimación: parámetros β0 . . . βk

Método de Máxima Verosimilitud.Test de Hipótesis:

Bondad de Ajuste: adecuación del modeloBasado en el Estadístico Deviance, D. Si el modelo es adecuado,D ∼ χ2(n− k).Parámetros del modelo: H0 : βi = 0Basado en el Estadístico de Wald.

M. González (UEx) Estadística Computacional 7 / 23

Page 8: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: Bioensayos

Modelos Dosis-Respuesta:

Variable Respuesta Dicotómica: Y = 1 si ocurre un determinado suceso; Y = 0 si noocurre dicho suceso.

Y sigue una distribución de Bernoulli

Suceso = muerte, curación, enfermedad,...

Variable Regresora: X = dosis de una sustancia.

E[Y|X = x] = px prob. de que ocurra el suceso cuando se administra una dosis x

px = F(β0 + β1x) F−1(px) = β0 + β1x

Modelo Lineal Generalizado con Función de Enlace g(x) = F−1(x)

M. González (UEx) Estadística Computacional 8 / 23

Page 9: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: BioensayosModelos Dosis-Respuesta:

Variable Respuesta Dicotómica: Y Variable Regresora: X = dosis de una sustancia.

px = F(β0 + β1x) F−1(px) = β0 + β1x

Modelo Probit

F(x) = φ(x) – Función de Distribución deuna Normal Estándar.

Función de Enlace: g(x) = φ−1(x)

Modelo: px = φ(β0 + β1x)

M. González (UEx) Estadística Computacional 9 / 23

Page 10: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: BioensayosModelos Dosis-Respuesta:

Variable Respuesta Dicotómica: Y Variable Regresora: X = dosis de una sustancia.

px = F(β0 + β1x) F−1(px) = β0 + β1x

Modelo Logit

F(x) =1

1 + exp(−x)– Función de

Distribución Logística.

Función de Enlace: g(x) = log(

x1− x

)–

Función Logit

Modelo:

px =1

1 + exp(−(β0 + β1x))

log(

px

1− px

)= β0 + β1x

M. González (UEx) Estadística Computacional 10 / 23

Page 11: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: BioensayosModelos Dosis-Respuesta:

Variable Respuesta Dicotómica: Y Variable Regresora: X = dosis de una sustancia.

px = F(β0 + β1x) F−1(px) = β0 + β1x

Modelo Logit

F(x) =1

1 + exp(−x)– Función de

Distribución Logística.

Función de Enlace: g(x) = log(

x1− x

)–

Función Logit

Modelo:

px =1

1 + exp(−(β0 + β1x))

log(

px

1− px

)= β0 + β1x

M. González (UEx) Estadística Computacional 11 / 23

Page 12: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: BioensayosModelos Dosis-Respuesta:

Variable Respuesta Dicotómica: Y Variable Regresora: X = dosis de una sustancia.

px = F(β0 + β1x) F−1(px) = β0 + β1x

Modelo Log-Log Complementario

F(x) = 1− exp(− exp(x))

Función de Enlace:g(x) = log(− log(1− x)) – FunciónLog-Log Complemetario

Modelo:

px = 1− exp(− exp(β0 + β1x))log(− log(1− px)) = β0 + β1x

Se utiliza cuando la probabilidad del sucesoes muy pequeña o muy grande.

M. González (UEx) Estadística Computacional 12 / 23

Page 13: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: BioensayosModelos Dosis-Respuesta:

EjemploLos siguientes datos corresponden un experimento efectuado con una serie de gruposde ratas que fueron expuestas a diferentes niveles de concentración de ETU (Ethylenethiourea) observándose el número de ratas que desarrollaron tumores tiroideos(Graham et al. (1975)).

Datos:

Dosis Muestra Tumor0 72 25 75 2

25 73 1125 73 2250 69 16500 70 62

M. González (UEx) Estadística Computacional 13 / 23

Page 14: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: BioensayosModelos Dosis-Respuesta:

EjemploLos siguientes datos corresponden un experimento efectuado con una serie de gruposde ratas que fueron expuestas a diferentes niveles de concentración de ETU (Ethylenethiourea) observándose el número de ratas que desarrollaron tumores tiroideos(Graham et al. (1975)).

Datos:

Dosis Muestra Tumor0 72 25 75 2

25 73 1125 73 2250 69 16500 70 62

M. González (UEx) Estadística Computacional 14 / 23

Page 15: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Modelos Lineales Generalizados: Regresión Logísitca

Variable Respuesta Dicotómica: Y = 1 si ocurre un determinado suceso; Y = 0 si noocurre dicho suceso.

Y sigue una distribución de Bernoulli.

Variables Regresoras: X1, . . . ,Xk.

X = (X1, . . . ,Xk) x = (x1, . . . , xk)

E[Y|X = x] = px prob. de que ocurra el suceso cuando X = x

px =1

1 + exp(−(β0 + β1x1 + . . .+ βkxk))⇐⇒ log

(px

1− px

)= β0+β1x1+. . .+βkxk

px

1− px= exp(β0 + β1x1 + . . .+ βkxk)

M. González (UEx) Estadística Computacional 15 / 23

Page 16: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Análisis de Supervivencia

Modelo ProbabilísticoModelizar el tiempo que transcurre hasta que se produce un determinado evento.

T ≡ tiempo que tarda en producirse el evento. (si el evento es la muerte, T será eltiempo de vida o supervivencia del paciente)

T es una variable aleatoria no negativa, habitualmente continua.

Su distribución de probabilidad no se ajusta a una normal salvo en casosexcepcionales.

Sus distribuciones de probabilidad más frecuentes son la exponencial, laWeibull, la gamma o la log-normal.

M. González (UEx) Estadística Computacional 16 / 23

Page 17: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Análisis de Supervivencia

Función de SupervivenciaLa Función de Supervivencia, S(t), se define como

S(t) = P(T > t) , t ≥ 0

Intuitivamente S(t) representa la probabilidad de que un paciente sobreviva más de untiempo t.Si F(t) es la función de distribución de T entonces S(t) = 1− F(t) y por tanto:

S(t) es decreciente. La velocidad a la que decrezca en un instante indica elriesgo de que el paciente muera en ese instante de tiempo.

Si f (t) es la función de densidad de la variable aleatoria T , entonces

f (t) = −dS(t)dt

M. González (UEx) Estadística Computacional 17 / 23

Page 18: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Análisis de Supervivencia

Función Hazard o de RiesgoLa Función Hazard o de Riesgo se define como

h(t) = lims→0+

P(t < T ≤ t + s|T > t)s

=f (t)S(t)

= −d log[S(t)]dt

, t ≥ 0

Intuitivamente h(t) se interpreta como el riesgo de que un paciente que ha vivido untiempo superior a t muera en un instante inmediatamente posterior a t.La gráfica de la función h(t) puede tener muchas formas, ya que su única restricciónes ser no negativa:

Si h(t) creciente significaría que el riesgo aumenta con el paso del tiempo.

Si h(t) es decreciente, significaría que los pacientes sufren un riesgo mayor demorir al inicio y este va disminuyendo conforme avanza el tiempo (trasplantes).

Si h(t) tiene forma de bañera (decreciente en los primeros instantes delseguimiento, constante después y finalmente creciente) esto significaría que enun período inicial el riesgo de muerte es alto, tras lo cual este riesgo seestabiliza para crecer finalmente cuando se produce el envejecimiento.

M. González (UEx) Estadística Computacional 18 / 23

Page 19: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Análisis de Supervivencia

Modelo EstadísticoLos individuos son sometidos a un seguimiento a lo largo del tiempo hasta quese produzca determinado evento.

Ha de existir un punto de comienzo del seguimiento bien definido (operaciónquirúrgica, iniciación del tratamiento, etc.)

El evento al que se debe llegar debe estar también claramente definido (muerte,recaída de la enfermedad, etc.)

La entrada de nuevos individuos en el estudio puede tener lugar en cualquierinstante dentro del periodo de seguimiento, iniciado a partir de la primeraentrada en el estudio.

M. González (UEx) Estadística Computacional 19 / 23

Page 20: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Análisis de Supervivencia

Modelo EstadísticoEl seguimiento de los individuos no siempre es posible llevarlo a cabo hasta que seproduzca el evento. Puede ocurrir

que se pierda algún individuo durante el seguimiento por alguna razón ajena alexperimento (pacientes que hayan dejado de acudir a los controles, etc.).

que el seguimiento concluya antes de que algunos individuos hayan alcanzadoel evento.

Los individuos que se encuentren en alguna de estas dos situaciones diremos que hansido censurados. Podemos llevar a cabo el análisis de supervivencia aunque algunosindividuos hayan sido censurados.

M. González (UEx) Estadística Computacional 20 / 23

Page 21: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Análisis de Supervivencia

Estimación de la Curva de Supervivencia: Tablas de VidaTiempo de Observación: dividido en intervalos I1, . . . , IN , con Ik = (tk−1, tk], k = 1, . . . , N(t0 = 0)Consideramos n individuos incluidos en el estudio.

nk = número de individuos que no han desaparecido del sistema al comienzo delintervalo Ik, i.e. inmediatamente después del instante tk−1.

dk = número de individuos que han sufrido el evento en el intervalo Ik.

ck = número de individuos censurados en el intervalo Ik

pk = P(T > tk|T > tk−1) =probabilidad de que un individuo que ha sobrevivido al instantetk−1, sobreviva un tiempo superior a tk

pk =nk − dk − ck/2

nk − ck/2, k = 1, . . . , N

Probabilidad de sobrevivir al instante tk

S(0) = 1 , S(tk) =

k∏i=1

pi , k = 1, . . . , N

M. González (UEx) Estadística Computacional 21 / 23

Page 22: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Análisis de Supervivencia

Estimación de la Curva de Supervivencia: Kaplan-MeierUtiliza los tiempos exactos donde se han producido los eventos: t1 < t2 < . . . < tN

nk = número de individuos en riesgo de sufrir el evento en el instanteinmediatamente anterior a tk.

dk = número de eventos ocurridos en el instante tk.

P(T ≤ tk|T > tk−1) =probabilidad de que un individuo que ha sobrevivido hasta elinstante inmediatamente anterior al tk sufra el evento en el instante tk

P(T ≤ tk|T > tk−1) =dk

nk, k = 1, . . . ,N (t0 = 0)

Estimador de Kaplan-Meier:

S(t) = 1 si 0 ≤ t < t1

S(t) =i∏

k=1

(1− dk/nk) si ti ≤ t < ti+1 i = 1, . . . ,N

M. González (UEx) Estadística Computacional 22 / 23

Page 23: Estadística Computacional M. Gonzálezmatematicas.unex.es/~mvelasco/Estadistica Computacional...M. González (UEx) Estadística Computacional 19 / 23 Análisis de Supervivencia Modelo

Análisis de supervivencia

Comparación de Curvas de SupervivenciaPara comparar las curvas de supervivencia de dos grupos de pacientes, planteamos elcontraste de hipótesis

H0 : S1(t) = S2(t)H1 : S1(t) 6= S2(t)

o equivalentementeH0 : h1(t) = h2(t)H1 : h1(t) 6= h2(t)

Para resolverlo se utiliza el test log-rank, cuyo valor experimental se basa en lasdiferencias entre el número de muertes observadas en cada grupo (O) y el número demuertes que cabría esperar (E) si no hubiera diferencias entre dichos grupos, todoello en los tiempos donde se ha producido el seguimiento.

Este valor experimental se compara con un valor teórico de una distribución chicuadrado con un grado de libertad.

M. González (UEx) Estadística Computacional 23 / 23