Post on 22-Jan-2016
Análisis de supervivencia
Tema 5
Itziar Aretxaga
Transformadas de Fourier
♦ Coeficiente generalizado de rangos de Kendall o test BHK (Brown, Hollander & Korwar) • Recomendaciones: funciona para variables ordinales o continuas derivadas de cualquier distribución, pero en condiciones de muchas ligaduras, deja de ser efectivo. El test es no paramétrico. • Método:
con m detecciones y n cotas (límites superiores o inferiores), donde
y bij de define de forma análoga con las y
La significancia de que x,y sean independientes viene dada por z=S/σS que está distribuida de forma normal
Correlaciones con límites superiores e inferiores
nm
i
nm
jijijbaS
1 1
si 1
si 0
si 1
ji
ji
ji
ij
xx
xx
xx
a
nm
i
nm
jij
nm
i
nm
jij
nm
i
nm
j
nm
k
nm
i
mm
jijikij
nm
i
nm
j
nm
k
nm
i
mm
jijikijS
bann
bbbaaannn
1 1
2
1 1
2
1 1 1 1 1
2
1 1 1 1 1
22
)1(
2
)2)(1(
4
(Isobe et al 1986, ApJ, 306, 490)
En Estadística se denomina • cota derecha el valor de una variable de la que sólo se sabe que se encuentra entre [A,+∞] ≡ límite inferior• cota izquierda el valor de una variable de la que sólo se sabe que se encuentra entre [−∞,C] ≡ límite superiorEn Astrofísica nos encontramos casi siempre con cotas izquierdas, mientras que las técnicas de análisis de supervivencia se han desarrollado para cotas derechas. Sin embargo, es posible transformar unas en otras mediante una constante M: Ci=M−Ai
Ejemplo: {30,24−,11,19−} con M=30 se convierten en {0,6+,19,11+}
♦ Algoritmo EM de expectación y maximización (Nelson & Hahn 1972)
Sea {xi,yi}i=1,…,n+m tal que fijado x, la distribución de y sea gaussiana. El test es paramétrico, y análogo a un ajuste por mínimos cuadrados.Definimos los residuos del ajuste lineal dado por los coeficientes ak, bk y la desviación estándar del ajuste σk comoLa probabilidad de que un punto se detecte en un intervalo Δz es
La probabilidad de que un dato se acote (a la derecha) viene dado por la función de supervivencia
Métodos de regresión con valores censados
kikkii xbayz /)(
2/)( , )()( 2/2iz
iii ezfzzfzP
dtezSdttfzSjj z
tjzj
2/2
2/1)( , )()( (Isobe et al 1986, ApJ, 306, 490)
La función de probabilidad de tener m observaciones detectadas y n acotadas viene dada por
tomando logaritmos
Los parámetros vienen de la maximización
donde la variancia
El método implica: 1. estimar a1, b1, σ1 de una regresión por mínimos cuadrados sin utilizar los valores censados. 2. estimar los valores acotados 3. calcular a2, b2, σ2 4. estimar e iterar hasta que converja
Métodos de regresión con valores censados
n
j
mj
m
ii zzSzfL
11
)()()(
cte
k
m
jj
m
ii mzSzfL ln)(ln)(lnln
11
0)(
)(11ln , 0
)(
)(11ln
1111
n
jj
j
j
ki
m
ii
kk
n
j j
j
k
m
ii
kk
xzS
zfxz
b
L
zS
zfz
a
L
acotado está si )(/)()(
detectado está siˆ donde )(ˆ
1
1 iikikk
ii
nm
iiikki
kk zSzfxba
yyzxbay
a
L
2
1
2 )(ˆ2
1
nm
iikkik xbay
nm
iy
iy
z = y/k
(codificado en IRAF) (Isobe et al 1986, ApJ, 306, 790)
cte
(Isobe et al 1986, ApJ, 306, 790)
Para mejorar la convergencia en el caso de muchas cotas (Aitkin 1981)
se redefine
Los errores en los parámetros vienen dados por la diagonal de la matriz de covariancia V=I-1 donde
Métodos de regresión con valores censados
m
i
n
j kj
j
j
ki
kk
mz
zS
zfz
L
1 1
2
)(
)(110
ln
n
j jjj
m
i ikkik
zSzfzm
xbay
1
2
1
)(/)(
)(
(Isobe et al 1986, ApJ, 306, 790)
k
k
k
cc
bb
aa
L
b
L
a
Lb
L
b
L
ba
La
L
ba
L
a
L
I
2
222
2
2
22
22
2
2
lnlnln
lnlnln
lnlnln
♦ Algoritmo EM con el estimador de Kaplan-MeierEl estimador de Kaplan-Meier provee de una estimación no paramétrica de la función de supervivencia.Se define la muestra de riesgo R(zi) como el conjunto de datos que, con toda seguridad, no se ha detectado antes de zi.
Ejemplo: y(1) < y(2) < y(3)+ < y(4)R[y(1)]={ y(1), y(2), y(3)+, y(4)} , R[y(2)]={y(2),y(3)+,y(4)} , R[y(4)]={y(4)} no existe la muestra de riesgo de valores censados
El estimador de Kaplan-Meier se define formalmente como
donde los zi han sido indexados de forma creciente: z1≤…≤zn+m ni es el tamaño de la muestra de riesgo R(zi) di es el número de detecciones con valor zi
es una función escalón decreciente que sólo salta en las detecciones. xi ni di 1-di /ni S(xi) 0 8 1 0.8750 1 3 6 1 0.8333 0.8750 Ejemplo: {0,6+,19,11+,3,19,6,2+} 6 5 1 0.8000 0.7292 19 2 2 0.0000 0.5833 >19 0
Métodos de regresión con valores censados
1
1, si
si
1
/1)(ˆ
zz
zzndzS
i
izzj
jji ij
j
acotado está si
detectado está si
0
1
j
jj z
z
)(ˆizS
(Feigelson & Nelson 1985, ApJ, 293, 192)
Para realizar un ajuste con este método se debe obtener una estimación de los coeficientes ak, bk sin tomar en cuenta los valores censados, y de forma iterativa encontrar el valor más probable de los coeficientes con
donde los pesos
y se ordenan de forma creciente.
Los coeficientes en el paso k serán
Buckley & James (1979) recomiendan usar como estimador de la desviación estándar σk la fórmula empírica
Donde D denota que sólo se utilizan valores detectados. El error de la pendiente es y puede estimar la significancia del
Métodos de regresión con valores censados
acotado si
detectado si)(ˆ
ji
jkijik
i
i bwxb
yy
jkjj
j
jjij xby
S
SSw
, )(ˆ1
)(ˆ)1(ˆj
xbyaxxxxyb kk
nm
i
nm
iiiik
, )(/)(ˆ1 1
2
)(2
1
1
22
m
D
iDikDik xxbyy
m
)(
)(
1
2
2
m
D
iDi
kk
xxb
ajuste
Para el caso general de querer obtener el ajuste de una función no-lineal φ(x,a), definimos de igual manera los residuosy podemos plantear la maximización de la probabilidad
que en general, puede no tener una solución analítica. Lo que siempre se puede intentar es la minimización con un algoritmo adaptable, tal como amoeba.
Métodos de ajuste con valores censados: caso general
n
j
mj
m
ii zzSzfL
11
)()()(
(Aretxaga, Hughes & Dunlop MNRAS, 2003, in prep)
iiii axyz /),(
Ejemplo:
• Suposiciones: tests no paramétricos formulados para cotas derechas Sean
los valores de una distribución, donde i recorre las distribuciones i=1,2; y j recorre el número de puntos j=1,2,...,Ni; y Aij denota las cotas• Método: se formula la hipótesis nula de que las dos distribuciones son iguales. Sean y1< y2< ...< yr con r≤N1+N2 los valores detectados en ambas distribuciones de forma conjunta, ordenados de forma creciente. Se definen las variables:
La estadística de rangos lineales con cotas se calcula mediante
donde wj son pesos asociados a diferentes estadísticas:
Comparación de distribuciones con cotas
(Feigelson & Nelson 1985, ApJ, 293, 192)
ijij
ijij
ij
ij
ij AT
AT
A
Tx
si
si
)acotado( si
)(detectado si
0
1
ijij
ijij
ij AT
AT
rjiyxd jikij ,...,1;2,1),(número rjiyxn jikij ,...,1;2,1),(número
jjj ddd 21 jjj nnn 21
21 NNn
10
1
,,,...,1;2,1
),0, que tal(número
r
ikjikjikij
yyrji
yxyxm
jjj mmm 21
)/( 11 1 jj
r
j jjjn nnddwL
logrank
Gehan
1
jj
nw
Para n grande, Ln es aproximadamente gaussiana, con media 0 y variancia
de forma que a un nivel h se puede decir que las dos distribuciones difieren si donde zh/2 es el intervalo para el cual el área de la distribución normal entre [−zh/2,zh/2] es igual a 1−h , y la significancia de este resultado viene dada por el área de la distribución normal con valores mayores que
Ejemplo: {30,24−,11,19−,27,11,24,28−} y {3,23,17−,8−,10,5−} se convierten en cotas derechas con una traslación con M=30. Utilizando las definiciones del análisis de supervivencia tenemos N1=8, N2=6, n=14, r=7
logrank da Ln=2.5 σn=1.1 que es significante con una probabilidad p=0.032Gehan da Ln= 23 σn=11 que es significativo con una probabilidad p=0.056
Latta (1981) introduce unos nuevos pesos que dan lugar al test Peto-Prentice, que supuestamente es menos sensible a diferencias de acotado
Comparación de distribuciones con cotas
(Feigelson & Nelson 1985, ApJ, 293, 192)
2// hnn zL
r
j jjjjjjjjjn ndnnnnnwd1 21
22 )1/())(/)(/(
nnL /