Aplicaciones del aprendizaje máquina en neuroimagenmiguel/MLG/adjuntos/MLG2012-Manel.pdf ·...

IntroduccciónTipos de MRIML en MRIConclusión

Aplicaciones del aprendizaje máquina enneuroimagen

Manel Martínez-Ramón–

Departamento de Teoría de la Señal y ComunicacionesUniversidad Carlos III de Madrid

1 / 42


Esto contiene una pequeña parte del trabajo que he realizado encolaboración con un buen número de investigadores: VanessaGómez, Emilio Parrado, Ascensión Gallardo, Jesús Cid

(UCIIIM), Antonio Oliviero (HNPT), Vince D.Calhoun, Eduardo Castro, Jin Sui, Stefan Posse, WeiliZheng, Elena Ackley (MIND Imaging Center) y otros.Otros han manifestado su interés en numerosas ocasiones. Que

sean bienvenidos.La producción científica es aún poca. Pero hay mucho que

hacer...

2 / 42


Neuroimagen

Es un conjunto de técnicas no invasiva para la obtención deimágenes tomográficas del cerebro humano.La técnica de mayor resolución espacial está basada en laimagen por resonancia magnética (MRI).Las técnicas de mayor resolución temporal están basadas enelectro- o magneto-encefalografía.Existen diversas variantes de la neuroimagen por resonanciamagnética:

MRI estructural (sMRI)MRI funcional (fMRI) de actidad y de estados de reposoMRI espectroscópica (MRSI)imagen por tensor de difusión

3 / 42


Neuroimagen

El diagnóstico por resonancia magnética está generalizadoen todo el mundo para la detección de hallazgos patológicosen casi todos los tejidos del cuerpo humano.Se ha usado en el cerebro desde sus orígenes debido a sutotal inocuidad.Antes de la resonancia magnética, las funcionalidades sedescubrían en sujetos con lesiones cerebrales.La MRI ha dado lugar a un aumento espectacular delconocimiento del cerebro, revelando funcionalidades delcerebro en sujetos normales.

4 / 42


Neuroimagen

Uso clínico generalizado de la resonancia en detecciónalteraciones estructurales: lesiones, malformaciones,patologías neurodegenerativas ...En cuanto al conocimiento no estructural del cerebro:

la observación de los datos de neuroimagen por parte de unexperto humano presenta limitaciones;es necesario procesar grandes cantidades de datos;hay que estimar variables ocultas...

El uso aprendizaje máquina no está integrado en lapráctica médica en psiquiatría o neurología aunque síempieza a estarlo en otras disciplinas médicas.

5 / 42


Usos del aprendizaje máquina en Neuroimagen

1 Estudio neuroanatómico y funcional del cerebroQué áreas del cerebro intervienen en los procesos delcerebro: motores, cognitivos, auditivos, somatosensoriales,visuales...Cuáles son sus interrelaciones e interacciones.

2 Estudio y caracterización de desórdenes mentalesDiagnóstico de patologías (en pacientes asintomáticos)Pronóstico de pacientes sintomáticos.Estratificación de pacientes (ej. fase aguda o temprana /fase crónica).Prescripción: qué tratamiento tiene mayor probabilidad deéxito.Y un largo etcétera.

6 / 42


Usos del aprendizaje máquina en Neuroimagen

Para ello se pueden aplicar técnicas ML aDecodificacion de estados del cerebro (1)Generación de mapas de actividad del cerebro (1,2)Generación de mapas de conectividad (1,2)Extracción de características regionalmente específicas (1,2)

Además, son necesarias técnicas de fusión de las diversasmodalidades de imagen del cerebro que se pueden obtener en unexperimento MRI.

7 / 42


MRI estructuralMRI funcionalImagen por tensor de difusiónImagen por tensor de difusión

MRI estructural

Un estudio estructural típicamente devuelve un únicovolumen.La resolución es la más alta.Se pueden medir grosor cortical o densidad de materia griso blanca.Los estudios poblacionales se hacen con morfometría a nivelde voxel (voxel-wise morphometry, VBM).

8 / 42



VBM con MRI estructural

Permite comparar dosgrupos poblacionales (ej.controles contrapacientes).Técnica univariantemasiva que permitecomparar lasdistribuciones de densidado de volumen entre dospoblaciones.Determina diferencias quecaractericen patologías.

9 / 42



MRI funcional

Mide la señal dependientedel nivel de oxigenaciónde la sangre (blood oxigenlevel dependent, BOLD)en el cerebro.

Determina indirectamentela actividad cerebralrelacionada con actividado estímulo, o en estado dereposo.

Resolución más baja.

10 / 42



MRI funcional relacionada con actividad

En un experimento fMRI el sujeto es sometido a uno ovarios estímulos y actividades en intervalospredeterminados.Al mismo tiempo, la actividad cerebral es registrada.

100 200 300 400 500 600 700

100

200

300

400

500

600

700

0 20 40 60 80 100 120 140 160−0.2

0

0.2

0.4

0.6

0.8

1

1.2

La respuesta al estímulo se aproxima a través de funcionescanónicas que aproximan la respuesta hemodinámica.

11 / 42



Se pueden llevar a cabo diferentes estímulos o actividades a lavez.

1

1.5

2

2.5

3

3.5

4

0

10

20

30

40

50

60

70

−1

−0.5

0

0.5

1

1.5

2

2.5

Figura: respuesta estimada usada en un experimentosensorimotor((1: visual, 2: motor, 3: cognitivo, 4: auditivp).Las señales estimadas se guardan en una matriz llamada Matrizde Diseño.

12 / 42



General Linear Model (Friston et. al., 1995)

Modelo de señal:Serie temporal: y[n] (señal BOLD).Vector de estímulos en el instante n: x[n].

Estimador (para cada voxel):

ym[n] = x>[n]β1 + β0 + em[n]

Notación matricial (método univariante en masa):

Y = XB +E

Y: Matriz de la respuesta del cerebro (N ×M) de todos losvoxels e instantes temporales.X: Matriz de diseño (N × L).B: Matriz de parámetros estimados (L+ 1×M), Lprimeras filas: mapas de activación.

13 / 42



Mínimos cuadrados:

BGLM = (X>X)−1X>Y

50 100 150 200 250 300 350

50

100

150

200

250

300

350

50 100 150 200 250 300 350

50

100

150

200

250

300

350

Mapaβ Mapa t

El mapa β es analizado a través de la t de Student, lo queconduce a un mapa t.

14 / 42



Extensión multisujeto

El método puede ser extendido a múltiples sujetos. Se suponeque los sujetos están sometidos a experimentos independientes.El diseño multisujeto contiene las matrices de cada uno de losexperimentos:

X(1)) =

X1 0 · · · 00 X2...

. . .0 XJ

El vector de respuestas BOLD para el voxel m es laconcatenación de de los vectores de respuestas de todos lossujetos:

y> =[y>1 · · ·y>m,J

]15 / 42



En un primer nivel, se estiman todos los parámetros

y = X(1)β(1) + e(1)

En un segundo nivel, se añaden variables auxiliares X(2) paraestimar los parámetros conjuntos β(2) a través del modelo

β(1) = X(2)β(2) + e(2)

En realidad, X(2) no es más que una columna de matricesidentidad:

X(2) = [I · · · I]>

16 / 42



Eso lleva a la expresión

[β(2)

ε(2)

]=

J∑j=1

X>j Xj X>1 X1 · · · X>J XJ

X>1 X1 X>1 X1 · · · 0...

. . ....

X>J XJ 0 · · · X>J XJ

−1

J∑j=1

X>j yj

X>1 y1...

X>J yJ

Todas las submatrices se expresan como productos escalares.

⇓

Las generalizaciones del modelo son inmediatas.

17 / 42



El GLM es lineal; el cerebro no.

El GLM supone que el cerebro es lineal:Un estímulo produciría entonces una respuesta linealmenterelacionada. Pero el aprendizaje y el cansancio cambian larespuesta temporal de forma no lineal.Dos respuestas solapadas producirían una respuesta igual ala suma de las dos.

En general, hay pruebas de comportamiento no lineal delcerebro en EEg y en MRIEjemplo: Los que no estén pensando en el número π), quelevanten la mano sin pensar en elefantes.Simplemente, podemos retirar la suposición de linealidad.

18 / 42



MRI funcional de estados de reposo

Existe un alto nivel de actividad en el cerebro en estados dereposo (Biswal, 1995). Se pueden detectar redes en estado dereposo a través de medidas de conectividad.La actividad en reposo se puede medir con varios métodos:

Métodos de semilla. Se escoge un voxel semilla medianteGLM y se determina su conexión con el resto.Métodos libres de modelos. Se basan en detectar qué voxelsson comunes a determinadas se?ales presentes en el cerebro.Se ha usado PCA, clustering e ICA.

ICA es el método más usado y el que produce mayorconsistencia entre experimentos.

19 / 42



MRI funcional de estados de reposo

Mapa de una componente ICA y mapa GLM (mapa beta) de unmismo experimento, de tipo auditivo. El mapa beta detectaactividad relacionada con la tarea auditiva.

20 / 42



Imagen por tensor de difusión

El uso de métodos de conectividad permite la determinaciónde conexiones funcionales entre áreas del cerebro.La técnica DTI es un tipo de tractografía que permitedeterminar las direcciones de difusión de moléculas libres deagua en el cerebro.Con ella se pueden reconstruir las conexiones estructuralesen la materia blanca.Se ha determinado que hay una alta correlación entreconexión estructural y conexión funcional

21 / 42



Imagen por tensor de difusión

22 / 42


Alternativas al GLMClasificaciónConectividad

Dónde se puede aplicar ML en MRI

Mapas de activación funcionalSPM es el software más usado. Univariante y lineal.

ConectividadUso de medidas de dependencia estadística.Modelos basados en grafos

Decodificación de estados del cerebroUso de clasificadores

Estimación de variables ocultasClasificación para detección de patologías: esquizofrenia,TOC.Detección de áreas de interés: FS, FE.

Fusión de fuentes

23 / 42



GLM: extensiones y alternativas

Los mapas de activación (t-maps) se destinan para suexamen por un experto humano.Es posible mejorar este proceso mediante:

el empleo de técnicas diferentes al GLM para mejorar losmapas:

Extensiones multivariantes: regresión lineal;Extensiones no lineales: extensiones Kernel, informaciónmutua, criterio de información de Hilbert-Schmidt.

El uso de técnicas de aprendizaje máquina para selección decaracterísticas:

La información en el cerebro es dispersa;Se pueden aplicar algoritmos de selección de característicasque fuercen la dispersión.

24 / 42



Modelo general kernel

Consiste en sustituir los productos escalares en la ecuación delGLM por funciones kernel.

βGLM = (X>X)−1X>Y → βGKM =K−1XXKXY

Los vectores transversales de X e Y (series temporales de losvoxels y los vectores de referencia) se sustituyen por susproyecciones en un espacio de Hilbert.

25 / 42



GLM GKM GLM GKM

Experimento con cuatro estímulos intercalados. Comparación demétodos GLM y GKM en detección de estímulo visual y motor.

26 / 42



Información Mutua

La información mutua evalúa la cantidad de informaciónentre un voxel o grupo de voxels y un vector de referencia.El método es intrínsecamente no lineal.Para ello se utilizan estimadores basados en kernels o bienbasados en criterio KNN.Mayor robustez y mejores resultados en series cortas que elSPM.El mayor coste computacional en estudios de grupo esabordable.

27 / 42



Información Mutua

La expresión de la información mutua entre dos vectores es

I(U, V ) =

∫∫pU,V (u,v) log

pU,V (u,v)pU (u)pV (v)

du dv (1)

No se conocen las distribuciones de los datos. Existenaproximaciones computacionalmente eficientes.I(U, V ) puede considerarse como un núcleo de Mercer.La expresión de segundo nivel del modelo general lineal puedereescribirse en términos de información mutua:

X>j yj → I(X>j yj)

Xi>Xj → I(X>i Xj)

28 / 42



Información Mutua

La información mutua entre dos variables aleatorias tiene unadistribución χ2.Por lo tanto, puede establecerse un test de hipótesis de la forma:H0 : X,Y son independientes.H1 : X,Y son dependientes.Puede umbralizarse mediante un umbral proabilistico basado enla distribucion, al igual que se hace en el método estándarmediante una t de Student.

29 / 42



Información MutuaParzen

KNN

t-map

N= 20 N= 40 N= 80 N= 160

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Experimento de actividad motora. Sensitividad con respecto adiferente número de volúmenes.

30 / 42



Criterio de información de Hilbert -Schmidt

La norma de Hilbert-Schmidt de una matriz es la suma dela norma de sus autovalores.Si esta matriz es la covarianza entre dos vectores, la normaHS constituye una medida de información.Es intrínsecamente lineal, pero la idea se puede llevar a unespacio de Hilbert, lo que la dota de propiedades no lineales.Es de aplicabilidad en fMRI para medir dependencias entrela serie temporal de cada voxel y el vector de referencia.Se puede generalizar a multivariante y a estudiosmultisujeto.

31 / 42



Procesos gaussianos

Pueden generalizar el GLMFácilmente kernelizablesSe puede aplicar dispersiónNo es estrictamente necesario un test estadístico. Se puedesustituir por medidas de verosimilitud.

32 / 42



Procesos gaussianos

33 / 42



Uso de clasificadores

Está demostrado que se puede extraer información de laMRI mediante ML en cientos de artículos.Casi todos son pruebas de concepto.Hay poco trabajo hecho en ayuda al diagnóstico, ya que lamayoría de trabajos se dedican a clasificar pacientessintomáticos y controles.Por lo tanto, queda mucho que hacer.

34 / 42



Uso de clasificadores

Hipótesis:La información en el cerebro está distribuida enagrupaciones de voxels.El comportamiento funcional y la estructura cerebralrevelan diferencias entre controles y pacientes.Se pueden extraer características significativas depatologías:

Regionalmente específicas: selección dispersa.Marcadores significativos de patologías: extracción.

35 / 42



Selección de características

Se han usado métodos estándar: filters, wrappers,embedded methods.Los filters y wrappers dan resultados pobres.Los embedded tienden a discriminar los voxelscorrelacionados con los más importantesAlguunos métodos están limitados por coste computacional,otros por datos.No hay aproximaciones que seleccionen clusters.

36 / 42



Algunas soluciones: selección por áreas.

Se puede utilizar un kernel diferente por área.Early fusion

y =

N∑i=1

αi

L∑l=1

alkl(xi,l,x∗,l) + b (2)

Diferentes opciones para optimizar los pesosLate fusion

Una SVM en cada área.Optimización de la combinación de salidas.

Ventajas e inconvenientes: determina qué áreas son importantes;supone linealidad entre ellas.

37 / 42



Algunas soluciones: selección por áreas

Uso de atlas funcionales (Brodmann, MNI ...)Uso de kernels compuestos.

450 500 550 600 650

350

400

450

500

550

450 500 550 600 650

450

500

550

600

650

Permite relacionar áreas neuroanatómicas o funcionales conpatologías

38 / 42



Ejemplo: caracterización de esquizofrenia

Table: Áreas optimas y coeficientes de relevancia asociados

Fuente Áreas (Coeficiente de relevancia)

ICA reposo Giro sup. frontal (11.59), precentral derecho(11.44), precentral izq. (10.76), superior frontalderecho(9.59), postcentral derecho (8.87), ante-rior izquierdo cingulado (8.80), fusiforme derecho(8.38)

mapas GLM Pars triangularis izq. (8.61), medio frontal dere-cho (7.65), medio temportal izquierdo (7.41),fisura calcarina derecha(6.88)

39 / 42



Algunas soluciones: métodos embedded con funciones decoste adecuadas

Los métodos usados hasta ahora usan regularización L1 oL1-L2.No seleccionan todos los voxels.

Es necesario encontrar métodos que no discriminen voxelscorrelados.No deben estar limitados por el número de datos.Debe forzarse la dispersión por agrupaciones.Los métodos basados en técnicas tipo Bootstrap y similarestienden a dar buenos resultados.

40 / 42



Conectividad

La conectividad entre áreas difiere entre individuos sanos ypatológicos.Los métodos de selección no suelen ser consistentes en ladetección de áreas: diferentes experimentos.Los métodos de conectividad pueden:

añadir características adicionales.relacionar diferentes resultados.

La conectividad, sobre todo en imágenes estructurales, es un"open issue". Hay trabajos preliminares en redes bayesianas,pero sin demasiada profundidad.

41 / 42


Conclusion

Nos hemos dejado muchas cosas en el tintero: !Lacausalidad es una palabra clave! La fusión de datos pareceser imprescindible.El aprendizaje máquina debe servir para:

Ayuda al diagnóstico, caracterización de patologías,estratificación de pacientes, etc...Detección de patologías en sujetos asintomáticos.Establecer relaciones causales entre patologías ycaracterísticas: estudio de los transtornos: ¿es laesquizofrenia uno o varios transtornos?Estudio del comportamiento del cerebro sano.

Se puedede hacer de las herramientas de ML un instrumento alservicio de la psiquiatría y la neurología a través de laneuroimagen.

42 / 42

Aplicaciones del aprendizaje máquina en neuroimagenmiguel/MLG/adjuntos/MLG2012-Manel.pdf ·...

Documents

Transcript of Aplicaciones del aprendizaje máquina en neuroimagenmiguel/MLG/adjuntos/MLG2012-Manel.pdf ·...