Métodos de aprendizaje automático para la predicción de la ...

54
Métodos de aprendizaje automático para la predicción de la distribución anormal de grasa, masa magra y/o masa ósea en individuos infectados por VIH. Manuel Ramírez Máster en Bioinformática y Estadística Nuria Pérez Álvarez Carles Ventura Royo 02/01/2019

Transcript of Métodos de aprendizaje automático para la predicción de la ...

Page 1: Métodos de aprendizaje automático para la predicción de la ...

Métodos de aprendizaje automático para la predicción de ladistribución anormal de grasa, masa magra y/o masa ósea enindividuos infectados por VIH.

Manuel RamírezMáster en Bioinformática y Estadística

Nuria Pérez ÁlvarezCarles Ventura Royo

02/01/2019

Page 2: Métodos de aprendizaje automático para la predicción de la ...

Esta obra está sujeta a una licencia deReconocimiento-NoComercial-SinObraDerivada 3.0 España de CreativeCommons

Page 3: Métodos de aprendizaje automático para la predicción de la ...

FICHA DEL TRABAJO FINAL

Título del trabajo:

Métodos de aprendizaje automático parala predicción de la distribución anormalde grasa, masa magra y/o masa ósea enindividuos infectados por VIH.

Nombre del autor: Manuel Ramírez Garrastacho

Nombre del consultor/a: Nuria Pérez Álvarez

Nombre del PRA: Carles Ventura Royo

Fecha de entrega (mm/aaaa): 01/2019

Titulación:: Máster en Bioinformática y Estadística

Área del Trabajo Final:Analisis de datos. M0.178 - TFM-Bioinformática y Bioestadística. Àrea 2 -aula 1.

Idioma del trabajo: Español

Palabras clavemachine learning, VIH, composicióncorporal

Resumen del Trabajo (máximo 250 palabras): Con la finalidad, contexto deaplicación, metodología, resultados i conclusiones del trabajo.

El objetivo principal de este trabajo es el desarrollo de nuevos modelos depredicción de enfermedades relacionadas con la distribución de masa grasa,masa magra y tejido óseo en pacientes de VIH utilizando métodos deaprendizaje automático.

Debido a la mejora en las terapias contra el VIH, los pacientes que padecenesta enfermedad tienen en muchos casos una esperanza de vida similar a lade una persona sana. Esto ha provocado un creciente interés en el tratamientode patologías secundarias derivadas de este síndrome o su tratamiento.Algunas de las patologías secundarias más frecuentes en pacientes de VIHson las relacionadas con la distribución de ciertos tejidos, como la lipodistrofia,la sarcopenia o la osteoporosis y osteopenia.

Para la realización del trabajo se ha comparado la eficiencia en la capacidadde predicción de estas enfermedades de un modelo tradicional de regresiónlogística frente a distintos modelos de aprendizaje automático. Los algoritmosutilizados son algunos de los más más usados en biomedicina: redesneuronales artificiales, support vector machines y random forest. Todos estosmodelos se han implementado usando el lenguaje estadístico R.

Los resultados obtenidos muestran que los modelos generados a partir estosmodernos algoritmos son en la mayoría de los casos tan eficaces como elmodelo clásico. En ciertas ocasiones es incluso posible conseguir resultadosmejores utilizando modelos de aprendizaje automático. Esto abre interesantes

1

Page 4: Métodos de aprendizaje automático para la predicción de la ...

posibilidades a la hora de mejorar la predicción de la aparición de estaspatologías secundarias.

Abstract (in English, 250 words or less):

The objective of this work is the development of new prediction models forpathologies related to the distribution of fat mass, lean mass and bone tissue inHIV patients using machine learning methods.

Due to the improvement in anti-HIV therapies, patients suffering from thisdisease have often a life expectancy similar to a healthy person. This fact hasled to a growing interest in the treatment of secondary pathologies derived fromthis syndrome or its treatment. Some of the most frequent secondarypathologies in HIV patients are those related to the distribution of certaintissues, such as lipodystrophy, sarcopenia or osteoporosis and osteopenia.

In this project the predictive efficiency of a traditional logistic regression modelhas been compared with different models created using machine learning. Thealgorithms used in this work are some of the most used in biomedicine: artificialneural networks, support vector machines and random forest. All of them havebeen implemented using the statistical language R.

The results obtained show that the models generated with these modernalgorithms are in most cases as effective as the classical regression model.Sometimes it is even possible to achieve better results using machine learningmodels. This work shows very promising possibilities in the prediction of theappearance of secondary pathologies in HIV patients using these noveltechniques.

2

Page 5: Métodos de aprendizaje automático para la predicción de la ...
Page 6: Métodos de aprendizaje automático para la predicción de la ...

Lista de figuras

4

Page 7: Métodos de aprendizaje automático para la predicción de la ...

- Figura 1: Distribución de variables en la base de datos.

- Figura 2: Distribución de las distintas enfermedades en los grupos training ytesting.

- Figura 3: Resultados de los modelos de regresión logística para lipodistrofia ysarcopenia.

- Figura 4: Resultados de los modelos de regresión logística para osteopenia yosteoporosis.

- Figura 5: Modelo ANN de un solo nodo para lipodistrofia en hombres.

- Figura 6: Modelo ANN de un solo nodo con variables seleccionadas por Lassopara lipodistrofia en hombres

- Figura 7: Modificaciones del modelo ANN para lipodistrofia en hombres.

- Figura 8: Modelos ANN de uno y tres nodos para lipodistrofia en mujeres.

- Figura 9: Diversos modelos ANN para sarcopenia en hombres.

- Figura 10: Diversos modelos ANN para sarcopenia en mujeres.

- Figura 11: Modelos SVM sin transformación de datos para lipodistrofia enhombres.

- Figura 12: Modelos SVM con transformación de datos para lipodistrofia enhombres.

- Figura 13: Modelos SVM con modificaciones en la variable coste paralipodistrofia en hombres.

- Figura 14: Modelos SVM sin transformación de datos para lipodistrofia enmujeres.

- Figura 15: Modelos SVM con transformación de datos y modificaciones en lavariable de coste para lipodistrofia en mujeres.

- Figura 16: Modelos SVM con transformación de datos y modificaciones en lavariable de coste para sarcopenia en hombres.

- Figura 17: Modelos SVM con transformación de datos y modificaciones en lavariable de coste para sarcopenia en mujeres.

- Figura 18: Matriz de confusión para el modelo SVM sin transformación de datospara enfermedades del tejido óseo en hombres.

- Figura 19: Matriz de confusión para el modelo SVM con transformación dedatos para enfermedades del tejido óseo en hombres.

- Figura 20: Matriz de confusión para el modelo SVM con transformación radialpara enfermedades del tejido óseo en mujeres.

- Figura 21: Modelos random forest para lipodistrofia en hombres.

- Figura 22: Modelos random forest con distinto número de árboles paralipodistrofia en hombres.

- Figura 23: Modelo random forest para lipodistrofia en mujeres.

- Figura 24: Modelos random forest con distinto número de árboles parasarcopenia en hombres.

Page 8: Métodos de aprendizaje automático para la predicción de la ...

- Figura 25: Modelo random forest para sarcopenia en mujeres.

- Figura 26: Matriz de confusión para el modelo random forest con 1000 árbolespara enfermedades del tejido óseo en hombres.

- Figura 27: Matriz de confusión para el modelo random forest con 5000 árbolespara enfermedades del tejido óseo en mujeres.

- Figura 28: Diagrama de barras con los resultados de AUC de los modelos delipodistrofia en hombres.

- Figura 29: Diagrama de barras con los resultados de AUC de los modelos delipodistrofia en mujeres.

- Figura 30: Diagrama de barras con los resultados de AUC de los modelos desarcopenia en hombres.

- Figura 31: Diagrama de barras con los resultados de AUC de los modelos desarcopenia en mujeres.

- Figura 32: Diagrama de barras con los resultados de AUC de los modelos deenfermedades del tejido óseo.

- Figura 33: Modelo random forest optimizado para lipodistrofia en hombres.

- Figura 34: Matrices de confusión para los modelos de regresión logística yrandom forest optimizado para lipodistrofia en hombres.

- Figura 35: Modelo random forest optimizado con modificación en el valor decutoff para lipodistrofia en hombres.

- Figura 37: Modelo random forest optimizado para lipodistrofia en mujeres.

- Figura 37: Matrices de confusión de los modelos de regresión y random forestpara lipodistrofia en mujeres

- Figura 38: Modelo random forest con valor cutoff modificado para lipodistrofiaen mujeres.

- Figura 39: Modelo random forest optimizado para sarcopenia en hombres.

- Figura 40: Matrices de confusión de los modelos random forest con distintosvalores de cutoff para sarcopenia en hombres.

- Figura 41: Modelos ANN optimizados para sarcopenia en mujeres.

- Figura 42: Análisis de las enfermedades del tejido óseo categorizando a lospacientes en dos posibles diagnósticos.

Page 9: Métodos de aprendizaje automático para la predicción de la ...

Índice

Page 10: Métodos de aprendizaje automático para la predicción de la ...

1. Introducción......................................................................................................11.1 Contexto y justificación del Trabajo............................................................11.2 Objetivos del Trabajo..................................................................................21.3 Enfoque y método seguido.........................................................................21.4 Planificación del Trabajo.............................................................................31.5 Breve sumario de productos obtenidos......................................................51.6 Breve descripción de los otros capítulos de la memoria............................5

2. Resto de capítulos............................................................................................62.1 Análisis y preparación de los datos..................................................................62.2 Regresión logística.........................................................................................82.3 Redes neuronales artificiales (ANN)..............................................................102.4 Support vector machines...............................................................................162.5 Random forest..............................................................................................232.6 Análisis de los resultados..............................................................................272.7 Optimización del algoritmo random forest......................................................30

3. Conclusiones................................................................................................374. Glosario...........................................................................................................405. Bibliografía......................................................................................................41

Page 11: Métodos de aprendizaje automático para la predicción de la ...

1

1. Introducción

1.1 Contexto y justificación del Trabajo

Este trabajo busca desarrollar nuevos método para la predicción de patologíasrelacionadas con la distribución anormal de grasa o tejido óseo en pacientes infectadoscon virus VIH utilizando herramientas de aprendizaje automático de inteligenciasartificiales (machine learning). En los últimos años la esperanza de vida de los pacientescon VIH ha aumentado significativamente, de forma que aquellos individuos que hansido diagnosticados y han comenzado el tratamiento retroviral durante la última décadatienen una esperanza de vida que se aproxima a la de la población general (1). Esto hahecho que se haya producido un creciente interés en el estudio de patologías derivadasde la enfermedad que pueden afectar a los pacientes a largo plazo. Uno de estos efectoses la anormal distribución de ciertos tejidos corporales. bien por causa de la medicacióno bien por la carga viral en el organismo.

Una de estas patologías es la lipodistrofia, una enfermedad que provoca cambios físicosy metabólicos en las personas afectadas. Los cambios físicos se refieren a una anormaldistribución de la grasa corporal. Ésta disminuye en los brazos, las piernas y la cara, yforma acúmulos en otras partes del cuerpo, especialmente el estómago, el cuello o nucay los pechos. Los cambios metabólicos incluyen cambios en el nivel de grasas y ácidoláctico en la sangre y algunos pacientes pueden desarrollar resistencia a la insulina.Algunos estudios afirman que más de la mitad de los infectados por VIH sufrenlipodistrofia (2), aunque estos datos muestran una alta variabilidad entre distintosartículos y otros trabajos muestran cifras algo inferiores (3, 4).

Si bien la lipodistrofía no es una enfermedad mortal por sí misma, sus efectosdisminuyen la calidad de vida del paciente y pueden llevarle a considerar el abandonodel tratamiento antiviral. Además, en ciertos casos el exceso de grasa en la sangre puedeaumentar el riesgo de sufrir una enfermedad cardiaca y la resistencia a la insulinafavorece la aparición de diabetes.

Al igual que ocurre con la grasa, también el tejido muscular puede verse afectado enestos pacientes. La disminución del tejido muscular se denomina sarcopenia y se haobservado en diversos estudios. Por ejemplo, en (6) se observó que más de un 20% delos pacientes habían perdido una cantidad significativa de músculo después de un añode tratamiento.

Otro problema asociado con el VIH es la disminución de la densidad mineral ósea, esdecir, la cantidad de calcio y otros minerales presentes en los huesos (7, 8). Se hademostrado la pérdida de masa ósea en pacientes durante los primeros años detratamiento con medicamentos antirretrovirales (9). Esta disminución puede provocarosteopenia, caracterizada por una baja densidad ósea, que pueda dar lugar aosteoporosis, una patología provocada por una disminución en la calidad del tejido óseaque lleva aparejado un aumento en las probabilidades de sufrir fracturas en los huesos.De hecho, un metaanálisis mostró que la prevalencia de osteoporosis en pacientestratados con antirretrovirales es tres veces mayor que en un grupo control (10).

Page 12: Métodos de aprendizaje automático para la predicción de la ...

En los últimos años se ha producido un gran avance que el desarrollo del aprendizajeautomático para inteligencias artificiales. Esto se ha debido principalmente a la mejorade los algoritmos, la mayor capacidad computacional y al registro y almacenamiento deuna cantidad cada mayor de información. Si consideramos que una mayor cantidad dedatos supone una mayor eficiencia en la eficacia de los modelos de machine learning,nos damos cuenta de que la biomedicina es uno de los campos que más puedefavorecerse de este campo, ya que actualmente es posible recopilar una gran cantidad dedatos sobre las características físicas de los pacientes.

Existen ya numerosas iniciativas encaminadas a desarrollar algoritmos de machinelearning que faciliten el diagnóstico de diversas patologías. DeepMind Health es unproyecto de Google en colaboración con varios hospitales para desarrollar herramientasde este tipo. En agosto de 2018 publicaron su primer artículo en Nature Medicine (11).Otra iniciativa es la competición Camelyon (https://camelyon17.grand-challenge.org/),en la que distintos grupos compiten para desarrollar el mejor algoritmo de detección decáncer de mama a partir del análisis automático de imágenes.

1.2 Objetivos del Trabajo

Para facilitar del desarrollo del trabajo decidí establecer una serie de objetivocon fechas concretas para la consecución de cada uno (especificadas en el punto 1.4Planificación del trabajo). La idea detrás de mi planificación era utilizar en un principiolas herramientas disponibles de forma genérica y, una vez observados los primerosresultados, usarlas de forma más específica para mi problema concreto.

Los objetivos que me tracé fueron:

-Objetivo 1: Elegir, entre todas las herramientas disponibles, diversos algoritmos deaprendizaje automático y desarrollar diversos modelos para la predicción de laaparición de patologías relacionadas con la distribución anormal de grasa,músculo y tejido óseo en pacientes de VIH

- Objetivo 2:Cuantificar la efectividad de dichos modelos para las distintas patologías ydeterminar cuál sería el más adecuado para su utilización como predictor de laaparición de enfermedades secundarias.

- Objetivo 3:Mejora del modelo (o modelos) seleccionado para conseguir la mejor predicciónposible.

1.3 Enfoque y método seguido

El propósito del análisis estadístico de datos clínicos es en muchos casosdescribir la relación entre dos o más variables. Por ejemplo, un estudio podría buscar larelación entre el peso de un paciente y su nivel de colesterol, o podría añadir másvariables y analizar cómo afectan al colesterol la edad y el género de los pacientes. Con

2

Page 13: Métodos de aprendizaje automático para la predicción de la ...

frecuencia estos estudios buscan establecer la relación entre variables que pueden serestudiadas en los pacientes y la posibilidad de padecer una determinada enfermedad.Siguiendo con el ejemplo anterior, se podría tratar de cuantificar la posibilidad de sufrirproblemas cardiacos dependiendo del nivel de colesterol.

Los modelos clásicos de regresión se han usado durante décadas para realizareste tipo de análisis. De Fauw et al (12) presentan una revisión de estos métodos. Sinembargo, en los últimos años se ha experimentado un cambio hacia la utilización demodelos de aprendizaje automático (machine learning). En este tipo de algoritmos, elordenador es capaz de “aprender” a realizar mejor una determinada función a través desucesivas iteraciones. Muchos de estos procesos se denominan “de caja negra(blackbox)”, ya que el modelo generado no es fácil de comprender por el usuario, encontraposición por ejemplo al resultado de un modelo de regresión cuya función seexpresa fácilmente en términos matemáticos.

En los últimos años se han publicado multitud de artículos científicos en los quese comprueba la eficiencia de distintos métodos de aprendizaje automático aplicados ala predicción de la aparición o la tasa de supervivencia de distintas enfermedades (13 –16 muestra una selección de publicaciones recientes). Entre todos los algoritmosutilizados he seleccionado tres que considero destacados tanto por la frecuencia de suuso como por los resultados que ofrecen:

- redes neuronales artificiales (ANN)- support vector machines (SVM)- random forest

Los distintos algoritmos de aprendizaje automático no son métodos fijos, sinoque cada uno de ellos depende de ciertos parámetros o transformaciones de los datosque pueden ser modificados para optimizar los resultados. En este trabajo utilizaré R,una herramienta que posee diversos packages donde se incluyen las instrucciones paraejecutar determinadas funciones. Para algunos algoritmos de machine learning existendiferentes packages que funcionan de formas ligeramente diferentes y cuyas eficienciaspodrían ser distintas.

El enfoque que me propuse desde un principio para este trabajo fue el de utilizardistintos algoritmos para diseñar modelos “sencillos” (es decir, utilizando losparámetros por defecto o realizando modificaciones sencillas en los algoritmosutilizados). Tras esta primera fase se compararía la eficiencia de los distintos y elegiríaalgoritmo o algoritmos más eficientes. En una última fase se profundizaría en ellos,modificando sus parámetros o buscando nuevos packages que utilicen el mismo tipo demodelo, con la intención de refinar el modelo y conseguir la mejor eficiencia posible.

1.4 Planificación del Trabajo

Antes de comenzar el trabajo con la base de datos realicé una asignación detiempo en la que dividí cada uno de los objetivos en varias tareas y asigné a cada una deellas un tiempo determinado para desarrollarla. Aquí muestro esa planificación

3

Page 14: Métodos de aprendizaje automático para la predicción de la ...

- Objetivo 1:- Análisis de los datos disponibles: 15/10/18 – 22/10/18- Búsqueda bibliográfica de posibles algoritmos de aprendizaje atomático:22/10/18 – 4/11/18- Búsqueda de información sobre packages para R relacionados con losalgoritmos seleccionados en el paso anterior: 22/10/18 – 4/11/18 - Elaboración de los primeros modelos: 5/11/18 – 19/11/18

- Objetivo 2:- Comparación de los modelos generados: 19/11/18 – 26/11/18- Elección de los mejores modelos: 19/11/18 – 26/11/18

- Objetivo 3:- Búsqueda bibliográfica sobre técnicas para refinar los modelos que hanmostrado un mejor resultado: 26/11/18 – 4/12/18- Refinar los modelos: 5/12/18 – 12/12/18- Determinar la eficiencia de los modelos refinados: 12/12/18 – 17/12/18

También creé un calendario para el proyecto usando el programa de distribucióngratuita GranttProject. Aquí se puede ver una captura de pantalla del calendariocompleto:

La planificación se llevó a cabo en el orden establacido, aunque no dentro de lostiempos que se habían especificado. Concretamente, la elaboración de los primerosmodelos llevó más tiempo del especificado debido a una mala selección de las variablesen un principio, lo que producía errores en el código de R debido a variables con unacorrelación demasiado alta, y a la cantidad de opciones para la elaboración de distintosmodelos, especialmente en el caso de SVM. Esto provocó que los objetivos 2 y 3comenzaran más tarde de la fecha especificada y que los resultados finales de losmodelos optimizados no estuvieran listos el 17 de diciembre, como se indica en laplanificación, sino una semana después.

4

Page 15: Métodos de aprendizaje automático para la predicción de la ...

1.5 Breve sumario de productos obtenidos

Esta memoria se acompaña de un archivo de Markdown y el .pdf generado a partir de él.El archivo Markdown contiene todo el código en R utilizado para la realización de estetrabajo, con comentarios sobre los distintos pasos realizados y los resultados obtenidos.

1.6 Breve descripción de los otros capítulos de la memoria

- Análisis y preparación de los datosEn este capítulo se describen las características del archivo de datos de pacientes con elque se ha trabajado en este proyecto y se comentan las variables que contiene. Ademásse describen las modificaciones realizadas sobre el archivo de datos antes de comenzarel análisis y se explican los distintos grupos (determinados por tipo de enfermedad ygénero) en los que se dividió el archivo.

- Regresión logísticaElaboración y evaluación de modelos de regresión logística para cada uno de los gruposen los que se ha dividido el trabajo.

- Redes neuronales artificiales (ANN)Elaboración y evaluación de modelos utilizando el algoritmo de redes neuronalesartificiales.

- Support vector machines (SVM)Elaboración y evaluación de modelos utilizando el algoritmo de redes neuronalesartificiales.

- Random forestElaboración y evaluación de modelos utilizando el algoritmo de redes neuronalesartificiales.

- Análisis de los resultadosComparación de los resultados obtenidos para cada una de las patologías estudiadas ypara cada género.

- Optimización del algoritmo random forestBúsqueda de los parámetros óptimos para modelos del algoritmo random forest, quehabía mostrado los mejores resultados. Comparación de los resultados obtenidos conrandom forest y regresión logística.

5

Page 16: Métodos de aprendizaje automático para la predicción de la ...

2. Resto de capítulos

Los siguientes capítulos contienen el análisis de los datos derivados de pacientesque se han utilizado en este trabajo: preparación de los datos, elaboración de losmodelos y análisis de la eficiencia. En ellos no se especifica el código utilizado y no semuestran todas las gráficas y modelos generados durante el trabajo. El análisis completose puede ver paso por paso en los archivos Markdown y .pdf adjuntos.

2.1 Análisis y preparación de los datos

El archivo de datos original posee observaciones de 82 variables para 1480pacientes de VIH. Estas observaciones se corresponden a información general delpaciente (sexo, altura, peso, etc), información específica sobre la masa grasa y masaósea en distintos tejidos y partes del cuerpo e información sobre la presencia o ausenciade las patologías que se desean estudiar: lipodistrofia, sarcopenia, osteopenia yosteoporosis. El primer paso del trabajo consistió en el estudio y la preparación de losdatos para la generación de los modelos.

En primer lugar eliminé las variables no útiles (identificación del paciente) oduplicadas (existían dos variables diferentes relacionadas con la edad y con el sexo).

Las columnas correspondientes a la presencia de enfermedades óseas(“minTscore” y “Tscore_3cat”) estaban vacías. Sin embargo, los valores de estascolumnas podían deducirse a partir de los valores de otras variables. Para cada pacientecalculé su “T score” mínimo y le asigné un determinado grupo dentro de lasenfermedades óseas: “normal”, “osteopenia” u “osteoporosis”.

Muchos modelos estadísticos tienen problemas para evaluar observaciones en lasque faltan algunos de los datos. Comprobé si esto ocurría en mi base de datos y encontré22 pacientes en los que alguna de las variables no mostraba ningún valor. Debido queeste número representa una fracción muy pequeña del total de las observaciones decidíeliminar estos pacientes de la base de datos, con lo que trabajé sólo con las 1458observaciones restantes.

La base de datos estaba compuesta por 1104 hombres y 354 mujeres. Hombres ymujeres tienen distinta fisiología y estas diferencias entre distintos sexos podrían sermás importantes que las diferencias existentes entre pacientes enfermos y sanos. Por lotanto, decidí separar a los pacientes según su sexo y examinar cada grupo de formaindependiente.

Con el fin de tener una idea de la composición de cada uno de estos grupos,representé en histogramas la distribución de las variables más sencillas: edad, peso,altura e índice de masa corporal (Figura 1):

6

Page 17: Métodos de aprendizaje automático para la predicción de la ...

El resto de las variables indican la distribución de los distintos tejidos o el estadodel paciente (enfermo o sano) para cada una de las enfermedades a analizar. Dentro deestas variables hay varias que están directamente relacionadas con cada una de laspatologías. El objetivo del estudio es elaborar modelos que puedan predecir la presenciade una determinada enfermedad sin utilizar variables que se encuentran directamenterelacionadas con dicha enfermedad. Por lo tanto, para analizar la lipodistrofia y lasarcopenia voy a utilizar únicamente las variables no relacionadas con la cantidad demasa grasa o masa magra, y para predecir la presencia de osteoporosis u osteopenia novoy a usar variables relacionadas con la distribución de tejido óseo.

Además, es necesario dividir los datos en dos grupos: training y testing. Elprimero servirá para generar el modelo y el segundo se usará para comprobar sueficacia. Esto es importante ya que si se utilizara el mismo grupo de datos para lageneración del modelo y la comprobación de su efectividad se correría el riesgo degenerar un modelo que se ajusta de forma excesiva a los datos que se le hansuministrado y no puede ser extrapolado a datos independientes. En la literatura he vistoque el grupo training está normalmente compuesto por al menos dos tercios de losobservaciones de la base de datos, por lo que para generar mis grupos seleccionéaleatoriamente al 67% de las observaciones como training y al 33% restante comotesting.

7

Page 18: Métodos de aprendizaje automático para la predicción de la ...

De esta forma generé doce grupos de datos, cuatro para cada una de las tresenfermedades a analizar (osteoporosis y osteopenia se analizaron juntas): dos grupostraining (uno con los datos procedentes de hombres y otro con los de mujeres) y dosgrupos testing. Antes de generar los modelos comprobé que el porcentaje de pacientesenfermos era similar en los grupos training y testing para cada una de las patologías ysexos (Figura 2):

2.2 Regresión logística.

Para poder determinar la eficiencia de los modelos construidos con herramientasde aprendizaje automático decidí generar primero un modelo de regresión logística. Estemodelo serviría como referencia para comprobar si los algoritmos de machine learningeran capaces de generar modelos superiores al conseguido con una técnica clásica. Paradeterminar la eficiencia de cada modelo decidí utilizar la medida del área bajo la curva(AUC) de una curva ROC (acrónimo de receiver operating characteristic) (17). Estamedida es un estándar muy utilizado para la evaluación de la efectividad de métodospredictivos que se encuentran en la mayor parte de los artículos científicos (13-16). Losvalores de AUC se encuentran en el rango de 0.5 (el resultado obtenido es igual al deasignar las categorías al azar) hasta 1 (todas las observaciones han sido predichascorrectamente). Para la elaboración de estas curvas utilicé el package “ROCR” (18).

Incluso después de eliminar las variables directamente relacionadas con laenfermedad, el número de variables disponibles para realizar los análisis era bastantealto: 34 en el caso de lipodistrofia y sarcopenia y 40 en el caso de enfermedades óseas.Muchas de estas variables podrían tener una fuerte correlación entre ellas. Por ejemplo,

8

Page 19: Métodos de aprendizaje automático para la predicción de la ...

entre las variables que miden la masa grasa existía una variable para cada una de lasextremidades del paciente, aunque es probable que estos valores estén relacionadosentre ellos. Del mismo modo, dentro de las variables que medían la masa ósea había unavariable diferente para cada hueso de las lumbares. El hecho de que dos o más variablesaporten información similar puede afectar a la eficiencia de un modelo de regresión, asíque antes de generarlo decidí seleccionar las variables más significativas usando elmétodo Lasso (19), utilizando el package “glmnet”. La Figura 2 muestra los valores deAUC obtenidos para los modelos de regresión logística de lipodistrofia y sarcopenia.

En el caso de enfermedades relacionadas con el tejido óseo, el número deposibles diagnósticos es de tres en vez de dos, por lo que las técnicas anteriores (Lasso ycurva ROC) no son aplicables. Para seleccionar las variables más significativas decidícalcular la correlación entre cada una de las variables y todas las demás y eliminar todasaquellas variables que tuvieran un valor de correlación de al menos 0.8 con al menosseis otras variables. Después generé un modelo utilizando la función multinom() delpackage “nnet” (21), que acepta realizar regresión logística con más de dos posiblesresultados. Como medida de la eficacia del modelo generé una matriz de confusiónusando el package “caret” (22). La Figura 4 muestra los resultados obtenidos:

9

Page 20: Métodos de aprendizaje automático para la predicción de la ...

Los valores de precisión obtenidos con estos modelos son muy bajos. Hay quetener en cuenta que el hecho de que haya tres posibles diagnósticos es una dificultadañadida al modelo, pero una precisión tan pobre haría que este modelo fuera pocoefectivo en la predicción de patologías.

2.3 Redes neuronales artificiales (ANN)

El algoritmo Redes Neuronales Artificiales (ANN) modela la relación entre unosdeterminados valores de entrada y uno o más valores de salida utilizando unaaproximación que trata de imitar un cerebro biológico. Para ello estos modelos poseenvarias capas de nodos que reciben información, la modifican y transmiten al siguientenodo, de la misma forma que el cerebro biológico posee capas de neuronasinterconectadas entre ellas. En un principio el algoritmo asigna aleatoriamente undeterminado peso a cada unidad de información (variable). A lo largo de sucesivos

10

Page 21: Métodos de aprendizaje automático para la predicción de la ...

ciclos de entrenamiento el peso de cada una de las variables se va modificando paraperfeccionar el modelo y acercarse a los resultados reales. Estos cambios en laimportancia relativa de las variables, que simulan el fortalecimiento o deterioro de lasconexiones neuronales durante el desarrollo del cerebro, son la clave de la eficiencia delalgoritmo. Una revisión del tema se puede encontrar en Abiodun OI et al (23).

Para la generación de los modelos ANN utilicé el package “neuralnet” (24). Aligual que he hecho anteriormente en el caso de la regresión, voy a aplicar este método acada una de las patologías a estudiar.

- Lipodistrofia

La función neuralnet() requiere que los datos estén normalizados. Por lo tantoantes de generar el modelo apliqué sobre los datos la normalización “min-max”: a cadadato se le resta el valor mínimo de esa variable y el resultado se divide entre ladiferencia entre el valor máximo y el mínimo de la variable. De esta forma todos losresultados están comprendidos entre 0 y 1.

Para comenzar generé un modelo sencillo con una sola capa y un solo nodo. LaFigura 5 muestra el resultado de aplicar este modelo a los datos procedentes dehombres. La representación del modelo ANN contiene demasiada información sobre lasvariables en un espacio reducido, por lo que no es posible apreciar el peso asignado acada una de ellas:

El resultado es muy inferior a lo obtenido con regresión logística. Es posible queesto se deba a que utilicé demasiadas variables que están correlacionadas entre sí. Paracomprobarlo generé un segundo modelo utilizando sólo las variables que habían sidoseleccionadas por el método Lasso en el apartado anterior (Figura 6):

11

Page 22: Métodos de aprendizaje automático para la predicción de la ...

El valor de AUC mejoró sensiblemente al usar menos variables, aunque siguiósiendo inferior al obtenido con regresión logística. Para comprobar las posibilidades delalgoritmo generé distintos modelos aumentando el número de nodos o capas usandosólo las variables seleccionadas por Lasso (Figura 7):

12

Page 23: Métodos de aprendizaje automático para la predicción de la ...

El modelo con 2 capas de un solo nodo consiguió un mejor resultado que otrosmodelos más complejos, aunque su efectividad fue todavía levemente inferior a la delmodelo de regresión logística. Posteriores intentos de aumentar la complejidad delmodelo fracasaron al no tener suficiente capacidad computacional.

Repetí el proceso para los datos procedentes de mujeres utilizando únicamentelas variables seleccionadas por Lasso. Muestro el resultado para el modelo simple y elmodelo de 3 nodos, que fue de nuevo el que dio el mejor resultado (Figura 8):

En este caso los modelos ANN han dado un resultado muy pobre.

- Sarcopenia

A la vista de los resultados anteriores decidí utilizar sólo las variablesseleccionadas con Lasso para generar los modelos de sarcopenia. Al igual que hice en elapartado anterior, comienzo mostrando los datos más representativos que obtuve paralos diferentes modelos generados a con los datos obtenidos a partir de pacientesmasculinos (Figura 9):

13

Page 24: Métodos de aprendizaje automático para la predicción de la ...

Los tres modelos han dado resultados muy similares, pero al igual que ocurríacon la lipodistrofia en varones la eficiencia de los modelos ANN es inferior a laobtenida con el modelo de regresión logística.

La Figura 10 muestra los resultados que obtuve al aplicar los mismosalgoritmos a los datos de sarcopenia obtenidos a partir de pacientes femeninos. En estecaso puede observarse como al incrementar la complejidad del modelo disminuye sueficiencia. El modelo más sencillo, de un solo nodo, consigue un resultado ligeramentesuperior al obtenido con regresión logística.

14

Page 25: Métodos de aprendizaje automático para la predicción de la ...

- Osteoporosis y osteopenia

La función neuralnet() requiere que todos los datos que se le suministren seannuméricos. En el caso de los datos relacionados con patologías del tejido óseo lavariable a predecir era categórica, así que para solucionarlo codifiqué la mismainformación en tres columnas denominadas “normal”, “osteopenia” y “osteoporosis”.Asigné a cada una de estas columnas el valor 0 o 1 dependiendo del estado del paciente.

Al generar las matrices de confusión para comprobar la precisión de cada uno delos modelos en hombres me encontré con un error en RStudio. Leyendo ladocumentación sobre esta función vi que ese error aparece cuando uno de los posiblesresultados no ha sido predicho por el modelo, lo que provoca que la predicción y elresultado real tengan un número distinto de niveles. Comprobé los resultados de lapredicción y vi que tanto el modelo sencillo (1 nodo) como el modelo con dos capas yun nodo en cada capa habían predicho que todos los pacientes sufrirían osteopenia. Elmodelo con tres nodos repartía sus predicciones entre osteoporosis y osteopenia, perono encontraba ningún paciente que no presentara la enfermedad. Al analizar los datosreferidos a mujeres encontré un problema similar, aunque en este caso el error seproducía porque ninguno de los modelos había predicho que alguno de los pacientessufriría osteoporosis. Estos resultados me llevaron a descartar el algoritmo ANN comoun buen predictor para las patologías relacionadas con el tejido óseo.

15

Page 26: Métodos de aprendizaje automático para la predicción de la ...

2.4 Support vector machines (SVM)

Support vector machines (SVM) son algoritmos que clasifican a cada una de lasobservaciones asignándoles una posición en un espacio multidimensional y despuéstrazando hiperplanos que separan las distintas categorías. El número de dimensiones delespacio es igual al número de variables analizadas. Este método es muy fácil devisualizar si pensamos en un plano bidimensional, en el que el funcionamiento seríaequivalente a trazar una línea que separara los individuos pertenecientes a cadacategoría. Nuestro cerebro no es capaz de imaginar espacios mayores a tresdimensiones, pero el principio del funcionamiento del algoritmo es el mismo. Un buenejemplo de aplicaciones para SVM se encuentra en (25).

Las SVM presentan un gran número de posibilidades a la hora de generar losmodelos. Al utilizar este sistema podemos encontrarnos con que las muestras sonlinealmente separables o no. Linealmente separables significa que es posible trazar unplano recto que delimite perfectamente los distintos grupos de muestras. En el caso degrupos no linealmente separables el sistema requiere pasos adicionales. Una posibilidades definir una variable de coste que permite que un cierto número de individuos esténposicionados en el grupo incorrecto cuando se selecciona el MMH. Otra solución esrealizar una transformación de los datos añadiendo nuevas características (y por lo tantonuevas dimensiones) para lograr que las distintas categorías se vuelvan linealmenteseparables. Para implementar estos modelos utilicé el package “kernlab” de R (26).

- Lipodistrofia

Para comenzar voy a usar los parámetros por defecto para generar dos modelosutilizando los datos derivados de hombres. Para uno de los modelos usaré todas lasvariables y para el otro sólo aquéllas seleccionadas por el método Lasso (Figura 11). Eneste caso no es posible obtener una representación gráfica del modelo, así que muestrosólo el resultado de las curvas ROC:

16

Page 27: Métodos de aprendizaje automático para la predicción de la ...

En este caso la diferencia en el valor de estos dos modelos fue menor a 0.01, porlo que no estaba claro si reducir el número de variables era beneficioso. Para analizaresto en más profundidad generé dos nuevos modelos utilizando dos transformaciones delos datos: radial (rbf) y polinómica. En cada caso utilicé tanto todas las variables comosólo las seleccionadas por Lasso. Muestro los resultados en el la Figura 12:

La transformación de los datos no ha supuesto un gran cambio en la eficienciade los modelos excepto en el caso de la transformación radial con las variablesseleccionadas por Lasso, que es inferior a los demás modelos.

Como he mencionado anteriormente, otra de las posibilidades que ofrecen losSVM es modificar la variable de coste. Este valor está relacionado con el número demuestras que pueden clasificarse incorrectamente cuando se desarrolla el modelo.Aumentar la variable de coste puede dar lugar a modelos menos específicos para elgrupo de training y que funcionan mejor con otros datos independientes. El valor deesta variable es por defecto 1. En la Figura 13 muestro el resultado para modelossimilares a los anteriores pero aumentando la variable de coste a 3.

17

Page 28: Métodos de aprendizaje automático para la predicción de la ...

Al igual que ocurría con el algoritmo ANN, los resultados de los modelos deaprendizaje automático para lipodistrofia en hombres no se mostraron superiores a laregresión logística. Repetí el análisis usando los datos referidos a mujeres. Para elloprimero generé dos modelos sin transformación usando todas las variables o sólo lasseleccionadas por Lasso (Figura 14).

18

Page 29: Métodos de aprendizaje automático para la predicción de la ...

El modelo con menos variables es inferior al que tiene todas. Ya que en el casode los datos procedentes de hombres utilizar sólo las variables seleccionadas por Lassotampoco demostró tener ninguna ventaja cuando se utilizan SVM, a partir de momentodecidí continuar generando únicamente modelos utilizando todas las variables.

Al igual que en el caso anterior, probé a modificar el modelo mediante latransformación de los datos o modificando la variable coste (Figura 15).

Muchos de los modelos generados para estos datos consiguen una mejoreficiencia que el modelo clásico de regresión.

- Sarcopenia

19

Page 30: Métodos de aprendizaje automático para la predicción de la ...

A la vista de los resultados obtenidos en el análisis de la lipodistrofia, realicé lapredicción de la presencia de sarcopenia en los pacientes generando únicamentemodelos en los que utilizo todas las variables. La Figura 16 muestra los resultadosobtenidos para los datos procedentes de hombres.

20

Page 31: Métodos de aprendizaje automático para la predicción de la ...

Al igual que ocurría en el caso de la lipodistrofia, estos modelos SVM muestranvalores de AUC muy similares y en ninguno de los casos han llegado al valor obtenidopara la regresión logística (en este caso AUC = 0.82).

Muestro en la Figura 17 los resultados del mismo análisis realizado con losdatos procedentes de pacientes femeninas.

De nuevo los modelos generados muestran valores de AUC muy similares.Ninguno de ellos se comporta mejor que el modelo clásico de regresión logística.

21

Page 32: Métodos de aprendizaje automático para la predicción de la ...

- Osteoporosis y osteopenia

Según la documentación del package “kernlab”, los modelos SVM puedenutilizar variables categóricas con más de dos posibles resultados sin realizar ningún tipode transformación. Generé un modelo estándar con los datos derivados de hombres ycomprobé su efectividad con una matriz de confusión (Figura 18).

Aunque esta vez no he obtenido un error como ocurrió con los modelos ANN, elresultado no es tampoco positivo. El modelo apenas predice un solo paciente dentro delgrupo “osteoporosis” (y además es un resultado confundido) y predice de formaexagerada que la mayoría de los pacientes sufren osteopenia. Comprobé si el modelomejoraba con alguna de las transformaciones (Figura 19):

22

Page 33: Métodos de aprendizaje automático para la predicción de la ...

A pesar de la transformación de los datos sigo encontrando el mismo problema.Para comprobar si era un efecto derivado del package que estaba usando, repetí elanálisis con la función svm() del package “e1071” (27). Los resultados fueron muysimilares en el sentido de que persistía el problema de que ninguno de los modelospredecía los pacientes aquejados de osteoporosis y siempre se sobrepredecía laosteopenia. La única excepción fue la transformación sigmoidea, que sí que predecía laosteoporosis en ciertos pacientes, pero su número de fallos era mayor que en los demásmodelos y por lo tanto su precisión era la más baja.

El análisis de los datos procedentes de mujeres mostró resultados muy similares.Como ejemplo en la Figura 20 se puede ver el resultado de modelos generado sinrealizar ningún tipo de transformación en los datos. Los resultados de los demásmodelos fueron similares.

2.5 Random forest

Existen un tipo de algoritmos denominados de árboles de clasificación porquegeneran modelos que se asemejan al patrón de crecimiento de las ramas de un árbol. Elmodelo comienza con un nodo central donde se encuentras todas las muestras. Traspasar por un nodo de decisión las muestras se dividen en distintas ramas. Cada una deestas ramas posee otros nodos de decisión que vuelven a subdividir los datos en nuevasramas, etc. Al final el modelo acaba con nodos "hoja" o terminales, donde se toma unadecisión de clasificación. Una de las principales ventajas de estos algoritmos es que sies necesario seguir la lógica que el modelo ha utilizado para clasificar una muestra enun determinado grupo, esto es mucho más sencillo que en modelos generados con ANNo SVM, incluso sin tener grandes nociones de matemáticas o estadística.

Los modelos de random forest utilizan este principio para generar un conjuntode árboles de decisión que después se combinan en un sólo árbol. Esto da lugar amodelos con una mayor capacidad predictiva. (28) es una revisión del uso de estealgoritmo en un problema concreto (clasificación de imágenes en pacientes deAlzheimer). Para generar los modelos utilicé el package “randomForest” (29).

23

Page 34: Métodos de aprendizaje automático para la predicción de la ...

- Lipodistrofia

Al igual que he hecho con los algoritmos anteriores, comencé comparando unmodelo que utiliza todas las variables con otro que usa sólo aquellas seleccionadas porel método Lasso (Figura 21).

El valor de AUC para ambos modelos es muy similar, por lo que decidí utilizartodas las variables para los siguientes modelos. Los resultados mostrados en Figura 21se lograron con modelos de random forest construidos a partir de 1000 árboles. Para versi aumentar el número de árboles mejoraba la predicción construí modelos con 2000 y5000 árboles (Figura 22).

Aumentar el número de árboles no supuso una mejora en la eficacia del modelo.Esto está de acuerdo con la literatura existente sobre este modelo, que dice una vezalcanzado el número necesario de árboles los resultados son consistentes en un ampliorango de esta variable. Los resultados son inferiores a lo obtenido con regresiónlogística.

Analicé entonces los datos relativos a mujeres Utilizando tanto un conjunto de1000 árboles como uno de 5000 para generar los modelos (Figura 23):

24

Page 35: Métodos de aprendizaje automático para la predicción de la ...

De nuevo ambos modelos muestran un resultado muy similar. La eficacia de losmodelos es superior a lo que conseguí anteriormente con el modelo de regresiónlogística. .

- Sarcopenia

Realicé un análisis similar para la base de datos de los pacientes de sarcopenia.Muestro en la Figura 24 los resultados obtenidos al generar modelos a partir de 1000 y5000 árboles.

Los resultados son muy similares a lo observado en el caso de la lipodistrofia: laeficiencia del modelo no varía al aumentar el número de árboles y el resultado es unpoco inferior al obtenido en la regresión logística.

Analicé a continuación los datos procedentes de mujeres creando un modelo apartir de 1000 árboles (Figura 25).

25

Page 36: Métodos de aprendizaje automático para la predicción de la ...

Los resultados conseguidos con random forest para sarcopenia en mujeres soninferiores a los que he obtenido anteriormente con otros modelos.

- Osteoporosis y osteopenia

Al igual que he hecho con las otras dos patologías. Comienzo generando unmodelo con 1000 árboles para los datos procedentes de hombres. La Figura 26 muestrala matriz de confusión con el resultado obtenido.

Aunque en este caso no es tan pronunciado como en modelos anteriores, sigueexistiendo un problema de sobrepredicción de la osteopenia. La capacidad de prediccióndel modelo, medida por el valor de precisión, sigue siendo muy baja. Aumentar elnúmero de árboles hasta 5000 produjo exactamente los mismos resultados.

Viendo que el número de árboles no parece tener un efecto mesurable en laeficiencia del modelo, utilicé el algoritmo en los datos procedentes de mujeresúnicamente con 5000 árboles (Figura 27).

26

Page 37: Métodos de aprendizaje automático para la predicción de la ...

El problema persiste también en este caso. Ninguno de los modelos que heprobado ha conseguido una buena predicción de las enfermedades del tejido óseo.

2.6 Análisis de los resultados

A lo largo de este trabajo he generado un gran número de modelos para lapredicción de la lipodistrofia, sarcopenia, osteopenia y osteoporosis utilizando elmétodo clásico de regresión logística y tres métodos de aprendizaje automático: redesneuronales artificiales, support vector machines y random forest. Para decidir cuál es elmodelo más eficiente comparé los valores de AUC de las curvas ROC. En la Figura 28se recogen los valores de AUC obtenidos para los modelos de lipodistrofia generadoscon los datos procedentes de hombres.

27

Page 38: Métodos de aprendizaje automático para la predicción de la ...

En el diagrama de barras puede verse que el modelo de regresión logística consiguió elmejor resultado. Entre los algoritmos de aprendizaje automático, ANN tiene uncomportamiento errático con grandes variaciones en su efectividad dependiendo de losparámetros de entrada. SVM y random forest son más consistentes, siendo este último elque consigue los mejores resultados. Los modelos generados con random forest tienenun valor de AUC que es apenas dos centésimas inferior al conseguido por la regresiónlogística.

En la Figura 29 se pueden ver los resultados obtenido con los datos derivadosde mujeres en lipodistrofia. En este caso hay menos resultado que en el diagramaanterior ya que descarté algunos modelos después de observar el comportamiento deciertos algoritmos en los modelos generados con los datos provenientes de hombres. Eneste caso casi todos los modelos generados con ANN muestran unos resultados muypobres, mientras que tanto SVM como random forest se comportan mejor que laregresión logística. SVM con transformación radial consigue el mejor valor de AUC,pero la diferencia con los modelos de random forest es muy pequeña.

Los resultados de sarcopenia en hombres (Figura 30) son muy similares a lo queocurría en con la lipodistrofia, aunque en este caso los modelos ANN mostraron unmejor comportamiento. El método de regresión logística consiguió el mejor resultado deAUC, aunque algunos de los modelos de aprendizaje automática consiguen unrendimiento que se acerca al método clásico. El método que más se aproximó alresultado del modelo de regresión es el random forest.

28

Page 39: Métodos de aprendizaje automático para la predicción de la ...

Al analizar los resultados obtenidos para sarcopenia en los datos procedentes demujeres (Figura 31) encontamos resultados muy diferentes. En este caso el modeloANN más simple (con un solo nodo) fue el que consiguió el mejor resultado con unvalor AUC ligeremente superior al obtenido por la regresión logística. Los demásmodelos tuvieron un comportamiento mucho menos eficiente.

La predicción de las patologías relacionadas con el tejido ósea (osteoporosis yosteopenia) no ha funcionado tan bien como las dos anteriores. La Figura 32 muestralos valores de precisión obtenidos por los distintos modelos aplicados tanto a los datosprocedentes de hombres como a los de mujeres. Existe muy poca diferencia entre losdistintos modelos y los mejores valores se encuentran en torno al 54%. Para poner estevalor en perspectiva con respecto a lo conseguido por otros modelos, el modelo derandom forest para lipodistrofia en hombres de 1000 árboles, (AUC = 0.74), tiene unaprecisión del 80%. Mientras que este modelo de lipodistrofia no es completamentefiable, pero sí podría utilizarse como indicador de una posible enfermedad o tal vezcomo predictor combinado con otro tipo de modelos, el algoritmo que predice

29

Page 40: Métodos de aprendizaje automático para la predicción de la ...

osteoporosis y osteopenia no proporciona resultados fiables que puedan ser utilizados enclínica.

2.7 Optimización de los algoritmos

Viendo el resumen de los resultados del apartado anterior, considero que elalgoritmo que ha mostrado un mejor comportamiento es el random forest. Estealgoritmo ha conseguido los mejores valores de AUC de entre los métodos deaprendizaje automático en la predicción de la lipodistrofia y la sarcopenia en hombres.En esta última parte del trabajo busqué la manera de optimizar este algoritmo paraconseguir los mejores resultados posibles.

El package “mrl” (30) posee diversas funciones para determinar los parámetrosmás adecuados para distintos algoritmos de clasificación. Lo usé para determinar losmejores parámetros para determinar si los pacientes sufrían lipodistrofia o sarcopenia.Dado el mal resultado obtenido con las enfermedades de tejido óseo consideré que debíadescartar ese análisis.

Los parámetros más importantes de la función randomForest() son:

- ntree: número de árboles. Es el único que modifiqué en las pruebasanteriores y no pareció tener un gran efecto sobre el modelo.

- mtry: número de variables seleccionadas aleatoriamente en cada nodo pararealizar la clasificación

- nodesize: tamaño mínimo del último nodo. Cuando más alto sea este númeroantes se detendrá la clasificación y los árboles tendrás “ramas” más cortas

- cutoff: porcentaje de votos que debe tener cada resultado para que unadeterminada observación se clasifique dentro de esa categoría

30

Page 41: Métodos de aprendizaje automático para la predicción de la ...

- LipodistrofiaEl package “mrl” tiene funciones que permiten determinar el valor más

adecuado para ntree, mtry y nodesize. El ajuste de los parámetros en los datosprocedente de pacientes varones determinó que los valores óptimos eran:

- ntree: 1215- mtry: 8- nodesize: 42

Con estos parámetros contruí un nuevo modelo (Figura 33).

El valor de AUC de este modelo es mejor que los obtenidos anteriormente conotros modelos de aprendizaje automático, pero es aún inferior al que conseguí porregresión logística. Un aspecto importante en la predicción clínica es que no todos loserrores son iguales: diagnosticar como enfermo a un paciente sano no tiene el mismocoste (económico y humano) que diagnosticar como sano a un paciente enfermo. Voy aanalizar el tipo de errores que se producen en el modelo de regresión logística y en esteúltimo modelo con una matriz de confusión (Figura 34).

31

Page 42: Métodos de aprendizaje automático para la predicción de la ...

Ambos modelos muestran la misma precisión, aunque los valores de sensibilidady especificidad son distintos.. En este caso podemos ver que el modelo de regresiónlogística se está comportando mejor, ya que asigna a muy pocos pacientes enfermos enla categoría “sano”. Modifiqué el valor de cutoff del modelo random forest para que unadeterminada observación necesitara el 60% de los votos para ser considerada como sanay sólo el 40% para ser considerada enferma (Figura 35).

Este último modelo tiene valores de AUC y precisión muy similares a los otrosmodelos, pero con valores más extremos tanto para sensibilidad (muy baja) como paraespecificidad (muy alta).

Repetí el proceso usando los datos procedentes de mujeres. El modelo óptimotendría los siguientes parámetros:

- ntree: 1309- mtry: 8- nodesize: 17

Con los datos obtenidos generé un nuevo modelo (Figura 36):

Como en el caso anterior, comparé las matrices de confusión del nuevo modelo ydel modelo de regresión logística (Figura 37).

32

Page 43: Métodos de aprendizaje automático para la predicción de la ...

El modelo generado por random forest es más preciso que el obtenido porregresión logística clásica. Modifiqué el valor de cutoff del modelo de aprendizajeautomático (Figura 38).

Este último modelo mantiene un valor similar de AUC aumentando su precisión.Sin embargo, al analizar los datos se puede ver que tiende a clasificar a los pacientescomo enfermos.

- Sarcopenia

Repetí el análisis anterior calculando los parámetros óptimos para el modelo derandom forest para esta patología:

- ntree: 1441- mtry: 7- nodesize: 24

El resultado se muestra en la Figura 39.

33

Page 44: Métodos de aprendizaje automático para la predicción de la ...

El valor de AUC es superior a modelos anteriores de random forest. Como haocurrido con otros modelos, tiene el problema que diagnostica como sanos a un númerorelativamente algo de pacientes enfermos. La Figura 40 muestra cómo cambios en losvalores de cutoff cambian esta clasificación

- Algoritmo ANN

Cuando analicé la predicción de la sarcopenia en mujeres vi que el algoritmo quemejor se comportaba era el ANN. Por lo tanto voy a intentar optimizar este modelo paraese grupo concreto de datos. Lamentablemente no existe una función que optimice losparámetros de la función neuralnet(), pero he encontrado en la literatura que el package“caret” puede buscar los mejores parámetros para una red neuronal que puedeimplementarse con el package “nnet” (31). La Figura 41 muestra los modelosgenerados con este procedimiento usando todas las variables o únicamente las variablesseleccionadas por Lasso.

34

Page 45: Métodos de aprendizaje automático para la predicción de la ...

- Osteoporosis y osteopenia

Ninguno de los modelos generados para tratar de predecir la presencia deosteoporosis u osteopenia en los pacientes ha mostrado una gran eficiencia. Es posibleque uno de los principales motivos sea que en este caso existían tres posiblesdiagnósticos en vez de dos como en las demás enfermedades. Para comprobar si esto eracierto decidí agrupar ambas patologías en el mismo grupo y calificar a las observacionescomo “sano” o “enfermo”. Tras esta modificación el modelo de regresión logísticamuestra un valor de AUC similar a las otras enfermedades tanto en hombres como enmujeres (Figura 42.A). El algoritmo ANN siguió mostrando dificultades con este grupode datos y no fue posible generar ni siquiera el modelo más simple, pero tanto SVMcomo random forest obtuvieron resultados razonables (Figura 42.B).

El mejor resultado de entre los modelos de aprendizaje automático se logró conSVM tanto para hombres como para mujeres. Con el fin de tratar de mejorar lapredicción generé diferentes modelos incrementando el valor de la variable “coste”(Figura 42.C). En ambos casos logré una mayor eficiencia, incluso superando el valorobtenido por la regresión en el caso de los datos de hombres.

35

Page 46: Métodos de aprendizaje automático para la predicción de la ...

36

Page 47: Métodos de aprendizaje automático para la predicción de la ...

3. Conclusiones

El objetivo de este trabajo era abordar la utilización de herramientas deaprendizaje automático en el diagnóstico de enfermedades relacionadas con unadistribución anormal de tejido graso, muscular y óseo en pacientes de VIH. Para surealización se han explorado cuatro algoritmos diferentes: el método de regresiónlogística y tres métodos de machine learning: redes neuronales artificiales, supportvector machines y random forest.

Los resultados obtenidos en este trabajo se pueden dividir el trabajo en trespartes:

- resultados para lipodistrofia en hombres y mujerse y sarcopenia en hombres- resultados para sarcopenia en mujeres- resultados para enfermedades del tejido óseo (osteoporosis y osteopenia)

Los modelos generados para tratar de predecir lipodristrofia en hombres ymujeres y la sarcopenia en hombres tienen en común que el algoritmo random forest hasido el modelo de aprendizaje automático que ha dado los mejores resultados. Existeuna diferencia entre ellos, ya que mientras en el caso de los varones estos modelos nosuperaban la eficiencia del modelo clásico de regresión, en los datos procedentes demujeres el modelo random forest mostraba la eficiencia más alta de todos losanalizados. Estos modelos se generaron sin intentar ningún tipo de optimización másallá de la modificación en el número de árboles utilizados para generar el modelo final,algo que se ha visto que tiene una importancia marginal en el resultado. En el últimocapítulo se mostró que era posible mejorar ligeramente todos los modelos utilizandofunciones de optimización, pero que los resultados obtenidos no estaban tan lejos de loconseguido con los modelos que utilizaban los parámetros por defecto.

En el caso de la predicción de la sarcopenia en mujeres, el mejor resultadocorrespondió al modelo ANN con un solo nodo. Este algoritmo se ha mostrado, con losdatos utilizados en este trabajo, como el más dependiente de los parámetros del modelo.Por ejemplo, aumentar en este caso la complejidad utilizando un modelo de 3 nodosdisminuía enormemente el valor de AUC. Esto hace que haya que ser más cuidadoso alusar ANN que al usar los otros métodos de aprendizaje automático, en los que cambiosen los parámetros de entrada producían efectos mínimos en la eficiencia del modelo. Aligual que en los casos anteriores, una estrategia de optimización dio lugar a modelosligeramente más eficientes.

Finalmente, el análisis de las enfermedades del tejido óseo ha constituido uno delos mayores problemas de este trabajo. Cuando traté de clasificar a los pacientesutilizando tres posibles diagnósticos los resultados han estado muy lejos de lo quedebería ser aceptable para un método de diagnóstico. Esto me llevó a cambiar laestrategia y clasificar a los pacientes únicamente como “sanos” o “enfermos”, lo quehace que se pierda parte de la utilidad diagnóstica del modelo ya que existe unadiferencia importante entre padecer una u otra de las dos enfermedades del tejido óseoanalizadas. Esta modificación permitió generar modelos eficientes tanto con regresiónlogística como con algoritmos de aprendizaje automático, destacando los resultadosobtenidos con SVM. El análisis de modificaciones más extremas de la variable “coste”mostró que aumentar notablemente su valor producía mejores modelos. En el caso delos datos derivados de hombres incluso superiores al modelo de regresión. Los valores

37

Page 48: Métodos de aprendizaje automático para la predicción de la ...

utilizados para esta variable eran mucho mayores que los que había usado en otraspatologías, por lo que cabía la posibilidad de que este tipo de modelos tambiénfuncionaran muy bien en lipodistrofia o sarcopenia. Sin embargo, un rápido análisisrealizado con los datos derivados de hombres mostró que este efecto era específico de laosteoporosis y osteopenia ya que el aumento del valor de la variable “coste” nomejoraba el modelo en las otras dos enfermedades.

Una de las decisiones más difíciles a la hora de seleccionar el mejor método paradiagnosticar una determinada enfermedad es encontrar un equilibrio entre lasensibilidad y la especificidad. La sensibilidad es la probabilidad de que un individuoenfermo sea efectivamente detectado como enfermo por el modelo. La especificidad esla probabilidad de que un individuo sano se clasifique como sano usando el modelo.Estos dos valores están íntimamente relacionados y modificaciones de un modelo quesupongan un aumento de la sensibilidad provocan una bajada de la especificidad. Losdos tipos de errores derivados (diagnosticar como sano a un individuo enfermo odiagnosticar como enfermo a un individuo sano) no tienen las mismas consecuencias.Un error del primer tipo provocaría que una persona no reciba el tratamiento necesariopara una enfermedad que padece o va a padecer, lo que dependiendo de la patología quese está tratando puede suponer un problema más o menos grave, incluso la muerte encasos extremos. Por lo tanto, en un principio podría parecer que una alta sensibilidad esla característica deseable para un buen modelo. Pero hay que tener en cuenta que unnúmero muy alto de pacientes sanos diagnosticados como enfermos suponen no sólo ungasto excesivo para el sistema sanitario, sino un estrés y preocupaciones innecesariospara el paciente. En el último apartado hemos visto como modificaciones en el valor decutoff del modelo de random forest provocan variaciones importantes en la sensibilidady especificidad del modelo. Determinar en esos casos cuál es el mejor modelo es unproblema complejo y que necesita de la opinión de profesionales de la salud, y por lotanto fuera del objetivo de este estudio.

Cuando realicé la planificación de este trabajo decidí dedicar la primera mitad aprobar los algoritmos seleccionados en la predicción de todas las enfermedades ydurante la segunda mitad comparar los resultados y tratar de optimizar aquellosalgoritmos que hubieran mostrado un mejor comportamiento. A la vista de losresultados obtenidos en el caso de las enfermedades del tejido óseo, considero que unamejor aproximación hubiera sido tratar lipodistrofia y sarcopenia por un lado, ya quetienen diagnósticos similares y usan el mismo grupo de variables, y las enfermedadesóseas por otro, buscando algoritmos o packages específicos que estén descritos en laliteratura como específicos para modelos con más de dos posibles resultados. Pareceevidente que las herramientas utilizadas, a pesar de que en la literatura están descritascomo válidas para modelos con más de dos diagnósticos, en la práctica no hanfuncionado con la eficiencia esperada.

Los resultados de este trabajo muestran que es posible generar modelos depredicción eficientes para las enfermedades analizadas utilizando herramientas deaprendizaje automático. Hay que tener en cuenta que el rango de este estudio era muyamplio: tres enfermedades diferentes analizadas en los dos sexos y utilizando tresalgoritmos distintos. Considero que hay un amplio margen de mejora en estas técnicas yque un estudio más enfocado, que se centre en sólo una de las patologías o uno de losalgoritmos, podría posiblemente desarrollar modelos aún más eficientes. También hayque tener en cuenta que en trabajos de este tipo analizar un solo grupo de datos no es

38

Page 49: Métodos de aprendizaje automático para la predicción de la ...

suficiente, sino que son necesarios varios estudios usando bases de datos independientespara contrastar los resultados. Por ejemplo, en este caso el porcentaje de pacientes conlipodistrofia dentro de la muestra era sensiblemente más alto a lo esperado en lapoblación objetivo del estudio (los enfermos de VIH), mientras que el porcentaje depacientes con sarcopenia era mucho más bajo, posiblemente más acorde con el dato realen dicha población. Repetir este análisis con un grupo de sujetos con una distintaproporción entre pacientes enfermos y sanos para las diferentes patologías sería útil paraobtener más información acerca de cuáles son las mejores herramientas de construirmodelos predictivos.

Como conclusión final, creo que el trabajo confirma una vez más que losalgoritmos de aprendizaje automático son herramientas de diagnóstico muy poderosas.Algunos centros de salud ya han incluido este tipo de modelos en sus rutinas dediagnóstico y es casi seguro que muchos otros seguirán este camino a corto plazo. Losmodelos generados en este trabajo utilizando datos no relacionados con la enfermedad(principalmente datos obtenido en el análisis del tejido óseo) para diagnosticarlipodistrofia y sarcopenia con una elevada precisión. Estos modelos u otros similaresresultarían muy útiles para los profesionales de la salud a la hora de diagnosticar dichasenfermedades.

39

Page 50: Métodos de aprendizaje automático para la predicción de la ...

4. Glosario

Algoritmos de aprendizaje automático (machine learning): Algoritmos generados por unordenador a través de un “aprendizaje” basado en sucesivas iteraciones de undeterminado problema.

ANN: Redes neuronales artificiales. Algoritmo de aprendizaje automático que simula elfuncionamiento de un cerebro biológico.

AUC: Area under curve. Valor utilizado para comparar diferentes curvas ROC.

Lipodistrofia: Enfermedad provocada por la distribución anormal del tejido adiposo.

Osteoporosis y osteopenia: Enfermedades provocados por la pérdida de masa ósea.

Random forest: Algoritmo de aprendizaje automático que genera un modelocombinando un cierto número de árboles de decisión.

Regresión logística: Método clásico de clasificación en el que se genera una curva deregresión para distinguir entre distintos resultados de tipo categórico.

ROC: Receiver operator characteristic. Curvas utilizadas para medir la eficiencia deuna predicción en biomedicina.

Sarcopenia: Enfermedad provocada por la pérdida de masa muscular.

SVM: Support vector machines. Algoritmo de aprendizaje automático que clasifica lasobservaciones según su posición en un hiperplano.

40

Page 51: Métodos de aprendizaje automático para la predicción de la ...

5. Bibliografía

(1): Trickey A et al. Survival of HIV-positive patients starting antiretroviral therapy

between 1996 and 2013: a collaborative analysis of cohort studies. Lancet HIV. Agosto

2017; 4(8): e349-e356.

(2): Grunfeld C et al. Regional adipose tissue measured by MRI over 5 years in HIV-

infected and control participants indicates persistence of HIV-associated lipoatrophy.

AIDS. Julio 2010, vol. 24: 1717 – 26.

(3) van Griensven J et al. High prevalence of lipoatrophy among patients on stavudine-

containing first-line antiretroviral therapy regimens in Rwanda. Trans R Soc Trop Med

Hyg. Agosto 2007; 101(8): 793-8.

(4) Diehl LA et al. Prevalence of HIV-associated lipodystrophy in Brazilian outpatients:

relation with metabolic syndrome and cardiovascular risk factors. Arq Bras Endocrinol

Metabol. Junio 2008;52(4): 658-67.

(5) www.aidsinfonet.org (19/11/2018)

6. Wanke CA et al. Weight loss and wasting remain common complications in

individuals infected with human immunodeficiency virus in the era of highly active

antiretroviral therapy. Clin Infect Dis. Septiembre 2000; 31(3): 803-5.

(7) Knobel H et al. Osteopenia in HIV-infected patients: is it the disease or is it the

treatment? AIDS. Abril 2001; 15(6): 807-8.

(8) Arnsten JH et al. Decreased bone mineral density and increased fracture risk in

aging men with or at risk for HIV infection. AIDS. Marzo 2007. 21(5): 617-23.

(9) Assoumou L et al. Changes in bone mineral density over a 2-year period in HIV-1-

infected men under combined antiretroviral therapy with osteopenia, AIDS. Septiembre

2013; 27(15): 2425-30.

41

Page 52: Métodos de aprendizaje automático para la predicción de la ...

(10) Brown TT, Qaqish RB. Antiretroviral therapy and the prevalence of osteopenia and

osteoporosis: a meta-analytic review. AIDS. Noviembre 2006; 20(17): 2165-74.

(11) A. Schneider et al. Linear Regression Analysis. Dtsch Arztebl Int. Noviembre

2010; 107(44): 776–782.

(12) Jeffrey De Fauw et al. Clinically applicable deep learning for diagnosis and referral

in retinal disease. Nature Medicine. Septiembre 2018; 24(9): 1342–50.

(13) Lynch CM et al. Prediction of lung cancer patient survival via supervised machine

learning classification techniques. International Journal of Medical Informatics.

Diciembre 2017; 108: 1-8

(14) Tsao et al. Predicting diabetic retinopathy and identifying interpretable biomedical

features using machine learning algorithms. BMC Bioinformatics. Agosto 2018;

9(Suppl 9): 283

(15) Artetxe A et al. Predictive models for hospital readmission risk: A systematic

review of methods. Computer methods and programs in biomedicine. Octubre 2018;

164: 49-64

(16) Bisaso et al. A survey of machine learning applications in HIV clinical research

and care. Computers in Biology and Medicine. Diciembre 2017; 91: 366-371

(17) Hoo ZH et al. What is an ROC curve? Emerg Med J. Junio 2017;34(6): 357-9.

(18) https://cran.r-project.org/web/packages/ROCR/ROCR.pdf (21/10/18)

(19) Tibshirani, R. Regression Shrinkage and Selection via the lasso. Journal of the

Royal Statistical Society. Series B (methodological). 1996; volumen 58(1).

(20) https://cran.r-project.org/web/packages/glmnet/glmnet.pdf (21/10/18)

(21) https://cran.r-project.org/web/packages/nnet/nnet.pdf (21/10/18)

42

Page 53: Métodos de aprendizaje automático para la predicción de la ...

(22) https://cran.r-project.org/web/packages/caret/caret.pdf (25/10/18)

(23) Abiodun OI et al. State-of-the-art in artificial neural network applications: A

survey. Heliyon. Noviembre 2018; 4(11):e00938.

(24) https://cran.r-project.org/web/packages/neuralnet/neuralnet.pdf (2/11/18)

(25) Wang MFZ, Fernandez-Gonzalez R (Machine-)Learning to analyze in vivo

microscopy: Support vector machines. Biochim Biophys Acta Proteins

Proteom. Noviembre 17;1865(11 Pt B): 1719-1727.

(26) https://cran.r-project.org/web/packages/kernlab/kernlab.pdf (16/11/18)

(27) https://cran.r-project.org/web/packages/e1071/e1071.pdf (21/12/18)

(28) Sarica A et al. Random Forest Algorithm for the Classification of Neuroimaging

Data in Alzheimer's Disease: A Systematic Review. Front Aging Neurosci. Octubre

2017; 9: 329.

(29)https://cran.r-project.org/web/packages/randomForest/randomForest.pdf (20/11/18)

(30) https://cran.r-project.org/web/packages/mlr/index.html (21/12/18)

(31) https://cran.r-project.org/web/packages/nnet/nnet.pdf (23/12/18)

43

Page 54: Métodos de aprendizaje automático para la predicción de la ...

6. Anexos

44