Download - PERFIL DE IDENTIFICACIÓN DE DOLOR EN NEONATOS A PARTIR …

PERFIL DE IDENTIFICACIÓN DE DOLOR EN NEONATOS A PARTIR DE VARIABLES

FISIOLÓGICAS

CAMILO ANDRÉS RAMÍREZ RINCÓN

UNIVERSIDAD DE LOS ANDES

FACULTAD DE INGENIERÍA

DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

BOGOTÁ D.C.

2015

PERFIL DE IDENTIFICACIÓN DE DOLOR EN NEONATOS A PARTIR DE VARIABLES

FISIOLÓGICAS

CAMILO ANDRÉS RAMÍREZ RINCÓN

PROYECTO DE GRADO INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

DIRECTORA

MARIA DEL PILAR VILLAMILGIRALDO

INGENIERA DE SISTEMAS M.Sc. PhD.

UNIVERSIDAD DE LOS ANDES

FACULTAD DE INGENIERÍA

DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

BOGOTÁ D.C.

2015

AGRADECIMIENTOS

Gracias a Dios por la vida que me ha ofrecido, por la familia con la que me permite compartir y

por los amigos que han sido incondicionales todo este tiempo.

Quiero agradecer especialmente a mis padres por todo su esfuerzo y entrega quienes durante

toda mi vida me han apoyado para dar siempre lo mejor. Les agradezco por permitirme hacer

parte de esta universidad, no sólo por su calidad académica indiscutible sino por todas las

posibilidades de crecimiento personal y profesional que me ha ofrecido. Pero más que todo estoy

agradecido por sus enseñanzas constantes, por educarme a través del ejemplo y por haber

dedicado sus vidas a formar la mía. Por todo eso doy gracias, pues soy quien soy gracias a ellos.

Gracias muy especiales a mi directora María del Pilar Villamil por haber confiado en mí y por todo

su apoyo a lo largo del semestre. Por su comprensión y dedicación que me ayudaron a

sobrepasar todas las dificultades que se presentaron. También extiendo mis agradecimientos a

la estudiante de Maestría Natalia Durán por introducirme a la problemática que motivó el

proyecto.

Camilo Andrés Ramírez Rincón.

i

TABLA DE CONTENIDO

Listado de Figuras ..................................................................................................................................... iii

Listado de Tablas ...................................................................................................................................... iii

1 Resumen ............................................................................................................................................. 1

2 Introducción ......................................................................................................................................... 1

3 Descripción General .......................................................................................................................... 3

3.1 Objetivos ...................................................................................................................................... 3

3.2 Antecedentes .............................................................................................................................. 3

3.2.1 [2003] XML Based-Health Framework ............................................................................ 3

3.2.2 [2008] Multi-Dimensional Temporal Abstraction and Data Mining. ............................ 3

3.2.3 [2013] Big Data in Neonatal Intensive Care ................................................................... 4

3.3 Identificación del problema y su importancia ......................................................................... 4

4 Diseño y Especificaciones ................................................................................................................ 5

4.1 Definición del problema ............................................................................................................. 5

4.2 Especificaciones ......................................................................................................................... 5

4.2.1 CRISP-DM ........................................................................................................................... 6

4.2.1.1 Entendimiento del Negocio ....................................................................................... 7

4.2.1.2 Entendimiento de los Datos ...................................................................................... 7

4.2.1.3 Preparación de los Datos .......................................................................................... 7

4.2.1.4 Modelamiento.............................................................................................................. 8

4.2.1.5 Evaluación ................................................................................................................... 8

4.2.1.6 Despliegue ................................................................................................................... 8

4.3 Restricciones ............................................................................................................................... 9

5 Desarrollo del Diseño ........................................................................................................................ 9

5.1 Recolección de Información ..................................................................................................... 9

5.2 Alternativas de Diseño ............................................................................................................. 10

5.2.1 Identificación de Patrones ............................................................................................... 10

5.2.2 Clustering y Clasificación ................................................................................................ 11

6 Implementación ................................................................................................................................ 12

6.1 Descripción de la Implementación ......................................................................................... 12

6.1.1 Etapa: Clustering .............................................................................................................. 12

6.1.1.1 Entendimiento del Negocio ..................................................................................... 12

ii

6.1.1.2 Entendimiento de los Datos .................................................................................... 12

6.1.1.3 Preparación de los Datos ........................................................................................ 14

6.1.1.4 Modelamiento............................................................................................................ 17

6.1.1.5 Evaluación ................................................................................................................. 18

6.1.1.6 Despliegue ................................................................................................................. 18

6.1.2 Etapa: Clasificación.......................................................................................................... 19

6.1.2.1 Entendimiento del Negocio ..................................................................................... 19

6.1.2.2 Entendimiento de los Datos .................................................................................... 19

6.1.2.3 Preparación de los datos ........................................................................................ 20

6.1.2.4 Modelamiento............................................................................................................ 27

6.1.2.5 Evaluación ................................................................................................................. 28

6.2 Resultados Esperados ............................................................................................................ 29

6.2.1 Etapa: Clustering .............................................................................................................. 29

6.2.2 Etapa: Clasificación.......................................................................................................... 30

7 Validación .......................................................................................................................................... 31

7.1 Métodos ..................................................................................................................................... 31

7.1.1 Etapa de Clustering.......................................................................................................... 31

7.1.2 Etapa de Clasificación ..................................................................................................... 31

7.1.2.1 Test-Split .................................................................................................................... 31

7.1.2.2 K-fold Cross Validation ............................................................................................ 32

7.2 Validación de Resultados ....................................................................................................... 32

8 Conclusiones ..................................................................................................................................... 32

8.1 Discusión ................................................................................................................................... 33

8.2 Trabajo Futuro .......................................................................................................................... 33

9 Referencias ....................................................................................................................................... 34

iii

LISTADO DE FIGURAS

Figura 1: Descomposición jerárquica de la metodología CRISP-DM. [Figure 1] (SPSS, 2000) . 6

Figura 2: Diagrama de las Fases de CRISP-DM. [Figure 2] (SPSS, 2000) ................................. 7

Figura 3: Resumen CRISP-DM - Fases y Tareas. [Figure 3] (SPSS, 2000) ............................... 8

Figura 4: Esquema General de MIMIC-II. ..................................................................................10

Figura 5: Modelo de Datos simplificado (Segmento de Interés) ................................................14

Figura 6: Resumen de Segmentación K-Means. [WEKA] ..........................................................18

Figura 7: Características variable de Clase [CANDIDATO] .......................................................22

Figura 8: Gráfica variable de clase [CANDIDATO] ....................................................................22

Figura 9: Características variable MAX_RC. .............................................................................23

Figura 10: Gráfica variable MAX_RC. .......................................................................................23

Figura 11: Características variable MAX_RR ............................................................................23

Figura 12: Gráfica variable MAX_RR ........................................................................................24

Figura 13: Características variable MIN_CO .............................................................................24

Figura 14: Gráfica variable MIN_CO .........................................................................................24

Figura 15: Características variable CONT_RC ..........................................................................25

Figura 16: Gráfica variable CONT_RC ......................................................................................25

Figura 17: Cracterísticas variable CONT_RR ............................................................................25

Figura 18: Gráfica variable CONT_RR ......................................................................................26

Figura 19: Características variable CONT_CO..........................................................................26

Figura 20: Gráfica variable CONT_CO ......................................................................................26

Figura 21: Características variable CONT_SIMULT ..................................................................27

Figura 22: Gráfica variable CONT_SIMULT ..............................................................................27

LISTADO DE TABLAS

Tabla 1: Segmento Consolidado de Medicamentos. .................................................................17

Tabla 2: Segmento de Dataset de Eventos de Variables Fisiológicas. ......................................21

Tabla 3: Segmento Consolidado Variables Fisiológicas. ...........................................................22

Tabla 4: Matriz de Confusión - NaiveBayes [Test Split] .............................................................28

Tabla 5: Matriz de Confusión - NaiveBayes [Cross Validation] ..................................................28

Tabla 6: Matriz de Confusión - RandomForest [Test Split] ........................................................28

Tabla 7: Matriz de Confusión - RandomForest [Cross Validation] .............................................29

1

1 RESUMEN

El proyecto está enmarcado en el mejoramiento de la calidad del servicio de salud en las

Unidades de cuidados intensivos para neonatos. En este tipo de unidades, a pesar de que se

realiza un monitoreo de una gran cantidad de indicadores vitales de los pacientes actualmente

no se está realizando un uso efectivo de la información proveniente de este monitoreo.

(McGregor, 2013) Sin embargo el alto volumen de datos recolectado tiene gran potencial como

mecanismo de predicción y prevención de condiciones adversas para los pacientes,

convirtiéndose en un reto explotar este potencial, a través de mecanismos que posibiliten una

extracción, procesamiento y descubrimiento de relaciones entre las variables monitoreadas y la

condición clínica del paciente. En general los resultados del proyecto pueden usarse para

concluir sobre los datos que permitan realizar labores inicialmente de identificación y

posteriormente predictivas, disminuyendo así los tiempos de respuesta ante cambios en los

diferentes indicadores vitales de un paciente, que finalmente conducirán a lograr proveer un

tratamiento de forma más oportuna, mejorando la efectividad del mismo.

2 INTRODUCCIÓN

La problemática asociada a las unidades de cuidados intensivos (UCI) en Colombia puede

ser vista desde diferentes aspectos, que en conjunto constituyen la motivación de este estudio.

En primer lugar se encuentra el aspecto de la mortalidad infantil que se puede considerar evitable.

Para entender la incidencia de este aspecto, es necesario en primer lugar entender el concepto

de muerte evitable, a este respecto, una muerte evitable se considera como tal cuando cumple

con uno o más de los siguientes criterios. En primer lugar si está asociada con una falta de

atención médica oportuna, o si existía la tecnología médica disponible para afrontar el problema

y salvar la vida y por último se considera muerte evitable si existen políticas públicas de

prevención del aspecto de salud que generó la muerte.1 Una vez habiendo hecho claridad acerca

de este concepto, es relevante mencionar que en Bogotá, la mortalidad infantil en el año 2013

fue de 10,1 por cada 1000 nacidos vivos, y de este número, cerca del 42% corresponden a

muertes en el periodo pos-neonatal, que corresponde a menores de más de 28 días de nacidos.

Estas muertes en su gran mayoría están clasificadas como evitables.2

El segundo aspecto es el del talento humano asociado a la oferta de las UCI en Colombia. Si

bien la cantidad de unidades de cuidados intensivos ha presentado un crecimiento importante en

los últimos 25 años, no se puede decir lo mismo del personal y recurso humano de dichas

unidades, que aún es escaso, principalmente debido al poco tiempo que los programas

académicos de especialización en diferentes áreas de la salud llevan siendo ofrecidos por

diferentes instituciones educativas del país. Este hecho hace que se generen dos problemas

asociados a esta escasez en la oferta de profesionales idóneos para las UCI’s. El primero radica

en que la calidad del servicio de salud de un gran número de UCI’s se vea disminuido debido a

1 (Insituto Nacional de Salud, Observatorio Nacional de Salud, 2014) 2 (Así Vamos en Salud, 2014)

2

la insuficiencia de profesionales que atiendan la demanda de las mismas, y el segundo aspecto

impacta directamente a los profesionales, quienes reciben cargas de trabajo demasiado altas.

Hablando específicamente de los cuidados tras las intervenciones realizadas, la reducción en

personal especializado y disponible, implica una relación de profesionales por paciente más

bajas, que se ha probado generan tiempos de respuesta mayores ante problemas de seguridad

con el paciente, así como de reacción ante eventos adversos del mismo.3

El tercer y último aspecto a considerar se basa en temas normativos, en donde el Ministerio de

Salud y Protección Social, ha establecido tres condiciones fundamentales que deben cumplir los

prestadores de Salud en el territorio nacional, como métodos para garantizar la calidad en los

servicios prestados, lo cual aplica de forma especial para las UCI’s. La primera condición radica

en la capacidad técnico-administrativa, referente al personal no solamente médico sino al uso

efectivo de recursos, la segunda está dada por la suficiencia patrimonial y financiera, y finalmente

la condición de interés para este estudio está dada por la capacidad tecnológica y científica. Esta

condición se basa en tres principios: En primer lugar la fiabilidad, que hace referencia a la

capacidad de evaluación objetiva y homogénea. En segundo lugar la esencialidad, que implica

que las capacidades tecnológicas y científicas son necesarias y suficientes para la reducción de

los riesgos a la vida de los usuarios de los servicios de salud. Por último se tiene el principio de

sencillez, que indica que deben existir mecanismos entendibles de autoevaluación y validación

ante diferentes interesados.4

Teniendo en cuenta las diferentes dimensiones presentadas del problema, una solución, desde

el campo de la Ingeniería de Sistemas y Computación, buscaría atacar los problemas descritos

a partir de una solución basada en tecnología. Se propone entonces el uso efectivo de la gran

cantidad de datos recolectada de los pacientes durante su periodo de hospitalización en las

UCI’s, como insumo para posibilitar procesos de extracción, procesamiento y visualización de

información que permita plantear mecanismos de predicción y sistemas de apoyo a las

decisiones clínicas.

El documento que describe el proceso seguido y el trabajo realizado inicia con la sección 3, en

donde se hace una breve descripción general, incluyendo los objetivos del proyecto, así como

los antecedentes y la identificación del problema. Acto seguido la sección 4 describe las

consideraciones de diseño y las especificaciones asociadas a la solución, incluyendo las

restricciones impuestas al proyecto. Seguidamente se describe el proceso de desarrollo,

partiendo desde la recolección de información, y las alternativas de diseño. Finalmente se

hablará de la implementación y de la validación de la efectividad, estos dos aspectos cubren los

resultados esperados, así como los métodos para probar la validez de los resultados obtenidos.

El documento incluye además la sección 8, de conclusiones y de discusión acerca de limitaciones

y problemas encontrados durante el desarrollo del proyecto.

3 (Perez Gutierrez & Rodriguez Darabos, 2015) 4 (Ministerio de Salud y Protección Social, 2013)

3

3 DESCRIPCIÓN GENERAL

3.1 OBJETIVOS Como se mencionó anteriormente este proyecto busca proponer el uso del alto volumen

de información que se genera de los diferentes dispositivos de monitoreo para pacientes

internados en UCI, como insumo para proponer sistemas de soporte a las decisiones clínicas y

mecanismos predictivos de condiciones adversas a los pacientes, especialmente enfocado a las

unidades de cuidados neonatales.

El proyecto intenta atacar los problemas asociados a la calidad de la prestación del servicio de

salud en UCI’s que presentan falencias en cuanto disponibilidad de talento humano, y que en

general presentan una oportunidad de mejora que sólo se ve estancada debido a la no utilización

de herramientas tecnológicas como métodos de prevención y soporte a las decisiones de los

profesionales de la salud.

El alcance del proyecto está definido por el análisis de datos existentes que permitan encontrar

relaciones entre los mismos, para la identificación de características indicadoras de presencia de

dolor. En este orden de ideas, el proyecto pretende encontrar la dependencia de la variación en

la medida de variables fisiológicas específicas: Ritmo cardiaco, ritmo respiratorio, concentración

de oxígeno en la sangre y presión arterial media, con la aparición de dolor en los pacientes.

3.2 ANTECEDENTES Dentro de los antecedentes se tienen diferentes trabajos de investigación, que apuntan a

la utilización de diferente información disponible en los hospitales, para apoyar el proceso de

toma de decisiones clínicas, así como la identificación temprana de sucesos adversos a los

pacientes.

3.2.1 [2003] XML Based-Health Framework

Esta investigación llevada a cabo en la ciudad de Ottawa – Canadá, realizó la

implementación de un sistema de soporte a las decisiones clínicas, usando XML como método

de estructurar y trasmitir la información. Adicionalmente realizó la inclusión de un sistema de

alertas, que buscaba identificar posible situaciones negativas en los pacientes y una vez

identificadas, según parámetros modificables por cada profesional de la salud a través de una

interfaz gráfica, poder realizar la trasmisión de la alerta. Esta propuesta fue diseñada

especialmente para las unidades de cuidados intensivos neonatales.5

3.2.2 [2008] Multi-Dimensional Temporal Abstraction and Data Mining.

Esta investigación se realizó en Vancouver – Canadá, enfocada en las unidades de

cuidados intensivos neonatales (NICU). La propuesta se basa en el uso de información

proveniente tanto de la parte clínica de la entrada de los pacientes, así como del monitoreo que

se les realiza, para usarla como entradas en técnicas de minería de datos que permitan encontrar

relaciones entre lecturas sobre pacientes que se ven afectados por determinados eventos, y

5 (Catley, Frize, Walker, & St. Germain, 2003)

4

poder utilizar estas relaciones en la predicción de estas situaciones para futuros pacientes.

Adicionalmente proponen la utilización de una técnica conocida como abstracción temporal, en

donde convierten señales continuas a categorías establecidas de acuerdo a parámetros que han

sido definidos usualmente por profesionales de la salud, con esta técnica se pretende generar

información cualitativa a partir de las lecturas cuantitativas y de esta forma conocer el estado de

una lectura de acuerdo a su interpretación frente a los parámetros definidos por los expertos de

dominio.

Además realizan una investigación en cuanto a los retos que implica la implementación de un

sistema basado en estas técnicas, desde el tema de extracción de datos, hasta la integración

tanto a nivel de procesos como dentro del sistema en general.6

3.2.3 [2013] Big Data in Neonatal Intensive Care

Esta publicación presenta los beneficios potenciales de la utilización de las datos

disponibles del proceso de monitoreo en las unidades de cuidados intensivos neonatales. La

investigación se realizó en Toronto – Canadá en donde se ha presentado una plataforma en línea

llamada Artemis, que realiza el análisis y diagnóstico anticipado. La plataforma recibe información

fisiológica de los pacientes así como la información clínica disponible, y realiza procesamiento

sobre dicha información para predecir situaciones como infecciones, problemas respiratorios y

presencia de dolor.

La investigación también presenta los retos asociados a la implementación de sistemas de

soporte como Artemis, dentro de los más importantes se encuentran el de lograr una extracción,

transmisión y almacenamiento seguros, soportar iniciativas de mejoramiento basadas en estas

plataformas, así como de los métodos de cuantificar la mejoría en calidad del servicio prestado

usando dichas plataformas.7

3.3 IDENTIFICACIÓN DEL PROBLEMA Y SU IMPORTANCIA Como se mencionó en la Introducción de este documento, el problema radica en la

presencia de problemas en la prestación del servicio de salud en las unidades de cuidados

intensivos neonatales y pediátricos en el territorio Colombiano, esto producto de diferentes

aspectos que componen la problemática.

Dentro de los más importantes se encuentran el de la presencia de una gran cantidad de muertes

evitables para niños menores de 1 año. Que al ser categorizadas como evitables, se pueden

evitar a través del uso de tecnologías existentes en este caso, pero que por problemas de

inversión en investigación y desarrollo no han sido ampliamente explotadas en el sector salud.

Otro aspecto importante que podría aliviarse en buena medida con soluciones basadas en

tecnología es el de la escasez de profesionales de la salud que atiendan las diferentes etapas

de los procedimientos que se llevan a cabo en las unidades de cuidado intensivo. Pues lograr

una solución que logre anticipar la ocurrencia de eventos adversos para los pacientes implica

para los profesionales la posibilidad de iniciar un tratamiento de forma más rápida, y no tan

6 (Catley, Stratti, & McGregor, 2008) 7 (McGregor, 2013)

5

reactiva. Esto aliviando los problemas derivados de las bajas relaciones de profesionales para

cada paciente.

Por último atacando las limitaciones tecnológicas y científicas, las investigaciones en estos

campos podrían implicar un cambio a futuro de los procedimientos y métodos en los que los

prestadores de salud realicen su ejercicio profesional, apoyándose cada vez más en sistemas de

soporte a las decisiones clínicas.

Todos los aspectos descritos, y cómo una solución basada en tecnología podría ser la respuesta

a los mismos, envuelven un alto aspecto social, que podría permear una gran cantidad de niveles

sociales, llegando a ofrecer un beneficio para diferentes comunidades.

4 DISEÑO Y ESPECIFICACIONES

4.1 DEFINICIÓN DEL PROBLEMA El problema se desarrolla en el campo de la minería de datos, aplicada a la disciplina de la

salud, en donde se busca generar un modelo de identificación de dolor basado en el

comportamiento de variables fisiológicas de las que se tenga información, las más relevantes

son el ritmo cardiaco, el ritmo respiratorio, la concentración de oxígeno en la sangre y la presión

arterial media.8 Una vez definidos estos elementos, el problema se puede dividir en dos partes

principalmente.

En primer lugar se debe generar un criterio de decisión que permita conocer con cierto nivel de

certeza si un paciente ha sufrido dolor o no. Esto debe lograrse recurriendo a la información de

los procedimientos realizados, medicamentos suministrados y otro tipo de información no

relacionada con las lecturas fisiológicas del paciente. Para este proceso contar con un experto

de dominio, en este caso profesional de la salud, constituye una ventaja de gran valor, pues

permitirá que la certeza del criterio definido sea muy alta.

En segundo lugar y una vez completada la fase de definición del criterio, se debe realizar la

evaluación de la relación de las variables fisiológicas con los resultados arrojados por este

criterio, es decir, evaluar el nivel de precisión con el que el comportamiento de las variables

fisiológicas representa la presencia de dolor que ha sido previamente determinada a través del

criterio desarrollado.

4.2 ESPECIFICACIONES Si bien el proyecto no tendrá como objetivo el desarrollo de una solución de software

propiamente dicha, sino más bien unas conclusiones a la luz de procesos de Segmentación y

Clasificación, las especificaciones estarían orientadas a estos dos aspectos:

En primer lugar de la etapa de Segmentación, se espera que los resultados obtenidos vayan en

concordancia con la semántica del problema que se está tratando, es decir que representen

8 (Naik, Thommandram, Fernando, Bressan, & McGregor, 2014)

6

posibles situaciones en las que los pacientes podrían encontrarse al estar ubicados en una

unidad de cuidados intensivos neonatales (NICU).

En segundo lugar se espera que la fase de Clasificación tenga niveles de precisión altos, de

acuerdo al criterio que se haya elegido, por lo que se considera que valores alrededor 85% de

precisión para un modelo de clasificación constituye un nivel de aceptación.

Finalmente para hablar acerca de la metodología a utilizar, se espera hacer uso de una

metodología aceptada de Minería de Datos, para esto se revisaron las más importantes dentro

de este dominio, encontrando tres posibles candidatas: KDD, SEMMA, CRISP-DM. Las cuáles

fueron evaluadas a la luz de las diferentes fases que las componen, la pertinencia para la

disciplina específica sobre la que se desarrolla el proyecto, la facilidad de implementación en el

proyecto y la capacidad de resolver los problemas planteados.9

Con estos criterios presentes, se eligió la metodología CRISP-DM, que involucra ciertos aspectos

relevantes dentro del proyecto a través de sus fases y gracias a su conformación.

4.2.1 CRISP-DM

CRISP-DM que hace referencia a Cross Industry Standard Process for Data Mining es

una metodología muy completa, que pretende describir los elementos necesarios dentro de un

proceso de minería de datos, en diferentes niveles de especialización, definiendo de forma

jerárquica cuatro aspectos relevantes dentro de todo proyecto.

Figura 1: Descomposición jerárquica de la metodología CRISP-DM. [Figure 1] (SPSS, 2000)

En primer lugar las fases, que constituyen los elementos de más alto nivel, que son seguidas por

actividades genéricas, que a su vez se logran con actividades especializadas y llegando al nivel

más bajo de la jerarquía, se encuentran las instancias de procesos, que representan actividades

9 (Azevedo & Filipe Santos, 2008)

7

específicas, decisiones y resultados que deben realizarse y tenerse en cuenta dentro del

desarrollo del proyecto.

Como primer nivel, CRISP-DM está descrita por las siguientes fases, que constituyen el ciclo de

vida del proyecto de minería de datos, que a su vez se soportan cada una sobre actividades

encaminadas a cumplir cada una de las fases.

Figura 2: Diagrama de las Fases de CRISP-DM. [Figure 2] (SPSS, 2000)

4.2.1.1 Entendimiento del Negocio

Esta es la fase inicial en todo proyecto que pretenda seguir la metodología CRISP-DM,

en esta se busca obtener la perspectiva del negocio que defina los objetivos y requerimientos del

proyecto, para de esta forma definir de forma preliminar un mapa de ruta que permita alcanzar

los objetivos planteados.

4.2.1.2 Entendimiento de los Datos

Esta fase se basa en la adquisición de los datos y en todas las actividades encaminadas

a alcanzar un buen grado de familiaridad con los mismos, entendiendo su estructura y contenido

para identificar potenciales problemas de calidad o elementos interesantes que permitan plantear

hipótesis.

4.2.1.3 Preparación de los Datos

Esa fase enmarca todas las actividades de procesamiento que se llevan a cabo sobre los

datos para la generación del data set final que será usado dentro de la fase de modelamiento,

cubre etapas como limpieza, selección de atributos y cálculo de consolidados.

8

4.2.1.4 Modelamiento

Dependiendo del tipo de problema que se requiera abordar, se eligen las estrategias más

adecuadas según la capacidad y validez de cada una de ellas dentro del problema específico

que se pretende resolver. Una vez seleccionadas las estrategias y técnicas de modelado a utilizar

éstas son aplicadas.

4.2.1.5 Evaluación

Para esta etapa ya se tienen los modelos construidos sobre los datos, y éstos presentan

el potencial de dar solución al problema de minería que el proyecto enfrenta. Por ese motivo en

esta fase se realiza una evaluación de la capacidad real con la que los modelos dan solución a

los problemas a la luz de los objetivos de negocio resultantes del levantamiento inicial de

requerimientos. En este punto se deben tener conclusiones claras acerca del proyecto y de los

resultados del proceso de minería ejecutado.

4.2.1.6 Despliegue

Si bien el modelo constituye un buen entregable, es necesario organizar todo el

conocimiento generado del proyecto en su totalidad, y de las fases que lo conformaron, en

reportes que muestren la generación de valor para el negocio, y que permitan a diferentes actores

en el futuro hacer uso de las conclusiones y hallazgos resultantes del proyecto.

Como elemento final en la descripción de la metodología se incluirán las tareas asociadas a cada

fase, en una tabla resumen.

Figura 3: Resumen CRISP-DM - Fases y Tareas. [Figure 3] (SPSS, 2000)

9

4.3 RESTRICCIONES Dentro de este aspecto, se pueden considerar restricciones de dos tipos: Temporales y de

Recursos. Las primeras están asociadas al hecho de tener un plazo de entrega de un semestre,

en el cual el proyecto de grado debe desarrollarse y entregarse, haciendo que el proyecto de

minería de datos, en este caso, deba estar contenido en este mismo tiempo.

Las restricciones de Recursos, están supeditadas a la disponibilidad de los mismos,

independientemente del tipo de los mismos. Para este caso la principal restricción de este

aspecto se da en la disponibilidad de los datos necesarios para llevar a feliz término el proyecto,

así como de la información contenida en dichos datos, en donde la completitud y variedad de

información debe considerarse como factor limitante en el tipo de análisis que se puedan efectuar

y que lleven a una solución al problema planteado.

5 DESARROLLO DEL DISEÑO

El primer paso en el proceso de diseño claramente consistió en la definición de la

metodología que se iba a utilizar para el proyecto. Una vez definido este aspecto, se empezaron

a definir las estrategias encaminadas a la solución de los problemas encontrados y que se

convierten en los objetivos del proyecto.

A su vez se debían examinar las diferentes alternativas en cuanto a fuentes de datos, y

alternativas de diseño.

5.1 RECOLECCIÓN DE INFORMACIÓN En este aspecto, se consideró el uso de datos reales extraídos de pacientes NICU, que se

esperaba fueran provistos por el Hospital de la Misericordia de Bogotá (HOMI), sin embargo esta

primera alternativa no fue posible, debido a demoras en los permisos sobre el uso de la

información y retrasos asociados a cuestiones burocráticas y normativas con respecto al manejo

que el HOMI hace de la información sensible de sus pacientes.

Como alternativa, se tuvo conocimiento de MIMIC, que es una base de datos desarrollada por el

MIT Lab for Computational Physiology, que contiene información de más de 40 𝑚𝑖𝑙 pacientes

hospitalizados en unidades de cuidados intensivos entre 2001 y 2012. Incluye información de

diferentes tipos acerca de los pacientes como demográfica, signos vitales, resultados de pruebas

de laboratorio, procedimientos y medicamentos, entre los más relevantes. Es necesario aclarar

que toda la información sensible de los pacientes ha sido eliminada, para evitar la identificación

de los mismos. (Saeed, et al., 2011)

Esta base de datos, estaba dividida en dos partes, la primera una parte relacional con todas las

tablas necesarias para presentar toda la información de los eventos médicos asociados a la

hospitalización de cada paciente y la segunda parte denominada WFDB (Waveform Database),

que relacionaba pacientes con lecturas de diferentes signos vitales tal y como los registraban los

instrumentos de monitoreo que se encuentran en las unidades de cuidados intensivos.

10

Se presenta una visión general de cómo se compone MIMIC-II, extraída en las etapas iniciales

del proyecto de su página (ahora obsoleta)10 de documentación.

Figura 4: Esquema General de MIMIC-II.

Si bien esta fue la fuente de datos elegida para llevar a cabo el proyecto, no quiere decir que no

presentara problemas y retos para su uso adecuado, empezando por temas de actualización,

pues pasó de MIMIC-II a MIMIC-III durante el desarrollo del proyecto. Además se presentaron

problemas de accesibilidad a los datos, que debieron resolverse pero impactaron en el

cumplimiento de cronogramas y plazos establecidos.

5.2 ALTERNATIVAS DE DISEÑO En este aspecto se describirán las diferentes alternativas para abordar el proyecto, especificando

las circunstancias y detalles que permitieron o no la elección de cada una de ellas.

5.2.1 Identificación de Patrones

Esta fue la primera aproximación que se consideró para afrontar el problema, pues ya que se

tenía conocimiento de la parte WFDB de MIMIC. Esta alternativa buscaba realizar la búsqueda

10 El sitio actualizado de MIMIC: http://mimic.physionet.org/

http://mimic.physionet.org/

11

de los waveforms de los pacientes internados en NICU, sin embargo tuvo que descartarse debido

a que la información de las waveforms no correspondía a registros de pacientes NICU y por lo

tanto no habría posibilidad de evaluar ninguna hipótesis sobre el segmento de población

deseado, que eran neonatos.

5.2.2 Clustering y Clasificación

Esta alternativa surge tras descartar la alternativa inicial. La idea de esta alternativa se basaba

en dos pasos para resolver el problema de encontrar una relación entre el comportamiento de

las variables de signos vitales y la presencia de dolor en Neonatos.

La primera etapa, por así denominarla, consistió en la revisión y entendimiento de los tipos de

procedimientos y posibles padecimientos de los neonatos, así como de los tipos de

medicamentos que se empleaban en sus tratamientos y las funciones específicas de cada uno

de ellos. Para lograr emplear técnicas de Segmentación que permitieran generar un criterio claro,

basado en datos médicos, que pudiera dar información acerca de cuáles de los pacientes

tratados podrían considerarse como Candidatos a haber sufrido dolor, y de esta forma lograr

dividir el segmento de población a estudiar en dos categorías que serían posteriormente

utilizadas en una segunda etapa.

La segunda etapa consistió en la extracción y revisión de datos disponibles concerniente a las

variables fisiológicas medidas de los pacientes. Para este aspecto se emplearon estudios

previos, como el de (Naik, Thommandram, Fernando, Bressan, & McGregor, 2014), en el que

definían una serie de variables y valores umbrales como indicadores de la presencia de dolor.

Estas variables eran el ritmo cardiaco, el ritmo respiratorio, la concentración de oxígeno en la

sangre y la presión arterial media. Variables que junto con sus valores umbrales constituían el

PIPP (Premature Infant Pain Profile), y cuya validez sería evaluada a la luz de los datos

disponibles, validando la capacidad que los cambios y registros en estas variables fisiológicas

tienen en explicar la aparición de dolor. Para esta etapa se buscaba aplicar técnicas de

clasificación, que permitieran obtener conclusiones con respecto al tema que se estaba tratando.

Finalmente esta fue la alternativa elegida, y sobre estas dos etapas se aplicó la metodología

CRISP-DM, de forma iterativa, pues cada una de estas etapas compone un problema de minería

de datos por sí mismo. De tal forma que las salidas y resultados del primer proceso, se

convertirán en las entradas para la el segundo proceso. Y así completar el proyecto.

12

6 IMPLEMENTACIÓN

6.1 DESCRIPCIÓN DE LA IMPLEMENTACIÓN Como se mencionó anteriormente, se escogió la metodología CRISP-DM para el desarrollo

del proyecto, por lo que se hará una descripción de las actividades realizadas en cada una de

las fases para las dos etapas que se llevaron a cabo en el desarrollo del proyecto y que hicieron

parte del diseño de la solución.

Sin embargo las dos etapas no involucraron todas las fases de forma secuencial, pero a pesar

de este hecho la descripción se hará individualmente de acuerdo a la división propuesta por

CRISP-DM.

6.1.1 Etapa: Clustering


Si bien este problema no se aplica a un negocio como tal, la disciplina de la salud

envuelve una serie compleja de conocimientos que debieron adquirirse de fuentes como

profesionales de la salud, específicamente de la Doctora Ligia Cárdenas y del personal a cargo

de la operación de instrumentos de medición y registro de signos vitales en la Unidad de cuidados

intensivos neonatales (NICU) del Hospital de la Misericordia (HOMI), al cual se realizó una visita

para conocer mucho más de cerca la forma en la que operan, y llevan los registros de la

información de los pacientes. Sin embargo fue necesario recurrir a bibliografía sugerida en

diferentes temas específicos, así como otras consultas realizadas también a Médicos y

estudiantes de medicina.

Durante esta fase se entendió el problema que debía abordarse con el proyecto y la forma como

éste sería de utilidad. Es decir se encontró que, teniendo en cuenta que se buscaba atacar el

segmento de NICU en hospitales, la evaluación de la presencia de dolor es demasiado subjetiva,

y que incluso la definición formal del dolor se basa en lo que pueda expresar el paciente acerca

del mismo, así como su localización, naturaleza e intensidad.


Una vez comprendido el aspecto médico del problema, se emprendió el entendimiento de

los datos disponibles en MIMIC, revisando la parte relacional de dicha base de datos.

En primer lugar debía realizarse la adquisición del acceso a MIMIC. Esta base de datos

solamente ofrecía algunas herramientas ligeras en línea que permitían consultas sencillas y que

no representaran gran volumen de datos en las mismas. Por este motivo fue necesario lograr

una mayor autonomía y desempeño en el acceso a los datos. Para lograrlo solamente una opción

estaba disponible, a través de archivos separados por coma (.csv) que contenían todos los

registros de cada una de las tablas incluidas en el modelo de datos de MIMIC. El proceso de

adquisición de datos se describe a continuación:

Creación de base de datos local: Se optó por crear una base de datos local de Oracle

12c, y realizar la administración de un usuario sobre un schema que contendrá las tablas

correspondientes de MIMIC.

13

Creación del Modelo de Datos: Se crearon las tablas necesarias de acuerdo a los scripts

para tal fin dispuestos en la documentación de MIMIC. 11 Como dato adicional, se

menciona que no se incluyeron las restricciones de llaves foráneas y dependencias entre

tablas, pues los temas de consistencia se asumieron resueltos dentro del modelo y los

datos de la base de datos MIMIC.

Import de Datos: Se emplearon los mencionados archivos (*.csv)12 como origen de los

datos y el proceso de carga se realizó utilizando SQL Developer, herramienta a través de

la cual se realizaba la conexión a la base de datos de Oracle creada. Por temas de

rendimiento se desactivaron los índices sobre las llaves primerias de cada tabla, así como

el Redo Log de la base de datos, permitiendo realizar esta labor con un buen rendimiento.

Este proceso de acceso a los datos a través de medios autónomos se realizó tras una fase previa

en la que para lograr acceder a la información de contenida en MIMIC, debía realizarse un curso

virtual acerca de la importancia de la integridad y responsabilidad en pruebas médicas con

humanos, y en el componente ético de todo proceso investigativo desarrollado en el campo de

la salud.

Las labores de exploración de los datos buscaban mostrar una perspectiva clara acerca de la

información ofrecida por la base de datos, y la forma como podría emplearse para llegar a una

solución del problema del criterio de decisión acerca de la presencia de dolor en un paciente, de

acuerdo a los eventos que se hubieran registrado durante su hospitalización en la unidad de

cuidados intensivos. Para esto se estudiaron con detalle las diferentes tablas disponibles para

entender su contenido y las limitaciones que presentaban en términos de las necesidades de

información potenciales para el proyecto.

Dentro de los hallazgos más importantes del proceso de exploración se encuentra el hecho de

que la base de datos registra los eventos de cada uno de los pacientes, de acuerdo a la

naturaleza del evento registrado, recurriendo a tablas independientes para cada uno de los

posibles tipos de eventos. Dentro de los eventos más importantes se encuentran los

CHARTEVENTS, que corresponden a los eventos registrados por doctores y enfermeras, acerca

de las lecturas de los pacientes en cuanto a signos vitales y suministro de medicamentos. Sin

embargo hay otras tablas que relacionan eventos de otra naturaleza como Entrada y Salida de

pacientes a las unidades cuidados intensivos, resultados de laboratorio, eventos de resultados

Microbiológicos y una tabla que contiene eventos relevantes para el proyecto, asociados al

suministro de dosis de medicamentos.

11 https://github.com/MIT-LCP/mimic-code/tree/master/buildmimic

12 https://physionet.org/works/MIMICIIIClinicalDatabase/

https://github.com/MIT-LCP/mimic-code/tree/master/buildmimic

https://physionet.org/works/MIMICIIIClinicalDatabase/

14

Figura 5: Modelo de Datos simplificado (Segmento de Interés)

Se presentó el modelo de datos de las tablas de interés para el proyecto, en donde D_ITEMS

describe todos los posibles elementos, que pueden contener las tablas de CHARTEVENTS e

INPUTEVENTS_CV, de tal forma que cada entrada en estas dos últimas tablas estará

relacionado con un ítem en D_ITEMS. Adicionalmente, se asocia el paciente y el ingreso

correspondiente a cada paciente en las tablas PATIENTS e ICUSTAYS correspondientemente.

6.1.1.3 Preparación de los Datos

El proceso de selección de datos comienza con las actividades de selección de los

mismos. En este aspecto se tuvo en cuenta el conocimiento específico del dominio, con el fin de

determinar los datos que serían de mayor relevancia para el propósito de generar el criterio de

decisión acerca de la presencia de dolor. Los datos elegidos se dividen en categorías:

Medicamentos: Dentro de esta categoría se buscaron los medicamentos mencionados

por la doctora Ligia Cárdenas, de tal forma que se tuviera una lista clara de aquellos

medicamentos con acciones analgésicas en los neonatos. Sin embargo no se encontró

correspondencia para todos los medicamentos mencionados por la doctora. Dentro de

los elementos encontrados se tienen:

o Fentanyl.

o Tylenol.

o Sulfato de Morfina.

o Acetaminofén.

15

Sin embargo hay que comprobar la presencia de eventos asociados a los medicamentos

listados, por lo que se revisa una tabla adicional (IOEVENTS), que por los temas de

actualización del esquema de la base de datos fue dividida en OUTPUTEVENTS,

INPUTEVENTS_MV e INPUTEVENTS_CV. Dos tablas según el origen de los datos: CV

hace referencia a CareVue ICU Databases y MV hace referencia a Metavision ICU

Databases. La tercera tabla recopila todos los eventos de salida de fluidos, mientras las

dos anteriores registran todos los eventos de entrada. Esta división obedece a las

diferencias entre las fuentes de datos que alimentan MIMIC, que hizo imposible la

unificación de las mismas en una tabla única de eventos de este tipo.

Este listado fue enriquecido con medicamentos que son usados durante procesos

médicos, como Vasopresores y Anticoagulantes, de tal forma que se extendiera el listado

para incluir medicamentos como:

o Heparin

o Dopamina

o Dobutamina

Con estos nuevos medicamentos seleccionados para hacer parte del consolidado con el

que se construirá el dataset del modelo.

Procedimientos: Acerca de los procedimientos que se efectuaron a los pacientes, se

realizó la búsqueda de aquellos de los que se tiene una mayor probabilidad de generar

dolor sobre el paciente objeto de dicho procedimiento. De acuerdo a la Doctora Ligia, se

debían revisar procedimientos en los siguientes campos:

o Reparación de Hernia: Desde inguinales hasta umbilicales.

o Paso de Catéter Venoso Central: Este procedimiento, a pesar de ser invasivo,

puede proveer métodos de monitoreo a signos vitales del paciente, así como

permitir el suministro de medicamentos.

o Drenaje de Absceso: Ese tipo de procedimiento no había sido conducido sobre

pacientes NICU.

Variables Adicionales: De acuerdo al criterio de la Doctora Ligia Cárdenas, es útil en la

definición del criterio la inclusión de variables adicionales acerca de la situación del

paciente, sin embargo los datos disponibles en MIMIC constituyen un factor limitante, se

listan las variables extra disponibles para su uso:

o Género: De cada paciente se tiene su género.

o Duración de la Hospitalización: Se tiene también información de la estadía en

NICU para cada una de los pacientes.

Teniendo claros los elementos con los que se contaba, se empezó a revisar el tema de la calidad

de los datos en cada uno de los tres aspectos mencionados, para el tema de los medicamentos

la información estaba completa, incluyendo información de las dosis suministradas, con la

respectiva unidad de medida de cada una de los medicamentos. Adicionalmente para las

variables adicionales no habían valores nulos ni faltantes, por lo que el temas de calidad estos

aspectos eran adecuados para su uso. Finalmente para los procedimientos, no existía

información de las fechas en los que se habían realizado, y sólo existía una noción de orden

16

entre las intervenciones llevadas a cabo sobre cada paciente, motivo por el cual este aspecto de

la revisión tuvo que ser descartado.

Con las labores de revisión de calidad completas, se procede a definir el dataset que será

empleado, este proceso se pensó en términos del objetivo que se quería lograr que era una

segmentación clara para definir el criterio de decisión. En una primera instancia se ideó un

dataset que consideraba seis medicamentos:

Heparin: Medicamento registrado en las tabla de IOEVENTS, que luego sería actualizada

a INPUTEVENTS_CV.

Heparin Solution: Categoría construida a partir de una serie de medicamentos que

contenían Heparin diluido en un medio de suministro, en donde variaba la relación de

volumen de dicho compuesto, sin embargo manteniendo las unidades totales del

medicamento.

Fentanyl Drip: Evento asociado al suministro de Fentanyl por goteo.

Dopamine Drip: Goteo del medicamento medido en unidades de volumen/unidad de

tiempo.

Dobutamine Drip: Goteo del medicamento medido en unidades de volumen/unidad de

tiempo.

Morphine Sulfate: Suministro del medicamento registrado en la tabla de IOEVENTS,

posteriormente actualizada a INPUTEVENTS_CV.

De estos seis medicamentos se calculó un consolidado para cada uno de los pacientes, en donde

por cada uno de los medicamentos incluidos, se registraban los siguientes valores:

Conteo de Dosis: Se realizaba el cálculo de la cantidad de veces que el paciente había

recibido una dosis de dicho medicamento.

Primera Dosis: Se registraba el valor numérico de la dosis de cada medicamento. Este

cálculo requería un procesamiento previo asociado a la homogenización de las variables

de medida, de tal forma que los medicamentos medidos en volumen tuvieran las mismas

unidades, y aquellos medidos en velocidades de goteo (volumen/tiempo), debían

homogenizarse también, pues no podían llevarse a una unidad absoluta, ya que

dependían del peso del paciente, información que no se tenía.

Dosis Máxima: Se calculaba el valor de la dosis máxima suministrada al paciente.

Relación Dosis/Duración: Se consideró una variable calculada sobre el conteo de dosis

dividido entre la duración de la hospitalización, como forma de hacer comparables las

situaciones de diferentes pacientes, añadiendo información de una frecuencia de

suministro, pues este valor era un indicador del número de dosis por unidad de tiempo.

Sin embargo este dataset no mostró los resultados esperados frente a una idea clara de la

situación de los pacientes, esto debido a que tenía demasiados campos (+20) y muchos se

encontraban en cero, debido a que no muy pocos pacientes recibían todos los medicamentos.

Por este motivo el dataset se modificó, de acuerdo a una agrupación previa sobre los

medicamentos según la naturaleza de dichos medicamentos. Las categorías halladas son las

siguientes:

17

Analgésicos: En esta categoría se unieron el Fentanyl Drip y el Morphine Sulfate.

Vasopresores: Medicamentos cuyo objetivo es el de mejorar el rendimiento cardiaco y

por ende el bombeo de sangre. En esta categoría se unieron el Dopamine Drip y el

Dobutamine Drip.

Anticoagulantes: Esta categoría unificó los dos medicamentos que tenían como

componente principal el Heparin.

Con estas nuevas categorías, los valores numéricos de las dosis ya no podían ser comparables

a lo largo de toda la categoría, y fue necesario buscar un nuevo método de generar el consolidado

por paciente incluyendo toda la información posible:

Género: Se incluyó el género del paciente.

Duración de la Hospitalización: Se incluyó esta variable de forma independiente.

Analgésicos: Columna calculada bi-nominal que indicaba si el paciente había recibido o

no medicamentos de tipo analgésico.

Anticoagulantes: Columna calculada bi-nominal que indicaba si el paciente había

recibido o no medicamentos de tipo anticoagulante.

Vasopresores: Columna calculada bi-nominal que indicaba si el paciente había recibido

o no medicamentos de tipo vasopresor.

Conteo Analgésicos: Columna calculada que indicaba el número de veces que había

sido suministrado un medicamento analgésico.

Conteo Anticoagulantes: Columna calculada que indicaba el número de veces que

había sido suministrado un medicamento anticoagulante.

Conteo Vasopresores: Columna calculada que indicaba el número de veces que había

sido suministrado un medicamento vasopresor.

A continuación se presenta un segmento del dataset definitivo usado en las labores de

segmentación:

Tabla 1: Segmento Consolidado de Medicamentos.

SUBJECT_ID GENDER LOS ANALG ANTICOA VASOP ANALG

CUENTA

ANTICO

CUENTA

VASOP

CUENTA

517 F 117.3351 Si No Si 995 0 249

575 M 74.0496 No Si Si 0 45 21

632 F 62.9213 No Si No 0 2 0

1071 M 8.7911 No Si No 0 3 0

2393 M 66.8721 No Si No 0 14 0

2267 M 35.1004 No Si Si 0 160 60

Este consolidado se realiza para un total de 473 pacientes de los que se tienen registros de

suministro de medicamentos.


Ya que en esta etapa inicial, el problema de minería era un problema específicamente de

segmentación, se optó por el uso del algoritmo de K-Means, que define un conjunto de clusters

de acuerdo a una medida de cercanía entre las instancias evaluadas y cada cluster generado.

Sin embargo, el algoritmo requiere la definición del parámetro K, que debía hacerse por medio

18

de experimentación directa sobre los datos, hasta encontrar clusters que tuvieran un sentido

dentro de la semántica del problema médico que se estaba tratando.

Tras experimentar sobre este aspecto, se es cogió un valor de 𝑘 = 4, de tal forma que la

población de pacientes del dataset, se dividió en cuatro clusters. El resumen de resultados se

presenta a continuación:

Figura 6: Resumen de Segmentación K-Means. [WEKA]

6.1.1.5 Evaluación

La evaluación no fue conducida de forma secuencial en el orden que se presenta en este

documento, pues la medida de efectividad de este proceso de segmentación y de sus resultados

depende de los resultados del proceso de clasificación que le siguieron.

En este aspecto, los temas de evaluación se realizaron de forma iterativa tras completar la fase

de Clasificación, volviendo sobre algunas etapas del proceso, con el fin de revisar posibles

fuentes de error. De esta fase, debe mencionarse que en la segunda iteración, se realizaron

cambios al criterio de decisión sobre los posibles candidatos a haber sentido dolor, quitando del

criterio los medicamentos Anticoagulantes y Vasopresores, pues lecturas posteriores realizadas

indican que este tipo de medicamentos son usados en Neonatos para tratar problemas

hemodinámicos, que no generan dolor, sino problemas como arritmia, hipotensión, disfunción del

miocardio e incluso fallo hemodinámico (causado por anemia o por hipovolemia).13 Con esta

nueva información se definió el criterio, teniendo en cuenta los resultados de las variables de

duración de la hospitalización y de suministro de analgésicos. Lo cual mostró mejores resultados

a la luz del proceso de clasificación.

6.1.1.6 Despliegue

El despliegue en este caso, no se realiza de forma propiamente dicha, sin embargo, el

uso de los resultados de esta etapa de segmentación, en la etapa siguiente, correspondiente a

13 (Golombek, et al., 2011)

19

clasificación muestra el despliegue del modelo aplicado al dataset que será empleado para la

clasificación.

6.1.2 Etapa: Clasificación


Esta etapa se basó en la lectura de investigaciones que buscaban encontrar la relación entre las

variables fisiológicas registradas por los instrumentos de monitoreo NICU, y la presencia de dolor.

Una de las más relevantes fue la investigación de (Naik, Thommandram, Fernando, Bressan, &

McGregor, 2014). En donde no sólo se decide el subconjunto de variables que serán tenidas en

cuenta en la definición de un perfil de identificación de dolor para neonatos, sino que además se

definen los valores umbrales asociados a la presencia de dicho dolor. De esta investigación se

extrajo el siguiente conjunto de variables que se esperaba fueran incluidas dentro del análisis del

problema:

Ritmo Cardiaco (HR) > 160/min

Presión arterial media (MAP) > 55 mmHg

Ritmo Respiratorio (RR) > 40/min

Concentración de oxígeno (SpO2) < 90%

Sin embargo como se mencionó, por temas de disponibilidad de los datos, la variable de presión

arterial media no pudo ser analizada.


Este proceso se llevó a cabo revisando todos los posibles elementos que estuvieran asociados

a las variables de interés dentro de la tabla de D_ITEMS incluida en el modelo de datos de la

exploración inicial. La revisión se realizó usando SQL Developer para acceder a los registros de

las tablas y ejecutar las consultas correspondientes. A continuación se muestra un resumen de

la exploración inicial

Heart Rate (HR)

o (211) Heart Rate: Ritmo cardiaco.

o (3494) Lowest Heart Rate: Evento de ritmo cardiaco mínimo.

Arterial blood pressure Mean

o (52) Arterial BP Mean: Presión arterial media. (Category=null)

o (443) Manual BP Mean (calc): Aparentemente es un cálculo que se realiza de

forma manual.

o (2294) ART MEAN: Se presume corresponde a la PAM.

o (2647) art mean: Se presume corresponde a la PAM. Se desconoce la

diferencia entre esta y la de ITEMID=2294.

o (6590) arterial mean #2: Segunda medida de la PAM. Diferencia con

ITEMID=6702?

o (6702) Arterial BP Mean #2: Segundo registro de la PAM.

o (6927) Arterial Mean #3: Tercer registro de la PAM.

Nota: Se excluyeron del listado todos los registros que incluían el hecho de ser PAM

Femoral.

20

Respiratory Rate (RR)

o (219) High Resp. Rate: Asociado al ritmo respiratorio. Se presume corresponde

a un valor máximo registrado.

o (614) Resp Rate (Spont): Podría referirse a un valor tomado en un intervalo

aleatorio de tiempo.

o (618) Respiratory Rate

o (619) Respiratory Rate Set

o (653) Spont. Resp. Rate

o (1635) HIGH Resp Rate

o (1884) Spont Resp Rate

o (3337) Breath Rate

o (3603) Resp Rate

o (8113) Resp. Rate

Concentración de Oxígeno SpO2

o (646) SpO2: Concentración de oxígeno en la sangre.

o (1037) O2 %

o (834) SaO2

De todos los elementos asociados a cada variable, se identificaron aquellos de utilidad, revisando

directamente los datos, y la información contenida en los registros de cada uno de dichos

elementos. Tras esta revisión final, se eligieron los siguientes elementos (items) que

representaban:

Ritmo Cardiaco: (211) Heart Rate

Presión Arterial Media: No se encontaron coincidencias de registros para NICU.

Ritmo Respiratorio: (618) Respiratory Rate – (3603) Resp Rate

o (618) Respiratory Rate: Registra cuando el ritmo respiratorio es mayor a 60 /min

(450 registros)

o (3603) Resp Rate: Registra el valor numérico del ritmo respiratorio (1’668.644

registros), por lo tato este ítem se elige para representar la variable de ritmo

respiratorio.

Concentración de Oxígeno: (834) SaO2

6.1.2.3 Preparación de los datos

Una vez elegidos los elementos concretos que representarán las variables de interés, se revisan

los eventos asociados a dichos elementos, y se realiza la selección del subconjunto de eventos

estableciendo condiciones basadas en los valores umbrales definidos previamente:

Ritmo Cardiaco >= 160 bpm

Ritmo Respiratorio >= 40 Breath/min

Concentración de Oxígeno en la sangre <= 90 %

Usando estas condiciones juntas en un OR compuesto, se realiza la selección inicial de datos,

en donde se tiene un registro para cada paciente, en donde alguna de las tres variables estaba

por fuera de los rangos establecidos, en un momento del tiempo dado, es decir que se registran

21

las lecturas de las tres variables de forma simultánea garantizando la ocurrencia simultanea de

los eventos. A continuación se muestra un segmento del dataset generado.

Tabla 2: Segmento de Dataset de Eventos de Variables Fisiológicas.

PACIENTE UCI RITMO CARDIACO UOM RITMO RESP UOM_1 % O2 UOM_2 CHARTTIME

7 NICU 160 bpm 56 Breath 100 % 5/25/2121 3:30

7 NICU 115 bpm 42 Breath 95 % 5/25/2121 6:00

8 NICU 132 bpm 50 Breath 96 % 11/20/2117 20:00

8 NICU 129 bpm 52 Breath 96 % 11/20/2117 21:00

8 NICU 133 bpm 55 Breath 95 % 11/20/2117 22:00

8 NICU 131 bpm 46 Breath 95 % 11/20/2117 23:00

8 NICU 136 bpm 48 Breath 90 % 11/21/2117 0:00

8 NICU 140 bpm 75 Breath 93 % 11/21/2117 1:00

8 NICU 142 bpm 75 Breath 96 % 11/21/2117 2:00

8 NICU 140 bpm 44 Breath 97 % 11/21/2117 4:00

Este dataset inicial del cual se espera extraer el consolidado de variables fisiológicas, contiene

más de 990 𝑚𝑖𝑙 registros de alrededor de 4200 pacientes diferentes.

De esta forma habiendo definido los eventos de interés para la modelación, se procede a definir

las variables a incluir en el cálculo del consolidado de variables fisiológicas. Tras revisiones y

reuniones, se decide incluir las siguientes variables y columnas calculadas sobre los eventos de

las variables:

Máximo Ritmo Cardiaco: Se registra para cada paciente el valor más alto del ritmo

cardiaco que se haya registrado.

Máximo Ritmo Respiratorio: Se registra para cada paciente el valor más alto del ritmo

cardiaco que se haya registrado.

Mínima Concentración de Oxígeno: Se registra para cada paciente la concentración de

oxígeno más baja registrada en los eventos extraídos previamente.

Conteo de Eventos de Ritmo Cardiaco: Se hace un conteo de los eventos registrados

que fueron producto de un ritmo cardiaco elevado (≥ 160 𝑏𝑝𝑚).

Conteo de Eventos de Ritmo Respiratorio: Se hace un conteo de los eventos que

involucraron un ritmo respiratorio acelerado (≥ 40 𝐵𝑟𝑒𝑎𝑡ℎ/𝑚𝑖𝑛).

Conteo de Eventos de Concentración de Oxígeno: Se hace un conteo de los eventos

que se asocian a una concentración reducida de oxígeno en la sangre (≤ 90%).

Conteo de Eventos Simultáneos: Se hace un conteo de los eventos en los que para

cada paciente, las tres variables de forma simultánea se salieron de los rangos de

aceptación o normalidad.

Candidato: Variable de clase extraída de los resultados del proceso de segmentación en

donde se hizo que un paciente fuera candidato, si sobrepasaba los valores de la media

de la muestra, y si los conteos de suministro de analgésicos se encontraban por encima

de los valores hallados para la media de la muestra usada en el proceso de segmentación.

De lo contrario se consideraba que no serían candidatos a haber padecido dolor.

22

Se presenta un segmento del consolidado de variables, que contenía el mismo número de

registros del consolidado de medicamentos, pues sólo se pudieron usar las instancias para las

cuales se definiera la variable de clase que permitiera llevar a cabo el proceso de clasificación.

Tabla 3: Segmento Consolidado Variables Fisiológicas.

SUBJECT_ID MAX_RC MAX_RR MIN_CO CONT_RC CONT_RR CONT_CO CONT_SIMULT CANDIDATO

9102 210 97 80 1298 1354 17 10 No

9911 201 100 73 453 1292 136 37 Si

87 191 88 82 696 815 77 45 No

465 181 90 91 22 243 0 0 No

2112 200 85 86 769 810 4 2 No

2160 198 99 66 1310 1935 190 93 Si

2749 188 91 87 328 911 12 2 No

3071 188 73 70 19 16 3 2 No

A continuación se presenta el comportamiento de las variables del dataset de acuerdo a la clase

a la que pertenecen. En todas las gráficas, el color Azul representa la clase de NO SER

CANDIDATO a sentir dolor, mientras que el color rojo representa la clase contraria. Las gráficas

muestran un dataset con las clases balanceadas a través del uso de un filtro que aplica la técnica

de SubSampling sobre los datos.

Variable de Clase: CANDIDATO

Figura 7: Características variable de Clase [CANDIDATO]

Figura 8: Gráfica variable de clase [CANDIDATO]

23

Máximo Ritmo Cardiaco: MAX_RC

Figura 9: Características variable MAX_RC.

Figura 10: Gráfica variable MAX_RC.

Máximo Ritmo Respiratorio: MAX_RR

Figura 11: Características variable MAX_RR

24

Figura 12: Gráfica variable MAX_RR

Mínima Concentración de Oxígeno: MIN_CO

Figura 13: Características variable MIN_CO

Figura 14: Gráfica variable MIN_CO

25

Conteo de Eventos de Ritmo Cardiaco: CONT_RC

Figura 15: Características variable CONT_RC

Figura 16: Gráfica variable CONT_RC

Conteo de Eventos de Ritmo Respiratorio: CONT_RR

Figura 17: Cracterísticas variable CONT_RR

26

Figura 18: Gráfica variable CONT_RR

Conteo de Eventos de Concentración de Oxígeno: CONT_CO

Figura 19: Características variable CONT_CO

Figura 20: Gráfica variable CONT_CO

27

Conteo de Eventos Simultáneos: CONT_SIMULT

Figura 21: Características variable CONT_SIMULT

Figura 22: Gráfica variable CONT_SIMULT


La etapa de modelamiento comienza tras el proceso de balanceo de las clases del dataset de

clasificación. En este aspecto, se descartaron algunas técnicas como OverSampling y SMOTE,

por ser ambas técnicas que generan instancias nuevas usando técnicas aleatorias para su

generación. Dado que los datos que se tiene de pacientes reales, reflejan una condición física

particular, emplear alguna de estas dos técnicas podría llevar a la creación de instancias cuya

ocurrencia física fuera anatómica o fisiológicamente imposible, introduciendo errores dentro del

proceso de modelado. Sin embargo existe otra técnica llamada SubSampling que se basa en

balancear las clases, reduciendo de forma aleatoria las instancias de la clase más numerosa,

asegurando que al final, se tenga igual número de instancias en cada clase.

Una vez completado este proceso, se debe tener en cuenta que el SUBJECT_ID es sólo para

identificación y no refleja el comportamiento de las demás variables, por lo cual se excluye del

análisis.

28

Ya que se requiere definir un modelo de clasificación, se prueban varios modelos disponibles en

WEKA, siendo los de mejor desempeño Random Forest que se basa en el uso de una serie de

árboles de decisión (Random Tree) de tal forma que el dataset original se divide en 𝑛 conjuntos

de datos de forma aleatoria, de tal forma que cada conjunto entrenará un árbol de decisión de

forma independiente, para finalmente escoger la clase de cada instancia por Voting sobre los

resultados de cada árbol y NaiveBayes, que es un modelo que emplea la probabilidad condicional

y la independencia entre eventos para determinar la probabilidad con que una instancia

pertenece a una clase dada.

6.1.2.5 Evaluación

Se presentan entonces los resultados de los dos modelos mencionados para dos tipos de

condiciones de prueba empleados (Test Split y k-fold Cross Validation) En esta sección se

mostrarán las matrices de confusión de cada ejecución de los modelos de clasificación

empleados:

NaiveBayes (Test Split):

Se realiza una división del 66% para entrenamiento del modelo, y un 34% para la ejecución de

la prueba.

Tabla 4: Matriz de Confusión - NaiveBayes [Test Split]

Classified as → a b

No = a 65 4

Si = b 20 58

NaiveBayes (Cross validation):

Se utilizó un parámetro de 𝑘 − 𝑓𝑜𝑙𝑑𝑠 = 10

Tabla 5: Matriz de Confusión - NaiveBayes [Cross Validation]


No = a 198 18

Si = b 51 165

RandomForest (Test Split):

Se realiza una división del 66% para entrenamiento del modelo, y un 34% para la ejecución de

la prueba.

Tabla 6: Matriz de Confusión - RandomForest [Test Split]


No = a 64 5

Si = b 13 65

29

RandomForest (Cross Validation):

Se utilizó un parámetro de 𝑘 − 𝑓𝑜𝑙𝑑𝑠 = 10

Tabla 7: Matriz de Confusión - RandomForest [Cross Validation]


No = a 185 31

Si = b 40 176

Los resultados completos serán presentados en la sección de resultados.

6.2 RESULTADOS ESPERADOS

6.2.1 Etapa: Clustering

Los resultados esperados en esta etapa se basan en una división semánticamente correcta a la

luz de los datos médicos, es decir lograr que los clusters hallados reflejen situaciones posibles a

las que podría verse sometido un paciente de acuerdo a su estado de salud y a las intervenciones

que sobre él deben realizarse. En este orden de ideas se encontró que un número adecuado de

clusters (teniendo en cuenta el tamaño final del dataset), cuya interpretación se presenta a

continuación:

Cluster 1: Corresponde a aquellos pacientes en su mayoría de género masculino que

recibieron algún tipo de tratamiento asociado a la presencia de Anticoagulantes y

Vasopresores, esto evidenciado a través de una mayor cantidad de suministro de estos

dos tipos de medicamentos comparada con la suministrada en promedio a la población.

Probablemente no sufrieron complicaciones y por este motivo no requirieron de ningún

Analgésico. La duración de la hospitalización de estos pacientes se encuentra por debajo

del promedio de la población de estudio.

Cluster 2: Corresponde a pacientes que recibieron muy pequeñas dosis de Analgésicos

y Vasopresores, y que como parte de su tratamiento sólo fue necesario el uso de

Anticoagulantes, aún en menos proporción que el promedio de la población.

Cluster 3: Esta categoría constituye los pacientes que se presume sintieron dolor durante

su hospitalización, derivado de la necesidad de suministro de los tres tipos de

medicamentos, en cantidades considerablemente mayores a las de la población.

Adicionalmente se tiene que la duración de su hospitalización se encuentra por encima

de la duración promedio de la población.

Cluster 4: Corresponde a pacientes de los que se presume fueron sometidos a un

tratamiento que requirió de un periodo de observación y control sobre su evolución, de

ahí que se tengan duraciones de hospitalización mayores al promedio (Aunque inferiores

a las de la categoría anterior). Se les suministraron los tres tipos de medicamentos, pero

en su mayoría, sólo resulta relevante la cantidad de Anticoagulantes, aunque se

encuentre esta cantidad debajo del promedio de la muestra estudiada.

30

6.2.2 Etapa: Clasificación

En esta etapa se presentan los resultados del proceso de clasificación para el clasificador

Random Forest, que presentó el mejor desempeño:

Cross Validation:

Test Split:

31

En primer lugar se observa que el modelo clasifica correctamente un buen porcentaje de las

instancias del dataset, mostrando entonces la relación entre el comportamiento de las variables

fisiológicas y los registros médicos empleados en la definición del criterio de decisión.

Adicionalmente entrando un poco más en el detalle de los resultados arrojados por el modelo, se

observa la proporción de Verdaderos Positivos es bastante buena (entre 0.836 y 0.878), y que

a pesar de que una clase tiene un valor cercano a estar entre 86% y 93%, la clase de interés,

que corresponde a los pacientes que sí sufrieron dolor, tiene valores de entre 81.5% y 83.3%.

Esta métrica es importante pues corresponde al Recall, que para la clase “Si”, tiene una

semántica en la que de todos aquellos pacientes que pertenecen a la clase, cuántos fueron

clasificados correctamente:

𝑅𝑒𝑐𝑎𝑙𝑙𝑆𝑖 =𝑇𝑃𝑠𝑖

𝑇𝑃𝑠𝑖 + 𝐹𝑁𝑆𝑖

Esta medida también se conoce como Sensitividad.

Como comentario final sobre los resultados asociados a la categoría de “Si”, se tiene que la

precisión fue buena, estando entre 85% y 92%, lo cual implica que de todas las instancias

clasificadas en la categoría de “Si” éste porcentaje efectivamente correspondía a dicha categoría

y por ende constituye un acierto en la clasificación.

7 VALIDACIÓN

7.1 MÉTODOS

7.1.1 Etapa de Clustering

Esta etapa empleó métodos de validación basados en la concordancia con la semántica del

dominio tratado, es decir, se revisó que los resultados fueran correctos a la luz de las evidencias

médicas y del conocimiento específico en este campo provisto por la Doctora Ligia Cárdenas y

por las lecturas realizadas de forma autónoma.

Adicionalmente la validación se realizó teniendo como medida de efectividad, la capacidad que

los resultados de esta etapa tenían para convertirse en entradas de buena calidad para la

siguiente etapa.

7.1.2 Etapa de Clasificación

7.1.2.1 Test-Split

Este método presenta una forma sencilla de garantizar que sobre modelos de clasificación no se

generen modelos que hagan sobreajuste sobre los datos de entrenamiento. La idea es simple,

pues consiste en dividir aleatoriamente el conjunto inicial de datos en dos dataset diferentes que

corresponden cada uno a cierto porcentaje del dataset original, de esta forma el primero de los

conjuntos de datos se empleará en el entrenamiento del modelo, permitiendo realizar una prueba

con un conjunto de datos diferentes al de entrenamiento.

32

Tiene una desventaja y es que no asegura que las clases resulten balanceadas al dividir el

conjunto original en el conjunto de entrenamiento y el de prueba, dando lugar a sesgos sobre la

clase que quede con mayor número de instancias.

7.1.2.2 K-fold Cross Validation

Este método consiste en dividir el dataset original de forma aleatoria en 𝑘 conjuntos de igual

tamaño. Del total de subconjuntos se toman 𝑘 − 1 para realizar el proceso de entrenamiento,

combinando los resultados de las múltiples ejecuciones de entrenamiento, para finalmente

emplear el último de los subconjuntos como test set. Esta técnica se emplea para reducir la

variabilidad de los resultados del modelo.

7.2 VALIDACIÓN DE RESULTADOS Como se ha venido presentando a lo largo de la descripción de las fases de la metodología

CRIPS-DM, el proceso de validación consistió en dos etapas, la primera relacionada con los

resultados del proceso de segmentación, que involucró una validación a la luz de la disciplina

médica.

Por otro lado la validación de los resultados de la etapa de Clasificación fue validada empleando

las dos técnicas descritas en el numeral anterior (Test Split y Cross Validation) y los resultados

de dicha validación fueron presentados a lo largo de la descripción de las fases de Modelamiento

y Evaluación de la metodología empleada.

8 CONCLUSIONES

Con respecto al trabajo realizado, se concluirá teniendo en cuenta las dos etapas principales que

se desarrollaron a lo largo del proyecto:

Acerca del proceso de segmentación, se concluye que el uso de algoritmos de

segmentación se presentó como una buena solución en el proceso de caracterizar la

población que se estaba analizando para permitir hallar las características comunes que

los hacían identificables como pacientes que habían sufrido de dolor. No sin antes

requerir un trabajo dedicado y a conciencia en la selección de los datos médicos que

debían ser tenidos en cuenta y cuales por el contrario introducían ruido en esta

segmentación.

El proceso de clasificación ha dejado como conclusión clara la relación entre los registros

de las variables fisiológicas y sus eventos de valores por fuera de los rangos umbrales

establecidos, con la presencia de dolor en dichos pacientes. De tal forma que el proyecto

se muestra como un buen estimador del potencial que el uso de estos datos tiene como

elemento de identificación de la presencia de dolor en Neonatos.

Se cumplen con los objetivos del proyecto, pues se logra aplicar una metodología

completa (CRISP-DM), que permite la ejecución de cualquier proceso de minería de

datos independientemente del campo específico en el que éste se desarrolle. Sin dejar

de lado el entendimiento que se debe tener del dominio específico, lo que permite tomar

decisiones técnicas que van en acuerdo con los objetivos y los intereses del negocio,

33

aunque esto no signifique necesariamente la relación con una empresa o actividad

económica.

8.1 DISCUSIÓN En este espacio de discusión, se considera importante mencionar un elemento de extrema

importancia en este tipo de proyectos y este es el de la necesidad continua de retroalimentación

y comentarios frente al trabajo realizado por parte de un experto de dominio, de tal forma que se

reduzca la posibilidad de incluir hipótesis erróneas en el proceso que lleven a resultados

incoherentes o que no cuentan con los niveles de aceptación mínimos, que en ese orden de

ideas también deberían ser definidos en acuerdo con los expertos de dominio.

Con esa idea ya mencionada, se propone entonces como punto de discusión frente a este

proyecto en particular, la poca participación de los expertos de dominio (Expertos de la Salud),

que hubieran podido involucrarse de manera más comprometida con el proyecto. Esto pensando

especialmente en la etapa inicial, en donde debía definirse el criterio de decisión con base en

datos médicos. En esta etapa el apoyo y validación por parte de un(a) doctor(a) representaría la

tranquilidad de que no se han hecho suposiciones equivocadas ni de que se están excluyendo

elementos importantes que alguien que no conozca el campo de la medicina en su totalidad

podría llegar a obviar en determinado momento. Ese punto se menciona de forma enfática como

aspecto de atención para cualquier proyecto de esta naturaleza.

8.2 TRABAJO FUTURO Dentro de los aspectos más importantes a tener en cuenta para un posible trabajo futuro se

encuentran dos.

El primero, lograr llevar a cabo este análisis de datos a la realidad colombiana, empleando para

ello datos reales de pacientes NICU en hospitales colombianos, con el fin de evidenciar si hay

otros elementos que deban ser incluidos y que ayuden en la tarea de identificación de dolor. Esto

se relaciona directamente con la inclusión de otros elementos médicos como la información de

Procedimientos, que por problemas de calidad de los datos, en este proyecto no pudieron ser

incluidos.

El segundo elemento tiene que ver con la inclusión de la cuarta variable (Presión Arterial Media),

de tal forma que se complete al perfil de identificación de dolor, y se pueda tener un panorama

completo de la forma como esta variable se ve incidida por la existencia de dolor. Esto podría

extenderse a otros signos vitales que se registran en las unidades de cuidados intensivos y que

podrían dar explicación a la presencia de dolor, esto pensando en variables fisiológicas que sean

fácilmente extraíbles sin necesidad de realizar monitoreo invasivo del paciente, lo cual introduce

elementos de complejidad en la toma de las muestras y afectaciones para el paciente.

34

9 REFERENCIAS

Así Vamos en Salud. (2014). Atención Primaria en Salud: avances y retos en Colombia.

Informe Anual, Bogotá D.C. Recuperado el 22 de 08 de 2015

Azevedo, A., & Filipe Santos, M. (2008). KDD, SEMMA, CRISP-DM: A Parallel Overview.

IADIS. Recuperado el 9 de 12 de 2015, de

http://dis.unal.edu.co/profesores/eleonguz/cursos/md/documentos/metodologias.pdf

Catley, C., Frize, D., Walker, D., & St. Germain, L. (2003). Integrating Clinical Alerts into an

XML-Based health care Framework for the Neonatal Intensive Care Unit. Ottawa: IEEE.

Recuperado el 23 de 08 de 2015

Catley, C., Stratti, H., & McGregor, C. (2008). Multi-Dimensional Temporal Abstraction and Data

Mining of Medical Time Series Data: Trends and Challenges. Vancouver: IEEE.

Recuperado el 23 de 08 de 2015

Golombek, S. G., Fariña, D., Sola, A., Baquero, H., Cabañas, F., Dominguez, F., . . . Bancalari,

E. (2011). Segundo Consenso Clínico de la Sociedad Iberoamericana de Neonatología:

manejo hemodinámico del recién nacido. Rev Panam Salud Pública. Recuperado el 11

de 12 de 2015, de http://www.scielosp.org/pdf/rpsp/v29n4/10.pdf

Insituto Nacional de Salud, Observatorio Nacional de Salud. (2014). Tercer Informe ONS:

Mortalidad Evitable en Colombia para 1998-2011. BogotáD.C: Imprenta Nacional de

Colombia. Recuperado el 22 de 08 de 2015

McGregor, C. (Junio de 2013). Big Data in Neonatal Intensive Care. IEEE Software(0018-

9162/13). Recuperado el 21 de 08 de 2015

Ministerio de Salud y Protección Social. (2013). Resolución No. 1441 de 2013. Recuperado el

24 de 08 de 2015

Naik, T., Thommandram, A., Fernando, K., Bressan, N., & McGregor, C. (2014). A Method for

Real-Time Novel Premature Infant Pain Profile using High Rate, High Volume

Physiological Data Streams. University of Ontario Institute of Technology. Oshawa:

IEEE. Recuperado el 24 de 08 de 2015

Perez Gutierrez, N., & Rodriguez Darabos, E. I. (2015). Talento Humano en unidades de

cuidado intensivo: adaptación de un modelo de estándares para Colombia basado en la

evidencia científica. Elsevier. Recuperado el 22 de 08 de 2015

Saeed, M., Villarroel, M., Resiner, A. T., Clifford, G., Lehman, L.-W., Moody, G., . . . Mark, R. G.

(2011). Miltiparameter Intelligent Monitoring in Intensive Care II (MIMIC-II): Apublic-

access intensive care unit database. Massachusetts Insitute of Technology . Boston:

National Institutes of Health. doi:10.1097/CCM.0b013e31820a92c6

SPSS. (2000). CRISP-DM 1.0. Step-by-step data mining guide. SPSS Inc. Recuperado el 9 de

12 de 2015, de https://www.the-modeling-agency.com/crisp-dm.pdf