PERFIL DE IDENTIFICACIÓN DE DOLOR EN NEONATOS A PARTIR DE VARIABLES
FISIOLÓGICAS
CAMILO ANDRÉS RAMÍREZ RINCÓN
UNIVERSIDAD DE LOS ANDES
FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
BOGOTÁ D.C.
2015
PERFIL DE IDENTIFICACIÓN DE DOLOR EN NEONATOS A PARTIR DE VARIABLES
FISIOLÓGICAS
CAMILO ANDRÉS RAMÍREZ RINCÓN
PROYECTO DE GRADO INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
DIRECTORA
MARIA DEL PILAR VILLAMILGIRALDO
INGENIERA DE SISTEMAS M.Sc. PhD.
UNIVERSIDAD DE LOS ANDES
FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
BOGOTÁ D.C.
2015
AGRADECIMIENTOS
Gracias a Dios por la vida que me ha ofrecido, por la familia con la que me permite compartir y
por los amigos que han sido incondicionales todo este tiempo.
Quiero agradecer especialmente a mis padres por todo su esfuerzo y entrega quienes durante
toda mi vida me han apoyado para dar siempre lo mejor. Les agradezco por permitirme hacer
parte de esta universidad, no sólo por su calidad académica indiscutible sino por todas las
posibilidades de crecimiento personal y profesional que me ha ofrecido. Pero más que todo estoy
agradecido por sus enseñanzas constantes, por educarme a través del ejemplo y por haber
dedicado sus vidas a formar la mía. Por todo eso doy gracias, pues soy quien soy gracias a ellos.
Gracias muy especiales a mi directora María del Pilar Villamil por haber confiado en mí y por todo
su apoyo a lo largo del semestre. Por su comprensión y dedicación que me ayudaron a
sobrepasar todas las dificultades que se presentaron. También extiendo mis agradecimientos a
la estudiante de Maestría Natalia Durán por introducirme a la problemática que motivó el
proyecto.
Camilo Andrés Ramírez Rincón.
i
TABLA DE CONTENIDO
Listado de Figuras ..................................................................................................................................... iii
Listado de Tablas ...................................................................................................................................... iii
1 Resumen ............................................................................................................................................. 1
2 Introducción ......................................................................................................................................... 1
3 Descripción General .......................................................................................................................... 3
3.1 Objetivos ...................................................................................................................................... 3
3.2 Antecedentes .............................................................................................................................. 3
3.2.1 [2003] XML Based-Health Framework ............................................................................ 3
3.2.2 [2008] Multi-Dimensional Temporal Abstraction and Data Mining. ............................ 3
3.2.3 [2013] Big Data in Neonatal Intensive Care ................................................................... 4
3.3 Identificación del problema y su importancia ......................................................................... 4
4 Diseño y Especificaciones ................................................................................................................ 5
4.1 Definición del problema ............................................................................................................. 5
4.2 Especificaciones ......................................................................................................................... 5
4.2.1 CRISP-DM ........................................................................................................................... 6
4.2.1.1 Entendimiento del Negocio ....................................................................................... 7
4.2.1.2 Entendimiento de los Datos ...................................................................................... 7
4.2.1.3 Preparación de los Datos .......................................................................................... 7
4.2.1.4 Modelamiento.............................................................................................................. 8
4.2.1.5 Evaluación ................................................................................................................... 8
4.2.1.6 Despliegue ................................................................................................................... 8
4.3 Restricciones ............................................................................................................................... 9
5 Desarrollo del Diseño ........................................................................................................................ 9
5.1 Recolección de Información ..................................................................................................... 9
5.2 Alternativas de Diseño ............................................................................................................. 10
5.2.1 Identificación de Patrones ............................................................................................... 10
5.2.2 Clustering y Clasificación ................................................................................................ 11
6 Implementación ................................................................................................................................ 12
6.1 Descripción de la Implementación ......................................................................................... 12
6.1.1 Etapa: Clustering .............................................................................................................. 12
6.1.1.1 Entendimiento del Negocio ..................................................................................... 12
ii
6.1.1.2 Entendimiento de los Datos .................................................................................... 12
6.1.1.3 Preparación de los Datos ........................................................................................ 14
6.1.1.4 Modelamiento............................................................................................................ 17
6.1.1.5 Evaluación ................................................................................................................. 18
6.1.1.6 Despliegue ................................................................................................................. 18
6.1.2 Etapa: Clasificación.......................................................................................................... 19
6.1.2.1 Entendimiento del Negocio ..................................................................................... 19
6.1.2.2 Entendimiento de los Datos .................................................................................... 19
6.1.2.3 Preparación de los datos ........................................................................................ 20
6.1.2.4 Modelamiento............................................................................................................ 27
6.1.2.5 Evaluación ................................................................................................................. 28
6.2 Resultados Esperados ............................................................................................................ 29
6.2.1 Etapa: Clustering .............................................................................................................. 29
6.2.2 Etapa: Clasificación.......................................................................................................... 30
7 Validación .......................................................................................................................................... 31
7.1 Métodos ..................................................................................................................................... 31
7.1.1 Etapa de Clustering.......................................................................................................... 31
7.1.2 Etapa de Clasificación ..................................................................................................... 31
7.1.2.1 Test-Split .................................................................................................................... 31
7.1.2.2 K-fold Cross Validation ............................................................................................ 32
7.2 Validación de Resultados ....................................................................................................... 32
8 Conclusiones ..................................................................................................................................... 32
8.1 Discusión ................................................................................................................................... 33
8.2 Trabajo Futuro .......................................................................................................................... 33
9 Referencias ....................................................................................................................................... 34
iii
LISTADO DE FIGURAS
Figura 1: Descomposición jerárquica de la metodología CRISP-DM. [Figure 1] (SPSS, 2000) . 6
Figura 2: Diagrama de las Fases de CRISP-DM. [Figure 2] (SPSS, 2000) ................................. 7
Figura 3: Resumen CRISP-DM - Fases y Tareas. [Figure 3] (SPSS, 2000) ............................... 8
Figura 4: Esquema General de MIMIC-II. ..................................................................................10
Figura 5: Modelo de Datos simplificado (Segmento de Interés) ................................................14
Figura 6: Resumen de Segmentación K-Means. [WEKA] ..........................................................18
Figura 7: Características variable de Clase [CANDIDATO] .......................................................22
Figura 8: Gráfica variable de clase [CANDIDATO] ....................................................................22
Figura 9: Características variable MAX_RC. .............................................................................23
Figura 10: Gráfica variable MAX_RC. .......................................................................................23
Figura 11: Características variable MAX_RR ............................................................................23
Figura 12: Gráfica variable MAX_RR ........................................................................................24
Figura 13: Características variable MIN_CO .............................................................................24
Figura 14: Gráfica variable MIN_CO .........................................................................................24
Figura 15: Características variable CONT_RC ..........................................................................25
Figura 16: Gráfica variable CONT_RC ......................................................................................25
Figura 17: Cracterísticas variable CONT_RR ............................................................................25
Figura 18: Gráfica variable CONT_RR ......................................................................................26
Figura 19: Características variable CONT_CO..........................................................................26
Figura 20: Gráfica variable CONT_CO ......................................................................................26
Figura 21: Características variable CONT_SIMULT ..................................................................27
Figura 22: Gráfica variable CONT_SIMULT ..............................................................................27
LISTADO DE TABLAS
Tabla 1: Segmento Consolidado de Medicamentos. .................................................................17
Tabla 2: Segmento de Dataset de Eventos de Variables Fisiológicas. ......................................21
Tabla 3: Segmento Consolidado Variables Fisiológicas. ...........................................................22
Tabla 4: Matriz de Confusión - NaiveBayes [Test Split] .............................................................28
Tabla 5: Matriz de Confusión - NaiveBayes [Cross Validation] ..................................................28
Tabla 6: Matriz de Confusión - RandomForest [Test Split] ........................................................28
Tabla 7: Matriz de Confusión - RandomForest [Cross Validation] .............................................29
1
1 RESUMEN
El proyecto está enmarcado en el mejoramiento de la calidad del servicio de salud en las
Unidades de cuidados intensivos para neonatos. En este tipo de unidades, a pesar de que se
realiza un monitoreo de una gran cantidad de indicadores vitales de los pacientes actualmente
no se está realizando un uso efectivo de la información proveniente de este monitoreo.
(McGregor, 2013) Sin embargo el alto volumen de datos recolectado tiene gran potencial como
mecanismo de predicción y prevención de condiciones adversas para los pacientes,
convirtiéndose en un reto explotar este potencial, a través de mecanismos que posibiliten una
extracción, procesamiento y descubrimiento de relaciones entre las variables monitoreadas y la
condición clínica del paciente. En general los resultados del proyecto pueden usarse para
concluir sobre los datos que permitan realizar labores inicialmente de identificación y
posteriormente predictivas, disminuyendo así los tiempos de respuesta ante cambios en los
diferentes indicadores vitales de un paciente, que finalmente conducirán a lograr proveer un
tratamiento de forma más oportuna, mejorando la efectividad del mismo.
2 INTRODUCCIÓN
La problemática asociada a las unidades de cuidados intensivos (UCI) en Colombia puede
ser vista desde diferentes aspectos, que en conjunto constituyen la motivación de este estudio.
En primer lugar se encuentra el aspecto de la mortalidad infantil que se puede considerar evitable.
Para entender la incidencia de este aspecto, es necesario en primer lugar entender el concepto
de muerte evitable, a este respecto, una muerte evitable se considera como tal cuando cumple
con uno o más de los siguientes criterios. En primer lugar si está asociada con una falta de
atención médica oportuna, o si existía la tecnología médica disponible para afrontar el problema
y salvar la vida y por último se considera muerte evitable si existen políticas públicas de
prevención del aspecto de salud que generó la muerte.1 Una vez habiendo hecho claridad acerca
de este concepto, es relevante mencionar que en Bogotá, la mortalidad infantil en el año 2013
fue de 10,1 por cada 1000 nacidos vivos, y de este número, cerca del 42% corresponden a
muertes en el periodo pos-neonatal, que corresponde a menores de más de 28 días de nacidos.
Estas muertes en su gran mayoría están clasificadas como evitables.2
El segundo aspecto es el del talento humano asociado a la oferta de las UCI en Colombia. Si
bien la cantidad de unidades de cuidados intensivos ha presentado un crecimiento importante en
los últimos 25 años, no se puede decir lo mismo del personal y recurso humano de dichas
unidades, que aún es escaso, principalmente debido al poco tiempo que los programas
académicos de especialización en diferentes áreas de la salud llevan siendo ofrecidos por
diferentes instituciones educativas del país. Este hecho hace que se generen dos problemas
asociados a esta escasez en la oferta de profesionales idóneos para las UCI’s. El primero radica
en que la calidad del servicio de salud de un gran número de UCI’s se vea disminuido debido a
1 (Insituto Nacional de Salud, Observatorio Nacional de Salud, 2014) 2 (Así Vamos en Salud, 2014)
2
la insuficiencia de profesionales que atiendan la demanda de las mismas, y el segundo aspecto
impacta directamente a los profesionales, quienes reciben cargas de trabajo demasiado altas.
Hablando específicamente de los cuidados tras las intervenciones realizadas, la reducción en
personal especializado y disponible, implica una relación de profesionales por paciente más
bajas, que se ha probado generan tiempos de respuesta mayores ante problemas de seguridad
con el paciente, así como de reacción ante eventos adversos del mismo.3
El tercer y último aspecto a considerar se basa en temas normativos, en donde el Ministerio de
Salud y Protección Social, ha establecido tres condiciones fundamentales que deben cumplir los
prestadores de Salud en el territorio nacional, como métodos para garantizar la calidad en los
servicios prestados, lo cual aplica de forma especial para las UCI’s. La primera condición radica
en la capacidad técnico-administrativa, referente al personal no solamente médico sino al uso
efectivo de recursos, la segunda está dada por la suficiencia patrimonial y financiera, y finalmente
la condición de interés para este estudio está dada por la capacidad tecnológica y científica. Esta
condición se basa en tres principios: En primer lugar la fiabilidad, que hace referencia a la
capacidad de evaluación objetiva y homogénea. En segundo lugar la esencialidad, que implica
que las capacidades tecnológicas y científicas son necesarias y suficientes para la reducción de
los riesgos a la vida de los usuarios de los servicios de salud. Por último se tiene el principio de
sencillez, que indica que deben existir mecanismos entendibles de autoevaluación y validación
ante diferentes interesados.4
Teniendo en cuenta las diferentes dimensiones presentadas del problema, una solución, desde
el campo de la Ingeniería de Sistemas y Computación, buscaría atacar los problemas descritos
a partir de una solución basada en tecnología. Se propone entonces el uso efectivo de la gran
cantidad de datos recolectada de los pacientes durante su periodo de hospitalización en las
UCI’s, como insumo para posibilitar procesos de extracción, procesamiento y visualización de
información que permita plantear mecanismos de predicción y sistemas de apoyo a las
decisiones clínicas.
El documento que describe el proceso seguido y el trabajo realizado inicia con la sección 3, en
donde se hace una breve descripción general, incluyendo los objetivos del proyecto, así como
los antecedentes y la identificación del problema. Acto seguido la sección 4 describe las
consideraciones de diseño y las especificaciones asociadas a la solución, incluyendo las
restricciones impuestas al proyecto. Seguidamente se describe el proceso de desarrollo,
partiendo desde la recolección de información, y las alternativas de diseño. Finalmente se
hablará de la implementación y de la validación de la efectividad, estos dos aspectos cubren los
resultados esperados, así como los métodos para probar la validez de los resultados obtenidos.
El documento incluye además la sección 8, de conclusiones y de discusión acerca de limitaciones
y problemas encontrados durante el desarrollo del proyecto.
3 (Perez Gutierrez & Rodriguez Darabos, 2015) 4 (Ministerio de Salud y Protección Social, 2013)
3
3 DESCRIPCIÓN GENERAL
3.1 OBJETIVOS Como se mencionó anteriormente este proyecto busca proponer el uso del alto volumen
de información que se genera de los diferentes dispositivos de monitoreo para pacientes
internados en UCI, como insumo para proponer sistemas de soporte a las decisiones clínicas y
mecanismos predictivos de condiciones adversas a los pacientes, especialmente enfocado a las
unidades de cuidados neonatales.
El proyecto intenta atacar los problemas asociados a la calidad de la prestación del servicio de
salud en UCI’s que presentan falencias en cuanto disponibilidad de talento humano, y que en
general presentan una oportunidad de mejora que sólo se ve estancada debido a la no utilización
de herramientas tecnológicas como métodos de prevención y soporte a las decisiones de los
profesionales de la salud.
El alcance del proyecto está definido por el análisis de datos existentes que permitan encontrar
relaciones entre los mismos, para la identificación de características indicadoras de presencia de
dolor. En este orden de ideas, el proyecto pretende encontrar la dependencia de la variación en
la medida de variables fisiológicas específicas: Ritmo cardiaco, ritmo respiratorio, concentración
de oxígeno en la sangre y presión arterial media, con la aparición de dolor en los pacientes.
3.2 ANTECEDENTES Dentro de los antecedentes se tienen diferentes trabajos de investigación, que apuntan a
la utilización de diferente información disponible en los hospitales, para apoyar el proceso de
toma de decisiones clínicas, así como la identificación temprana de sucesos adversos a los
pacientes.
3.2.1 [2003] XML Based-Health Framework
Esta investigación llevada a cabo en la ciudad de Ottawa – Canadá, realizó la
implementación de un sistema de soporte a las decisiones clínicas, usando XML como método
de estructurar y trasmitir la información. Adicionalmente realizó la inclusión de un sistema de
alertas, que buscaba identificar posible situaciones negativas en los pacientes y una vez
identificadas, según parámetros modificables por cada profesional de la salud a través de una
interfaz gráfica, poder realizar la trasmisión de la alerta. Esta propuesta fue diseñada
especialmente para las unidades de cuidados intensivos neonatales.5
3.2.2 [2008] Multi-Dimensional Temporal Abstraction and Data Mining.
Esta investigación se realizó en Vancouver – Canadá, enfocada en las unidades de
cuidados intensivos neonatales (NICU). La propuesta se basa en el uso de información
proveniente tanto de la parte clínica de la entrada de los pacientes, así como del monitoreo que
se les realiza, para usarla como entradas en técnicas de minería de datos que permitan encontrar
relaciones entre lecturas sobre pacientes que se ven afectados por determinados eventos, y
5 (Catley, Frize, Walker, & St. Germain, 2003)
4
poder utilizar estas relaciones en la predicción de estas situaciones para futuros pacientes.
Adicionalmente proponen la utilización de una técnica conocida como abstracción temporal, en
donde convierten señales continuas a categorías establecidas de acuerdo a parámetros que han
sido definidos usualmente por profesionales de la salud, con esta técnica se pretende generar
información cualitativa a partir de las lecturas cuantitativas y de esta forma conocer el estado de
una lectura de acuerdo a su interpretación frente a los parámetros definidos por los expertos de
dominio.
Además realizan una investigación en cuanto a los retos que implica la implementación de un
sistema basado en estas técnicas, desde el tema de extracción de datos, hasta la integración
tanto a nivel de procesos como dentro del sistema en general.6
3.2.3 [2013] Big Data in Neonatal Intensive Care
Esta publicación presenta los beneficios potenciales de la utilización de las datos
disponibles del proceso de monitoreo en las unidades de cuidados intensivos neonatales. La
investigación se realizó en Toronto – Canadá en donde se ha presentado una plataforma en línea
llamada Artemis, que realiza el análisis y diagnóstico anticipado. La plataforma recibe información
fisiológica de los pacientes así como la información clínica disponible, y realiza procesamiento
sobre dicha información para predecir situaciones como infecciones, problemas respiratorios y
presencia de dolor.
La investigación también presenta los retos asociados a la implementación de sistemas de
soporte como Artemis, dentro de los más importantes se encuentran el de lograr una extracción,
transmisión y almacenamiento seguros, soportar iniciativas de mejoramiento basadas en estas
plataformas, así como de los métodos de cuantificar la mejoría en calidad del servicio prestado
usando dichas plataformas.7
3.3 IDENTIFICACIÓN DEL PROBLEMA Y SU IMPORTANCIA Como se mencionó en la Introducción de este documento, el problema radica en la
presencia de problemas en la prestación del servicio de salud en las unidades de cuidados
intensivos neonatales y pediátricos en el territorio Colombiano, esto producto de diferentes
aspectos que componen la problemática.
Dentro de los más importantes se encuentran el de la presencia de una gran cantidad de muertes
evitables para niños menores de 1 año. Que al ser categorizadas como evitables, se pueden
evitar a través del uso de tecnologías existentes en este caso, pero que por problemas de
inversión en investigación y desarrollo no han sido ampliamente explotadas en el sector salud.
Otro aspecto importante que podría aliviarse en buena medida con soluciones basadas en
tecnología es el de la escasez de profesionales de la salud que atiendan las diferentes etapas
de los procedimientos que se llevan a cabo en las unidades de cuidado intensivo. Pues lograr
una solución que logre anticipar la ocurrencia de eventos adversos para los pacientes implica
para los profesionales la posibilidad de iniciar un tratamiento de forma más rápida, y no tan
6 (Catley, Stratti, & McGregor, 2008) 7 (McGregor, 2013)
5
reactiva. Esto aliviando los problemas derivados de las bajas relaciones de profesionales para
cada paciente.
Por último atacando las limitaciones tecnológicas y científicas, las investigaciones en estos
campos podrían implicar un cambio a futuro de los procedimientos y métodos en los que los
prestadores de salud realicen su ejercicio profesional, apoyándose cada vez más en sistemas de
soporte a las decisiones clínicas.
Todos los aspectos descritos, y cómo una solución basada en tecnología podría ser la respuesta
a los mismos, envuelven un alto aspecto social, que podría permear una gran cantidad de niveles
sociales, llegando a ofrecer un beneficio para diferentes comunidades.
4 DISEÑO Y ESPECIFICACIONES
4.1 DEFINICIÓN DEL PROBLEMA El problema se desarrolla en el campo de la minería de datos, aplicada a la disciplina de la
salud, en donde se busca generar un modelo de identificación de dolor basado en el
comportamiento de variables fisiológicas de las que se tenga información, las más relevantes
son el ritmo cardiaco, el ritmo respiratorio, la concentración de oxígeno en la sangre y la presión
arterial media.8 Una vez definidos estos elementos, el problema se puede dividir en dos partes
principalmente.
En primer lugar se debe generar un criterio de decisión que permita conocer con cierto nivel de
certeza si un paciente ha sufrido dolor o no. Esto debe lograrse recurriendo a la información de
los procedimientos realizados, medicamentos suministrados y otro tipo de información no
relacionada con las lecturas fisiológicas del paciente. Para este proceso contar con un experto
de dominio, en este caso profesional de la salud, constituye una ventaja de gran valor, pues
permitirá que la certeza del criterio definido sea muy alta.
En segundo lugar y una vez completada la fase de definición del criterio, se debe realizar la
evaluación de la relación de las variables fisiológicas con los resultados arrojados por este
criterio, es decir, evaluar el nivel de precisión con el que el comportamiento de las variables
fisiológicas representa la presencia de dolor que ha sido previamente determinada a través del
criterio desarrollado.
4.2 ESPECIFICACIONES Si bien el proyecto no tendrá como objetivo el desarrollo de una solución de software
propiamente dicha, sino más bien unas conclusiones a la luz de procesos de Segmentación y
Clasificación, las especificaciones estarían orientadas a estos dos aspectos:
En primer lugar de la etapa de Segmentación, se espera que los resultados obtenidos vayan en
concordancia con la semántica del problema que se está tratando, es decir que representen
8 (Naik, Thommandram, Fernando, Bressan, & McGregor, 2014)
6
posibles situaciones en las que los pacientes podrían encontrarse al estar ubicados en una
unidad de cuidados intensivos neonatales (NICU).
En segundo lugar se espera que la fase de Clasificación tenga niveles de precisión altos, de
acuerdo al criterio que se haya elegido, por lo que se considera que valores alrededor 85% de
precisión para un modelo de clasificación constituye un nivel de aceptación.
Finalmente para hablar acerca de la metodología a utilizar, se espera hacer uso de una
metodología aceptada de Minería de Datos, para esto se revisaron las más importantes dentro
de este dominio, encontrando tres posibles candidatas: KDD, SEMMA, CRISP-DM. Las cuáles
fueron evaluadas a la luz de las diferentes fases que las componen, la pertinencia para la
disciplina específica sobre la que se desarrolla el proyecto, la facilidad de implementación en el
proyecto y la capacidad de resolver los problemas planteados.9
Con estos criterios presentes, se eligió la metodología CRISP-DM, que involucra ciertos aspectos
relevantes dentro del proyecto a través de sus fases y gracias a su conformación.
4.2.1 CRISP-DM
CRISP-DM que hace referencia a Cross Industry Standard Process for Data Mining es
una metodología muy completa, que pretende describir los elementos necesarios dentro de un
proceso de minería de datos, en diferentes niveles de especialización, definiendo de forma
jerárquica cuatro aspectos relevantes dentro de todo proyecto.
Figura 1: Descomposición jerárquica de la metodología CRISP-DM. [Figure 1] (SPSS, 2000)
En primer lugar las fases, que constituyen los elementos de más alto nivel, que son seguidas por
actividades genéricas, que a su vez se logran con actividades especializadas y llegando al nivel
más bajo de la jerarquía, se encuentran las instancias de procesos, que representan actividades
9 (Azevedo & Filipe Santos, 2008)
7
específicas, decisiones y resultados que deben realizarse y tenerse en cuenta dentro del
desarrollo del proyecto.
Como primer nivel, CRISP-DM está descrita por las siguientes fases, que constituyen el ciclo de
vida del proyecto de minería de datos, que a su vez se soportan cada una sobre actividades
encaminadas a cumplir cada una de las fases.
Figura 2: Diagrama de las Fases de CRISP-DM. [Figure 2] (SPSS, 2000)
4.2.1.1 Entendimiento del Negocio
Esta es la fase inicial en todo proyecto que pretenda seguir la metodología CRISP-DM,
en esta se busca obtener la perspectiva del negocio que defina los objetivos y requerimientos del
proyecto, para de esta forma definir de forma preliminar un mapa de ruta que permita alcanzar
los objetivos planteados.
4.2.1.2 Entendimiento de los Datos
Esta fase se basa en la adquisición de los datos y en todas las actividades encaminadas
a alcanzar un buen grado de familiaridad con los mismos, entendiendo su estructura y contenido
para identificar potenciales problemas de calidad o elementos interesantes que permitan plantear
hipótesis.
4.2.1.3 Preparación de los Datos
Esa fase enmarca todas las actividades de procesamiento que se llevan a cabo sobre los
datos para la generación del data set final que será usado dentro de la fase de modelamiento,
cubre etapas como limpieza, selección de atributos y cálculo de consolidados.
8
4.2.1.4 Modelamiento
Dependiendo del tipo de problema que se requiera abordar, se eligen las estrategias más
adecuadas según la capacidad y validez de cada una de ellas dentro del problema específico
que se pretende resolver. Una vez seleccionadas las estrategias y técnicas de modelado a utilizar
éstas son aplicadas.
4.2.1.5 Evaluación
Para esta etapa ya se tienen los modelos construidos sobre los datos, y éstos presentan
el potencial de dar solución al problema de minería que el proyecto enfrenta. Por ese motivo en
esta fase se realiza una evaluación de la capacidad real con la que los modelos dan solución a
los problemas a la luz de los objetivos de negocio resultantes del levantamiento inicial de
requerimientos. En este punto se deben tener conclusiones claras acerca del proyecto y de los
resultados del proceso de minería ejecutado.
4.2.1.6 Despliegue
Si bien el modelo constituye un buen entregable, es necesario organizar todo el
conocimiento generado del proyecto en su totalidad, y de las fases que lo conformaron, en
reportes que muestren la generación de valor para el negocio, y que permitan a diferentes actores
en el futuro hacer uso de las conclusiones y hallazgos resultantes del proyecto.
Como elemento final en la descripción de la metodología se incluirán las tareas asociadas a cada
fase, en una tabla resumen.
Figura 3: Resumen CRISP-DM - Fases y Tareas. [Figure 3] (SPSS, 2000)
9
4.3 RESTRICCIONES Dentro de este aspecto, se pueden considerar restricciones de dos tipos: Temporales y de
Recursos. Las primeras están asociadas al hecho de tener un plazo de entrega de un semestre,
en el cual el proyecto de grado debe desarrollarse y entregarse, haciendo que el proyecto de
minería de datos, en este caso, deba estar contenido en este mismo tiempo.
Las restricciones de Recursos, están supeditadas a la disponibilidad de los mismos,
independientemente del tipo de los mismos. Para este caso la principal restricción de este
aspecto se da en la disponibilidad de los datos necesarios para llevar a feliz término el proyecto,
así como de la información contenida en dichos datos, en donde la completitud y variedad de
información debe considerarse como factor limitante en el tipo de análisis que se puedan efectuar
y que lleven a una solución al problema planteado.
5 DESARROLLO DEL DISEÑO
El primer paso en el proceso de diseño claramente consistió en la definición de la
metodología que se iba a utilizar para el proyecto. Una vez definido este aspecto, se empezaron
a definir las estrategias encaminadas a la solución de los problemas encontrados y que se
convierten en los objetivos del proyecto.
A su vez se debían examinar las diferentes alternativas en cuanto a fuentes de datos, y
alternativas de diseño.
5.1 RECOLECCIÓN DE INFORMACIÓN En este aspecto, se consideró el uso de datos reales extraídos de pacientes NICU, que se
esperaba fueran provistos por el Hospital de la Misericordia de Bogotá (HOMI), sin embargo esta
primera alternativa no fue posible, debido a demoras en los permisos sobre el uso de la
información y retrasos asociados a cuestiones burocráticas y normativas con respecto al manejo
que el HOMI hace de la información sensible de sus pacientes.
Como alternativa, se tuvo conocimiento de MIMIC, que es una base de datos desarrollada por el
MIT Lab for Computational Physiology, que contiene información de más de 40 𝑚𝑖𝑙 pacientes
hospitalizados en unidades de cuidados intensivos entre 2001 y 2012. Incluye información de
diferentes tipos acerca de los pacientes como demográfica, signos vitales, resultados de pruebas
de laboratorio, procedimientos y medicamentos, entre los más relevantes. Es necesario aclarar
que toda la información sensible de los pacientes ha sido eliminada, para evitar la identificación
de los mismos. (Saeed, et al., 2011)
Esta base de datos, estaba dividida en dos partes, la primera una parte relacional con todas las
tablas necesarias para presentar toda la información de los eventos médicos asociados a la
hospitalización de cada paciente y la segunda parte denominada WFDB (Waveform Database),
que relacionaba pacientes con lecturas de diferentes signos vitales tal y como los registraban los
instrumentos de monitoreo que se encuentran en las unidades de cuidados intensivos.
10
Se presenta una visión general de cómo se compone MIMIC-II, extraída en las etapas iniciales
del proyecto de su página (ahora obsoleta)10 de documentación.
Figura 4: Esquema General de MIMIC-II.
Si bien esta fue la fuente de datos elegida para llevar a cabo el proyecto, no quiere decir que no
presentara problemas y retos para su uso adecuado, empezando por temas de actualización,
pues pasó de MIMIC-II a MIMIC-III durante el desarrollo del proyecto. Además se presentaron
problemas de accesibilidad a los datos, que debieron resolverse pero impactaron en el
cumplimiento de cronogramas y plazos establecidos.
5.2 ALTERNATIVAS DE DISEÑO En este aspecto se describirán las diferentes alternativas para abordar el proyecto, especificando
las circunstancias y detalles que permitieron o no la elección de cada una de ellas.
5.2.1 Identificación de Patrones
Esta fue la primera aproximación que se consideró para afrontar el problema, pues ya que se
tenía conocimiento de la parte WFDB de MIMIC. Esta alternativa buscaba realizar la búsqueda
10 El sitio actualizado de MIMIC: http://mimic.physionet.org/
11
de los waveforms de los pacientes internados en NICU, sin embargo tuvo que descartarse debido
a que la información de las waveforms no correspondía a registros de pacientes NICU y por lo
tanto no habría posibilidad de evaluar ninguna hipótesis sobre el segmento de población
deseado, que eran neonatos.
5.2.2 Clustering y Clasificación
Esta alternativa surge tras descartar la alternativa inicial. La idea de esta alternativa se basaba
en dos pasos para resolver el problema de encontrar una relación entre el comportamiento de
las variables de signos vitales y la presencia de dolor en Neonatos.
La primera etapa, por así denominarla, consistió en la revisión y entendimiento de los tipos de
procedimientos y posibles padecimientos de los neonatos, así como de los tipos de
medicamentos que se empleaban en sus tratamientos y las funciones específicas de cada uno
de ellos. Para lograr emplear técnicas de Segmentación que permitieran generar un criterio claro,
basado en datos médicos, que pudiera dar información acerca de cuáles de los pacientes
tratados podrían considerarse como Candidatos a haber sufrido dolor, y de esta forma lograr
dividir el segmento de población a estudiar en dos categorías que serían posteriormente
utilizadas en una segunda etapa.
La segunda etapa consistió en la extracción y revisión de datos disponibles concerniente a las
variables fisiológicas medidas de los pacientes. Para este aspecto se emplearon estudios
previos, como el de (Naik, Thommandram, Fernando, Bressan, & McGregor, 2014), en el que
definían una serie de variables y valores umbrales como indicadores de la presencia de dolor.
Estas variables eran el ritmo cardiaco, el ritmo respiratorio, la concentración de oxígeno en la
sangre y la presión arterial media. Variables que junto con sus valores umbrales constituían el
PIPP (Premature Infant Pain Profile), y cuya validez sería evaluada a la luz de los datos
disponibles, validando la capacidad que los cambios y registros en estas variables fisiológicas
tienen en explicar la aparición de dolor. Para esta etapa se buscaba aplicar técnicas de
clasificación, que permitieran obtener conclusiones con respecto al tema que se estaba tratando.
Finalmente esta fue la alternativa elegida, y sobre estas dos etapas se aplicó la metodología
CRISP-DM, de forma iterativa, pues cada una de estas etapas compone un problema de minería
de datos por sí mismo. De tal forma que las salidas y resultados del primer proceso, se
convertirán en las entradas para la el segundo proceso. Y así completar el proyecto.
12
6 IMPLEMENTACIÓN
6.1 DESCRIPCIÓN DE LA IMPLEMENTACIÓN Como se mencionó anteriormente, se escogió la metodología CRISP-DM para el desarrollo
del proyecto, por lo que se hará una descripción de las actividades realizadas en cada una de
las fases para las dos etapas que se llevaron a cabo en el desarrollo del proyecto y que hicieron
parte del diseño de la solución.
Sin embargo las dos etapas no involucraron todas las fases de forma secuencial, pero a pesar
de este hecho la descripción se hará individualmente de acuerdo a la división propuesta por
CRISP-DM.
6.1.1 Etapa: Clustering
6.1.1.1 Entendimiento del Negocio
Si bien este problema no se aplica a un negocio como tal, la disciplina de la salud
envuelve una serie compleja de conocimientos que debieron adquirirse de fuentes como
profesionales de la salud, específicamente de la Doctora Ligia Cárdenas y del personal a cargo
de la operación de instrumentos de medición y registro de signos vitales en la Unidad de cuidados
intensivos neonatales (NICU) del Hospital de la Misericordia (HOMI), al cual se realizó una visita
para conocer mucho más de cerca la forma en la que operan, y llevan los registros de la
información de los pacientes. Sin embargo fue necesario recurrir a bibliografía sugerida en
diferentes temas específicos, así como otras consultas realizadas también a Médicos y
estudiantes de medicina.
Durante esta fase se entendió el problema que debía abordarse con el proyecto y la forma como
éste sería de utilidad. Es decir se encontró que, teniendo en cuenta que se buscaba atacar el
segmento de NICU en hospitales, la evaluación de la presencia de dolor es demasiado subjetiva,
y que incluso la definición formal del dolor se basa en lo que pueda expresar el paciente acerca
del mismo, así como su localización, naturaleza e intensidad.
6.1.1.2 Entendimiento de los Datos
Una vez comprendido el aspecto médico del problema, se emprendió el entendimiento de
los datos disponibles en MIMIC, revisando la parte relacional de dicha base de datos.
En primer lugar debía realizarse la adquisición del acceso a MIMIC. Esta base de datos
solamente ofrecía algunas herramientas ligeras en línea que permitían consultas sencillas y que
no representaran gran volumen de datos en las mismas. Por este motivo fue necesario lograr
una mayor autonomía y desempeño en el acceso a los datos. Para lograrlo solamente una opción
estaba disponible, a través de archivos separados por coma (.csv) que contenían todos los
registros de cada una de las tablas incluidas en el modelo de datos de MIMIC. El proceso de
adquisición de datos se describe a continuación:
Creación de base de datos local: Se optó por crear una base de datos local de Oracle
12c, y realizar la administración de un usuario sobre un schema que contendrá las tablas
correspondientes de MIMIC.
13
Creación del Modelo de Datos: Se crearon las tablas necesarias de acuerdo a los scripts
para tal fin dispuestos en la documentación de MIMIC. 11 Como dato adicional, se
menciona que no se incluyeron las restricciones de llaves foráneas y dependencias entre
tablas, pues los temas de consistencia se asumieron resueltos dentro del modelo y los
datos de la base de datos MIMIC.
Import de Datos: Se emplearon los mencionados archivos (*.csv)12 como origen de los
datos y el proceso de carga se realizó utilizando SQL Developer, herramienta a través de
la cual se realizaba la conexión a la base de datos de Oracle creada. Por temas de
rendimiento se desactivaron los índices sobre las llaves primerias de cada tabla, así como
el Redo Log de la base de datos, permitiendo realizar esta labor con un buen rendimiento.
Este proceso de acceso a los datos a través de medios autónomos se realizó tras una fase previa
en la que para lograr acceder a la información de contenida en MIMIC, debía realizarse un curso
virtual acerca de la importancia de la integridad y responsabilidad en pruebas médicas con
humanos, y en el componente ético de todo proceso investigativo desarrollado en el campo de
la salud.
Las labores de exploración de los datos buscaban mostrar una perspectiva clara acerca de la
información ofrecida por la base de datos, y la forma como podría emplearse para llegar a una
solución del problema del criterio de decisión acerca de la presencia de dolor en un paciente, de
acuerdo a los eventos que se hubieran registrado durante su hospitalización en la unidad de
cuidados intensivos. Para esto se estudiaron con detalle las diferentes tablas disponibles para
entender su contenido y las limitaciones que presentaban en términos de las necesidades de
información potenciales para el proyecto.
Dentro de los hallazgos más importantes del proceso de exploración se encuentra el hecho de
que la base de datos registra los eventos de cada uno de los pacientes, de acuerdo a la
naturaleza del evento registrado, recurriendo a tablas independientes para cada uno de los
posibles tipos de eventos. Dentro de los eventos más importantes se encuentran los
CHARTEVENTS, que corresponden a los eventos registrados por doctores y enfermeras, acerca
de las lecturas de los pacientes en cuanto a signos vitales y suministro de medicamentos. Sin
embargo hay otras tablas que relacionan eventos de otra naturaleza como Entrada y Salida de
pacientes a las unidades cuidados intensivos, resultados de laboratorio, eventos de resultados
Microbiológicos y una tabla que contiene eventos relevantes para el proyecto, asociados al
suministro de dosis de medicamentos.
11 https://github.com/MIT-LCP/mimic-code/tree/master/buildmimic
12 https://physionet.org/works/MIMICIIIClinicalDatabase/
14
Figura 5: Modelo de Datos simplificado (Segmento de Interés)
Se presentó el modelo de datos de las tablas de interés para el proyecto, en donde D_ITEMS
describe todos los posibles elementos, que pueden contener las tablas de CHARTEVENTS e
INPUTEVENTS_CV, de tal forma que cada entrada en estas dos últimas tablas estará
relacionado con un ítem en D_ITEMS. Adicionalmente, se asocia el paciente y el ingreso
correspondiente a cada paciente en las tablas PATIENTS e ICUSTAYS correspondientemente.
6.1.1.3 Preparación de los Datos
El proceso de selección de datos comienza con las actividades de selección de los
mismos. En este aspecto se tuvo en cuenta el conocimiento específico del dominio, con el fin de
determinar los datos que serían de mayor relevancia para el propósito de generar el criterio de
decisión acerca de la presencia de dolor. Los datos elegidos se dividen en categorías:
Medicamentos: Dentro de esta categoría se buscaron los medicamentos mencionados
por la doctora Ligia Cárdenas, de tal forma que se tuviera una lista clara de aquellos
medicamentos con acciones analgésicas en los neonatos. Sin embargo no se encontró
correspondencia para todos los medicamentos mencionados por la doctora. Dentro de
los elementos encontrados se tienen:
o Fentanyl.
o Tylenol.
o Sulfato de Morfina.
o Acetaminofén.
15
Sin embargo hay que comprobar la presencia de eventos asociados a los medicamentos
listados, por lo que se revisa una tabla adicional (IOEVENTS), que por los temas de
actualización del esquema de la base de datos fue dividida en OUTPUTEVENTS,
INPUTEVENTS_MV e INPUTEVENTS_CV. Dos tablas según el origen de los datos: CV
hace referencia a CareVue ICU Databases y MV hace referencia a Metavision ICU
Databases. La tercera tabla recopila todos los eventos de salida de fluidos, mientras las
dos anteriores registran todos los eventos de entrada. Esta división obedece a las
diferencias entre las fuentes de datos que alimentan MIMIC, que hizo imposible la
unificación de las mismas en una tabla única de eventos de este tipo.
Este listado fue enriquecido con medicamentos que son usados durante procesos
médicos, como Vasopresores y Anticoagulantes, de tal forma que se extendiera el listado
para incluir medicamentos como:
o Heparin
o Dopamina
o Dobutamina
Con estos nuevos medicamentos seleccionados para hacer parte del consolidado con el
que se construirá el dataset del modelo.
Procedimientos: Acerca de los procedimientos que se efectuaron a los pacientes, se
realizó la búsqueda de aquellos de los que se tiene una mayor probabilidad de generar
dolor sobre el paciente objeto de dicho procedimiento. De acuerdo a la Doctora Ligia, se
debían revisar procedimientos en los siguientes campos:
o Reparación de Hernia: Desde inguinales hasta umbilicales.
o Paso de Catéter Venoso Central: Este procedimiento, a pesar de ser invasivo,
puede proveer métodos de monitoreo a signos vitales del paciente, así como
permitir el suministro de medicamentos.
o Drenaje de Absceso: Ese tipo de procedimiento no había sido conducido sobre
pacientes NICU.
Variables Adicionales: De acuerdo al criterio de la Doctora Ligia Cárdenas, es útil en la
definición del criterio la inclusión de variables adicionales acerca de la situación del
paciente, sin embargo los datos disponibles en MIMIC constituyen un factor limitante, se
listan las variables extra disponibles para su uso:
o Género: De cada paciente se tiene su género.
o Duración de la Hospitalización: Se tiene también información de la estadía en
NICU para cada una de los pacientes.
Teniendo claros los elementos con los que se contaba, se empezó a revisar el tema de la calidad
de los datos en cada uno de los tres aspectos mencionados, para el tema de los medicamentos
la información estaba completa, incluyendo información de las dosis suministradas, con la
respectiva unidad de medida de cada una de los medicamentos. Adicionalmente para las
variables adicionales no habían valores nulos ni faltantes, por lo que el temas de calidad estos
aspectos eran adecuados para su uso. Finalmente para los procedimientos, no existía
información de las fechas en los que se habían realizado, y sólo existía una noción de orden
16
entre las intervenciones llevadas a cabo sobre cada paciente, motivo por el cual este aspecto de
la revisión tuvo que ser descartado.
Con las labores de revisión de calidad completas, se procede a definir el dataset que será
empleado, este proceso se pensó en términos del objetivo que se quería lograr que era una
segmentación clara para definir el criterio de decisión. En una primera instancia se ideó un
dataset que consideraba seis medicamentos:
Heparin: Medicamento registrado en las tabla de IOEVENTS, que luego sería actualizada
a INPUTEVENTS_CV.
Heparin Solution: Categoría construida a partir de una serie de medicamentos que
contenían Heparin diluido en un medio de suministro, en donde variaba la relación de
volumen de dicho compuesto, sin embargo manteniendo las unidades totales del
medicamento.
Fentanyl Drip: Evento asociado al suministro de Fentanyl por goteo.
Dopamine Drip: Goteo del medicamento medido en unidades de volumen/unidad de
tiempo.
Dobutamine Drip: Goteo del medicamento medido en unidades de volumen/unidad de
tiempo.
Morphine Sulfate: Suministro del medicamento registrado en la tabla de IOEVENTS,
posteriormente actualizada a INPUTEVENTS_CV.
De estos seis medicamentos se calculó un consolidado para cada uno de los pacientes, en donde
por cada uno de los medicamentos incluidos, se registraban los siguientes valores:
Conteo de Dosis: Se realizaba el cálculo de la cantidad de veces que el paciente había
recibido una dosis de dicho medicamento.
Primera Dosis: Se registraba el valor numérico de la dosis de cada medicamento. Este
cálculo requería un procesamiento previo asociado a la homogenización de las variables
de medida, de tal forma que los medicamentos medidos en volumen tuvieran las mismas
unidades, y aquellos medidos en velocidades de goteo (volumen/tiempo), debían
homogenizarse también, pues no podían llevarse a una unidad absoluta, ya que
dependían del peso del paciente, información que no se tenía.
Dosis Máxima: Se calculaba el valor de la dosis máxima suministrada al paciente.
Relación Dosis/Duración: Se consideró una variable calculada sobre el conteo de dosis
dividido entre la duración de la hospitalización, como forma de hacer comparables las
situaciones de diferentes pacientes, añadiendo información de una frecuencia de
suministro, pues este valor era un indicador del número de dosis por unidad de tiempo.
Sin embargo este dataset no mostró los resultados esperados frente a una idea clara de la
situación de los pacientes, esto debido a que tenía demasiados campos (+20) y muchos se
encontraban en cero, debido a que no muy pocos pacientes recibían todos los medicamentos.
Por este motivo el dataset se modificó, de acuerdo a una agrupación previa sobre los
medicamentos según la naturaleza de dichos medicamentos. Las categorías halladas son las
siguientes:
17
Analgésicos: En esta categoría se unieron el Fentanyl Drip y el Morphine Sulfate.
Vasopresores: Medicamentos cuyo objetivo es el de mejorar el rendimiento cardiaco y
por ende el bombeo de sangre. En esta categoría se unieron el Dopamine Drip y el
Dobutamine Drip.
Anticoagulantes: Esta categoría unificó los dos medicamentos que tenían como
componente principal el Heparin.
Con estas nuevas categorías, los valores numéricos de las dosis ya no podían ser comparables
a lo largo de toda la categoría, y fue necesario buscar un nuevo método de generar el consolidado
por paciente incluyendo toda la información posible:
Género: Se incluyó el género del paciente.
Duración de la Hospitalización: Se incluyó esta variable de forma independiente.
Analgésicos: Columna calculada bi-nominal que indicaba si el paciente había recibido o
no medicamentos de tipo analgésico.
Anticoagulantes: Columna calculada bi-nominal que indicaba si el paciente había
recibido o no medicamentos de tipo anticoagulante.
Vasopresores: Columna calculada bi-nominal que indicaba si el paciente había recibido
o no medicamentos de tipo vasopresor.
Conteo Analgésicos: Columna calculada que indicaba el número de veces que había
sido suministrado un medicamento analgésico.
Conteo Anticoagulantes: Columna calculada que indicaba el número de veces que
había sido suministrado un medicamento anticoagulante.
Conteo Vasopresores: Columna calculada que indicaba el número de veces que había
sido suministrado un medicamento vasopresor.
A continuación se presenta un segmento del dataset definitivo usado en las labores de
segmentación:
Tabla 1: Segmento Consolidado de Medicamentos.
SUBJECT_ID GENDER LOS ANALG ANTICOA VASOP ANALG
CUENTA
ANTICO
CUENTA
VASOP
CUENTA
517 F 117.3351 Si No Si 995 0 249
575 M 74.0496 No Si Si 0 45 21
632 F 62.9213 No Si No 0 2 0
1071 M 8.7911 No Si No 0 3 0
2393 M 66.8721 No Si No 0 14 0
2267 M 35.1004 No Si Si 0 160 60
Este consolidado se realiza para un total de 473 pacientes de los que se tienen registros de
suministro de medicamentos.
6.1.1.4 Modelamiento
Ya que en esta etapa inicial, el problema de minería era un problema específicamente de
segmentación, se optó por el uso del algoritmo de K-Means, que define un conjunto de clusters
de acuerdo a una medida de cercanía entre las instancias evaluadas y cada cluster generado.
Sin embargo, el algoritmo requiere la definición del parámetro K, que debía hacerse por medio
18
de experimentación directa sobre los datos, hasta encontrar clusters que tuvieran un sentido
dentro de la semántica del problema médico que se estaba tratando.
Tras experimentar sobre este aspecto, se es cogió un valor de 𝑘 = 4, de tal forma que la
población de pacientes del dataset, se dividió en cuatro clusters. El resumen de resultados se
presenta a continuación:
Figura 6: Resumen de Segmentación K-Means. [WEKA]
6.1.1.5 Evaluación
La evaluación no fue conducida de forma secuencial en el orden que se presenta en este
documento, pues la medida de efectividad de este proceso de segmentación y de sus resultados
depende de los resultados del proceso de clasificación que le siguieron.
En este aspecto, los temas de evaluación se realizaron de forma iterativa tras completar la fase
de Clasificación, volviendo sobre algunas etapas del proceso, con el fin de revisar posibles
fuentes de error. De esta fase, debe mencionarse que en la segunda iteración, se realizaron
cambios al criterio de decisión sobre los posibles candidatos a haber sentido dolor, quitando del
criterio los medicamentos Anticoagulantes y Vasopresores, pues lecturas posteriores realizadas
indican que este tipo de medicamentos son usados en Neonatos para tratar problemas
hemodinámicos, que no generan dolor, sino problemas como arritmia, hipotensión, disfunción del
miocardio e incluso fallo hemodinámico (causado por anemia o por hipovolemia).13 Con esta
nueva información se definió el criterio, teniendo en cuenta los resultados de las variables de
duración de la hospitalización y de suministro de analgésicos. Lo cual mostró mejores resultados
a la luz del proceso de clasificación.
6.1.1.6 Despliegue
El despliegue en este caso, no se realiza de forma propiamente dicha, sin embargo, el
uso de los resultados de esta etapa de segmentación, en la etapa siguiente, correspondiente a
13 (Golombek, et al., 2011)
19
clasificación muestra el despliegue del modelo aplicado al dataset que será empleado para la
clasificación.
6.1.2 Etapa: Clasificación
6.1.2.1 Entendimiento del Negocio
Esta etapa se basó en la lectura de investigaciones que buscaban encontrar la relación entre las
variables fisiológicas registradas por los instrumentos de monitoreo NICU, y la presencia de dolor.
Una de las más relevantes fue la investigación de (Naik, Thommandram, Fernando, Bressan, &
McGregor, 2014). En donde no sólo se decide el subconjunto de variables que serán tenidas en
cuenta en la definición de un perfil de identificación de dolor para neonatos, sino que además se
definen los valores umbrales asociados a la presencia de dicho dolor. De esta investigación se
extrajo el siguiente conjunto de variables que se esperaba fueran incluidas dentro del análisis del
problema:
Ritmo Cardiaco (HR) > 160/min
Presión arterial media (MAP) > 55 mmHg
Ritmo Respiratorio (RR) > 40/min
Concentración de oxígeno (SpO2) < 90%
Sin embargo como se mencionó, por temas de disponibilidad de los datos, la variable de presión
arterial media no pudo ser analizada.
6.1.2.2 Entendimiento de los Datos
Este proceso se llevó a cabo revisando todos los posibles elementos que estuvieran asociados
a las variables de interés dentro de la tabla de D_ITEMS incluida en el modelo de datos de la
exploración inicial. La revisión se realizó usando SQL Developer para acceder a los registros de
las tablas y ejecutar las consultas correspondientes. A continuación se muestra un resumen de
la exploración inicial
Heart Rate (HR)
o (211) Heart Rate: Ritmo cardiaco.
o (3494) Lowest Heart Rate: Evento de ritmo cardiaco mínimo.
Arterial blood pressure Mean
o (52) Arterial BP Mean: Presión arterial media. (Category=null)
o (443) Manual BP Mean (calc): Aparentemente es un cálculo que se realiza de
forma manual.
o (2294) ART MEAN: Se presume corresponde a la PAM.
o (2647) art mean: Se presume corresponde a la PAM. Se desconoce la
diferencia entre esta y la de ITEMID=2294.
o (6590) arterial mean #2: Segunda medida de la PAM. Diferencia con
ITEMID=6702?
o (6702) Arterial BP Mean #2: Segundo registro de la PAM.
o (6927) Arterial Mean #3: Tercer registro de la PAM.
Nota: Se excluyeron del listado todos los registros que incluían el hecho de ser PAM
Femoral.
20
Respiratory Rate (RR)
o (219) High Resp. Rate: Asociado al ritmo respiratorio. Se presume corresponde
a un valor máximo registrado.
o (614) Resp Rate (Spont): Podría referirse a un valor tomado en un intervalo
aleatorio de tiempo.
o (618) Respiratory Rate
o (619) Respiratory Rate Set
o (653) Spont. Resp. Rate
o (1635) HIGH Resp Rate
o (1884) Spont Resp Rate
o (3337) Breath Rate
o (3603) Resp Rate
o (8113) Resp. Rate
Concentración de Oxígeno SpO2
o (646) SpO2: Concentración de oxígeno en la sangre.
o (1037) O2 %
o (834) SaO2
De todos los elementos asociados a cada variable, se identificaron aquellos de utilidad, revisando
directamente los datos, y la información contenida en los registros de cada uno de dichos
elementos. Tras esta revisión final, se eligieron los siguientes elementos (items) que
representaban:
Ritmo Cardiaco: (211) Heart Rate
Presión Arterial Media: No se encontaron coincidencias de registros para NICU.
Ritmo Respiratorio: (618) Respiratory Rate – (3603) Resp Rate
o (618) Respiratory Rate: Registra cuando el ritmo respiratorio es mayor a 60 /min
(450 registros)
o (3603) Resp Rate: Registra el valor numérico del ritmo respiratorio (1’668.644
registros), por lo tato este ítem se elige para representar la variable de ritmo
respiratorio.
Concentración de Oxígeno: (834) SaO2
6.1.2.3 Preparación de los datos
Una vez elegidos los elementos concretos que representarán las variables de interés, se revisan
los eventos asociados a dichos elementos, y se realiza la selección del subconjunto de eventos
estableciendo condiciones basadas en los valores umbrales definidos previamente:
Ritmo Cardiaco >= 160 bpm
Ritmo Respiratorio >= 40 Breath/min
Concentración de Oxígeno en la sangre <= 90 %
Usando estas condiciones juntas en un OR compuesto, se realiza la selección inicial de datos,
en donde se tiene un registro para cada paciente, en donde alguna de las tres variables estaba
por fuera de los rangos establecidos, en un momento del tiempo dado, es decir que se registran
21
las lecturas de las tres variables de forma simultánea garantizando la ocurrencia simultanea de
los eventos. A continuación se muestra un segmento del dataset generado.
Tabla 2: Segmento de Dataset de Eventos de Variables Fisiológicas.
PACIENTE UCI RITMO CARDIACO UOM RITMO RESP UOM_1 % O2 UOM_2 CHARTTIME
7 NICU 160 bpm 56 Breath 100 % 5/25/2121 3:30
7 NICU 115 bpm 42 Breath 95 % 5/25/2121 6:00
8 NICU 132 bpm 50 Breath 96 % 11/20/2117 20:00
8 NICU 129 bpm 52 Breath 96 % 11/20/2117 21:00
8 NICU 133 bpm 55 Breath 95 % 11/20/2117 22:00
8 NICU 131 bpm 46 Breath 95 % 11/20/2117 23:00
8 NICU 136 bpm 48 Breath 90 % 11/21/2117 0:00
8 NICU 140 bpm 75 Breath 93 % 11/21/2117 1:00
8 NICU 142 bpm 75 Breath 96 % 11/21/2117 2:00
8 NICU 140 bpm 44 Breath 97 % 11/21/2117 4:00
Este dataset inicial del cual se espera extraer el consolidado de variables fisiológicas, contiene
más de 990 𝑚𝑖𝑙 registros de alrededor de 4200 pacientes diferentes.
De esta forma habiendo definido los eventos de interés para la modelación, se procede a definir
las variables a incluir en el cálculo del consolidado de variables fisiológicas. Tras revisiones y
reuniones, se decide incluir las siguientes variables y columnas calculadas sobre los eventos de
las variables:
Máximo Ritmo Cardiaco: Se registra para cada paciente el valor más alto del ritmo
cardiaco que se haya registrado.
Máximo Ritmo Respiratorio: Se registra para cada paciente el valor más alto del ritmo
cardiaco que se haya registrado.
Mínima Concentración de Oxígeno: Se registra para cada paciente la concentración de
oxígeno más baja registrada en los eventos extraídos previamente.
Conteo de Eventos de Ritmo Cardiaco: Se hace un conteo de los eventos registrados
que fueron producto de un ritmo cardiaco elevado (≥ 160 𝑏𝑝𝑚).
Conteo de Eventos de Ritmo Respiratorio: Se hace un conteo de los eventos que
involucraron un ritmo respiratorio acelerado (≥ 40 𝐵𝑟𝑒𝑎𝑡ℎ/𝑚𝑖𝑛).
Conteo de Eventos de Concentración de Oxígeno: Se hace un conteo de los eventos
que se asocian a una concentración reducida de oxígeno en la sangre (≤ 90%).
Conteo de Eventos Simultáneos: Se hace un conteo de los eventos en los que para
cada paciente, las tres variables de forma simultánea se salieron de los rangos de
aceptación o normalidad.
Candidato: Variable de clase extraída de los resultados del proceso de segmentación en
donde se hizo que un paciente fuera candidato, si sobrepasaba los valores de la media
de la muestra, y si los conteos de suministro de analgésicos se encontraban por encima
de los valores hallados para la media de la muestra usada en el proceso de segmentación.
De lo contrario se consideraba que no serían candidatos a haber padecido dolor.
22
Se presenta un segmento del consolidado de variables, que contenía el mismo número de
registros del consolidado de medicamentos, pues sólo se pudieron usar las instancias para las
cuales se definiera la variable de clase que permitiera llevar a cabo el proceso de clasificación.
Tabla 3: Segmento Consolidado Variables Fisiológicas.
SUBJECT_ID MAX_RC MAX_RR MIN_CO CONT_RC CONT_RR CONT_CO CONT_SIMULT CANDIDATO
9102 210 97 80 1298 1354 17 10 No
9911 201 100 73 453 1292 136 37 Si
87 191 88 82 696 815 77 45 No
465 181 90 91 22 243 0 0 No
2112 200 85 86 769 810 4 2 No
2160 198 99 66 1310 1935 190 93 Si
2749 188 91 87 328 911 12 2 No
3071 188 73 70 19 16 3 2 No
A continuación se presenta el comportamiento de las variables del dataset de acuerdo a la clase
a la que pertenecen. En todas las gráficas, el color Azul representa la clase de NO SER
CANDIDATO a sentir dolor, mientras que el color rojo representa la clase contraria. Las gráficas
muestran un dataset con las clases balanceadas a través del uso de un filtro que aplica la técnica
de SubSampling sobre los datos.
Variable de Clase: CANDIDATO
Figura 7: Características variable de Clase [CANDIDATO]
Figura 8: Gráfica variable de clase [CANDIDATO]
23
Máximo Ritmo Cardiaco: MAX_RC
Figura 9: Características variable MAX_RC.
Figura 10: Gráfica variable MAX_RC.
Máximo Ritmo Respiratorio: MAX_RR
Figura 11: Características variable MAX_RR
24
Figura 12: Gráfica variable MAX_RR
Mínima Concentración de Oxígeno: MIN_CO
Figura 13: Características variable MIN_CO
Figura 14: Gráfica variable MIN_CO
25
Conteo de Eventos de Ritmo Cardiaco: CONT_RC
Figura 15: Características variable CONT_RC
Figura 16: Gráfica variable CONT_RC
Conteo de Eventos de Ritmo Respiratorio: CONT_RR
Figura 17: Cracterísticas variable CONT_RR
26
Figura 18: Gráfica variable CONT_RR
Conteo de Eventos de Concentración de Oxígeno: CONT_CO
Figura 19: Características variable CONT_CO
Figura 20: Gráfica variable CONT_CO
27
Conteo de Eventos Simultáneos: CONT_SIMULT
Figura 21: Características variable CONT_SIMULT
Figura 22: Gráfica variable CONT_SIMULT
6.1.2.4 Modelamiento
La etapa de modelamiento comienza tras el proceso de balanceo de las clases del dataset de
clasificación. En este aspecto, se descartaron algunas técnicas como OverSampling y SMOTE,
por ser ambas técnicas que generan instancias nuevas usando técnicas aleatorias para su
generación. Dado que los datos que se tiene de pacientes reales, reflejan una condición física
particular, emplear alguna de estas dos técnicas podría llevar a la creación de instancias cuya
ocurrencia física fuera anatómica o fisiológicamente imposible, introduciendo errores dentro del
proceso de modelado. Sin embargo existe otra técnica llamada SubSampling que se basa en
balancear las clases, reduciendo de forma aleatoria las instancias de la clase más numerosa,
asegurando que al final, se tenga igual número de instancias en cada clase.
Una vez completado este proceso, se debe tener en cuenta que el SUBJECT_ID es sólo para
identificación y no refleja el comportamiento de las demás variables, por lo cual se excluye del
análisis.
28
Ya que se requiere definir un modelo de clasificación, se prueban varios modelos disponibles en
WEKA, siendo los de mejor desempeño Random Forest que se basa en el uso de una serie de
árboles de decisión (Random Tree) de tal forma que el dataset original se divide en 𝑛 conjuntos
de datos de forma aleatoria, de tal forma que cada conjunto entrenará un árbol de decisión de
forma independiente, para finalmente escoger la clase de cada instancia por Voting sobre los
resultados de cada árbol y NaiveBayes, que es un modelo que emplea la probabilidad condicional
y la independencia entre eventos para determinar la probabilidad con que una instancia
pertenece a una clase dada.
6.1.2.5 Evaluación
Se presentan entonces los resultados de los dos modelos mencionados para dos tipos de
condiciones de prueba empleados (Test Split y k-fold Cross Validation) En esta sección se
mostrarán las matrices de confusión de cada ejecución de los modelos de clasificación
empleados:
NaiveBayes (Test Split):
Se realiza una división del 66% para entrenamiento del modelo, y un 34% para la ejecución de
la prueba.
Tabla 4: Matriz de Confusión - NaiveBayes [Test Split]
Classified as → a b
No = a 65 4
Si = b 20 58
NaiveBayes (Cross validation):
Se utilizó un parámetro de 𝑘 − 𝑓𝑜𝑙𝑑𝑠 = 10
Tabla 5: Matriz de Confusión - NaiveBayes [Cross Validation]
Classified as → a b
No = a 198 18
Si = b 51 165
RandomForest (Test Split):
Se realiza una división del 66% para entrenamiento del modelo, y un 34% para la ejecución de
la prueba.
Tabla 6: Matriz de Confusión - RandomForest [Test Split]
Classified as → a b
No = a 64 5
Si = b 13 65
29
RandomForest (Cross Validation):
Se utilizó un parámetro de 𝑘 − 𝑓𝑜𝑙𝑑𝑠 = 10
Tabla 7: Matriz de Confusión - RandomForest [Cross Validation]
Classified as → a b
No = a 185 31
Si = b 40 176
Los resultados completos serán presentados en la sección de resultados.
6.2 RESULTADOS ESPERADOS
6.2.1 Etapa: Clustering
Los resultados esperados en esta etapa se basan en una división semánticamente correcta a la
luz de los datos médicos, es decir lograr que los clusters hallados reflejen situaciones posibles a
las que podría verse sometido un paciente de acuerdo a su estado de salud y a las intervenciones
que sobre él deben realizarse. En este orden de ideas se encontró que un número adecuado de
clusters (teniendo en cuenta el tamaño final del dataset), cuya interpretación se presenta a
continuación:
Cluster 1: Corresponde a aquellos pacientes en su mayoría de género masculino que
recibieron algún tipo de tratamiento asociado a la presencia de Anticoagulantes y
Vasopresores, esto evidenciado a través de una mayor cantidad de suministro de estos
dos tipos de medicamentos comparada con la suministrada en promedio a la población.
Probablemente no sufrieron complicaciones y por este motivo no requirieron de ningún
Analgésico. La duración de la hospitalización de estos pacientes se encuentra por debajo
del promedio de la población de estudio.
Cluster 2: Corresponde a pacientes que recibieron muy pequeñas dosis de Analgésicos
y Vasopresores, y que como parte de su tratamiento sólo fue necesario el uso de
Anticoagulantes, aún en menos proporción que el promedio de la población.
Cluster 3: Esta categoría constituye los pacientes que se presume sintieron dolor durante
su hospitalización, derivado de la necesidad de suministro de los tres tipos de
medicamentos, en cantidades considerablemente mayores a las de la población.
Adicionalmente se tiene que la duración de su hospitalización se encuentra por encima
de la duración promedio de la población.
Cluster 4: Corresponde a pacientes de los que se presume fueron sometidos a un
tratamiento que requirió de un periodo de observación y control sobre su evolución, de
ahí que se tengan duraciones de hospitalización mayores al promedio (Aunque inferiores
a las de la categoría anterior). Se les suministraron los tres tipos de medicamentos, pero
en su mayoría, sólo resulta relevante la cantidad de Anticoagulantes, aunque se
encuentre esta cantidad debajo del promedio de la muestra estudiada.
30
6.2.2 Etapa: Clasificación
En esta etapa se presentan los resultados del proceso de clasificación para el clasificador
Random Forest, que presentó el mejor desempeño:
Cross Validation:
Test Split:
31
En primer lugar se observa que el modelo clasifica correctamente un buen porcentaje de las
instancias del dataset, mostrando entonces la relación entre el comportamiento de las variables
fisiológicas y los registros médicos empleados en la definición del criterio de decisión.
Adicionalmente entrando un poco más en el detalle de los resultados arrojados por el modelo, se
observa la proporción de Verdaderos Positivos es bastante buena (entre 0.836 y 0.878), y que
a pesar de que una clase tiene un valor cercano a estar entre 86% y 93%, la clase de interés,
que corresponde a los pacientes que sí sufrieron dolor, tiene valores de entre 81.5% y 83.3%.
Esta métrica es importante pues corresponde al Recall, que para la clase “Si”, tiene una
semántica en la que de todos aquellos pacientes que pertenecen a la clase, cuántos fueron
clasificados correctamente:
𝑅𝑒𝑐𝑎𝑙𝑙𝑆𝑖 =𝑇𝑃𝑠𝑖
𝑇𝑃𝑠𝑖 + 𝐹𝑁𝑆𝑖
Esta medida también se conoce como Sensitividad.
Como comentario final sobre los resultados asociados a la categoría de “Si”, se tiene que la
precisión fue buena, estando entre 85% y 92%, lo cual implica que de todas las instancias
clasificadas en la categoría de “Si” éste porcentaje efectivamente correspondía a dicha categoría
y por ende constituye un acierto en la clasificación.
7 VALIDACIÓN
7.1 MÉTODOS
7.1.1 Etapa de Clustering
Esta etapa empleó métodos de validación basados en la concordancia con la semántica del
dominio tratado, es decir, se revisó que los resultados fueran correctos a la luz de las evidencias
médicas y del conocimiento específico en este campo provisto por la Doctora Ligia Cárdenas y
por las lecturas realizadas de forma autónoma.
Adicionalmente la validación se realizó teniendo como medida de efectividad, la capacidad que
los resultados de esta etapa tenían para convertirse en entradas de buena calidad para la
siguiente etapa.
7.1.2 Etapa de Clasificación
7.1.2.1 Test-Split
Este método presenta una forma sencilla de garantizar que sobre modelos de clasificación no se
generen modelos que hagan sobreajuste sobre los datos de entrenamiento. La idea es simple,
pues consiste en dividir aleatoriamente el conjunto inicial de datos en dos dataset diferentes que
corresponden cada uno a cierto porcentaje del dataset original, de esta forma el primero de los
conjuntos de datos se empleará en el entrenamiento del modelo, permitiendo realizar una prueba
con un conjunto de datos diferentes al de entrenamiento.
32
Tiene una desventaja y es que no asegura que las clases resulten balanceadas al dividir el
conjunto original en el conjunto de entrenamiento y el de prueba, dando lugar a sesgos sobre la
clase que quede con mayor número de instancias.
7.1.2.2 K-fold Cross Validation
Este método consiste en dividir el dataset original de forma aleatoria en 𝑘 conjuntos de igual
tamaño. Del total de subconjuntos se toman 𝑘 − 1 para realizar el proceso de entrenamiento,
combinando los resultados de las múltiples ejecuciones de entrenamiento, para finalmente
emplear el último de los subconjuntos como test set. Esta técnica se emplea para reducir la
variabilidad de los resultados del modelo.
7.2 VALIDACIÓN DE RESULTADOS Como se ha venido presentando a lo largo de la descripción de las fases de la metodología
CRIPS-DM, el proceso de validación consistió en dos etapas, la primera relacionada con los
resultados del proceso de segmentación, que involucró una validación a la luz de la disciplina
médica.
Por otro lado la validación de los resultados de la etapa de Clasificación fue validada empleando
las dos técnicas descritas en el numeral anterior (Test Split y Cross Validation) y los resultados
de dicha validación fueron presentados a lo largo de la descripción de las fases de Modelamiento
y Evaluación de la metodología empleada.
8 CONCLUSIONES
Con respecto al trabajo realizado, se concluirá teniendo en cuenta las dos etapas principales que
se desarrollaron a lo largo del proyecto:
Acerca del proceso de segmentación, se concluye que el uso de algoritmos de
segmentación se presentó como una buena solución en el proceso de caracterizar la
población que se estaba analizando para permitir hallar las características comunes que
los hacían identificables como pacientes que habían sufrido de dolor. No sin antes
requerir un trabajo dedicado y a conciencia en la selección de los datos médicos que
debían ser tenidos en cuenta y cuales por el contrario introducían ruido en esta
segmentación.
El proceso de clasificación ha dejado como conclusión clara la relación entre los registros
de las variables fisiológicas y sus eventos de valores por fuera de los rangos umbrales
establecidos, con la presencia de dolor en dichos pacientes. De tal forma que el proyecto
se muestra como un buen estimador del potencial que el uso de estos datos tiene como
elemento de identificación de la presencia de dolor en Neonatos.
Se cumplen con los objetivos del proyecto, pues se logra aplicar una metodología
completa (CRISP-DM), que permite la ejecución de cualquier proceso de minería de
datos independientemente del campo específico en el que éste se desarrolle. Sin dejar
de lado el entendimiento que se debe tener del dominio específico, lo que permite tomar
decisiones técnicas que van en acuerdo con los objetivos y los intereses del negocio,
33
aunque esto no signifique necesariamente la relación con una empresa o actividad
económica.
8.1 DISCUSIÓN En este espacio de discusión, se considera importante mencionar un elemento de extrema
importancia en este tipo de proyectos y este es el de la necesidad continua de retroalimentación
y comentarios frente al trabajo realizado por parte de un experto de dominio, de tal forma que se
reduzca la posibilidad de incluir hipótesis erróneas en el proceso que lleven a resultados
incoherentes o que no cuentan con los niveles de aceptación mínimos, que en ese orden de
ideas también deberían ser definidos en acuerdo con los expertos de dominio.
Con esa idea ya mencionada, se propone entonces como punto de discusión frente a este
proyecto en particular, la poca participación de los expertos de dominio (Expertos de la Salud),
que hubieran podido involucrarse de manera más comprometida con el proyecto. Esto pensando
especialmente en la etapa inicial, en donde debía definirse el criterio de decisión con base en
datos médicos. En esta etapa el apoyo y validación por parte de un(a) doctor(a) representaría la
tranquilidad de que no se han hecho suposiciones equivocadas ni de que se están excluyendo
elementos importantes que alguien que no conozca el campo de la medicina en su totalidad
podría llegar a obviar en determinado momento. Ese punto se menciona de forma enfática como
aspecto de atención para cualquier proyecto de esta naturaleza.
8.2 TRABAJO FUTURO Dentro de los aspectos más importantes a tener en cuenta para un posible trabajo futuro se
encuentran dos.
El primero, lograr llevar a cabo este análisis de datos a la realidad colombiana, empleando para
ello datos reales de pacientes NICU en hospitales colombianos, con el fin de evidenciar si hay
otros elementos que deban ser incluidos y que ayuden en la tarea de identificación de dolor. Esto
se relaciona directamente con la inclusión de otros elementos médicos como la información de
Procedimientos, que por problemas de calidad de los datos, en este proyecto no pudieron ser
incluidos.
El segundo elemento tiene que ver con la inclusión de la cuarta variable (Presión Arterial Media),
de tal forma que se complete al perfil de identificación de dolor, y se pueda tener un panorama
completo de la forma como esta variable se ve incidida por la existencia de dolor. Esto podría
extenderse a otros signos vitales que se registran en las unidades de cuidados intensivos y que
podrían dar explicación a la presencia de dolor, esto pensando en variables fisiológicas que sean
fácilmente extraíbles sin necesidad de realizar monitoreo invasivo del paciente, lo cual introduce
elementos de complejidad en la toma de las muestras y afectaciones para el paciente.
34
9 REFERENCIAS
Así Vamos en Salud. (2014). Atención Primaria en Salud: avances y retos en Colombia.
Informe Anual, Bogotá D.C. Recuperado el 22 de 08 de 2015
Azevedo, A., & Filipe Santos, M. (2008). KDD, SEMMA, CRISP-DM: A Parallel Overview.
IADIS. Recuperado el 9 de 12 de 2015, de
http://dis.unal.edu.co/profesores/eleonguz/cursos/md/documentos/metodologias.pdf
Catley, C., Frize, D., Walker, D., & St. Germain, L. (2003). Integrating Clinical Alerts into an
XML-Based health care Framework for the Neonatal Intensive Care Unit. Ottawa: IEEE.
Recuperado el 23 de 08 de 2015
Catley, C., Stratti, H., & McGregor, C. (2008). Multi-Dimensional Temporal Abstraction and Data
Mining of Medical Time Series Data: Trends and Challenges. Vancouver: IEEE.
Recuperado el 23 de 08 de 2015
Golombek, S. G., Fariña, D., Sola, A., Baquero, H., Cabañas, F., Dominguez, F., . . . Bancalari,
E. (2011). Segundo Consenso Clínico de la Sociedad Iberoamericana de Neonatología:
manejo hemodinámico del recién nacido. Rev Panam Salud Pública. Recuperado el 11
de 12 de 2015, de http://www.scielosp.org/pdf/rpsp/v29n4/10.pdf
Insituto Nacional de Salud, Observatorio Nacional de Salud. (2014). Tercer Informe ONS:
Mortalidad Evitable en Colombia para 1998-2011. BogotáD.C: Imprenta Nacional de
Colombia. Recuperado el 22 de 08 de 2015
McGregor, C. (Junio de 2013). Big Data in Neonatal Intensive Care. IEEE Software(0018-
9162/13). Recuperado el 21 de 08 de 2015
Ministerio de Salud y Protección Social. (2013). Resolución No. 1441 de 2013. Recuperado el
24 de 08 de 2015
Naik, T., Thommandram, A., Fernando, K., Bressan, N., & McGregor, C. (2014). A Method for
Real-Time Novel Premature Infant Pain Profile using High Rate, High Volume
Physiological Data Streams. University of Ontario Institute of Technology. Oshawa:
IEEE. Recuperado el 24 de 08 de 2015
Perez Gutierrez, N., & Rodriguez Darabos, E. I. (2015). Talento Humano en unidades de
cuidado intensivo: adaptación de un modelo de estándares para Colombia basado en la
evidencia científica. Elsevier. Recuperado el 22 de 08 de 2015
Saeed, M., Villarroel, M., Resiner, A. T., Clifford, G., Lehman, L.-W., Moody, G., . . . Mark, R. G.
(2011). Miltiparameter Intelligent Monitoring in Intensive Care II (MIMIC-II): Apublic-
access intensive care unit database. Massachusetts Insitute of Technology . Boston:
National Institutes of Health. doi:10.1097/CCM.0b013e31820a92c6
SPSS. (2000). CRISP-DM 1.0. Step-by-step data mining guide. SPSS Inc. Recuperado el 9 de
12 de 2015, de https://www.the-modeling-agency.com/crisp-dm.pdf