REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your...

9
Revista Salud, Sexualidad y Sociedad 1(4), 2009 REGRESIÓN LOGÍSTICA APLICADA A LA EPIDEMIOLOGÍA LOGISTIC APPLIED FOR REGRESSION EPIDEMIOLOGY Dra. Jully Pahola Calderón Saldaña Dr. Luis Alzamora de los Godos Urcia RESUMEN El siguiente artículo presenta la regresión logística como un método aplicado a las ciencias de la salud, en especial a la epidemiología, con lo que se trabajan los coeficientes del modelo logístico como cuantificadora de riesgo, las variables cualitativas en el modelo logístico, la interacción y confusión, la colinealidad, el tamaño de la muestra, la selección de modelos, el método de máxima verosimilitud y la prueba de Wald de significación de los parámetros, en todo este aplicativo se coloca un ejemplo en de reporte final de regresión logística binaria en SPSS y su interpretación . Palabras Claves: Regresión logística, epidemiología. ABSTRACT The following article presents the logistic regression like an applied for method the sciences of health, specially to epidemiology, so that the coefficients of the logistic model like quantifiers of risk, the qualitative variables in the logistic model, the interaction and confusion, the colineality, the size of sign, the selection of models, the procedure of maximum verisimilitude and Wald's sample of significance of the parameters, in everything are worked up this application an example is placed in of final report of logistic binary regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna duda que la regresión logística es una de las herramientas estadísticas con mejor capacidad para el análisis de datos en investigación clínica y epidemiología, de ahí su amplia utilización. El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos. También puede ser usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (politómico o multinomial). De todos es sabido que este tipo de situaciones se aborda mediante técnicas de regresión. Sin embargo, la metodología de la regresión lineal no es aplicable ya que ahora la variable respuesta sólo presenta dos valores (nos centraremos en el caso dicotómico), como puede ser presencia/ausencia de alguna enfermedad o suceso, por ejemplo hipertensión. Si clasificamos el valor de la variable respuesta como 0 cuando no se presenta el suceso (ausencia de hipertensión) y con el valor 1 cuando sí está presente (paciente hipertenso), y buscamos cuantificar la posible relación entre la presencia de hipertensión y, por ejemplo, la cantidad media de sal consumida al día como posible factor de riesgo, podríamos caer en la tentación de utilizar una regresión lineal y estimar, a partir de nuestros datos, por el procedimiento habitual de mínimos cuadrados, los coeficientes a y b de la ecuación. Sin embargo, y aunque esto es posible matemáticamente, nos conduce a la obtención de resultados absurdos, ya que cuando se calcule la función obtenida para diferentes valores de consumo de sal se obtendrá resultados que, en general, serán diferentes de 0 y 1, los únicos realmente posibles en este caso, ya que esa restricción no se impone en la regresión lineal, en la que la respuesta puede en principio tomar cualquier valor. Si utilizamos cómo variable dependiente la probabilidad p de que un paciente padezca hipertensión y construimos la siguiente función: 1. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Nacional Federico Villareal. 2. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Inca Garcilaso de la Vega.

Transcript of REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your...

Page 1: REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna

Revista Salud, Sexualidad y Sociedad 1(4), 2009

REGRESIÓN LOGÍSTICA APLICADA A LA EPIDEMIOLOGÍALOGISTIC APPLIED FOR REGRESSION EPIDEMIOLOGY

Dra. Jully Pahola Calderón SaldañaDr. Luis Alzamora de los Godos Urcia

RESUMEN

El siguiente artículo presenta la regresión logística como un método aplicado a las ciencias de la salud, en especial a laepidemiología, con lo que se trabajan los coeficientes del modelo logístico como cuantificadora de riesgo, las variables cualitativasen el modelo logístico, la interacción y confusión, la colinealidad, el tamaño de la muestra, la selección de modelos, el método demáxima verosimilitud y la prueba de Wald de significación de los parámetros, en todo este aplicativo se coloca un ejemplo en dereporte final de regresión logística binaria en SPSS y su interpretación .

Palabras Claves: Regresión logística, epidemiología.

ABSTRACT

The following article presents the logistic regression like an applied for method the sciences of health, specially to epidemiology, sothat the coefficients of the logistic model like quantifiers of risk, the qualitative variables in the logistic model, the interaction andconfusion, the colineality, the size of sign, the selection of models, the procedure of maximum verisimilitude and Wald's sample ofsignificance of the parameters, in everything are worked up this application an example is placed in of final report of logistic binaryregression in SPSS and your interpretation.

Key words: Logistic regression, epidemiology.

INTRODUCCIÓN

No cabe ninguna duda que la regresión logística es unade las herramientas estadísticas con mejor capacidadpara el análisis de datos en investigación clínica yepidemiología, de ahí su amplia utilización.

El objetivo primordial que resuelve esta técnica es el demodelar cómo influye en la probabilidad de aparición deun suceso, habitualmente dicotómico, la presencia o node diversos factores y el valor o nivel de los mismos.También puede ser usada para estimar la probabilidadde aparición de cada una de las posibilidades de unsuceso con más de dos categorías (politómico omultinomial).

De todos es sabido que este tipo de situaciones seaborda mediante técnicas de regresión. Sin embargo, lametodología de la regresión lineal no es aplicable yaque ahora la variable respuesta sólo presenta dosvalores (nos centraremos en el caso dicotómico), comopuede ser presencia/ausencia de alguna enfermedad osuceso, por ejemplo hipertensión.

Si clasificamos el valor de la variable respuesta como 0cuando no se presenta el suceso (ausencia de

hipertensión) y con el valor 1 cuando sí está presente(paciente hipertenso), y buscamos cuantificar la posiblerelación entre la presencia de hipertensión y, porejemplo, la cantidad media de sal consumida al díacomo posible factor de riesgo, podríamos caer en latentación de utilizar una regresión lineal

y estimar, a partir de nuestros datos, por elprocedimiento habitual de mínimos cuadrados, loscoeficientes a y b de la ecuación. Sin embargo, yaunque esto es posible matemáticamente, nos conducea la obtención de resultados absurdos, ya que cuandose calcule la función obtenida para diferentes valoresde consumo de sal se obtendrá resultados que, engeneral, serán diferentes de 0 y 1, los únicos realmenteposibles en este caso, ya que esa restricción no seimpone en la regresión lineal, en la que la respuestapuede en principio tomar cualquier valor.

Si utilizamos cómo variable dependiente la probabilidadp de que un paciente padezca hipertensión yconstruimos la siguiente función:

1. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Nacional Federico Villareal.2. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Inca Garcilaso de la Vega.

Page 2: REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna

Revista Salud, Sexualidad y Sociedad 1(4), 2009

Aahora sí tenemos una variable que puede tomarcualquier valor, por lo que podemos plantearnos elbuscar para ella una ecuación de regresión tradicional:

Que se puede convertir con una pequeña manipulaciónalgebraica en

Y este es precisamente el tipo de ecuación que seconoce como modelo logístico, donde el número defactores puede ser más de uno, así en el exponenteque figura en el denominador de la ecuación podríamostener:

b1.consumo_sal + b2.edad + b3.sexo + b4.fumador

Los coeficientes del modelo logístico comocuantificadores de riesgo

Una de las características que hacen tan interesante laregresión logística es la relación que éstos guardan conun parámetro de cuantificación de riesgo conocido en laliteratura como "odds ratio" (aunque puede tenertraducción al castellano, renunciamos a ello para evitarconfusión ya que siempre se utiliza la terminologíainglesa).

El odds asociado a un suceso es el cociente entre laprobabilidad de que ocurra frente a la probabilidad deque no ocurra:

Siendo p la probabilidad del suceso. Así, por ejemplo,podemos calcular el odds de presencia de hipertensióncuando el consumo diario de sal es igual o superior auna cierta cantidad, que en realidad determina cuántasveces es más probable que haya hipertensión a que no

la haya en esa situación. Igualmente podríamoscalcular el odds de presencia de hipertensión cuando elconsumo de sal es inferior a esa cantidad. Si dividimosel primer odds entre el segundo, hemos calculado uncociente de odds, esto es un odds ratio, que de algunamanera cuantifica cuánto más probable es la apariciónde hipertensión cuando se consume mucha sal (primerodds) respecto a cuándo se consume poca. La nociónque se está midiendo es parecida a la que encontramosen lo que se denomina riesgo relativo quecorresponde al cociente de la probabilidad de queaparezca un suceso (hipertensión) cuando estápresente el factor (consumo elevado de sal) respecto acuando no lo está. De hecho cuando la prevalencia delsuceso es baja (< 20 %) el valor del odds ratio y elriesgo relativo es muy parecido, pero no es así cuandoel suceso es bastante común, hecho que a menudo seignora y será objeto de un comentario más extenso enun nuevo artículo.

Si en la ecuación de regresión tenemos un factordicotómico, como puede ser por ejemplo si el sujeto esno fumador, el coeficiente b de la ecuación para esefactor está directamente relacionado con el odds ratioOR de ser fumador respecto a no serlo

Es decir que exp(b) es una medida que cuantifica elriesgo que representa poseer el factor correspondienterespecto a no poseerlo, suponiendo que el resto devariables del modelo permanecen constantes.

Cuando la variable es numérica, como puede ser porejemplo la edad, o el índice de masa corporal, es unamedida que cuantifica el cambio en el riesgo cuando sepasa de un valor del factor a otro, permaneciendoconstantes el resto de variables. Así el odds ratio quesupone pasar de la edad X1 a la edad X2, siendo b elcoeficiente correspondiente a la edad en el modelologístico es:

Nótese que se trata de un modelo en el que el aumentoo disminución del riesgo al pasar de un valor a otro delfactor es proporcional al cambio, es decir a la diferenciaentre los dos valores, pero no al punto de partida,quiere esto decir que el cambio en el riesgo, con el

Page 3: REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna

Revista Salud, Sexualidad y Sociedad 1(4), 2009

modelo logístico, es el mismo cuando pasamos de 40 a50 años que cuando pasamos de 80 a 90.

Cuando el coeficiente b de la variable es positivoobtendremos un odds ratio mayor que 1 y correspondepor tanto a un factor de riesgo. Por el contrario, si b esnegativo el odds ratio será menor que 1 y se trata de unfactor de protección.

Las variables cualitativas en el modelo logístico

Puesto que la metodología empleada para laestimación del modelo logístico se basa en la utilizaciónde variables cuantitativas, al igual que en cualquier otroprocedimiento de regresión, es incorrecto que en élintervengan variables cualitativas, ya sean nominales uordinales.

La asignación de un número a cada categoría noresuelve el problema ya que si tenemos, por ejemplo, lavariable ejercicio físico con tres posibles respuestas:sedentario, realiza ejercicio esporádicamente, realizaejercicio frecuentemente, y le asignamos los valores 0,1, 2, significa a efectos del modelo, que efectuarejercicio físico frecuentemente es dos veces mayor quesolo hacerlo esporádicamente, lo cual no tienen ningúnsentido. Más absurdo sería si se trata, a diferencia deésta, de una variable nominal, sin ninguna relación deorden entre las respuestas, como puede ser el estadocivil.

La solución a este problema es crear tantas variablesdicotómicas como número de respuestas - 1. Estasnuevas variables, artificialmente creadas, reciben en laliteratura anglosajona el nombre de "dummy",traduciéndose en español con diferentesdenominaciones como pueden ser variables internas,indicadoras, o variables diseño.

Así por ejemplo si la variable en cuestión recoge datosde tabaquismo con las siguientes respuestas: Nuncafumó, Ex-fumador, Actualmente fuma menos de 10cigarrillos diarios, Actualmente fuma 10 o máscigarrillos diarios, tenemos 4 posibles respuestas por loque construiremos 3 variables internas dicotómicas(valores 0,1), existiendo diferentes posibilidades decodificación, que conducen a diferentesinterpretaciones, y siendo la más habitual la siguiente:

I1 I2 I3

Nunca fumó 0 0 0

Ex- fumador 1 0 0

Menos de 10 cigarrillos diarios 0 1 0

10 o más cigarrillos diarios 0 0 1

En este tipo de codificación el coeficiente de laecuación de regresión para cada variable diseño(siempre transformado con la función exponencial), secorresponde al odds ratio de esa categoría conrespecto al nivel de referencia (la primera respuesta),en nuestro ejemplo cuantifica cómo cambia el riesgorespecto a no haber fumado nunca.

Existen otras posibilidades entre las que se destacacon un ejemplo para una variable cualitativa de tresrespuestas:

I1 I2

Respuesta 1 0 0

Respuesta 2 1 0

Respuesta 3 1 1

Con esta codificación cada coeficiente se interpretacomo una media del cambio del riesgo al pasar de unacategoría a la siguiente.

En el caso una categoría que NO pueda serconsiderada de forma natural como nivel de referencia,como por ejemplo el grupo sanguíneo, un posiblesistema de clasificación es:

I1 I2

Respuesta 1 -1 -1

Respuesta 2 1 0

Respuesta 3 0 1

Donde cada coeficiente de las variables indicadorastiene una interpretación directa como cambio en elriesgo con respecto a la media de las tres respuestas.

Bondad del ajuste

Page 4: REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna

Revista Salud, Sexualidad y Sociedad 1(4), 2009

Siempre que se construye un modelo de regresión esfundamental, antes de pasar a extraer conclusiones, elcorroborar que el modelo calculado se ajustaefectivamente a los datos usados para estimarlo.

En el caso de la regresión logística una idea bastanteintuitiva es calcular la probabilidad de aparición delsuceso, presencia de hipertensión en nuestro caso,para todos los pacientes de la muestra. Si el ajuste esbueno, es de esperar que un valor alto de probabilidadse asocie con presencia real de hipertensión, yviceversa, si el valor de esa probabilidad calculada esbajo, cabe esperar también ausencia de hipertensión.

Esta idea intuitiva se lleva a cabo formalmentemediante la prueba conocida como de Hosmer-Lemeshow (1989), que básicamente consiste en dividirel recorrido de la probabilidad en deciles de riesgo (estoes probabilidad de hipertensión < 0.1, < 0.2, y así hasta<1) y calcular tanto la distribución de hipertensos, comono hipertensos prevista por la ecuación y los valoresrealmente observados. Ambas distribuciones, esperaday observada, se contrastan mediante una prueba dechi².

En la presentación final de los datos de regresiónlogística debiera figurar siempre algún tipo de pruebade bondad de ajuste y las conclusiones comentadasque de ella se deducen, pues en el caso de la pruebaHosmer-Lemeshow es más ilustrativo que el propioresultado del contraste, los valores de la distribuciónobtenida.

Interacción y confusión

El empleo de técnicas de regresión logística sirve parados objetivos:

1. Estimar la relación entre dos variablesteniendo en cuenta la presencia de otrosfactores

2. Construir un modelo que permita predecir elvalor de la variable dependiente (en regresiónlogística la probabilidad del suceso) para unosvalores determinados de un conjunto devariables pronóstico

Cuando el objetivo es estimar la relación o asociaciónentre dos variables, los modelos de regresión permiten

considerar que puede haber otros factores quemodifiquen esa relación.

Así, por ejemplo, si se está estudiando la posiblerelación, como factor de riesgo, entre el síndrome deapnea nocturna y la probabilidad de padecerhipertensión, dicha relación puede ser diferente si setiene en cuenta otras variables como pueden ser laedad, el sexo o el índice de masa corporal. Por ello enun modelo de regresión logística podrían ser incluidascomo variables independientes, además del dato deapnea. En la ecuación obtenida al considerar comovariables dependientes APNEA, EDAD, SEXO, IMC, elexp(coeficiente de la ecuación para APNEA) nosdetermina el odds ratio debido a la apena, ajustado ocontrolado para el resto de los factores.

A las variables que, además del factor de interés (en elejemplo EDAD, SEXO, IMC), se introducen en elmodelo, se las denomina en la literatura de diferentesformas: variables control, variables extrañas,covariantes, o factores de confusión.

Interacción

Cuando la relación entre el factor en estudio y lavariable dependiente se modifica según el valor de unatercera estamos hablando de interacción. Así ennuestro ejemplo, supongamos que la probabilidad depadecer HTA cuando se tiene síndrome de apneaaumenta con la edad. En este caso decimos que existeinteracción entre las variables EDAD y APNEA.

Si nos fijamos sólo en el exponente del modelologístico, en el caso de no considerar interacción ésteserá:

Si deseamos considerar la presencia de interacciónentre APNEA y EDAD el modelo cambia:

Si la variable APNEA es dicotómica (valores 0 y 1) larelación entre HTA y APNEA vendrá cuantificada por b1en el primer modelo mientras que en el segundo

Page 5: REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna

Revista Salud, Sexualidad y Sociedad 1(4), 2009

es decir que ahora esa relación se modifica en funcióndel valor de la EDAD.

Algunas precauciones

La amplia disponibilidad de programas que permiten elacceso a sofisticadas pruebas estadísticas como elSPSS, el Epi-Info 2002, Systat entre otros, puedenconducir a la utilización inadecuada y mecánica deéstas. En particular los modelos de regresión requierende quien los construye un mínimo de comprensión de lafilosofía subyacente, así como no sólo el conocimientode las ventajas, sino también de los problemas ydebilidades de éstas técnicas. La utilización deprocedimientos matemáticos a menudo nos convencede que estamos introduciendo "objetividad" en losresultados y ello es así en cierta medida, pero tambiénlleva aparejada una gran carga de subjetividad, dondese incluye desde la misma elección de un modelomatemático determinado, hasta la selección de lasvariables en él contenidas.

Una de las primeras consideraciones que hay quehacer es que la relación entre la variable independientey la probabilidad del suceso no cambie de sentido, yaque en ese caso no nos sirve el modelo logístico. Estoes algo que habitualmente no ocurre en los estudiosclínicos, pero por ello es más fácil pasarlo por altocuando se presenta.

Un ejemplo muy claro de esa situación se da siestamos evaluando la probabilidad de nacimiento unniño con bajo peso (de riesgo) en función de la edad dela madre. Hasta una edad esa probabilidad puedeaumentar a medida que la edad de la madre disminuye(madres muy jóvenes) y a partir de una edad (madresmuy mayores) la probabilidad puede aumentar amedida que lo hace la edad de la madre. En este casoel modelo logístico no sería adecuado.

Colinealidad

Otro problema que se puede presentar en los modelosde regresión, no sólo logísticos, es que las variablesque intervienen estén muy correlacionadas, lo queconduce a un modelo desprovisto de sentido y por lotanto a unos valores de los coeficientes nointerpretables. A esta situación, de variablesindependientes correlacionadas, se la denominacolinealidad.

Para entenderlo supongamos el caso extremo, en elque se introduce en el modelo dos veces la mismavariable, tendríamos entonces el siguiente término.

o lo que es lo mismo

Donde la suma b1+b2 admite infinitas posibilidades a lahora de dividir en dos sumandos el valor de uncoeficiente, por lo que la estimación obtenida de b1 yb2 no tiene realmente ningún sentido.

Un ejemplo de esta situación se podría dar si incluimosen la ecuación variables como la hemoglobina y elhematocrito que está altamente correlacionado.

Tamaño de muestra

Como regla "de andar por casa" podemos considerarnecesario disponer de al menos 10(k + 1) casos paraestimar un modelo con k variables independientes; esdecir, al menos 10 casos por cada variable queinterviene en el modelo, considerando también lavariable dependiente (la probabilidad del suceso), no escierto que una misma muestra calculada para unestudio analítico sirva para el modelo logístico.

Conviene llamar la atención respecto a que lascualitativas intervienen como c - 1 variables en elmodelo, al construir a partir de ellas lascorrespondientes variables internas.

Selección de modelos

Al estar hablando de modelos que pueden sermultivariantes, un aspecto de interés es cómoseleccionar el mejor conjunto de variablesindependientes a incluir en el modelo.

La definición de mejor modelo depende del tipo y elobjetivo del estudio. En un modelo con finalidadpredictiva se considerará como mejor modelo aquel queproduce predicciones más fiables, mientras que en unmodelo que pretende estimar la relación entre dosvariables (corrigiendo el efecto de otras), seconsiderará mejor aquel con el que se consigue una

Page 6: REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna

Revista Salud, Sexualidad y Sociedad 1(4), 2009

estimación más precisa del coeficiente de la variable deinterés. Esto se olvida a menudo y sin embargoconduce a estrategias de modelado completamentediferentes. Así en el segundo caso un covariante concoeficiente estadísticamente significativo pero cuyainclusión en la ecuación no modifica el valor delcoeficiente de la variable de interés, será excluido de laecuación, ya que no se trata de un factor de confusión:la relación entre la variable de interés y la probabilidadno se modifica si se tiene en cuenta esa variable. Sinembargo si lo que se busca un modelo predicitivo síque se incluirá en la ecuación pues ahora lo quebuscamos es predicciones más fiables.

Otra consideración que hay que hacer siempre que seanalizan datos es distinguir entre diferenciasnuméricas, diferencias estadísticamente significativas ydiferencias clínicamente relevantes. No siemprecoinciden los tres conceptos.

Lo primero que habrá que plantear es el modelomáximo, o lo que es lo mismo el número máximo devariables dependientes que pueden ser incluidas en laecuación, considerando también las interacciones sifuera conveniente.

Aunque existen diferentes procedimientos para escogerel modelo sólo hay tres mecanismos básicos para ello:empezar con una sola variable dependiente e irañadiendo nuevas variables según un criterio prefijado(procedimiento hacia adelante), o bien empezar con elmodelo máximo e ir eliminando de él variables segúnun criterio prefijado (procedimiento hacia atrás). Eltercer método, denominado en la literatura "stepwise",combina los dos anteriores y en cada paso se puedetanto añadir una variable como eliminar otra que yaestaba en la ecuación, dependiendo de los hallazgosde otros estudios.

En el caso de la regresión logística el criterio paradecidir en cada paso si escogemos un nuevo modelofrente al actual viene dado por el logaritmo del cocientede verosimilitudes de los modelos.

La función de verosimilitud de un modelo es unamedida de cuán compatible es éste con los datosrealmente observados. Si al añadir una nueva variableal modelo no mejora la verosimilitud de formaapreciable, en sentido estadístico, ésta variable no seincluye en la ecuación.

Para evaluar la significación estadística de una variableconcreta dentro del modelo, nos fijaremos en el valorde chi² (estadístico de Wald) correspondiente alcoeficiente de la variable y en su nivel de probabilidad

El método de máxima verosimilitud

Supone que las observaciones fueron generadas poruna distribución de probabilidades cuyos parámetroshay que estimar. Para llevar a cabo la estimación seconstruye la función de verosimilitud que es unamedida de la incertidumbre en la estimación de valoreshipotéticos del o de los parámetros. Supongamos queel valor hipotético del parámetro q es q' entonces lafunción de verosimilitud será:

L(q'/Y, M) = K(Y)P(Y/q')

Donde la función de verosimilitud L representa laincertidumbre asociada a q', dada las observaciones (Y)y el modelo (M). El método consiste en encontrar elvalor de q' que maximiza la verosimilitud de que losdatos fueron producidos por el modelo (King G.: 1989:24). Son muchos los cálculos técnicos de este métodode estimación, sin embargo, dejaremos su presentaciónen este punto para enfocarnos hacia las ideas centralesque organizan esta forma de atacar el problema.

Queremos destacar el hecho que el planteamiento delmétodo de estimación máximo verosímil introduce elsupuesto de que las observaciones se generan por unmecanismo aleatorio. Esta es una forma de "organizar"la experiencia. Reconoce un papel activo del sujeto, eséste quien decide si el modelo adecuado pararepresentar un conjunto de datos es la distribuciónbinomial o multinomial, etc. La elección no es arbitrariasino que se apoya en el examen del procedimiento quese siguió para generar las observaciones y lascaracterísticas teóricas de las distribuciones deprobabilidades.

Prueba de Wald de significación de los parámetros

Es posible que algunas de las supuestas variablesexplicativas no sean tales y no tengan ningún efectosobre la variable respuesta; para poder identificarlas yeliminarlas del modelo, se recurre a la prueba de Wald,la cual se limita a contrastar la hipótesis de nulidad del

coeficiente asociado a la variable Xj:

Page 7: REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna

Revista Salud, Sexualidad y Sociedad 1(4), 2009

H0j: "Xj no influye sobre Y: =0"frente a la alternativa:

H1j: "Xj influye sobre Y: ".

El estadístico de contraste para la j-ésima variableexplicativa es

que se distribuye como una con 1 grado de libertadcuando la muestra es grande, siendo s2

j la varianza del

estimador de . El contraste se realiza a un nivel designificación del 5%.

CasoSe ha realizado un ensayo clínico para determinar lacapacidad analgésica de la acupuntura en eltratamiento de los dolores lumbares. A este fin se lesha aplicado el tratamiento a 40 pacientes colocando lasagujas en los lugares indicados por la medicinatradicional china, y a otros 40 un tratamiento placeboconsistente en situar las agujas de forma aleatoriasobre la superficie cutánea (tradicional=1, placebo=0).Además, se sabe de cada uno de ellos el sexo(mujer=0, hombre=1), la edad (años cumplidos) y elhistorial de consumo de sicofármacos (no consumió=0,consumo ocasional=1, regular=2, frecuente=3,dependencia=4). Transcurridos dos meses detratamiento, el individuo declara que ha experimentadomejoría (Y=1) o que los dolores se mantienen o quehan aumentado (Y=0):

Resultado(0-1)

Tratamiento(0-1)

Sexo(0-1)

Edad(años)

Sicofármacos(0-4)

1 0 0 49 1

0 0 0 35 0

0 0 1 23 0

0 0 0 54 0

0 0 1 43 1

0 0 1 63 2

0 0 0 25 0

0 0 1 41 0

1 0 0 22 3

1 0 0 33 2

... ... ... ... ...

Se quiere investigar la efectividad de la acupuntura enel tratamiento de las molestias lumbares.

El programa calcula los coeficientes asociados a cadauna de las variables explicativas: tratamiento (0.78),sexo (1.45), edad (-0.01) y consumo de sicofármacos(1.91). En cuanto a los contrastes de Wald, todos ellosaceptan la nulidad de los coeficientes, excepto elcorrespondiente a la variable sobre consumo desicofármacos; la interpretación de los resultados es queni el tratamiento, ni el sexo, ni la edad influyen sobre ladeclaración del paciente sobre su mejoría, pero sí elhaber sido consumidor de sicofármacos, lo que inducea pensar que son los pacientes más sugestionables losque dicen haber mejorado, independientemente dedonde hayan sido colocadas las agujas, de su sexo yde su edad.

(Fuente: L. C. Silva Ayçaguer (1995) Excursión a laregresión logística en ciencias de la salud. Ed. Díaz deSantos, Madrid.)

EJEMPLO DE TRABAJO EN EL SPSS

Primero se selecciona la base de datos en la se deseatrabajar, teniendo cuidado que la variable dependienteque sea motivo del análisis sea dicotómica.

Posteriormente se va al menú contextual y seselecciona ANALIZE, al cual se la un Clik.

Page 8: REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna

Revista Salud, Sexualidad y Sociedad 1(4), 2009

Luego se va a la sección de regresión y se seleccionabinary Logistic la cual está referida a la regresiónlogística binaria.

Posteriormente se ingresa en el casillero de Depndentla variable dependiente, la cual debe ser dicotómica, eneste ejemplo se esta tomando es de un estudio decasos y controles de mortalidad materna, la variablecondición se categoriza en Muerte Materna ysobreviviente. Las variables independientes, como seha visto con anterioridad de preferencia deben sercuantitativa o categorizarlas de manera lógica para elanálisis, para este caso y para evitar confusiónemplearemos variables cuantitativas como edad, edadgestacional, peso materno, talla materna, nº de hijosvivos, intervalo íntergenésico y número de controlesprenatales. Dichas variables se colocan en el casillerode covariates.

Posteriormente se reportan los resultados en el SPSSde la siguiente forma, los cuales solamente seseleccionan dos cuadros:

Logistic Regression

Case Processing Summary

52 78,8

14 21,2

66 100,0

0 ,0

66 100,0

Unweighted Casesa

Included in Analysis

Missing Cases

Total

Selected Cases

Unselected Cases

Total

N Percent

If weight is in effect, see classification table for the totalnumber of cases.

a.

Dependent Variable Encoding

0

1

Original ValueMuerte Materna

Sobreviviente

Internal Value

Block 0: Beginning BlockClassification Tablea,b

0 24 ,0

0 28 100,0

53,8

ObservedMuerte Materna

Sobreviviente

Condición

Overall Percentage

Step 0

MuerteMaterna Sobreviviente

Condición

PercentageCorrect

Predicted

Constant is included in the model.a.

The cut value is ,500b.

Variables in the Equation

,154 ,278 ,307 1 ,579 1,167ConstantStep 0B S.E. Wald df Sig. Exp(B)

Page 9: REGRESIÓN LOGÍSTICA APLICADA A LA … IV 2009/10- Regres...regression in SPSS and your interpretation. Key words: Logistic regression, epidemiology. INTRODUCCIÓN No cabe ninguna

Revista Salud, Sexualidad y Sociedad 1(4), 2009

Variables not in the Equation

,677 1 ,411

,604 1 ,437

,427 1 ,513

1,250 1 ,264

7,117 1 ,008

,558 1 ,455

1,072 1 ,300

17,056 7 ,017

EDAD10

EDADGE21

PESOMA22

TALMAT23

NHJSNV25

ININTE27

NCPN28

Variables

Overall Statistics

Step0

Score df Sig.

Block 1: Method = Enter

Omnibus Tests of Model Coefficients

23,586 7 ,001

23,586 7 ,001

23,586 7 ,001

Step

Block

Model

Step 1Chi-square df Sig.

Model Summary

48,194 ,365 ,487

Step1

-2 Loglikelihood

Cox & SnellR Square

NagelkerkeR Square

Classification Tablea

16 8 66,7

6 22 78,6

73,1

ObservedMuerte Materna

Sobreviviente

Condición

Overall Percentage

Step 1

MuerteMaterna Sobreviviente

Condición

PercentageCorrect

Predicted

The cut value is ,500a.

Variables in the Equation

,166 ,092 3,269 1 ,071 1,181 ,986 1,413

-,038 ,041 ,873 1 ,350 ,962 ,888 1,043

-,019 ,038 ,247 1 ,619 ,981 ,910 1,058

-9,559 7,213 1,756 1 ,185 ,000 ,000 97,265

-,936 ,346 7,331 1 ,007 ,392 ,199 ,772

,095 ,147 ,419 1 ,518 1,100 ,825 1,466

,385 ,174 4,903 1 ,027 1,469 1,045 2,064

12,876 10,057 1,639 1 ,200 390681,5

EDAD10

EDADGE21

PESOMA22

TALMAT23

NHJSNV25

ININTE27

NCPN28

Constant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper

95,0% C.I.for EXP(B)

Variable(s) entered on step 1: EDAD10, EDADGE21, PESOMA22, TALMAT23, NHJSNV25, ININTE27, NCPN28.a.

REPORTE FINAL DE REGRESIÓN LOGÍSTICABINARIA EN SPSS Y SU INTERPRETACIÓN

Los cuadros marcados se editan en el SPSS y seescogen las pruebas de acuerdo al análisis de lainformación

,677 1 ,411

,604 1 ,437

1 ,513

1,250 1 ,264

7,117 1 ,008

,558 1 ,455

1,072 1 ,300

17,056 7 ,017

Edad

Edad gestacional

Peso Materno

Talla Materna

Nº de Hijos

Interv. Intergenesico

Nº de CPN

Variables

Todos los variables

Valor Chi² gl Sig (p).

Se selecciona el segundo cuadro ya que realiza lainteracción de riesgo entre las muertes maternas y lassobrevivientes, mientras que el primero solamente haceuna asociación simple a la muerte materna sincomparación con las sobrevivientes.

,166 ,092 1 ,071 1,181 ,986 1,413

-,038 ,041 1 ,350 ,962 ,888 1,043

-,019 ,038 1 ,619 ,981 ,910 1,058

-9,559 7,213 1 ,185 ,000 ,000 97,265

-,936 ,346 1 ,007 ,392 ,199 ,772

,095 ,147 1 ,518 1,100 ,825 1,466

,385 ,174 1 ,027 1,469 1,045 2,064

12,876 10,057 1 ,200 390681,50

Edad

Edad Gestacional

Peso Materno

Talla Materna

Nº de Hijos

Int. Intergenésico

Nº de CPN

Constante

B S.E. gl Sig (p). OR Mínimo Máximo

Int. Conf. 95,0% (OR)

REFERENCIAS BIBLIOGRÁFICAS

1. Ayçaguer S. Excursión a la regresión logística enciencias de la salud. Ed. Díaz de Santos. Madrid 1995.

2. Hosmer D, Lemeshow S, Wiley J. Applied LogisticRegresión. New York. 1989.

3. Abraira V, Pérez de Vargas A. Métodos multivariantes enbioestadística Ed. Centro de Estudios Ramón Areces.Madrid. 1996.

4. Breslow N, Días N. Los métodos estadísticos en lainvestigación de cáncer: el análisis de estudios del caso-mando. Lyon, Francia: IARC la Publicación Científica; ;1981; 1 (32).

5. Hosmer D, Lemeshow S. La regresión logistica aplicada(las Series de Wiley en la Probabilidad y la EstadísticaMatemática. La Probabilidad aplicada y Sección de laEstadística). Nueva York: John Wiley; 1989.

6. Kleinbaum D, Kupper L, Morgenstern H., InvestigaciónEpidemiológica: los Principios y los métodoscuantitativos. Nueva York: Van Nostrand Reinhold; 1982.

7. Kleinbaum D, Kupper L, Muller K. El análisis de laregresión aplicada y otros métodos multivariantes.Segunda edición. Boston: Duxbury Press; 1987.

8. Kleinbaum D. Las estadísticas en las ciencias de salud:Logistic regression. Nueva York: Springer-Verlag; 1994.

Recibido: 02/11/2008 Aceptado: 06/01/2009