Download - Estadística Medicina.pdf

Transcript
  • Introduccin a la estadstica bsicapara enfermera nefrolgicaAlberto Rodrguez Benot,Rodolfo Crespo Montero

    Servicio de Nefrologa.Hospital Reina Sofa, Crdoba.

    RESUMEN

    La estadstica es uno de los pilares del mtodo cien-tfico una vez alcanzada la fase de anlisis de los datos.La estadstica descriptiva permite organizar y presentarlos datos en tablas o grficos, as como resumirlos conmedidas de centralizacin y de dispersin, simplifican-do la interpretacin de los mismos. La estadsticainferencial estudia las variables o caractersticas que pre-sentan los individuos, generalizando los datos obteni-dos a partir de una muestra a un nmero mayor de indi-viduos (poblacin). La estadstica inferencial se basa enla teora de las probabilidades, ya que la generalizacinde los datos de la muestra a una poblacin est siempresujeta a un pequeo margen de error. La muestra debeobtenerse al azar y ser representativa de las caractersti-cas de la poblacin. La mayora de las variables biolgi-cas (temperatura, glucemia...) siguen una distribucinde frecuencias en forma de campana invertida, denomi-nada distribucin normal o de Gauss. En otras ocasio-nes siguen una distribucin diferente, como la binomialo la de Poisson. La distribucin de frecuencias de unavariable en una muestra pasa a ser una distribucin deprobabilidades cuando se generaliza a una poblacin.Esta es la base para la comparacin de grupos de datos(medias, proporciones) utilizando los tests de contrastede hiptesis. Estos tests comparan dos o ms grupos dedatos entre s indicando si existen o no diferencias entreellos, con una pequea probabilidad de error p. Existentextos paramtricos cuando se comparan variables quesiguen una distribucin normal, y tests no paramtricospara comparar variables cuantitativas discretas o cuali-tativas. Tambin es posible conocer el grado de relacino asociacin existente entre dos o ms variables me-diante los tests de correlacin. En sentido inverso puede

    LA ESTADSTICA EN CIENCIAS DE LA SALUD

    Aunque aparentemente la bioestadstica parece unaciencia fundamentalmente terica, es utilizada en la prc-tica mdica a diario. Cuando hablamos de la dosis mediade eritropoyetina administrada en dilisis o el tiempo me-dio de duracin de una sesin de hemodilisis estamosutilizando la estadstica. O cuando decidimos tratar a unpaciente con unas cifras de colesterol o de presin arterialelevadas, previamente se ha demostrado estadsticamenteque existe un riesgo elevado cuando esas cifras estn porencima de un determinado valor. O por ejemplo, cuandoqueremos comparar si existe diferencias entre un frmacoinmunosupresor u otro a la hora de prevenir el rechazo deun trasplante renal.

    El objetivo de este artculo es iniciar y familiarizar a laenfermera con el mtodo cientfico, y ms concretamentecon las nociones bsicas del anlisis estadstico necesariopara cualquier estudio de investigacin.

    predecirse el valor de una variable dependiente a partirdel valor de otra independiente mediante la regresin.Por ltimo, en medicina es interesante el anlisis esta-dstico de la supervivencia. El mtodo de Kaplan-Meieres uno de los ms utilizados para obtener las curvas desupervivencia, comparndose posteriormente si exis-ten diferencias significativas entre ellas mediante el testde Log-Rank. El anlisis estadstico se ha simplificadoenormemente gracias al desarrollo de potentes paque-tes informticos que se ocupan de la mayora de lasfunciones de la estadstica descriptiva, inferencial y re-presentacin grfica de los datos de forma automtica,facilitando as al investigador la obtencin de conclu-siones y la presentacin de los datos en comunicacio-nes y publicaciones cientficas.

    20 / III TRIMESTRE 99, n 7

  • La estadstica es una ciencia de reciente desarrollo,basada en las matemticas y en la actualidad resulta rela-tivamente fcil su utilizacin prctica gracias al apoyo dela informtica. El clculo de complicadas expresiones sesimplifica y acelera hacindolo casi "un juego de nios",algo impensable hace unos pocos aos. Lo nico que elordenador no sabe es qu hay que hacer, l slo se encar-ga del clculo. Afortunadamente (por ahora) es el investi-gador, y no la mquina, quien toma la decisin.

    1. TIPOS DE ESTADSTICA

    Definida por Schwartz en 1981 como un mtodo derazonamiento que permite interpretar un conjunto de da-tos cuyo carcter esencial es la variabilidad, la estadsticapermite estudiar el comportamiento de ciertas caractersti-cas en una poblacin, y es un instrumento fundamentalpara la medicina actual. La estadstica descriptiva compren-de la presentacin, organizacin y resumen de los datosde una manera cientfica. Incluye diversos mtodos de or-ganizar y representar grficamente los datos, para dar unaidea de lo que nos muestran. Las tablas, los diagramas debarras o los grficos sectoriales o "tartas" son algunos delos elementos de estadstica descriptiva. Tambin incluyevarios parmetros numricos (como la media aritmtica)que resumen los datos con muy pocos nmeros clave. Porotra parte, la estadstica inferencial o inductiva permite ge-neralizar los datos obtenidos a partir de una muestra a unnmero mayor de individuos (poblacin). La estadsticainferencial se basa en la teora de las probabilidades ytrabaja con los datos que le proporciona la estadstica des-criptiva.

    2. POBLACIN, MUESTRA, INDIVIDUO, VARIABLESTIPOS DE VARIABLES

    Supongamos un estudio hipottico en el que preten-demos comparar si el calibre de la aguja de puncin influ-ye en la supervivencia de la fstula arteriovenosa de lospacientes en hemodilisis. Nuestro estudio lo llevaremosa cabo en unos cuantos pacientes, en los que iremos reco-giendo una serie de datos: calibre de la aguja, tipo defstula, antigedad, nmero de punciones fallidas, exis-tencia de diabetes... Si nuestro estudio demuestra que undeterminado calibre acorta el tiempo de vida de la fstulaen los pacientes estudiados, su importancia realmente ra-dica en que esos resultados son aplicables no slo a nues-tros pacientes, sino a todos los pacientes en hemodilisiscon las mismas caractersticas que los que hemos estudia-do. Nuestro estudio se ha realizado en una muestra deindividuos que forman parte de una poblacin, los pa-cientes en hemodilisis.

    INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    De forma genrica la poblacin se define como unconjunto homogneo de individuos que generalmente esinaccesible para su estudio al ser de un tamaoinabordable. Es tambin el hipottico (y habitualmenteinfinito) conjunto de personas a las que se desea aplicaruna generalizacin. La muestra es un conjunto menor deindividuos, accesible y limitado, sobre el que se realiza elestudio con idea de obtener conclusiones generalizables ala poblacin. Debe ser un conjunto reducido, perorepresentativo de la poblacin de donde procede. Cadauno de los componentes de la poblacin y de la muestrase denomina individuo. Al nmero de individuos que formanla muestra se llama tamao, y se representa con la letra n.

    Las variables o caracteres son las propiedades o carac-tersticas que se estudian en cada individuo de la muestra,como la edad, el peso, la presin arterial, o el tiempo endilisis, el tipo de aguja empleado, o la intensidad deldolor a la puncin. Una variable no es ms que lo queest siendo observado o medido. Hay variables de dostipos:

    Variables dependientes: son el objeto de inters, quevara en respuesta a alguna intervencin.

    Variables independientes: es la intervencin, o lo queest siendo aplicado. En nuestro ejemplo, la variable de-pendiente es el tiempo de supervivencia de la fstula, quedepende del calibre de la aguja (variable independiente).Las variables pueden contener datos muy diversos, queestn agregados en categoras. Por ejemplo, la variable"sexo" tiene dos categoras: masculino y femenino. A suvez, segn el tipo de datos que contienen las variables, sepueden clasificar en:

    Variables cualitativas, que tienen valores no numricos(sexo, religin, color de los ojos). Pueden ser: nominales,con categoras con nombre: religin, estado civil, especia-lidades de un hospital... Cuando se les puede ordenar ensentido creciente o decreciente se denominan ordinales.Por ejemplo, el dolor medido como leve, moderado o gra-ve. Si las variables cualitativas pueden tomar slo dosposturas o valores opuestos (vivo/muerto, varn/mujer,sano/enfermo), se llaman dicotmicas o binarias y sonexcluyentes entre s.

    Variables cuantitativas, que son aquellas que tomanvalores numricos (glucemia, nmero de hijos, peso, co-eficiente intelectual). Pueden ser: discretas, cuyos valoresson nmeros finitos, generalmente nmeros enteros (pa-cientes ingresados en un hospital, nmero de partos, n-mero de dientes con caries) o continuas, que pueden to-mar cualquier valor de un intervalo determinado. Por ejem-plo, la altura, el peso o nivel de colesterol: se pueden frac-cionar cuanto se quiera. La nica limitacin viene dadapor el aparato de medida.

    III TRIMESTRE 99, n 7/ 21

  • INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    3. PROBABILIDAD BSICA

    La probabilidad se define como el lmite de la frecuen-cia relativa cuando el nmero de repeticiones de un expe-rimento tiende al infinito. Una definicin menos cientfica,pero ms inteligible y prctica es el nmero de casos favo-rables dividido por el nmero de casos posibles. La teorade la probabilidad es la base de la estadstica inferencial.

    Ejemplo: En un centro de dilisis con 100 pacientes,20 han contrado una gastroenteritis. Cul es la probabi-lidad de contraer esa enfermedad) P(enfermedad)= 20/100=0.2 (o tambin 20%). La probabilidad de que noocurra (tambin llamado suceso complementario) se cal-cula restando de 1 probabilidad de que ocurra. P(no en-fermedad)=1 - P(enfermedad) = 1 - 0.2 = 0.8 (80%).

    La probabilidad de un suceso cualquiera est compren-dida entre 0 y 1. La probabilidad del suceso imposible es0, y la del suceso seguro, 1.

    PROBABILIDAD CONDICIONADA: Es la probabilidadde que ocurra un suceso (A) habiendo ocurrido otro (B):

    Ejemplo: en el caso anterior, de 100 pacientes, 80 hantomado un bocadillo durante la sesin de dilisis; de ellos,contraen gastroenteritis 20. Cul es la probabilidad decontraer gastroenteritis (A) habiendo tomado bocadillo (B)?

    De los 80 que tomaron bocadillo, slo 20 presentangastroenteritis, o lo que es lo mismo, la probabilidad decontraer gastroenteritis (A) y comer bocadillo (B) es 20. Laprobabilidad P(AyB) es 20% o 0.2 (viene dada en el enun-ciado); la probabilidad de comer bocadillo P(B) es 80% o0.8:

    n de veces que ocurre A y B P(AyB) P(A/B)= =

    n de veces que ocurre B P(B)

    Cuando dos sucesos son independientes (no puedensuceder juntos), no existe condicionamiento, y:

    P(A/B)=P(A) P(B/A)=P(B)LEY ADITIVA: Representa la probabilidad de que ocu-

    rra un suceso o bien que ocurra otro. Si los sucesos sonexcluyentes (no pueden presentarse simultneamente,como sacar cara o cruz al lanzar una moneda): P(AoB) =P(A) + P(B). Si los sucesos son no excluyentes (puedendarse simultneamente), P(AoB) = P(A) + P(B) - P(AyB).

    LEY MULTIPLICATIVA: Representa la probabilidad deque ocurra un suceso y de que ocurra otro a la vez. Parasucesos independientes, P(AyB) = P(A) x P(B). Para suce-sos dependientes (la ocurrencia de uno (B) est condicio-

    P(AyB) 20 P(A/B)= = = 0.25 25%

    P(B) 80

    nado a la aparicin de otro (A)):P(AyB) = P(A) x P(B/A)(1). En caso de ser A el suceso

    dependiente o condicionado a B, la expresin es: P(AyB)= P(B) x P(A/B)(2). Ejemplo: la enfermedad X causa lamuerte al 20% de los afectados. Si tenemos 2 pacientescon esa enfermedad, cul es la probabilidad de que mue-ran los 2 pacientes?

    Son sucesos independientes, por lo que: P(AyB) = 0.2x 0.2 = 0.04 = 4%.

    Teorema de Bayes.Es una frmula derivada de las expresiones anteriores,

    por la que, siendo A y B dos sucesos dependientes o aso-ciados entre s, segn las expresiones (1) y (2),

    P(AyB) = P(A) x P(B/A) = P(B) x P(A/B)

    El teorema de Bayes hace referencia a aquellas situa-ciones donde una vez producido un suceso B, se trata decalcular si el mismo es debido a una causa A. En medicinase utiliza con frecuencia la probabilidad condicionada; unejemplo muy comn es la evaluacin de un mtodo diag-nstico, como la probabilidad de que un test sea positivoo negativo teniendo realmente una enfermedad. Un ejem-plo sera cul es la probabilidad de que un paciente tengaun cncer de hgado cuando tiene una alfa-fetoprotenaelevada en sangre. Gracias al Teorema de Bayes podemoscalcular la especificidad y la sensibilidad, o el valorpredictivo positivo o el valor predictivo negativo de untest diagnstico.

    4. ESTADSTICA DESCRIPTIVA, PRESENTACIN DE LOS DATOS

    Una vez obtenidos los datos es preciso mostrarlos deuna forma ordenada y comprensible. La forma ms senci-lla es colocarlos en una Tabla, donde se muestran las va-riables, las categoras de cada variable y el nmero deeventos de cada categora. En ciertas ocasiones, especial-mente cuando trabajamos con un gran nmero de datos,las tablas no son prcticas y se hace necesario una mejorvisin de los datos con una mirada rpida. Esto se consi-gue con los grficos. La seleccin del grfico dependerdel tipo de datos empleados. Comenzaremos con los gr-ficos para datos cuantitativos:

    Histograma: Se utiliza para variables cuantitativas con-tinuas. En el eje x se muestran los datos de la variable,que por ser continuos requieren ser agrupados previa-mente en intervalos, y en el eje y se representa la frecuen-cia con la que aparece cada dato. La anchura del intervalo

    P(A) x P(B/A) P(B) x P(A/B) P(A/B)= y P(B/A)= D

    P(B) P(B)

    22 / III TRIMESTRE 99, n 7

  • y la altura que alcanza determinan el rea de cada interva-lo, que es proporcional a la frecuencia de cada intervalo.Da una idea muy aproximada de la forma de la distribu-cin que sigue la variable.

    Polgono de frecuencias: Utiliza la misma escala que elhistograma, y se construye uniendo los puntos medios dela zona ms alta de los rectngulos. Tambin aqu lo msimportante es el rea existente debajo del polgono, quees igual al rea del histograma correspondiente. En el po-lgono de frecuencias acumuladas, la lnea representa lafrecuencia de cada intervalo sumada a la de los intervalosanteriores. Es un mtodo prctico para determinarpercentiles (concepto que veremos ms adelante). El ejem-plo ms tpico son las tablas de crecimiento en altura.

    INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    Nube de puntos: Es un grfico donde se muestran dosvariables cuantitativas, una en el eje x y otro en el y, mos-trando los valores mediante puntos o smbolos.

    Para los datos cualitativos:Diagrama de barras: Se utiliza para variables cualitati-

    vas y cuantitativas discretas, y se construyen de forma si-milar al histograma, pero las barras estn separadas entres (indicando que la variable no ocupa todo el eje deabscisas, precisamente por ser discreta o cualitativa). Eldiagrama de barras compuesto representa dos o ms va-riables en el mismo grfico.

    Grfico sectorial o pastel: Es otro mtodo empleadocon frecuencia para datos cualitativos, en el que un crculorepresenta el total, y un segmento o porcin del pastel esla proporcin o porcentaje de cada categora de la varia-ble. Es el grfico adecuado para variables con categorasmutuamente excluyentes (no se puede estar soltero y ca-sado a la vez).

    5. SNTESIS DE LOS DATOS

    Una vez organizados los datos en tablas y representa-dos grficamente, es til sintetizarlos o resumirlos en me-didas o nmeros que permitan trabajar cmodamente yque contengan el mximo de informacin. Existen dos ti-pos de medidas que describen las caractersticas de la dis-tribucin de frecuencias de los valores de una variable: lasmedidas de centralizacin y de dispersin.

    Medidas de centralizacin: definen los valores de lavariable en torno a los cuales tienden a concentrarse lasobservaciones. Son: media, mediana, moda y los cuartiles,deciles, y percentiles.

    Grfico sectorial o pastel

    III TRIMESTRE 99, n 7/ 23

  • INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    Media: La media aritmtica es la medida de centraliza-cin ms conocida y utilizada. Se calcula sumando todoslos valores observados y dividiendo por el nmero deobservaciones de la muestra. Se representa como x.

    Su principal ventaja es su fcil manejo matemtico yestadstico. Sin embargo, tiene la desventaja de ser muysensible a los valores extremos en una muestra que notenga una distribucin normal (veremos ms tarde qu sig-nifica esto). Si por ejemplo analizamos los das de estan-cia hospitalaria de los 7 ltimos trasplantados renales ennuestro Servicio, y tenemos: 3, 3, 4, 7, 9, 11 y 12 das.Puesto que son 7 datos, x = (3+3+4+7+9+11+12)/7 =49/7=7; la estancia media de los pacientes es de 7 das.Pero si en lugar de 12 das un paciente permanece ingre-sado 89, la nueva media sera 18 das, muy alejada de laprevia de 7 das. Esto se debe a que un valor extremo(89), muy distante del resto, influye negativamente en lamedia. En este caso, la mediana es una medida mejor decentralizacin.

    La media geomtrica es un parmetro de centralizacinque se utiliza para datos exponenciales o del tipo de creci-miento de poblaciones. Se calcula multiplicando los datosentre s y aplicando despus la raz de orden n. Se utilizacon mucha menor frecuencia que la media aritmtica.

    Mediana: La mediana es la observacin equidistantede los extremos, o lo que es lo mismo, el valor que, unavez ordenados los datos, deja igual nmero de observa-ciones por encima y por debajo. En el ejemplo anterior, lamediana es el valor 7. Como vemos, la mediana es muchomenos sensible a los valores extremos que la media, y esla medida de centralizacin a emplear en las variables cua-litativas ordinales, en las que es imposible calcular la me-dia aritmtica. Por supuesto, se puede utilizar tambin condatos intervlicos y proporcionales. Grficamente, en elpolgono de frecuencias acumuladas, la mediana es el va-lor correspondiente al 50% de las observaciones en el ejede abscisas (eje x).

    Moda: La moda es el valor que se observa con msfrecuencia, el ms repetido. En el ejemplo anterior la modaes 3 por ser el valor ms repetido. Si no se repite ningnvalor, la muestra no tiene moda, es amodal. Si se repitenvarios valores diferentes, puede ser bimodal, trimodal, omultimodal. Grficamente, la moda equivale al valor quealcanza la frecuencia mxima o pico en el polgono defrecuencias.

    Cuartiles, Deciles, Percentiles: Son medidas de locali-zacin, pero no central, sino que localizan otros puntosde una distribucin. Los cuartiles dividen los datos encuatro partes iguales, los deciles en diez partes iguales ylos percentiles, en cien partes iguales. Por definicin, elcuartil 2 coincide con el decil 5 y con el percentil 50, ytodos ellos con la mediana.

    24 / III TRIMESTRE 99, n 7

    MEDIDAS DE CENTRALIZACIN

    Una vez definidos los valores de la variable en torno alos cuales tienden a concentrarse las observaciones, el si-guiente planteamiento es describir cmo de agrupados odispersos se encuentran los datos de la muestra en torno aesos valores. Esta informacin nos la ofrecen las medidasde dispersin: Recorrido o rango, desviacin media,varianza, desviacin estndar y coeficiente de variacin.

    Recorrido o rango: Es la diferencia entre los valoresmximo y mnimo de la variable. En el ejemplo 3, 3, 4, 7,9, 11, 12, el rango es 12-3 = 9. Su principal ventaja esque se calcula con gran facilidad. Pero dado que no tieneen cuenta los valores intermedios, su utilidad es muy limi-tada. Es til como media de dispersin en las variablescualitativas ordinales, o para indicar si nuestros datos tie-nen algunos valores extraordinarios.

    Recorrido intercuartil: Como consecuencia de los pro-blemas que presenta el recorrido, en particular su inesta-bilidad al considerar muestras diferentes o bien cuando seaaden nuevos individuos, a veces se usa otro ndice dedispersin con datos ordinales, el recorrido intercuartil,tambin llamado media de dispersin. Se calcula dividien-do en primer lugar los datos (previamente ordenados) encuatro partes iguales, obteniendo as los cuartiles Q1, Q2,y Q3; la diferencia entre el cuartil Q3 y el Q1 es el recorri-do intercuartil, y abarca el 50% de los datos. Recordemosque Q2 = mediana. Como el recorrido intercuartil se refie-re slo al 50% central de los datos, se afecta en muchamenor medida por los valores extremos que el recorridopropiamente dicho, lo que la convierte en una medidamucho ms til.

    Desviacin media, Varianza (S2) y desviacin estndar(S o DE): Son las medidas de dispersin ms frecuente-mente utilizadas en biomedicina. Se basan en clculos dela diferencia entre cada valor y la media aritmtica (x-x).Al calcular esta diferencia, debe prescindirse del signonegativo o positivo de cada resultado, por lo que la medi-da de dispersin se muestra como "" desviacin. La prin-cipal diferencia entre las tres medidas es cmo se prescin-de del signo negativo: en la desviacin media, se tomanlos valores absolutos |x-x|; en la varianza (S2 para mues-tras y 2 para poblaciones) se eleva al cuadrado la dife-rencia: (x-x)2.

    Como en la varianza los datos estn al cuadrado, pararegresar a las unidades originales basta tomar la raz cua-drada de la varianza. Obtenemos as la desviacin tpica oestndar (DE), S para muestras y para poblaciones.

    x

    x

    x

    x

    x

  • Cuanto ms dispersos estn los valores de la media,mayor ser la desviacin estndar. Es la medida de disper-sin ms importante y utilizada.

    De esta forma hemos visto cules son los ndices bsi-cos que describen, de forma resumida, los valores de unamuestra (tambin es aplicable a una poblacin, como ve-remos):

    INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    6. DISTRIBUCIONES DE PROBABILIDAD. LA DISTRIBUCINNORMAL

    Las distribuciones de frecuencia reflejan cmo se re-parten los individuos de una muestra segn los valores dela variable. Cuando se trata de poblaciones, el comporta-miento terico de una variable puede conocerse mediantelas distribuciones de probabilidad, de las que la ms co-nocida es la distribucin normal o de Gauss. Otras distri-buciones de inters en bioestadstica son la binomial y ladistribucin de Poisson.

    Distribucin normal o de Gauss: Es la distribucin deprobabilidad terica ms importante. La mayora de lasvariables cuantitativas continuas biolgicas siguen unadistribucin normal, que se define por presentar las si-guientes propiedades:

    1) Est definida por una funcin de probabilidad con-tinua. 2) La media, mediana y moda coinciden, y es sim-trica respecto a este punto. Es unimodal. 3) La funcinqueda suficientemente definida por la media x y la desvia-cin estndar S ( y para poblaciones). 4) El rea com-prendida bajo la curva de la distribucin es igual a la uni-dad. 5) Es asinttica respecto al eje de abscisas (nuncallega a cortarlo), siendo posible cualquier valor de x entre y +. 6) La funcin tiene forma de campana invertida.

    La siguiente figura representa una distribucin normal.El intervalo [xS] o [] agrupa aproximadamente al68%, el intervalo [x2S] agrupa aproximadamente al 95%,y el intervalo [x3S] agrupa aproximadamente al 99% delos valores centrales de la distribucin.

    - El tamao de la muestra, o n (el nmero de observa-ciones).

    - La media aritmtica: valor alrededor del cual se agru-pan los datos.

    - La desviacin estndar, valor que indica la dispersinde los datos alrededor de la media.

    DE o SCV= 100

    x

    Coeficiente de variacin: Se emplea para comparar lavariabilidad relativa de diferentes distribuciones, partien-do del problema de que las desviaciones estndar no soncomparables al estar referidas a distintas medias. Este se-ra el caso de querer comparar la variabilidad de la pre-sin arterial de un grupo de pacientes con su edad. Se usacon frecuencia para comparar mtodos de medida, y es unvalor adimensional. Se calcula dividiendo la DE por lamedia, multiplicando despus por 100:

    Medidas para variables cualitativasLa mayora de las medidas anteriores no son aplica-

    bles a las variables cualitativas, ya que sus valores no sonnumricos, sino que representan recuentos o frecuenciasde ocurrencia de un suceso. Existen tres formas bsicas depresentar estos datos:

    1. Proporcin o frecuencia relativa, que es el nmerode casos que se presenta una caracterstica (a) divididopor el nmero total de observaciones (a+b): a/(a+b). Suvalor oscila entre 0 y 1. Si multiplicamos una proporcinpor 100, obtenemos un porcentaje.

    2. Razn o cociente, que es el nmero de casos quepresentan una caracterstica (a) dividido por el nmero decasos que no la presentan (b): (a/b).

    3. Tasa, que es similar a la proporcin, pero multiplica-da por una cifra (por ejemplo 1.000, 10.000, 100.000) yse calcula sobre un determinado perodo de tiempo.

    Distribucin binomial: Cuando la variable slo tienedos valores posibles, se dice que sigue una distribucinbinomial. Para el clculo de las probabilidades se utiliza elmtodo del desarrollo binomial. La distribucin binomialposee tambin una media, varianza y desviacin estndar,

    x

    xx

    x

    III TRIMESTRE 99, n 7/ 25

  • INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    que se calculan con expresiones diferentes a las de la dis-tribucin normal.

    Una caracterstica importante de la distribucinbinomial es que al ir aumentando el nmero de sucesos(n), la distribucin binomial se va pareciendo cada vezms a la distribucin normal. A partir de n=30, la distri-bucin binomial se comporta estadsticamente como unanormal, por lo que podemos aplicar los tests estadsticosapropiados para esta distribucin.

    Distribucin de Poisson: Es una variante de la distribu-cin binomial en la cual la probabilidad de tomar un valores muy pequea y la de tomar el otro valor es muy alta. Ladistribucin discreta de Poisson se utiliza para determinarla probabilidad de que un suceso raro ocurra un determi-nado nmero de veces, cuando el nmero de ensayos esgrande y la probabilidad de que aparezca el suceso espequea. Esta situacin ocurre por ejemplo ante la posi-bilidad de un parto de sixtillizos, o de tener un hijo albi-no. Otro ejemplo podra ser la posibilidad de presentaruna reaccin alrgica a una membrana de hemodilisis.

    7. ESTADSTICA INFERENCIAL. TCNICAS DE MUESTREO.ERRORES Y SESGOS. TAMAO MUESTRAL

    Como recordamos en el primer captulo, la estadsticainferencial extrae conclusiones para una poblacin a par-tir de los resultados obtenidos en nuestras:

    Tcnicas de muestreo.Para estudiar una caracterstica de una poblacin de-

    bemos, en primer lugar, escoger una muestra representati-va de esa poblacin, a la que someteremos al estudio de-seado. Para que una muestra sea vlida requiere dos con-diciones: 1), debe ser aleatoria: todos los individuos de lapoblacin tienen la misma probabilidad de aparecer en lamuestra. 2), la muestra debe ser homognea con la pobla-cin de la que se ha extrado, manteniendo las mismasproporciones que la poblacin en todas aquellas caracte-rsticas que pueden tener influencia en el experimento quese va a realizar (debe guardar la misma proporcin dehombres y mujeres, de edad, de fumadores...).

    Existen diferentes mtodos para captar a los sujetosque constituirn la muestra. Las tcnicas de muestreo pue-den ser probabi l s t i cas (par t i c ipa e l azar ) o noprobabilsticas. Entre las primeras, estn:

    Muestreo aleatorio simple: Cada elemento de la pobla-cin tiene la misma probabilidad de ser escogido. Paraello, se utilizan nmeros aleatorios extrados de unas ta-blas o generadas por ordenadores. Tiene el inconvenientede requerir previamente el listado completo de la pobla-cin. En muestras pequeas puede no representar ade-cuadamente a la poblacin.

    Muestreo estratificado: La poblacin se divide en

    subgrupos o estratos, y despus se obtiene una muestraaleatoria de cada uno de ellos. Si la estratificacin se hacerespecto a un carcter (hombre/mujer), se denominamuestreo estratificado simple, y si se estratifica respecto ados o ms caracteres (sexo, edad, estado civil, posicineconmica...) se denomina muestreo estratificado com-puesto.

    Muestreo sistemtico: Se aplica una regla simple fijapara el muestreo, de modo que se divide el total de lapoblacin de estudio entre el tamao de la muestra, ha-llando as una constante de muestreo, k. El primer indivi-duo se elige al azar, y despus, se elige sistemticamenteuno de cada k individuos siguiendo un orden determina-do. Como ventajas, es simple de aplicar, no precisa unlistado completo de la poblacin, y en poblaciones orde-nadas asegura una cobertura de unidades de todos lostipos. La desventaja es que si existe alguna relacin entreel fenmeno a estudiar y la constante de muestreo, se pue-den cometer sesgos. Ejemplo: seleccionar los individuospor las historias clnicas que acaban en 6.

    Muestreo en etapas mltiples: Consiste en seleccionarunidades de muestreo de una poblacin (unidades prima-rias) y obtener en una segunda etapa una muestra de cadauna de ellas (unidades secundarias). Pueden utilizarse tan-tas etapas como sean necesarias, y en cada una de ellas,una tcnica de muestreo diferente. Este mtodo es muyeficaz para poblaciones grandes y dispersas, y es el utili-zado generalmente en los estudios multicntricos.

    Muestreo no probabilstico: En este caso se utilizanmtodos en los que no participa el azar. El ejemplo tpicoson los voluntarios que acuden a realizarse algn estudio(acuden por su propia voluntad, pero no por azar, sinoestimulados econmicamente o ante algn otro beneficio).Tambin es no probabilstico la inclusin de pacientes con-forme acuden a una consulta. El inconveniente de estemtodo es que, al no tener todos los individuos la mismaprobabilidad de ser incluidos en el estudio, no puede ase-gurarse la representatividad de la muestra respecto a lapoblacin de referencia.

    Tamao de la muestraLa muestra debe tener un tamao que sea apropiado

    para los objet ivos buscados en e l es tudio y loscondicionantes que se est dispuesto a asumir. Un nme-ro insuficiente de participantes impedir encontrar dife-rencias buscadas, concluyendo errneamente que no exis-ten, y un nmero excesivo de sujetos alargar y encarece-r innecesariamente el estudio. Existen diferentes frmu-las para calcular el tamao muestral, que depender bsi-camente de qu estamos buscando con el estudio:

    Si tratamos de estimar parmetros para una poblacina partir de una muestra, su tamao depender de la varia-bilidad del parmetro a estudiar, de la precisin con que

    26 / III TRIMESTRE 99, n 7

  • se desee obtener la estimacin (es decir, la amplitud de-seada del intervalo de confianza, de modo que a mayorprecisin debern estudiarse ms sujetos), y del nivel deconfianza deseado. La variabilidad del parmetro debe serpreviamente conocida (o aproximarse a partir de datospreexistentes o estudios pilotos). La precisin y el nivelde confianza son establecidos por el investigador.

    Por ejemplo, si queremos estimar la prevalencia de in-feccin por VHC en hemodilisis, o la presin arterial delos trasplantados renales.

    Cuando se trata de comparar grupos mediante pruebasde contraste de hiptesis, el tamao muestral proporcionauna cifra aproximada del nmero de sujetos necesariospara detectar una diferencia determinada si es que staexiste, con la aceptacin de unos mrgenes de error pre-viamente fijados. Para su clculo se precisa la definicinprevia de los riesgos a asumir: los errores tipo I o alfa y IIo beta, y la magnitud de la diferencia que se desea detec-tar.

    Este sera el caso de comparar la eficacia en depurarurea de dos membranas de dilisis diferentes, o de ver sihay diferencias en el hematocrito cuando se administraeritropoyetina subcutnea o intravenosa. Las frmulas paracalcular el tamao muestral exceden el contenido de estecaptulo. La mayora de paquetes estadsticos de ordena-dor la calculan a partir de las condiciones impuestas, de-pendiendo del tipo de estudio a realizar. Si el estudio escomplejo o requiere un muestreo en etapas mltiples, esaconsejable consultar a un estadstico para que nos calcu-le el tamao de la muestra.

    Errores y sesgos.Al seleccionar una muestra a partir de una poblacin y

    estudiarla, podemos cometer dos tipos de errores: los erro-res aleatorios y los errores sistemticos o sesgos.

    ERROR ALEATORIO: Si comparamos el resultado ob-tenido de una muestra y de una poblacin habr una pe-quea diferencia; esta diferencia depender de cmo es-cogimos la muestra, de su tamao y del azar; realmentesiempre existir una diferencia real entre poblacin y mues-tra. El error aleatorio es la diferencia entre el resultadoobtenido en la muestra y la realidad de la poblacin. En lsiempre interviene el azar y la seleccin viciada de la mues-tra realizada por el investigador.

    El error aleatorio se debe al azar, sucede en todos losgrupos, no afecta a la validez interna del resultado, peropuede disminuir la probabilidad de encontrar relacinentre las variables estudiadas. Aunque el error aleatoriono puede ser eliminado, s puede disminuirse aumentan-do el tamao de la muestra y la precisin de las medicio-nes.

    ERRORES SISTEMTICOS O SESGOS: Son errores quese cometen en el procedimiento del estudio cuando, por

    INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    ejemplo, la medicin de la variable en estudio esconsistentemente desigual entre los distintos grupos. Afec-tan a la validez interna del estudio y aunque se aumente eltamao de la muestra, se perpeta el sesgo introducido, yes prcticamente imposible enmendarlo en la fase de an-lisis. Pueden ser de varios tipos:

    Sesgos de seleccin: Las muestras no son adecuada-mente representativas de la poblacin de estudio, por noreflejar la misma distribucin (edad, sexo, efecto de vo-luntarios...). Se han definido algunos tipos concretos comolos siguientes, como el Sesgo de Berkson: las muestrasseleccionadas en un medio hospitalario pueden diferirsistemticamente de las poblaciones generales.

    Sesgos de seguimiento: Se cometen cuando no se ob-servan por igual a ambos grupos, o si se pierden ms indi-viduos de un grupo que del otro (no al azar) a lo largo delestudio. Por ejemplo, el abandono del tratamiento por partede los pacientes.

    Sesgos de informacin: Se cometen al recoger las me-didas o datos. Podemos incluir en este apartado los sesgosde observacin, posibles en los ensayos clnicos, que seevitan mediante las tcnicas de enmascaramiento o tcni-cas de ciego: Estudio simple ciego, cuando la asignacindel factor de riesgo es ciega por parte de los participantes(el paciente no sabe si toma el frmaco real o el placebo);doble ciego, cuando es ciega tambin por parte del inves-tigador (no lo sabe el paciente ni el investigador); en eltriple ciego no lo sabe el paciente, el investigador ni elcomit que monitoriza el estudio, incluyendo al estadsti-co que analiza los datos.

    Conforme aumenta el grado de "ceguera", tambin au-menta la dificultad de aplicar las tcnicas de enmascara-miento. Un sesgo de informacin frecuente es el que co-metemos al medir la presin arterial o la temperatura, cuan-do "redondeamos" las cifras un poco arriba o abajo, influ-yendo de alguna forma en el resultado del estudio. Esto sepuede evitar utilizando tensimetros digitales, que son"ciegos" para los grupos de estudio.

    Sesgos de confusin: Son los producidos por la exis-tencia de factores o variables de confusin. Se trata devariables que son factor o marcador de riesgo para la en-fermedad a estudiar, se asocian con la exposicin al factorde riesgo que se est valorando (factor de estudio), y noson una variable intermedia en la cadena causal entre laexposicin y la enfermedad, dos variables estn confundi-das en un estudio si aparecen de tal manera que sus efec-tos separados no pueden distinguirse.

    Por ejemplo, en un estudio real, se vacun a una mues-tra de nios y a otra se les administr placebo. La inciden-cia de polio fue menor entre los nios que no se vacuna-ron (porque sus padres no dieron permiso) que entre losque recibieron el placebo. En este estudio existi un factor

    III TRIMESTRE 99, n 7/ 27

  • INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    de confusin, pues las familias que no dieron permiso erande un nivel socioeconmico elevado, por lo que sus niostenan una menor susceptibilidad a contraer la polio, mien-tras que los nios vacunados con placebo estaban msexpuestos a sufrir la enfermedad por carecer de medidassanitarias adecuadas. El factor de confusin en este casofue el nivel higinico-sanitario.

    Los sesgos de confusin pueden prevenirse con las tc-nicas de muestreo probabilstico, especialmente la estrati-ficacin (hacer que los dos grupos de estudio sean igualespara la variable de confusin). Tambin pueden evitarseposteriormente, realizando un anlisis estratificado, don-de los datos son estudiados separadamente para diferen-tes subgrupos, que se definen en funcin de los posiblesfactores de confusin considerados.

    Es importante recordar que al aumentar el tamao dela muestra, los sesgos no se modifican!

    8. ESTIMACIN DE UNA POBLACIN A PARTIR DE UNA MUESTRA

    Como ya hemos comentado, la estadstica inferencialbusca obtener conclusiones vlidas para poblaciones apartir de los datos observados en muestras. Dado que lapoblacin resulta inaccesible por su elevado tamao, losdatos se obtienen a partir de las muestras, pero podemosgeneralizarlos y estimar parmetros de esa poblacin.

    Por ejemplo, deseamos conocer la glucemia media delos diabticos de nuestra ciudad. Como la poblacin esmuy grande, escogemos una muestra representativa (conla misma proporcin de edad, sexo, nivel socioeconmi-co...) de la poblacin y calculamos la media de glucemia(x1). Volvemos a escoger otra muestra y calculamos sumedia (x2), y as varias (n) veces. Podemos hallar la mediade las medias: (x1+x2+x3+...+xn)/n. A este valor se de-nomina media poblacional (), y su desviacin estndarse lo conoce como error estndar de la media (EEM).

    Hay que resaltar la diferencia entre desviacin tpica yerror estndar de la media. La primera, mide la dispersinreal de los valores de la muestra: es un ndice descriptivode cmo estn agrupados los datos; por el contrario, elerror estndar mide la dispersin imaginaria que presen-taran las sucesivas medias que se obtendran ante unahipottica repeticin del experimento.

    Ya podemos deducir que la nueva campana de la dis-tribucin de las medias es ms estilizada que la distribu-cin muestral, la cual, por recoger valores individuales,acusa ms la dispersin de los datos. Por esta razn, elerror estndar (EEM) es siempre mucho menor que la des-viacin tpica, y tanto menor cuanto mayor sea el tamaode la muestra.

    El valor del EEM se calcula segn laexpresin siguiente, donde S = des-viacin estndar de la muestra y n =nmero de individuos de la muestra.

    La nueva curva de Gauss obtenida, aunque sea imagi-naria, tiene todas las propiedades de la distribucin nor-mal. En consecuencia, podemos estimar la mediapoblacional de la siguiente manera: ya que EEM con-tiene aproximadamente el 95% de las medias muestrales,entonces el intervalo [x2EEM] contendr a con unaprobabilidad del 95%, y el intervalo [x3 EEM] conten-dr a con una probabilidad del 99%. A estos intervalosse les denomina intervalos de confianza de la mediapoblacional, y, sus lmites, lmites de confianza para lamedia. Los intervalos sern ms estrechos cuanto mayorsea el tamao de la muestra.

    A la probabilidad de que la media escape del intervalode confianza se le denomina probabilidad de error (p).

    9. PRUEBAS DE CONTRASTE DE HIPTESIS. ERROR ALFA Y BETA

    Muchas investigaciones biolgicas comportan estudioscomparativos. En la situacin ms simple, se comparandatos de dos muestras, por ejemplo, el efecto de dosfrmacos, o de un placebo y un frmaco. Para evaluar lasdiferencias obtenidas y estudiar la posibilidad de que sedeban a factores distintos del azar, se emplean las pruebasde significacin estadstica o test de contraste de hipte-sis.

    Elementos de un diseo de contraste de hiptesis.Hiptesis nula H0: supone que no hay diferencias en-

    tre los trminos comparados. Las diferencias se deben sloal azar.

    Hiptesis alternativa H1: la que se acepta si H0 resultarechazada. Supone que s existen diferencias entre los tr-minos comparados. Las diferencias no se deben al azar.

    situacin verdadera

    H0 es verdadera H0 es falsa

    H0 aceptada Sin error Error tipo II

    H0 rechazada Error tipo I sin error

    Error tipo I o : el que se comete al rechazar la hipte-sis nula H0, siendo cierta (se acepta que existen diferen-cias, cuando en realidad no las hay). La probabilidad decometer este error se conoce como a.

    Error tipo II o : el que se comete al aceptar la hipte-sis nula H0, siendo falsa (hay diferencia real, pero no seacepta).

    Potencia estadstica del test (1-): es la probabilidad

    xx

    28 / III TRIMESTRE 99, n 7

  • de rechazar hiptesis nulas falsas, o bien de detectar hip-tesis alternativas correctas.

    Al aumentar el tamao de la muestra, se incrementa lapotencia estadstica de un test y se reducen ambos tiposde errores ( y ).

    Nivel de significacin p del estudio: es la probabilidadde que las diferencias se deban simplemente al azar, esdecir, que H0 es cierta. Se llama tambin grado de signifi-cacin estadstica . Su complementario, (1-) es el nivelde confianza, o probabilidad de que las diferencias no sedeban al azar. Por convenio, suele utilizarse un valor dep=0.05 (es decir, del 5%).

    - Si p es menor de 0.05, se admite que la probabilidadde que las diferencias se deban al azar son demasiadopequeas, por lo que se acepta la hiptesis alterna H1.

    - Si p es mayor de 0.05, la probabilidad de que lasdiferencias se deban al azar es demasiado grande paraaceptar la hiptesis alterna, y por tanto se acepta la hip-tesis nula, o que las diferencias entran dentro de las debi-das al azar.

    El grado de significacin estadstica no es una medidade la fuerza de la asociacin, no mide si un tratamiento esms eficaz o mejor que otro; simplemente nos da la proba-bilidad de que los resultados obtenidos sean fruto de lacasualidad o el azar. La p tampoco mide la importanciaclnica o la relevancia de las diferencias observadas; ellodepende de otros factores, y un estudio puede demostrardiferencias muy significativas entre las variables y carecerde importancia clnica. Por ejemplo, si un frmaco A redu-ce la presin arterial 10 mmHg y otro B la reduce 9 mmHg,y existen diferencias significativas entre ambos (p30), y las varianzas de los dosgrupos deben se r s imi la res en ambos g rupos(homocedasticidad), siendo esta condicin importantecuando los tamaos de las muestras son diferentes. Paracomparar las varianzas empleamos la prueba de la F deSnedecor. En caso de que las varianzas no fuesen igualesse aplica el test de Welch, una modificacin de la t deStudent para datos independientes cuando las varianzasson distintas.

    El valor hallado de la t se busca en una tabla para ungrado de significacin alfa (generalmente 0.05) y con un

    III TRIMESTRE 99, n 7/ 29

  • INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    nmero de grados de libertad (se calcula como n-1); se-gn el valor calculado, se acepta o se rechaza la hiptesisnula.

    Cuando la t de Student no es aplicable por incumplirsealguna de las condiciones previas, puede aplicarse la prue-ba no paramtrica U de Mann-Whitney, tambin llamadaprueba de la suma de rangos. Es til especialmente enmuestras pequeas.

    Si los datos son apareados, es decir, se comparan dosobservaciones realizadas en un mismo grupo de sujetos,puede aplicarse la t de Student para datos apareados si secumple la condicin de que las diferencias individualesde cada par de valores deben seguir una distribucin nor-mal (aunque esta limitacin es menos necesaria si se hanestudiado ms de 20 sujetos).

    Si no se cumplen las condiciones de aplicacin de la tde Student para datos apareados, puede recurrirse a laprueba no paramtrica de los rangos con signo o pruebade Wilcoxon.

    A) Pruebas para comparar dos medias:Estas pruebas se utilizan para comparar las medias de

    dos muestras para una variable cuantitativa continua, comopor ejemplo, la comparacin del efecto de dos frmacossobre la presin arterial. La prueba paramtrica ms utili-zada para este tipo de estudios es la t de Student-Fisher,aunque tambin existe una prueba de la Z de compara-cin de medias.

    t de Student-Fisher: Se utiliza para comparar las me-dias de dos grupos de datos independientes. Para poderaplicarse, la variable debe seguir una distribucin normalen ambas muestras (no es obligatorio si n>30), y lasvar ianzas deben ser s imi lares en ambos grupos(homocedasticidad), siendo esta condicin importantecuando los tamaos de las muestras son diferentes. Paracomparar las varianzas empleamos la prueba de la F deSnedecor. El valor hallado de la t se busca en una tablapara un grado de significacin alfa (generalmente 0.05) ycon un nmero de grados de libertad (se calcula como n-1); segn el valor calculado, se acepta o se rechaza la hi-ptesis nula. El test de Welch es una modificacin de la tde Student para datos independientes cuando las varianzasson distintas. Sin embargo, con el uso del ordenador, losprogramas estadsticos realizan todos estos clculosautomticamente mostrando directamente el valor de la p.

    Cuando la t de Student no es aplicable por no seguirlas variables una distribucin normal se utiliza la pruebano paramtrica U de Mann-Whitney, tambin llamada prue-ba de la suma de rangos. Es til especialmente en mues-tras pequeas. Si los datos son apareados, es decir, secomparan dos observaciones realizadas en un mismo gru-po de sujetos, puede aplicarse la t de Student para datos

    apareados. Si no se cumplen las condiciones de aplica-cin de la t de Student para datos apareados, puederecurrirse a la prueba no paramtrica de los rangos consigno o tambin conocida como prueba de Wilcoxon.

    B) Pruebas para comparar tres o ms medias.Anlisis de la varianza (ANOVA): Es la prueba

    paramtrica a la que se recurre para comparar tres o msmedias para datos independientes. Es una prueba globalque determina si existe alguna diferencia entre el conjun-to de las medias consideradas de modo que, si se obtieneun resultado estadsticamente significativo a favor de ladiferencia, se concluye que no todas las medias son igua-les, pero no define cul de ellas es la que difiere. En estecaso, se utiliza posteriormente algn mtodo de compara-ciones de dos medias a un mismo tiempo, como el de Tukey,Scheff, Newman-Keuls o la correccin de Bonferroni.

    Para poder aplicarse, el ANOVA exige que los datossean independientes y que sigan una distribucin normalen cada grupo, con varianzas iguales. Si no se cumplenestas condiciones, se recurre a un anlisis de la varianzano paramtrico conocido como prueba de Kruskal-Wallis.

    Para datos apareados, existe un ANOVA para medidasrepetidas. La prueba no paramtrica correspondiente esla prueba de Friedman.

    12. PRUEBAS ESTADSTICAS PARA COMPARAR PROPORCIONES

    A) Comparacin de dos grupos:Las pruebas a aplicar son diferentes segn se trate de

    comparar medidas realizadas en grupos independientes obien se trate de datos apareados. En el primer caso, laspruebas ms utilizadas son la Z de comparacin de pro-porciones y la Chi-cuadrado. En el caso de datos apareadospuede utilizarse la prueba de McNemar. En todos los ca-sos estas pruebas no son paramtricas, y pueden aplicarsetanto a variables cualitativas como cuantitativas.

    Prueba de Chi-cuadrado: La prueba de chi-cuadrado,en sentido amplio, es aplicable al contraste de variablescualitativas (nominales u ordinales), cuantitativas discre-tas o cuantitativas continuas distribuidas en intervalos declase. Es una prueba frecuentemente utilizada, aplicndo-se para comprobar: a) Si dos caractersticas cualitativasestn relacionadas entre s. Por ejemplo, buscar si existerelacin entre el color de los ojos y el color del pelo, oinfeccin por VHC y tipo de dilisis (peritoneal yhemodilisis). b) Si varias muestras de carcter cualitativoproceden de igual poblacin (ejemplo: comparar si dosmuestras determinadas de pacientes proceden de pobla-ciones con igual distribucin de grupos sanguneos). c) Silos datos observados siguen una determinada distribucinterica (por ejemplo, para saber si nuestros datos siguen o

    30 / III TRIMESTRE 99, n 7

  • no una distribucin normal).Para su clculo, se recogen los datos en forma de tablas

    de frecuencia (las llamadas tablas de contingencia), y secalculan el nmero de casos que se esperara encontrar encada casilla de la tabla si no existiese diferencia de losgrupos (es decir, se calculan los esperados de cada casilla,suponiendo que la hiptesis nula es cierta). Posteriormente,se calcula el valor de chi-cuadrado, que se compara enuna tabla, para un nmero de grados de libertad (se calcu-la multiplicando las filas -1 por las columnas- 1). Si algu-na de las frecuencias esperadas es enor a 5, debe aplicar-se la correccin de Yates; si alguna frecuencia esperada esmenor a 2, no puede aplicarse la Chi-cuadrado, debin-dose utilizar entonces la prueba exacta de Fisher (slo esaplicable para tablas de 2x2). Otros autores aceptan apli-car la prueba exacta de Fisher en caso de que los espera-dos sean inferiores a 5.

    Para comparar dos variables cualitativas observadas enlos mismos individuos en dos ocasiones (datos apareados)puede utilizarse la Chi-cuadrado de McNemar.

    B) Comparacin de 3 o ms grupos:Para datos independientes se utiliza la Chi-cuadrado

    de Mantel-Haenszel. Si los esperados son pequeos, noexiste ningn test aplicable, y debemos reagrupar los da-tos agregando categoras. Para datos apareados, utiliza-mos la Q de Cochran.

    13. MEDIDA DE LA ASOCIACIN ENTRE VARIABLES:CORRELACIN

    Hasta ahora, hemos visto una serie de pruebas que,basndose en los tests de significacin estadstica, nos in-dican si hay o no diferencias entre grupos; pero estas prue-bas no nos informan sobre el grado de asociacin, es de-cir, no dicen si un tratamiento es mejor o peor: slo indi-can si es igual o no. Para conocer el grado de asociacinentre dos variables cuantitativas, se utilizan los tests decorrelacin: el coeficiente de correlacin de Pearson si lasdistribuciones de las variables son normales, y en casocontrario, se aplica el test no paramtrico de Spearman.

    Coeficiente de correlacin de Pearson: La relacin en-tre dos variables cuantitativas puede representarse grfi-camente por una nube de puntos. El coeficiente de corre-lacin de Pearson (r) es una prueba estadstica que midenumricamente la existencia de asociacin entre esas va-riables, mediante una frmula. Existe una relacin entre elvalor del coeficiente r y la forma de la nube de puntos.

    El coeficiente de correlacin r es un nmero compren-dido entre -1 (relacin lineal negativa perfecta) y 1 (rela-cin lineal positiva perfecta); vase fig. posterior. La aso-ciacin es ms fuerte cuanto mayor es el valor de r; valores

    INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    superiores a 0.7 indican una relacin muy fuerte, y 1 es lacorrelacin perfecta. El 0 indica ausencia total de relacin.Para poder aplicar el coeficiente de correlacin de Pearsonse requiere que ambas variables sigan una distribucinnormal y que la relacin entre ambas variables sea lineal.

    Coeficiente de correlacin de Spearman: Se aplica cuan-do las variables no siguen la distribucin normal. Tam-bin se emplea para describir la relacin entre dos varia-bles ordinales o entre una ordinal y una cuantitativa. Elcoeficiente de Spearman puede tomar valores entre -1 y+1, y se interpreta de forma parecida al de Pearson.

    14. PREDICCIN DE UN VALOR DE UNA VARIABLE A PARTIR DELVALOR DE OTRA VARIABLE: REGRESIN

    La regresin es un anlisis estadstico que se utilizacuando el objetivo es predecir o explicar el valor de unavariable (variable dependiente) a partir del valor de otra(independiente). Cuando las dos variables son cuantitati-vas continuas, se estudia la posible relacin entre ellasmediante la regresin lineal simple. En ella se calcula uncoeficiente de regresin, que representa la magnitud delcambio de la variable dependiente por cada cambio deuna unidad de la variable independiente. Para que seaaplicable la regresin lineal, debe cumplirse que la rela-cin entre las variables siga una lnea recta del tipoy=ax+b, y que los valores de y sean independientes unosde otros. Un ejemplo prctico sera cmo aumenta la

    III TRIMESTRE 99, n 7/ 31

  • INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    Variable dependiente(resultado)

    Dicotmica Continua

    Dicotmica Chi-cuadrado t de Student

    Continua Regresin logstica Regresin linealVar

    iabl

    ein

    depe

    ndien

    te(p

    redi

    ctor

    a)

    recirculacin de la fstula arteriovenosa conforme aumen-ta el flujo sanguneo.

    Para generalizar el anlisis a un modelo con ms deuna variable independiente se emplea la regresin linealml t ip le , e laborando una ecuac in de l t ipoy=a+b1x1+b2x2+b3x3...

    Por ltimo, cuando la variable independiente es conti-nua y la dependiente dicotmica, se utiliza la regresinlogstica. Este sera el caso por ejemplo de conocer la rela-cin entre el nmero de cigarrillos fumados y el desarrollode cncer de pulmn; la variable independiente, los ciga-rrillos fumados, es continua, mientras que la dependiente,tener o no tener cncer, es dicotmica. En la tabla siguien-te se resumen los tests a aplicar en las cuatro posiblessituaciones en funcin del tipo de variable dependiente eindependiente.

    mientos sobre la supervivencia de los pacientes. Para po-der extraer conclusiones tiles de estos estudios se re-quiere aplicar el mtodo estadstico conocido como anli-sis de supervivencia. Con este anlisis podemos conocerla probabilidad de sobrevivir a lo largo del tiempo ante lapresencia de una enfermedad, estimar las tasas de super-vivencia en una poblacin o comparar con seguridad esta-dstica la eficacia de distintos tratamientos sobre dicha su-pervivencia. El principal problema del anlisis de la su-pervivencia es la irregularidad cuantitativa y cualitativa delos pacientes en la muestra: el tiempo que permanece cadapaciente en el estudio es diferente, y debido a causas dis-tintas: algunos fallecen, otros se pierden en el seguimien-to y otros siguen vivos al final del estudio.

    Los diferentes mtodos que se emplean para analizarla supervivencia son el mtodo directo, el mtodo deKaplan-Meier y el mtodo Actuarial. El objetivo comn deestos mtodos es estudiar el tiempo que transcurre desdela ocurrencia de un determinado suceso (comenzar un tra-tamiento, diagnstico de un cncer, trasplantarse) hasta laocurrencia de otro (curacin de la enfermedad, morir, per-der el trasplante). Con ellos se obtienen una curva de su-pervivencia en la que en el eje horizontal se representa eltiempo y en el vertical la probabilidad de que un pacientesobreviva a un tiempo dado. La curva tiene una morfolo-ga en forma de escalera, con ligeras diferencias segn elmtodo que se trate.

    El mtodo de Kaplan-Meier es uno de los ms utiliza-dos y se diferencia del actuarial en que utiliza para losclculos el momento exacto en que se produce la muerte,mientras que el actuarial sita este momento en un inter-valo arbitrario. De esta forma, los "escalones" de la curvade supervivencia de Kaplan-Meier son irregulares, mien-tras que los del mtodo actuarial son todos iguales. Unavez representadas las curvas de cada grupo, se utiliza untest para compararlas; uno de los ms utilizados es el testde Log-Rank o rango logartmico de Mantel-Cox, una va-riante de la Chi-cuadrado de Mantel-Haenszel. Aparte dela significacin estadstica, puede calcularse adems el ries-go relativo o probabilidad de riesgo de un grupo respectoa otro. Por ltimo, existe la posibilidad de analizar el efec-to de las posibles covariables y de estimar la magnitud dela diferencia entre los grupos mediante el modelo de losriesgos proporcionales de Cox.

    BIBLIOGRAFA

    1.- Bobenrieth MA, Burgos R, Calzas A, Chicharro JA,Ocaa R, Perea-Milla E, Snchez-Cantalejo E. Metodolo-ga de Investigacin y Escritura Cientfica en Clnica. Ed.R. Burgos, Escuela Andaluza de Salud Pblica, Granada.2 edicin, 1998.

    Al igual que la regresin lineal, la regresin logsticaposee su coeficiente de regresin logstica y el clculo delas estimaciones se basa en procesos matemticos com-plejos mediante el mtodo de la mxima verosimilitud.

    15. ANLISIS MULTIVARIANTE

    Hasta ahora hemos visto las pruebas estadsticas paraanalizar dos variables (salvo la regresin lineal mltiple).Si nos planteamos el estudio simultneo de ms de dosvariables en cada sujeto, las pruebas se complican. Porejemplo, si estudiamos la asociacin de una determinadaenfermedad y 20 factores ambientales. Para estas situacio-nes existen tcnicas estadsticas basadas en modelos ma-temticos de clculo muy complejo, denominadas anlisismultivariante, en su mayora derivados del anlisis de re-gresin mltiple. Sin embargo, su utilizacin es cada vezms frecuente gracias a potentes programas de ordenadorque realizan estos clculos. Su inconveniente es que con-forme aumentan las variables a estudiar, tambin aumentala probabilidad de encontrar un falso positivo.

    16. ANLISIS DE LA SUPERVIVENCIA

    En numerosas ocasiones se disean trabajos de inves-tigacin con el fin de conocer la supervivencia de un pa-ciente a lo largo del tiempo ante una enfermedad o untrasplante, o de comparar la eficacia de diferentes trata-

    32 / III TRIMESTRE 99, n 7

  • INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    2.- Carrasco de la Pea JL. El Mtodo Estadstico en laInvestigacin Mdica. Ed. Ciencia 3, Madrid, 1995.

    3.- Norman GR, Streiner DL. Bioestadstica. Ed. Mosby,Madrid, 1996.

    4.- Martn Andrs A, Luna del Castillo JD. 5010 ho-ras de Bioestadstica. Ed. Norma, Madrid, 1995.

    5.- Laporta, JR. Principios Bsicos de InvestigacinClnica. Ed. Ergn, Madrid, 1993.

    6.- Huth, EJ. Cmo escribir y publicar trabajos en Cien-

    cias de la Salud. Ed. Masson-Salvat, Barcelona, 1992.7.- Gil Guilln, VF, Merino Snchez J, Orozco Beltrn

    D, Quirce Andrs, F. Curso de Epidemiologa Clnica. Es-tadstica Bsica, 2 parte. Ed. Dupont-Pharma, Madrid,1995.

    8.- Martn Zurro A, Cano Prez JF. Manuel de AtencinPrimaria (3 ed.). Ed. Doyma, Barcelona, 1995.

    9.- Mora Temprano, MA. Estadstica para enfermera.Ed. Pirmide S.A., Madrid, 1984.

    Pruebas estadsticas ms empleadas para compararmedias de variables cuantitativas.

    III TRIMESTRE 99, n 7/ 33

  • INTRODUCCIN A LA ESTADSTICA BSICA PARA ENFERMERA NEFROLGICA

    Pruebas estadsticas ms utilizadas para compararvariables cualitativas, ordinales o proporcionales

    Pruebas estadsticas utilizadas con mayor frecuenciapara determinar si existe asociacin entre dos variables cuantitativas u ordinales

    34 / III TRIMESTRE 99, n 7