bio-estadistica_bivariante.ppt

download bio-estadistica_bivariante.ppt

of 36

Transcript of bio-estadistica_bivariante.ppt

  • 7/21/2019 bio-estadistica_bivariante.ppt

    1/36

  • 7/21/2019 bio-estadistica_bivariante.ppt

    2/36

    Relaciones entre variables y regresin El trmino regresin fue introducido por Galton en su libro

    Natural inheritance (!!"# refirindose a la ley de la regresin

    universal$ %ada peculiaridad en un &ombre es compartida por sus

    descendientes' pero en media'en un grado menor. Regresin a la media

    u traba)o se centraba en la descripcin de los rasgos fsicos delos descendientes (una variable# a partir de los de sus padres (otravariable#.

    *earson(un amigo suyo# reali+ un estudio con m,s de ---registros de grupos familiares observando una relacin del tipo$

    ltura del &i)o / !0cm 1 0,5altura del padre (apro2.#

    %onclusin$los padres muy altos tienen tendencia a tener &i)os 3ue&eredan parte de esta altura' aun3ue tienen tendencia a acercarse(regresar# a la media. 4o mismo puede decirse de los padres muyba)os.

    5oy en da el sentido de regresin es el de prediccin de unamedida bas,ndonos en el conocimiento de otra.

    6ema$ Estadstica bivariante 2Bioestadstica.

    7rancis Galton8*rimo de 9ar:in8Estadstico y aventurero87undador (con otros# dela estadstica modernapara e2plicar las teoras

    de 9ar:in.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    3/36

    ;u vamos a estudiar En este captulo vamos a tratar diferentes formas de describir

    la relacin entre dos variables cuando estas son numricas. Estudiar si &ay relacin entre la altura y el peso.

    5aremos mencin de pasada a otros casos$ lguna de las variables es ordinal.

    Estudiar la relacin entre el sobrepeso y el dolor de espalda(ordinal#

    5ay m,s de dos variables relacionadas. ?#.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    4/36

    Estudio con)unto de dos variables la derec&a tenemos una posible manera de recoger los

    datos obtenido observando dos variables en varios

    individuos de una muestra.

    En cada filatenemos los datos de un individuo

    %ada columnarepresenta los valores 3ue toma una variablesobre los mismos.

    4as individuos no se muestran en ning@n ordenparticular.

    9ic&as observaciones pueden ser representadas en undiagrama de dispersin(Ascatterplot#. En ellos' cadaindividuos es un punto cuyas coordenadas son los valoresde las variables.

    Cuestro ob)etivo ser, intentar reconocera partir delmismo si &ay relacinentre las variables' de 3u tipo' y sies posible predecirel valor de una de ellas en funcin dela otra.

    Alturaen cm.

    Pesoen Kg.

    D? D

    0 D-

    !- F!

    0! D?F DD

    D" D-

    DD 0

    FD !

    D D!

    ... ...

    6ema$ Estadstica bivariante 4Bioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    5/36

    9iagramas de dispersin o nube de puntos

    56ema$ Estadstica bivarianteBioestadstica.

    Mide187cm.

    Mide 161 cm.

    Pesa 76 kg.

    Pesa 50 kg.

    6enemos las alturas y los pesos de - individuos representados en un diagrama dedispersin.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    6/36

    Relacin entre variables.

    66ema$ Estadstica bivarianteBioestadstica.

    6enemos las alturas y los pesos de - individuos representados en un diagrama dedispersin.

    *arec

    e3ue

    elpesoa

    ument

    acon

    laaltur

    a

  • 7/21/2019 bio-estadistica_bivariante.ppt

    7/36

    *rediccin de una variable en funcin de la otra

    76ema$ Estadstica bivarianteBioestadstica.

    parentemente el peso aumenta -Hg por cada - cm de altura... o sea'el peso aumenta en una unidad por cada unidad de altura.

    10 cm.

    10 kg.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    8/36

    Relacin directa e inversa

    6ema$ Estadstica bivariante 8Bioestadstica.

    Incorrelacin

    -

    !-

    -

    !-

    ?-

    ?!-

    -

    - 0- D- F- !- "- ?--

    *ara valores de > por encima de la media

    tenemos valores de I por encima y pordeba)o en proporciones similares.Jncorrelacin.

    *ara los valores de > mayores 3ue lamedia le corresponden valores de Imenores. Esto es relacin inversaodecreciente.

    8*ara los valores de > mayores 3ue la media lecorresponden valores de I mayores tambin.

    8*ara los valores de > menores 3ue la media lecorresponden valores de I menores tambin.

    8Esto se llama relacin directa.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    9/36

    Es decir' fi)ando valores de >' vemoscmo se distribuye I

    4a distribucin de I' para valoresfi)ados de >' se denomina distribucincondicionada.

    4a distribucin de I'independientemente del valor de >' sedenomina distribucin marginal.

    i la dispersin se reducenotablemente' el modelo de regresinser, adecuado.

    6ema$ Estadstica bivariante 9Bioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    10/36

    %ovarian+a de dos variables > e I

    4a covarian+aentre dos variables' !"' nos indica si

    la posible relacin entre dos variables es directa oinversa. 9irecta$ 2y L-

    Jnversa$ 2y M-

    Jncorreladas$ 2y /-

    El signo de la covarian+a nos dice si el aspecto de lanube de puntos es creciente o no' pero no nos dice

    nada sobre el grado de relacinentre las variables.

    ))((1

    yyxxn

    S ii

    ixy =

    6ema$ Estadstica bivariante 10Bioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    11/36

    %oef. de correlacin lineal de *earson 4a coeficiente de correlacin lineal de *earsonde

    dos variables' r' nos indica si los puntos tienen unatendencia a disponerse alineadamente(e2cluyendo rectas &ori+ontales y verticales#.

    tiene el mismo signo 3ue 2ypor tanto de su signo

    obtenemos el 3ue la posible relacin sea directa oinversa.

    r es @til para determinar si &ay relacin linealentredos variables' pero no servir, para otro tipo derelaciones(cuadr,tica' logartmica'...#

    yx

    xy

    SS

    Sr=

    6ema$ Estadstica bivariante 11Bioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    12/36

    *ropiedades de r Es adimensional lo toma valores en NO'P 4as variables son incorreladas r/- Relacin lineal perfecta entre dos variables r/1 o r/O

    E2cluimos los casos de puntos alineados &ori+. o verticalmente. %uanto m,s cerca est r de 1 o O me)or ser, el grado de

    relacin lineal. iempre 3ue no e2istan observaciones anmalas.

    6ema$ Estadstica bivariante 12Bioestadstica.O 1-

    Relacininversaperfecta

    Relacindirecta

    casiperfecta

    Qariables

    incorreladas

  • 7/21/2019 bio-estadistica_bivariante.ppt

    13/36

    Entrenando el o)o$ correlaciones positivas

    6ema$ Estadstica bivariante 13Bioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    14/36

    Entrenando el o)o$ correlaciones negativas

    6ema$ Estadstica bivariante 14Bioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    15/36

    nimacin$ Evolucin de r y diagrama de dispersin

    156ema$ Estadstica bivarianteBioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    16/36

    *reguntas frecuentes #i r$0 eso %uiere decir %ue no las &aria'les son

    independientes(

    En la pr,ctica' casi siempre s' pero no tienepor 3u ser cierto en todos los casos. 4o contrario si es cierto$ Jndependencia

    implica incorrelacin.

    Me )a salido r$1*+ #la relacin es superlineal-NsicP(

  • 7/21/2019 bio-estadistica_bivariante.ppt

    17/36

    Ttros coeficientes de correlacin

    %uando las variables en ve+ de ser numricas sonordinales' es posible preguntarse sobre si &ay alg@n

    tipo de correlacin entre ellas.

    9isponemos para estos casos de dos estadsticos'aun3ue no los usaremos en clase$ U (Aro# de pearman

    V (Atau# de Hendall

    Co tenis 3ue estudiar nada sobre ellos en estecurso. Recordad slo 3ue son estadsticos an,logosa r y 3ue los encontrareis en publicaciones donde lasvariables no puedan considerarse numricas.

    6ema$ Estadstica bivariante 17Bioestadstica.

    Waurice George Hendall

    %&arles Ed:ard pearma

  • 7/21/2019 bio-estadistica_bivariante.ppt

    18/36

    Regresin

    El an,lisis de regresin sirve para predecir una

    medida en funcin de otra medida (o varias#. I / Qariable dependiente

    predic&a e2plicada

    > / Qariable independiente predictora e2plicativa

    # 1 error

    f es una funcin de un tipo determinado el error es aleatorio' pe3ueXo' y no depende de >

    186ema$ Estadstica bivarianteBioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    19/36

    Regresin

    El e)emplo del estudio de la altura en grupos familiares de

    *earson es del tipo 3ue desarrollaremos en el resto deltema.

    ltura del &i)o / !0cm 1 0,5altura del padre (I / !0 1 -'0 >#

    i el padre mide ?--cm

  • 7/21/2019 bio-estadistica_bivariante.ppt

    20/36

    Wodelo de regresin lineal simple

    En el modelo de regresin lineal simple' dado dos

    variables I (dependiente# > (independiente' e2plicativa' predictora#

    buscamos encontrar una funcin de > muy simple (lineal)

    3ue nos permita apro2imar I mediante Y / b-1 b>

    b-(ordenada en el origen' constante# b(pendiente de la recta#

    I e Y rara ve+ coincidir,n por muy bueno 3ue sea elmodelo de regresin. la cantidad e/IOYse le denomina residuoo error residual.

    206ema$ Estadstica bivarianteBioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    21/36

    En el e)emplo de *earson y las alturas' l encontr$ Y / b-1 b>

    b-/!0cm (Co interpretar como altura de un &i)o cuyo padre mide

    - cm ZE2trapolacin salva)e[ b/-'0(En media el &i)o gana -'0 cm por cada cm del padre.#

    6ema$ Estadstica bivariante 21Bioestadstica.

    b-/!0 cm

    b/-'0

  • 7/21/2019 bio-estadistica_bivariante.ppt

    22/36

    4a relacin entre las variables no es e2acta. Es naturalpreguntarse entonces$ %u,l es la me)or recta3ue sirve para predecir los valores de I

    en funcin de los de > ;u error cometemoscon dic&a apro2imacin (residual#.

    6ema$ Estadstica bivariante 22Bioestadstica.

    b-

    /!0 cm

    b/-'0

  • 7/21/2019 bio-estadistica_bivariante.ppt

    23/36

    El modelo lineal de regresin se construye utili+ando la tcnica deestimacin mnimo cuadr,tica$ Buscar b-' bde tal manera 3ue se minimice la cantidad

    \iei?

    e comprueba 3ue para lograr dic&o resultado basta con elegir$

    e obtiene adem,s unas venta)as de regalo El error residual medio es nulo 4a varian+a del error residual es mnimapara dic&a estimacin.

    6raducido$ En trmino medio no nos e3uivocamos. %ual3uier otraestimacin 3ue no cometa error en trmino medio' si es de tipo lineal'ser, peor por presentar mayor variabilidad con respecto al error medio(3ue es cero#.

    xbybS

    Srb

    X

    Y101

    ==

    6ema$ Estadstica bivariante 23Bioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    24/36

    nimacin$ Residuos del modelo de regresin

    246ema$ Estadstica bivarianteBioestadstica.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    25/36

    ;ue el error medio de laspredicciones sea nulo no3uieredecir 3ue las predicciones seanbuenas.

    5ay 3ue encontrar un medio dee2presar la bondad del a)uste(bondad de la prediccin#

    6ema$ Estadstica bivariante 25Bioestadstica.

    %ometi un errorde /0en su

    @ltima prediccin

    Co importa. %on los dos@ltimos clientes me

    e3uivo3u en 10y +0.En trmino medio el error

    es cero.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    26/36

  • 7/21/2019 bio-estadistica_bivariante.ppt

    27/36

    Jnterpretacin de la variabilidad en I

    6ema$ Estadstica bivariante 27Bioestadstica.

    IEn primer lugar olvidemos 3ue e2iste lavariable >. Qeamos cu,l es la variabilidaden el e)e I.

    4a fran)a sombreada indica la +ona dondevaran los valores de I.

    *royeccin sobre el e)e I / olvidar >

  • 7/21/2019 bio-estadistica_bivariante.ppt

    28/36

    Jnterpretacin del residuo

    6ema$ Estadstica bivariante 28Bioestadstica.

    I7i)monos a&ora en los errores de prediccin(lneas verticales#. 4os proyectamos sobre el e)e I.

    e observa 3ue los errores de prediccin'residuos' est,n menos dispersos 3ue lavariable I original.

    %uanto menos dispersos sean los residuos'

    me)or ser, la bondad del a)uste.

  • 7/21/2019 bio-estadistica_bivariante.ppt

    29/36

    Bondad de un a)uste

    2

    2

    2

    1Y

    e

    S

    S

    R =

    22 Ye SS