Tema 04 DaCuesta Estadistica Descriptiva Bidimensional

50
 BIOESTADISTICA Tema 4: Estad stadí í stica Descriptiva Bidimensional stica Descriptiva Bidimensional Departamento de Epidemiología, Medicina Preventiva, Análisis crítico y Metodología de la investigación Uni versi dad Cali ca de Valenci a San Vic ent e Márt ir  Facult ad d e Medi cina ESTADÍSTICA APLICADA Odontología (OD1)

Transcript of Tema 04 DaCuesta Estadistica Descriptiva Bidimensional

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Departamento de Epidemiologa, Medicina

    Preventiva, Anlisis crtico y Metodologa de la

    investigacin

    Universidad Catlica de Valencia San Vicente MrtirFacultad de Medicina

    ESTADSTICA APLICADAOdontologa (OD1)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    GuiGuin:n:

    1.1. IntroducciIntroduccinn2.2. Objetivos del TemaObjetivos del Tema3.3. Tablas de DistribuciTablas de Distribucin de Frecuencias.n de Frecuencias.4.4. GrGrficos de Dispersificos de Dispersinn5.5. Coeficiente de CorrelaciCoeficiente de Correlacin.n.6.6. Coeficiente de RegresiCoeficiente de Regresin Lineal: Recta de Regresin Lineal: Recta de Regresinn

    Tema 4: Estadstica Descriptiva Bidimensional

    Departamento de Epidemiologa, Anlisis critico y Metodologa de la investigacin

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional BIOESTADISTICA

    En los temas anteriores hemos estudiado las principales caractersticas de distribuciones de variables

    unidimensionales, es decir, para cada individuo se meda una nica variable.

    Sin embargo, puede suceder que para cada individuo se mida ms de una caracterstica.

    En este tema consideraremos que para cada individuo se han medido dos variables (es decir, una variable

    bidimensional) y se estudiar la posible relacin entre ambas.

    En los temas anteriores hemos estudiado las principales En los temas anteriores hemos estudiado las principales caractercaractersticas de distribuciones de variables sticas de distribuciones de variables

    unidimensionalesunidimensionales, es decir, para cada individuo se med, es decir, para cada individuo se meda a una una nica variable.nica variable.

    Sin embargo, puede suceder que para cada individuo se Sin embargo, puede suceder que para cada individuo se mida mida mmss de una caracterde una caractersticastica..

    En este tema consideraremos que para cada individuo se En este tema consideraremos que para cada individuo se han medido han medido dos variablesdos variables (es decir, una variable (es decir, una variable

    bidimensional) y se estudiarbidimensional) y se estudiar la posible relacila posible relacin entre n entre ambas. ambas.

    IntroducciIntroduccinn

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional BIOESTADISTICA

    El estudio unidimensional de cada una de las dos variables puede hacerse segn se ha visto en el tema

    anterior, por lo que en este tema nos centraremos en el estudio de la posible

    El El estudio unidimensionalestudio unidimensional de cada una de las dos de cada una de las dos variables puede hacerse segvariables puede hacerse segn se ha visto en el tema n se ha visto en el tema

    anterior, por lo que en este tema nos centraremos en el anterior, por lo que en este tema nos centraremos en el estudio de la posible estudio de la posible

    relacin existente entre las variables. relacirelacin existente entre las variablesn existente entre las variables..

    IntroducciIntroduccinn

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional BIOESTADISTICA

    Nos preguntaremos por ejemplo que relacin tiene el peso de los estudiantes con su estatura.

    Este es un ejemplo de una amplia serie de preguntas que podran ser importantes:

    Nos preguntaremos por ejemplo que relaciNos preguntaremos por ejemplo que relacin tiene el peso de los n tiene el peso de los estudiantes con su estatura.estudiantes con su estatura.

    Este es un ejemplo de una amplia serie de preguntas que podrEste es un ejemplo de una amplia serie de preguntas que podran an ser importantes: ser importantes:

    IntroducciIntroduccinn

    PUEDE PREDECIRSE LA ESPERANZA DE VIDA PUEDE PREDECIRSE LA ESPERANZA DE VIDA MIDIENDO LA TENSIMIDIENDO LA TENSIN ARTERIAL? N ARTERIAL?

    LAS NOTAS DE LA SELECTIVIDAD PREDICEN EL LAS NOTAS DE LA SELECTIVIDAD PREDICEN EL COMPORTAMIENTO ACADCOMPORTAMIENTO ACADMICO EN LA MICO EN LA UNIVERSIDAD? UNIVERSIDAD?

    LEER LIBROS DE ESTADLEER LIBROS DE ESTADSTICA TE CONVIERTE STICA TE CONVIERTE EN MEJOR PERSONA?EN MEJOR PERSONA?

    EL FUMAR PRODUCE CANCER?EL FUMAR PRODUCE CANCER?

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    GuiGuin:n:

    1.1. IntroducciIntroduccinn2.2. Objetivos del TemaObjetivos del Tema3.3. Tablas de DistribuciTablas de Distribucin de Frecuencias.n de Frecuencias.4.4. GrGrficos de Dispersificos de Dispersinn5.5. Coeficiente de CorrelaciCoeficiente de Correlacin.n.6.6. Coeficiente de RegresiCoeficiente de Regresin Lineal: Recta de Regresin Lineal: Recta de Regresinn

    Tema 4: Estadstica Descriptiva Bidimensional

    Departamento de Epidemiologa, Anlisis critico y Metodologa de la investigacin

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Tema 4: Estadstica Descriptiva Bidimensional

    OBJETIVOS DEL TEMA:

    En este tema consideraremos que para cada individuo se han medido dos variables (es decir, una variable bidimensional) y se estudiar la posible relacin entre ambas.

    Aprenderemos a construir una tabla de distribucin de frecuencias para una variable bidimensional

    Aprenderemos a conocer la correlacin lineal de Pearson como medida de asociacin entre dos variables.

    Aprenderemos a conocer la regresin lineal, su interpretacin y aplicacin prctica, para una interpretacin descriptiva.

    Aprenderemos a conocer el diagrama de dispersin como grfico de representacin bsico de las relaciones entre variables numricas.

    Departamento de Epidemiologa, Anlisis critico y Metodologa de la investigacin

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    GuiGuin:n:

    1.1. IntroducciIntroduccinn2.2. Objetivos del TemaObjetivos del Tema3.3. Tablas de DistribuciTablas de Distribucin de Frecuencias.n de Frecuencias.4.4. GrGrficos de Dispersificos de Dispersinn5.5. Coeficiente de CorrelaciCoeficiente de Correlacin.n.6.6. Coeficiente de RegresiCoeficiente de Regresin Lineal: Recta de Regresin Lineal: Recta de Regresinn

    Tema 4: Estadstica Descriptiva Bidimensional

    Departamento de Epidemiologa, Anlisis critico y Metodologa de la investigacin

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Tablas de doble entrada (Frecuencias)Tablas de doble entrada (Frecuencias)

    EjemploSobre un conjunto de 50 alumnos de la Facultad se definen las variables:

    x = gneroH = Hombre; M = Mujer

    y = forma de acceder a la FacultadVP = Vehculo Propio; TP = Transporte Pblico; O = Otros medios

    EjemploSobre un conjunto de 50 alumnos de la Facultad se definen las variables:

    x = gneroH = Hombre; M = Mujer

    y = forma de acceder a la FacultadVP = Vehculo Propio; TP = Transporte Pblico; O = Otros medios

    x/y VP TP O n i H 13 10 6 29M 10 10 1 21

    n j 23 20 7 5013 Hombres acceden en

    Vehculo Propio

    10 Mujeres acceden en Transporte Pblico

    En total hay 29 Hombres y 21 Mujeres

    23 alumnos acceden con Vehculo Propio, 20 con Transporte Pblico y 7 por Otros medios

    En total hay 50 individuos

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    En general tenemos dos variables x e y, de manera que sobre x se definen Icategoras (o intervalos) diferentes {x1, , xI} y sobre y se definen J categoras (o intervalos) diferentes {y1, , yJ} :

    y 1 y 2 y j y Jx 1 n 11 n 12 n 1j n 1Jx 2 n 21 n 22 n 2j n 2J

    x i n i 1 n i 2 n ij n iJ

    x I n I 1 n I 2 n Ij n IJ

    x

    y

    n 11 n 12 n 1j n 1Jn 21 n 22 n 2j n 2J

    n i 1 n i 2 n ij n iJ

    n I 1 n I 2 n Ij n IJn 1 n 2 n j n J

    n 1n 2

    n i

    n I n

    Ijjjj nnnn +++= L21

    Frecuencias absolutas conjuntasN de veces que se ha dado x = xiconjuntamente con y = yj

    iJiii nnnn +++= L21

    +++

    +++=

    J

    I

    nnn

    nnnn

    L

    L

    21

    21

    ni: Frecuencias absolutas marginales para la variable x.

    nj: Frecuencias absolutas marginales para la variable y.

    Tablas de doble entrada (Frecuencias)Tablas de doble entrada (Frecuencias)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Distribuciones marginalesDistribuciones marginales

    y 1 y 2 y j y Jx 1 n 11 n 12 n 1j n 1J n 1x 2 n 21 n 22 n 2j n 2J n 2

    x i n i 1 n i 2 n ij n iJ n i

    x I n I 1 n I 2 n Ij n IJ n I n 1 n 2 n j n J n

    x

    y

    Distribucin Marginal de la

    variable X

    Distribucin Marginal de la

    variable X

    Distribucin Marginal de la

    variable Y

    Distribucin Marginal de la

    variable YX i n ix 1 n 1x 2 n 2

    x i n i

    x I n I n

    Y j n jy 1 n 1y 2 n 2

    y j n j

    y J n Jn

    A partir de la distribucin bidimensional podemos estudiar cada una de las dos variables de forma aislada, es decir, podemos estudiar por separado la distribucin de la variable X y la de la variable Y.

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Distribuciones condicionalesDistribuciones condicionales

    y 1 y 2 y j y Jx 1 n 11 n 12 n 1j n 1J n 1x 2 n 21 n 22 n 2j n 2J n 2

    x i n i 1 n i 2 n ij n iJ n i

    x I n I 1 n I 2 n Ij n IJ n I

    n 1 n 2 n j n J n

    x

    y Distribucin de xCondicionada a

    y = y2

    Distribucin de xCondicionada a

    y = y2

    Distribucin de yCondicionada a

    x = x1

    Distribucin de yCondicionada a

    x = x1

    X i n ix 1 n 12x 2 n 22

    x i n i 2

    x I n I 2

    n 2

    Y j n jy 1 n 11y 2 n 12

    y j n 1j

    y J n 1Jn 1

    2| yyx = 1| xxy =

    Es posible construir los grficos y calcular los estadsticos asociados a

    la distribucin condicional, tratndola como una variable

    unidimensional.

    Es posible construir los grEs posible construir los grficos y ficos y calcular los estadcalcular los estadsticos asociados a sticos asociados a

    la distribucila distribucin condicional, n condicional, trattratndola como una variable ndola como una variable

    unidimensional.unidimensional.

    Podemos definir la distribucin de una de las variables sometida a una condicin que afecte a una o a las dos variables:

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Distribuciones condicionales: ejemploDistribuciones condicionales: ejemplo

    Dada la tabla de doble entrada, construye la distribucin de las siguientes variables: x|y = 2; y|x =10; x|y 2; x|xy < 40.

    1 2 3 4 n i 5 1 2 1 3 7

    x 10 2 1 3 2 815 3 2 1 2 8n j 6 5 5 7 23

    y

    x i n i5 210 115 2

    5

    y j n j1 22 13 34 2

    8

    2| =yx 10| =xyx i n i5 310 315 5

    11

    x i n i5 710 615 5

    18

    2| yx 40|

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Frecuencias absolutas y relativasFrecuencias absolutas y relativasnij es el nmero de ocurrencias de la combinacin (xi, yj), es decir, la frecuencia absoluta.Por analoga con las variables unidimensionales, definimos la frecuencia relativa para la combinacin (xi, yj) cmo:

    Las frecuencias relativas de las distribuciones condicionadas sern:

    Para x|y = yj : Para y|x = xi :

    nij es el nmero de ocurrencias de la combinacin (xi, yj), es decir, la frecuencia absoluta.Por analoga con las variables unidimensionales, definimos la frecuencia relativa para la combinacin (xi, yj) cmo:

    Las frecuencias relativas de las distribuciones condicionadas sern:

    Para x|y = yj : Para y|x = xi :

    nn

    f ijij =

    jijji nnf =| = iijij nnf |

    x/y VP TP O n i H 13 10 6 29M 10 10 1 21

    n j 23 20 7 50

    x/y VP TP O f i H 0,26 0,20 0,12 0,58M 0,20 0,20 0,02 0,42

    f j 0,46 0,40 0,14 1,00

    Tabla de Frecuencias Absolutas Tabla de Frecuencias Relativas

    Frecuencias relativas conjuntasFrecuencias relativas conjuntas Frecuencias relativas marginalesFrecuencias relativas marginales

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Independencia estadIndependencia estadsticastica

    Las variables x e y se dice que son estadsticamente independientes cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales.

    Si hay Independencia Estadstica las frecuencias relativas condicionadas coinciden con sus correspondientes frecuencias relativas marginales:

    x e y independientes cuando para todo par (xi, yj) se verifica: fij = fifj

    Es decir:

    x e y independientes cuando para todo par (xi, yj) se verifica: fij = fifj

    Es decir:

    y j

    x i f ij f i

    f j

    ==== ii

    j

    ji

    j

    ijji fn

    nn

    nn

    n

    nn

    f |

    nn

    nn

    nn jiij =

    jj

    i

    ji

    i

    ijij fn

    nn

    nn

    n

    nn

    f

    ====|

    nnn

    n jiij =

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Independencia estadIndependencia estadstica: ejemplostica: ejemplo

    x/y VP TP O n i H 13 10 6 29M 10 10 1 21

    n j 23 20 7 502923/50 = 13,42923/50 = 13,4

    2123/50 = 9,662123/50 = 9,66

    2920/50 = 11,62920/50 = 11,6

    2120/50 = 8,42120/50 = 8,4

    297/50 = 4,1297/50 = 4,1

    217/50 = 2,9217/50 = 2,9

    Existe una cierta discrepancia entre el valor de las frecuencias absolutas observado y el que deberan tener si las dos variables fueran independientes.Si consideramos la discrepancia lo suficientemente grande, diremos que no son independientes, es decir, la forma de acceder a la facultad se distribuye de forma diferente entre los hombres y las mujeres o el sexo se distribuye de forma diferente entre los alumnos segn su forma de acceder a la facultad.

    Existe una cierta discrepancia entre el valor de las frecuencias absolutas observado y el que deberan tener si las dos variables fueran independientes.Si consideramos la discrepancia lo suficientemente grande, diremos que no son independientes, es decir, la forma de acceder a la facultad se distribuye de forma la forma de acceder a la facultad se distribuye de forma diferente entre los hombres y las mujeresdiferente entre los hombres y las mujeres o o el sexo se distribuye de forma diferente el sexo se distribuye de forma diferente entre los alumnos segentre los alumnos segn su forma de acceder a la facultadn su forma de acceder a la facultad..

    Qu significa lo suficientemente grande?

    Qu significa lo suficientemente grande?

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    EstadEstadsticos marginales (Media, Varianza y Desviacisticos marginales (Media, Varianza y Desviacin Tn Tpica)pica)

    1 2 4

    5 1 0 2

    10 2 1 0

    15 0 1 3

    y

    x

    n i

    3

    3

    4

    n j 3 2 5 10

    15 75

    30 300

    60 900

    105 1.275

    x i n i x i 2 n i

    y j n j

    y j 2 n j

    3 4 20 27

    3 8 80 91

    7,210271 ===

    =

    n

    nyy

    J

    ijj

    81,17,21091 2222 === yySy

    Media marginal de x

    Media marginal de y

    Varianza marginal de y

    Varianza marginal de x

    25,175,1010275.1 2222 === xxSx

    5,10101051 ===

    =

    n

    nxx

    I

    iii

    n

    nXX

    I

    iii

    == 1

    ( )222 XX =2 =

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    GuiGuin:n:

    1.1. IntroducciIntroduccinn2.2. Objetivos del TemaObjetivos del Tema3.3. Tablas de DistribuciTablas de Distribucin de Frecuencias.n de Frecuencias.4.4. GrGrficos de Dispersificos de Dispersinn5.5. Coeficiente de CorrelaciCoeficiente de Correlacin.n.6.6. Coeficiente de RegresiCoeficiente de Regresin Lineal: Recta de Regresin Lineal: Recta de Regresinn

    Tema 4: Estadstica Descriptiva Bidimensional

    Departamento de Epidemiologa, Anlisis critico y Metodologa de la investigacin

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    GrGrficos de Puntos o de Dispersificos de Puntos o de Dispersinn

    Si etiquetamos los datos relativos a una variable como Si etiquetamos los datos relativos a una variable como XX y los y los relativos a la otra variable como relativos a la otra variable como YY podemos representar los podemos representar los puntos (puntos (Xi,YiXi,Yi) en un diagrama de bidimensional de ) en un diagrama de bidimensional de abscisas/coordenadas que recibe el nombre de: abscisas/coordenadas que recibe el nombre de:

    GRGRFICO DE DISPERSION DE PUNTOSFICO DE DISPERSION DE PUNTOS

    (xi, yi)iy

    ix

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    ( )yx,

    +

    +

    ( )yx,

    +

    +

    GrGrficos de Puntos o de Dispersificos de Puntos o de Dispersinn

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    GuiGuin:n:

    1.1. IntroducciIntroduccinn2.2. Objetivos del TemaObjetivos del Tema3.3. Tablas de DistribuciTablas de Distribucin de Frecuencias.n de Frecuencias.4.4. GrGrficos de Dispersificos de Dispersinn5.5. Coeficiente de CorrelaciCoeficiente de Correlacin.n.6.6. Coeficiente de RegresiCoeficiente de Regresin Lineal: Recta de Regresin Lineal: Recta de Regresinn

    Tema 4: Estadstica Descriptiva Bidimensional

    Departamento de Epidemiologa, Anlisis critico y Metodologa de la investigacin

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Al dibujar el grAl dibujar el grfico de dispersifico de dispersin hemos visto que en n hemos visto que en ocasiones las variables cambian de forma ocasiones las variables cambian de forma asociadaasociada o o relacionada.relacionada.

    El anEl anlisis de correlacilisis de correlacin tiene como finalidad examinar la n tiene como finalidad examinar la direccidireccinn y la y la magnitudmagnitud de la asociacide la asociacin entre las dos n entre las dos variables.variables.

    Nos permitirNos permitir conocer la intensidad de esa relaciconocer la intensidad de esa relacin y si al n y si al aumentar el valor de una variable aumenta o disminuye el aumentar el valor de una variable aumenta o disminuye el valor de la otra (valor de la otra (relacirelacin directa o inversan directa o inversa).).

    Las variables utilizadas en la correlaciLas variables utilizadas en la correlacin son n son simsimtricastricas, , en este caso no tenemos una variable dependiente y otra en este caso no tenemos una variable dependiente y otra independiente como en la regresiindependiente como en la regresin. Son por tanto n. Son por tanto intercambiables.intercambiables.

    CorrelaciCorrelacin Lineal (I)n Lineal (I)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Para medir o cuantificar el grado de asociaciPara medir o cuantificar el grado de asociacin entre dos n entre dos variables debemos calcular el variables debemos calcular el Coeficiente de correlaciCoeficiente de correlacinn

    Hay dos coeficientes de correlaciHay dos coeficientes de correlacin que se usan n que se usan frecuentemente, el de frecuentemente, el de PearsonPearson (el mas frecuente) y el de (el mas frecuente) y el de SpearmanSpearman

    El El Coeficiente de correlaciCoeficiente de correlacin de Pearson n de Pearson es un mes un mtodo todo estadestadstico paramstico paramtrico (requiere que las variables sean trico (requiere que las variables sean normales y utiliza en sus cnormales y utiliza en sus clculos la media y la varianza). lculos la media y la varianza). Es un Es un ndicendice que mide lo bien que se ajustan los puntos a que mide lo bien que se ajustan los puntos a una luna lnea nea rectarecta ideal.ideal.

    El de Spearman mide cualquier tipo de asociaciEl de Spearman mide cualquier tipo de asociacin, no n, no necesariamente lineal.necesariamente lineal.

    CorrelaciCorrelacin Lineal (II)n Lineal (II)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    CorrelaciCorrelacin Lineal (III)n Lineal (III)

    Se llama Se llama COVARIANZACOVARIANZA a la propiedad de dos a la propiedad de dos variables de cambiar de forma coordinada y al variables de cambiar de forma coordinada y al

    ununsono sono

    La La CovarianzaCovarianza de de xyxy se calcula multiplicando para se calcula multiplicando para cada sujeto u observacicada sujeto u observacin las diferencias con n las diferencias con respecto a la media de cada valor de x por las respecto a la media de cada valor de x por las

    diferencias con respecto a la media de cada valor diferencias con respecto a la media de cada valor de y. A continuacide y. A continuacin se suman las cantidades n se suman las cantidades

    obtenidas y se divide el resultado por el numero obtenidas y se divide el resultado por el numero de individuos de la muestra (n)de individuos de la muestra (n)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Un nuevo EstadUn nuevo Estadstico: La Covarianzastico: La Covarianza

    ( )

    n

    xxS

    n

    ii

    x

    =

    = 1

    2

    2

    ( )

    n

    yyS

    n

    ii

    y

    =

    = 1

    2

    2

    ( )( )

    n

    yyxxS

    n

    iii

    xy

    =

    = 1 yxxy =

    ( )yx ,

    +=++

    =++=

    =+

    ( )( )yyxx ii de Signo

    Cuadrante

    1 + + +2 + 3 +4 +

    ( )( )yyxx ii de Signo

    ( )xxi de Signo

    ( )yyi de Signo

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    ( )yx,

    +

    +

    ( )yx,

    +

    +

    Sxy > 0Sxy > 0 Sxy < 0Sxy < 0

    Sxy = 0Sxy = 0

    El signo de la covarianzaEl signo de la covarianza

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    CClculo de la covarianza con tabla simplelculo de la covarianza con tabla simpleIndividuo x y

    1 1,00 1,852 1,20 2,173 1,40 2,004 2,50 3,175 2,00 3,026 1,80 2,577 1,60 2,248 0,80 1,749 1,00 1,65

    10 1,10 1,67Suma 14,40 22,08Media 1,44 2,208

    x 2 y 2 xy1,00 3,4225 1,85001,44 4,7089 2,60401,96 4,0000 2,80006,25 10,0489 7,92504,00 9,1204 6,04003,24 6,6049 4,62602,56 5,0176 3,58400,64 3,0276 1,39201,00 2,7225 1,65001,21 2,7889 1,8370

    23,30 51,4622 34,30802,33 5,1462 3,4308

    x y 2x 2y xy

    222 xxSx =

    yxxySxy =

    222 yySy =26,044,133,2 2 ==27,021,215,5 2 ==

    25,021,244,143,3 ==

    0,00

    0,50

    1,00

    1,50

    2,00

    2,50

    3,00

    3,50

    4,00

    0,00 0,50 1,00 1,50 2,00 2,50 3,00

    Observando la nube de puntos (Grafico de dispersin) se

    aprecia que existe una relacin lineal directa entre ambas

    variables (covarianza positiva).

    Observando la nube de puntos (Grafico de dispersin) se

    aprecia que existe una relacin lineal directa entre ambas

    variables (covarianza positiva).

    Suma de los productos xy

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    CClculo de la covarianza con tabla de doble entradalculo de la covarianza con tabla de doble entrada

    1 2 4 n i x i n i

    5 1 0 2 3 15

    10 2 1 0 3 30

    15 0 1 3 4 60

    n j 3 2 5 10 105

    y j n j 3 4 20 27

    y

    x

    x i y j n ij 1 2 45 5 0 40

    10 20 20 015 0 30 180

    Suma 25 50 220 295

    5,1010105

    ==x 7,21027

    ==y

    == yxxySxy1012 = 201012 = 20

    15,17,25,1010295

    ==

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    El coeficiente de correlaciEl coeficiente de correlacin lineal de Pearson (r)n lineal de Pearson (r)

    La covarianza presenta el La covarianza presenta el handicaphandicap de de depender de la depender de la escalaescala, por lo que es interesante introducir otra medida , por lo que es interesante introducir otra medida para la relacipara la relacin lineal entre dos variables que no se vea n lineal entre dos variables que no se vea

    afectada por cambios en las unidades de medida afectada por cambios en las unidades de medida empleadas.empleadas.

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    El coeficiente de correlaciEl coeficiente de correlacin lineal de Pearson (r)n lineal de Pearson (r)

    El El coeficiente de correlacicoeficiente de correlacin linealn lineal, denotado con la letra , denotado con la letra rr, , es el cociente entre la covarianza y el producto de las es el cociente entre la covarianza y el producto de las

    desviaciones tdesviaciones tpicas de las dos variables:picas de las dos variables:

    yx

    xy

    SSS

    r

    =

    95,027,026,0

    25,0 :anterior ejemplo elEn =

    =ryxyx

    n

    iii

    yx

    xy

    SSyxxy

    SSn

    yyxx

    SSS

    r

    =

    =

    =

    =

    22

    1)()(

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    El coeficiente de correlaciEl coeficiente de correlacin lineal:n lineal:

    SSlo toma valores comprendidos entre lo toma valores comprendidos entre 1 y +1.1 y +1. R=0 No existe CorrelaciR=0 No existe Correlacin.n. R>0 AsociaciR>0 Asociacin directa o correlacin directa o correlacin +n + R

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    El coeficiente de correlaciEl coeficiente de correlacin lineal:n lineal:

    Carece de unidades de medida, es decir, es adimensional.Carece de unidades de medida, es decir, es adimensional.

    Es invariante frente a transformaciones lineales (cambio de Es invariante frente a transformaciones lineales (cambio de origen y escala) de las variables.origen y escala) de las variables.

    El valor de r serEl valor de r ser grande cuando los puntos estgrande cuando los puntos estn muy n muy concentrados en torno a la recta y pequeconcentrados en torno a la recta y pequeos cuando los os cuando los puntos del grafico estpuntos del grafico estn dispersos con respecto a la recta.n dispersos con respecto a la recta.

    El coeficiente de correlaciEl coeficiente de correlacin lineal de Pearson (r)n lineal de Pearson (r)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    GuiGuin:n:

    1.1. IntroducciIntroduccinn2.2. Objetivos del TemaObjetivos del Tema3.3. Tablas de DistribuciTablas de Distribucin de Frecuencias.n de Frecuencias.4.4. GrGrficos de Dispersificos de Dispersinn5.5. Coeficiente de CorrelaciCoeficiente de Correlacin.n.6.6. Coeficiente de RegresiCoeficiente de Regresin Lineal: Recta de Regresin Lineal: Recta de Regresinn

    Tema 4: Estadstica Descriptiva Bidimensional

    Departamento de Epidemiologa, Anlisis critico y Metodologa de la investigacin

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    La La regresiregresin lineal n lineal consiste en obtener una funciconsiste en obtener una funcin lineal n lineal en la que se relacione una variable que se intenta explicar en la que se relacione una variable que se intenta explicar ((variable dependientevariable dependiente o explicada) con otra/s que o explicada) con otra/s que conocemos a priori, y a las que denominamos conocemos a priori, y a las que denominamos variables variables independientesindependientes o explicativas.o explicativas.

    Todas las variables deben ser Todas las variables deben ser cuantitativascuantitativas..

    La funciLa funcin obtenida servirn obtenida servir para explicar y para explicar y predecirpredecir el el valor de la variable dependiente o explicadavalor de la variable dependiente o explicada

    RegresiRegresin Lineal (I)n Lineal (I)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Cuando utilizamos una sola variable explicativa estamos Cuando utilizamos una sola variable explicativa estamos ante una ante una regresiregresin lineal simplen lineal simple. Cuando son dos o mas . Cuando son dos o mas variables explicativas o independientes servariables explicativas o independientes ser una una regresiregresin n lineal mlineal mltipleltiple..

    La correlaciLa correlacin mide la direccin mide la direccin y magnitud de la n y magnitud de la asociaciasociacin entre las dos variables, pero no nos permite n entre las dos variables, pero no nos permite predecirpredecir el valor de una de ellas en funciel valor de una de ellas en funcin de variaciones n de variaciones de la otra.de la otra.

    En la regresiEn la regresin, el objetivo es obtener una funcin, el objetivo es obtener una funcin (lineal n (lineal en el caso de la regresien el caso de la regresin simple) que nos permita n simple) que nos permita predecirpredecirel valor de la variable dependiente en funciel valor de la variable dependiente en funcin del valor de n del valor de la/s variables independientes.la/s variables independientes.

    RegresiRegresin Lineal (II)n Lineal (II)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Por ejemplo se desea saber la cantidad de Por ejemplo se desea saber la cantidad de ingresos hospitalarios de un departamento de ingresos hospitalarios de un departamento de salud (variable dependiente) en funcisalud (variable dependiente) en funcin de la n de la poblacipoblacin de cobertura a la que asiste y/o la n de cobertura a la que asiste y/o la

    edad media de la misma y/o su nivel de edad media de la misma y/o su nivel de comorbilidadcomorbilidad

    RegresiRegresin Lineal (III)n Lineal (III)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    MatemMatemticamente deseamos encontrar una funciticamente deseamos encontrar una funcin lineal n lineal (y=a+(y=a+bxbx)) que permita explicar la variable dependiente (y) que permita explicar la variable dependiente (y) en funcien funcin del variable independiente (x).n del variable independiente (x).

    La funciLa funcin lineal sern lineal ser la correspondiente a la recta en la la correspondiente a la recta en la que las que las distanciasdistancias de cada punto a la misma sean de cada punto a la misma sean menores.menores.

    El problema por tanto se reduce a calcular los El problema por tanto se reduce a calcular los coeficientes coeficientes aa y y bb de la recta que haga mde la recta que haga mnimos las diferencias nimos las diferencias entre las observaciones reales y las predichas por la entre las observaciones reales y las predichas por la funcifuncin.n.

    RegresiRegresin Lineal (IV)n Lineal (IV)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    RegresiRegresin linealn linealLa existencia de una relacin lineal entre las variables implica la existencia de una recta que se ajusta a la nube de puntos, siendo mayor el ajuste cuanto ms fuerte es la relacin lineal (cuanto ms cercano a 1 a 1 est r).

    El ajuste se entiende como la proximidad del valor de la y de los puntos al valor de la yque resulta de aplicar la ecuacin de la recta sustituyendo la x de los puntos.

    iii yye =

    ii bxay +=

    El error puede ser positivo o negativo, por lo que consideraremos el error elevado al cuadrado (error cuadrtico).

    Error para el punto i-simo.Error para el

    punto i-simo.

    Cada punto de la nube tendr un error cuadrtico, elegiremos, de entre todas las posibles rectas, aquella para la que el promedio de los errores cuadrticos sea menor (mnimo error cuadrtico medio).

    bxay +=

    (xi, yi)

    iy

    iy

    ix

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    RegresiRegresin lineal. El error cuadrn lineal. El error cuadrtico mediotico medio

    ( )

    n

    yy

    n

    eECM

    n

    iii

    n

    ii

    ==

    == 1

    2

    1

    2

    0

    5

    10

    15

    20

    25

    30

    35

    40

    0 2 4 6 8 10 12 14 16 18 20

    ECM=128,31ECM=128,31

    0

    5

    10

    15

    20

    25

    30

    35

    40

    0 2 4 6 8 10 12 14 16 18 20

    ECM=20,44ECM=20,44

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    La recta y = a + bx que proporciona un menor ECM verifica:2x

    xy

    SS

    b =

    xbya =

    RegresiRegresin lineal. Cn lineal. Clculo de los coeficienteslculo de los coeficientes

    En el ejemplo de la diapositiva 27:En el ejemplo de la diapositiva 27:

    26,02 =xS 25,0=xyS27,02 =yS

    44,1=x

    208,2=y

    98,026,025,0

    ==2x

    xy

    SS

    b =

    xbya =80,044,198,0208,2 ==

    xy 98,080,0 +=

    y = 0,98x + 0,80

    1,0

    1,5

    2,0

    2,5

    3,0

    3,5

    0,5 1,0 1,5 2,0 2,5

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    El coeficiente de determinaciEl coeficiente de determinacin lineal (R2)n lineal (R2)

    Viendo la ecuacin de la recta de regresin junto a la nube de puntos podemos apreciar que el ajuste es bastante bueno, es decir, la recta de regresin es un buen modelo para explicar la relacin lineal existente entre la variable x y la variable y.

    y = 0,98x + 0,80

    1,0

    1,5

    2,0

    2,5

    3,0

    3,5

    0,5 1,0 1,5 2,0 2,5Necesitamos un estadstico que mida de forma cuantitativa la calidad del ajuste.

    Definimos el coeficiente de determinacin lineal R2 como el cuadrado del coeficiente de correlacin y lo interpretaremos como la proporcin de la variabilidad de la variable y explicada por el modelo de regresin y = a + bx.

    En el ejemplo anterior, al ser r = 0,95: R2 = 0,91.

    El modelo explica el 91% de la variabilidad de y a partir de la variabilidad de x

    Definimos el coeficiente de determinacin lineal R2 como el cuadrado del coeficiente de correlacin y lo interpretaremos como la proporcin de la variabilidad de la variable y explicada por el modelo de regresin y = a + bx.

    En el ejemplo anterior, al ser r = 0,95: R2 = 0,91.

    El modelo explica el 91% de la variabilidad de y a partir de la variabilidad de x

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    En la siguiente tabla se muestra el peso al nacer (X) y el incremento de peso entre los das 70 y 100 de vida, expresado como porcentaje del peso al nacer (Y) para 12 nios.

    EjemploEjemplo

    X Y1 112 632 111 663 107 724 119 525 92 756 80 1187 81 1208 84 1149 118 42

    10 106 7211 103 9012 94 91

    20

    40

    60

    80

    100

    120

    140

    75 85 95 105 115 125

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    X Y1 112 632 111 663 107 724 119 525 92 756 80 1187 81 1208 84 1149 118 42

    10 106 7211 103 9012 94 91

    X2 Y2 XY12.544 3.969 7.05612.321 4.356 7.32611.449 5.184 7.70414.161 2.704 6.1888.464 5.625 6.9006.400 13.924 9.4406.561 14.400 9.7207.056 12.996 9.576

    13.924 1.764 4.95611.236 5.184 7.63210.609 8.100 9.2708.836 8.281 8.554

    1.207 975100,58 81,25

    123.561 86.487 94.32210.296,75 7.207,25 7.860,17

    2X 2Y XYX Y

    Ejemplo (continuaciEjemplo (continuacin)n)

    7371,12 ==X

    XY

    SSm

    9719,255== XmYbbmXY +=

    9463,0==YX

    XY

    SSSr

    8955,022 == rR

    ( ) == 222 YYSY

    == YXXYSXY2

    ( ) 6875,60525,8125,207.7 2 =

    2292,31225,8158,10017,860.7 =

    4068,13=XS 6107,24=YS

    ( ) == 222 XXSX ( ) 7431,17958,10075,296.10 2 =

    El modelo explica el 89,55% de la variabilidad del incremento de peso entre los das 70 y 100 a partir del peso del recin nacido, para las 12 observaciones.

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    y = -1,7371x + 255,97R2 = 0,8955

    20

    40

    60

    80

    100

    120

    140

    75 85 95 105 115 12520

    40

    60

    80

    100

    120

    140

    75 85 95 105 115 125

    Ejemplo (continuaciEjemplo (continuacin)n)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Ejercicio 1Ejercicio 1Se dispone del valor de dos variables para 30 observaciones, segn la siguiente tabla:

    X Y XY X2 Y2

    1,9 2,5 4,75 3,61 6,251,5 2,0 3,00 2,25 4,001,5 2,2 3,30 2,25 4,84

    1,8 2,3 4,14 3,24 5,291,4 2,1 2,94 1,96 4,41

    SUMA 40,2 53,7 88,38 67,14 117,39MEDIA 1,6080 2,1480 3,5352 2,6856 4,6956

    a. Modelo de regresin lineal y=f(x).b. Valor estimado para y para una

    observacin con x=1,5?.c. Calcula y comenta la R2.

    a. Modelo de regresin lineal y=f(x).b. Valor estimado para y para una

    observacin con x=1,5?.c. Calcula y comenta la R2.

    0817,0148,26956,4 22 ==yS0999,0608,16856,2 22 ==xS

    0812,0148,2608,15352,3 ==xyS3161,0=xS 2858,0=yS

    8127,02 ==x

    xy

    SS

    b

    8412,0== xbya

    Modelo de RegresinModelo de Regresinxy 8127,08412,0 +=

    8988,0==yx

    xy

    SSS

    r 8079,02 =R

    El modelo explica el 80,79% de la variabilidad de la variable y a partir de la variabilidad en la variable x.

    El modelo explica el 80,79% de la variabilidad de la variable y a partir de la variabilidad en la variable x.

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Para un grupo de 10 pacientes se ha medido la concentracin en la sangre de dos elementos. El elemento A (variable x), en ppl (partculas por litro) y el elemento B (variable y), en ppl, obteniendo la siguiente tabla:

    a.-Modelo de regresin lineal.b.-Concentracin del elemento B esperada para 17 ppl de elemento A. R2.c.- Representa grficamente la nube de puntos y la recta de regresin obtenida.

    X 15 16 19 15 15 21 19 18 10 18Y 53 68 66 61 59 82 76 77 42 66

    Ejercicio 2Ejercicio 2

    X Y XY X2 Y2

    15 53 795 225 2.80916 68 1.088 256 4.62419 66 1.254 361 4.35615 61 915 225 3.72115 59 885 225 3.48121 82 1.722 441 6.72419 76 1.444 361 5.77618 77 1.386 324 5.92910 42 420 100 1.76418 66 1.188 324 4.356

    166 650 11.097 2.842 43.54016,6 65 1.109,7 284,2 4.354

    xy 5532,30162,6 +=

    ( ) 4213,6617 =yy = 3,5532x + 6,0162

    R2 = 0,8456

    4045505560657075808590

    9 10 11 12 13 14 15 16 17 18 19 20 21 22

    Concentracin de A (ppl )

    Con

    cent

    raci

    n d

    e B

    (ppl

    )

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Ejercicio 3Ejercicio 3

    Hay veces que en la ciudad de Londres se experimentan periodos de nubes de polucin densas. En el archivo de datos de SPSS se muestran los datos de un perodo severo de 15 das en los que se incluye las muertes diarias, la media de humo atmosfrico (mg/m3), y la media de contenido de dixido de azufre en la atmsfera (ppm).

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Ejercicio 3: Resultados de SPSS (I)Ejercicio 3: Resultados de SPSS (I)

    Correlaciones

    1 ,756**,001

    15 15,756** 1,001

    15 15

    Correlacin de PearsonSig. (bilateral)NCorrelacin de PearsonSig. (bilateral)N

    N de muertes diarias

    Humo atmosfrico(mg/m3)

    N de muertesdiarias

    Humoatmosfrico

    (mg/m3)

    La correlacin es significativa al nivel 0,01 (bilateral).**.

    r

    r2y= a + bx

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Resumen del modelo

    ,756a ,572 ,539 88,710Modelo1

    R R cuadradoR cuadradocorregida

    Error tp. de laestimacin

    Variables predictoras: (Constante), Humo atmosfrico(mg/m3)

    a.

    Coeficientesa

    171,819 31,434 5,466 ,000

    63,761 15,312 ,756 4,164 ,001

    (Constante)Humo atmosfrico(mg/m3)

    Modelo1

    B Error tp.

    Coeficientes noestandarizados

    Beta

    Coeficientesestandarizad

    ost Sig.

    Variable dependiente: N de muertes diariasa.

    y= 171,819 + 63,761x

    Ejercicio 3: Resultados de SPSS (II)Ejercicio 3: Resultados de SPSS (II)

  • BIOESTADISTICATema 4: Estadstadstica Descriptiva Bidimensionalstica Descriptiva Bidimensional

    Departamento de Epidemiologa, Medicina

    Preventiva, Anlisis crtico y Metodologa de la

    investigacin

    Universidad Catlica de Valencia San Vicente MrtirFacultad de Medicina

    ESTADSTICA APLICADAOdontologa (OD1)