Distribución de Frecuencias Bidimensionales

14
- 1 - 7. DISTRIBUCIÓN DE FRECUENCIAS BIDIMENSIONALES Este capítulo está enfocado al análisis bivariado que tiene por objeto describir de manera conjunta dos variables pertenecientes a una población o muestra. Dos variables (X, Y) está compuesta por un par de valores (x i , y i ) en los que x i son valores de la variable X e y i son valores de la variable Y. Con mayor frecuencia todo análisis Estadístico relaciona dos o más variables enfrentándose a lo siguiente: ¿Cómo están distribuidos de manera conjunta el nivel de ingresos con el nivel de gastos? ¿Cómo saber si existe covarianza entre los siguientes pares de variables: los impuestos y la renta, los benéficos empresariales y el volumen de ventas, los salarios y la cualificación profesional? ¿Cómo saber si existe correlación entre el precio y la producción de un bien, los gastos en publicidad y sus beneficios por ventas, los costos y el número de empleados? ¿Cómo saber se existe correlación entre el nivel de gastos y la edad y además con el estado civil? ¿Qué relación existe entre el ingreso familiar e interés de los alumnos por seguir estudios universitarios? ¿Existe relación entre el tiempo dedicado al estudio, ya sea individual o colectivo, y el aprovechamiento logrado por los alumnos en cada una de las materias? Tan pronto como empezamos a indagar acerca de las relaciones entre las variables, nos adentramos en el campo de la correlación, covariación y regresión. Donde una de las dos variables es la variable independiente y la otra será la variable dependiente. 7.1. VARIABLES BIDIMENSIONALES 7.1.1. Diagrama de dispersión El diagrama dispersión son puntos cardinales representados por los valores de la variable X en el eje de las abscisas y los valores de la variable Y en el eje de las ordenada. Generalmente la variable X representa la variable independiente y la variable Y la variable dependiente. El punto que viene determinado por la media de X y la media de Y constituye el centroide o centro de gravedad de la nube de puntos.

description

Distribución de Frecuencias Bidimensionales

Transcript of Distribución de Frecuencias Bidimensionales

  • - 1 -

    7. DISTRIBUCIN DE FRECUENCIAS BIDIMENSIONALES

    Este captulo est enfocado al anlisis bivariado que tiene por objeto describir de manera conjunta

    dos variables pertenecientes a una poblacin o muestra. Dos variables (X, Y) est compuesta por un

    par de valores (xi , yi) en los que xi son valores de la variable X e yi son valores de la variable Y.

    Con mayor frecuencia todo anlisis Estadstico relaciona dos o ms variables enfrentndose a lo siguiente:

    Cmo estn distribuidos de manera conjunta el nivel de ingresos con el nivel de gastos?

    Cmo saber si existe covarianza entre los siguientes pares de variables: los impuestos y la renta,

    los benficos empresariales y el volumen de ventas, los salarios y la cualificacin profesional?

    Cmo saber si existe correlacin entre el precio y la produccin de un bien, los gastos en

    publicidad y sus beneficios por ventas, los costos y el nmero de empleados?

    Cmo saber se existe correlacin entre el nivel de gastos y la edad y adems con el estado civil?

    Qu relacin existe entre el ingreso familiar e inters de los alumnos por seguir estudios

    universitarios?

    Existe relacin entre el tiempo dedicado al estudio, ya sea individual o colectivo, y el

    aprovechamiento logrado por los alumnos en cada una de las materias?

    Tan pronto como empezamos a indagar acerca de las relaciones entre las variables, nos adentramos en

    el campo de la correlacin, covariacin y regresin. Donde una de las dos variables es la variable

    independiente y la otra ser la variable dependiente.

    7.1. VARIABLES BIDIMENSIONALES

    7.1.1. Diagrama de dispersin

    El diagrama dispersin son puntos cardinales representados por los valores de la variable X en el

    eje de las abscisas y los valores de la variable Y en el eje de las ordenada.

    Generalmente la variable X representa la variable independiente y la variable Y la variable

    dependiente. El punto que viene determinado por la media de X y la media de Y constituye el

    centroide o centro de gravedad de la nube de puntos.

  • - 2 -

    EJEMPLO 7.1. Graficar el diagrama de dispersin de las siguientes variables X = Nmero de trabajadores Y = Produccin expresado en millones de unidades

    Empresa N de Trabajadores Produccin

    1 50 10

    2 30 5

    3 60 25

    4 60 30

    5 95 50

    6 120 70

    7 72 40

    8 27 8

    9 50 25

    10 40 35

    11 53 15

    12 43 20

    0

    10

    20

    30

    40

    50

    60

    70

    80

    0 20 40 60 80 100 120 140

  • - 3 -

    7.2. TABLAS ESTADSTICAS DE DOBLE ENTRADA

    La tabla de doble entrada aplicado a variables cuantitativas se denomina tabla de correlacin a

    variables cualitativas o mixtas recibe el nombre de tabla de contingencia. El procedimiento para la

    construccin de la distribucin de frecuencias bidimensional se realiza tabulando de manera cruzada

    de variables.

    Por tanto, para la tabla de doble entrada se utiliza el siguiente formato universal de frecuencias

    absolutas conjuntas, porcentuales conjuntas y marginales, vase las tablas 7.1 y 7.2

    TABLA 7.1 DOBLE ENTRADA FRECUENCIAS ABSOLUTAS

    Var

    iab

    le X

    Variable Y

    y1 y2 yj yr fi x1 f11 f12 f1j f1r f1 x2 f21 f22 f2j f2r f2

    xi fi1 fi2 fij fir fi

    xk fk1 fk2 fkj fkr fk fj f1 f2 fj fr f= n

    TABLA 7.2 DOBLE ENTRADA FRECUENCIAS PORCENTUALES

    Var

    iab

    le X

    Variable Y

    y1 y2 yj yr pi x1 p11 p12 p1j p1r p1 x2 p21 p22 p2j p2r p2

    xi pi1 pi2 pij pir pi

    xk pk1 pk2 pkj pkr pk pj p1 p2 pj pr 100

    Tambin es posible realizar una sola tabla de doble entrada en la que contenga las frecuencias

    absolutas y porcentuales segn los requerimientos de la investigacin.

    Para el caso, los valores agrupados en intervalos, estas sern correspondidas por las marcas de

    clase o centro del intervalo. Si los valores no son numricos estarn representados por sus

    atributos, propiedades o cualidades.

  • - 4 -

    7.2.1. Frecuencia conjunta

    En la tabla 7.1 la frecuencia absoluta conjunta denotando por fij indica el nmero de veces que se

    repite el par ordenado (xi , yi) de valores de la variable (X, Y).

    En la tabla 7.2 la frecuencia porcentual conjunta denotada por pij indica el porcentaje de

    observaciones que hay en el par ordenado (xi , yi). Se obtiene dividiendo la frecuencia absoluta

    conjunta con el nmero total de observaciones y el resultado multiplicar por 100.

    La frecuencia relativa conjunta se obtiene dividiendo la frecuencia porcentual conjunta sobre

    100 e indica la proposicin de observaciones que hay en el par ordenado repite el par ordenado

    (xi , yi) y se representa por frij.

    Propiedades de la frecuencia conjunta

    Propiedad 7.1. La suma de todas las frecuencias absolutas conjuntas, extendida a

    todos los pares ordenados (xi , yi) es igual al total de las observaciones.

    Propiedad 7.2. La suma de todos los porcentajes de los pares ordenados (xi , yi) da el

    100%

    Propiedad 7.3. La suma de las frecuencias relativas conjuntas, extendida a todos los

    pares ordenados (xi , yi) es la unidad.

    7.2.2. Frecuencia marginal

    En las tablas de doble entrada 7.1 y 7.2, las ltimas filas y columnas representan las frecuencias

    marginales. La frecuencia absoluta marginal de X, denotado por fi indica el nmero de veces que

    se repite el valor xi de X, sin tener en cuenta el valor de la variable Y.

  • - 5 -

    Mientras que la frecuencia absoluta marginal de Y, indica el nmero de veces que se repite el

    valor de yi de Y, sin tener en cuenta el valor de la variable X.

    La frecuencia porcentual marginal de X, indica el porcentaje de observaciones del valor xi de X,

    sin tener en cuenta el valor de la variable Y.

    De la misma manera la frecuencia porcentual marginal de Y

    Propiedades de la frecuencia marginal

    Propiedad 7.4. La suma de las frecuencias absolutas marginales tanto de X como de

    Y, es igual al total de observaciones.

    Propiedad 7.5. La suma de las frecuencias porcentuales marginales tanto de X como

    de Y da el 100%.

    Propiedad 7.6. La suma de las frecuencias relativas marginales tanto de X como de Y

    es la unidad.

    7.2.3. Medias y varianzas marginales

    La media marginal de X

    La media marginal de Y

  • - 6 -

    La varianza marginal de X

    ( )

    [

    ]

    La varianza marginal de Y

    ( )

    [

    ]

    7.2.4. Frecuencia condicional

    Del total de observaciones de la tabla de doble entrada solo interesa analizar una fila o columna

    de datos, esta situacin condiciona la i-sima frecuencia de la variable X con respecto a la

    variable Y o viceversa. Por tanto se tiene dos maneras de condicionar las variables (X, Y).

    La variable X condicionada a Y = yj se denota por:

    Es un subconjunto de las frecuencias absolutas conjuntas fij de los valores xi de la variable X

    referente a un yi valor fijo de la variable Y. La distribucin de frecuencias absolutas de esta nueva

    distribucin es exactamente la columna j de la tabla de doble entrada.

    Donde la totalidad de las observaciones cumple:

    Es decir:

    ( ) {( ) }

    Por tanto las frecuencias porcentuales condicionadas sern:

  • - 7 -

    Llamada tambin porcentaje de columna vase la siguiente tabla:

    TABLA 7.3 FRECUENCIA CONDICIONADA X|Y=yj

    X|Y = yj fi|j pi|j

    x1 f1|j p1|j

    X1 f2|j p2|j

    Xi fi|j pi|j

    Xk fk|j pk|j

    fj 100

    Analgicamente para la variable Y condicionada a X = xi se denota por:

    La distribucin de frecuencias absolutas de esta nueva distribucin es la fila i de la tabla de doble

    entrada:

    Donde la totalidad de observaciones se cumple:

    Es decir:

    ( ) {( ) }

    Por tanto las frecuencias porcentuales condicionadas sern:

    TABLA 7.4 FRECUENCIA CONDICIONADA Y|X=xi

    X|Y = xi y1 y2 yi yk

    fj|i f1|i f2|i fj|i fr|i fi

    pj|i p1|i p2|i pj|i pr|i 100

  • - 8 -

    7.2.5. Medias y varianzas condicionales

    La media de la variable X condicionada a Y=yj est dado por

    La media de la variable Y condicionada a X=xi est dado por

    La varianza de la variable X condicionada a Y=yj est dado por

    ( )

    La varianza de la variable Y condicionada a X=xi est dado por

    ( )

    7.2.6. Independencia estadstica

    En la tabla de doble entrada, dos variables estadsticas X e Y son independientes si la frecuencia

    relativa conjunta es igual al producto de las frecuencias relativas marginales.

    ( )

    En trminos de frecuencia conjunta se tiene:

    Despejando fij:

    Para X|Y = yj

    Es lo mismo:

    Es decir las filas de frecuencias relativas condicionadas coinciden entre s, y a su vez con las

    frecuencias relativas de la marginal de Y.

  • - 9 -

    Para Y|X = yi

    Es lo mismo:

    Es decir las filas de frecuencias relativas condicionadas coinciden entre s, y a su vez con las

    frecuencias relativas de la marginal de Y.

    EJEMPLO 7.2. En la fbrica se registran los siguientes datos:

    Obrero X Y Obrero X Y Obrero X Y

    1 4 1 22 2 4 43 1 2

    2 5 2 23 3 1 44 4 1

    3 1 4 24 4 2 45 4 2

    4 1 1 25 2 4 46 2 3

    5 3 2 26 2 3 47 2 2

    6 1 2 27 2 2 48 1 3

    7 5 1 28 1 3 49 1 2

    8 4 3 29 1 2 50 2 2

    9 3 1 30 3 1 51 2 2

    10 1 2 31 3 4 52 4 1

    11 1 3 32 3 3 53 1 2

    12 1 2 33 2 3 54 1 3

    13 4 1 34 2 1 55 5 1

    14 3 2 35 1 4 56 5 2

    15 1 3 36 1 4 57 3 2

    16 5 1 37 3 2 58 3 1

    17 1 3 38 5 1 59 4 2

    18 2 1 39 5 2 60 2 3

    19 3 2 40 1 3 61 2 2

    20 2 2 41 1 2 62 4 1

    21 2 1 42 1 2

    Dnde: X = Aos de antigedad del obrero de la fabrica y = Cantidad de artculos defectuosas que elabora el obrero

    Construir: a. La tabla de frecuencia de doble entrada b. La distribucin marginal de X e Y

    c. La distribucin condicionada X|Y =3 e Y|X=2

  • - 10 -

    a.

    a.1. Tabla de doble entrada de frecuencias absolutas

    Artculos defectuosos 1 2 3 4

    Antigedad

    1 1 9 7 3 20 2 3 6 4 2 15 3 4 5 1 1 11 4 5 3 1 0 9 5 4 3 0 0 7

    17 26 13 6 n=62

    a.2. Tabla de doble entrada de frecuencias porcentuales

    Artculos defectuosos 1 2 3 4

    Antigedad

    1 2 14 11 5 32 2 5 10 6 3 24 3 6 8 2 2 18 4 8 5 2 0 15 5 6 5 0 0 11

    27 42 21 10 100 b.

    b.1. Distribucin marginal de X

    fi pi

    Antigedad

    1 20 32 2 15 24 3 11 18 4 9 15 5 7 11

    62 100 Interpretacin:

    p1=32, indica que el 32% delos obreros tienen una antigedad de 1 aos en la fbrica

    y equivale a 20 obreros de los 62.

    p2=24, indica que el 24% delos obreros tienen una antigedad de 2 aos en la fbrica

    y equivale a 15 obreros de los 62.

    p3=18, indica que el 18% delos obreros tienen una antigedad de 3 aos en la fbrica

    y equivale a 11 obreros de los 62.

    p4=15, indica que el 15% delos obreros tienen una antigedad de 4 aos en la fbrica

    y equivale a 9 obreros de los 62.

    p5=11, indica que el 11% delos obreros tienen una antigedad de 5 aos en la fbrica

    y equivale a 7 obreros de los 62.

  • - 11 -

    b.2. Distribucin marginal de Y

    fj pj

    Artculos defectuosos

    1 17 27 2 26 42 3 13 21

    4 6 10

    62 100 Interpretacin

    f1 =17, indica que 17 obreros elaboran 1 artculos defectuosos y corresponde a p1 =27%

    f2 =26, indica que 26 obreros elaboran 2 artculos defectuosos y corresponde a p2 =42%

    f3 =13, indica que 13 obreros elaboran 3 artculos defectuosos y corresponde a p3

    =21%

    f4 =6, indica que 6 obreros elaboran 4 artculos defectuosos y corresponde a p4

    =10%

    c.

    c.1. Frecuencia condicionada X|Y=3

    Artculos defectuosos X|Y=3 f 3|i p 3|1

    Antigedad

    1 7

    2 4

    3 1

    4 1

    5 0

    f3 = 13 100,0 Interpretacin:

    p1|3=53,8; indica que del grupo de obreros que elaboran exclusivamente 3 artculos

    defectuosos, el 53,8% de ellos tienen un ao de antigedad.

    p2|3=30,8; indica que del grupo de obreros que elaboran exclusivamente 3 artculos

    defectuosos, el 30,8% de ellos tienen 2 aos de antigedad.

    p3|3=7,7; indica que del grupo de obreros que elaboran exclusivamente 3 artculos

    defectuosos, el 7,7% de ellos tienen 3 aos de antigedad.

  • - 12 -

    p4|3=7,7; indica que del grupo de obreros que elaboran exclusivamente 3 artculos

    defectuosos, el 7,7% de ellos tienen 4 aos de antigedad.

    p5|3=0; indica que del grupo de obreros que elaboran exclusivamente 3 artculos

    defectuosos, ninguno de ellos tienen 5 aos de antigedad.

    c.2. Frecuencia condicionada Y|X=2

    Artculos defectuosos Y|X=2 f j|2 p 3|1

    Antigedad

    1 3

    2 6

    3 4

    4 2

    f2 = 15 100,0 Interpretacin:

    p1|2=20,0; indica que del grupo de obreros con 2 aos de antigedad el 20%elaboran

    un artculo defectuoso.

    p2|2=40,0; indica que del grupo de obreros con 2 aos de antigedad el 20%elaboran

    2 artculos defectuosos.

    p3|2=26,7; indica que del grupo de obreros con 2 aos de antigedad el 20%elaboran

    3 artculos defectuosos.

    p4|2=13,3; indica que del grupo de obreros con 2 aos de antigedad el 20%elaboran

    4 artculos defectuosos.

    7.3. GRFICOS PARA LAS TABLAS DE DOBLE ENTRADA

    7.3.1. Grfico de barras en 3D

    En el plano cartesiano para cada punto (xi , yi) se levantan paraleleppedos rectangulares cuyas

    alturas son proporcionales a sus frecuencias conjuntas correspondientes. Si todas las frecuencias

    fueran unitarias, entonces habra que recurrir a un diagrama de dispersin.

    Artculos defectuosos 1 2 3 4

    Antigedad

    1 1 9 7 3 2 3 6 4 2 3 4 5 1 1 4 5 3 1 0 5 4 3 0 0

  • - 13 -

    En base a la tabla anterior del EJEMPLO 7.2 se elabor la grfica siguiente:

    7.3.2. Grfico de barras mltiples

    En base a los valores de la variable X, consiste en levantar barras agrupadas en funcin a los

    valores de la variable Y. Estas barras pueden ser horizontales o verticales proporcional a sus

    frecuencias absolutas o porcentuales.

    hombres Mujeres

    Moroso 15 35

    No moroso 55 45

    Con los datos de la tabla se construy la grfica:

    4

    3

    2

    10

    2

    4

    6

    8

    10

    12

    34

    5

    Articulos defectuosos

    Fre

    cue

    nci

    as

    Antigedad

    0

    10

    20

    30

    40

    50

    60

    Hombres Mujeres

    Fre

    cue

    nci

    as

    Moroso

    No moroso

  • - 14 -

    7.3.3. Grfico de barras apiladas

    En base a los atributos de la variable X, consiste en levantar barras apiladas proporcional a la

    frecuencia conjunta de los atributos de la variable Y. La suma de cada barra apilada representa a

    la frecuencia marginal.

    hombres Mujeres

    Moroso 15 35

    No moroso 55 45

    Total 70 80

    BIBLIOGRAFIA

    [1] CORIA D. (2012) Anlisis de datos estadsticos. 1ra edicin, Bolivia.

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    Hombres Mujeres

    Fre

    cue

    nci

    as

    No moroso

    Moroso