Curso de Estadística Básica

44
Estadística Básica Curso de Estadística Básica MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez SESION 6 ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS DE DOS VARIABLES

description

Curso de Estadística Básica. SESION 6 ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS DE DOS VARIABLES. MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez. Objetivo. - PowerPoint PPT Presentation

Transcript of Curso de Estadística Básica

Page 1: Curso de Estadística Básica

Estadística Básica

Curso de Estadística Básica

MCC. Manuel Uribe SaldañaMCC. José Gonzalo Lugo Pérez

SESION 6ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS

DE DOS VARIABLES

Page 2: Curso de Estadística Básica

Estadística Básica

Objetivo

Representar datos de dos variables de forma tabular y gráfica. Comprender la distinción entre los propósitos básicos del análisis de correlación y regresión lineal. (Sesión 6 y 7)

Page 3: Curso de Estadística Básica

Estadística Básica

Agenda Sesión 6

• Datos de dos variables

• Correlación lineal (Sesión 6)

• Regresión lineal (Sesión 7)

• Evaluación (Sesión 7)

Page 4: Curso de Estadística Básica

Estadística Básica

Casos

• A medida que una persona crece, por lo general aumenta de peso. Alguien podría preguntar, “¿existe alguna relación entre la estatura y el peso?”

• Médicos dedicados a la investigación, prueban fármacos nuevos y obsoletos prescribiendo dosis diferentes en pacientes y observando sus respuestas. Una de las preguntas podría ser, “¿la dosis del medicamento prescrito determina la cantidad de tiempo de recuperación que necesita el paciente?”

Page 5: Curso de Estadística Básica

Estadística Básica

Datos de dos variables

Estos datos constan de los valores de dos variables respuesta diferentes que se obtienen del mismo elemento de la población. Cada una puede ser cualitativa o cuantitativa. Como resultado, los datos bivariados pueden formarse mediante tres combinaciones de variable:

1. Ambas variables son cualitativas (de atributo)

2. Una variable es cualitativa y otra cuantitativa (numérica)

3. Ambas variables son cuantitativas

Page 6: Curso de Estadística Básica

Estadística Básica

Dos variables cualitativas

Cuando los datos bivariados resultan de dos variables cualitativas, los datos se disponen en una tabla cruzada o de contingencia.

Filosofía y LetrasAdministración de

EmpresasTecnología Totales por renglón

Masculino 5 6 7 18Femenino 5 5 2 12Totales por columna 10 11 9 30

Especialización

Género

Page 7: Curso de Estadística Básica

Estadística Básica

Ejemplo

Treinta estudiantes de una Universidad fueron identificados y clasificados aleatoriamente según dos variables:

• Género (M/F)• Especialización (Filosofía y Letras,

Administración de Empresas, Tecnología)

A continuación se muestran los datos en la tabla:

Page 8: Curso de Estadística Básica

Estadística Básica

Nombre Género Especialización Nombre Género Especialización

Adams M FyL Kee M AEArgento F AE Kleeberg M FyLBaker M FyL Light M FyL

Bennet F FyL Linton F FyLBrock M AE Lopez M TBrand M T McGowan M AEChun F FyL Mowers F AECrain M T Ornt M T

Cross F FyL Palmer F AEEllis F FyL Pullen M TFeeney M T Rattan M AE

Flanigau M AE Sherman F AEHodge F AE Small F THolmes M T Tate M AEJopson F T Yamamoto M FyL

Page 9: Curso de Estadística Básica

Estadística Básica

Tabla cruzada

Estos datos pueden resumirse en una tabla cruzada o de contingencia de 2 x 3 donde se presenta la frecuencia para cada categoría cruzada de las dos variables junto con los totales por renglón y por columna denominados totales marginales (o marginales). El total de los totales marginales es el gran total y es igual a n, el tamaño de la muestra.

Page 10: Curso de Estadística Básica

Estadística Básica

Filosofía y LetrasAdministración de

EmpresasTecnología Totales por renglón

Masculino 5 6 7 18Femenino 5 5 2 12Totales por columna 10 11 9 30

Especialización

Género

Tabla cruzada

Page 11: Curso de Estadística Básica

Estadística Básica

Frecuencias relativas

Las tablas de contingencia a menudo presentan porcentajes (frecuencias relativas). Estos porcentajes pueden estar basados en toda la muestra o en las clasificaciones de la submuestra (renglones o columnas).

Page 12: Curso de Estadística Básica

Estadística Básica

Porcentajes basados en el gran total (toda la muestra)

La tabla de contingencia puede convertirse fácilmente en porcentajes del gran total, al dividir cada frecuencia entre el gran total y multiplicar por 100 el resultado.

Filosofía y LetrasAdministración de

EmpresasTecnología Totales por renglón

Masculino 17% 20% 23% 60%Femenino 17% 17% 7% 40%Totales por columna 33% 37% 30% 100%

Especialización

Género

Page 13: Curso de Estadística Básica

Estadística Básica

Porcentajes basados en el gran total

Con la tabla de contingencia expresada en porcentajes puede verse fácilmente que el 60% de la muestra son hombres, 40% mujeres, 30% están especializándose en tecnología, etc.

0%

5%

10%

15%

20%

25%

Filosofía y Letras Administración de Empresas

Tecnología

Porcentajes basados en el gran total

Masculino

Femenino

Page 14: Curso de Estadística Básica

Estadística Básica

Porcentajes basados en los totales por renglón

Los elementos de la misma tabla de contingencia pueden expresarse como porcentajes de los totales por renglón (o género), al dividir cada elemento del renglón entre el total de éste y multiplicar por 100 el resultado.

Filosofía y LetrasAdministración de

EmpresasTecnología Totales por renglón

Masculino 28% 33% 39% 100%Femenino 42% 42% 17% 100%Totales por columna 33% 37% 30% 100%

Especialización

Género

Page 15: Curso de Estadística Básica

Estadística Básica

Porcentajes basados en los totales por renglón

En la tabla anterior se observa que el 28% de los hombres están especializándose en Filosofía y Letras, mientras que el 42% de las mujeres están especializándose en la misma área.

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

Masculino Femenino

Porcentajes basados en el género

Filosofía y Letras

Administración de Empresas

Tecnología

Page 16: Curso de Estadística Básica

Estadística Básica

Porcentajes basados en los totales por columna

Los elementos de la tabla de contingencia también pueden expresarse como porcentajes de los totales por columna (o especialización), al dividir cada elemento de la columna entre el total de ésta y multiplicar por 100 el resultado.

Filosofía y LetrasAdministración de

EmpresasTecnología Totales por renglón

Masculino 50% 55% 78% 60%Femenino 50% 45% 22% 40%Totales por columna 100% 100% 100% 100%

Especialización

Género

Page 17: Curso de Estadística Básica

Estadística Básica

Porcentajes basados en los totales por columna

Con base en la tabla anterior, se observa que de todos los estudiantes de Filosofía y Letras, la mitad son hombres y la otra mitad son mujeres.

0%10%20%30%40%50%60%70%80%90%

Filosofía y Letras Administración de Empresas

Tecnología

Porcentajes basados en la especialización

Masculino

Femenino

Page 18: Curso de Estadística Básica

Estadística Básica

Una variable cualitativa y otra cuantitativa

Cuando los datos bivariados se obtienen de una variable cuantitativa y otra cualitativa, los valores cuantitativos se consideran como muestras ajenas, cada una identificada por niveles de la variable cualitativa. Se aplica la estadística descriptiva vista en sesiones anteriores como, la media, varianza, desviación estándar, Q1, mediana, Q3, etc., y los resultados se presentan uno junto al otro para efectos de comparación.

Page 19: Curso de Estadística Básica

Estadística Básica

Ejemplo

Para comparar la capacidad de frenado de tres diseños de bandas de rodamiento, se midió la distancia necesaria para detener un automóvil de 3000 libras que se desplazaba sobre pavimento húmedo. Los neumáticos de cada diseño fueron probados en el mismo vehículo que circulaba sobre un pavimento húmedo controlado.

37 36 33 35 40 39

34 40 34 42 41 41

38 32 38 34 40 43

Diseño A Diseño B Diseño Cn=6 n=6 n=6

Page 20: Curso de Estadística Básica

Estadística Básica

Nota

El diseño de la banda de rodamiento es una variable cualitativa con tres niveles de respuesta y la distancia de frenado es una variable cuantitativa. La distribución de las distancias de frenado del diseño A, de la banda de rodamiento, debe compararse con las distribuciones de las distancias de frenado de cada uno de los diseños de la banda. Esta comparación puede efectuarse aplicando técnicas numéricas y gráficas.

Page 21: Curso de Estadística Básica

Estadística Básica

Resumen de cinco puntos para cada diseño

Diseño A Diseño B Diseño C

Máximo 40 42 43

Q3 37.8 37.3 41

Mediana 36.5 34.5 40.5Q1 34.5 34 40Mínimo 32 33 39Media 36.2 36.0 40.7Desviación estándar 2.9 3.4 1.4

Page 22: Curso de Estadística Básica

Estadística Básica

Dos variables cuantitativas

Cuando los datos bivariados son resultado de dos variables cuantitativas, los datos matemáticos suelen expresarse como pares ordenados (x, y), donde x es la variable de entrada (variable independiente) y y es la variable de salida (variable dependiente).

En los problemas en que intervienen dos variables cuantitativas, los datos de la muestra se presentan gráficamente en un diagrama de dispersión

Page 23: Curso de Estadística Básica

Estadística Básica

Diagrama de dispersión

Es la gráfica de todos los pares ordenados de datos de dos variables que están en un sistema de ejes coordenados . La variable de entrada, x, se grafica en el eje horizontal y la variable de salida, y, se grafica en el eje vertical.

Page 24: Curso de Estadística Básica

Estadística Básica

Ejemplo

En la clase de educación física del señor Torres, se tomaron varios puntajes de condición física. La muestra siguiente es el número de “lagartijas” y “sentadillas” realizadas por 10 estudiantes elegidos aleatoriamente:

En la siguiente tabla se presentan estos datos muestrales y un diagrama de dispersión de los datos

(27,30) (22,26) (15,25) (35,42) (30,38)(52,40) (35,32) (55,54) (40,50) (40,43)

Page 25: Curso de Estadística Básica

Estadística Básica

1 2 3 4 5 6 7 8 9 10Lagartijas (x) 27 22 15 35 30 52 35 55 40 40Sentadillas (y) 30 26 25 42 38 40 32 54 50 43

Estudiante

25

35

45

55

15 25 35 45 55

Sent

adill

as

Lagartijas

Clase de educación física del señor Torres

Page 26: Curso de Estadística Básica

Estadística Básica

Correlación Lineal

El objetivo primordial del análisis de correlación lineal es medir la intensidad de una relación lineal entre dos variables. Se aplica en datos cuantitativos que muestran diferentes relaciones entre variables independientes o de entrada, x, y variables dependientes o de salida, y. Si a medida que crece x no hay un cambio definido en los valores de y, se dice que no hay correlación o relación entre x y y. Si a medida que crece x, hay un cambio en los valores de y, existe una correlación. La correlación es positiva cuando y tiende a crecer, y es negativa cuando y tiende a decrecer. Si los pares ordenados (x, y) tienden a seguir un patrón de línea recta, se tiene una correlación lineal. La precisión del cambio en y cuando crece x, determina la intensidad de la correlación lineal.

Page 27: Curso de Estadística Básica

Estadística Básica

Page 28: Curso de Estadística Básica

Estadística Básica

Coeficiente de correlación lineal

El coeficiente de correlación lineal r, es la medida numérica de la intensidad de la relación lineal entre dos variables. El coeficiente refleja la consistencia del efecto que el cambio en una variable tiene sobre la otra. Este valor ayuda a responder a la pregunta ¿Existe una correlación lineal entre las dos variables en consideración? El coeficiente de correlación lineal, r, siempre tiene un valor entre -1 y +1. Un valor de +1 significa una correlación positiva perfecta, y un valor de -1 indica una correlación negativa perfecta.

Page 29: Curso de Estadística Básica

Estadística Básica

Cálculo de r

El valor de r está definido por la fórmula producto momento de Pearson:

yxssn

yyxxr

)1(

))((

yx ss ,

Donde:

Son las desviaciones estándar de las variables x y y

Page 30: Curso de Estadística Básica

Estadística Básica

Cálculo de r

El valor de r se puede calcular con una fórmula alternativa equivalente al momento de Pearson como:

)_____)(_____(

_____

ydecuadradoslosdesumaxdecuadradoslosdesuma

xydecuadradoslosdesumar

)()(

)(

ySCxSC

xySCr

n

xxxSC

2

2)(

n

yyySC

2

2)( n

yxxyxySC )(

Donde:

Page 31: Curso de Estadística Básica

Estadística Básica

Ejemplo

Encuentre el coeficiente de correlación lineal para los datos de “lagartijas” y “sentadillas” mostrados anteriormente.

Solución:

Primero, es necesario, elaborar una tabla de extensiones enumerando todos los pares de valores (x, y) para poder encontrar las extensiones x2, xy y y2, así como los totales en cada una de las cinco columnas.

Page 32: Curso de Estadística Básica

Estadística Básica

Tabla de extensiones

Estudiante Lagartijas (x) x2 Sentadillas (y) y2 xy1 27 729 30 900 8102 22 484 26 676 5723 15 225 25 625 3754 35 1225 42 1764 14705 30 900 38 1444 11406 52 2704 40 1600 20807 35 1225 32 1024 11208 55 3025 54 2916 29709 40 1600 50 2500 200010 40 1600 43 1849 1720

Sumatoria 351 13717 380 15298 14257

Page 33: Curso de Estadística Básica

Estadística Básica

Cálculos

A continuación se realizan los preliminares, sustituyendo las cinco sumatorias de la tabla de extensiones en sus correspondientes fórmulas:

9.1396

10)351(

137172

)(2

2

n

xxxSC

0.858

10)380(

152982

)(2

2

n

yyySC

0.91910

)380)(351(14257)(

n

yxxyxySC

Page 34: Curso de Estadística Básica

Estadística Básica

Cálculo de r

Finalmente se sustituyen las tres sumas de cuadrados en el cálculo de r y se obtiene el valor del coeficiente de correlación.

84.08394.0)0.858)(9.1396(

0.919

)()(

)( ySCxSC

xySCr

Nota: El valor de r suele redondearse a la centésima más próxima

Page 35: Curso de Estadística Básica

Estadística Básica

Conclusión

El valor del coeficiente de correlación lineal calculado ayuda a responder a la pregunta: “¿existe una correlación lineal entre las dos variables en consideración?”. Cuando el valor calculado de r está próximo a cero, se concluye que hay poca correlación lineal o que no hay correlación lineal. A medida que el valor calculado de r cambia de 0 a +1 ó -1, indica una correlación lineal cada vez más fuerte entre las dos variables.

Desde el punto de vista gráfico, al calcular r, se mide qué tan bien una recta describe el diagrama de dispersión de los pares ordenados. Cuando el valor de r cambia de 0 a +1 ó -1, los puntos de datos que crean un patrón se acercan más a una recta.

Page 36: Curso de Estadística Básica

Estadística Básica

Estimación visual del coeficiente de correlación lineal

El siguiente método para estimar r es rápido y en general produce un estimado razonable cuando la “ventana de datos” es aproximadamente cuadrada.

Procedimiento1. Coloque dos lápices sobre su diagrama de dispersión.

Manténgalos paralelos y muévalos de modo que estén lo más cerca posible, de modo que todos los puntos del diagrama de dispersión están entre ellos.

2. Visualice una región rectangular acotada por los dos lápices y que termina de manera justa en los puntos extremos del diagrama de dispersión.

Page 37: Curso de Estadística Básica

Estadística Básica

Ventana de datos

Page 38: Curso de Estadística Básica

Estadística Básica

Estimación visual del coeficiente de correlación lineal

3. Estime cuántas veces más largo que ancho es el rectángulo. Una forma fácil de hacerlo es marcar mentalmente cuadrados en el rectángulo. Denomine k a este número de múltiplos.

k=2.5

Page 39: Curso de Estadística Básica

Estadística Básica

Estimación visual del coeficiente de correlación lineal

4. El valor de r puede estimarse como:

5. El signo de r se determina por la posición general del largo de la región rectangular. Si el largo está en posición creciente, r es positivo; si está en posición decreciente, r es negativo. Si el rectángulo está en posición horizontal o vertical, entonces r es cero, sin importar la razón del largo al ancho.

k1

1

Page 40: Curso de Estadística Básica

Estadística Básica

Estimación de r para la relación entre el número de lagartijas y sentadillas

25

35

45

55

15 25 35 45 55

Sent

adill

as

Lagartijas

Clase de educación física del señor Torres

k=4

Page 41: Curso de Estadística Básica

Estadística Básica

Cálculo de r

75.0)41

1( r

Page 42: Curso de Estadística Básica

Estadística Básica

Coeficientes de correlación lineal

Page 43: Curso de Estadística Básica

Estadística Básica

Problema

Suponga que la compañía Trigos Excelentes, S.A. le haya pedido a varios de sus representantes regionales trabajar tiempo extra para incrementar las ventas. Usted no está convencido de que el tiempo extra sea necesario, ni que las horas extras estén correlacionadas con el incremento de ventas. La siguiente tabla de datos muestra el número de horas mensuales que los representantes trabajaban anteriormente junto con el promedio de ventas. La tabla de datos también muestra el incremento de horas y las nuevas ventas. Compare el incremento de horas con el incremento de ventas para determinar si están correlacionados.

Page 44: Curso de Estadística Básica

Estadística Básica

Problema