Introducción a la Estadística. Tema 4

38
TEMA 4 ANÁLISIS DE CORRELACIÓN Y DE REGRESIÓN LINEALES

description

Introducción al análisis de correlación y al análisis de regresión lineal simple. Se presentan los conceptos de covarianza, correlación y de recta de regresión

Transcript of Introducción a la Estadística. Tema 4

Page 1: Introducción a la Estadística. Tema 4

TEMA 4

ANÁLISIS DE CORRELACIÓN Y DE REGRESIÓN LINEALES

Page 2: Introducción a la Estadística. Tema 4

JGM. 03/09/04

ÍNDICE DEL TEMA 4

INTRODUCCIÓN ANÁLISIS DE CORRELACIÓN LINEAL

Objetivos El diagrama de dispersión El coeficiente de correlación La covarianza

ANÁLISIS DE REGRESIÓN LINEAL Objetivos El criterio de mínimos cuadrados Análisis de la variación total El coeficiente de determinación Predicción con la recta de regresión

Page 3: Introducción a la Estadística. Tema 4

JGM. 03/09/04

INTRODUCCIÓN

El análisis de correlación lineal (ACL) y el análisis de regresión lineal (ARL) forman la pareja de técnicas más “populares” para estudiar la existencia de una relación lineal entre dos variables de naturaleza cuantitativa.

Sus objetivos, aunque complementarios, son diferentes.

Page 4: Introducción a la Estadística. Tema 4

JGM. 03/09/04

INTRODUCCIÓN (II)

El ACL estudia la intensidad y la dirección de la relación lineal entre dos variables de naturaleza cuantitativa. ¿En qué medida y dirección están relacionados de modo lineal el gasto en publicidad y las ventas de una empresa?

El ARL ayuda en la predicción de los valores de una variable cuantitativa (llamada dependiente) cuando se conoce el valor de otra variable cuantitativa (llamada independiente) con la que tiene una relación de tipo lineal. ¿Cuánto venderá una empresa que gasta 83.000 euros en publicidad?

Page 5: Introducción a la Estadística. Tema 4

JGM. 03/09/04

ANÁLISIS DE CORRELACIÓN

El análisis de correlación lineal estudia la intensidad y la dirección de la asociación lineal entre dos variables de naturaleza cuantitativa.¿Existe una relación lineal entre el coeficiente intelectual de una persona y sus ingresos?

Page 6: Introducción a la Estadística. Tema 4

JGM. 03/09/04

ANÁLISIS DE CORRELACIÓN (II)

El proceso para determinar el grado de relación lineal se puede resumir en los siguientes pasos: Elaboración del diagrama de dispersión. Inspección del diagrama en busca de una

relación lineal. Cálculo de la covarianza entre las dos

variables Cálculo de las desviaciones estándar Cálculo del coeficiente de correlación

Page 7: Introducción a la Estadística. Tema 4

JGM. 03/09/04

DIAGRAMA DE DISPERSIÓN

Consiste en la representación en ejes de coordenadas de los puntos correspondientes a los pares de valores de cada individuo.Es indiferente qué variable representemos en abscisas y qué variable en ordenadas. En el análisis de correlación se da una simetría entre las dos variables. No cabe hablar, por tanto, de variable dependiente o independiente.

Page 8: Introducción a la Estadística. Tema 4

JGM. 03/09/04

DIAGRAMA DE DISPERSIÓN (II)

Diagrama de dispersión

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30

PUBLICIDAD

VEN

TA

S

Diagrama de dispersión

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30

PUBLICIDAD

VEN

TA

S

Page 9: Introducción a la Estadística. Tema 4

JGM. 03/09/04

INSPECCIÓN DEL DIAGRAMA

La relación entre dos variables cuantitativas puede ser de naturaleza no lineal, por ejemplo cuadrática, cúbica, logarítmica, etcétera.

El análisis de correlación lineal sólo debe aplicarse cuando de la inspección del diagrama de dispersión se pueda deducir la existencia de una relación lineal.

En caso contrario habrá que proceder a transformaciones en las variables.

Page 10: Introducción a la Estadística. Tema 4

JGM. 03/09/04

CÁLCULO DE LA COVARIANZA

La covarianza es una medida del grado en que dos variables cuantitativas evolucionan paralelamente. Si cuando la primera variable toma valores altos la segunda

también lo hace y cuando la primera toma valores bajos la segunda también lo hace, tendremos una covarianza positiva.

Si cuando la primera variable toma valores altos la segunda toma valores bajos y cuando la primera toma valores bajos la segunda toma valores altos, tendremos una covarianza negativa.

Si cuando la primera variable toma valores altos la segunda toma valores tanto altos como bajos y lo mismo ocurre cuando la primera variable toma valores bajos, tendremos una covarianza cercana a cero.

Page 11: Introducción a la Estadística. Tema 4

JGM. 03/09/04

CÁLCULO DE LA COVARIANZA (II)

N

YXN

iYiXi

XY

1

Page 12: Introducción a la Estadística. Tema 4

JGM. 03/09/04

CÁLCULO DE LA COVARIANZA (III)

Problemas de la covarianza: Unidades: ¿en qué unidades está

medida? No está acotada: Puede tomar

cualquier valor real.¡Qué bien! Tengo una covarianza de 617.514 euros al cuadrado

entre ventas y publicidad.

Page 13: Introducción a la Estadística. Tema 4

JGM. 03/09/04

EL COEFICIENTE DE CORRELACIÓN

Surge ante los problemas que plantea la covarianza.

Se designa con la letra griega ( )Ventajas:

Carece de unidades Está acotado

11

Page 14: Introducción a la Estadística. Tema 4

JGM. 03/09/04

EL COEFICIENTE DE CORRELACIÓN (II)

YX

XY

Page 15: Introducción a la Estadística. Tema 4

JGM. 03/09/04

EL COEFICIENTE DE CORRELACIÓN (III)

Si el coeficiente de correlación vale -1 estamos ante una relación lineal perfecta e inversa entre las dos variables.

Diagrama de dispersión

0

10

20

30

40

50

60

70

80

0 5 10 15 20

X

Y

¡Cuidado!: la pendienteno es necesariamente -1

Page 16: Introducción a la Estadística. Tema 4

JGM. 03/09/04

EL COEFICIENTE DE CORRELACIÓN (IV)

Si el coeficiente de correlación vale +1 estamos ante una relación lineal perfecta y directa entre las dos variables.

Diagrama de dispersión

0

10

20

30

40

50

60

70

80

90

0 5 10 15 20

X

Y

¡Cuidado!: la pendienteno es necesariamente +1

Page 17: Introducción a la Estadística. Tema 4

JGM. 03/09/04

EL COEFICIENTE DE CORRELACIÓN (V)

Si el coeficiente de correlación vale 0 no existe relación lineal entre las dos variables.

Diagrama de dispersión

0

2

4

6

8

10

12

0 5 10 15

X

Y

Page 18: Introducción a la Estadística. Tema 4

JGM. 03/09/04

EL COEFICIENTE DE CORRELACIÓN (VI)

Los valores extremos (0, -1 y +1) son fácilmente interpretables pero ¿cómo de grande (en valor absoluto) debe ser el coeficiente de correlación para poder afirmar que existe una relación lineal entre dos variables cuantitativas?

Depende: De la situación exploratoria o concluyente Del tipo de variables estudiado

Page 19: Introducción a la Estadística. Tema 4

JGM. 03/09/04

ANÁLISIS DE REGRESIÓN

El ARL es una herramienta que persigue ayudar en la predicción de los valores de una variable cuantitativa supuestos conocidos los valores de otra variable cuantitativa con la que la primera tiene una relación de tipo lineal.

Page 20: Introducción a la Estadística. Tema 4

JGM. 03/09/04

PREDICCIÓN

En situación de incertidumbre: No podemos asignar una distribución de probabilidad a los distintos estados de naturaleza. Si queremos predecir la única estrategia posible es generar un número aleatorio.

En situación de riesgo: No sabemos cuál es el estado de naturaleza pero al menos somos capaces de asignar una distribución de probabilidad a los distintos estados posibles. En este caso, nuestra mejor predicción vendrá dada por la media de la distribución de probabilidad

Page 21: Introducción a la Estadística. Tema 4

JGM. 03/09/04

PREDICCIÓN (II)

“¿Cuánto pesa un ente?” exige una estimación en situación de incertidumbre. No sabemos qué es un ente y, en consecuencia, no tenemos ninguna idea de cuánto puede pesar.

Digamos que...mmm...¿32 miligramos?

Page 22: Introducción a la Estadística. Tema 4

JGM. 03/09/04

PREDICCIÓN (III)

“¿Cuánto pesa un ser humano?” supone una estimación en situación de riesgo. Al menos sabemos que los seres humanos pesan alrededor de 75 kgrs. con una cierta dispersión alrededor de este valor.

La media son 75 kilos.Creo que lo más acertado es

que diga 75 kilos

Page 23: Introducción a la Estadística. Tema 4

JGM. 03/09/04

PREDICCIÓN (IV)

En situación de riesgo es muy razonable pedir más información, cuyo objetivo no es otro que reducir la dispersión. En una población con dispersión cero (esto es, en la que

todos los individuos son iguales) la media sería una estimación perfecta en todos los casos.

En una población muy heterogénea (con gran varianza) la estimación basada en la media llevaría implícito un elevado riesgo de error.

Esa información adicional puede venir dada por preguntas como: ¿Es un hombre o una mujer? ¿Cuánto mide?

Page 24: Introducción a la Estadística. Tema 4

JGM. 03/09/04

PREDICCIÓN (V)

Preguntamos si es hombre o mujer porque sospechamos que dentro de cada género la variabilidad en el peso es menor que en el conjunto de seres humanos.

Preguntamos cuánto mide porque entre los seres humanos que tienen una determinada altura la variabilidad en el peso es menor que en el conjunto, o sea, porque sospechamos o sabemos que existe una relación (a lo mejor de tipo lineal) entre la altura y el peso de los seres humanos y vamos a aprovechar la existencia de esa relación para que, conociendo la altura, seamos capaces de estimar el peso con un riesgo menor.

TRATAMOS DE REDUCIR VARIABILIDAD

Page 25: Introducción a la Estadística. Tema 4

JGM. 03/09/04

DIAGRAMA DE DISPERSIÓN

Partimos del diagrama de dispersión (igual que en ACL), pero hemos de distinguir entre: Variable dependiente: la que

queremos predecir. Variable independiente: la que nos

va a servir para predecir.Situaremos la variable dependiente

en ordenadas (Y) y la independiente en abscisas (X).

Page 26: Introducción a la Estadística. Tema 4

JGM. 03/09/04

RECTA DE REGRESIÓN

Sobre el diagrama de dispersión vamos a trazar la recta que “mejor” se ajuste a la nube de puntos; la recta que, en conjunto, minimice su distancia al conjunto de puntos.

El criterio empleado para definir la “mejor” recta es el de los mínimos cuadrados.

Page 27: Introducción a la Estadística. Tema 4

JGM. 03/09/04

RECTA DE REGRESIÓN (II)

La recta escogida será la que minimice la expresión:

con:

N

iii YY

1

BAXY ii ˆ

Page 28: Introducción a la Estadística. Tema 4

JGM. 03/09/04

RECTA DE REGRESIÓN (III)

N

iii YY

1

Valor observado

Valor estimadopor la recta

Page 29: Introducción a la Estadística. Tema 4

JGM. 03/09/04

RECTA DE REGRESIÓN (IV)

Diagrama de dispersión

0

5

10

15

20

25

30

35

40

0 5 10 15

X

Y

Page 30: Introducción a la Estadística. Tema 4

JGM. 03/09/04

RECTA DE REGRESIÓN (V)

Los valores de A y B vienen dados por las expresiones:

XAYB

XNX

YXNYXA N

ii

N

iii

1

22

1

Page 31: Introducción a la Estadística. Tema 4

JGM. 03/09/04

ANÁLISIS DE LA VARIACIÓN TOTAL

Si no empleáramos la recta para predecir, utilizaríamos la media y, para cada observación, cometeríamos un error...

En cambio, si empleamos la recta, para cada observación cometemos un error

YYi

ii YY ˆ

Page 32: Introducción a la Estadística. Tema 4

JGM. 03/09/04

ANÁLISIS DE LA VARIACIÓN TOTAL (II)

Para cada observación podemos hacer...

iiii YYYYYY ˆˆ

Elevando al cuadrado y sumando para todas las observaciones...

YYYYYYYYYY i

N

ii

N

iii

N

ii

N

ii

ˆˆ2ˆˆ11

2

1

2

1

2

Page 33: Introducción a la Estadística. Tema 4

JGM. 03/09/04

ANÁLISIS DE LA VARIACIÓN TOTAL (III)

El tercer sumando se hace nulo y la expresión queda...

N

iii

N

ii

N

ii YYYYYY

1

2

1

2

1

2 ˆˆ

El primer miembro es la variación total y es una medida de la variabilidad de la variable a predecir respecto a su media. ¿No se parece a algo ya visto? El segundo sumando del segundo miembro es la variación no explicada. Es lo que hemos minimizado con la recta de regresión. El primer sumando del segundo miembro es la variación explicada.

Page 34: Introducción a la Estadística. Tema 4

JGM. 03/09/04

ANÁLISIS DE LA VARIACIÓN TOTAL (IV)

En consecuencia, la recta de regresión es la que MAXIMIZA la variación explicada o lo que es lo mismo...

La recta de regresión es la que consigue eliminar una mayor proporción de la variabilidad original de la variable a predecir. Reducimos al máximo el riesgo en la predicción.

Esto era lo que estábamos buscando, ¿no?

Page 35: Introducción a la Estadística. Tema 4

JGM. 03/09/04

COEFICIENTE DE DETERMINACIÓN

A la proporción de variabilidad eliminada por la recta de regresión se le llama coeficiente de determinación (R2)

Como es una proporción, toma valores entre 0 y 1

2

2 1

2

1

ˆN

iiN

ii

Y YVE

RVT Y Y

Page 36: Introducción a la Estadística. Tema 4

JGM. 03/09/04

COEFICIENTE DE DETERMINACIÓN (II)

Coincide con el cuadrado del coeficiente de correlación. Cuando el coeficiente de correlación es +1 o -1, la

relación lineal es perfecta y la recta de regresión consigue eliminar toda la variabilidad de la variable a estimar, en consecuencia R2=1.

Cuando el coeficiente de correlación es 0, no existe relación lineal entre las variables. En consecuencia, el conocimiento de la variable independiente no ayuda a estimar la variable dependiente y la recta de regresión no consigue eliminar nada de la variación total. Así, R2=0

22 R

Page 37: Introducción a la Estadística. Tema 4

JGM. 03/09/04

¿Cómo estimo sin la recta de regresión?

ALTURA PESO175 69184 85192 93165 68174 72182 87191 102

¿Cuánto pesa un individuo?

82,28 Kg. (el peso promedio del conjunto de individuos)

¿Me equivoco?

Seguro, el riesgo en la predicciónes mayor cuanto mayor sea lavarianza del peso, que en estecaso es 145,63 Kg2

Page 38: Introducción a la Estadística. Tema 4

JGM. 03/09/04

¿Cómo estimo con la recta de regresión?

Diagrama de dispersión

y = 1,243x - 141,98R2 = 0,8634

0

20

40

60

80

100

120

160 170 180 190 200

ALTURA

PES

O

¿Cuánto pesa un individuoque mide 186 cm.?

1,243x186-141,98=89,218

¿Me equivoco?

Seguro, pero corres menos riesgo que si no conocieras su altura.De hecho, has reducido lavariabilidad del peso en un 86,34%