EJEMPLO GLOBAL DEL TEMA DE REGRESIÓN · Web view... es lo que se llama un "estimador" es decir un...

UNIDAD CENTRAL DEL VALLE

PROFESOR CARLOS IVAN RESTREPOMODELOS PROBABILISTICOS

“No hay inversión más rentable que la del conocimiento."

REGRESIÓN Y CORRELACIÓN LINEAL

1

Introducción

Como se ha expuesto en el tema anterior, cuando se estudian dos características

simultáneamente sobre una muestra, se puede considerar que una de ellas influye

sobre la otra de alguna manera. El objetivo principal de la regresión es descubrir el

modo en que se relacionan.

Por ejemplo, en una tabla de pesos y alturas de 10 personas

se puede suponer que la variable “Altura” influye sobre la variable “Peso” en el

sentido de que pesos grandes vienen explicados por valores grandes de altura (en

general).De las dos variables a estudiar, que vamos a denotar con X e Y, vamos a

llamar a la X VARIABLE INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le

llamaremos VARIABLE DEPENDIENTE o EXPLICADA.

Altura 175 180 162 157 180 173 171 168 165 165

Peso 80 82 57 63 78 65 66 67 62 58

2

En la mayoría de los casos la relación entre las variables es mutua, y es difícil

saber qué variable influye sobre la otra. En el ejemplo anterior, a una persona que

mide menos le supondremos menor altura y a una persona de poca altura le

supondremos un peso más bajo. Es decir, se puede admitir que cada variable

influye sobre la otra de forma natural y por igual. Un ejemplo más claro donde

distinguir entre variable explicativa y explicada es aquel donde se anota, de cada

alumno de una clase, su tiempo de estudio (en horas) y su nota de examen. En

este caso un pequeño tiempo de estudio tenderá a obtener una nota más baja, y

una nota buena nos indicará que tal vez el alumno ha estudiado mucho. Sin

embargo, a la hora de determinar qué variable explica a la otra, está claro que el

“tiempo de estudio” explica la “nota de examen” y no al contrario, pues el alumno

primero estudia un tiempo que puede decidir libremente, y luego obtiene una nota

que ya no decide arbitrariamente. Por tanto, X = Tiempo de estudio (variable

explicativa o independiente)Y = Nota de examen (variable explicada o

dependiente)

El problema de encontrar una relación funcional entre dos variables es muy

complejo, ya que existen infinidad de funciones de formas distintas. El caso más

sencillo de relación entre dos variables es la relación LINEAL, es decir que

Y = a + b X (es la ecuación de una recta) donde a y b son números, que es el caso

al que nos vamos a limitar.

Cualquier ejemplo de distribución bidimensional nos muestra que la relación entre

variables NO es EXACTA (basta con que un dato de las X tenga dos datos

distintos de Y asociados, como en el ejemplo de las Alturas y Pesos, que a 180

cm. de altura le correspondía un individuo de 82 kg. y otro de 78 kg.).

PREGUNTA 1A) QUE REPRESENTA b EN LA RECTAB) QUE REPRESENTA a EN LA RECTA

3

RECTA DE REGRESIÓN

Un dibujo de la nube de puntos o diagrama de dispersión de la distribución nos

puede indicar si es razonable pensar en que puede haber una buena correlación

lineal entre las dos variables.

En los diagramas de arriba se puede observar cómo en el de la izquierda, una

línea recta inclinada puede aproximarse a casi todos los puntos, mientras que en

el otro, cualquier recta deja a muchos puntos alejados de ella. Así pues, el hacer

un análisis de regresión lineal sólo estaría justificado en el ejemplo de la izquierda.

Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por

todos los puntos, y seguir siendo recta. De todas las rectas posibles, la RECTA DE

REGRESIÓN DE Y SOBRE X es aquella que minimiza un cierto error,

considerando a X como variable explicativa o independiente y a Y como la

explicada o dependiente.

Sea y = a + b x una recta arbitraria. Para cada dato de X, es decir, para cada x i de

la tabla tenemos emparejado un dato de Y llamada y i, pero también tenemos el

valor de sustituir la xi en la ecuación de la recta, al que llamaremos y*i.

4

X

YY

X

Cuando se toma el dato xi, el error que vamos a considerar es el que se comete al

elegir y*i en lugar del verdadero yi .Se denota con ei y vale

ei = yi - y*i

Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la

recta que minimice la suma de los cuadrados de todos esos errores, que es la

misma que la que minimiza la varianza de los errores.

Usando técnicas de derivación se llega a que, de todas las rectas y = a + b x, con

a y b números arbitrarios, aquella que minimiza el error elegido es aquella que

cumple

Así pues, sustituyendo en y = a + b x, la ecuación de la recta de regresión de Y

sobre X es

y recolocando los términos se puede escribir de la forma

5

Si se hubiese tomado Y como variable independiente o explicativa, y X como

dependiente o explicada, la recta de regresión que se necesita es la que minimiza

errores de la X. Se llama RECTA DE REGRESIÓN DE X SOBRE Y y se calcula

fácilmente permutando los puestos de x e y, obteniéndose

NOTA: La recta de regresión de X sobre Y no se calcula a partir de la recta de

regresión de Y sobre X, y luego despejando la x.

La pendiente de la recta de regresión de Y sobre X es y la de X sobre Y es .

Dado que las varianzas son positivas por definición, el signo de las pendientes

será el mismo que el de la covarianza, y así, las rectas serán ambas crecientes o

decrecientes, dependiendo de si la covarianza es positiva o negativa,

respectivamente

CALIDAD DEL AJUSTE. COEFICIENTE DE DETERMINACIÓN

Una nube de puntos que se agrupa en torno a una recta imaginaria nos justifica el

estudio de la regresión lineal entre las variables. Normalmente, la variable

explicativa no explica (valga la redundancia) al 100% los resultados que se

observan en la variable explicada.

El único caso en el que una variable explica al 100% a la otra variable es aquel

donde los puntos de la nube formen una recta. En ese caso, cada valor de X nos

da el valor exacto de Y. Pero ese no es el caso general. Vamos a cuantificar la

calidad de la explicación de Y por X mediante el COEFICIENTE DE

DETERMINACIÓN.

6

Los datos de ambas variables tienen una varianza. No nos vamos a interesar por

la varianza de la X (independiente), pero sí por la de Y, por estar influenciada por

la otra variable. La varianza de Y está generada, de una parte, por los datos de X

(es decir, por la varianza), y de otra parte por causas desconocidas (a no ser que

los datos formen una línea recta).

El coeficiente de determinación va a ser el % de varianza de Y que se puede

explicar por X, y se le suele llamar CALIDAD DEL AJUSTE, porque valora lo cerca

que está la nube de puntos de la recta de regresión (o dicho de otro modo, lo ajustada que está la nube de puntos a la recta de regresión).

Como yi = y*i + ei, desarrollando la expresión de la varianza de Y se puede

llegar a que:

y por tanto, el % de varianza de Y explicada por X es:

que resulta ser , es decir, el coeficiente de correlación lineal r definido

en el capítulo anterior, elevado al cuadrado y multiplicado por 100. Es por ello que

al coeficiente de determinación se le llama R2, es decir

7

Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad

del ajuste es bastante alta, aunque no sabemos si la recta de regresión es

creciente o decreciente. Otro ejemplo: si conocemos el coeficiente de correlación

lineal, r = - 0.77, entre dos variables X e Y, ya sabemos que la recta de regresión

es decreciente (por el signo negativo de r), y calculando R2 = r2 · 100 = 59.29%

tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puede

calificar de buena).

PREGUNTA NRO 2Se encontró 10 coeficientes de correlacion lineal dados en la tablar1 r2 r 3 r 4 r 5 r6 r7 r8 r9 r100.81 0.91 -030 0.6 0.4 -0.7 -0.8 -0.96 0.94 0.45

a) Que se puede decir de cada correlaciónb) Como es la calidad de ajuste en cada caso

8

PREDICCIONES. USOS Y ABUSOS

El primer objetivo de la regresión era poner de manifiesto una relación existente

entre dos variables estadísticas. Una vez se constata, por ejemplo, que hay una

relación lineal entre dos variables y se calcula la recta de regresión apropiada,

ésta se puede usar para obtener valores de la variable explicada, a partir de

valores de la variable explicativa.

Por ejemplo, si se comprueba una buena correlación lineal entre las variables X =

“horas de estudio semanal” e Y = “nota del examen”, con una recta de regresión

(de Y sobre X) igual a

y = 0.9 + 0.6 x

PREGUNTA NRO 3

a)¿Qué nota puede obtener (según los datos) un alumno que estudia 10 horas semanales?

b) la FIABILIDAD de una predicción obtenida mediante la recta de regresión se puede medir con que coeficiente

9

NOTA: En el momento de hacer predicciones hay que tener ciertas precauciones,

pues es posible que se obtengan resultados absurdos. Según la recta de regresión

anterior, un alumno que estudie 20 horas por semana (x = 20) tendría un resultado

de 12.9 puntos en su examen, lo cual no tiene sentido si se evalúa sobre 10. La

limitación de la predicción estriba en que sólo se puede realizar para valores de X

que estén situados entre los valores de X de la tabla de datos inicial.

Ejemplo Nro 1: Vamos a realizar un estudio completo del ejemplo que se describe

al comienzo del tema. La tabla de datos es

Altura 175 180 162 157 180 173 171 168 165 165

10

Peso 80 82 57 63 78 65 66 67 62 58

Aunque en este caso tenemos dos variables muy relacionadas, y no está

claramente definido cuál de ellas influye sobre la otra, decidimos estudiar cómo la

altura de los individuos influye sobre su peso corporal. Entonces tomamos

X=”Altura” como variable explicativa e Y=”Peso” como variable explicada.

Comenzamos con la nube de puntos, para que nos informe si vale la pena iniciar

el estudio de la regresión lineal o no hay motivos para ello.

Se observa que los puntos siguen una tendencia, aunque uno de ellos, el (157,63),

se aleja de dicha tendencia. A este dato se le llama dato atípico. En muestras

numerosas un dato atípico no afecta demasiado al resultado, e incluso en

ocasiones se elimina de la tabla, aunque no lo haremos en este caso. Así pues, el

dibujo revela cierta tendencia de los puntos a agruparse en torno a una recta

imaginaria. El coeficiente de determinación, que es el índice numérico que

evaluará esa tendencia nos constatará que hay una buena relación lineal.

PREGUNTA NUMERO 4

11

a) Indique si es F o V los valores de r y R para el ejemplo nro 1

y

b) Que nos indica que la variable independiente

c) ¿Qué peso corporal le debería corresponder a una persona de 178 cm. de estatura? R/ y =76’177 kg

EJEMPLO 2 DE REGRESIÓN LINEAL Y NO LINEAL

OBJETIVO DE ESTA SECCION:

1= Buscar el mejor ajuste el cual resulta el que presente ell menor valor para el

ECM. donde ECM se denomina error cuadrático MEDIO que es lo que se usa.

En esas expresiones <x> es lo que se llama un "estimador" es decir un parámetro

obtenido para estimar una característica de las medidas tomadas (en estadística,

de un parámetro de una población, por ejemplo una población de medidas).

<x> está tomado con la media (o valor medio) de las mediciones:

<x> = (∑ Xi) / n

Si queremos medir un parámetro x y en sucesivas mediciones obtenemos varios

Xi distintos, la teoría de Gauss supone que los errores de estas mediciones son

aleatorios y siguen una distribución normal (la campana de Gauss).

El valor verdadero, pero desconocido, de X se puede definir por su estimador <X>

y el error cuadrático medio.

Definición: sea <X> cualquier estimador de un parámetro desconocido X , se

define el error cuadrático medio como el valor esperado del cuadrado de la

diferencia entre <X> y X.

12

ECM = E(<X> - X)²

(tomada de Probabilidad y estadística, Aplicaciones y Métodos, de George

Canavos,

Obviamente es lo mismo: ECM = E(X - <X>)²

Teniendo una serie de n mediciones se calcula <x> como mostré más arriba

((∑xi) / n) y aplicando la definición tendríamos:

ECM = √ [ ∑ (Xi - <X>)² ] / n

Su aplicación está en la prueba de bondad y ajuste que por ahora la analizaremos

a través el ECM , pero mas adelante lo haremos a través de la prueba de chi

cuadrado y que simplifica a través de

2) Diferenciar los ajuste entre función lineal, parabolica, potencial, logarítmica

LA ESTADÍSTICA ES LA PRIMERA DE LAS CIENCIAS INEXACTAS.

Edmond Gouncourt (1822-1896) Novelista naturalista francés.

A partir de las siguientes observaciones para 5 años de las variables X e Y,

ajústese el modelo de regresión de Y en función de X más idóneo.

Donde,

Y: producción nacional de un subsector industrial, en millones de toneladas.

X: tiempo

Año X Y1995 1 1,251996 2 51997 3 11,251998 4 201999 5 30,5

APLICAREMOS EL PRIMER MODELO

13

http://www.proverbia.net/citasautor.asp?autor=432

http://www.proverbia.net/enviar_frase.asp?id=2226

I.- Ajuste de una función lineal: Y* = a + b XCUESTIONARIO NRO 51)Dado el cuadro completar los valores que faltan

X Y X2 XY Y2 Y* e=Y-Y* e2

1 1,25 1 1,25 1,56 -1,1 2,35 5,52252 5 4 10 25 6,25 -1,25 1,5625

3 11,25 9

4 20 16

5 30,5 25 15 68 55

1/5 3 13,6 11 55,5

2) Confirme si el valor de a1 usado en clase es e será el mismo el mismo valor de

b

fig1

3) Confirme si esta es la ecuación de tendencia lineal Y* = -8,45 + 7,35 Xque mas se ajusta alos datos

4) Si se analiza la Bondad del Ajuste:a través del Coeficiente de

determinación: R2 = =

donde el resultado 3,67 sale de . Pregunta de dónde sale

111,715

FRASE DE REFLEXIONEl mundo está lleno de estadistas a quienes la democracia ha degradado convirtiéndoles en políticos.

14

http://www.sabidurias.com/cita/es/2441/benjamin-disraeli/el-mundo-est-lleno-de-estadistas-a-quienes-la-democracia-ha-degradado-convirtindoles-en-polticos

http://www.sabidurias.com/cita/es/2441/benjamin-disraeli/el-mundo-est-lleno-de-estadistas-a-quienes-la-democracia-ha-degradado-convirtindoles-en-polticos

(Benjamin Disraeli)

II).- Ajuste de una función parabólica: Y* = a + b X + c X2

5) Completar los valores de la tabla

X Y X2 X3 X4 XY X2Y Y* e=Y-Y* e2

1 1,25 1 1 1 1,25 1,25 1,18 0,07 0,0049

2 5 4 8 16 10 20 5,11 -0,11 0,0121

3 11,25 9 27 81 33,75 101,5 11,32 -0,07 0,0049

4 20

5 30,5

15 68 55 225 979 277,5 1205 68 0 0,0644

1/5 3 13,6 11 55,5 13,6 0 0,0128

Aplicando el método de los mínimos cuadrados se obtiene el siguiente sistema de

ecuaciones:

6) Resolver el sistema anterior por el sistema de eliminación de variables y por

matrices R/ a= -0,47 b= 0,51 c= 1,14

7) Indicar si Y* su formula Y* = -0,47 + 0,51 X + 1,14 X2 es correcta

8) Bondad del Ajuste :

Si el Coeficiente de determinación:

R2 =

INDICAR si es correcto todos los resultados

obtenidos en este punto

FRASE DE REFLEXION

15

http://www.sabidurias.com/autor/benjamin-disraeli/es/1420

Actualmente, el destino del mundo depende, en primer lugar, de los estadistas y, en segundo lugar, de los intérpretes.( Trygve Halvdan Lie )

III.- AJUSTE DE UNA FUNCIÓN POTENCIAL: Y* = A XB 9) En primer lugar linealizamos: lnY* = lna + b lnX V* = A + b U

X Y U=lnX V=lnY U2 UV Y* e=Y-Y* e2

1 1,25 0 0,2231 0 0 1,2557 -0,0057 0,0000

2 5 0,6931 1,6094 0,4803 1,1156 4,9888 0,0112 0,0001

3 11,25

4 20

5 30,5

15 68 4,7875 10,666

1/5 3 1,2397 2,6856 13,629 -0,0292 0,0397

e0

Después de linealizar complete la tabla

10) Si

Entonces el valor de A cual es? A=0,227

11) Determinar La ecuación que más se ajusta a los datos dados

R/Y* = 1,2557 X 1,9902

SUGERENCIA Si hacemos el cambio efectuado: a= antilnA = antiln 0,2277 =

1,2557

12) Si aplicamos la Bondad del Ajuste a través del ECM que valor se obtiene de este y que se puede decir R/0,0397

Nótese que al haber transformado la variable dependiente ya no se minimiza

sino , de ahí que .

REFLEXION

16

http://www.sabidurias.com/autor/trygve-halvdan-lie/es/1140

http://www.sabidurias.com/cita/es/9491/trygve-halvdan-lie/actualmente-el-destino-del-mundo-depende-en-primer-lugar-de-los-estadistas-y-en-segundo-lugar-de-los-intrpretes

http://www.sabidurias.com/cita/es/9491/trygve-halvdan-lie/actualmente-el-destino-del-mundo-depende-en-primer-lugar-de-los-estadistas-y-en-segundo-lugar-de-los-intrpretes

La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno.

George Bernard Shaw (1856-1950) Escritor irlandés.

V) AJUSTE DE UNA FUNCIÓN EXPONENCIAL: Y* = A BX

13) En primer lugar linealizamos: lnY* = lna + X lnb V* = A + B X

Y DESPUES DE LINEALIZAR PROCEDA COMPLETAR LA TABLA

X Y V=lnY X2 XV Y* e=Y-Y* e2

1 1,25 0,2231 1 0,2231 1,7794 -0,529 0,2798

2 5 1,6094 4 3,2188 3,86 1,138 1,2950

3 11,25

4 20

5 30,5 15 68

1/5 3 13,6 2,1332 11 7,9548

e0

13) Se puede afirmar que el valor de A es 0,1996

14)Se puede decir que los valores de Y* en la tabla está dada por : Y* = 0,819 . 2,176 X

15) En una prueba de Bondad del Ajuste el valor de ECM es 19,16

16) Lea la siguiente información

La comparación de la bondad de modelos de regresión mediante el coeficiente

de determinación sólo es correcta cuando la variable dependiente no ha sido

sometida a transformaciones no lineales (por ejemplo, una transformación

logarítmica).

17

http://www.proverbia.net/citasautor.asp?autor=916

De acuerdo a lo anterior, mediante R2 cuales de las funciones anteriores se

pueden comparar.

17) Por eso, para comparar los cuatro ajustes efectuados utilizamos el Error

Cuadrático Medio

.Indicar si la siguiente conclusión es correcta

El mejor ajuste resulta ser el parabólico puesto que presenta el menor valor

para el ECM.

18

Producción observada en función del tiempo

X (tiempo)

54321

Y (p

rodu

cció

n)

40

30

20

10

0

Representación de los 4 modelos de regresión

X (tiempo)

54321

Y re

al y

teór

icas

(P

rodu

cció

n)

40

30

20

10

0

-10

Y (producción)

X (tiempo)

Y*1 lineal

X (tiempo)

Y*2 parábola

X (tiempo)

Y*3 potencial

X (tiempo)

Y*4 exponencial

X (tiempo)

19

EJEMPLO GLOBAL DEL TEMA DE REGRESIÓN · Web view... es lo que se llama un "estimador" es decir un...

Documents

Transcript of EJEMPLO GLOBAL DEL TEMA DE REGRESIÓN · Web view... es lo que se llama un "estimador" es decir un...