Download - REGRESIÓN POR MÍNIMOS CUADRADOS -JOHNNY CARPIO QUIRÓS -DOUGLAS ESPINOZA -DIEGO ANÍBAL NAVARRO CARRILLO -MAURICIO RETANA FERNANDEZ -MARCIA VEGA MONTIEL.

REGRESIÓN POR MÍNIMOS CUADRADOS

-JOHNNY CARPIO QUIRÓS -DOUGLAS ESPINOZA-DIEGO ANÍBAL NAVARRO CARRILLO-MAURICIO RETANA FERNANDEZ-MARCIA VEGA MONTIEL -RAQUEL VILLALOBOS RODRIGUEZ

REGRESIÓN POR MÍNIMOS CUADRADOS

- Regresión Lineal Múltiple.- Mínimos Cuadrados Lineales.- Regresión No Lineal.

REGRESIÓN LINEAL MÚLTIPLE

DEFINICIÓN

Extensión útil de la regresión lineal cuando y es una función lineal de dos o más variables independientes.

Ejemplo:

exaxaay 22110

SUMA DE LOS CUADRADOS DE LOS RESIDUOS

n

iiiir xaxaayS

1

222110 )(

DERIVADAS PARA LA MATRIZ DE COEFICIENTES

)(2

)(2

)(2

2211022

2211011

22110

iiiir

iiiir

iiio

r

xaxaayxa

S

xaxaayxa

S

xaxaaya

S

MATRIZ PARA EL CÁLCULO DE LOS COEFICIENTES

ii

ii

io

iiii

iiii

ii

yx

yx

y

a

a

a

xxxx

xxxx

xxn

2

1

2

121212

21211

21

EJEMPLO

Los datos de la Tabla 1 se calcularon según la ecuación:

Utilice regresión lineal para ajustar esos datos.

21 345 xxy

2727

364

031

925.2

1012

500

1 Tabla

21 yxx

TABLA 2. CÁLCULOS REQUERIDOS

1005.243485425.76145.1654

54189144492727

1812243616643

00391310

185.225425.625.29

10202141210

000000052121

22

212

yxyxxxxxxxy i

MATRIZ Y RESPUESTA

3

4

5

100

5.243

54

544814

4825.765.16

145.166

2

1

0

2

1

0

a

a

a

a

a

a

EXTENDIENDO EL CÁLCULO A M DIMENSIONES …

exaxaxaay mm ...

:Ecuación

22110

)1(

:EstándarError

/

mn

SS r

xy

MÍNIMOS CUADRADOS

HISTORIAHISTORIA En 1829 Gauss fue capaz de establecer

la razón del éxito maravilloso de resolver ecuaciones no lineales de Kepler por el método de mínimos cuadrados : simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. El argumento concreto se conoce como teorema de gauss Markov.

Las regresiones: lineal, polinomial y lineal múltiple pertenecen al siguiente modelo lineal general de mínimos cuadrados:

donde todos los zm son funciones diferentes y los an son los coeficientes numéricos (“y” depende de múltiples valores de “x”, esto es, x1, x2, x3, … , xm).

ezazazazay mm ...221100

Esa ecuación se puede reescribir en forma matricial así:

EAZY

donde [Z] es una matriz de los valores calculados de las funciones z en los valores medidos de las variables independientes (todos los valores de “x” en una tabla).

donde m es el número de variables en el modelo (número de funciones “x”) y n el número de datos (número de valores “x”). [Z] no siempre es una matriz cuadrada.

mnnn

m

m

zzz

zzz

zzz

Z

...

............

...

...

10

21202

11101

EAZY

El vector columna {Y} contiene los valores observados de la variable dependiente:

El vector columna {A} contiene los coeficientes desconocidos (los que se calculan con el método):

nT yyyY ...21

EAZY

mT aaaA ...21

y el vector columna {E} contiene los residuos:

La suma de los cuadrados de este modelo se define como:

mT eeeE ...21

EAZY

n

i

m

jjijir zayS

1

2

0

)(

Esta cantidad se minimiza tomando las derivadas parciales con respecto a cada coeficiente e igualando a cero las ecuaciones restantes. El resultado son las ecuaciones normales (que dan los valores para los coeficientes “a”) que se expresan de forma matricial como:

YZAZZ TT

Técnicas de solución: Pueden utilizarse descomposición LU, Cholesky o matriz inversa.

Matriz Inversa:

YZZZA TT 1

EJEMPLO:EJEMPLO: Dados los datos: Ajuste por mínimos

cuadrados X Y

1 5.04

2 8.12

3 10.64

4 13.18

5 16.20

6 20.04

Por tanto, nuestro sistema a resolver será:

de donde obtenemos que:

tendremos que el polinomio viene dado por:

Para ajustar los datos a una cuadrática (polinomio de grado 2), resolvemos el siguiente sistema de ecuaciones:

Se obtienen: Con lo que el sistema a resolver es:

Cuya solución viene dada por:

y, por lo tanto, la cuadrática de ajuste es:

REGRESIÓN NO LINEAL

UTILIDAD

Existe una gran cantidad de casos en ingeniería en donde modelos no lineales deben ser ajustados con datos.

¿EN QUÉ SE BASA?

Al igual que en los mínimos cuadrados lineales se basa en la determinación de los valores de los parámetros que minimizan la suma de los cuadrados de los residuos, la solución debe proceder en una forma iterativa.

¿CÓMO FUNCIONA?

El método de Gauss-Newton sirve para minimizar los cuadrados de los residuos entre datos y ecuaciones no lineales.

Forma lineal aproximada por medio de una expansión por serie de Taylor.

Nuevas estimaciones por medio de la teoría de mínimos cuadrados.

MÉTODO DE GAUSS-NEWTON

Para resolver problemas no lineales por mínimos cuadrados.

Es un proceso iterativo. Debemos proporcionar una estimación inicial del parámetro vector que denominaremos p0.

Dadas m funciones f1, ..., fm de n parámetros p1, ..., pn con m≥n, queremos minimizar la suma

Donde, p se refiere al vector (p1, ..., pn).

Una estimación inicial del parámetro vector es p0.

Estimaciones posteriores pk para el vector parámetro son producidas por la relación recurrente:

donde f=(f1, ..., fm) yJf(p) denota el Jacobiano de f en p (nótese que no es necesario que Jf sea cuadrada).

Una buena implementación del algoritmo de Gauss-Newton utiliza también un algoritmo de busqueda lineal: en lugar de la fórmula anterior para pk+1, se utiliza

Donde el número αk es de algún modo óptimo.

CRITERIO DE PARO

El procedimiento antes descrito para la regresión no lineal se repite hasta que la solución converge, es decir cuando

este por debajo de un criterio de paro aceptable.

%1001,

,1,

jk

jkjk

ka a

aa

POSIBLES PROBLEMAS

Para el método de Gauss-Newton las derivadas parciales pueden ser difíciles de calcular, una alternativa es:

Donde delta es la perturbación fraccional pequeña.

k

mkimkki

k

i

a

aaaxfaaaaxf

a

f

....,....,;....,....,; 00

OTROS POSIBLES PROBLEMAS

Puede converger con lentitud Puede oscilar ampliamente, o sea

cambia en forma continua de dirección.

Puede no converger

Curva ajustada de un conjunto de datos no lineales.

Gráfico de residuos

EJEMPLO

Dada la función f(x;ao,a1)=ao (1-e-a1x)

X 0.25 0.75 1.25 1.75 2.25

Y 0.28 0.57 0.68 0.74 0.79

xa

xa

xeaa

f

ea

f

1

1

01

0

1

Haciendo uso de los valores iniciales:

ao=1.0 y a1 =1.0

Se obtiene:

2371.08946.0

3041.08262.0

3581.07135.0

3543.05276.0

1947.02212.0

0Z

De la matriz multiplicada por su transpuesta se obtiene:

4404.09489.0

9489.03193.200 ZZ T

1678.198421.7

8421.76397.3100 ZZ T

Se calcula el vector D que contiene las diferencias entre mediciones y predicciones del modelo.

1046.0

0862.0

0335.0

0424.0

0588.0

D

Los valores obtenidos se agregan al para metro inicial supuesto, se obtiene:

ao=1.0 - 0.2714 = 0.7286

a1=1.0 + 0.5019 = 1.5019

5019.0

2714.0A