REGRESIÓN POR MÍNIMOS CUADRADOS
-JOHNNY CARPIO QUIRÓS -DOUGLAS ESPINOZA-DIEGO ANÍBAL NAVARRO CARRILLO-MAURICIO RETANA FERNANDEZ-MARCIA VEGA MONTIEL -RAQUEL VILLALOBOS RODRIGUEZ
REGRESIÓN POR MÍNIMOS CUADRADOS
- Regresión Lineal Múltiple.- Mínimos Cuadrados Lineales.- Regresión No Lineal.
REGRESIÓN LINEAL MÚLTIPLE
DEFINICIÓN
Extensión útil de la regresión lineal cuando y es una función lineal de dos o más variables independientes.
Ejemplo:
exaxaay 22110
SUMA DE LOS CUADRADOS DE LOS RESIDUOS
n
iiiir xaxaayS
1
222110 )(
DERIVADAS PARA LA MATRIZ DE COEFICIENTES
)(2
)(2
)(2
2211022
2211011
22110
iiiir
iiiir
iiio
r
xaxaayxa
S
xaxaayxa
S
xaxaaya
S
MATRIZ PARA EL CÁLCULO DE LOS COEFICIENTES
ii
ii
io
iiii
iiii
ii
yx
yx
y
a
a
a
xxxx
xxxx
xxn
2
1
2
121212
21211
21
EJEMPLO
Los datos de la Tabla 1 se calcularon según la ecuación:
Utilice regresión lineal para ajustar esos datos.
21 345 xxy
2727
364
031
925.2
1012
500
1 Tabla
21 yxx
TABLA 2. CÁLCULOS REQUERIDOS
1005.243485425.76145.1654
54189144492727
1812243616643
00391310
185.225425.625.29
10202141210
000000052121
22
212
yxyxxxxxxxy i
MATRIZ Y RESPUESTA
3
4
5
100
5.243
54
544814
4825.765.16
145.166
2
1
0
2
1
0
a
a
a
a
a
a
EXTENDIENDO EL CÁLCULO A M DIMENSIONES …
exaxaxaay mm ...
:Ecuación
22110
)1(
:EstándarError
/
mn
SS r
xy
MÍNIMOS CUADRADOS
HISTORIAHISTORIA En 1829 Gauss fue capaz de establecer
la razón del éxito maravilloso de resolver ecuaciones no lineales de Kepler por el método de mínimos cuadrados : simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. El argumento concreto se conoce como teorema de gauss Markov.
Las regresiones: lineal, polinomial y lineal múltiple pertenecen al siguiente modelo lineal general de mínimos cuadrados:
donde todos los zm son funciones diferentes y los an son los coeficientes numéricos (“y” depende de múltiples valores de “x”, esto es, x1, x2, x3, … , xm).
ezazazazay mm ...221100
Esa ecuación se puede reescribir en forma matricial así:
EAZY
donde [Z] es una matriz de los valores calculados de las funciones z en los valores medidos de las variables independientes (todos los valores de “x” en una tabla).
donde m es el número de variables en el modelo (número de funciones “x”) y n el número de datos (número de valores “x”). [Z] no siempre es una matriz cuadrada.
mnnn
m
m
zzz
zzz
zzz
Z
...
............
...
...
10
21202
11101
EAZY
El vector columna {Y} contiene los valores observados de la variable dependiente:
El vector columna {A} contiene los coeficientes desconocidos (los que se calculan con el método):
nT yyyY ...21
EAZY
mT aaaA ...21
y el vector columna {E} contiene los residuos:
La suma de los cuadrados de este modelo se define como:
mT eeeE ...21
EAZY
n
i
m
jjijir zayS
1
2
0
)(
Esta cantidad se minimiza tomando las derivadas parciales con respecto a cada coeficiente e igualando a cero las ecuaciones restantes. El resultado son las ecuaciones normales (que dan los valores para los coeficientes “a”) que se expresan de forma matricial como:
YZAZZ TT
Técnicas de solución: Pueden utilizarse descomposición LU, Cholesky o matriz inversa.
Matriz Inversa:
YZZZA TT 1
EJEMPLO:EJEMPLO: Dados los datos: Ajuste por mínimos
cuadrados X Y
1 5.04
2 8.12
3 10.64
4 13.18
5 16.20
6 20.04
Por tanto, nuestro sistema a resolver será:
de donde obtenemos que:
tendremos que el polinomio viene dado por:
Para ajustar los datos a una cuadrática (polinomio de grado 2), resolvemos el siguiente sistema de ecuaciones:
Se obtienen: Con lo que el sistema a resolver es:
Cuya solución viene dada por:
y, por lo tanto, la cuadrática de ajuste es:
REGRESIÓN NO LINEAL
UTILIDAD
Existe una gran cantidad de casos en ingeniería en donde modelos no lineales deben ser ajustados con datos.
¿EN QUÉ SE BASA?
Al igual que en los mínimos cuadrados lineales se basa en la determinación de los valores de los parámetros que minimizan la suma de los cuadrados de los residuos, la solución debe proceder en una forma iterativa.
¿CÓMO FUNCIONA?
El método de Gauss-Newton sirve para minimizar los cuadrados de los residuos entre datos y ecuaciones no lineales.
Forma lineal aproximada por medio de una expansión por serie de Taylor.
Nuevas estimaciones por medio de la teoría de mínimos cuadrados.
MÉTODO DE GAUSS-NEWTON
Para resolver problemas no lineales por mínimos cuadrados.
Es un proceso iterativo. Debemos proporcionar una estimación inicial del parámetro vector que denominaremos p0.
Dadas m funciones f1, ..., fm de n parámetros p1, ..., pn con m≥n, queremos minimizar la suma
Donde, p se refiere al vector (p1, ..., pn).
Una estimación inicial del parámetro vector es p0.
Estimaciones posteriores pk para el vector parámetro son producidas por la relación recurrente:
donde f=(f1, ..., fm) yJf(p) denota el Jacobiano de f en p (nótese que no es necesario que Jf sea cuadrada).
Una buena implementación del algoritmo de Gauss-Newton utiliza también un algoritmo de busqueda lineal: en lugar de la fórmula anterior para pk+1, se utiliza
Donde el número αk es de algún modo óptimo.
CRITERIO DE PARO
El procedimiento antes descrito para la regresión no lineal se repite hasta que la solución converge, es decir cuando
este por debajo de un criterio de paro aceptable.
%1001,
,1,
jk
jkjk
ka a
aa
POSIBLES PROBLEMAS
Para el método de Gauss-Newton las derivadas parciales pueden ser difíciles de calcular, una alternativa es:
Donde delta es la perturbación fraccional pequeña.
k
mkimkki
k
i
a
aaaxfaaaaxf
a
f
....,....,;....,....,; 00
OTROS POSIBLES PROBLEMAS
Puede converger con lentitud Puede oscilar ampliamente, o sea
cambia en forma continua de dirección.
Puede no converger
Curva ajustada de un conjunto de datos no lineales.
Gráfico de residuos
EJEMPLO
Dada la función f(x;ao,a1)=ao (1-e-a1x)
X 0.25 0.75 1.25 1.75 2.25
Y 0.28 0.57 0.68 0.74 0.79
xa
xa
xeaa
f
ea
f
1
1
01
0
1
Haciendo uso de los valores iniciales:
ao=1.0 y a1 =1.0
Se obtiene:
2371.08946.0
3041.08262.0
3581.07135.0
3543.05276.0
1947.02212.0
0Z
De la matriz multiplicada por su transpuesta se obtiene:
4404.09489.0
9489.03193.200 ZZ T
1678.198421.7
8421.76397.3100 ZZ T
Se calcula el vector D que contiene las diferencias entre mediciones y predicciones del modelo.
1046.0
0862.0
0335.0
0424.0
0588.0
D
Los valores obtenidos se agregan al para metro inicial supuesto, se obtiene:
ao=1.0 - 0.2714 = 0.7286
a1=1.0 + 0.5019 = 1.5019
5019.0
2714.0A