Problema XOR con 3 neuronas
Diego Milone
Inteligencia ComputacionalDepartamento de Informática
FICH-UNL
Inteligencia Computacional - FICH - UNL
¿Cómo podríamos resolver el problema XOR?
x1
x2
−1
+1
+1
−1
Inteligencia Computacional - FICH - UNL
Primera capa: perceptrones A y B
x1
x2
−1
+1
+1
−1
x1
x2
−1
+1
+1
−1
Inteligencia Computacional - FICH - UNL
Primera capa: perceptrones A y B
x1
x2
−1
+1
+1
−1
A
x1
x2
−1
+1
+1
−1
A
Inteligencia Computacional - FICH - UNL
Primera capa: perceptrones A y B
x1
x2
−1
+1
+1
−1
A
x1
x2
−1
+1
+1
−1
A
B
Inteligencia Computacional - FICH - UNL
Segunda capa: perceptron C
x1
x2
−1
+1
+1
−1
A
x1
x2
−1
+1
+1
−1
A
B
x1
x2
−1
+1
+1
−1
Inteligencia Computacional - FICH - UNL
Tabla de verdad para el perceptron C
x1
x2
−1
+1
+1
−1
A
B
Inteligencia Computacional - FICH - UNL
Tabla de verdad para el perceptron C
yB
yA
−1+1
−1
X
C
Inteligencia Computacional - FICH - UNL
Tabla de verdad para el perceptron C
yB
yA
−1+1
−1 X
C
Inteligencia Computacional - FICH - UNL
Tabla de verdad para el perceptron C
yB
yA
−1+1
−1 X
C
Nuestra primera red neuronalUn perceptrón multicapa con 3 neuronas
Diego Milone
Inteligencia ComputacionalDepartamento de Informática
FICH-UNL
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: A
x1
x2
−1
+1
+1
−1
A
Perceptrón A: x2 = −1− x1 = wA0wA2− wA1
wA2x1
→
wA0 = −1wA1 = +1wA2 = +1
→ yA = sgn(x2 + x1 + 1)
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: A
x1
x2
−1
+1
+1
−1
APerceptrón A: x2 = −1− x1
= wA0wA2− wA1
wA2x1
→
wA0 = −1wA1 = +1wA2 = +1
→ yA = sgn(x2 + x1 + 1)
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: A
x1
x2
−1
+1
+1
−1
APerceptrón A: x2 = −1− x1 = wA0
wA2− wA1
wA2x1
→
wA0 = −1wA1 = +1wA2 = +1
→ yA = sgn(x2 + x1 + 1)
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: A
x1
x2
−1
+1
+1
−1
APerceptrón A: x2 = −1− x1 = wA0
wA2− wA1
wA2x1
→
wA0 = −1wA1 = +1wA2 = +1
→ yA = sgn(x2 + x1 + 1)
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: B
x1
x2
−1
+1
+1
−1
A
B
Perceptrón B: x2 = +1− x1
→
wB0 = +1wB1 = +1wB2 = +1
→ yB = sgn(x2 + x1 − 1)
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: B
x1
x2
−1
+1
+1
−1
A
B
Perceptrón B: x2 = +1− x1
→
wB0 = +1wB1 = +1wB2 = +1
→ yB = sgn(x2 + x1 − 1)
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: B
x1
x2
−1
+1
+1
−1
A
B
Perceptrón B: x2 = +1− x1
→
wB0 = +1wB1 = +1wB2 = +1
→ yB = sgn(x2 + x1 − 1)
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: C
yB
yA
−1+1
−1 X
A
C
Perceptrón C: yA = +1 + yB
→
wC0 = +1wC1 = −1wC2 = +1
→ yC = sgn(yA − yB − 1)
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: C
yB
yA
−1+1
−1 X
A
C
Perceptrón C: yA = +1 + yB
→
wC0 = +1wC1 = −1wC2 = +1
→ yC = sgn(yA − yB − 1)
Inteligencia Computacional - FICH - UNL
Combinación de perceptrones simples: C
yB
yA
−1+1
−1 X
A
C
Perceptrón C: yA = +1 + yB
→
wC0 = +1wC1 = −1wC2 = +1
→ yC = sgn(yA − yB − 1)
Inteligencia Computacional - FICH - UNL
¿Cómo es la arquitectura de esta red neuronal?
wC0 = +1wC1 = −1wC2 = +1
wA0 = −1
wA1 = +1wA2 = +1
wB0 = +1
wB1 = +1wB2 = +1
yA = sgn(x2 + x1 + 1)yB = sgn(x2 + x1 − 1)
}→ yC = sgn(yA − yB − 1)
Inteligencia Computacional - FICH - UNL
Y... ¿resolverá el XOR?
x1
x2
A
B
C y
1
1
1
1
1
−1
x0 = −1−1
1
1
Inteligencia Computacional - FICH - UNL
Y... ¿resolverá el XOR?
x1
x2
A
B
C y
1
1
1
1
1
−1
x0 = −1−1
1
1
Inteligencia Computacional - FICH - UNL
Y... ¿resolverá el XOR?
x1
x2
A
B
C y
1
1
1
1
1
−1
x0 = −1−1
1
1
Inteligencia Computacional - FICH - UNL
Y... ¿resolverá el XOR?
x1
x2
A
B
C y
1
1
1
1
1
−1
x0 = −1
−1
1
1
Inteligencia Computacional - FICH - UNL
Y... ¿resolverá el XOR?
x1
x2
A
B
C y
1
1
1
1
1
−1
x0 = −1−1
1
1
Inteligencia Computacional - FICH - UNL
Y... ¿resolverá el XOR?
x1
x2
A
BC y
11
11
1
−1
x0 = −1−1
1
1
yA = sgn(x2 + x1 + 1)yB = sgn(x2 + x1 − 1)
}→ yC = sgn(yA−yB−1)
Inteligencia Computacional - FICH - UNL
Y... ¿resolverá el XOR?
x1
x2
A
BC y
11
11
1
−1
x0 = −1−1
1
1 yA = sgn(x2 + x1 + 1)yB = sgn(x2 + x1 − 1)
}→ yC = sgn(yA−yB−1)
Perceptrón multicapa:regiones de decisión y arquitectura
Diego Milone
Inteligencia ComputacionalDepartamento de Informática
FICH-UNL
Inteligencia Computacional - FICH - UNL
Regiones de decisión
Inteligencia Computacional - FICH - UNL
Arquitectura del perceptrón multicapa
x1
x2
x3
x4
y1
y2
Capaoculta
Capa deentrada
Capa desalida
Inteligencia Computacional - FICH - UNL
Arquitectura del perceptrón multicapa
x1
x2
x3
x4
y1
y2
WII
yIIWI
yIWIII
yIII
Inteligencia Computacional - FICH - UNL
Cálculo de las salidas en cada capa
• Capa I:
vIj =
⟨wI
j , x⟩
=N∑
i=0wI
jixi (completo vI = WIx)
yIj = φ(vI
j ) =2
1 + e−bvIj− 1 (simétrica ± 1)
• Capa II:vII
j =⟨
wIIj , yI
⟩→ yII
j = φ(vIIj )
• Capa III:vIII
j =⟨
wIIIj , yII
⟩→ yIII
j = φ(vIIIj ) = yj
Inteligencia Computacional - FICH - UNL
Cálculo de las salidas en cada capa
• Capa I:
vIj =
⟨wI
j , x⟩
=N∑
i=0wI
jixi (completo vI = WIx)
yIj = φ(vI
j ) =2
1 + e−bvIj− 1 (simétrica ± 1)
• Capa II:vII
j =⟨
wIIj , yI
⟩→ yII
j = φ(vIIj )
• Capa III:vIII
j =⟨
wIIIj , yII
⟩→ yIII
j = φ(vIIIj ) = yj
Inteligencia Computacional - FICH - UNL
Cálculo de las salidas en cada capa
• Capa I:
vIj =
⟨wI
j , x⟩
=N∑
i=0wI
jixi (completo vI = WIx)
yIj = φ(vI
j ) =2
1 + e−bvIj− 1 (simétrica ± 1)
• Capa II:vII
j =⟨
wIIj , yI
⟩→ yII
j = φ(vIIj )
• Capa III:vIII
j =⟨
wIIIj , yII
⟩→ yIII
j = φ(vIIIj ) = yj
Propagación hacia atrás:caso general y capa de salida
Diego Milone
Inteligencia ComputacionalDepartamento de Informática
FICH-UNL
Inteligencia Computacional - FICH - UNL
Criterio de error
Suma del error cuadrático instantáneo
ξ(n) =12
M∑j=1
e2j (n)
Inteligencia Computacional - FICH - UNL
Aplicación del gradiente (caso general)
∆wji(n) = −µ ∂ξ(n)∂wji(n)
∂ξ(n)
∂wji(n)=∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)
∂vj(n)
∂wji(n)
Inteligencia Computacional - FICH - UNL
Aplicación del gradiente (caso general)
∆wji(n) = −µ ∂ξ(n)∂wji(n)
∂ξ(n)
∂wji(n)=∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)
∂vj(n)
∂wji(n)
Inteligencia Computacional - FICH - UNL
Aplicación del gradiente (caso general)
∆wji(n) = −µ ∂ξ(n)∂wji(n)
∂ξ(n)
∂wji(n)=∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)
∂vj(n)
∂wji(n)
∂vj(n)
∂wji(n)=
∂N∑
i=0wji(n)yi(n)
∂wji(n)= yi(n)
Inteligencia Computacional - FICH - UNL
Aplicación del gradiente (caso general)
∆wji(n) = −µ ∂ξ(n)∂wji(n)
∂ξ(n)
∂wji(n)=
∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)yi(n)
Gradiente de error local instantáneo: δj =∂ξ(n)
∂yj(n)
∂yj(n)
∂vj(n)
Inteligencia Computacional - FICH - UNL
Aplicación del gradiente (caso general)
∆wji(n) = µδj(n)yi(n)
∂ξ(n)
∂wji(n)=∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)yi(n)
Gradiente de error local instantáneo: δj =∂ξ(n)
∂yj(n)
∂yj(n)
∂vj(n)
Inteligencia Computacional - FICH - UNL
Derivada de la función de activación simétrica (1/2)
∂yj(n)
∂vj(n)=
∂{
21+e−vj(n) − 1
}∂vj(n)
= 2e−vj(n)(
1 + e−vj(n))2
= 21
1 + e−vj(n)
e−vj(n)
1 + e−vj(n)
= 21
1 + e−vj(n)
0︷ ︸︸ ︷−1 + 1 +e−vj(n)
1 + e−vj(n)
= 21
1 + e−vj(n)
(−1
1 + e−vj(n)+
1 + e−vj(n)
1 + e−vj(n)
)
Inteligencia Computacional - FICH - UNL
Derivada de la función de activación simétrica (2/2)
∂yj(n)
∂vj(n)= 2
11 + e−vj(n)
(1− 1
1 + e−vj(n)
)= 2
yj(n) + 12
(1−
yj(n) + 12
)= (yj(n) + 1)
(1−
yj(n) + 12
)= (yj(n) + 1)
(2− yj(n)− 1
2
)=
12
(yj(n) + 1)(yj(n)− 1)
Inteligencia Computacional - FICH - UNL
Aplicación del gradiente (caso general)
∆wji(n) = µδj(n)yi(n)
∂ξ(n)
∂wji(n)=∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)yi(n)
Gradiente de error local instantáneo: δj = − ∂ξ(n)
∂yj(n)
∂yj(n)
∂vj(n)
δj =∂ξ(n)
∂yj(n)
12
(1 + yj(n))(1− yj(n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa III (salida)
∆wIIIji (n) = µδIII
j (n)yIIi (n)
δIIIj (n) = − ∂ξ(n)
∂yIIIj (n)
12
(1 + yIIIj (n))(1− yIII
j (n))
δIIIj (n) = − ∂ξ(n)
∂ej(n)
∂ej(n)
∂yIIIj (n)
12
(1 + yIIIj (n))(1− yIII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa III (salida)
∆wIIIji (n) = µδIII
j (n)yIIi (n)
δIIIj (n) = − ∂ξ(n)
∂yIIIj (n)
12
(1 + yIIIj (n))(1− yIII
j (n))
δIIIj (n) = − ∂ξ(n)
∂ej(n)
∂ej(n)
∂yIIIj (n)
12
(1 + yIIIj (n))(1− yIII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa III (salida)
∆wIIIji (n) = µδIII
j (n)yIIi (n)
δIIIj (n) = − ∂ξ(n)
∂yIIIj (n)
12
(1 + yIIIj (n))(1− yIII
j (n))
δIIIj (n) = − ∂ξ(n)
∂ej(n)
∂ej(n)
∂yIIIj (n)
12
(1 + yIIIj (n))(1− yIII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa III (salida)
δIIIj (n) = −
∂{
12∑
j e2j (n)
}∂ej(n)
·∂{
dIIIj (n)− yIII
j (n)}
∂yIIIj (n)
·
·12
(1 + yIIIj (n))(1− yIII
j (n))
δIIIj (n) = 1
2 ej(n)(1 + yIIIj (n))(1− yIII
j (n))F
∆wIIIji (n) = ηej(n)(1 + yIII
j (n))(1− yIIIj (n))yII
i (n)
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa III (salida)
δIIIj (n) = −
∂{
12∑
j e2j (n)
}∂ej(n)
·∂{
dIIIj (n)− yIII
j (n)}
∂yIIIj (n)
·
·12
(1 + yIIIj (n))(1− yIII
j (n))
δIIIj (n) = 1
2 ej(n)(1 + yIIIj (n))(1− yIII
j (n))F
∆wIIIji (n) = ηej(n)(1 + yIII
j (n))(1− yIIIj (n))yII
i (n)
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa III (salida)
δIIIj (n) = −
∂{
12∑
j e2j (n)
}∂ej(n)
·∂{
dIIIj (n)− yIII
j (n)}
∂yIIIj (n)
·
·12
(1 + yIIIj (n))(1− yIII
j (n))
δIIIj (n) = 1
2 ej(n)(1 + yIIIj (n))(1− yIII
j (n))F
∆wIIIji (n) = ηej(n)(1 + yIII
j (n))(1− yIIIj (n))yII
i (n)
Propagación hacia atrás:capas ocultas
Diego Milone
Inteligencia ComputacionalDepartamento de Informática
FICH-UNL
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
∆wIIji (n) = µδII
j (n)yIi (n)
δIIj (n) = − ∂ξ(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∂{ 1
2∑
k e2k(n)
}∂yII
j (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −1
2
∑k
∂e2k(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∑k
ek(n)∂ek(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
∆wIIji (n) = µδII
j (n)yIi (n)
δIIj (n) = − ∂ξ(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∂{ 1
2∑
k e2k(n)
}∂yII
j (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −1
2
∑k
∂e2k(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∑k
ek(n)∂ek(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
∆wIIji (n) = µδII
j (n)yIi (n)
δIIj (n) = − ∂ξ(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∂{ 1
2∑
k e2k(n)
}∂yII
j (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −1
2
∑k
∂e2k(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∑k
ek(n)∂ek(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
∆wIIji (n) = µδII
j (n)yIi (n)
δIIj (n) = − ∂ξ(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∂{ 1
2∑
k e2k(n)
}∂yII
j (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −1
2
∑k
∂e2k(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∑k
ek(n)∂ek(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
∆wIIji (n) = µδII
j (n)yIi (n)
δIIj (n) = − ∂ξ(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∂{ 1
2∑
k e2k(n)
}∂yII
j (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −1
2
∑k
∂e2k(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∑k
ek(n)∂ek(n)
∂yIIj (n)
12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
δIIj (n) = −
∑k
ek(n)∂ek(n)
∂yIIIk (n)
∂yIIIk (n)
∂vIIIk (n)
∂vIIIk (n)
∂yIIj (n)
12
(1+yIIj (n))(1−yII
j (n))
δIIj (n) = −
∑k
ek(n)·∂{
dIIIk (n)− yIII
k (n)}
∂yIIIk (n)
· 12
(1 + yIIIk (n))(1− yIII
k (n)) ·
·∂{∑
j wIIIkj yII
j (n)}
∂yIIj (n)
· 12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∑k
ek(n)·(−1) · 12
(1 + yIIIk (n))(1− yIII
k (n)) ·
·wIIIkj ·
12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
δIIj (n) = −
∑k
ek(n)∂ek(n)
∂yIIIk (n)
∂yIIIk (n)
∂vIIIk (n)
∂vIIIk (n)
∂yIIj (n)
12
(1+yIIj (n))(1−yII
j (n))
δIIj (n) = −
∑k
ek(n)·∂{
dIIIk (n)− yIII
k (n)}
∂yIIIk (n)
· 12
(1 + yIIIk (n))(1− yIII
k (n)) ·
·∂{∑
j wIIIkj yII
j (n)}
∂yIIj (n)
· 12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∑k
ek(n)·(−1) · 12
(1 + yIIIk (n))(1− yIII
k (n)) ·
·wIIIkj ·
12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
δIIj (n) = −
∑k
ek(n)∂ek(n)
∂yIIIk (n)
∂yIIIk (n)
∂vIIIk (n)
∂vIIIk (n)
∂yIIj (n)
12
(1+yIIj (n))(1−yII
j (n))
δIIj (n) = −
∑k
ek(n)·∂{
dIIIk (n)− yIII
k (n)}
∂yIIIk (n)
· 12
(1 + yIIIk (n))(1− yIII
k (n)) ·
·∂{∑
j wIIIkj yII
j (n)}
∂yIIj (n)
· 12
(1 + yIIj (n))(1− yII
j (n))
δIIj (n) = −
∑k
ek(n)·(−1) · 12
(1 + yIIIk (n))(1− yIII
k (n)) ·
·wIIIkj ·
12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
δIIj (n) =
∑k
ek(n) · 12
(1 + yIIIk (n))(1− yIII
k (n)) · wIIIkj ·
·12
(1 + yIIj (n))(1− yII
j (n))
Pero de la capa IIIF sabemos que:
δIIIk (n) = 1
2 ek(n)(1 + yIIIk (n))(1− yIII
k (n))
Reemplzando:
δIIj (n) =
∑k
δIIIk (n)wIII
kj ·12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
δIIj (n) =
∑k
ek(n) · 12
(1 + yIIIk (n))(1− yIII
k (n)) · wIIIkj ·
·12
(1 + yIIj (n))(1− yII
j (n))
Pero de la capa IIIF sabemos que:
δIIIk (n) = 1
2 ek(n)(1 + yIIIk (n))(1− yIII
k (n))
Reemplzando:
δIIj (n) =
∑k
δIIIk (n)wIII
kj ·12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
δIIj (n) =
∑k
ek(n) · 12
(1 + yIIIk (n))(1− yIII
k (n)) · wIIIkj ·
·12
(1 + yIIj (n))(1− yII
j (n))
Pero de la capa IIIF sabemos que:
δIIIk (n) = 1
2 ek(n)(1 + yIIIk (n))(1− yIII
k (n))
Reemplzando:
δIIj (n) =
∑k
δIIIk (n)wIII
kj ·12
(1 + yIIj (n))(1− yII
j (n))
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
Volviendo a:
∆wIIji (n) = µδII
j (n)yIi (n)
Por lo tanto:
∆wIIji (n) = η
[∑kδIII
k wIIIkj (n)
](1 + yII
j (n))(1− yIIj (n))yI
i (n)
Inteligencia Computacional - FICH - UNL
Retropropagación en la capa II (oculta)
Volviendo a:
∆wIIji (n) = µδII
j (n)yIi (n)
Por lo tanto:
∆wIIji (n) = η
[∑kδIII
k wIIIkj (n)
](1 + yII
j (n))(1− yIIj (n))yI
i (n)
Inteligencia Computacional - FICH - UNL
Generalizando para la capa “p”
∆wIIji (n) = η
[∑k
δIIIk wIII
kj (n)
](1 + yII
j (n))(1− yIIj (n))yI
i (n)
⇓
∆w(p)ji (n) = η
⟨δ(p+1),w(p+1)
j
⟩(1 + y(p)j (n))(1− y(p)j (n))y(p−1)
i (n)
Inteligencia Computacional - FICH - UNL
Resumen del algoritmo de retropropagación (BP)
1. Inicialización aleatoria2. Propagación hacia adelante3. Propagación hacia atras4. Adaptación de los pesos5. Iteración: vuelve a 2 hasta convergencia o finalización
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia adelante
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia adelante
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
wI11
wI12
yI1 = φ(wI
11x1 + wI12x2 + wI
10(−1))
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia adelante
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
wI11
wI12
yI1 = φ(wI
11x1 + wI12x2 + wI
10(−1))
x0 = −1 wI10
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia adelante
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
wI21
wI22
yI2
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia adelante
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
ywI
31
wI32
yI3
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia adelante
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
yII1 = φ(wII
11yI1 + wII
12yI2+
+wII13yI
3 − wII10)
yII2
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia adelante
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
yIII = φ(wIII11yII
1 ++wIII
12yII2 +
−wIII10)
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia atras
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia atras
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
e
δIII = (d − y)12(1 + yIII)(1− yIII)
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia atras
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
eδIII
δII1 = δIIIwIII
1112(1 + yII
1 )(1− yII1 )
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia atras
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
eδIII
δII1 = δIIIwIII
1112(1 + yII
1 )(1− yII1 )
δII2
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia atras
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
eδIII
δII1
δII2
δI1 = (wII
11δII1 + wII
12δII2 )1
2(1 + yI1)(1− yI
1)
Inteligencia Computacional - FICH - UNL
Resumen: propagación hacia atras
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
eδIII
δII1
δII2
δI1
δI2
δI3
Inteligencia Computacional - FICH - UNL
Resumen: ajuste de pesos
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
δI1
δI2
δI3
δII1
δII2
δIII
Inteligencia Computacional - FICH - UNL
Resumen: ajuste de pesos
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
δI1
δI2
δI3
δII1
δII2
δIII
∆wI11 = µδI
1x1
Inteligencia Computacional - FICH - UNL
Resumen: ajuste de pesos
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
δI1
δI2
δI3
δII1
δII2
δIII
∆wI11
∆wI12 = µδI
1x2
Inteligencia Computacional - FICH - UNL
Resumen: ajuste de pesos
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
δI1
δI2
δI3
δII1
δII2
δIII
∆wI11
∆wI12
x0 = −1∆wI
10 = µδI1(−1)
Inteligencia Computacional - FICH - UNL
Resumen: ajuste de pesos
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
δI1
δI2
δI3
δII1
δII2
δIII
∆wI21
∆wI22
Inteligencia Computacional - FICH - UNL
Resumen: ajuste de pesos
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
δII1
δII2
δIII
∆wI31
∆wI32
δI3
Inteligencia Computacional - FICH - UNL
Resumen: ajuste de pesos
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y
δII1
δII2
δIII
Inteligencia Computacional - FICH - UNL
Resumen: ajuste de pesos
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
yδIII
Inteligencia Computacional - FICH - UNL
Resumen: ajuste de pesos
φ(vI1)
φ(vI2)
φ(vI3)
φ(vII1 )
φ(vII2 )
φ(vIII1 )
x1
x2
y