Download - Problema XOR con 3 neuronas - UNL

Problema XOR con 3 neuronas

Diego Milone

Inteligencia ComputacionalDepartamento de Informática

FICH-UNL

Inteligencia Computacional - FICH - UNL

¿Cómo podríamos resolver el problema XOR?

x1

x2

−1

+1

+1

−1


Primera capa: perceptrones A y B

x1

x2

−1

+1

+1

−1

x1

x2

−1

+1

+1

−1



x1

x2

−1

+1

+1

−1

A

x1

x2

−1

+1

+1

−1

A



x1

x2

−1

+1

+1

−1

A

x1

x2

−1

+1

+1

−1

A

B


Segunda capa: perceptron C

x1

x2

−1

+1

+1

−1

A

x1

x2

−1

+1

+1

−1

A

B

x1

x2

−1

+1

+1

−1


Tabla de verdad para el perceptron C

x1

x2

−1

+1

+1

−1

A

B



yB

yA

−1+1

−1

X

C



yB

yA

−1+1

−1 X

C

Nuestra primera red neuronalUn perceptrón multicapa con 3 neuronas

Diego Milone


FICH-UNL


Combinación de perceptrones simples: A

x1

x2

−1

+1

+1

−1

A

Perceptrón A: x2 = −1− x1 = wA0wA2− wA1

wA2x1

→

wA0 = −1wA1 = +1wA2 = +1

→ yA = sgn(x2 + x1 + 1)



x1

x2

−1

+1

+1

−1

APerceptrón A: x2 = −1− x1

= wA0wA2− wA1

wA2x1

→

wA0 = −1wA1 = +1wA2 = +1

→ yA = sgn(x2 + x1 + 1)



x1

x2

−1

+1

+1

−1

APerceptrón A: x2 = −1− x1 = wA0

wA2− wA1

wA2x1

→

wA0 = −1wA1 = +1wA2 = +1

→ yA = sgn(x2 + x1 + 1)


Combinación de perceptrones simples: B

x1

x2

−1

+1

+1

−1

A

B

Perceptrón B: x2 = +1− x1

→

wB0 = +1wB1 = +1wB2 = +1

→ yB = sgn(x2 + x1 − 1)


Combinación de perceptrones simples: C

yB

yA

−1+1

−1 X

A

C

Perceptrón C: yA = +1 + yB

→

wC0 = +1wC1 = −1wC2 = +1

→ yC = sgn(yA − yB − 1)


¿Cómo es la arquitectura de esta red neuronal?

wC0 = +1wC1 = −1wC2 = +1

wA0 = −1

wA1 = +1wA2 = +1

wB0 = +1

wB1 = +1wB2 = +1

yA = sgn(x2 + x1 + 1)yB = sgn(x2 + x1 − 1)

}→ yC = sgn(yA − yB − 1)


Y... ¿resolverá el XOR?

x1

x2

A

B

C y

1

1

1

1

1

−1

x0 = −1−1

1

1



x1

x2

A

B

C y

1

1

1

1

1

−1

x0 = −1

−1

1

1



x1

x2

A

B

C y

1

1

1

1

1

−1

x0 = −1−1

1

1



x1

x2

A

BC y

11

11

1

−1

x0 = −1−1

1

1

yA = sgn(x2 + x1 + 1)yB = sgn(x2 + x1 − 1)

}→ yC = sgn(yA−yB−1)



x1

x2

A

BC y

11

11

1

−1

x0 = −1−1

1

1 yA = sgn(x2 + x1 + 1)yB = sgn(x2 + x1 − 1)

}→ yC = sgn(yA−yB−1)

Perceptrón multicapa:regiones de decisión y arquitectura

Diego Milone


FICH-UNL


Regiones de decisión


Arquitectura del perceptrón multicapa

x1

x2

x3

x4

y1

y2

Capaoculta

Capa deentrada

Capa desalida


Arquitectura del perceptrón multicapa

x1

x2

x3

x4

y1

y2

WII

yIIWI

yIWIII

yIII


Cálculo de las salidas en cada capa

• Capa I:

vIj =

⟨wI

j , x⟩

=N∑

i=0wI

jixi (completo vI = WIx)

yIj = φ(vI

j ) =2

1 + e−bvIj− 1 (simétrica ± 1)

• Capa II:vII

j =⟨

wIIj , yI

⟩→ yII

j = φ(vIIj )

• Capa III:vIII

j =⟨

wIIIj , yII

⟩→ yIII

j = φ(vIIIj ) = yj

Propagación hacia atrás:caso general y capa de salida

Diego Milone


FICH-UNL


Criterio de error

Suma del error cuadrático instantáneo

ξ(n) =12

M∑j=1

e2j (n)


Aplicación del gradiente (caso general)

∆wji(n) = −µ ∂ξ(n)∂wji(n)

∂ξ(n)

∂wji(n)=∂ξ(n)

∂ej(n)

∂ej(n)

∂yj(n)

∂yj(n)

∂vj(n)

∂vj(n)

∂wji(n)




∂ξ(n)

∂wji(n)=∂ξ(n)

∂ej(n)

∂ej(n)

∂yj(n)

∂yj(n)

∂vj(n)

∂vj(n)

∂wji(n)

∂vj(n)

∂wji(n)=

∂N∑

i=0wji(n)yi(n)

∂wji(n)= yi(n)




∂ξ(n)

∂wji(n)=

∂ξ(n)

∂ej(n)

∂ej(n)

∂yj(n)

∂yj(n)

∂vj(n)yi(n)

Gradiente de error local instantáneo: δj =∂ξ(n)

∂yj(n)

∂yj(n)

∂vj(n)



∆wji(n) = µδj(n)yi(n)

∂ξ(n)

∂wji(n)=∂ξ(n)

∂ej(n)

∂ej(n)

∂yj(n)

∂yj(n)

∂vj(n)yi(n)

Gradiente de error local instantáneo: δj =∂ξ(n)

∂yj(n)

∂yj(n)

∂vj(n)


Derivada de la función de activación simétrica (1/2)

∂yj(n)

∂vj(n)=

∂{

21+e−vj(n) − 1

}∂vj(n)

= 2e−vj(n)(

1 + e−vj(n))2

= 21

1 + e−vj(n)

e−vj(n)

1 + e−vj(n)

= 21

1 + e−vj(n)

0︷︸︸︷−1 + 1 +e−vj(n)

1 + e−vj(n)

= 21

1 + e−vj(n)

(−1

1 + e−vj(n)+

1 + e−vj(n)

1 + e−vj(n)

)


Derivada de la función de activación simétrica (2/2)

∂yj(n)

∂vj(n)= 2

11 + e−vj(n)

(1− 1

1 + e−vj(n)

)= 2

yj(n) + 12

(1−

yj(n) + 12

)= (yj(n) + 1)

(1−

yj(n) + 12

)= (yj(n) + 1)

(2− yj(n)− 1

2

)=

12

(yj(n) + 1)(yj(n)− 1)



∆wji(n) = µδj(n)yi(n)

∂ξ(n)

∂wji(n)=∂ξ(n)

∂ej(n)

∂ej(n)

∂yj(n)

∂yj(n)

∂vj(n)yi(n)

Gradiente de error local instantáneo: δj = − ∂ξ(n)

∂yj(n)

∂yj(n)

∂vj(n)

δj =∂ξ(n)

∂yj(n)

12

(1 + yj(n))(1− yj(n))


Retropropagación en la capa III (salida)

∆wIIIji (n) = µδIII

j (n)yIIi (n)

δIIIj (n) = − ∂ξ(n)

∂yIIIj (n)

12

(1 + yIIIj (n))(1− yIII

j (n))

δIIIj (n) = − ∂ξ(n)

∂ej(n)

∂ej(n)

∂yIIIj (n)

12


j (n))


Retropropagación en la capa III (salida)

δIIIj (n) = −

∂{

12∑

j e2j (n)

}∂ej(n)

·∂{

dIIIj (n)− yIII

j (n)}

∂yIIIj (n)

·

·12


j (n))

δIIIj (n) = 1

2 ej(n)(1 + yIIIj (n))(1− yIII

j (n))F

∆wIIIji (n) = ηej(n)(1 + yIII

j (n))(1− yIIIj (n))yII

i (n)

Propagación hacia atrás:capas ocultas

Diego Milone


FICH-UNL


Retropropagación en la capa II (oculta)

∆wIIji (n) = µδII

j (n)yIi (n)

δIIj (n) = − ∂ξ(n)

∂yIIj (n)

12

(1 + yIIj (n))(1− yII

j (n))

δIIj (n) = −

∂{ 1

2∑

k e2k(n)

}∂yII

j (n)

12

(1 + yIIj (n))(1− yII

j (n))

δIIj (n) = −1

2

∑k

∂e2k(n)

∂yIIj (n)

12

(1 + yIIj (n))(1− yII

j (n))

δIIj (n) = −

∑k

ek(n)∂ek(n)

∂yIIj (n)

12

(1 + yIIj (n))(1− yII

j (n))



δIIj (n) = −

∑k

ek(n)∂ek(n)

∂yIIIk (n)

∂yIIIk (n)

∂vIIIk (n)

∂vIIIk (n)

∂yIIj (n)

12

(1+yIIj (n))(1−yII

j (n))

δIIj (n) = −

∑k

ek(n)·∂{

dIIIk (n)− yIII

k (n)}

∂yIIIk (n)

· 12

(1 + yIIIk (n))(1− yIII

k (n)) ·

·∂{∑

j wIIIkj yII

j (n)}

∂yIIj (n)

· 12

(1 + yIIj (n))(1− yII

j (n))

δIIj (n) = −

∑k

ek(n)·(−1) · 12


k (n)) ·

·wIIIkj ·

12

(1 + yIIj (n))(1− yII

j (n))



δIIj (n) =

∑k

ek(n) · 12


k (n)) · wIIIkj ·

·12

(1 + yIIj (n))(1− yII

j (n))

Pero de la capa IIIF sabemos que:

δIIIk (n) = 1

2 ek(n)(1 + yIIIk (n))(1− yIII

k (n))

Reemplzando:

δIIj (n) =

∑k

δIIIk (n)wIII

kj ·12

(1 + yIIj (n))(1− yII

j (n))



Volviendo a:

∆wIIji (n) = µδII

j (n)yIi (n)

Por lo tanto:

∆wIIji (n) = η

[∑kδIII

k wIIIkj (n)

](1 + yII

j (n))(1− yIIj (n))yI

i (n)


Generalizando para la capa “p”

∆wIIji (n) = η

[∑k

δIIIk wIII

kj (n)

](1 + yII

j (n))(1− yIIj (n))yI

i (n)

⇓

∆w(p)ji (n) = η

⟨δ(p+1),w(p+1)

j

⟩(1 + y(p)j (n))(1− y(p)j (n))y(p−1)

i (n)


Resumen del algoritmo de retropropagación (BP)

1. Inicialización aleatoria2. Propagación hacia adelante3. Propagación hacia atras4. Adaptación de los pesos5. Iteración: vuelve a 2 hasta convergencia o finalización


Resumen: propagación hacia adelante

φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

wI11

wI12

yI1 = φ(wI

11x1 + wI12x2 + wI

10(−1))



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

wI11

wI12

yI1 = φ(wI

11x1 + wI12x2 + wI

10(−1))

x0 = −1 wI10



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

wI21

wI22

yI2



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

ywI

31

wI32

yI3



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

yII1 = φ(wII

11yI1 + wII

12yI2+

+wII13yI

3 − wII10)

yII2



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

yIII = φ(wIII11yII

1 ++wIII

12yII2 +

−wIII10)


Resumen: propagación hacia atras

φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

e

δIII = (d − y)12(1 + yIII)(1− yIII)



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

eδIII

δII1 = δIIIwIII

1112(1 + yII

1 )(1− yII1 )



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

eδIII

δII1 = δIIIwIII

1112(1 + yII

1 )(1− yII1 )

δII2



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

eδIII

δII1

δII2

δI1 = (wII

11δII1 + wII

12δII2 )1

2(1 + yI1)(1− yI

1)



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

eδIII

δII1

δII2

δI1

δI2

δI3


Resumen: ajuste de pesos

φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

δI1

δI2

δI3

δII1

δII2

δIII



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

δI1

δI2

δI3

δII1

δII2

δIII

∆wI11 = µδI

1x1



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

δI1

δI2

δI3

δII1

δII2

δIII

∆wI11

∆wI12 = µδI

1x2



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

δI1

δI2

δI3

δII1

δII2

δIII

∆wI11

∆wI12

x0 = −1∆wI

10 = µδI1(−1)



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

δI1

δI2

δI3

δII1

δII2

δIII

∆wI21

∆wI22



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

δII1

δII2

δIII

∆wI31

∆wI32

δI3



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y

δII1

δII2

δIII



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

yδIII



φ(vI1)

φ(vI2)

φ(vI3)

φ(vII1 )

φ(vII2 )

φ(vIII1 )

x1

x2

y