Aprendizaje Refuerzo

Universidad Técnica Universidad Técnica particular de Lojaparticular de Loja

Aprendizaje por RefuerzoAprendizaje por Refuerzo

Por: Alexandra Cueva E.

IntroducciónIntroducciónEl aprendizaje por refuerzo consiste en

aprender a decidir ante una situación predeterminada que acción es la más adecuada para lograr el objetivo.

Figura 1

1

Oficina

Camino Dañado

Camino libre

IntroducciónIntroducción

Se utiliza los procesos de decisión de Markov que establece un marco matemático en el que se basa el aprendizaje por refuerzo.

Aprendizaje por RefuerzoAprendizaje por RefuerzoUn agente H/S está conectado a su entorno vía

percepción y acción. En donde el agente recibe a través de sensores el estado en que se encuentra s, y el agente decide ejecutar la acción a, que genera una salida que cambia el estado del entorno s’, transmitiendo una señal de refuerzo r.

Figura 2EntornoT(s,a)R(s,a)

Agenteπ (s)

a

r

s’

r

s

Aprendizaje por RefuerzoAprendizaje por RefuerzoSe tienen que:Π = Elige la acción que incrementa la

suma de todas las señales de aprendizaje recibidas.

S = Conjunto de estados.A = Conjunto de acciones.R = Calcula el esfuerzo que recibe el

agente.T= Transiciones de estado.

Proceso de decisión de Proceso de decisión de MarkovMarkovNos dice que no importa las acciones

que se hayan llevado a cabo para alcanzar el estado actual, ya que el estado actual es suficiente para decidir cuales son las acciones futuras.

Ejemplo de proceso markoviano sería el juego del tres en raya en el que la decisión de mover una determinada ficha, sólo depende de la configuración actual del tablero (estado) y no del conjunto de movimientos anteriores que he realizado.

Proceso de decisión de Proceso de decisión de MarkovMarkovLa importancia de la propiedad de

Markov para los problemas de aprendizaje por refuerzo, es que no importa el camino que se a tomado para llegar al estado actual, si no que solo se rige al estado en que se encuentra para tomar una decisión.

Proceso de Decisión de Proceso de Decisión de MarkovMarkov

Proceso de Markov finito .-Si el número de estados y acciones definidas en un modelo son finitos.

Figura 3

a1=0,1

a2=1

a1=0,9

a1=0,9

a3=0,5

a2=1

a3=0,

5

a1=0,

1meta

Proceso de Decisión de Proceso de Decisión de MarkovMarkovLa figura 3 se muestra una ilustración

de un MPD.

En donde los círculos representan estados es estado sombreado es la meta. Las flechas entre los estados representan una probabilidad de transición a cada uno de los estados cuando se ejecuta una acción

Descomposición de las Descomposición de las cadenas de Markovcadenas de MarkovDadas dos clases comunicantes en una

cadena de Markov, o bien son iguales, o bien son disjuntas.

Se puede escribir una cadena de Markov como la unión de una serie de clases comunicantes no coherentes.

Descomposición de las Descomposición de las cadenas de Markovcadenas de MarkovHay que tener cuidado con los

conjuntos de estados cerrados, es decir, aquellos en los que desde ningún estado interno al conjunto es accesible ningún estado externo.

Cadena de Markov irreducible: si todos los pares de estados de la cadena se comunican, por tanto la cadena estará formada exactamente por una sola clase comunicante.

BibliografíaBibliografíaAprendizaje por Refuerzo en

Tablas Disponible en WWW: http://www.cs.us.es/~delia/sia/html98-99/pag-alumnos/web10/indice.html.

Aprendizaje Automático conceptos básicos y avanzados. Autor: Basilio Sierra Araujo.

Aprendizaje Refuerzo

Documents

Transcript of Aprendizaje Refuerzo