Post on 05-Oct-2020
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer Learning
Eduardo Morales
INAOE
(INAOE) 1 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Contenido
1 Introduccion
2 Transfer en Aprendizaje por Refuerzo
3 Tranfer en Redes Bayesianas
4 Tranfer en Arboles de Descision
5 Temas relacionados y preguntas abiertas
(INAOE) 2 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Antecedentes
• Los algoritmos de aprendizaje han logrado avancesmuy importantes en los ultimos anos
• En general suponen que los ejemplos de entrenamientoy prueba tienen los mismos atributos y provienen de lamisma distribucion
• Si la distribucion cambia, normalmente se tienen quereconstruir los modelos
• En algunas aplicaciones es muy caro o no se puedenrecolectar los ejemplos de entrenamiento parareconstruir un modelo
• Aprendizaje por transferencia o transfer learning puedeayudar en tales casos
(INAOE) 3 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Transfer Learning
• TL puede servir cuando los datos:• Son escasos• Estan desactualizados
• TL permite que los dominios, tareas y distribucionessean diferentes en los ejemplos de entrenamiento yprueba
(INAOE) 4 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Transfer Learning
• Definicion: Dado un dominio (Df ) y tarea (Tf ) fuentes,un dominio (Do) y tarea (To) objetivos, aprendizaje portransferencia busca mejorar el aprendizaje de la funcionobjetivo usando conocimiento en Df y Tf
• Cuando las tareas son diferentes entonces losdominios de las clases son diferentes
(INAOE) 5 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Transfer Learning
• En TL se consideran tres aspectos fundamentales:• ¿Que transferir?• ¿Como transferir?• ¿Cuando transferir?
• El transferir conocimiento no siempre es util y puededanar el desempeno de los algoritmos (negativetransfer)
(INAOE) 6 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Algoritmos
Podemos catalogar a los algoritmos de TL en tres:• Inductive transfer learning: la tarea fuente y objetivo son
diferentes: (i) se tienen muchos datos del dominiofuente, (ii) no se tienen datos del dominio fuente
• Transductive transfer learning: las tareas de la fuente yobjetivo son las mismas, pero los dominios sondiferentes: (i) los espacios de atributos son diferentesen la fuente y en el objetivo, (ii) los atributos son igualespero las probabilidades marginales son diferentes(P(Xf ) 6= P(Xo))
• Unsupervised transfer learning: no se tienen datosetiquetados en ningun caso, las tareas son diferentespero de alguna forma relacionadas
(INAOE) 7 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Algoritmos
(INAOE) 8 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Inductive Transfer Learning
Opciones de conocimiento a transferir:• Transferir instancias: en este caso los espacios de
atributos son iguales, aunque no necesariamente todoslos ejemplos son utiles
• Transferir la representacion de los atributos: aprenderuna representacion de baja dimensionalidad que sepueda compartir entre tareas
• Transferir parametros: ya sean parametros odistribuciones de los algoritmos de aprendizajeutilizados
• Transferir conocimiento relacional: relacionesequivalentes entre dominios
(INAOE) 9 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Transductive Transfer Learning
• En transductive learning todos los ejemplos(entrenamiento y prueba) se conocen de entrada y entransductive transfer learning se conocen algunosejemplos no etiquetados de la tarea objetivo
• Se pueden transferir:• Instancias: usan muestreos (importance sampling)• Transferir la representacion de los atributos
(INAOE) 10 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Unsupervised Transfer Learning
• No se tienen etiquetas en los ejemplos fuente y objetivo• Se pueden transferir representaciones de atributos,
e.g., Self-taught clustering: clustering de una pequenacoleccion de datos sin etiquetas usando una grancantidad de datos no etiquetados de la fuente
(INAOE) 11 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Transferencia Negativa
• Ocurre cuando el dominio y tarea fuentes reducen eldesempeno del aprendizaje en la tarea objetivo
• ¿Que falta?:• ¿Como evitar transferencia negativa?• Estudiar “transferibilidad” entre dominios fuente y
objetivo• ¿Se puede transferir parte del dominio?• Transferir entre dominios y tareas multiples con
diferentes atributos (heterogeneous transfer learning)• Escalarlo a aplicaciones mas grandes
(INAOE) 12 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Introduccion
Transfer Learning
• En esta clase solo vamos a ver algunos aspectos deInductive Transfer Learning
• Nos vamos a enfocar en transferencia en tres areas:• Aprendizaje por Refuerzo• Redes Bayesianas• Arboles de decision
(INAOE) 13 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Transfer en Aprendizaje por Refuerzo
RL:• No requiere de un modelo del ambiente• El agente aprende solo• Converge a la polıtica optima
Pero:• El aprendizaje es lento• Pocos desarrollos en ambientes complejos con
variables continuas• No se pueden reutilizar polıticas
(INAOE) 14 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Transfer en Aprendizaje por Refuerzo
• En Aprendizaje por Refuerzo (RL), TL se usa para usarconocimiento de una o mas tareas fuente paraaprender una o mas tareas objetivo
• Los pasos a seguir son:• Dada una tarea objetivo, seleccionar la(s) tarea(s)
fuente(s) de las cuales se va a transferir• Aprender como se relacionan las tareas fuente y
objetivo• Transferir de forma efectiva conocimiento de la(s)
fuente(s) a la(s) tarea(s) objetivo
(INAOE) 15 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Metricas de Desempeno
Se pueden usar diferentes metricas para evaluar losbeneficios de TL:• Jumpstart: El desempeno inicial de un agente en la
tarea objetivo• Desempeno asintotico: El desempeno final del agente
en la tarea objetivo• Recompensa total: La recompensa total acumulaa• Razon de transferencia: La division entre la
recompensa total acumulada con y sin transferencia• Tiempo para alcanzar el umbral: El tiempo requerido
para alcanzar un nivel de desempeno pre-establecido
(INAOE) 16 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Efectos de TL en RL
(INAOE) 17 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Seleccion de Diferentes Fuentes
• ¿Que suposiciones se hacen en cuanto a las posiblesdiferencias entre el fuente y el objetivo?
• ¿Como garantizar no transferir de tareas irrelevantes?• ¿Se hace seleccion de diferentes fuentes?• ¿Se hace un mapeo entre tareas? Esta dado o es
automatico? (Inter-task mapping• ¿Se puede transferir informacion cualitativa?• En general, en la mayorıa de los algoritmos el mapeo lo
da el usuario!
(INAOE) 18 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Conocimiento a Transferir
• Puede ser conocimiento de bajo nivel, e.g., tuplas< s,a, r , s′ >, funciones de valor (V ,Q), la polıtica (π),el modelo de transicion (p(s′ | s,a))
• Pueden ser de mas alto nivel, e.g., que acciones usaren determinado momento, polıticas parciales uopciones, distribuciones a priori, atributos relevantespara aprender, reward shaping, definicion de subtareas
• ¿Que algoritmos se pueden usar?
(INAOE) 19 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Conocimiento a Transferir
• Se puede transferir entre tareas que tengan diferentes:funciones de transicion (p(s′ | s,a)), espacio deestados (S), estados iniciales (s0), estados metas (sf ),variables de estado (S), funciones de recompensa (R),conjuntos de acciones (A), ...
• Relacionado: Multi-Task Learning suponen que todoslos problemas son de la misma distribucion, e.g.,aprender varios pendulos invertidos.
(INAOE) 20 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Aplicaciones
Vamos a describir aplicaciones en donde:• Transferimos (hiper-)parametros• Transferimos tuplas transformadas
En un contexto de Procesos Gaussianos
(INAOE) 21 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Procesos Gaussianos
• Distribucion Gaussiana multivariada
p(x ;µ,Σ) =1
(2π)n/2|Σ|1/2 exp(−12
(x − µ)T Σ−1(x − µ))
• Un proceso gaussiano es una generalizacion a unnumero infinito de variables: GP(m(·), k(·, ·))
(INAOE) 22 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Motivacion
Aunque parece peor trabajar con dimensionalidad infinita, loque se calcula se hace en dimensiones finitas
(INAOE) 23 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Procesos Gaussianos
• En particular, se debe cumplir que:
p
([~h~h∗
]|X ,X∗
)∼ N
(~0,[
k(X ,X ) k(X ,X∗)k(X∗,X ) k(X∗,X∗)
])• Para el ruido:
p([
~ε~ε∗
])∼ N
(~0,
[σ2I ~0~0T σ2I
])
(INAOE) 24 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Procesos Gaussianos
• Suponemos que son independientes, por lo que susuma tambien lo es:[
~y~y∗
]|X ,X∗ =
[~h~h∗
]+
[~ε~ε∗
]∼
N(~0,[
k(X ,X ) + σ2I k(X ,X∗)k(X∗,X ) k(X∗,X∗) + σ2I
])
(INAOE) 25 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Procesos Gaussianos
• Usando las reglas de condicionamiento gaussianas, sesigue que:
~y∗|~y ,X ,X∗ ∼ N (µ∗,Σ∗)
donde:
µ∗ = K (X∗,X )(K (X ,X ) + σ2I)−1~y
Σ∗ = K (X∗,X∗)+σ2I−K (X∗,X )(K (X ,X )+σ2I)−1K (X ,X∗)
(INAOE) 26 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Kernel e Hiperparametros
k(x , x ′) = α20exp(−1
2(
(x − x ′
λ)2)
(INAOE) 27 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Calculo de los Hiperparametros
• Recordando la definicion de una distribucion gaussianamultivariable:
p(x |µ,Σ) =1
(2π)n/2|Σ|1/2 exp(−12
(x − µ)T Σ−1(x − µ))
• P(y |x , θ) sigue una distribucion gaussiana multivariablecon media cero y covarianza de K + σ2
nI (siconsideramos ruido)
logp(y |x , θ) = −12
yT (K + σ2nI)−1y − 1
2log|K + σ2
nI| − n2
log2π
(INAOE) 28 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Hiperparametros
• Los hiperparametros nos determinan las posiblesdistribuciones
• Para obtener los hiperparametros podemos derivar conrespecto a θ
• Se sigue un proceso basado en gradiente (es unproblema de optimizacion no-convexo), por ejemplo,basado en gradiente conjugado o quasi-Newton
• Se puede caer en mınimos locales
(INAOE) 29 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
PILCO
• PILCO (Probabilistic Inference for Learning Control)• xt = f (xt−i ,ut−i)
• P(xt |xt−i ,ut−i) = GP(m, k)
• PILCO usa diferencias como predictor: ∆t = xt − xt−i yun kernel exponencial cuadrado
(INAOE) 30 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
PILCO
Interact with environment, apply π to obtain tuplesREPEAT
Infer transition function distribution f fromtuples and hyper-parameters θ
REPEATEvaluate policy π over fGet Vπ
Improve π (Updating parameters ψ)UNTIL convergenceπ ← π(ψ)Interact with environment, apply π to obtain more tuplesLearn θpi from all tuples
UNTIL task learned
(INAOE) 31 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Motivacion
VIDEO DE PILCO
(INAOE) 32 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
QTL• La idea es transferir hiperparametros (sesgo sobre la
distribucion de posibles funciones de transicion)• Hay que definir como hacer la transferencia• Esta se hace de forma gradual:
• Usando un factor de olvido
Θ0 = Θs
Θi = γΘi−i + (1− γ)Θpi , i > 0
• Actualizacion Bayesiana
p(Θpk ) ∼ N (µp, σ2p) σ2
k =σ2
pσ2k−i
σ2p+σ2
k+1
p(Θ | Θpk ) ∼ N (µk , σ2k ) σ2
k=0 = 1nsource
µk = σ2k
(µk−1
σ2k−1
+µp
σ2p
)σ2
p = 1ntarget
(INAOE) 33 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Transferir Tuplas
• Al transferir tuplas se tiene que definir cuales• Filtro de Lazaric:
• ¿De donde transferir? La probabilidad de que la tareaorigen genere muestras de la tarea destino (taskcompliance)
• ¿Cuales transferir? Muestras muy relevantes o muyalejadas (relevance)
(INAOE) 34 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
SST
Sıntesis de Tuplas:• Aprender una funcion de transicion en la tarea objetivo• Aprender/usar la funcion de transicion de la tarea
original• Aprender una funcion de diferencias• En espacios poco explorados, generar ejemplos
artificiales usando los ejemplos de la tarea original y lafuncion de diferencias
(INAOE) 35 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Donde y Cuantas Tuplas
• En lugares desconocidos (alejados en < s,a >): Si yatengo ejemplos, no necesito generar
• Generar hasta completar el numero de ejemplosusados en la tarea original
• Mantener ese numero fijo => ir reduciendo el numerode ejemplos de la tarea original conforme se explora latarea objetivo
(INAOE) 36 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Proceso
(INAOE) 37 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Proceso
(INAOE) 38 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Proceso
(INAOE) 39 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Proceso
(INAOE) 40 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Experimentos
Probar en 3 dominios:
1 Pendulo invertido(clasico)
2 Auto en la montana(tranferencianegativa)
3 De cuadricoptero ahelicoptero
(INAOE) 41 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Experimentos QTL
Probar:• Transferencia desde diferentes variantes• Usar hiperparametros de la tarea original• Usar la polıtica de la tarea original• Diferentes valores de γ (γ = 0 => PILCO)• Enfoque Bayesiano
(INAOE) 42 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Resultados
(INAOE) 43 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Resultados
(INAOE) 44 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Resultados
(INAOE) 45 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Experimentos SST
• PILCO• Transferir todas la tuplas• Transferir usando un filtro simple• Transferir usando el filtro de Lazaric• Todas las tuples + SST• Filtro simple + SST• Filtro Lazaric + SST
(INAOE) 46 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Resultados SST
(INAOE) 47 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Resultados SST
(INAOE) 48 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Resultados SST
(INAOE) 49 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Transfer en Aprendizaje por Refuerzo
Helicoptero a Cuadroptero
VIDEO
(INAOE) 50 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Transfer en Redes Bayesianas
• Las Redes Bayesianas han probado ser un formalismoadecuado para tratar informacion con incertidumbre
• Para aprender una Red Bayesiana necesitamosdeterminar la estructura de la red y las tablas dedependencia condicional
• Con pocos datos lo que se aprende es poco confiable• Vamos a ver un mecanimo de transferencia usando
como base el algorithm PC
(INAOE) 51 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Transfer en Redes Bayesianas
• PC aprende un esqueleto (grafo no dirigido) y despuesdetermina la direccion de las ligas
• Para determinar el esqueleto empieza con una red nodirigida completamente conectada y determina laindependencia condicional de cada par de variablesdados subconjuntos de variables
• TL en BNs: Algoritmo para aprendizaje de redbayesiana incorporando informacion de bases de datosauxiliares
(INAOE) 52 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
TL en BN
• Extension del algoritmo PC, para el caso en dondetenemos pocos datos para la tarea objetivo y tenemosmuchos datos de tareas fuentes
• Las diferencias con PC son en la forma en que seevaluan las pruebas de independencia
• Para cada par de variables X,Y la medida deindependiencia es una combinacion lineal de laestimacion de la tarea objetivo con la tarea del dominioauxiliar mas cercana
• La combinacion lineal es pesada por factores quedeterminan una medida de confianza
(INAOE) 53 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Algoritmo
Initialize a complete undirected graph G′, Set i = 0repeat
for X ∈ X dofor Y ∈ ADJ(X ) do
for S ⊆ ADJ(X )− {Y}, | S |= i doFind the most similar auxiliary domain, k , and its similaritymeasure SkXY
Determine the confidence measures α(X ,Y |S) for targetand auxiliary domainsObtain the combined independence measure IF (X ,Y | S)if IF (X ,Y | S) then
Remove the edge X − Y from G′
end ifend for
end forend fori=i + 1
until | ADJ(X ) |≤ i , ∀XOrient edges in G′
(INAOE) 54 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
TL en BN
• La medida de entropıa cruzada utilizada en PCdepende del tamano de la base de datos
• Se puede mostrar que el error de esta prueba esproporcionalmente asintotico a log N
2N , donde N es eltamano de la base de datos
• Para estimar la confianza en la prueba deindependencia entre X y Y , dado S:
α(X ,Y |S) = 1− log N2N
× T
donde T =| X | × | Y | × | S |
(INAOE) 55 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Similitud entre Tareas
• Para medir la similaridad entre tareas se usa unamedida de similaridad global y una local
• La medida global considera todas las medidas deindependencia condicional I(X ,Y | S)
SgDj = depj + indj
• depj = numero de dependencias condicionalescomunes entre la tarea objetivo y la tarea auxiliar j
• indj = numero de independencias condicionalescomunes entre todos los pares de variables en la tareaobjetivo y la tarea auxiliar j
(INAOE) 56 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Similitud entre Tareas
• La medida local de similaridad es:
SlDj(X ,Y ) =
{1,0 If I0(X ,Y |S) = IDj(X ,Y |S)0,5 If I0(X ,Y |S) 6= IDj(X ,Y |S)
Donde:• I0(X ,Y |S) = resultado de la prueba de independencia
en la tarea objetivo• IDj (X ,Y |S) = resultado de la prueba en la tarea auxiliar j
• Las constantes dan diferente peso a las estructurasauxiliares que tienen la misma o diferente estructuralocal
(INAOE) 57 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Similitud entre Tareas• Se combinan estas dos medidas como:
Sk∗XY = SgDk × SlDk (X ,Y )
• Y la medida combinada de independencia se calculacomo una combinacion lineal pesada de las medidasde independencia de las tareas objetivo y fuentes:
IF (X ,Y |S) = α0(X ,Y |S)× sgn(I0(X ,Y |S))+
Sk∗XY(αDXY (X ,Y |S)× sgn(IDXY (X ,Y |S))
)• sgn(I) = +1 si la prueba de independencia es positiva y−1 de otra forma
• α0(X ,Y |S) es la medida de confianza en el dominioobjetivo
• αDXY (X ,Y |S) es la medida de confianza en la tareaauxiliar mas similar para {X ,Y} condicionado en S
(INAOE) 58 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Aprendizaje de Parametros
• Combinar las CPTs (tablas de probabilidad condicional)• Unificar variables:
• Mismas variables: facil• Mas padres en las estructuras auxiliares: aplicar
marginalizacion (sumar sobre todos los valores de lasvariables extra)
• Menos padres en las estructuras auxiliares: duplicar losvalores de las CPTs para todos los valores de lasvariables extra
• Una combinacion de las 2 anteriores: primeromarginalizar y luego duplicar
(INAOE) 59 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Tablas de Probabilidad Condicional
Ya que se tienen las mismas variables existen varias formasde combinar los valores de las CPTs:• Lineal:
P(X ) = k ×n∑
i=1
wiPi(X )
Pi(X ) probabilidad condicional del i-esimo modelo, wies el peso asociado esa probabilidad y k es un factorde normalizacion
• Logarıtmica.
P(X ) = k ×n∏
i=1
Pi(X )wi
(INAOE) 60 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Distance Based Linear Pool
• Obten las probabilidades promedio de todas las BDsdescontadas por su nivel de confianza (fi ):
p = kn∑
i=1
(fi × pi)
k es un factor de normalizacion, y fi depende deltamano de los datos
fi =
{1− log(cf )
cfif cf ≥ 3
1− cf×log(3)3 if cf < 3
donde cf = NT×2 , donde N es el numero de datos y T el
numero de casos en la CPT
(INAOE) 61 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Distance Based Linear Pool
• Estima la nueva probabilidad condicional como:
p′target = (1− ci)ptarget + cip
donde: ci expresa cuanto considerar de las CPT deotras redes
ci = (di − dmin)×(
cmax − cmin
dmax − dmin
)+ cmin
donde dmax y dmin es la distancia maxima y mınima dela probabilidad objetivo con respecto al promedio y cmaxy cmin indica que tan cerca queremos considerar lainfluencia de otras CPT
(INAOE) 62 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Local Linear Pool
• Usa solo las mas parecidas a las locales y las pesa deacuerdo a su confianza
p′target = ftarget × ptarget + (1− ftarget )× plocal
donde ftarget da el nivel de confianza en las CPTs (fi deantes) y
plocal =1n
n∑i=1
pi ∀pi s.t. pi ∈ {ptarget ± (ptarget − p)}
(INAOE) 63 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Resultados cambiando la cantidad dedatos
(INAOE) 64 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Resultados cambiando datos y numero defuentes
(INAOE) 65 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
TL en Redes Bayesianas de NodosTemporales
• Una red bayesiana de nodos temporales sirve paramodelar procesos dinamicos que estan caracterizadospor cambios irreversibles
Dominio auxiliar
Dominio auxiliar
Dominio auxiliar
Dominio objetivo
(INAOE) 66 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Esquema General
(INAOE) 67 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Determinacion de Intervalos
(INAOE) 68 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Redes Bayesianas
Resultados en HIV
(INAOE) 69 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Arboles de Descision
Transferencia Usando Aboles de Decision
• Se tienen datos relacionados a estres y sus modelos(arboles) para varios personas
• Se tiene un usuario nuevo, con pocos datos, y se quieredar una estimacion aceptable de su nivel de estres
• Idea: Transferir datos/modelos de otros usuarios paramejorar la prediccion del nuevo
(INAOE) 70 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Arboles de Descision
Transferencia Usando Aboles de Decision
Se probaron 4 esquemas de transferencia:1 Naıve: Encuentra el modelo mas parecido, transfiere
los datos (los junta con los del nuevo usuario) e induceun nuevo arbol
2 Umbral: Encuentra los modelos mas parecidos (arribade cierto umbral), transfiere los datos de los usuariosparecidos e induce un nuevo arbol
3 Muestreo: Encuentra los k modelos mas parecidos ymuestrea sus datos proporcionalmente a su medida desimilaridad
4 Ensamble: Usa los k modelos mas parecidos, junto conel modelo del usuario y construye un ensamble pesadopor la similaridad
(INAOE) 71 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Arboles de Descision
Medidad de Similaridad entre Arboles
• Sean Di y Dj dos arboles con H y K hojas queclasifican n ejemplos.
• Formamos la matriz:M = [mhk ], h = 1, . . . ,H y k = 1, . . . ,K donde mhk es elnumero de ejemplos que pertenencen a la h-esima hojade Di y a la k -esima hoja de Dj ymh0 =
∑Kk=1 mhk ,
m0k =∑H
h=1 mhk .• La medida se disimilatidad se define como:
d(Di ,Dj) =H∑
h=1
αh(1− sh)mh0
n+
K∑k=1
αk (1− sk )m0k
n
donde las m miden la similaridad predictiva y las α y smiden la similaridad estructural
(INAOE) 72 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Arboles de Descision
Medidad de Similaridad entre Arboles
• shk mide la similaridad entre hojas tomando en cuentalas clases y ejemplos:
shk =mhkchk√mh0m0k
k = 1, . . . ,K
donde chk = 1 si la h-esima hoja de Di tiene la mismaclase que la k -esima hoja de Dj , y chk = 0 si no.
• sh = max{shk , k = 1, . . . ,K}
(INAOE) 73 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Arboles de Descision
Medidad de Similaridad entre Arboles• αh = q − p + 1 mide la disimilaridad entre hojas,
dependiendo de la longitud de los caminos diferentes(p), y la profundidad en donde difieren (q)
• El valor maximo de d(Di ,Dj) se alcanza cuando ladiferencia entre los arboles es maxima y su similaridadde prediccion es cero
• El factor de normalizacion es:
max d(Di ,Dj) =H∑
h=1
αhmh0
n+
K∑k=1
αkm0k
n
donde αh es la longitud del nodo raız a la h-esima hoja• La medida de disimilaridad normalizada es entonces:
dn =d(Di ,Dj)
max d(Di ,Dj)
(INAOE) 74 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Tranfer en Arboles de Descision
Resultados
(INAOE) 75 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Temas relacionados y preguntas abiertas
Algunas Tecnicas Relacionadas
• Lifelong learning• Imitation learing• Human advice• Shaping• Concept Drift
(INAOE) 76 / 77
Introduccion
Transfer enAprendizajepor Refuerzo
Tranfer enRedesBayesianas
Tranfer enArboles deDescision
Temasrelacionados ypreguntasabiertas
Temas relacionados y preguntas abiertas
Preguntas Abiertas
• Si se tiene un modelo de una tarea fuente, ¿comomodificarlo para la tarea objetivo?
• ¿Se pueden modificar las tareas fuentesautomaticamente para mejorar el aprendizaje?
• ¿Se pueden tomar ideas de theoryrevision/refinementpara hacer un mapeo entre tareas?
• ¿La transferencia se podrıa utilizar para mejorar elmecanismo de exploracion del agente en la tareaobjetivo?
• Transferencia negativa: No hay trabajo que defina deforma confiable cuando una transferencia va a sernegativa
(INAOE) 77 / 77