Ciencias de la computación e inteligencia artiﬁcial ... · Un lenguaje Lh para representar...

Aprendizaje lógico probabilístico (C3)

M.J. Hidalgo

Ciencias de la computación e inteligencia artificialUniversidad de Sevilla

AA 2008–09 1 / 24

Introducción

◮ El aprendizaje lógico probabilístico es un campo de investigaciónsituado en la intersección del razonamiento probabilístico, lasrepresentaciones lógicas y el aprendizaje automático.

◮ Idea: integrar representciones lógicas o relacionales conmecanismos de razonamiento probabilístico y aprendizajeautomático.

◮ En este contexto:◮ El término probabilístico hace referencia al uso de

representaciones y mecanismos de razonamiento basados en lateoría de la probabilidad, como redes bayesianas, modelos ocultosde Markov o gramáticas estocásticas.

◮ El término lógico se refiere a representciones relacionales y enlógica de primer orden.

◮ El término aprendizaje significa obtener determinados aspectos dela lógica probabilística a partir de bases de datos.

AA 2008–09 2 / 24

Introducción

AA 2008–09 2 / 24

Introducción

AA 2008–09 2 / 24

Introducción

AA 2008–09 2 / 24

Introducción

AA 2008–09 2 / 24

Introducción

◮ Si consideramos las parejas formadas por estos tres campos:◮ Probabilidad + Lógica: Lógica probabilística

◮ La construcción manual de las teorías es una tarea costosa ydifícil.

◮ Probabilidad + Aprendizaje: Aprendizaje estadístico◮ La representación no captura las relaciones presentes en muchas

situaciones.

◮ Lógica + Aprendizaje: Programación lógica inductiva◮ No permite tratar con incertidumbre.

◮ Solución: Probabilidad + Lógica + Aprendizaje

AA 2008–09 3 / 24

Introducción

situaciones.

AA 2008–09 3 / 24

Introducción

situaciones.

AA 2008–09 3 / 24

Introducción

situaciones.

AA 2008–09 3 / 24

Introducción

situaciones.

AA 2008–09 3 / 24

Introducción: de dónde partimos

◮ Un problema en PLI clásica consiste en:◮ Dados:

◮ Un conjunto de ejemplos positivos Pos

◮ Un conjunto de ejemplos negativos Ne

◮ Una teoría subyacente B

◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura cubre sobre Lh × Le

◮ Encontrar una hipótesis h tal que

h ∈ Lh ∧ ∀p ∈ Pos(cubre(h, p)) ∧ ∀n ∈ Ne(¬cubre(h, n))

AA 2008–09 4 / 24

◮ La relación de cobertura admite distintas definiciones, lo que dalugar a distintas formas de aprendizaje:

◮ Aprendizaje a partir de consecuencias◮ cubre(h, e)⇔ B ∧ h |= e

◮ Programas: FOIL, PROGOL, GOLEM

◮ Aprendizaje como interpretaciones◮ cubre(h, e)⇔ e es un modelo de B ∧ h

◮ Cada ejemplo es una interpretación de Herbrand◮ Programas: ICL, CLAUDIEN

◮ Aprendizaje a partir de las pruebas◮ cubre(h, e)⇔ e es una prueba de B ∧ h

◮ Cada ejemplo es un árbol de prueba◮ Programas: Model inference system (MIS), Grammar induction.

AA 2008–09 5 / 24

Introducción: PILP

◮ Idea: transformar la relación de cobertura en una relación deprobabilidad.

◮ Así, un problema general en PLIP consistiría en:

◮ Dados:◮ Un conjunto de ejemplos E

◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura probabilística P sobre Lh × Le

◮ Encontrar una hipótesis h∗ que maximice alguna puntuaciónbasada en la relación de cobertura probabilística.

◮ De forma análoga: aprendizaje a partir de consecuencias, a partirde interpretaciones y a partir de pruebas.

◮ Representación del conocimiento: será necesario manajerextensiones de programas lógicos, redes bayesianas, modelosocultos de Markov, gramáticas, etc.

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Preliminares (IA2)

◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de

relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en

forma de probabilidades condicionadas a posteriori.◮ Características:

◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.

◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.

◮ La codificación se basa en la hipótesis de independenciacondicional.

◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.

◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares: representaciones

◮ Posibles extensiones de los modelos de representación:◮ Definen distribuciones de probabilidad sobre interpretaciones:

◮ Programas lógicos bayesianos◮ Redes lógicas de Markov

◮ Definen distribuciones de probabilidad sobre las pruebas:◮ Programas lógicos estocásticos◮ PRISM◮ ICL

AA 2008–09 8 / 24

Preliminares: modelos de aprendizaje (IA2)

◮ Dados:◮ Un conjunto de datos observados D◮ Un conjunto de hipótesis H = {h1, . . . }, de las que se conocen sus

probabilidades a priori P(hi)◮ La verosimilitud de los datos respecto de las hipótesis P(d |hi)

◮ Encontrar la hipótesis más probable a partir de los datos: h ∈ H

que maximiza P(h|D).

◮ Aplicaciones: predicciones.

AA 2008–09 9 / 24

◮ Tenemos:◮ Un conjunto de datos observados: observaciones completas sobre

los valores de las variables aleatorias.◮ La estructura de la red bayesiana correspondiente a las variables,

pero no las tablas de probabilidad condicionada.

◮ Aprender las tablas de probabilidad condicionada de la red.

◮ Caso particular: clasificador naive de Bayes.

AA 2008–09 10 / 24

◮ Aprender las tablas de probabilidad de una red bayesiana, de laque se conoce su estructura, con variables ocultas: algotirmo EM.

◮ Aprender la estructura de una red bayesiana.

◮ Dividir un conjunto de datos de entrada en subconjuntos(clusters), de forma que los elementos de cada subconjuntocomparten características desconocidas a priori.

AA 2008–09 11 / 24

Lógicas probabilísticas de primer orden

◮ Programas lógicos bayesianos.

◮ Modelos probabilísticos relacionales.

◮ Lógica de Markov.

◮ Pruebas probabilísticas.

◮ ...

AA 2008–09 12 / 24

Programas lógicos bayesianos

◮ Se unifican en un marco común la estructura de una redbayesiana y las relaciones lógicas contenidas en un programalógico.

◮ Idea subyacente:◮ Establecer una correspondencia entre los átomos básicos y las

variables aleatorias.◮ Establecer una correspondencia “semántica” entre el operador de

consecuencia inmediata y la relación de influencia directa.

◮ Ejemplo: Consideremos un modelo genético de herencia de un

gen que determina el grupo sanguíneo de una persona, bt(X ).Cada persona X tiene dos copias del cromosoma que contiene

ese gen; una, mc(Y ), heredada de su madre m(Y ,X ); y otra,

pc(Z ), heredada de su padre f (Z ,X ).

AA 2008–09 13 / 24

◮ Estructura gráfica de una red bayesiana, que modeliza lainfluencia de la herencia en los grupos sanguíneos de una familiaparticular:

mc_ann pc_ann mc_brian pc_brian

bt_ann mc_dorothy pc_dorothy bt_brian

bt_dorothy

AA 2008–09 14 / 24

◮ Programa Prolog correspondiente:p (ann).p (brian).m (ann).m (brian).m (dorothy) :- m (ann), p (ann).p (dorothy) :- m (brian), p (brian).bt(ann) :- m (ann), p (ann).bt(brian) :- m (brian), p (brian).bt(dorothy) :- m (dorothy), p (dorothy).◮ Mediante una red bayesiana clásica no podemos expresar que

otra familia tenga las mismas relaciones.

AA 2008–09 15 / 24

◮ Programa Prolog correspondiente:p (ann).p (brian).m (ann).m (brian).m (dorothy) :- m (ann), p (ann).p (dorothy) :- m (brian), p (brian).bt(ann) :- m (ann), p (ann).bt(brian) :- m (brian), p (brian).bt(dorothy) :- m (dorothy), p (dorothy).◮ Mediante una red bayesiana clásica no podemos expresar que

otra familia tenga las mismas relaciones.

AA 2008–09 15 / 24

◮ Cláusula bayesiana◮ Dos tipos de predicados: determinísticos (o lógicos) y

probabilísticos (o bayesianos).◮ Dos tipos de átomos: lógicos y bayesianos.◮ Cláusula bayesiana: A|A1, . . . ,An, donde A es un átomo bayesiano

y A1, . . . ,An son átomos lógicos o bayesianos.

◮ Consideraciones:◮ Cada predicado bayesiano tiene asociado un dominio finito (es

generalizable). Por ejemplo, D(mc) = D(pc) = {a, b, 0} yD(bt) = {a, b, ab, 0}.

◮ Intuitivamente, un predicado bayesiano representa un conjunto devariables aleatorias. Por ejemplo, bt(ann) representa el gruposanguíneo de una persona llamada Ann como una variablealeatoria cuyos posibles valores son {a, b, ab, 0}

◮ Se usa | en vez de : − para indicar una probabilidad condicional.◮ Se supone que Var(cabeza(c)) ⊆ Var(cuerpo(c)).◮ Las cláusulas bayesiannas codifican la componente estructural o

cualitativa de los programas lógicos bayesianos.

AA 2008–09 16 / 24

◮ Para representar el modelo probabilístico:◮ Cada cláusula está anotada con una distribución de probabilidad

condicional cpd(c), que codifica P(cabeza(c)|cuerpo(c))(Normalmente, se representará mediante una tabla).

◮ Cada predicado bayesiano tiene asociada una regla decombinación: función que, a un conjunto de distribuciones deprobabilidad condicionada {P(A|Ai1, . . . ,Aini

)|i = 1, . . . ,m} enuna distribución de probabilidad condicionada combinadaP(A|B1, . . . ,Bk) con {B1, . . . ,Bk} ⊆ ∪m

i=1{Ai1, . . . ,Aini}.

◮ Un programa lógico bayesiano es un conjunto finito de cláusulasbayesianas. Cada cláusula c tiene asociada exactamente unadistribución de probabilidad condicionada cpd(c), y para cadapredicado bayesiano p existe exactamente una regla decombinación cr(p).

AA 2008–09 17 / 24

i=1{Ai1, . . . ,Aini}.

AA 2008–09 17 / 24

i=1{Ai1, . . . ,Aini}.

AA 2008–09 17 / 24

◮ Ejemplo:m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (X) | m (Y,X), m (Y), p (Y).p (X) | f(Y,X), m (Y), p (Y).bt(X) | m (X), p (X).◮ Para cada predicado bayesiano, la regla de combinación es la

identidad.

AA 2008–09 18 / 24

◮ Ejemplo:m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (X) | m (Y,X), m (Y), p (Y).p (X) | f(Y,X), m (Y), p (Y).bt(X) | m (X), p (X).◮ Para cada predicado bayesiano, la regla de combinación es la

identidad.

AA 2008–09 18 / 24

Programa lógico bayesiano

◮ Distribución de probabilidad condicionada para cada cláusula:mc(X) pc(X) P(bt(X))

a a (0.97, 0.01, 0.01, 0.01)b a (0.01, 0.01, 0.97, 0.01)... ... ...0 0 (0.01, 0.01, 0.01, 0.97)

m(Y,X) mc(Y) pc(Y) P(mc(X))

true a a (0.98, 0.01, 0.01)true b a (0.01, 0.98, 0.01)... ... ... ...

false a a (0.33, 0.33, 0.33)... ... ... ...

AA 2008–09 19 / 24

PLB: semántica declarativa

◮ Cada programa lógico bayesiano B representa una red bayesiana(posiblemente infinita), donde los nodos son los átomos delmenor modelo de Herbrand del programa, LH(B).

◮ Grafo de dependencia DG(B):◮ Nodos: los átomos del menor modelo de Herbrand LH(B).◮ Arcos: existe un arco de un nodo x a un nodo y si y sólo si existe

una cláusula c ∈ B y una sustitución θ tal que

y = cabeza(cθ) ∧ x ∈ cuerpo(cθ) ∧ ∀z ∈ cθ(z ∈ LH(B))

◮ A cada nodo se le asocia la distribución de probabilidadcombinada que resulta de aplicar la regla de combinación cr(p) dep al conjunto de distribuciones cpd(cθ), donde cabeza(cθ) = x y{x} ∪ cuerpo(cθ) ⊆ LH(B).

AA 2008–09 20 / 24

◮ La base de Herbrand BH(P) contiene el conjunto de todas lasposibles variables aleatorias.

◮ Los átomos del menor modelo de Herbrand LH(P) ⊆ BH(P) sonlas variables aleatorias relevantes; aquellas sobre las que ladistribución de probabilidad está bien definida.

◮ Un programa lógico bayesiano está bien definido si:◮ LH(B) 6= ∅◮ DG(B) es acíclico,◮ cada nodo en DG(B) está influenciado por un número finito de

variables.

◮ En ese caso, B especifica una única distribución de probabilidadPB sobre LH(B).

AA 2008–09 21 / 24

variables.

AA 2008–09 21 / 24

variables.

AA 2008–09 21 / 24

variables.

AA 2008–09 21 / 24

Ejemplo

◮ Grafo de dependencia del ejemplo:

m(ann, dorothy) f(brian, dorothy)

mc(ann) pc(ann) mc(brian) pc(brian)

bt(ann) mc(dorothy) pc(dorothy) bt(brian)

bt(dorothy)

AA 2008–09 22 / 24

Ejemplo

◮ Programa lógico proposicional, con las cláusulas c tales quecabeza(c) ∈ LH(B) y cuerpo(c) ⊆ LH(B)m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (dorothy) | m (ann,dorothy), m (ann), p (ann).p (dorothy) | f(brian,dorothy), m (brian), p (brian).bt(ann) | m (ann), p (ann).bt(brian) | m (brian), p (brian).bt(dorothy) | m (dorothy), p (dorothy).

◮ La estructura de la red bayesiana asociada coindice con el grafode dependencia del programa lógico bayesiano.

AA 2008–09 23 / 24

Ejemplo

◮ Programa lógico proposicional, con las cláusulas c tales quecabeza(c) ∈ LH(B) y cuerpo(c) ⊆ LH(B)m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (dorothy) | m (ann,dorothy), m (ann), p (ann).p (dorothy) | f(brian,dorothy), m (brian), p (brian).bt(ann) | m (ann), p (ann).bt(brian) | m (brian), p (brian).bt(dorothy) | m (dorothy), p (dorothy).

◮ La estructura de la red bayesiana asociada coindice con el grafode dependencia del programa lógico bayesiano.

AA 2008–09 23 / 24

PLB: semántica procedural

AA 2008–09 24 / 24

Ciencias de la computación e inteligencia artiﬁcial ... · Un lenguaje Lh para representar...

Documents

Transcript of Ciencias de la computación e inteligencia artiﬁcial ... · Un lenguaje Lh para representar...