Sistemas Expertos basados en probabilidad (2011/2012) · ... diagnóstico médico ... dado que el...

Sistemas

Expertos

basados en

probabilidad

(2011/2012)

Luis Valencia Cabrera (coordinador)

[email protected]

(http://www.cs.us.es/~lvalencia)

Manuel García-Quismondo

[email protected]

(http://www.cs.us.es/~mgarcia)

Ciencias de la Computacion e IA

(http://www.cs.us.es/)

Universidad de Sevilla

mailto:[email protected]

http://www.cs.us.es/~lvalencia

mailto:[email protected]

http://www.cs.us.es/~mgarcia

http://www.cs.us.es/

Antecedentes Los sistemas basados en reglas generalmente no

tienen en cuenta la incertidumbre

Los objetos y reglas son tratados de forma determinista

Limitación: en la mayor parte de las aplicaciones, la incertidumbre es lo común y no la excepción

Algunos sistemas introducen factores de certeza, de manera que dada una premisa se da una conclusión con un determinado grado de certeza en función de la fuerza de la regla.

Problema Estos sistemas no capturan correctamente las

dependencias entre variables; cuando se dispara una regla el peso de la conclusión depende únicamente de las premisas, independientemente de las fuentes de las que provenga.

El uso de factores de certeza ha recibido muchas críticas por su incapacidad para representar ciertas dependencias entre las observaciones y la forma en la que combina el conocimiento.

Todo esto provoca la necesidad de encontrar otros formalismos para trabajar con incertidumbre.

Ejemplo: diagnóstico médico Pregunta típica: dado que el paciente presenta un conjunto de

síntomas, ¿cuál de las enfermedades posibles es la que tiene el paciente? Implica incertidumbre puesto que: Los hechos o datos pueden no ser conocidos con exactitud. Un

paciente puede no estar seguro de haber tenido fiebre durante la noche. Hay un cierto grado de incertidumbre en la información de cada paciente (subjetividad, imprecisión, ausencia de información, errores, datos ausentes, etc.).

El conocimiento no es determinista. Las relaciones entre las enfermedades y los síntomas no son deterministas; un mismo conjunto de síntomas puede estar asociado a diferentes enfermedades. No es extraño encontrar dos pacientes con los mismos síntomas pero diferentes enfermedades.

Conclusión: es clara la necesidad de contar con sistemas expertos que traten situaciones de incertidumbre. Un tipo de sistema experto que trata este tipo de situaciones de forma efectiva lo constituyen los sistemas expertos basados en probabilidad.

Un poco de historia En los primeros sistemas expertos que se hicieron eco de este problema,

se eligió la probabilidad como medida para tratar la incertidumbre.

Muy pronto se encontraron algunos problemas, debidos al uso

incorrecto de algunas hipótesis de independencia, utilizadas para reducir la complejidad de los cálculos. Se consideró poco práctica.

La mayoría de las críticas a los métodos probabilísticos se basaban en:

el altísimo nº parámetros necesarios

la imposibilidad de una asignación o estimación precisa de estos

las hipótesis poco realistas de independencia.

Así, surgieron alternativas a la probabilidad para tratar la incertidumbre:

factores de certeza

credibilidades

plausibilidades

Necesidades

posibilidades

Redes probabilísticas Con la aparición de las redes probabilísticas

(principalmente las redes Bayesianas y Markovianas), la probabilidad ha resurgido de forma espectacular, siendo hoy en día, la más intuitiva y la más aceptada de las medidas de incertidumbre.

Lindley (1987) dice:

“La única descripción satisfactoria de la incertidumbre es la probabilidad. Esto quiere decir que toda afirmación incierta debe estar en forma de una probabilidad, que varias incertidumbres deben ser combinadas usando las reglas de la probabilidad, y que el cálculo de probabilidades es adecuado para manejar situaciones que implican incertidumbre. En particular, las descripciones alternativas de la incertidumbre son innecesarias.”

Contenidos

Vamos a introducir los sistemas expertos de tipo

probabilístico, que se basan en la probabilidad

como una medida de incertidumbre.

Se describen en detalle sus principales

componentes, analizando:

La estructura de la base de conocimiento

el motor de inferencia

el sistema de control de coherencia

Y se comparan con los sistemas expertos basados

en reglas.

Contenidos Previamente a entrar en detalle sobre los distintos

subsistemas: Se da un repaso breve a los conceptos de la teoría de la

probabilidad, para entender este tema y los siguientes. Se define y discute las reglas generalizadas (intento de

extender los sistemas expertos basados en reglas para tratar situaciones de incertidumbre).

Ya entrando en materia: Se describe la base de conocimiento y presenta varios

modelos para describir las relaciones entre un conjunto de variables de interés.

Se discute el motor de inferencia.

Se atiende el problema del control de la coherencia.

Se aporta una comparación de los sistemas basados en reglas y los sistemas basados en probabilidad.

Algunos

Conceptos Básicos de la

Teoría de la Probabilidad

Vamos a repasar el siguiente material

básico que será utilizado posteriormente:

Medida de probabilidad.

Distribuciones de probabilidad.

Dependencia e independencia.

Teorema de Bayes.

Tipos de errores.

Medida de probabilidad Para medir la incertidumbre se parte de espacio

muestral S, que incluye todos los posibles resultados de un cierto experimento como conjunto exhaustivo y mutuamente exclusivo.

Objetivo: asignar a todo subconjunto de S un número real que mida el grado de incertidumbre sobre su realización.

Para que las medidas tengan significado físico claro y práctico, se imponen condiciones o propiedades intuitivas adicionales que definen una clase de medidas que se conocen como medidas de probabilidad.


Definición Una función p que proyecta los subconjuntos A ⊆ S en el

intervalo [0, 1] se llama medida de probabilidad si satisface los siguientes axiomas: Axioma 1 (Normalización)

p(S) = 1.

Axioma 2 (Aditividad) Para cualquier sucesión infinita, A1,A2, . . ., de subconjuntos disjuntos de

S, se cumple la igualdad

Por el Axioma 1, independientemente de nuestro grado de certeza, ocurrirá un elemento del conjunto universal S (el conjunto S es exhaustivo). El Axioma 2 establece que la incertidumbre de un cierto subconjunto es la suma de las incertidumbres de sus partes (disjuntas). Esta propiedad también se cumple para sucesiones finitas.


Propiedades


Propiedades La Propiedad 1 establece que la evidencia asociada

a una ausencia completa de información es cero.

La Propiedad 2 muestra que la evidencia de que un elemento pertenezca a un conjunto dado A no debe decrecer con la adición de elementos a A.

La Propiedad 3 puede ser considerada como una propiedad de consistencia o continuidad. Si se eligen dos sucesiones de conjuntos que convergen al mismo subconjunto de S, se debe obtener la misma evidencia o incertidumbre.

La Propiedad 4 establece que las probabilidades de los conjuntos A,B,A ∩ B, y A ∪ B no son independientes, sino que están relacionadas por la fórmula anterior.


Ejemplo

Ejemplo: lanzamiento de un dado no

trucado.

El espacio muestral es S = {1, 2, 3, 4, 5, 6}, es

decir, el conjunto de los posibles resultados del

lanzamiento.

Sea p(A) la probabilidad de que ocurra el

suceso A. Entonces, por ejemplo, se tiene:

p(S) = 1,

p({1}) = 1/6, p({3}) = 1/6, y

p({1, 3}) = p({1})+p({3}) = 1/3.

Distribuciones de Probabilidad

Sea {X1, . . . , Xn} un conjunto de variables aleatorias discretas y {x1, . . . , xn} el conjunto de sus posibles realizaciones.

Sea p(x1, . . . , xn) la función de probabilidad conjunta de las variables de X:

Entonces, la función de probabilidad marginal de la i-ésima variable se obtiene mediante la fórmula

Probabilidad condicional

El conocimiento de la ocurrencia de un suceso puede modificar las probabilidades de otros.

Ejemplo: la probabilidad de que un paciente tenga una enfermedad puede cambiar tras el conocimiento de los resultados de un análisis de sangre.

Así, cada vez que se dispone de nueva información, las probabilidades de los sucesos pueden, y suelen, cambiar. Esto conduce al concepto de probabilidad condicional.

Probabilidad condicional Sean X e Y dos conjuntos disjuntos de variables tales que

p(y) > 0. Entonces, la probabilidad condicional (función de probabilidad condicionada) de X dado Y = y viene dada por

La ecuación implica que la función de probabilidad conjunta de X e Y puede escribirse como

Se obtiene un caso particular de cuando X es una única variable e Y es un subconjunto de variables. En este caso, se convierte en

Probabilidad condicional

es la función de probabilidad de la i-ésima variable, Xi, dado el subconjunto de variables {X1, . . . , Xk}. La suma del denominador de se extiende a todos los valores posibles de Xi.

Ambas fórmulas de la probabilidad marginal y de la probabilidad condicional siguen siendo válidas si la variable Xi se reemplaza por un subconjunto de variables siempre que los conjuntos de variables sean disjuntos.

Si el conjunto {X1, . . . , Xk} se sustituye por el conjunto vacío φ, entonces se convierte en p(xi). Se puede ver la probabilidad marginal como un caso particular de probabilidad condicional.

Dependencia e

Independencia Definición. Independencia de dos variables. Sean X e Y dos

subconjuntos disjuntos del conjunto de variables aleatorias {X1, . . . , Xn}. Entonces se dice que X es independiente de Y si y solamente si p(x|y) = p(x),

para todos los valores posibles x e y de X e Y;

En otro caso, X se dice dependiente de Y.

Si x e y son valores posibles de X e Y , entonces p(x) > 0 y p(y) > 0. La condición p(y) > 0 es natural (no puede observarse Y = y si no se satisface la condición).

La ecuación significa que si X es independiente de Y, entonces nuestro conocimiento de Y no afecta nuestro conocimiento sobre X Y no tiene información sobre X. También, si X es independiente de Y, pueden combinarse las fórmulas anteriores para obtener:

p(x, y)/p(y) = p(x), que

implica

p(x, y) = p(x)p(y).

Dependencia e

Independencia. Propiedades La ecuación indica que si X es independiente de Y la función

de probabilidad conjunta de X e Y es igual al producto de sus marginales. (Definición de independencia equivalente a la anterior).

Propiedad importante de la relación de independencia: simetría (si X es independiente de Y, entonces Y es independiente de X).

Esto ocurre porque:

Por la propiedad de simetría se dice que X e Y son independientes o mutuamente independientes. si el conocimiento de Y es relevante (irrelevante) para X, entonces el conocimiento de X es relevante (irrelevante) para Y.

Independencia de un

conjunto de variables Las variables aleatorias {X1, . . . , Xm} se dice que son independientes si y

sólo si

para todos los valores posibles x1, . . . , xm de X1, . . . , Xm. En otro caso, se dice que son dependientes.

Es decir, se dicen independientes si y sólo si su función de probabilidad conjunta es igual al producto de sus funciones de probabilidad marginal.

Es una generalización del caso anterior de X e Y.

Además, si X1, . . . , Xm son condicionalmente independientes dado otro subconjunto Y1, . . . , Yn, entonces

Así, no es rentable obtener información sobre variables independientes, pues es irrelevante, es decir, independencia significa irrelevancia.

Ejemplo 1 Considérense las siguientes características (variables y sus posibles valores) de

las personas de una población dada: Sexo = {hombre, mujer}

Fumador = {sí (f), no (𝑓 )} Estado Civil = {casado (c), no casado (𝑐 )} Embarazo = {sí (e), no (𝑒 )}

La función de probabilidad conjunta de estas cuatro variables se tiene en esta tabla:

Ejemplo: el 50% de las personas de una población son mujeres, y el

de los fumadores son mujeres

Ejemplo 1 Sea A una persona elegida al azar de la población.

La probabilidad de que sea mujer es p(A = mujer) = 0.50. Pero si se sabe que la persona es fumadora, esta probabilidad cambia de

0.50 a p(A = mujer|A = f) = 0.64. Por tanto, se tiene p(A = mujer|A = f) ≠ p(A = mujer); por lo que las variables Sexo y Fumador son dependientes.

Supongamos que sabemos que la persona está embarazada. p(A = mujer|A = e) = 1 ≠ p(A = mujer) = 0.50; por lo que, las variables Sexo y Embarazo son dependientes.

Las dos variables Fumador y Embarazo contienen información relevante sobre la variable Sexo. Sin embargo, el suceso “la persona está embarazada” contiene mucha

más información sobre Sexo que el suceso “la persona es fumadora.” Esto puede medirse por el cociente

La variable Estado Civil no contiene información relevante sobre la variable Sexo y viceversa. (las probabilidades conjuntas coinciden con el producto de las marginales para todos los valores posibles de las dos variables). las variables Sexo y Estado Civil son independientes.

Ejemplo 2 Sea la función de

probabilidad conjunta de las tres variables binarias X, Y y Z dadas en la tabla.

Se muestran las funciones de probabilidad marginal de X, Y y Z. Por ejemplo, la función de probabilidad marginal de X se calcula mediante

Ejemplo 2 Las funciones de probabilidad conjunta de las parejas se dan en la

tabla.

Por ejemplo, la función de probabilidad conjunta de X e Y es

ok

Ejemplo 2 Se muestran las funciones de

probabilidad condicional de una variable dada la otra.

De los resultados anteriores se ve que p(x, y) = p(x)p(y) para todos los

valores posibles de x e y X e Y son independientes.

Esta independencia puede comprobarse con la definición alternativa de independencia p(x|y) = p(x).

Sin embargo, p(x, z) ≠ p(x)p(z) para algunos valores (en este caso todos) de x y z. Por tanto, X y Z son dependientes.

Se puede demostrar también que Y y Z son dependientes.

Los conceptos de dependencia e independencia se refieren a dos subconjuntos de variables. A continuación, se generaliza para más de dos conjuntos.

Dependencia e

independencia condicional Sean X, Y y Z tres conjuntos disjuntos de variables, entonces X se dice

condicionalmente independiente de Y dado Z, si y sólo si p(x|z, y) = p(x|z),

para todos los valores posibles de x, y y z de X, Y y Z;

En otro caso X e Y se dicen condicionalmente dependientes dado Z.

Cuando X e Y son condicionalmente independientes dado Z, se escribe I(X, Y |Z) (relación de independencia condicional).

Cuando X e Y son condicionalmente dependientes dado Z, se escribe D(X, Y |Z) (relación de dependencia condicional).

También se escribe I(X, Y |Z)p o D(X, Y |Z)p para indicar que la relación se deriva del modelo probabilístico asociado a la probabilidad p (la función de probabilidad conjunta).

Dependencia e

independencia condicional La definición de independencia condicional lleva la idea de que

una vez conocida Z, el conocimiento de Y no altera la probabilidad de X. Si Z ya es conocida, el conocimiento de Y no añade información sobre X.

Una definición alternativa, pero equivalente, de independencia condicional es p(x, y|z) = p(x|z)p(y|z).

La independencia (incondicional) puede ser tratada como un caso particular de la independencia condicional. Por ejemplo, se puede escribir I(X, Y |Φ), para indicar que X e Y son incondicionalmente independientes.

Ahora bien, X e Y pueden ser independientes incondicionalmente pero condicionalmente dependientes dado Z, es decir, la relación de independencia condicional I(X, Y | Φ) y la de dependencia condicional D(X, Y |Z) pueden satisfacerse simultáneamente.

Ejemplo 3 Del ejemplo anterior teníamos la

función de probabilidad conjunta de las tres variables binarias X, Y y Z. Se tenían las siguientes relaciones de independencia condicional: I(X, Y | Φ),

D(X,Z| Φ) y D(Y,Z| Φ).

Por ejemplo, para determinar si X e Y son independientes, se necesita comprobar si p(x, y) = p(x)p(y)

para todos los valores posibles de x e y.

También se puede determinar si cualesquiera dos variables son condicionalmente independientes dada una tercera variable.

Por ejemplo, para comprobar si X e Y son condicionalmente independientes dado Z, es necesario comprobar si p(x|y, z) = p(x, y, z)/p(y, z) = p(x|z)

para todos los valores posibles de x, y y z. Para ello, se calculan las probabilidades:

En esta tabla puede verse que p(x|y, z) ≠ p(x|z) y, por tanto, D(X, Y |Z).

Por ello, aunque como vimos la función de probabilidad conjunta implica que X e Y son incondicionalmente independientes, I(X, Y |Φ), son condicionalmente dependientes dado Z, D(X, Y |Z).

Teorema de Bayes

Supongamos que un paciente puede estar sano (no tiene enfermedad alguna) o tiene una de m−1 enfermedades posibles {E1, . . . , Em−1}. Sea E una variable aleatoria que puede tomar uno de m posibles valores, {e1, . . . , em}, donde E = ei significa que el paciente tiene la enfermedad Ei, y E = em significa que el paciente no tiene ninguna enfermedad.

Supongamos que se tienen n síntomas {S1, . . . , Sn}. Ahora, dado que el paciente tiene un conjunto de síntomas {s1, . . . , sk}, se desea calcular la probabilidad de que el paciente tenga la enfermedad Ei, es decir, E = ei. Entonces, aplicando el teorema de Bayes, se obtiene:

Teorema de Bayes. Notas Comentarios sobre la fórmula anterior:

La probabilidad p(ei) se llama probabilidad marginal, prior, “a priori” o inicial de la enfermedad E = ei puesto que puede ser obtenida antes de conocer los síntomas.

La probabilidad p(ei|s1, . . . , sk) es la probabilidad posterior, “a posteriori” o condicional de la enfermedad E = ei, puesto que se calcula después de conocer los síntomas S1 = s1, . . . , Sk = sk.

La probabilidad p(s1, . . . , sk|ei) se conoce por el nombre de verosimilitud de que un paciente con la enfermedad E = ei tenga los síntomas S1 = s1, . . . , Sk = sk.

Por ello, se puede utilizar el teorema de Bayes para

actualizar la probabilidad “a posteriori” usando ambas, la probabilidad “a priori” y la verosimilitud, tal como se muestra en el ejemplo siguiente.

Teorema de Bayes. Ejemplo Un centro médico tiene una BD con las

historias clínicas de N = 1000 pacientes.

Estas historias clínicas se resumen gráficamente en la figura. Hay 700 pacientes (región sombreada) que tienen la enfermedad adenocarcinoma gástrico (G), y 300 que no la tienen (se considera estar sano como otro valor posible de la enfermedad). Tres síntomas, dolor (D), pérdida de peso (P) y vómitos (V ), se considera que están ligados a esta enfermedad. Por tanto, cuando un paciente nuevo llega al centro médico, hay una probabilidad 700/1000 = 70% de que el paciente tenga adenocarcinoma gástrico. Esta es la probabilidad inicial, o “a priori”, puesto que se calcula con la información inicial, antes de conocer información alguna sobre el paciente.

Teorema de Bayes. Ejemplo Por simplicidad de notación, se utiliza g

para indicar que la enfermedad está presente y 𝑔 para indicar que la enfermedad está ausente. Pueden hacerse las afirmaciones: probabilidad “a priori”: 440 de 1,000

pacientes vomitan p(v) = card(v)/N = 440/1, 000 = 0.44, donde card(v) denota el número de pacientes de la base de datos que vomitan. Esto significa que el 44% de los pacientes vomitan.

Verosimilitud: El 50% de los pacientes que tienen la enfermedad vomitan, puesto que p(v|g) = card(v, g)/card(g) = 350/700 = 0.5, mientras y sólo 30% de los pacientes que no tienen la enfermedad vomitan, puesto que p(v|𝑔 ) = card(v, 𝑔 )/card(𝑔 ) = 90/300 = 0.3.

Verosimilitud: El 45% de los pacientes que tienen la enfermedad vomitan y pierden peso, p(v, p|g) = card(v, p, g)/card(g) = 315/700 = 0.45, mientras que s´olo el 12% de los que no tienen la enfermedad vomitan y pierden peso, p(v, p|𝑔 ) = card(v, p, 𝑔 )/card(𝑔 ) = 35/300 ≈ 0.12.

Puesto que la probabilidad inicial de que el paciente tenga adenocarcinoma gástrico, p(g) = 0.7, no es suficientemente alta para hacer un diagnóstico (tomar una decisión ahora implica una probabilidad 0.3 de equivocarse), el doctor decide examinar al paciente para obtener más información.

Supóngase que los resultados del examen muestran que el paciente tiene los síntomas vómitos (V = v) y pérdida de peso (P = p). Ahora, dada la evidencia (el paciente tiene esos síntomas), ¿cuál es la probabilidad de que el paciente tenga la enfermedad? Esta probabilidad “a posteriori” puede ser obtenida de la probabilidad “a priori” y de las verosimilitudes, aplicando el teorema de Bayes en dos etapas, como sigue:

Teorema de Bayes. Ejemplo Tras observar que V = v la

probabilidad “a posteriori” es Cuando se aplica el teorema de Bayes

sucesivamente, la probabilidad “a posteriori” calculada en una etapa dada es la misma que la probabilidad “a priori” en la etapa siguiente. Por ejemplo, la probabilidad “a posteriori”, que se ha calculado en la primera etapa anterior, puede ser usada como probabilidad “a priori” en la segunda etapa, es decir:

La probabilidad cambia tras observar las evidencias. La probabilidad de tener la enfermedad era inicialmente 0.7, después aumentó a 0.795, y luego a 0.9 tras observar la evidencia acumulada V = v y P = p, respectivamente. Al final de la última etapa, el paciente tiene una probabilidad 0.9de tener la enfermedad. Puede ser suficientemente alta (comparada con la probabilidad “a priori” 0.7) para que el doctor diagnostique que el paciente tiene la enfermedad. Sin embargo, sería conveniente observar nuevas evidencias antes de hacer este diagnóstico.

Tras observar que V = v y P = p la probabilidad “a posteriori” es

Sistemas Expertos basados en probabilidad (2011/2012) · ... diagnóstico médico ... dado que el...

Documents

Transcript of Sistemas Expertos basados en probabilidad (2011/2012) · ... diagnóstico médico ... dado que el...