Sistemas Expertos basados en probabilidad (2011/2012) · ... diagnóstico médico ... dado que el...
Transcript of Sistemas Expertos basados en probabilidad (2011/2012) · ... diagnóstico médico ... dado que el...
Sistemas
Expertos
basados en
probabilidad
(2011/2012)
Luis Valencia Cabrera (coordinador)
(http://www.cs.us.es/~lvalencia)
Manuel García-Quismondo
(http://www.cs.us.es/~mgarcia)
Ciencias de la Computacion e IA
(http://www.cs.us.es/)
Universidad de Sevilla
Antecedentes Los sistemas basados en reglas generalmente no
tienen en cuenta la incertidumbre
Los objetos y reglas son tratados de forma determinista
Limitación: en la mayor parte de las aplicaciones, la incertidumbre es lo común y no la excepción
Algunos sistemas introducen factores de certeza, de manera que dada una premisa se da una conclusión con un determinado grado de certeza en función de la fuerza de la regla.
Problema Estos sistemas no capturan correctamente las
dependencias entre variables; cuando se dispara una regla el peso de la conclusión depende únicamente de las premisas, independientemente de las fuentes de las que provenga.
El uso de factores de certeza ha recibido muchas críticas por su incapacidad para representar ciertas dependencias entre las observaciones y la forma en la que combina el conocimiento.
Todo esto provoca la necesidad de encontrar otros formalismos para trabajar con incertidumbre.
Ejemplo: diagnóstico médico Pregunta típica: dado que el paciente presenta un conjunto de
síntomas, ¿cuál de las enfermedades posibles es la que tiene el paciente? Implica incertidumbre puesto que: Los hechos o datos pueden no ser conocidos con exactitud. Un
paciente puede no estar seguro de haber tenido fiebre durante la noche. Hay un cierto grado de incertidumbre en la información de cada paciente (subjetividad, imprecisión, ausencia de información, errores, datos ausentes, etc.).
El conocimiento no es determinista. Las relaciones entre las enfermedades y los síntomas no son deterministas; un mismo conjunto de síntomas puede estar asociado a diferentes enfermedades. No es extraño encontrar dos pacientes con los mismos síntomas pero diferentes enfermedades.
Conclusión: es clara la necesidad de contar con sistemas expertos que traten situaciones de incertidumbre. Un tipo de sistema experto que trata este tipo de situaciones de forma efectiva lo constituyen los sistemas expertos basados en probabilidad.
Un poco de historia En los primeros sistemas expertos que se hicieron eco de este problema,
se eligió la probabilidad como medida para tratar la incertidumbre.
Muy pronto se encontraron algunos problemas, debidos al uso
incorrecto de algunas hipótesis de independencia, utilizadas para reducir la complejidad de los cálculos. Se consideró poco práctica.
La mayoría de las críticas a los métodos probabilísticos se basaban en:
el altísimo nº parámetros necesarios
la imposibilidad de una asignación o estimación precisa de estos
las hipótesis poco realistas de independencia.
Así, surgieron alternativas a la probabilidad para tratar la incertidumbre:
factores de certeza
credibilidades
plausibilidades
Necesidades
posibilidades
Redes probabilísticas Con la aparición de las redes probabilísticas
(principalmente las redes Bayesianas y Markovianas), la probabilidad ha resurgido de forma espectacular, siendo hoy en día, la más intuitiva y la más aceptada de las medidas de incertidumbre.
Lindley (1987) dice:
“La única descripción satisfactoria de la incertidumbre es la probabilidad. Esto quiere decir que toda afirmación incierta debe estar en forma de una probabilidad, que varias incertidumbres deben ser combinadas usando las reglas de la probabilidad, y que el cálculo de probabilidades es adecuado para manejar situaciones que implican incertidumbre. En particular, las descripciones alternativas de la incertidumbre son innecesarias.”
Contenidos
Vamos a introducir los sistemas expertos de tipo
probabilístico, que se basan en la probabilidad
como una medida de incertidumbre.
Se describen en detalle sus principales
componentes, analizando:
La estructura de la base de conocimiento
el motor de inferencia
el sistema de control de coherencia
Y se comparan con los sistemas expertos basados
en reglas.
Contenidos Previamente a entrar en detalle sobre los distintos
subsistemas: Se da un repaso breve a los conceptos de la teoría de la
probabilidad, para entender este tema y los siguientes. Se define y discute las reglas generalizadas (intento de
extender los sistemas expertos basados en reglas para tratar situaciones de incertidumbre).
Ya entrando en materia: Se describe la base de conocimiento y presenta varios
modelos para describir las relaciones entre un conjunto de variables de interés.
Se discute el motor de inferencia.
Se atiende el problema del control de la coherencia.
Se aporta una comparación de los sistemas basados en reglas y los sistemas basados en probabilidad.
Algunos
Conceptos Básicos de la
Teoría de la Probabilidad
Vamos a repasar el siguiente material
básico que será utilizado posteriormente:
Medida de probabilidad.
Distribuciones de probabilidad.
Dependencia e independencia.
Teorema de Bayes.
Tipos de errores.
Medida de probabilidad Para medir la incertidumbre se parte de espacio
muestral S, que incluye todos los posibles resultados de un cierto experimento como conjunto exhaustivo y mutuamente exclusivo.
Objetivo: asignar a todo subconjunto de S un número real que mida el grado de incertidumbre sobre su realización.
Para que las medidas tengan significado físico claro y práctico, se imponen condiciones o propiedades intuitivas adicionales que definen una clase de medidas que se conocen como medidas de probabilidad.
Medida de probabilidad.
Definición Una función p que proyecta los subconjuntos A ⊆ S en el
intervalo [0, 1] se llama medida de probabilidad si satisface los siguientes axiomas: Axioma 1 (Normalización)
p(S) = 1.
Axioma 2 (Aditividad) Para cualquier sucesión infinita, A1,A2, . . ., de subconjuntos disjuntos de
S, se cumple la igualdad
Por el Axioma 1, independientemente de nuestro grado de certeza, ocurrirá un elemento del conjunto universal S (el conjunto S es exhaustivo). El Axioma 2 establece que la incertidumbre de un cierto subconjunto es la suma de las incertidumbres de sus partes (disjuntas). Esta propiedad también se cumple para sucesiones finitas.
Medida de probabilidad.
Propiedades
Medida de probabilidad.
Propiedades La Propiedad 1 establece que la evidencia asociada
a una ausencia completa de información es cero.
La Propiedad 2 muestra que la evidencia de que un elemento pertenezca a un conjunto dado A no debe decrecer con la adición de elementos a A.
La Propiedad 3 puede ser considerada como una propiedad de consistencia o continuidad. Si se eligen dos sucesiones de conjuntos que convergen al mismo subconjunto de S, se debe obtener la misma evidencia o incertidumbre.
La Propiedad 4 establece que las probabilidades de los conjuntos A,B,A ∩ B, y A ∪ B no son independientes, sino que están relacionadas por la fórmula anterior.
Medida de probabilidad.
Ejemplo
Ejemplo: lanzamiento de un dado no
trucado.
El espacio muestral es S = {1, 2, 3, 4, 5, 6}, es
decir, el conjunto de los posibles resultados del
lanzamiento.
Sea p(A) la probabilidad de que ocurra el
suceso A. Entonces, por ejemplo, se tiene:
p(S) = 1,
p({1}) = 1/6, p({3}) = 1/6, y
p({1, 3}) = p({1})+p({3}) = 1/3.
Distribuciones de Probabilidad
Sea {X1, . . . , Xn} un conjunto de variables aleatorias discretas y {x1, . . . , xn} el conjunto de sus posibles realizaciones.
Sea p(x1, . . . , xn) la función de probabilidad conjunta de las variables de X:
Entonces, la función de probabilidad marginal de la i-ésima variable se obtiene mediante la fórmula
Probabilidad condicional
El conocimiento de la ocurrencia de un suceso puede modificar las probabilidades de otros.
Ejemplo: la probabilidad de que un paciente tenga una enfermedad puede cambiar tras el conocimiento de los resultados de un análisis de sangre.
Así, cada vez que se dispone de nueva información, las probabilidades de los sucesos pueden, y suelen, cambiar. Esto conduce al concepto de probabilidad condicional.
Probabilidad condicional Sean X e Y dos conjuntos disjuntos de variables tales que
p(y) > 0. Entonces, la probabilidad condicional (función de probabilidad condicionada) de X dado Y = y viene dada por
La ecuación implica que la función de probabilidad conjunta de X e Y puede escribirse como
Se obtiene un caso particular de cuando X es una única variable e Y es un subconjunto de variables. En este caso, se convierte en
Probabilidad condicional
es la función de probabilidad de la i-ésima variable, Xi, dado el subconjunto de variables {X1, . . . , Xk}. La suma del denominador de se extiende a todos los valores posibles de Xi.
Ambas fórmulas de la probabilidad marginal y de la probabilidad condicional siguen siendo válidas si la variable Xi se reemplaza por un subconjunto de variables siempre que los conjuntos de variables sean disjuntos.
Si el conjunto {X1, . . . , Xk} se sustituye por el conjunto vacío φ, entonces se convierte en p(xi). Se puede ver la probabilidad marginal como un caso particular de probabilidad condicional.
Dependencia e
Independencia Definición. Independencia de dos variables. Sean X e Y dos
subconjuntos disjuntos del conjunto de variables aleatorias {X1, . . . , Xn}. Entonces se dice que X es independiente de Y si y solamente si p(x|y) = p(x),
para todos los valores posibles x e y de X e Y;
En otro caso, X se dice dependiente de Y.
Si x e y son valores posibles de X e Y , entonces p(x) > 0 y p(y) > 0. La condición p(y) > 0 es natural (no puede observarse Y = y si no se satisface la condición).
La ecuación significa que si X es independiente de Y, entonces nuestro conocimiento de Y no afecta nuestro conocimiento sobre X Y no tiene información sobre X. También, si X es independiente de Y, pueden combinarse las fórmulas anteriores para obtener:
p(x, y)/p(y) = p(x), que
implica
p(x, y) = p(x)p(y).
Dependencia e
Independencia. Propiedades La ecuación indica que si X es independiente de Y la función
de probabilidad conjunta de X e Y es igual al producto de sus marginales. (Definición de independencia equivalente a la anterior).
Propiedad importante de la relación de independencia: simetría (si X es independiente de Y, entonces Y es independiente de X).
Esto ocurre porque:
Por la propiedad de simetría se dice que X e Y son independientes o mutuamente independientes. si el conocimiento de Y es relevante (irrelevante) para X, entonces el conocimiento de X es relevante (irrelevante) para Y.
Independencia de un
conjunto de variables Las variables aleatorias {X1, . . . , Xm} se dice que son independientes si y
sólo si
para todos los valores posibles x1, . . . , xm de X1, . . . , Xm. En otro caso, se dice que son dependientes.
Es decir, se dicen independientes si y sólo si su función de probabilidad conjunta es igual al producto de sus funciones de probabilidad marginal.
Es una generalización del caso anterior de X e Y.
Además, si X1, . . . , Xm son condicionalmente independientes dado otro subconjunto Y1, . . . , Yn, entonces
Así, no es rentable obtener información sobre variables independientes, pues es irrelevante, es decir, independencia significa irrelevancia.
Ejemplo 1 Considérense las siguientes características (variables y sus posibles valores) de
las personas de una población dada: Sexo = {hombre, mujer}
Fumador = {sí (f), no (𝑓 )} Estado Civil = {casado (c), no casado (𝑐 )} Embarazo = {sí (e), no (𝑒 )}
La función de probabilidad conjunta de estas cuatro variables se tiene en esta tabla:
Ejemplo: el 50% de las personas de una población son mujeres, y el
de los fumadores son mujeres
Ejemplo 1 Sea A una persona elegida al azar de la población.
La probabilidad de que sea mujer es p(A = mujer) = 0.50. Pero si se sabe que la persona es fumadora, esta probabilidad cambia de
0.50 a p(A = mujer|A = f) = 0.64. Por tanto, se tiene p(A = mujer|A = f) ≠ p(A = mujer); por lo que las variables Sexo y Fumador son dependientes.
Supongamos que sabemos que la persona está embarazada. p(A = mujer|A = e) = 1 ≠ p(A = mujer) = 0.50; por lo que, las variables Sexo y Embarazo son dependientes.
Las dos variables Fumador y Embarazo contienen información relevante sobre la variable Sexo. Sin embargo, el suceso “la persona está embarazada” contiene mucha
más información sobre Sexo que el suceso “la persona es fumadora.” Esto puede medirse por el cociente
La variable Estado Civil no contiene información relevante sobre la variable Sexo y viceversa. (las probabilidades conjuntas coinciden con el producto de las marginales para todos los valores posibles de las dos variables). las variables Sexo y Estado Civil son independientes.
Ejemplo 2 Sea la función de
probabilidad conjunta de las tres variables binarias X, Y y Z dadas en la tabla.
Se muestran las funciones de probabilidad marginal de X, Y y Z. Por ejemplo, la función de probabilidad marginal de X se calcula mediante
Ejemplo 2 Las funciones de probabilidad conjunta de las parejas se dan en la
tabla.
Por ejemplo, la función de probabilidad conjunta de X e Y es
ok
Ejemplo 2 Se muestran las funciones de
probabilidad condicional de una variable dada la otra.
De los resultados anteriores se ve que p(x, y) = p(x)p(y) para todos los
valores posibles de x e y X e Y son independientes.
Esta independencia puede comprobarse con la definición alternativa de independencia p(x|y) = p(x).
Sin embargo, p(x, z) ≠ p(x)p(z) para algunos valores (en este caso todos) de x y z. Por tanto, X y Z son dependientes.
Se puede demostrar también que Y y Z son dependientes.
Los conceptos de dependencia e independencia se refieren a dos subconjuntos de variables. A continuación, se generaliza para más de dos conjuntos.
Dependencia e
independencia condicional Sean X, Y y Z tres conjuntos disjuntos de variables, entonces X se dice
condicionalmente independiente de Y dado Z, si y sólo si p(x|z, y) = p(x|z),
para todos los valores posibles de x, y y z de X, Y y Z;
En otro caso X e Y se dicen condicionalmente dependientes dado Z.
Cuando X e Y son condicionalmente independientes dado Z, se escribe I(X, Y |Z) (relación de independencia condicional).
Cuando X e Y son condicionalmente dependientes dado Z, se escribe D(X, Y |Z) (relación de dependencia condicional).
También se escribe I(X, Y |Z)p o D(X, Y |Z)p para indicar que la relación se deriva del modelo probabilístico asociado a la probabilidad p (la función de probabilidad conjunta).
Dependencia e
independencia condicional La definición de independencia condicional lleva la idea de que
una vez conocida Z, el conocimiento de Y no altera la probabilidad de X. Si Z ya es conocida, el conocimiento de Y no añade información sobre X.
Una definición alternativa, pero equivalente, de independencia condicional es p(x, y|z) = p(x|z)p(y|z).
La independencia (incondicional) puede ser tratada como un caso particular de la independencia condicional. Por ejemplo, se puede escribir I(X, Y |Φ), para indicar que X e Y son incondicionalmente independientes.
Ahora bien, X e Y pueden ser independientes incondicionalmente pero condicionalmente dependientes dado Z, es decir, la relación de independencia condicional I(X, Y | Φ) y la de dependencia condicional D(X, Y |Z) pueden satisfacerse simultáneamente.
Ejemplo 3 Del ejemplo anterior teníamos la
función de probabilidad conjunta de las tres variables binarias X, Y y Z. Se tenían las siguientes relaciones de independencia condicional: I(X, Y | Φ),
D(X,Z| Φ) y D(Y,Z| Φ).
Por ejemplo, para determinar si X e Y son independientes, se necesita comprobar si p(x, y) = p(x)p(y)
para todos los valores posibles de x e y.
También se puede determinar si cualesquiera dos variables son condicionalmente independientes dada una tercera variable.
Por ejemplo, para comprobar si X e Y son condicionalmente independientes dado Z, es necesario comprobar si p(x|y, z) = p(x, y, z)/p(y, z) = p(x|z)
para todos los valores posibles de x, y y z. Para ello, se calculan las probabilidades:
En esta tabla puede verse que p(x|y, z) ≠ p(x|z) y, por tanto, D(X, Y |Z).
Por ello, aunque como vimos la función de probabilidad conjunta implica que X e Y son incondicionalmente independientes, I(X, Y |Φ), son condicionalmente dependientes dado Z, D(X, Y |Z).
Teorema de Bayes
Supongamos que un paciente puede estar sano (no tiene enfermedad alguna) o tiene una de m−1 enfermedades posibles {E1, . . . , Em−1}. Sea E una variable aleatoria que puede tomar uno de m posibles valores, {e1, . . . , em}, donde E = ei significa que el paciente tiene la enfermedad Ei, y E = em significa que el paciente no tiene ninguna enfermedad.
Supongamos que se tienen n síntomas {S1, . . . , Sn}. Ahora, dado que el paciente tiene un conjunto de síntomas {s1, . . . , sk}, se desea calcular la probabilidad de que el paciente tenga la enfermedad Ei, es decir, E = ei. Entonces, aplicando el teorema de Bayes, se obtiene:
Teorema de Bayes. Notas Comentarios sobre la fórmula anterior:
La probabilidad p(ei) se llama probabilidad marginal, prior, “a priori” o inicial de la enfermedad E = ei puesto que puede ser obtenida antes de conocer los síntomas.
La probabilidad p(ei|s1, . . . , sk) es la probabilidad posterior, “a posteriori” o condicional de la enfermedad E = ei, puesto que se calcula después de conocer los síntomas S1 = s1, . . . , Sk = sk.
La probabilidad p(s1, . . . , sk|ei) se conoce por el nombre de verosimilitud de que un paciente con la enfermedad E = ei tenga los síntomas S1 = s1, . . . , Sk = sk.
Por ello, se puede utilizar el teorema de Bayes para
actualizar la probabilidad “a posteriori” usando ambas, la probabilidad “a priori” y la verosimilitud, tal como se muestra en el ejemplo siguiente.
Teorema de Bayes. Ejemplo Un centro médico tiene una BD con las
historias clínicas de N = 1000 pacientes.
Estas historias clínicas se resumen gráficamente en la figura. Hay 700 pacientes (región sombreada) que tienen la enfermedad adenocarcinoma gástrico (G), y 300 que no la tienen (se considera estar sano como otro valor posible de la enfermedad). Tres síntomas, dolor (D), pérdida de peso (P) y vómitos (V ), se considera que están ligados a esta enfermedad. Por tanto, cuando un paciente nuevo llega al centro médico, hay una probabilidad 700/1000 = 70% de que el paciente tenga adenocarcinoma gástrico. Esta es la probabilidad inicial, o “a priori”, puesto que se calcula con la información inicial, antes de conocer información alguna sobre el paciente.
Teorema de Bayes. Ejemplo Por simplicidad de notación, se utiliza g
para indicar que la enfermedad está presente y 𝑔 para indicar que la enfermedad está ausente. Pueden hacerse las afirmaciones: probabilidad “a priori”: 440 de 1,000
pacientes vomitan p(v) = card(v)/N = 440/1, 000 = 0.44, donde card(v) denota el número de pacientes de la base de datos que vomitan. Esto significa que el 44% de los pacientes vomitan.
Verosimilitud: El 50% de los pacientes que tienen la enfermedad vomitan, puesto que p(v|g) = card(v, g)/card(g) = 350/700 = 0.5, mientras y sólo 30% de los pacientes que no tienen la enfermedad vomitan, puesto que p(v|𝑔 ) = card(v, 𝑔 )/card(𝑔 ) = 90/300 = 0.3.
Verosimilitud: El 45% de los pacientes que tienen la enfermedad vomitan y pierden peso, p(v, p|g) = card(v, p, g)/card(g) = 315/700 = 0.45, mientras que s´olo el 12% de los que no tienen la enfermedad vomitan y pierden peso, p(v, p|𝑔 ) = card(v, p, 𝑔 )/card(𝑔 ) = 35/300 ≈ 0.12.
Puesto que la probabilidad inicial de que el paciente tenga adenocarcinoma gástrico, p(g) = 0.7, no es suficientemente alta para hacer un diagnóstico (tomar una decisión ahora implica una probabilidad 0.3 de equivocarse), el doctor decide examinar al paciente para obtener más información.
Supóngase que los resultados del examen muestran que el paciente tiene los síntomas vómitos (V = v) y pérdida de peso (P = p). Ahora, dada la evidencia (el paciente tiene esos síntomas), ¿cuál es la probabilidad de que el paciente tenga la enfermedad? Esta probabilidad “a posteriori” puede ser obtenida de la probabilidad “a priori” y de las verosimilitudes, aplicando el teorema de Bayes en dos etapas, como sigue:
Teorema de Bayes. Ejemplo Tras observar que V = v la
probabilidad “a posteriori” es Cuando se aplica el teorema de Bayes
sucesivamente, la probabilidad “a posteriori” calculada en una etapa dada es la misma que la probabilidad “a priori” en la etapa siguiente. Por ejemplo, la probabilidad “a posteriori”, que se ha calculado en la primera etapa anterior, puede ser usada como probabilidad “a priori” en la segunda etapa, es decir:
La probabilidad cambia tras observar las evidencias. La probabilidad de tener la enfermedad era inicialmente 0.7, después aumentó a 0.795, y luego a 0.9 tras observar la evidencia acumulada V = v y P = p, respectivamente. Al final de la última etapa, el paciente tiene una probabilidad 0.9de tener la enfermedad. Puede ser suficientemente alta (comparada con la probabilidad “a priori” 0.7) para que el doctor diagnostique que el paciente tiene la enfermedad. Sin embargo, sería conveniente observar nuevas evidencias antes de hacer este diagnóstico.
Tras observar que V = v y P = p la probabilidad “a posteriori” es