TEORÍA DE LA EVIDENCIA DE DEMPSTER

Transcription

TEORÍA DE LA EVIDENCIA DE DEMPSTER
TEORÍA DE LA EVIDENCIA DE DEMPSTER-SHAFER
Marta Salas Costumero
Patricia Sanz Berjas
1. INTRODUCCIÓN
La teoría de Dempster-Shafer es una extensión a la
teoría de la probabilidad para describir incertidumbre en
la evidencia.
Se centra en la credibilidad que se asigna a que un
evento pueda ocurrir (o haya ocurrido), desde el punto de
vista y de acuerdo a la experiencia de la persona que
toma las decisiones, en contraste con la probabilidad
clásica, que supone la existencia de valores de
probabilidad asociados a eventos determinados
independientemente de que el observador pueda conocer
el valor real de la probabilidad.
Además, la teoría de Demster-Shafer permite que la
evidencia
adquirida
mediante
observaciones
o
experimentos apoye al mismo tiempo varias conclusiones
mutuamente excluyentes o ninguna conclusión en
particular.
En este trabajo se desarrollará más específicamente la
teoría de la evidencia de Demster-Shafer y se comparará
con la teoría de juegos.
Posteriormente se presentarán varias aplicaciones reales,
tales como gestión de catástrofes o detección de objetos
abandonados o robados en secuencias de vídeoseguridad, entre otras.
2. DESARROLLO DE LA TEORÍA
La Teoría de la Evidencia fue desarrollada por Dempster
(1967) y posteriormente extendida por Shafer (1976). El
motivo que les llevó a ello fue las dificultades encontradas
en la Teoría de la Probabilidad para representar la
ignorancia y para manejar la necesidad de que las
creencias asignadas a un evento y su negación sumen
uno.
Esta teoría no precisa de un modelo de probabilidad
completo para trabajar sino que intenta sacar beneficio de
la utilización de conjuntos de hipótesis en lugar de las
hipótesis por separado.
Procura facilitar la reasignación de probabilidad de
creencia en las hipótesis cuando cambian las evidencias
y pretende modelar la disminución del conjunto de
hipótesis de trabajo a partir de la acumulación de
evidencias.
La Teoría de la Evidencia supone que hay un conjunto
exhaustivo de hipótesis mutuamente excluyentes Θ = {θ1,
θ2... θn}, al que se llama Marco de Discernimiento, sobre
el que se pretende razonar considerando el impacto de
las evidencias que puedan aparecer.
A diferencia de otros enfoques, esta teoría sostiene que
se debe considerar el impacto de las evidencias no sólo
sobre las hipótesis individuales originales, sino además
sobre los grupos de éstas, que son los subconjuntos de
Θ, a los que se considera también hipótesis. De esta
forma, las nuevas hipótesis son las posibles disyunciones
de las hipótesis originales.
El conjunto de partes de Θ, representado por P(Θ), está
compuesto por todos los subconjuntos de Θ, incluido el
conjunto vacío (Ø) y el propio Θ. El conjunto P(Θ), y no
Θ, es entonces el conjunto de hipótesis considerado.
La Teoría de la Evidencia utiliza una función µ, llamada
Asignación Básica de Probabilidad, para asignar a cada
elemento de P(Θ) un valor indicativo de la creencia que,
dada una evidencia, se deposita en él. La función µ
cumple las siguientes propiedades:
(1)
(2)
(3)
(1) quiere decir que la creencia, dada una evidencia,
depositada en el conjunto vacío es siempre cero. (2)
indica que a todos los subconjuntos de Θ se les asigna
un valor de creencia real entre 0 y 1, y (3) que la suma de
todos los valores asignados tiene que ser uno.
La función µ es parecida a la Función de Densidad de
Probabilidad de la Teoría de la Probabilidad, pero en la
que no se respeta la restricción bayesiana de que la
suma de la creencia asignada a las hipótesis originales
(subconjuntos unitarios de Θ a los que se conoce como
singletones) deba ser uno. Esto quiere decir que
confirmar una determinada creencia para un singleton no
implica confirmar la creencia restante para su negación.
Sólo en el caso de que µ asignara valores distintos de
cero a los subconjuntos unitarios de Θ, µ se comportaría
como una Función de Densidad de Probabilidad.
En esta teoría, cuando se tiene una nueva evidencia que
apoya la creencia en una hipótesis, la creencia que resta
hasta la unidad se asigna a Θ, y no a la negación de la
hipótesis, como se hubiera hecho en la Teoría de la
Probabilidad. Esto significa que si una evidencia apoya
parcialmente la creencia en una hipótesis, no tiene por
que apoyar parcialmente la creencia en la negación de la
hipótesis. Más bien, la creencia que no se asigna como
resultado de una evidencia, se reparte entre las hipótesis
mutuamente excluyentes.
Por otro lado, si el impacto de una evidencia apoya un
subconjunto de hipótesis de Θ que no es unitario,
equivale a decir que la evidencia confirma la creencia en
las hipótesis de Θ que forman el subconjunto, pero sin
concretar el impacto en la creencia de cada una de ellas.
La Teoría de la Evidencia proporciona con la Asignación
Básica de Probabilidad una forma de representar el
impacto de la evidencia sobre el Marco de
Discernimiento. Así, establece una serie de instrumentos
de medida para intentar determinar el grado de creencia
que se puede depositar en cada hipótesis considerando
las evidencias disponibles. Se trata de los grados de
creencia, duda y verisimilitud, y el intervalo de creencia,
que se definen a continuación.
El Grado de Creencia en un elemento A de P(Θ) se
escribe como Bel(A) y representa la mínima creencia en
la hipótesis A, como resultado de una evidencia. Se
define por tanto como la suma de las asignaciones
básicas de probabilidad hechas a todos los subconjuntos
de A:
(4)
El Grado de Duda, dada una evidencia, en la negación de
A, Bel(¬A), es el Grado de Duda en A. Se escribe como
D(A) y representa la mínima creencia en la negación de
la hipótesis A como resultado de una evidencia:
(5)
El Grado de Verosimilitud (o Plausibilidad) de un
elemento A de P(Θ) se escribe como Pl(A) y representa
la máxima creencia en la hipótesis A, como resultado de
una evidencia. Es por tanto lo que le falta al Grado de
Duda en A para la unidad. También puede verse como la
suma de las asignaciones básicas de probabilidad
hechas a todos los elementos X de P(Θ) cuya
intersección con A no es vacía:
(10)
Siendo
(11)
donde la constante k provoca un efecto de normalización
por el que se elimina la creencia en el conjunto vacío
repartiéndola entre todos los demás elementos de P(Θ)
en proporción a la creencia depositada en ellos.
Se demuestra que la función así obtenida µ12 es una
Asignación Básica de Probabilidad como µ1 y µ2. La
propiedad conmutativa de la multiplicación garantiza que
esta regla genera los mismos valores de forma
independiente del orden en que se combinen las
funciones y, por tanto, del orden en que se consideren las
evidencias.
3. CRÍTICAS A LA TEORÍA DE LA EVIDENCIA:
Falta de rigor: la regla de combinación de Dempster se
presenta sin ninguna justificación como una fórmula que
parece reflejar la acumulación de evidencia.
Interpretación del intervalo de creencia, que desde el
punto de vista de los defensores de la Inferencia
Bayesiana es errónea.
(6)
Se cumple que el Grado de Creencia siempre es menor
que el Grado de Verisimilitud.
El intervalo entre el Grado de Creencia y el de
Verosimilitud de un elemento A de P(Θ) es el Intervalo de
Creencia en A. Se escribe como un par [Bel(A), Pl(A)] y
representa el nivel de incertidumbre sobre la hipótesis A,
como resultado de una evidencia.
Según la Teoría de la Evidencia la diferencia entre Bel(A)
y Pl(A) es una medida de esa incertidumbre. Cuando
Bel(A) y Pl(A) son iguales se tiene absoluta certeza sobre
el impacto de la evidencia sobre la hipótesis A. Cuando
Bel(A) es 0 y Pl(A) es 1, la diferencia entre ambas
medidas es máxima y no se sabe nada del efecto sobre A
de la evidencia. Y cuando los valores de Bel(A) y Pl(A)
son otros, cuanto mayor es la diferencia entre ambos,
mayor es la incertidumbre acerca del impacto de la
evidencia sobre la hipótesis A.
La Teoría de la Evidencia propone un proceso iterativo
para evaluar el impacto sobre las hipótesis de sucesivas
evidencias. En este proceso, la creencia en las hipótesis
adquiridas en una iteración (µ1), como resultado de
considerar el impacto de una evidencia, se combina con
la adquirida en la iteración siguiente (µ2), al evaluar el
impacto de una nueva evidencia.
Dicha combinación (µ12= µ1
µ2) se realiza mediante la
Regla de Combinación de Dempster:
(7)
(8)
o lo que es equivalente, para el último caso:
Complejidad computacional: el tamaño del conjunto de
hipótesis considerado P(Θ) depende exponencialmente
del tamaño del conjunto de hipótesis de partida Θ, con lo
que el problema de asignar probabilidades de creencia a
las hipótesis es también exponencial.
Limitaciones sobre las hipótesis, que deben ser
mutuamente excluyentes, condición que no es siempre
posible conseguir ni es suficiente para representar la
realidad en todos los casos.
Limitaciones sobre las evidencias, que se supone que
deben ser independientes, algo que no siempre se puede
conseguir.
Restricciones en la combinación de evidencias, la
exigencia de eliminar todos los conflictos entre las
evidencias lleva a resultados que no son intuitivos y que
resultan incorrectos.
4. COMPARACIÓN DE LA TEORÍA DE LA EVIDENCIA
CON LA TEORÍA DE JUEGOS
Aunque la teoría de la evidencia fue formulada como una
teoría de la creencia en las proposiciones, formalmente
es análoga a la formulación de la teoría de los juegos
cooperativos. Aquí, el universo del discurso Ω es
sustituido por el conjunto de jugadores Ω = {1 2 3...n}. Del
mismo modo, el conjunto de todas las proposiciones
posibles se sustituye por el conjunto de todas las
Ω
coaliciones posibles 2 y la función de creencia BEL por
Ω
la función característica del juego v: 2 → [0 1] con v(Ø) =
0 y v(Ω) = 1 y alguna forma de superaditividad: si A ∩ B =
Ø se tiene que v(A U B) ≥ v(A) + v(B) . Una de las más
usuales es aceptar la función característica v la condición
de “supermodularidad”, es decir, para cualesquiera dos
subconjuntos A, B de Ω se tiene que v(A U B) + v(A ∩ B)
≥ v(A) + v(B) que es exactamente la condición que
cumplen las funciones de creencia. La idea subyacente
Ω
es la misma: la coalición A ε 2 es más que la “suma” de
sus jugadores y ha de tener mejor pago v(A) que la suma
de los pagos individuales v(A) ≥ Σ v( i ), esto significa que
ha de ser superaditiva. Esta similitud de planteamientos
hace que ambas teorías puedan ser consideradas
equivalentes entre sí.
Las funciones de creencia permiten representar la
ignorancia mejor que la teoría de las probabilidades.
Veamos un ejemplo: ¿Existe Dios? Aquí Θ posee dos
posibilidades Θ = {sí, no}. Desde el punto de vista
probabilístico ha de tenerse, por la aditividad de las
probabilidades, que P(sí) + P(no) = 1 y como P(no) = 1 –
P(sí) necesariamente, entonces P(no) = P(sí) = ½. La
ignorancia consiste en creer con un 50% de posibilidades
que Dios existe y que no existe con otro 50%. Esta
cuantificación no es creíble.
Desde el punto de vista de la teoría de la evidencia la
ignorancia puede ser mejor representada por una función
Θ
de creencia BEL: 2 → [0 1] con BEL(sí) = 0, BEL(no) = 0
y BEL (sí o no) = 1.
Aunque estas dos teorías también tienen algunas
diferencias. Definimos el «core» o núcleo de un juego
cooperativo (Ω, ℘(Ω), v) como todas las posibles
redistribuciones entre los jugadores de los beneficios
conseguidos por su cooperación. Dicho núcleo es un
conjunto
convexo
compacto
del
simplex
de
probabilidades de Θ que contiene una cantidad infinita de
elementos.
Figura 2. Núcleo particular para caso A
El valor de Shapley de ({1,2},℘{1,2} v) es, como siempre,
el centro de gravedad del núcleo y en este caso dicho
centro de gravedad es la probabilidad P(½, ½): esto es,
los jugadores se reparten el beneficio por igual.
Caso B
Consideremos la cuestión ya mencionada de si existe
Dios. Hay dos respuestas posibles: si o no. Sea
Θ = {si, no} y la función de creencia mínima:
℘( Θ)→,0,1{si}→BEL*si+=0
{no}→BEL*no+=0
{si, no}→BEL*si, no+=1
(13)
ya que todos estamos dispuestos a creer que existe o
que no existe, pero salvo por creencias personales, no
sabemos en absoluto si existe o no. Como antes el
*
conjunto de probabilidades P tales que BEL ≤ P ≤ P* es
el simplex [0,1].
Figura 3. Núcleo particular para caso B
Figura 1. Núcleo de un juego cooperativo
¿Cuál elegir de todos ellos? La teoría de juegos
cooperativos ha considerado diversas elecciones
particulares y concretas del núcleo C(v) tales como el
valor de Shapley. Aunque desde el punto de vista de la
teoría de juegos, tales elecciones parecen adecuadas,
desde el punto de vista de la teoría de la evidencia no
resultan tan razonables. Esta fricción entre ambos
enfoques, matemáticamente análogos, puede ilustrarse
por medio del siguiente ejemplo.
Caso A:
Sea Ω = {1,2} un juego con dos jugadores y sea v la
función característica definida por:
℘(Ω)→,0,1{1}→v*1+=0
{2}→v*2+=0
{1,2}→v*1,2}=1
(12)
Ningún jugador consigue nada por sí mismo pero
cooperando entre ellos logran una unidad de beneficio.
Se ve que el núcleo de este juego consiste en todas las
probabilidades sobre Ω, es decir M(P) es el simplex [0, 1].
El valor de Shapley sería igualmente la probabilidad
P(½, ½) que equivale a creer que existe en un 50% de las
veces y en otro 50% que no. Esto no parece una
redistribución de la creencia total BEL{si, no} =1 muy
razonable.
Claramente la redistribución de la creencia a partes
iguales sólo puede depender de forma subjetiva de la
persona a la que se le plantee la cuestión. De igual modo,
en el ejemplo del juego cooperativo, la redistribución del
beneficio dependerá del trabajo real llevado a cabo por
cada jugador en la coalición y no sólo por el beneficio
total que dicha coalición reporta. La cuestión no es fácil
como el siguiente caso demuestra:
EL CASO DEL PADRE A CARA O CRUZ. Un hombre fue
acusado en un caso de paternidad debido a un gen cuya
frecuencia en la población adulta es del 1% y que se
trasmite con probabilidad 1 de padres a hijos. Tanto el
presunto padre como el niño causante del litigio poseían
ese gen, por lo que el fiscal del caso planteó la
conveniencia de obtener la probabilidad de que el
acusado fuera el padre dado que el niño tenía el gen.
Representando el suceso “el acusado es el padre” por A
y el hecho cierto de que “el niño tienen el gen” por B, el
fiscal aplicó el teorema de Bayes y calculó:
abandono PDi(U) y una probabilidad de incertidumbre
PDi(I) . La suma de estas 3 probabilidades tiene que ser
uno.
De lo anteriormente dicho sabemos que P(A/B)=1 y
c
P(B/A )= 0.01=1%. Por tanto sólo se necesita conocer los
c
valores de P(A) y P(A ), sustituir y calcular la probabilidad
de P(A/B). El fiscal estimó que ambas eran 0.5, es decir,
unos valores que trataban de reflejar el desconocimiento
que se tenía de la posible paternidad y puesto que podía
ser o no el padre, lo lógico, pensó el fiscal, parecía ser
asignar igual probabilidad a ambos supuestos. El
resultado de esa redistribución de la creencia, que
corresponde al valor de Shapley, no pudo ser más
concluyente en contra del acusado porque P(A/B) resultó
ser aproximadamente 0.99. El defensor recurrió esa
redistribución de la creencia y basó su recurso
precisamente en la asignación, considerada por el fiscal,
del valor de Shapley a la función de creencia mínima:
Dicho método difiere con la estimación Bayesiana en que
las probabilidades que se calculan en él dependen de las
condiciones de robo, abandono y de incertidumbre, y no
solo de la condición de robo o de abandono como en el
caso anterior.
Combinando dichas probabilidades, se obtienen 9
probabilidades, 3 pertenecientes al abandono, 3
pertenecientes al robo, y otras 3 probabilidades que no
utilizaremos debido a que se basan en el cruce de
eventos incompatibles (robo-abandono, PDi(S) y PD2(U) y
abandono-robo, PDi(U) y PD2(S), y al cruce de ambas
incertibumbres (PDi(I) y PD2(I)).
La probabilidad final de robo y de abandono, se calcula
de la siguiente manera:
℘(A=el acusado es el padre, Ac = el acusado no es
el padre)→,0,1*A+→BEL*A+=0
{Ac+→BEL* Ac }=0
{A, Ac+→BEL* A, Ac }=1
(16)
(17)
Donde las probabilidades parciales son:
(15)
El defensor mostró que llevada a sus últimas
consecuencias, semejante asignación de probabilidades
equivalía a declarar padre a cualquier adulto por el
procedimiento de cara o cruz ya que se confundía
ignorancia con probabilidad. Para rematar su discurso
obtuvo P(A/B) para distintos valores de P(A) que se
representan en la siguiente gráfica.
(18)
Veamos un ejemplo en la tabla 1.
Figura 4. P(A/B) en función de P(A)
Se ve que para valores bajos de P(A), entre 0 y 0.1,
P(A/B) da valores bajos que difícilmente condenan a
nadie. Puesto que BEL(A) = inf {P(A): P probabilidad del
simplex [0,1]}=0 es la creencia adecuada para el suceso
A= el acusado es el padre, cualquier redistribución de la
c
creencia total BEL{A, A }= 1en alguna probabilidad del
simplex [0,1], como el valor de Shapley, puede ser
erróneo y puramente subjetivo.
La probabilidad final de robo,
, será de 0.93745.
La probabilidad final de abandono,
, será de 0.054.
La probabilidad final de incertidumbre, de la combinación
de los dos detectores, que corresponde a k3, es de
0.01125.
5. EJEMPLOS DE APLICACIONES.
5.1 Detección de objetos abandonados/robados en
secuencias de vídeo-seguridad
La suma de estas tres posibilidades, es uno, por lo tanto
se corrobora que estamos ante un método que corrobora
las reglas de la teoría de la probabilidad, descartándose
el valor de k1 y k2.
El método de Dempster-Shafer se basa en la mezcla de
información procedente de varios detectores, combinando
dicha información para mejorar los resultados obtenidos
de modo independiente por cada uno de esos
detectores.Se fusiona así la información de los dos
detectores, D1 y D2 . De cada detector, se tiene una
probabilidad de robo PDi(S) , otra probabilidad de
5.2 Gestión de las catástrofes
El sistema asistencial en las catástrofes tiene que llevar a
cabo una serie de funciones como: definición clara de la
alerta, confirmación y paso a la fase de alarma,
organización del centro de mando unificado, movilización
de los recursos, alerta de los centros sanitarios,
Tabla 1. Ejemplo del modelo de fusión de Dempster-Shafer
Tabla 2. Tabla de asignación básica, credibilidad y plausibilidad para un potencial no normalizado
organización “in situ” de un centro de coordinación y
comunicaciones ante la catástrofe, sectorización de la
zona siniestrada, normas de transporte sanitario, traslado
de víctimas, ingreso en los centros hospitalarios,
cobertura de objetivos sanitarios tardíos y fin del estado
de alarma.
calcular su credibilidad y plausibilidad (aparecen también
en tabla). Por ejemplo, para el cálculo de
:
Todo esto se puede crear bajo un SIAC (Sistema
integrado de asistencia a catástrofes). Se trataría de un
centro general de asistencia a catástrofes, dotado con un
ordenador central provisto de los más importantes y
actuales protocolos de comunicaciones donde también
residiría la base de datos central que recogería todas las
incidencias que se produjeran y gestionaría los recursos
disponibles.
Que representa el grado de credibilidad que apoya las
afirmaciones x1 y x2.
Si hacemos lo mismo para
obtenemos:
En este ámbito sería necesario el tratamiento de la
incertidumbre porque en muchos casos el conocimiento
que se tiene de la situación es impreciso o inexacto. De
este modo, ya en 1977 apareció el modelo de certeza
que se utilizó en Mycin. Posteriormente aparecieron otros
modelos adaptados a este campo como la lógica difusa,
las reyes bayesianas de creencias o la propia teoría de la
evidencia de Dempster-Shafer, en las que las evidencias
establecidas por el experto están orientadas a grupos de
hipótesis en vez de a premisas individuales, como ya se
ha comentado. Dos parámetros son los que se usan:
credibilidad y plausibilidad, pudiendo extenderse el
procedimiento para la combinación de n reglas. Después
de un estudio cuidadoso se llegó a que la teoría de la
evidencia de Dempster-Shafer es el método más
adecuado para resolver este problema.
Que puede interpretarse como el grado hasta el cual no
podemos dudar de las afirmaciones x1 y x2. Nótese que el
experto asigna un valor al conjunto vacío, lo que significa
que asigna posibilidad de ser a una afirmación no
especificada en el dominio.
5.3 Ejemplo en fútbol
Se tiene D = {x} como el dominio para un potencial de
credibilidad φ
con
y
. Por ejemplo, x1, x2 y x3
representan respectivamente el resultado de un partido
de fútbol, siendo x1 que el equipo local gane, x2 que el
equipo visitante gane y x3 que el partido quede
empatado. Dadas las asignaciones básicas
de la
tabla 2 (provenientes del juicio de un experto), se puede
Y para la credibilidad y plausibilidad, se tiene:
(19)
+
(20)
Ahora bien, la Tabla 4 muestra un potencial incompleto.
Para obtener el potencial completo, los datos deben
normalizarse, distribuyendo la proporción de masa en
conflicto
entre todos los elementos focales
como sigue:
Asignación básica normalizada:
(21)
(22)
Tabla 3. Tabla de asignación básica, credibilidad y plausibilidad normalizados.
Tabla 4. Cálculo de los potenciales combinados para el diagnóstico de gripe (C), resfriado (F), migraña (H) y
meningitis (M).
φ1
φ2
φ3
[φ1 (C,F,M)]m=0.6
[φ2 (C,F,M)]m=0.7
[φ3 (C,F,M)]m=0.42
[φ1 (Q)]m=0.4
[φ2 (C,F,H)]m=0.3
[φ3 (C,F,H)]m=0.28
[φ1 (C,F,M)]m=0.6
[φ2 (Q)]m=0.7
[φ3 (C,F,M)]m=0.18
[φ1 (Q)]m=0.4
[φ2 (Q)]m=0.3
[φ3 (Q)]m=0.12
Denotando con subíndices en letras mayúsculas los
valores normalizados y subíndices en letras minúsculas
los valores originales. De esta manera, la Tabla 3 se
obtiene normalizando los datos de la Tabla 2.
5.4 Ejemplo en medicina
Suponemos Q como el dominio del problema, con cuatro
elementos focales: gripe (C), resfriado (F), migraña (H) y
meningitis (M). La tarea será poner asignación básica a
los elementos del dominio Q. Se puede asignar un valor a
conjuntos de estas hipótesis,por ejemplo, el tener fiebre
podría apoyar {C, F, M}. Dado que los elementos de Q
son hipótesis mutuamente excluyentes, la evidencia a
favor de una puede afectar la credibilidad hacia otra.
Se supone que la primera pieza de evidencia es que el
paciente tiene fiebre, la cual tiene un apoyo de
[φ1(C,F,M)]m=0.6. Si esta fuera la única hipótesis,
entonces [φ1 (Q)]m=0.4, que indica que el resto del apoyo
se reparte entre todos los elementos de Q.
Si ahora se obtiene una nueva evidencia para el
diagnóstico, ya que el paciente tiene mucha náusea,
diríamos que [φ2(C,F,M)]m=0.7 y [φ2 (Q)]m=0.3.
Ahora con la regla de Dempster se intersectan los
conjuntos focales de φ1 con φ2, como se muestra en la
tabla 4, obteniendo un nuevo potencial φ3. Debido a que
el espacio focal es pequeño, las intersecciones que se
pueden encontrar son pocas, (las que se ven en la tabla)
obteniendo los valores para φ3 por simple multiplicación.
La marginalización toma un potencial de credibilidad φ en
↓D’
un dominio D y produce un nuevo potencial φ
en D’ ⊆
D que es usado para concentrar la información contenida
en φ a un dominio más pequeño D’, y es definida por:
En donde
denota la proyección del conjunto
al nuevo dominio D’.
Una nota importante es que la normalización puede ser
realizada tanto antes como después de la combinación o
marginalización, es decir:
v(φ1⊗ φ2)= v(φ1)⊗ v(φ2)
↓D'
↓D'
ν (φ
)= ν (φ)
(24)
(25)
Así, la normalización puede siempre ser propuesta hasta
el final de los cálculos.
El potencial práctico para la toma de decisiones del
marco teórico recién expuesto consiste en:
1) Su capacidad para modelar el conocimiento adquirido
por la persona que toma las decisiones a través de
observaciones o experimentos, y
2) Su habilidad para distinguir entre ignorancia e
incertidumbre. Esta última característica es crucial, pues
tradicionalmente se ha considerado a la falta de
información como una situación indeseable y perjudicial
para la toma de decisiones.
5.5 Averiguar el asesino.
El Sr López fue asesinado y sabemos que el asesino es
uno de los tres asesinos más conocidos, Julio, Javi o
Sonia. Por lo tanto, tenemos un conjunto de hipótesis, es
decir,
nuestro
marco
de
discernimiento
es
= {Julio, Javi, Sonia}. La única evidencia que tenemos
es que hay una persona que vió salir al asesino, y ésta
asegura que con un 80% de probabilidad es un hombre.
Por lo que podemos decir que P(hombre) = 0.8. Esta
medida de la incertidumbre es lo que hemos llamado
Asignación Básica de Probabilidad (bpa). Por lo tanto,
tenemos un bpa dado por m1({Julio, Javi}) = 0.8, como no
sabemos nada de la probabilidad restante, toda ella se
asigna
al
marco
de
discernimiento
m1({Julio, Javi, Sonia}) = 0.2.
El punto clave es que las asignaciones a un singleton
pueden funcionar al mismo tiempo como asignaciones
para varias proposiciones. Esta situación no se permite
en la teoría Bayesiana clásica. Por lo que la Teoría de la
evidencia puede verse como una generalización de la
teoría Bayesiana, que evita el problema de tener que
Tabla 5: Combinación de dos proposiciones de evidencia
m1({Julio, Javi}) = 0.8
m3({Javi}) = 0.48
m3({Julio, Javi}) = 0.32
m2({Sonia, Javi}) = 0.6
m2({Julio, Javi, Sonia}) = 0.4
asignar probabilidades
suposiciones sobre ellas.
no
disponibles
y
hacer
Si ahora sabemos que Julio se fue de viaje a Canarias
con una evidencia del 0.6 cuando el asesinato ocurrió,
podemos decir que tenemos un bpa dado por
m2({Sonia, Javi}) = 0.6.
Como no sabemos nada sobre el resto de la probabilidad,
volveremos a asignarlo a todo el marco de
discernimiento, resultando m2({Julio, Javi, Sonia}) = 0.4.
Si estuviéramos en la probabilidad clásica, ahora
combinaríamos ambas probabilidades simplemente con
una multiplicación entre ellas. Pero en el caso de la
Teoría de evidencia, se requiere una multiplicación más
compleja que combina ambas partes de la evidencia. En
la Tabla 5 se muestra dicho resultado.
El resultado de combinar las dos afirmaciones dadas es
el de intersectar los conjuntos A y B, donde A cumple que
m1({A}) = M1 y B cumple m2({B}) = M2. La creencia
ocurrida en la intersección del producto entre M1 y M2.
Por ejemplo:
m3({Javi,Sonia})
=
m1({Julio,Javi,Sonia})
m2({Sonia,Javi}) = 0.2 x 0.6 = 0.12.
x
(26)
Podemos construir esta evidencia para encontrar algún
grado de creencia: la creencia en un conjunto es la suma
de todas las probabilidades de los subconjuntos que la
forman. Por ejemplo:
Bel({Julio,Javi})
=
m3({Julio})
+
m3({Javi,Julio}) = 0+ 0.48 + 0.32 = 0.8
m1({Julio, Javi, Sonia}) = 0.2
m3({Sonia, Javi}) = 0.12
m3({Sonia, Javi, Julio}) = 0.08
m3({Javi})
+
(27)
6. CONCLUSIONES
En este trabajo hemos explicado la Teoría de la evidencia
de Dempster-Shafer desarrollando su contenido teórico y
viendo algunos ejemplos de sus posibles aplicaciones.
También comparamos esta teoría con la teoría de juegos
concluyendo que son matemáticamente similares.
La Teoría de la evidencia difiere de los métodos
tradicionales de probabilidad en que no requiere que la
creencia en una proposición implique que a la no
creencia en esa proposición se le asigne sólo la
probabilidad de que ocurra lo contrario. Lo que da más
realismo al planteamiento de los problemas.
Por ejemplo, en el debate actual sobre los riesgos de
salud asociados a los teléfonos móviles, las
investigaciones no concluyen que exista ese riesgo pero
no se puede decir que el riesgo sea despreciable.
En la teoría de la evidencia también es importante
destacar que los métodos numéricos de la incertidumbre
pueden ser asignados a conjuntos solapados de
hipótesis, eventos o proposiciones y no sólo a hipótesis
individuales como se hace tradicionalmente.
Siempre se ha optado por ignorar la incertidumbre,
eliminar los datos ambiguos o faltantes y considerar
únicamente la información que se conoce con certeza.
Sin embargo, la teoría de Dempster-Shafer nos permite
adoptar una perspectiva distinta, tratando de aprovechar
la falta de información para lograr un mejor conocimiento
de la situación.
Así, la teoría de la evidencia enriquece a la teoría de la
probabilidad mediante un marco teórico más general, que
permite distinguir entre ignorancia e incertidumbre
introduciendo elementos como la creencia no asignada,
el grado de duda o el grado de verosimilitud.
7. REFERENCIAS
[1] Jaime Moreno Llorena, “Teoría de la Evidencia de
Dempster-Shafer” Curso Doctorado: Razonamiento
Bajo Incertidumbre ETSI, UAM Mayo de 2002.
[2] Álvaro Bayona Gómez, “Detección de objetos
abandonados/robados en secuencias de videoseguridad” Proyecto Fin de Carrera, Universidad
Autónoma de Madrid, Septiembre de 2009.
[3] José Antonio Núñez del Prado, Mª Pilar García
Pineda, Antonio Heras Martínez “Teoría de juegos
cooperativos versus teoría de la evidencia”
Universidad Complutense de Madrid. XII Jornadas de
ASEPUMA.
[4] José Fernando Reyes Saldaña, Rodolfo García
Flores, “Toma de decisiones mediante técnicas de
razonamiento incierto” Ingenierías, Julio-Septiembre
2005, Vol. VIII, No. 28.
[5] V. Maojo, F. Martin, A. Pazos, “Gestión de las
catástrofes con técnicas de inteligencia artificial”.
[6] J.F. Blanes Noguera, “Percepción y representación
del entorno en robótica móvil”
Tesis doctoral.
Universidad Politécnica de Valencia. Septiembre
2000.
[7] J.F. Reyes Saldaña, “Generando sugerencias de
inventario mediante la teoría de la evidencia de
Dempster-Shafer” Universidad Autónoma de Nuevo
León. Diciembre de 2005.
[8] Malcolm Beynon, Bruce Curry, Peter Morgan. “The
Dempster-Shafer theory of evidence: an alternative
approach to multicriteria decision modeling” Omega
28 (2000) 37-50.