现在,我们将使用推理示例,使用概率论可以实现在不确定性下推理的微积分。但是,我们很快就会看到,陈旧的概率路径很快就会结束。具体而言,当可用于解决必要方程的知识太少时,需要新的想法。美国物理学家杰伊斯在20世纪50年代开始在这一领域开展工作。他声称,如果缺少知识,可以最大化所需概率分布的熵,并将此原则应用于[Jay57,Jay03]中的许多示例。这个原则随后得到了进一步发展[Che83,Nil86,Kan89,KK92],现在已经成熟并且可以应用于技术,我们将在Sect中的LEXMED项目示例中展示。7.3 。
1. 推理规则的概率
⇒
我们希望推导出一种类似于模态推理的不确定知识的推理规则。根据命题A和规则AB的知识,应达到结论B. 简明扼要地描述了这一点
A,A → B 。乙
概率规则的推广产生
P(A)= α,P(B | A)= β 。
P(B)= ?
设两个概率规则α,β,期望值P(B)。通过边际化,我们获得了理想的边际分布
P(B)= P(A,B)+ P(¬A,B)= P(B | A)・ P(A)+ P(B |¬A)・ P(¬A)。
≥| ・
|¬
¬|
右侧的三个值P(A),P(A),P(BA)是已知的,但值P(BA)是未知的。我们不能用类别概率理论对P(B)做一个确切的陈述,但最多我们可以估计P(B)P(BA)P(A)。
我们现在考虑分发
P(A,B)=(P(A,B),P(A,¬B),P(¬A,B),P(¬A,¬B))
并简要介绍了四个未知数
p 1 = P(A,B),
p 2 = P(A,¬B),
p 3 = P(¬A,B),
p 4 = P(¬A,¬B)。
这四个参数决定了分布。如果它们都是已知的,那么可以计算出两个变量A和B的每个概率。为了计算四个未知数,需要四个方程。已经以归一化条件的形式已知一个等式
p 1 + p 2 + p 3 + p 4 = 1 。
因此,还需要三个等式。然而,在我们的例子中,只知道两个方程。
从给定值 P(A)= α 和 P(B | A)= β 我们计算
P(A,B)= P(B | A)・ P(A)= αβ
和
P(A)= P(A,B)+ P(A,¬B)。
p 1 = αβ,(7.4)
p 1 + p 2 = α,(7.5)
p 1 + p 2 + p 3 + p 4 = 1 ,(7.6)
(7.4 )in(7.5 ): p 2 = α – αβ = α(1 – β),(7.7)
(7.5 )in(7.6):p 3 + p 4 = 1 – α。(7.8)
¬
因此,解释(A,B)和(A,B)的概率p 1 ,p 2 是已知的,但是对于值p 3 ,p 4,仍然只剩下一个等式。尽管知识缺失,但要找到明确的解决方案,我们改变了我们的观点。我们使用给定的方程作为优化问题解决方案的约束。
我们正在寻找一个最大化熵的分布p(对于变量p 3 ,p 4)
ñ
H(p)= – pi ln pi = – p 3 ln p 3 – p 4 ln p 4(7.9)
i = 1
=
+ = –
+ – +
的约束下p 3 p 4 1 α (7.8)。为什么熵函数应该最大化?因为我们缺少有关分布的信息,所以必须以某种方式添加它。我们可以修复一个临时值,例如p 3 0 。然而,确定值p 3和p更好4使得添加的信息最小化。我们可以证明(第8.4.2节和[SW76])熵测量分布的不确定性直到恒定因子。然后,负熵是分布包含的信息量的度量。熵的最大化使分布的信息内容最小化。为了使其可视化,二维情况的熵函数在图7.2 (第125 页)中以图形方式表示。
确定约束p 3 p
4 1 下的熵的最大值
=
α 0,我们使用拉格朗日乘子[Ste07]的方法。拉格朗日函数读取
大号= – p 3 LN p 3 – p 4 LN p 4 + λ(P 3 + p 4 – 1 + α)。
取得关于p 3和p 4 的偏导数
∂L
∂p 3 = – LN p 3 – 1 + λ = 0 ,
∂L
∂p 4 = – LN p 4 – 1 + λ = 0
图7.2 的轮廓线图的
+ =
二维熵函数。我们看到它在整个单位正方形中是严格凸的,并且它具有孤立的全局最大值。还标记了约束 p 3 p 4 1作为条件的特殊情况
p 3 + p 4 – 1 + α = 0表示
α = 0这与此相关
并计算
2
p 3 = p 4 = 1 – α。
现在我们可以计算出所需的值
2
P(B)= P(A,B)+ P(¬ A,B)= p 1 + p 3 = αβ + 1 – α = α β
– 1
1
2
+ 2 。
代入α和β产量
2
2
P(B)= P(A) P(B | A)– 1 + 1。
|
|
对于 P(BA)的各种值, P(B)在第126 页的图7.3中示出。我们看到,在双值边缘情况下,即当 P(B)和 P(BA)取值0或1时,概率推断返回与 P(B)相同的值作为模态推理。当 A 和 B | A 都是真的, B 也是如此。一个有趣的案例是 P(A)= 0,in
这¬ 一个是真的。Modus ponens不能在这里应用,但是我们的公式导致了
值1 / 2 P(B)不管 P(B | A) 。当 A 是假的时候,我们知道关于 B ,它完全反映了我们的直觉。其中的情况下 P(A)= 1和(B P | A)= 0时也涵盖命题逻辑。这里甲是真实和甲⇒乙错误的,因而甲∧¬乙真。那么 B 是假的。图中的水平线意味着在 P(B)的情况下我们不能对 B 做出预测| A)= 1 / 2,在这些点之间, P(B)为改变线性地改变 P(A)或 P(B | A) 。
图7.3。曲线阵列 P(B)作为的函数的 P(A)为不同的值 P(B | A)
定理7.3 假设有一组一致的2组线性概率方程。然后,给定方程作为约束,存在唯一的熵函数最大值。由此定义的MaxEnt分布在约束下具有最小的信息内容。
从该定理可以得出,没有满足约束的分布并且具有比MaxEnt分布更高的熵。导致较低熵的微积分会产生额外的临时信息,这是不合理的。
=
仔细观察P(B)的上述计算,我们看到两个值p 3和p 4总是对称地出现。这意味着交换两个变量不会改变结果。因此最终结果是p 3 p 4.所谓的这两个变量的无差异导致它们被MaxEnt设置为相等。这种关系一般有效:
定义7.5如果Lagrange方程中两个或多个变量的任意交换产生等效方程,则这些变量被称为无关紧要。
2 如果存在至少一个解,即一个满足所有方程的分布,则称一组概率方程是一致的。
在给定约束下的熵的imum是在pi 1
= 的点处
pi 2 =・・・= pi k 。
定理7.4如果一组变量{ pi 1
,…,pi k }无关紧要,那么最大值 –
有了这些知识,我们可以立即设置两个变量p 3和p 4
相等(不解决拉格朗日方程)。
2.
没有显式约束的最大熵
我们现在看一下没有给出知识的情况。这意味着,除了标准化条件
p 1 + p 2 + … + pn = 1,
= =・・・= =
没有约束。因此,所有变量都无关紧要。因此我们可以将它们设置为相等,并且它遵循p 1 p 2 pn 1 / n 。3对于不确定性下的推理,这意味着如果完全缺乏知识,那么所有世界都是同样可能的。也就是说,分布是均匀的。例如,在两个变量A和B的情况下,情况就是如此
P(A,B)= P(A,¬ B)= P(¬ A,B)= P(¬ A,¬ B)= 1 / 4,
= = | =
从其中P(A)P(B) 1 / 2和P(BA) 1 / 2按照。二维情况的结果可以在第125 页的图7.2中看到,因为标记的条件正好是归一化条件。我们看到,最大熵正好在位于行( 1 / 2 , 1 / 2 )。
一旦条件的价值偏离了来自统一分布的条件,世界的概率就会发生变化。我们在另一个例子中展示了这一点。使用与上面使用的相同的描述,我们仅假设
P(B | A)= β
= | = = +
众所周知。因此P(A,B)P(BA)P(A)βp(A) ,从该p 1 β(P
1 p 2 )
然后我们推导出两个约束
βp 2 + (β – 1 )p 1 = 0 ,P 1个+ p 2 + p 3 + p 4 – 1 = 0 。
3 读者可以通过在归一化条件下最大化熵来计算该结果(第 158 页的练习 7.5 )。
一个 |
乙 |
一个⇒乙 |
P(A) |
P(B) |
P(B | A) |
Ť |
Ť |
Ť |
1 |
1 |
1 |
Ť |
F |
F |
1 |
0 |
0 |
F |
Ť |
w ^ |
0 |
1 |
未定义 |
F |
F |
Ť |
0 |
0 |
未定义 |
表7.1 物质含义的真值表和命题逻辑极限的条件概率
| =
这里拉格朗日方程不再能够象征性地解决。拉格朗日方程的一个数值解得到了图7.4 所示的图像,它表明p 3 = p 4.我们已经可以在约束条件下看到这一点,其中p 3
而p 4则无动于衷。对于P(BA) 1 /
2中,我们得到的均匀分布,这
|
并不奇怪。这意味着该值的约束并不意味着对分布的限制。此外,我们可以看到,对于小P(BA),P(A,B)也很小。
3.
条件概率与物质意义
我们现在将证明,对于建模推理,条件概率优于逻辑中已知的物质含义(为此,也见[Ada75])。首先,我们观察表 7.1 中所示的真值表,其中比较了概率0和1的极端情况的条件概率和材料含义。在这两种情况下都有错误的前提(直觉上,这是关键的情况),
P(B | A)是未定义的,这是有道理的。
= =
|
现在我们问自己,当给出任意值P(A)α和P(B)γ并且没有其他信息已知时,P(BA)采用哪个值。我们再次在给定约束下最大化熵。正如上面我们设置
p 1 = P(A,B),p 2 = P(A,¬B),p 3 = P(¬A,B),p 4 = P(¬A,¬B)
并作为约束获得
p 1 + p 2 = α,(7.10)
p 1 + p 3 = γ,(7.11)
p 1 + p 2 + p 3 + p 4 = 1 。(7.12)
有了这个,我们使用熵最大化计算(参见第
159 页的练习 7.8 )
p 1 = αγ,p 2 = α(1 – γ),p 3 = γ(1 – α),p 4 =(1 – α)(1 – γ)。
= =・
从p 1 αγ它遵循P(A,B)P(A)P(B) ,这意味着,甲和乙是独立的。因为没有连接A和B的约束,MaxEnt原则导致这些变量的独立性。第128 页的表7.1 的右半部分使这更容易理解。从定义来看
P(B | A)=
P(A,B)P(A)
| = = |
=
对于情况P(A) 0,即当前提不是假时,因为A和B是独立的,即P(BA)P(B)。对于P(A) 0的情况,P(BA)保持不确定。
4.
最大墒的系统
如前所述,由于熵函数的非线性,MaxEnt优化通常不能象征性地执行非平凡问题。因此,开发了两种用于数值熵最大化的系统。第一个系统,SPIRIT(转型中的推理网络中的对称概率内在推理,www.xspirit.de),[RM96]是在FernuniversitätHagen建立的。第二,PIT(概率感应工具)是在慕尼黑技术大学[Sch96,ES99,SE00]开发的。我们现在简要介绍一下PIT。
PIT系统使用顺序二次规划(SQP)方法在给定约束下找到熵函数的极值。作为输入,PIT期望包含约束的数据。例如,约束 P(A)= α 和
P(B | A)= 来自Sect的 β 。7.2.1 有表格
var A {t,f},B {t,f};
P([A = t])= 0.6;
P([B = t] | [A = t])= 0.3;
QP([B = T]);
QP([B = t] | [A = t]);
由于PIT执行数值计算,我们必须输入显式概率值。倒数第二行包含查询QP([B =
t])。这意味着P(B)是期望值。在 “示例”下的www.pit-systems.de中,我们现在将此输入放入空白输入页面(“空白页面”)并启动PIT。结果我们得到了
NR。真值值概率查询
1个评论3.800e-01
QP([ B = t ]);
2个评论3.000e-01
QP(
[ A = t ] – |> [ B = t ] );
从那里读出 P(B)= 0。38和 P(B | A)= 0。3。
5. Tweety示例
我们现在使用Sect的Tweety示例展示。4.3,概率推理,特别是MaxEnt是非单调的,并且很好地模拟了日常推理。我们使用以下概率对相关规则进行建模:
P(bird | penguin)= 1“企鹅是鸟”
P(苍蝇|鸟)∈[ 0。95,1 ] “(几乎所有)鸟都会飞”
P(苍蝇|企鹅)= 0“企鹅不能飞”
第一和第三条规则代表了坚定的预测,这些预测也可以很容易地用逻辑来形成。然而,在第二种情况下,我们表达了我们的知识,即几乎所有的鸟类都可以通过概率间隔飞行。用PIT输入数据
var penguin {yes,no},bird {yes,no},苍蝇{yes,no}; P([bird = yes] | [penguin = yes])= 1;
P([flies = yes] | [bird = yes])IN [0.95,1]; P([flies = yes] | [penguin = yes])= 0;
QP([flies = yes] | [penguin = yes]);
我们回到正确的答案
NR。Truthvalue概率查询
1个评分0.000e + 00 QP([penguin = yes] – |> [flies = yes]);
| =
| ∈[]
企鹅不能飞的命题。4对此的解释非常简单。用P(苍蝇鸟) 0 。95 , 1有可能会出现非飞的鸟。如果此规则被P(苍蝇鸟) 1 替换,则PIT将无法执行任何操作,并将输出有关不一致约束的错误消息。
| ∈]
在这个例子中,我们可以很容易地看到概率区间通常对于模拟我们对确切概率值的无知非常有帮助。我们可以做出第二个规则的,甚至模糊的提法中的“正常鸟飞”的精神P(蝇鸟)( 0 。 5 , 1。采用半开区间的排除值0.5。