熟悉概率论的读者可以跳过本节。对于其他人,我们将快速提出并推荐一些适当的教科书,如[Ros09,FPP07]。
概率特别适用于不确定性下的推理建模。其中一个原因是概率直观易于解释,这可以在下面的基本示例中看到。
ω ∈ Ω 表示辊的可能结果。如果这些事件的Wi ∈ Ω 亩
实施例7.1 用于游戏模具(实验)的单辊,所述事件的概率“滚动六”等于1 / 6中,而发生“滚动奇数”的概率等于1 / 2中。
定义7.1设Ω为实验的有限事件集。每个活动
相互排斥,但涵盖了尝试的所有可能结果,然后将它们称为基本事件。
例7.2
对于一个游戏模具的单卷
Ω = { 1,2,3,4,5,6 }
因为这些事件中没有两个可以同时发生。滚动偶数({ 2 , 4 , 6 } ),因此不是一个基本事件,也不是轧制数小于5 ({ 1 , 2 , 3 , 4 } )因为{ 2 , 4 , 6 }∩{ 1 , 2 , 3 , 4 } = { 2 , 4 } =∅。
∅
∪
给定两个事件A和B,AB也是一个事件。Ω本身表示特定事件,空表示不可能事件。
∩∧
在下文中,我们将使用命题逻辑符号进行集合运算。也就是说,对于集合AB,我们写AB。这不仅是语法转换,而且在语义上也是正确的,因为两个集合的交集被定义为
X ∈甲∩乙⇔ X ∈甲∧ X ∈ B.
∧
因为这是AB的语义,我们可以并且将使用这种表示法。对于其他集合运算联合和补充也是如此,如下表所示,我们也将使用命题逻辑符号。
设置符号命题逻辑描述
甲∩ BA ∧乙 交叉口/和 甲∪ BA ∨乙 联盟/或 甲¯ ¬阿 补/否定
Ωw 某些事件/真实
∅ ˚F 不可能事件/假
这里使用的变量(例如A,B等)在概率论中称为随机变量。我们在这里只使用带有限域的离散偶然变量。可变face_number一个骰子是离散的具有值1 , 2 , 3 , 4 , 5 , 6,滚动一个五或六的概率等于1 / 3,这可以通过进行说明
P(面_数∈{ 5,6 })= P(面_数量= 5 ∨面_数量= 6)= 1 / 3。
[]
概率概念应该给我们描述尽可能客观的关于实验结果的“信念”或“信念”。在间隔0的所有数字,
1应该是可能的,其中0是不可能的事件的概率和1中的特定事件的概率。我们从以下定义来看这个。
ementary事件,这意味着我们假设与每个基本事件出现频率的频率相关的对称性。然后是事件A 的概率P(A)
P(A)= =
A的有利案件数量
可能的案件数量。
|
一个
|
| Ω |
定义7.2 令 Ω = { ω 1,ω 2,…,ωN } 是有限的。没有首选的el-
=
| |
紧接着,每个基本事件的概率为1 /Ω。基本事件具有相等概率的要求称为拉普拉斯假设,由此计算的概率称为拉普拉斯概率。当基本事件的数量变为无限时,该定义达到其极限。因为我们这里只关注有限事件空间,所以这不会产生问题。为了描述事件,我们使用具有适当数量的值的变量。例如,变量eye_color可以采用绿色,蓝色,棕色的值。眼睛 _ 颜色蓝色然后描述一个事件,因为我们正在处理一个具有真值t或f的命题。对于二进制(布尔)变量,变量本身已经是一个命题。这是不够的,例如,写P(JohnCalls)代替
的 P(JohnCalls = T) 。
例7.3
根据这个定义,滚动偶数的概率是
P(面_数∈{ 2,4,6 })= | { 1,2,3,4,5,6 } | = 6 = 2。
以下重要规则直接来自定义。
定理7.1
=
1. P(Ω) 1。
∅=
1.
P()0,表示不可能事件的概率为0。
∨= +
2.
对于成对排他性事件A和B,P(AB)P(A)P(B)确实如此。
1。
3.
对于两个互补事件A和¬A,P(A)+ P(¬A)=是真的
4.
对于任意事件A和B,P(A∨B)= P(A)+ P(B)是正确的–
⊆≤
P(A∧B)。
i = 1
5.
对于AB,P(A)P(B)确实如此。
6.
如果A
1,…,An是基本事件,那么条件)。
n P(Ai)= 1(归一化
∧
∧
¬¬¬¬
表达式P(AB)或等效地P(A,B)代表事件AB的概率。我们经常对所有基本事件的概率感兴趣,即对变量A和B的所有值的所有组合感兴趣。对于二元变量A和B,它们是P(A,B),P(A,B),P(A,B),P(A,B)。
我们称之为向量
(P(A,B),P(A,¬B),P(¬A,B),P(¬A,¬B))
由这四个值组成的变量A和B的分布或联合概率分布。对此的简写是P(A,B)。在两个变量的情况下的分布可以以表(矩阵)的形式很好地可视化,表示如下:
P(A,B)B = w B = f A = w P(A,B)P(A,¬B)
A = f P(¬A,B)P(¬A,¬B)
= =
对于具有n个值的d变量X 1 ,…,Xd,分布具有值P(X 1 x 1
,…,Xd xd)和x 1 ,…,xd,每个都取在n个不同的值上。因此,分布可以表示为具有总共nd个元素的d维矩阵。但是,由于第117 页的定理7.1 的归一化条件,这些nd值中的一个是冗余的,并且分布的特征是
由nd – 1个唯一值。
7.1.1条件概率
例7.4 在波士顿的Landsdowne街上,测量了100辆车的速度。对于每次测量,还要注意驾驶员是否是学生。结果是
事件 |
频率 |
相对频率 |
观察车辆 |
100 |
1 |
司机是学生(S) |
三十 |
0 。3 |
速度太高(G) |
10 |
0 。1 |
司机是学生和超速驾驶(S∧G) |
五 |
0 。05 |
我们提出这样一个问题:学生的速度是否比普通人或非学生更频繁?1
答案是由概率给出的
P(G | S) = | 驱动程序是一个学生,超速| 五
1 0 。17
| 司机是学生| = 30 = 6 ≈
1 如果测量样本(100辆车辆)具有代表性,则计算出的概率只能用于连续命题。否则,只能对观察到的100辆车提出建议。
条件B(条件概率)由下式定义
=
在司机是学生的情况下超速驾驶。这明显不同于先验概率P(G) 0 。1为超速驾驶。对于先验概率,事件空间不受附加条件的限制。
定义7.3 两个事件一和乙的概率 P(A | B)为一个下
P(A | B)=
P(A∧B)
。
P(B)
| ∧
在例7.4中,我们看到在有限事件空间的情况下,当我们仅查看事件B时,条件概率P(AB)可以被理解为AB的概率,即,
| =
P(AB) | 一个∧乙| 。
| B |
可以使用第117 页的定义 7.2 轻松导出此公式
P(A | B)=
P(A∧B)
P(B)
| 一个 ∧ 乙 |
= =
| Ω |
| B |
| Ω |
| 一个 ∧ 乙 | 。
| B |
定义7.4如果,对于两个事件A和B,
P(A | B)= P(A),
然后这些事件被称为独立的。
因此,如果事件A的概率不受事件B的影响,则A和B是独立的。
定理7.2对于独立事件A和B ,它遵循定义
P(A∧B)= P(A)・ P(B)。
实施例7.5
对于两个骰子的滚动,滚动两个六点的概率为1 / 十六两个骰子是独立的,因为
P(D 1 = 6 ^ D 2 = 6 ) = P(D 1 = 6 ) ・ P(D 2 = 6 ) = 6 ・ 6 = 36 ,
其中第一个等式仅在两个骰子独立时才为真。例如,如果一些神奇的力量,模具2总是与模具1相同,那么
连锁规则
1
P(d 1 = 6 ∧ d 2 = 6 )= 6 。
∧
求解P(AB)的条件概率的定义导致所谓的乘积规则
P(A∧B)= P(A | B)P(B),
我们立即推广了n个变量的情况。通过重复应用上述规则,我们获得了链规则
P(X 1,…,Xn)
= P(Xn | X 1,…,Xn – 1)・ P(X 1,…,Xn – 1)
= P(Xn | X 1,…,Xn – 1)・ P(Xn – 1 | X 1,…,Xn – 2)・ P(X 1,…,Xn – 2)
= P(Xn | X 1,…,Xn – 1) ・ P(Xn – 1 | X 1,…,Xn – 2) ・ …… ・ P(X 2 | X 1) ・ P( X 1)
ñ
= P(Xi | X 1 …,Xi – 1),(7.1)
i = 1
我们可以将分布表示为条件概率的乘积。因为链规则适用于变量X 1 ,…,X n的所有值,所以它已经使用符号P表示用于分布。
边缘化
因为甲⇔(A ∧ B)∨(A ∧¬ B)为二元变量真甲和乙
P(A)= P((A∧B)∨(A∧¬B))= P(A∧B)+ P(A∧¬B)。
通过对B的两个值求和,消除变量B. 类似地,对于任意变量X 1 ,…,Xd,可以通过对所有变量求和来消除变量,例如Xd,我们得到
P(X 1 = x 1,…,Xd – 1 = xd – 1)= P(X 1 = x 1,…,Xd – 1 = xd – 1,Xd = xd)。
x d
该公式的应用称为边缘化。这个求和可以继续变量X 1 ,…,Xd – 1,直到只剩下一个变量。边际化也可以应用于分布P(X 1 ,…,Xd)。得到的分布P(X 1 ,…,Xd – 1 )称为边际分布。它与平面上矩形长方体的投射相当。这里的三维物体是
在长方体的边缘或“边缘”上绘制,即在二维集合上绘制。在这两种情况下,维度都减少了一个。
实施例7.6 我们观察所有患有急性胃痛的患者。对于每个患者,测量白细胞值,其是血液中白细胞的相对丰度的度量。我们定义变量 Leuko ,当且仅当白细胞值大于10,000时才是真的。这表明身体感染。否则我们定义变量 App ,它告诉我们患者是否患有阑尾炎,即感染的阑尾。这两个变量的分布P(App,Leuko)如下表所示:
P(应用程序,白血球)应用 ¬应用总 白血球0。23 0。31 0。54
¬脑白质0。05 0。41 0。46
总计0 。28 0 。72 1
在最后一行中给出了行的总和,并在最后一列中给出了列的总和。这些数额是通过边缘化得出的。例如,我们读了
P(脑白质)= P(应用程序,脑白质)+ P(¬应用,脑白质)= 0。54。
例如,给定的分布P(App,Leuko)可能来自对德国医生的调查。然后我们可以计算条件概率
P(Leuko | App)=
P(Leuko,App)
P(App)= 0。82
|
这告诉我们,大约82%的阑尾炎病例导致高白细胞价值。像这样的值发表在医学文献中。然而,实际上对诊断阑尾炎更有帮助的条件概率P(App Leuko)尚未公布。要理解这一点,我们将首先得出一个简单但非常重要的公式。
贝叶斯定理
在第119 页的定义7.3中交换A和B会导致
| =
P(AB) P(A∧B)
P(B)
和 P(BA)P(A∧B )。
| =
P(A)
通过求解 P(A∧B)的两个方程并将它们设置为相等,我们得到贝叶斯定理
| =
P(AB) P(B | A) ・ P(A),(7.2)
P(B)
我们立即应用于阑尾炎问题并得到
P(Leuko)
0 。54
P(App | Leuko)= P(Leuko | App)・ P(App) = 0 。82 ・ 0 。28 = 0。43。(7.3)现在为什么发布 P(Leuko | App),而不是 P(App | Leuko)?
假设阑尾炎影响人体而不考虑种族, P(Leuko | App)是一种在全世界都是真实的普遍价值。在(7.3 )中,我们看到 P(App | Leuko)不是通用的,因为该值受先验概率 P(App)和 P(Leuko)的影响。这些中的每一个都可以根据生活情况而变化。
例如, P(Leuko)取决于人口中是否存在很多或很少的传染性疾病。在热带地区和较冷地区之间,该值可能会有很大差异。然而,贝叶斯定理使得从普遍有效的值 P(Leuko | App)计算与诊断相关的 P(App | Leuko)变得简单。
在我们更深入地研究这个例子并将其扩展为阑尾炎的医学专家系统之前,我们必须首先介绍必要的概率推理机制。