∈ SS
如第260 页的图10.4 所示,我们区分了代理及其环境。在时间t,包括代理及其环境的世界由州st描述。该集合是对世界实际可能状态的抽象,因为一方面,世界无法准确描述,另一方面,代理通常只有关于实际的不完整信息。
1 由弧线组成的手臂运动空间呈现为直角网格。
图10.4 代理及其与环境的相互作用
+
=
=
状态因为测量误差。然后,代理执行一个在作用∈ 甲在时间吨。这个动作改变了的状态下的世界,并且因此导致ST + 1在时间吨 1. 状态转换函数δ由环境定义确定新状态ST + 1 δ(ST,在)。它不受代理人的影响。
在执行操作后,代理获得立即奖励rt r(st,at)(参见
=
=
图10.4)。立即奖励rt r(st,at)始终取决于当前状态和执行的动作。R(ST,在) 0意味着代理接收的动作没有imme- diate反馈在。在学习过程中,室温> 0应导致正和室温<在动作的评价负筋0 在在状态ST。特别是在强化学习中,正在研究应用程序,其中很长时间内不会发生即时奖励。例如,国际象棋选手学会通过赢或输的比赛来改进他的比赛,即使他没有立即获得所有个人动作的奖励。在这里,我们可以看到在一系列动作结束时将奖励分配给导致这一点的序列中的所有动作(信用分配问题)的困难。
=
在爬行机器人的情况下,状态由两个关节的位置组成,即s(gx,gy)。奖励由行进的距离x给出。
:S → A
一个政策π是从状态到动作的映射。强化学习的目标是代理人根据其经验学习最优政策。如果政策从长远来看最大化,即多步骤,则政策是最佳的。但“最大化奖励”究竟意味着什么?我们定义价值或计算的奖励
π 2我
∞
V(ST) = RT + γrt + 1 + γ室温 + 2 + … = γ室温 + 我(10.1)
i = 0
≤
政策的π当我们开始在初始状态ST。在这里,0γ< 1是一个常数,这可以确保未来的反馈在未来发生的更远的地方得到更多的折扣。直接奖励rt的权重最强。这种奖励功能是最主要使用的。有时候有趣的另一种选择是平均奖励
Ť
Vπ(s)= lim
1 r
i = 0
。(10.2)
i = 0
H
^ h →∞ ^ h
t + i
如果对于所有状态 s ,策略π被称为最优
Vπ (S)≥ Vπ(S)。(10.3)
1.
不知情的组合搜索261
图10.5示例的状态空间,对于 n x和 n y,值为
2,3,4,5。可能动作的数量在各个给定的每个状态圆
表10.2 示例中不同大小的状态空间的策略数
n x,n y状态数政策数量2 4 2 4 = 16
3 9 2 4 3 4 4 = 5184
4 16 2 4 3 8 4 4 ≈ 2 。7 × 10 7
5 25 2 4 3 12 4 9 ≈ 2 。2 × 10 12
也就是说,根据定义的值函数,它至少与所有其他策略一样好。为了更好的可读性,最佳值函数Vπ 将被表示为V。此处讨论的代理或其策略仅使用有关当前状态st的信息来确定下一个状态,而不是先前的历史。如果行动的奖励仅取决于当前状态和当前行动,则这是合理的。这些过程称为马尔可夫决策过程(MDP)。在许多应用中,特别是在机器人技术中,代理的实际状态并不完全清楚,这使得规划操作更加困难。其原因可能是噪声较大的传感器信号。我们称这样的过程为a部分可观察的马尔可夫决策过程
(POMDP)。