微信搜索“高速商务通”,马上办理ETC
由于到目前为止已经描述了Q学习,所以具有所有Q值的表被明确地保存在表中。这只有在使用有限多个动作的有限状态空间时才有可能。但是,如果状态空间是无限的,例如在连续变量的情况下,则既不可能保存所有Q值,也不可能在学习期间访问所有状态 – 动作对。
尽管如此,有一种简单的方法可以对连续变量使用Q学习和值迭代。的Q(S,A)表由神经网络所取代,例如传播网络与输入变量小号,一个和Q值作为目标输出。对于Q值的每次更新,向神经网络呈现训练示例,其中(s,a)作为输入并且Q(s,a)作为目标输出。最后,我们有函数Q(s,a)的有限表示。因为我们只有有限的训练样例,但函数Q(s,a)为无限多个输入定义,如果适当选择网络大小,我们就会自动获得推广(见第9章)。我们也可以使用另一种监督学习算法或函数逼近器(例如支持向量机或高斯过程)来代替神经网络。
1.
申请273
然而,从有限的许多训练样本到连续函数的步骤在某些情况下可能变得非常昂贵。具有函数逼近的Q学习可能不会收敛,因为如果每个状态 – 动作对经常被无限访问,则第 269 页的定理 10.1 才是真的。
然而,当在POMDP上使用Q学习时,在有限多个状态
– 动作对的情况下也会出现收敛问题。Q-学习可以应用于所描述的变体 – 确定性和非确定性马尔可夫过程(MDP)。对于POMDP,由于噪声传感器,代理可能会将许多不同的状态视为一个。通常,现实世界中的许多州都有目的地映射到一个所谓的观察。由此产生的观测空间比状态空间小得多,从而学习变得更快,可以避免过度拟合(见第8.4.7节)。
但是,通过将多个状态捆绑在一起,代理无法再区分实际状态,并且操作可能会导致它进入许多不同的后继状态,具体取决于它实际处于哪种状态。这可能导致收敛问题用于价值迭代或用于Q学习。在文献中(例如,在[SB98]中)提出了许多不同的解决方案。
同样非常有前途的是所谓的政策改进方法及其派生的政策梯度方法,其中 Q 值不会改变,而是直接改变政策。在此方案中,在所有政策的空间中搜索策略,从而最大化累积折扣奖励(第 210页的( 10.1))。实现此目的的一种可能性是通过遵循累积奖励的梯度到最大值。以这种方式找到的政策显然优化了累积奖励。在[PS08]中表明,该算法可以大大加快具有大状态空间的应用程序的学习速度,例如人形机器人出现的状态空间。