到目前为止,对于Q学习,仅给出了粗略的算法模式。特别缺乏的是每次选择起始状态的描述以及在图 10.11 (第 269 页)的内环中执行的操作。对于下一步行动的选择,有两种可能性。在可能的行动中,可以随机选择一个。从长远来看,这会导致对所有可能的行动或政策进行统一探索,但收敛速度很慢。替代
这是以前学过的开采Q 值 。这里代理人总是
选择具有最高的动作Q 值 。这导致相对快速的收敛
特定轨迹的一般性。然而,其他路径一直没有被访问到最后。在极端情况下,我们可以获得非最优政策。在西奥REM 10.1 页 269 它因此要求每个国家的行动对被访问无限次。建议在开始时将勘探和开采与高勘探部分结合使用,并随着时间的推移逐渐减少。
起始状态的选择也会影响学习速度。在第 269
页的图 10.12中的前三张图片中,我们可以清楚地看到,对于第一次迭代,只有状态
– 动作对附近的Q 值通过立即奖励而改变。从这种观点开始越来越远,导致了许多不必要的工作。这表明将关于状态 – 行动对的先验知识与即时奖励转移到这些点附近的起始状态。在学习过程中,可以选择更远的起始状态。