历史研究记录

强化学习：Q学习

2018年12月13日高速ETC办理

微信搜索“高速商务通”，马上办理ETC

如果代理人没有世界模型，也就是说，当它不知道可能的行为导致哪种状态时，基于对可能的后继状态的评估的策略显然是不可用的。在大多数现实应用中，代理商无法求助于这样的世界模型。例如，应该抓住复杂物体的机器人无法预测在抓握动作之后物体是否会被牢固地保持在其抓握中，或者它是否将保持在原位。

如果没有世界模型，则需要对状态st 中执行的操作进行评估，即使该操作导致的位置仍然未知。因此，我们现在使用评估函数Q（st，at）来表示状态及其相关动作。使用此功能，可以通过规则选择最佳操作

=

π（s）argmax Q（s，a）。（10.9）

一个

+ + +・・・

为了定义评估函数，我们再次使用对状态 – 动作对的评估的逐步折扣，这种评估将在未来进一步发生，就像在第260 页的（10.1 ）中一样。因此，我们要最大限度地提高室温γrt + 1 γ 2 RT + 2。因此，为了评估状态st中的动作，我们定义类似于（10.4）on

第 263 页：

Q（ST，在）= 最大（R（ST，在）+ γR（ST + 1，在+ 1）+ γ 2 R（ST + 2，在+ 2）+ …）。（10.10）

a t + 1，t +
2，……

类似于价值迭代的方法，我们将这个方程式带入一个简单的递归形式

Q（ST，在）= 最大（R（ST，在）+ γR（ST + 1，在+ 1）+ γ 2 R（ST + 2，在+ 2）+ …）

a t + 1，t +
2，……

Ť

1 ，a t + 2

= R（ST，在） + γ一个+
最大，…（R（ST + 1，在 + 1） + γR（ST + 2，在 + 2） + …）

= R（ST，在）+ γ 最大（R（ST + 1，在+ 1）+ γ 最大（R（ST + 2，在+ 2）+ …））

a t + 1

= + + +

R（ST，在）γ 最大 Q（ST 1，在
1）

a t + 1

= + +

R（ST，在）γ 最大 Q（δ（ST，在）中，在1）

a t + 1

a t + 2

= +

R（S，A）γ 最大 Q（δ（s，a）中，a）中。（10.11）

一个

那么与价值迭代相比，有什么优势呢？旧的等式只是略微重写，但事实证明这是一种新算法的正确方法。现在保存函数Q 而不是保存V，代理可以从函数δ和r中选择其动作而不需要世界模型。然而，我们仍然没有一个可以直接学习Q的过程，也就是说，在不了解V的情况下。

从Q（s，a）的递归公式，用于确定的迭代算法

Q（s，a）可以以直接的方式导出。我们初始化表 Q （S，A）为

所有状态都是任意的，例如用零，并迭代执行

一个

Q （S，A） = R（S，A）+ γ 最大 Q （δ（s，a）中，）。
（10.12）

值得注意的是，我们不知道函数r和δ。我们很务实地解决这个prob- LEM通过让在其状态环境代理小号开展行动一。然后，继承国显然是δ（s，a），代理人从环境中获得奖励。第269 页的图10.11 中所示的算法实现了用于Q学习的该算法。

= =×

=

该算法实施例的应用程序10.1 页257与γ 0 。作为示例，在图10.12 （第269 页）中示出了图 9和nx 3 ，ny 2（即，在2 3网格中）。在第一张图片中，所有Q值都初始化为零。在第二图中，在第一动作序列之后，不等于零的四个r值变为可见的Q值。在最后一张图中，给出了学习的最优策略。下面的定理，其证明见于[Mit97]，表明该算法不仅在示例中收敛，而且在一般情况下收敛。

QL EARNING（）

对于所有 s ^ ∈ 小号，一∈ 一

选择（例如随机）状态s

重复

选择一个动作一，抓好落实获取奖励– [R和新的状态小号

Q （S，A）：= R（S，A）+ γ 最大一个Q （一个或多个，一个）

直到s 是结束状态或达到时间限制

直到Q 收敛

s ：= s

Q （S，A） = 0（或随机地）

重复

图10.11 Q学习算法

学习。设Q ñ（S，A）是对于Q值（个）经过n更新。如果每个州 –

= =

图10.12应用于 n x 3，n y 2的示例的Q学习。灰色箭头标记在每张图片中执行的动作。给出了更新的 Q值。在最后一张图片，目前的政策，这也是最佳的，显示

定理10.1 让确定性MDP具有有限的即时奖励

r（s，a）给出。方程（10.12 ）页268与0 ≤ γ< 1用于

动作对被访问无限频繁，则Q Ñ （S，A）收敛到Q（S，a）用于所有的值S和对于n →∞ 。

证明由于每个州 – 行动过渡经常无限发生，我们看看成功 –

具有属性的时间间隔，在每个间隔中，所有状态 – 动作转换至少发生一次。我们现在表明，在所有条目的最大误差Q

在这些间隔的每一个中，表至少减少了因子γ。让

S，A

n = 最大 | Q ñ （S，A） – Q（S，A） |

=

在表中的最大误差 Q Ñ 和小号δ（S，A）。对于每个表项 Q Ñ（S，A）

我们计算它在间隔后对误差的贡献

| Q Ñ + 1（S，A）– Q（S，A）| = – [R + γ 最大 Q Ñ （一个或多个，一个）– [R + γ 最大 Q（小号，一）

一个一个

一个

= γ 最大 Q Ñ （一个或多个，一个）– 最大值 Q（小号，一）

一个

≤ γ 最大 | Q ñ （S
，一） – Q（小号，一） |

≤| – | =

γ 最大 QN（S，A）Q（S，A）γñ。

s ，a

第一个不等式是正确的，因为对于任意函数f和g，

X

最大F（X） – 最大G（X） ≤ 最大 | f（x） – g（x） |

≤

并且第二个不等式是正确的，因为通过状态s的额外变化，得到的最大值不能变小。因此，已经表明n + 1

γn 。由于每个间隔中的误差在 k 之后减小了至少 γ 的因子

间隔最多为γk0，结果，0是有界的。由于每个状态被无限次访问，因此存在无限多个间隔并且n收敛于零。

根据第 269 页的定理 10.1 ，Q学习与学习期间选择的行为无关。这意味着对于收敛而言，代理选择的操作无关紧要，只要每个操作都经常无限执行即可。然而，收敛的速度当然取决于代理人在学习过程中所采用的路径（见第 10.7节）。

10.6.1非确定性环境中的Q学习

在许多机器人应用中，代理的环境是不确定的。这意味着环境对状态s中的动作a在两个不同时间点的反应可以导致不同的后继状态和奖励。这种非确定性马尔可夫过程由概率转移函数δ（s，a）和概率立即奖励r（s，a）建模。要定义Q 函数，每次必须在所有可能的后继状态上计算预期值。公式（10.11）

因此，第 268 页推广到

一个

Q（st，at）= E（r（s，a））+ γP （s | s，a）max Q（s，a），（10.13）

小号

|

其中P（ss，a）是通过动作a从状态s移动到后继状态s的概率。遗憾的是，如果我们按照第268 页的（10.12 ）进行操作，则不能保证在非确定性情况下进行Q学习的收敛。这是因为，在通过在图的算法的外部循环连续运行10.11 页上的269，奖励和后继状态可以是相同的状态完全不同的小号和相同的作用一个。这可能导致交替序列在几个值之间来回跳跃。为了避免这种强烈的跳跃Q值，我们将旧的加权Q 值添加到第268 页的（10.12 ）的右侧。这可以稳定迭代。然后学习规则读取