历史研究记录

强化学习：维度的诅咒

2018年12月13日高速ETC办理

尽管近年来取得了成功，但强化学习仍然是人工智能研究的一个活跃领域，尤其是因为即使是目前已知的最佳学习算法，由于其巨大的计算时间，对于高维状态和动作空间仍然是不切实际的。这个问题被称为“维度的诅咒”。

在寻找这个问题的解决方案时，科学家们在学习过程中观察动物和人类。在这里，我们注意到自然界的学习发生在许多抽象层次上。宝宝首先在最低级别学习简单的运动和语言技能。如果学习得很好，它们就会被保存，以后可以随时调用并使用。翻译成计算机科学的语言，这意味着每个学到的能力都封装在一个模块中，然后在更高的层次上代表一个动作。通过在更高级别上使用这种复杂的动作，动作空间变得大大减少，从而加速学习。以类似的方式，状态可以被抽象，因此状态空间可以缩小。这种多层次的学习称为分层学习[BM03]。

另一种学习模块化的方法是分布式学习或多智能学习[PL05]。在学习人形机器人的运动技能时，必须同时控制多达50个不同的电机，从而产生50维状态空间和50维动作空间。为了减少这种巨大的复杂性，中央控制被分布式控制所取代。例如，每个单独的电机可以获得单独的控制，如果可能的话，它可以直接转向其他电机。在自然界中，我们在昆虫中发现了这种控制。例如，千足虫的许多腿不是由中央大脑操纵，而是每对腿都有自己的小脑“大脑”。

1.
摘要和展望275