强化学习:维度的诅咒


尽管近年来取得了成功,但强化学习仍然是人工智能研究的一个活跃领域,尤其是因为即使是目前已知的最佳学习算法,由于其巨大的计算时间,对于高维状态和动作空间仍然是不切实际的。这个问题被称为维度的诅咒

在寻找这个问题的解决方案时,科学家们在学习过程中观察动物和人类。在这里,我们注意到自然界的学习发生在许多抽象层次上。宝宝首先在最低级别学习简单的运动和语言技能。如果学习得很好,它们就会被保存,以后可以随时调用并使用。翻译成计算机科学的语言,这意味着每个学到的能力都封装在一个模块中,然后在更高的层次上代表一个动作。通过在更高级别上使用这种复杂的动作,动作空间变得大大减少,从而加速学习。以类似的方式,状态可以被抽象,因此状态空间可以缩小。这种多层次的学习称为分层学习[BM03]

另一种学习模块化的方法是分布式学习或多智能学习[PL05]。在学习人形机器人的运动技能时,必须同时控制多达50个不同的电机,从而产生50维状态空间和50维动作空间。为了减少这种巨大的复杂性,中央控制被分布式控制所取代。例如,每个单独的电机可以获得单独的控制,如果可能的话,它可以直接转向其他电机。在自然界中,我们在昆虫中发现了这种控制。例如,千足虫的许多腿不是由中央大脑操纵,而是每对腿都有自己的小脑大脑

1.    
摘要和展望275

图片

与不知情的组合搜索类似,强化学习的任务是找到大量策略中的最佳策略。如果代理在学习开始之前有一个或多或少好的政策,学习任务就会变得非常容易。然后可以更快地解决高维学习任务。但是我们如何找到这样的初始政策呢?这里有两种主要的可能性。

第一种可能性是经典编程。程序员向代理人提供包含他认为好的程序的策略。然后发生切换,例如Q学习。代理人至少在学习开始时根据编程的政策选择其行动,从而被引入国家行动空间的有趣区域。这可能会导致强化学习的搜索空间大幅缩减。

如果传统的编程变得过于复杂,我们就可以通过让人类禁止正确的行为来开始训练机器人或代理人。在最简单的情况下,这是通过手动远程控制机器人来完成的。然后,机器人保存每个状态的禁止动作,并使用监督学习算法(例如反向传播或决策树学习)进行推广。因此,这种所谓的示范学习[BCDS08SE10]也为后续的加强学习提供了初始政策。

 

图片


 


ETC注销ETC充值ETC客服ETC扣费查询


ETC发行合作

发表回复