历史研究记录

强化学习：应用

2018年12月13日高速ETC办理

微信搜索“高速商务通”，马上办理ETC

强化学习的实际应用已经多次展示过。从大量的例子中，我们将简要介绍一个小的选择。

TD-gammon（一种步步高游戏程序[Tes95]）非常成功地使用了TD学习以及具有40到80个隐藏神经网的反向传播网络。该计划唯一的直接奖励是游戏结束时的结果。具有双向前瞻功能的优化版程序在150万场比赛中进行了自我训练。它继续打败世界级的球员和比赛，以及三个最好的人类球员。

机器人技术有很多应用。例如，在RoboCup足球模拟联盟中，最好的机器人足球队现在成功使用强化学习[SSK05，Robb]。通过强化学习，多次成功地解决了对人类来说相对容易的杆。

Russ
Tedrake在IROS
2008上发表了一篇关于机器人学习能力的令人印象深刻的证明，他在一篇关于模型飞机的演讲中提到了一架模型飞机，该模型飞机学会在一个确切的点着陆，就像一只落在树枝上的鸟[Ted08]。因为空气

在这种高动态着陆方法中，电流变得非常湍流，相关的微分方程Navier-Stokes方程是不可解的。因此，不能以经典的数学方式控制着陆。Tedrake对此的评论：

“鸟儿无法解决Navier-Stokes！”

即使没有Navier-Stokes方程，鸟类也可以清楚地学会飞行和降落。Tedrake表明现在这也适用于飞机。

真实机器人仍然难以在高维状态动作空间中学习，因为与模拟相比，真实机器人从环境中获得相对缓慢的反馈。由于时间限制，因此无法实现数百万个必要的训练周期。这里，除了快速学习算法之外，还需要允许至少部分学习离线发生的方法，即，没有来自环境的反馈。

Post Views: 83

要发表评论，您必须先登录。