强化学习:应用


强化学习的实际应用已经多次展示过。从大量的例子中,我们将简要介绍一个小的选择。

TD-gammon(一种步步高游戏程序[Tes95])非常成功地使用了TD学习以及具有4080个隐藏神经网的反向传播网络。该计划唯一的直接奖励是游戏结束时的结果。具有双向前瞻功能的优化版程序在150万场比赛中进行了自我训练。它继续打败世界级的球员和比赛,以及三个最好的人类球员。

机器人技术有很多应用。例如,在RoboCup足球模拟联盟中,最好的机器人足球队现在成功使用强化学习[SSK05Robb]。通过强化学习,多次成功地解决了对人类来说相对容易的杆。

Russ
Tedrake
IROS
2008
上发表了一篇关于机器人学习能力的令人印象深刻的证明,他在一篇关于模型飞机的演讲中提到了一架模型飞机,该模型飞机学会在一个确切的点着陆,就像一只落在树枝上的鸟[Ted08]。因为空气

在这种高动态着陆方法中,电流变得非常湍流,相关的微分方程Navier-Stokes方程是不可解的。因此,不能以经典的数学方式控制着陆。Tedrake对此的评论:

鸟儿无法解决Navier-Stokes

即使没有Navier-Stokes方程,鸟类也可以清楚地学会飞行和降落。Tedrake表明现在这也适用于飞机。

今天,使用Q学习和函数逼近[RMD07],也可以在20分钟内学会控制真车。这个例子表明,很少有测量必须映射到动作的实际工业应用可以在短时间内很好地学习。

真实机器人仍然难以在高维状态动作空间中学习,因为与模拟相比,真实机器人从环境中获得相对缓慢的反馈。由于时间限制,因此无法实现数百万个必要的训练周期。这里,除了快速学习算法之外,还需要允许至少部分学习离线发生的方法,即,没有来自环境的反馈。

 

图片


 


ETC注销ETC充值ETC客服ETC扣费查询


ETC发行合作

发表回复