微信搜索“高速商务通”,马上办理ETC
用于强化学习的简单实验的图形用户界面显示在第 266 页的图 10.9 [TEF09]中。用户可以观察强化学习不同大小的二维状态空间。为了更好地推广,反向传播网络用于保存状态(参见第 10.8节)。右下角显示的反馈编辑器,用户可以手动提供有关环境的反馈,对于实验尤其有用。未示出用于设置值迭代和反向传播学习的参数的菜单。
除了模拟之外,还专门为教学开发了两个具有相同二维离散状态空间的小型真实爬行机器人[TEF09]。2 这两个机器人如图 10.10 (第 266 页)所示。每个都用伺服驱动器移动 –
2
有关爬行机器人的更多信息和相关来源可通过 www获取。hs-weingarten.de/~ertel/kibuch。
图10.9 步行机器人模拟器的四个不同窗口
图10.10 两种版本的爬行机器人
×
ATOR。伺服系统由微控制器或直接从PC的无线接口控制。使用仿真软件,可以在PC上显示机器人的反馈矩阵。通过这种保存的反馈,可以在PC上训练策略(计算速度更快),然后再次加载到机器人中并执行。但是,机器人也可以自主学习。对于大小为5 5的状态空间,这需要大约30秒。
观察模拟和“真实”机器人之间的差异是很有趣的。与模拟相反,爬行者学习的策略是从未将其手臂抬离地面,但仍能非常有效地向前移动。其原因在于,根据地下表面,“腋下”的尖端可以在向后运动期间抓住地面,但在向前运动期间滑过。通过距离测量传感器可以非常明显地感知这种效果,并在学习过程中进行相应的评估。
×
机器人的适应性会产生惊人的效果。例如,我们可以观察爬行器,尽管伺服器在某个角度滑动,但是学会走路(更像是步履蹒跚)。它甚至能够通过改变政策来适应变化的情况。一种完全理想的效果是能够在不同的光滑表面(例如,不同的粗糙地毯)的基础上学习每种方法的最佳策略。这也证明,真正的机器人的确很适应给定大小5 5
读者可以(缺少真实的机器人)通过改变反馈值来模拟各种表面或伺服缺陷,然后观察所得到的策略(第 276 页的练习 10.3 )。