历史研究记录

身体的智能：5.7扩展视野：发育的其他方面

2018年12月9日高速ETC办理

关注公众号"高速商务通"，网上办理高速ETC！

身体的智能：5.7扩展视野：发育的其他方面

这章的一开始就已经提到过，发育机器人学的最终目标就是从零开始培养一个有智能的成年机器人。在我们对Puppy的讨论中也已经看到，感觉一运动过程在这个追求中会起很重要的作用。然而，发育机器人学家确定了组成发育过程的其他几个重要的事项。我们将会看到，这些事项和Puppy的案例研究一起，将带来适用于发育系统的几条设计原则。在这章剩余部分里，我们将会探讨这些事项并且讨论它们在从运动到认知，或者更笼统地说从感觉一运动行为到智能的过程中发挥了怎

样的作用。在这个领域的研究之路是崎岖坎坷的，也还有很多的研究方向等着探索。

发育方法提出了很多令人不解的问题，这些问题目前没有完全正确的答案。但是，这也引出了许多有趣和有希望的想法。

在一个生物机体从婴儿成长为成人这个发育过程中，它很显著地改变外形并且学习很多事情。到目前为止，以我们现有的技术我们不能培养人工系统，所以无法在机器人身上实现生长。但是，在发育机器人学领域中一些绕过这个困难的有趣想法也被提了出来。例如，我们之前提到过的Max Lungarella，从一个装有高精度电动机和高分辨率传感系统的机器人着手，但是在实验的初始，用软件仿真了低精度和低分辨率。低精度的运动可以通过简单地锁住一些自由度而仿真实现，如关节，或者给关节的控制信号加上一些随机数字（噪声）。低分辨率的传感可以通过在软件上平均高分辨率摄像头的邻接像素来实现。随着时间的推移，精度和分辨率都可以提高，这样就模仿了一种具身化的发育，从这个方面来说身体发生了改变或者长成一个更成人化的机体。

Lungarella的实验是最近对所谓 Bernstein 问题作出解答的尝试之一。Bernstein问题是关于具有很多自由度的智能体如何学习控制自己的身体（如Bernstein，1967）的问题。当然要想实现这样的过程，实验还需要更长的时间。

随时间发育

发育是一个长期过程，至少在人类是这样，需要很多年。为了研究长期的发育，我们需要让机器人能长时间和真实世界交互。现有的机器人还不够结实，并缺乏足够的自我维持能力来做到这些。生物机体需要整合其组成部分的不同时间尺度，从神经元的操作时间（大概10~100ms）到短期记忆（数秒到数分钟）到长期记忆（数分钟到数年），还有运动技能的学习如抓取、步行或者使用复杂的工具，这些有可能需要几个星期，几个月甚至许多年（见图5.4）。只要想想人需要多久来掌握一门乐器就明白了。

研究者经常因为学习需要如此长的时间而受挫。不过儿童的学习也需要很长的时间。当婴儿学习走路的时候，毫不夸张地说他们要摔倒数千次才能稳步而行。机器人的长期学习实验很少的原因之一就是机器人技术还不具备承受那种磨损和折磨。现今机器人的学习实验几乎全部是在短时间完成的；机器人一般学会一种技能，如伸手去拿并且握住一个杯子，或者学会将球踢入球门，然后实验就停止了。很少有实验是关于让机器人用已掌握的技能去学习新的技能的。不过如果学会了握住一个物体又不做些什么有用的事情，那又有什么意义呢？Luc Steels的谈话头部实验可能要算一个例外，它持续了几个月，我们接下来将简短地讨论那个试验。因为许多生物的学习都需要很长时间，所以短期实验不可能揭开这其中的奥秘。虽然自然形式的学习并不完美，但是经过真实世界的证实是非常有用。

兰

就|a

当

|1

海||S|

一兰

–兰

图5.4人类行为的时间尺度。时间尺度从神经系统和快速运动的很短时间（毫秒级）到短期记忆（STM）的数秒，到情绪或者从一个地方运动到另一个地方所需的数分钟或者数小时，到个体发育或者长期记忆的数天、数月、数年，到物种系统发育过程的数十年、几个世纪或者几百万年。在真实世界中，这其中的许多时间尺度需要在人类身上集成

对长时期实验还有另一个挑战―动机。如果我们想对吹长笛的机器人WF-4应用一个发育方法，比如说，这个机器人的手和嘴唇不仅需要很高的自由度，而且它应该多少有实际使用它们的动机。

那么，什么样的机制决定了动机呢？让我们来看看其中两种机制一―Hebbian学习和神经调控器。设计建立在Hebbian学习基础上的神经网络是件已经很寻常的事情，在这个来自生物学的神经机制中，加强了同时触发的神经元间连接，即那些相关联的激活（Hebb，1949）。一个关于Hebbian学习的简短有趣的说明是“同时触发的神经元是连接在一起的”。也就是说，Hebbian学习在相关联的神经活动中形成了明确的连接。那些在系统中应用了Hebbian学习的研究者们都默认了这种连接联系对于智能体来说是有价值的。如果机器人具备了Hebbian学习，那么它并不是

“想”联系，而是自然而然地就这么做了。总结出关联性是特别有用的，正如在感觉一运动原理中所总结的那样，通过感觉一运动协调的行为，引起了关联性（例如，Lungarella等（2005）在Tononi等（1994，1996）的基本思想的基础上进行了定量分析）。也就是说，这样关联性最有可能反映的是隐藏着的因果结构，如肌肉中的力传感器和手中的压力传感器的同时感觉活动都是由抓取这个动作产生的。

第二个机制基于神经调控器，就是大脑中一些影响可塑性的分子。可塑性是指对应于输入的信号，神经系统结构改变的容易程度或改变量。从这个观点来说神经调控器提供了一个价值系统是因为它们给了机体一个信号―现在是否是学习的适当时机。神经调控器可以看成关联的显示器，当一个有趣的事情发生时告诉机体。

这能帮助机体学习重要的事情而忽略不重要的。

另一个我们想要解决的有趣问题是为什么机体有动力去完成更复杂的任务。

Luc Steels和他在巴黎的索尼计算机科学实验室的研究小组认为也许只要提供给智能体仅仅一条动机原则就足够了，这条原则他们简称为本身具有目的（autotelic）原则（Steels，2004）。Steel从心理学家Mihalyi Csikszentmihalyi那里得到了灵感，后者是自我帮助著作《快乐一―从心开始》（Flow:The Psychology of Optimal
Experience）的著者，这本书在1990年出版以来得到了狂热的崇拜。畅流（Flow）是任何一种类型的专家都体验过的，不管他们是主刀医师、攀岩者、作者、体育家或者技工，也不论什么时候，只要他们正良好地完成他们的专业活动。或者用道家学者庄子的话来说：“官知止而神欲行”（感觉和理解已经停止，精神随心所欲。你停止去“想”而只是做）。有趣的是，尽管这感觉稍有些抽象，但在20世纪80年代中期经典的AI专家系统中还是很流行的，Csikszentmihalyi的想法被用来表示人类专门技能的本质。

当畅流的想法应用到动机时，它意味着维持流经系统的稳定信息流量。如果机体掌握了一种技能，它的处理需求将会减少，它就可以自由地使用探索策略来增长

信息量。例如，想象一下机器人学习从杯中喝水。首先，它要能够趋近目标，这个需要它全部的学习能力。过了一段时间，这个动作就会习惯成自然，就会释放学习资源，在这个基础上它可以用手的其余自由度开始探索环境，这些自由度是它之前没有用在抓取这个动作上的。如果它从一开始就使用了所有的自由度，就会有一个信息量溢出，这样它就学不会伸手去趋近或者抓取，或者这样做就会花更长的时间。

畅流的概念是多样性一顺应性的另一个例子，智能体可以利用之前学会的行为来探利用，并且最终学习新的行为。也就是说，机体掌握的技能越多，就越容易从事探索活动。畅流直观上可以理解，不过在一个复杂的具身化系统中却很难测量；如何量化这种效果是一个很重要的研究问题。