历史研究记录

身体的智能：10记忆在哪里？

2018年12月9日高速ETC办理

微信搜索“高速商务通”，马上办理高速ETC！

身体的智能：10记忆在哪里？

在2004年12月一个弥漫着雾气的寒冷早晨，在苏黎世大学人工智能实验室每周一次的动态系统会议上，才华横溢的年轻理论物理学家、机器人技术工程师Simon Bovet作了关于他称之为“最小认知体系结构”的演讲。这个体系结构是以我们在第4章讲到过的人造鼠为试验模型的。他演讲的题目十分具有挑战性，叫做“无需记忆的延迟报酬学习法”。延迟报酬学习法指的是主体，动物或者机器人，需要做出特别的判断，如在迷宫中到底是向左转还是向右转，但是该判断是否正确只有根据主体最后是否得到报酬（小老鼠在迷宫中是否找到甜饼）而定。Bovet的研究工作的确令人振奋，在延迟报酬学习法中对智能体来说困难就在于识别某时刻判断的正确与否，这个问题有时也叫做可信度赋值和过失赋值的问题。为了解决这个问题，毫无疑问小老鼠（或者机器人）必须记住它的判断。因此延迟报酬学习法需要记忆。确实是这样吗？

Bovet的实验工作如下：人造鼠装备有用来触碰的胡须（触觉传感器），用来提供视觉的摄像头和用来检测报酬的特殊“报酬传感器”。人造鼠的任务就是要学习如何找到在T型迷宫中的报酬，即一块电子小甜饼（其实在这个实验中仅仅是一个电子信号），所谓的T型迷宫就是放在桌子上面非常简单的T型通道。当机器鼠经过中央通道（T型底部）进入T型迷宫时，面临的问题就在于到了交叉点的时候到底是向左转还是向右转；报酬就在左边或者右边的分支尽头。在交叉点的一个转角有个能被胡须检测到的触觉提示（一个竖杆），如果触觉提示在左边，那么报酬就肯定在T型迷宫的左边分支的尽头；如果触觉提示在右边，那么报酬就会在右边分支的尽头。但是机器鼠并不知道这些，否则这项任务就变得毫无意义，它根本什么都不用学了。另外T型迷宫水平通道的内墙上全部都涂上了红色，所以当机器鼠进入T型迷宫时它就正对着红色的墙壁。在实验过程中随机地同时交换触觉提示和报酬的位置，每次机器鼠都有一定的几率找到报酬。

在试验过程中不断随机交换触觉提示和报酬的位置，经过多次试验，机器鼠开始持续地做出正确的判断，也就是说，触觉提示在左它就左转，反之亦然。

现在的问题就在于这是怎么做到的？为了让机器人学习这项任务，我们预料它会保有关于它所做出判断的记忆，所以当它得到报酬时它“知道”提示在左边或者

右边它就要向左转或者向右转，然后它能够运用记忆再综合有没有得到报酬来更新它的神经网络，即它的“大脑”中的连接，这样下一次转对方向的可能性就更大一些。然而事实并非如此，令Bovet研讨会的听众大吃一惊的是如果机器人对做出的判断和做判断时的情境并没有记忆，那么机器人是如何成功地做出正确的选择？这是怎么发生的？答案就是：它起作用是因为记忆功能被卸载到了环境中，这是由二个特殊的、非常简单的神经网络结构激活的。

让我们首先简要地看一下这个结构。对每一个感觉传感通道都有一组“神经元”

（节点）来表征传感器的状态，另一组来表征同一传感器中的变化。就摄像头而言。

一组神经元代表了相机像素的亮度和颜色值，而另外一组显示了这些值的变化；同样对于胡须（触觉系统）来说有负责触觉检测的神经元还有触觉变化（从非接触到接触，或者从接触到非接触）的神经元，此外还有一个负责感应报酬的神经元，在运动系统中有代表转向和转向改变的神经元。所有这些神经元组都通过神经突触互相连接，还有一个Hcbian学习机制来增强所有同时被激励的神经元之间的连接。换句话说，它获得了瞬时关联性，也就是在一个特殊时间情况下运动信号和感官信号、

或者不同感觉传感器之间的相关性。我们强调这一点因为只有同时发生的事件传感器和电机被激励）才能有这样的关联；不可能把当前和过去的事件关联起来。事情大致是这样发生的，在一开始，实验者激活报酬神经元并模拟出机械鼠“想要”得到报酬的念头。只要神经突触的连接较弱，即没有任何连接形成，就对机器人的行为没有任何的激励影响。如果当它进入了型述宫并移动到了交处，感匙到左边或者右边有触觉提示，就会按照初始随机指定的方向转弯。通过Habbian学习机制，触觉神经元、运动神经元和视觉神经元（检测到红色墙壁的）紧密关联，也就是说它们之间的连接被强化了。假设碰巧选择对了，机器人将在稍后发现报酬，同时由于看见红色的墙壁在他视野的一侧（如在右侧），它将会把“红色墙壁在右侧”和“报酬”联系起来。然后间接地，机器人当前的状态将包含之前的转向信息，即检测到红色墙壁在右边意味着机器人曾经向左转。在下一次试验中，假定提示和报酬同样安排在老位置，报酬传感器将由于前面所学到的（报酬与红色墙壁在右边有关联）把激励传给视野中（右边红色墙壁）的一边，然后与适当的转向（左转）关联在一起。这个方法要生效需要连续出现两次相同的布置（如果等的时间足够长这总会发生）。（这段描述表达了实验的基本想法，但实际的结构和动态网络要更加复杂；感兴趣的读者可以参阅Bovet 和Pfeifcr，205）。这样机器人就大体上完成了无需明确记忆相关事件及之前所做判断的延迟报酬学习法。

因此我们可以看出，从某种意义上来讲人造鼠充分运用了与环境的交互（本案例中红色的墙壁）来完成任务。我们很有趣地发现尽管事实上红色的墙对于完成任务来说是完全中立的，也就是说墙壁并没有提供任何关于报酬位置的信息，但它还是起了作用。当然如果把这归功于机器人的记忆也是很合理的。但是，又是二入

参考系的问题，机器人被外部观察者认为有了记忆，系统中没有任何载体或者确切的表现以提供记忆功能（参见本章后面RossAshby关于记忆概念的讨论）。当然，机器人的“历史”只是部分表现在神经网络中，因为通过Hebbian学习法，神经突触的强度已经被加强了，但在机器人的大脑中关于过去所做出的判断并没有明确的记忆。

本章中，我们会从一些关于记忆的介绍性说明开始，然后提出仓库比喻，把记忆看做是储存“东西”的地方，并讨论这种看法的一些问题。接下去对文献中用到的不同种类的记忆概念给出全面的评述。然后将介绍Ashby关于记忆的观点，他的观点是关于学习和记忆讨论的基础。紧接着将是人类记忆研究发展方面的实例，我们将像前几章一样把我们的设计准则应用到实例中去。我们会发现具身化观点将会产生有趣的见解，并改变我们对记忆的看法。最后我们会特别讨论一些记忆研究和普遍认知研究上的内涵。