看看Hebb规则,我们看到对于值在0和1之间的神经元,权重只能随着时间而增长。根据这个规则,神经元不可能衰弱甚至死亡。这可以通过例如衰减常数来建模,该衰减常数通过每时间步长的常数因子(例如0.99)来削弱未使用的权重。
–
Hopfield于1982年[Hop82]提出的模型很好地解决了这个问题。它使用二进制神经元,但两个值1表示非活动,1表示活动。使用Hebb规则,当两个神经元同时活动时,我们获得对权重的正贡献。然而,如果两个神经元中只有一个是活跃的,那么wij是负的。
Hopfield网络是一个美观且可视化的自动关联存储器的例子,它基于这个想法。模式可以存储在自动关联存储器中。要调用已保存的模式,提供类似的模式就足够了。然后商店找到最相似的保存模式。这种经典应用是手写识别。
一世
在Hopfield网络的学习阶段,假设学习了保存在向量q 1 ,…,q N中的N个二进制编码模式。各成分的qj ∈{ – 1 , 1 }这样的载体的q Ĵ表示图案的像素。对于由n个像素组成的矢量,使用具有n个神经元的神经网络,每个像素位置一个。神经元与权重矩阵对称且所有对角元素wii为零的限制完全相关。也就是说,神经元与其自身之间没有联系。
完全连接的网络包括网络中复杂的反馈回路,即所谓的反复回路(图9.5)。
通过简单地用公式计算所有权重,可以学习 N个模式
ñ
IJ
ñ
一世
Ĵ
w = 1 qkqk。(9.1)
k = 1
k = 1
这个公式指出了与Hebb规则的有趣关系。像素i和j具有相同值的每个模式对权重wij做出正贡献。每种其他模式都会产生负面影响。由于每个像素
对应于神经元,这里同时具有相同值的神经元之间的权重被加强。请注意这与Hebb规则的细微差别。
一旦存储了所有模式,网络就可以用于模式识别。我们给网络一个新的模式x,并根据规则更新异步过程中所有神经元的激活
xi =
– 如果是1
wijxj < 0,
(9.2)
j = 1
1其他
j = i
i =随机( 1 ,n)
重复
直到网络变得稳定,也就是说,直到网络不再发生变化。作为程序模式,其内容如下:
H OPFIELD A SSOCIATOR (q)
初始化所有神经元: x = q
根据(9.2)更新神经元i
直到x 收敛
返回(x)
1.
应用于模式识别示例
×
我们将所描述的算法应用于简单的模式识别示例。它应该识别10 10像素字段中的数字。因此,Hopfield网络具有100个神经元,总共具有100个神经元
=
100 ・ 99 4950
2
权重。第一的数字1的图案,2 ,3 ,在图4中 9.6 页上的 228 以上的培训。也就是说,权重由第 226 页的( 9.1 )计算。然后我们放入具有附加噪声的模式,让Hopfield动态运行直到收敛。在图中的第2行到第4行中,在识别期间显示了网络开发的五个快照。在10%的噪声下,所有四种学习模式都得到了非常可靠的识别。高于约20%的噪声,算法经常收敛到其他学习模式,甚至收敛到未学习的模式。几个这样的模式显示在第
228 页的图 9.6中下面。
现在我们将相同网络中的数字0到9(第 229 页上的图 9.7 )保存在同一网络中,并使用具有大约10%倒像素的随机量的模式再次测试网络。在图中我们清楚地看到Hopfield迭代通常不会收敛到最相似的学习状态,即使只有10%的噪声。明显地
图9.6 Hopfield网络的动态。在第2,3和 4 行中,我们可以很容易地看到网络如何收敛,并且在大约300到400次迭代之后识别学习模式。在最后一行显示一些稳定状态,其通过网络到达时,输入模式偏离所有学习的模式
网络可以安全地保存和识别四种模式,但是对于十种模式,其内存容量被超过。为了更好地理解这一点,我们将快速了解这个网络的理论。
2. 分析
1982年,John Hopfield在[Hop82]中表明,这个模型正式等同于磁性的物理模型。小的基本磁铁,即所谓的自旋,在它们的磁场上相互影响(参见第 229 页的图 9.8 )。要是我们
图9.7 对于十个学习状态,网络显示混乱行为。即使噪声很小,网络也会收敛到错误的模式或伪像
图9.8 Hopfield模型的神经和物理解释之间的比较
观察两个这样的旋转i和j,它们在一个恒定的wij上相互作用,然后系统的总能量
= – 2
IJ
一世
Ĵ
E 1 w
I,J
xx。
I,J
=
=
顺便说一句,Wii的物理学0也是如此,因为颗粒没有自我的互动。因为物理相互作用是对称的,wij wji。
–
处于平衡状态的物理系统呈现最小能量的(稳定)状态,从而使 E(x,y)最小化。如果这样的系统进入任意状态,那么它将朝着最小能量状态移动。第227 页上的(9.2 )中定义的Hopfield动力学完全对应于该原理,因为它在每次迭代中更新状态,使得在两个状态1和1中,具有较小总能量的状态被采用。神经元 i 对总能量的贡献是
ñ
2
一世
IJ
Ĵ
– 1 x wx。
j = i
j = i
如果现在
ñ
wijxj < 0,
j = i
然后xi = – 1导致对总能量的负贡献,并且xi = 1导致正贡献。对于xi = – 1,网络处于比xi = 1 更低的能量状态。类似地,我们可以断言,在
ñ
wijxj
≥
0,
j = i
=
xi 1 必须是真的。
如果神经动力学的每次单独迭代导致能量函数的减少,则系统的总能量随时间单调减小。因为只有有限的许多状态,所以网络及时移动到最小能量状态。现在我们有了一个令人兴奋的问题:能量函数的这些最小值是什么意思?
正如我们在模式识别实验中看到的那样,在学习模式很少的情况下,系统会收敛到其中一种学习模式。学习模式代表状态空间中能量函数的最小值。然而,如果学习了太多的模式,那么系统会收敛到与学习模式不对应的最小值。在这里,我们从有序动力学转变为混乱动力学。
霍普菲尔德和其他物理学家已经完全研究了这个过程,并且已经表明事实上在一定数量的学习模式中存在相变。如果学习模式的数量超过此值,则系统从有序阶段变为混乱状态。
在磁性物理学中,存在从铁磁模式到所谓的旋转玻璃的过渡,其中所有基本磁体都试图将它们自身平行,在旋转玻璃中,自旋相互作用。这种物理相变的更可视化的例子是冰晶的熔化。晶体处于高度有序状态,因为H2O分子是严格有序的。相反,在液态水中,分子的结构被溶解并且它们的位置更随机。
在神经网络中,在有太多模式的情况下,存在从有序学习和模式识别到混沌学习的相变,这些模式不能再被确认。在这里,我们肯定会看到我们偶尔会遇到的效果的相似之处。
如果我们将所有神经元带入一个,我们就能理解这个相变[RMS92]
模式状态,例如q 1,并插入来自(9.1
)的学习权重(第226 页)
j = 1,j = i
进入术语n
wijqj,这与更新神经元i有关。结果
在
在
ñ
ñ
ñ
wijq j =
1 1
1 1
ñ
ñ
q i(q j )
+
qkqkq j
1 1 2 1
j = 1
j = i
n ij
j = 1 k = 1 j = i
= q 1 + 1 qkqkq 1。
n
ñ
qkqkq j =
j = 1
j = i
IJ
k = 2
我 Ñ ijjj = 1 ķ = 2
j = i
– –
在这里,我们看到输入模式的第i个分量加上(n 1 )(N 1 )项的和。如果这些加数在统计上都是独立的,那么我们可以用具有标准偏差的正态分布随机变量来描述和
ñ
ñ
1 (N – 1)(N – 1)≈ ñ – 1。
≈
=
例如,可以利用不相关的随机模式来实现统计独立性。然后总和产生的噪声只要N n 就没有破坏性,这意味着学习模式的数量远远小于神经元的数量。然而,如果N n,则噪声的影响变得与模式一样大,并且网络反应混乱。更精确的相变计算给出N 0 。146 n为临界点。应用于我们的示例,这意味着对于100个神经元,可以节省多达14个模式。然而,由于示例中的模式是强相关的,因此临界值要低得多,显然在0之间。04和0。1.即使0.146的值远低于传统内存列表的存储容量(第255 页的练习9.3)。
所呈现形式的Hopfield网络仅在学习具有大约50%1位的模式时才能很好地工作。如果比特非常不对称地分布,则神经元必须配备阈值[Roj96]。在物理学中,这类似于外磁场的应用,这也带来不对称性
的自旋为1 / 2和自旋– 1 / 2个状态。
3.
摘要和展望
通过其生物学上的合理性,熟悉的数学模型,以及最重要的是通过模式识别中令人印象深刻的模拟,Hopfield模型促成了神经网络的兴奋和神经信息学作为人工智能的重要分支的兴起。2随后开发了许多其他网络模型。一方面,没有反向耦合的网络被研究,因为它们的动态比重新流动的Hopfield网络更容易理解。另一方面,尝试提高网络的存储容量,我们将在下一节中介绍。
2 甚至连作者都被这一浪潮所吸引,这种浪潮在1987年将他从物理学带入了AI。
在Hopfield模型中已经明显出现了许多神经模型的特殊问题。即使存在收敛的保证,也不确定网络是否会收敛到学习状态或陷入局部最小值。Boltzman机器具有连续激活值和网络动态概率更新规则,是为解决这一问题而开发的。使用“温度”参数,我们可以改变随机状态变化的数量,从而尝试逃避局部最小值,目标是找到稳定的全局最小值。该算法称为“模拟退火”。退火是一种热处理金属的过程,目的是使金属更坚固,更“稳定”。
Hopfield模型在激活值空间中搜索最小能量函数。由此找到保存在权重中的模式,并因此在能量函数中表示。Hopfield动力学也可以应用于其他能量函数,只要权重矩阵是对称的并且对角元素是零。霍普菲尔德和坦克成功地证明了旅行商问题[HT85,Zel94]。在给定n个城市及其距离矩阵的情况下,这里的任务是找到最短的往返每个城市的往返一次。