理论教育 工作记忆网络:加强输入交互,唤醒20年沉睡

工作记忆网络:加强输入交互,唤醒20年沉睡

时间:2023-06-28 理论教育 版权反馈
【摘要】:结合工作记忆,可以使后续的输入与之前的输入在网络中留下的痕迹进行交互。在网络中实现工作记忆的最简单方法,是添加人类皮层中常见的循环连接。神经网络中这种工作记忆版本沉寂了长达20 年之久,直到它在深度学习网络中再次被唤醒和实现。通过分析长短期记忆网络也许会引出一种新的语言理论,它将阐明网络的工作原理和自然语言的性质。

工作记忆网络:加强输入交互,唤醒20年沉睡

自20 世纪60 年代以来,神经科学已经走过了漫长的道路,从我们目前对大脑的了解中可以获得很多东西。1990 年,帕特里夏·高德曼-拉奇克(Patricia Goldman-Rakic)训练了一只猴子来记住一个地点,作为提示,该地点会短暂地被一盏灯照亮;她还训练这只猴子在一段时间的延迟之后,把眼睛移动到被记住的地点。16 在记录了猴子前额叶皮层的活动后,她在报告中提到,一些最初对提示做出回应的神经元在延迟期间仍然保持活跃状态。心理学家把人类的这种活动称为“工作记忆”,也正因为有了工作记忆,我们在执行任务(比如拨打电话号码)时,能够记住7±2 项内容。

传统的前馈网络将输入传到网络中,一次传播一层网络。结合工作记忆,可以使后续的输入与之前的输入在网络中留下的痕迹进行交互。例如,把法语句子翻译成英文时,网络中的第一个法语单词会影响后续英语单词的顺序。在网络中实现工作记忆的最简单方法,是添加人类皮层中常见的循环连接。神经网络中某一层内的循环连接和之前那些层的反馈连接,使得输入的时间序列可以在时间上整合起来。这种网络在20 世纪80年代被探索并广泛应用于语音识别。17在实践中,它在具有短程依赖性的输入方面效果很好,但当输入之间的时间间隔很长,输入的影响会随着时间的推移发生衰减,网络性能就会变差。

1997 年,赛普·霍克莱特(Sepp Hochreiter)和尤尔根·施密德胡博(Jürgen Schmidhuber)找到了一种方法来克服衰变问题,他们称之为“长短期记忆”(long short-term memory,简称LSTM)。18 默认情况下,长短期记忆会传递原始信息,而不会发生衰减(这就是猴子前额叶皮层的延迟期中发生的事情),并且它也有一个复杂的方案来决定如何将新的输入信息与旧信息整合。于是,远程依赖关系可以被选择性地保留。神经网络中这种工作记忆版本沉寂了长达20 年之久,直到它在深度学习网络中再次被唤醒和实现。长短期记忆和深度学习的结合在许多依赖输入输出序列的领域都取得了令人瞩目的成功,例如电影、音乐、动作和语言。(www.daowen.com)

施密德胡博是位于瑞士南部提契诺州(Ticino)曼诺小镇的Dalle Molle 人工智能研究所的联合主任。该小镇靠近阿尔卑斯山,周围有一些绝佳的徒步地点。19 神经网络领域的这位颇具创造性、特立独行的“罗德尼·丹泽菲尔德[1]相信他的创造力并没有得到足够的赞誉。因此,在蒙特利尔举办的2015年NIPS会议的一次小组讨论会上,他再次向与会人员介绍了自己,“我,施密德胡博,又回来了”。而在巴塞罗那举行的2016 年NIPS 大会上,他因培训宣讲人没有对自己的想法给予足够的关注,而打乱对方的演讲长达5 分钟。

2015 年,Kelvin Xu 及其同事在用一个深度学习网络识别图像中对象的同时,还连接了一个长短期记忆循环网络来标注图片。使用来自深度学习网络第一遍识别的场景中所有对象作为输入,他们训练长短期记忆循环网络输出一串英文单词,能够形容一个标注中的场景(见图9-4)。他们还训练了长短期记忆网络来识别图像中的位置,使其对应于标注中的每个单词。20 该应用令人印象深刻的地方在于,长短期记忆网络从未被训练来理解标注中句子的含义,只是根据图像中的对象及其位置输出一个语法正确的单词串。再加上第8章里早期的话语网络示例,这更加证明了神经网络似乎对语言有种亲和力,但其中的原因我们却不得而知。通过分析长短期记忆网络也许会引出一种新的语言理论,它将阐明网络的工作原理和自然语言的性质。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈