理论教育 神经网络学习的寒冬:早期历史的重要案例

神经网络学习的寒冬:早期历史的重要案例

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:神经网络的早期历史,其实就是一个不大但颇具影响力的团队,如何能够将研究方向带离正轨的案例。其中对简单网络出色的数学分析,让一代追求基于多层网络学习的人工智能方法的研究人员,感到不寒而栗。18毫无疑问,其结果导致了网络学习领域的寸草不生。在明斯基和帕普特的书中,这种毫无根据的“直觉”对神经网络学习的发展产生了令人不寒而栗的影响,让一代人的研究就此停滞不前。

神经网络的早期历史,其实就是一个不大但颇具影响力的团队,如何能够将研究方向带离正轨的案例。在《感知器》这本书尾声部分,马文·明斯基和西摩尔·帕普特(图17-5)表达了这样的观点:感知器学习算法并不能扩展到多层感知器:

图17-5 照片拍摄于1971年马文·明斯基和西摩尔·帕普特出版了《感知器》一书后不久。其中对简单网络出色的数学分析,让一代追求基于多层网络学习的人工智能方法的研究人员,感到不寒而栗。图片来源:麻省理工学院。

这个扩展问题不仅仅是技术问题,也是战略问题。尽管(甚至是因为)它有着严重的局限性,感知器已经显示出了研究价值。它具有很多引人注目的特点:线性,有趣的学习理论,清晰简单的范例适用于并行计算。但没有理由认为,这些特点中的任何一种会延续到多层次版本。尽管如此,我们仍然认为这是一个重要的研究课题,以阐明(或否决)我们对“其扩展是无所作为的”的直觉判断。我们也许会发现一些强大的收敛定理,或者相反地,我们会找到无法为多层机器研发有趣的“学习理论”的原因。18

毫无疑问,其结果导致了网络学习领域的寸草不生。在明斯基和帕普特的书中,这种毫无根据的“直觉”(除此之外,这倒是一本好书)对神经网络学习的发展产生了令人不寒而栗的影响,让一代人的研究就此停滞不前。尽管我个人从这种停滞中受益,因为它使我的事业成为可能。但是我有机会在明斯基职业生涯后期,站在幕后洞察一切。

我被邀请参加2006 年达特茅斯人工智能会议“AI@50”,回顾1956 年在达特茅斯举行的开创性的人工智能夏季研究项目,并讨论人工智能的未来。191956年该项目的十位先驱中的五位出席了这次会议:约翰·麦卡锡(John McCarthy,斯坦福大学),马文·明斯基(麻省理工学院),特伦查德·摩尔(Trenchard More,IBM),雷·所罗门诺夫(Ray Solomonoff,伦敦大学)和奥利弗·赛弗里奇(Oliver Selfridge,麻省理工学院)。无论从科学还是社交的角度来说,这都是一次引人入胜的会议。

卡内基-梅隆大学的金出武雄(Takeo Kanade)在他的演讲“人工智能视野:进步与非进步”(Artificial Intelligence Vision:Progress and Non-Progress)中指出,以今天的标准来看,20世纪60年代的计算机内存很小,并且一次只能保存一张图像。金出武雄在他1974 年的博士论文中指出,尽管他的程序可以在一个图像中找到一辆坦克,但是在其他图像中,如果坦克处于不同的位置并且光照不同,则很难得到同样的结果。但是,当他早期的学生毕业时,因为电脑更强大,他们设计的程序可以在更普遍的条件下识别坦克。今天,他学生的程序可以识别任何图像中的坦克。不同之处在于,今天我们可以访问数以百万计的图像,可以对各种姿态和光照条件进行取样,而且计算机的功能更是强大了数百万倍。

麻省理工学院的罗德尼·布鲁克斯在他的题为“智能与身体”(Intelligence and Bodies)的演讲中,讲述了他在建造爬行和漫步机器人方面的经验。智能在大脑中进化以控制运动,并且身体逐渐发展为通过智能与世界互动。布鲁克斯放弃了机器人专家使用的传统控制器,并将行为,而非计算,作为设计机器人的参考。随着我们对如何搭建机器人的了解更加深入,会更清楚地认识到身体是意识的一部分。(www.daowen.com)

在“为什么自然语言处理现在是统计自然语言处理”(Why Natural Language Processing is Now Statistical Natural Language Processing)的演讲中,欧仁·查尼阿克(Eugene Charniak)解释说,语法的基本作用是在句子中标记词类。人类接受这方面训练后,会比现有的解析程序做得更好。计算语言学领域最初试图应用诺姆·乔姆斯基在20 世纪80 年代首创的生成语法(generative grammar)方法,但结果令人失望。最终被证明可行的办法是,聘请布朗大学的学生为《华尔街日报》上千篇文章的词类进行手写标注,然后应用统计技术,根据相邻单词来确定特定单词的词类。这一过程需要大量的例子,因为大多数单词有多重含义,每个单词对应许多不同的上下文。目前,在句子中对词类进行自动标记,已经成为可以利用机器学习来解决的问题。

这些成功的故事有一个共同的轨迹。过去,电脑速度很慢,只能用少数几个参数来探索一个玩具模型。但是这些玩具模型无法适用于现实世界的数据。当拥有了大量数据,并且计算机速度也更快时,就可以创建更复杂的统计模型,并提取更多特征和特征之间的关系。深度学习使这一过程实现了自动化。深度学习可以从非常大的数据集中提取特征,而不是让领域专家为每个应用程序手动创建这些特征。随着计算取代了劳动力并不断变得更廉价,计算机将能够执行更多劳动密集型的认知任务。

在会议结束时的总结性发言中,马文·明斯基一开始就表示,他对演讲和AI 的研究方向感到失望。他解释道:“你们不是在解决通用的智能问题。你们只是在解决具体的应用问题。”这次会议应该是对我们所取得的进展的一次庆祝,但是却被他的指责打击了。我做的演讲是关于强化学习的进展,并展示了TD-Gammon 通过训练,能在西洋双陆棋中表现出冠军水平的显著成果。不过我的演讲并没有给他留下深刻的印象,他始终认为,那只是一个游戏罢了。

明斯基的“通用的智能”意味着什么呢?他在其著作《心智社会》(The Society of Mind)20 中提到,前提是通用的智能来自简单媒介之间的相互作用。明斯基曾经说过,有关他的理论的最大想法,是来源于试图创建一台使用机器人手臂、摄像机和计算机的机器,可以用儿童的积木构建一个结构(图2-1)。21 这听起来很像一个应用。一个具体的应用会迫使你专注于并深入到最底层问题,而抽象理论化的方法则不能。演言人在达特茅斯会议上所报告的成就,来自对具体问题的深入了解,为更全面的理论理解铺平了道路。也许,一个更好的通用智能理论有一天会从这些狭隘的AI 成就中浮现出来。

我们的大脑不只是凭空产生抽象的想法。它们与我们身体的所有部位密切相连,而我们的身体又通过我们的感官输入和运动效应器与外界密切相连。生物智能因此而具体化。更重要的是,我们的大脑在与外界互动的同时,经历了一个漫长的成熟过程。学习是一个与发育同时进行的过程,并且在我们达到成年后仍然会持续很长一段时间。因此,学习对于通用智能的发展至关重要。有趣的是,人工智能中最难解决的问题之一是常识,显然这是儿童并不具备的,只有在长期与外界接触后,大多数成人才会获得常识。人工智能中经常忽略的情绪和通感也是智能的一个重要方面。22 情绪是个整体信号,可以使大脑为不能由局部大脑状态决定的行动做好准备。

AI@50的最后一天举行了宴会。在晚餐结束时,1956年达特茅斯人工智能夏季研究项目的5 名回归成员简要介绍了会议和人工智能的未来。在问答期间,我站起来,转向明斯基说道:“神经网络社区有一种看法:你是上世纪70 年代需要为神经网络萧条负责的魔鬼。你是魔鬼吗?”明斯基发起了一场关于我们如何不理解我们网络的数学局限性的长篇大论。我打断了他:“明斯基博士,我问的是一个是或否的问题。你是,还是不是?”他犹豫了片刻,然后喊道:“是的,我是魔鬼!”

1958 年,弗兰克·罗森布拉特制造了一个模拟计算机,被设计用来模拟感知器,因为当时数字计算机在模拟计算密集度高的网络模型时速度很慢。到了20 世纪80 年代,计算机的计算功能大大提升,让我们能够通过模拟小型网络来探索学习算法。但直到2010 年,才有足够的计算机能力将网络规模扩大到可以解决实际问题的程度。

明斯基在1954 年从普林斯顿大学获得数学博士学位,他的论文是关于用神经网络进行计算的理论和实验研究。他甚至用电子部件构建出了小型网络,以了解它的行为。当我还是普林斯顿大学物理系的研究生时,就听说数学系里没有人有资格评审他的论文23,所以人们把它发给了普林斯顿高等研究院的数学家们,据说他们能与上帝交谈。回复的评论是,“如果这在今天不是数学,未来总有一天会是。”这足以为明斯基赢得他的博士学位。而神经网络确实引发了一类新的数学函数,这些函数激发了新的研究,并正在成为数学的一个新分支。年轻的明斯基超越了他的时代。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈