此后,乔姆斯基还多次使用了同样的修辞论证,其中最著名的是他基于“刺激匮乏”(poverty of the stimulus)对先天语言能力的论证,9其中断言婴儿在听觉上获取不到足够的语言范例来学习句法的规则。但是,婴儿并不是一台从外界得到一串无形符号的计算机。事实上,一个婴儿沉浸在一个充满丰富感官体验的世界中,并会以惊人的速度了解世界的本质。10 这个世界充满了与声音有关、意义非凡的体验,这些体验始于子宫,是一种无监督学习。在这一基础上,语言开始形成,首先是咿咿呀呀,然后是单个词汇,以及后来语法正确的单词序列。先天习得的并不是语法,而是能够从经验中学习语言,表现出在丰富的认知语境中吸收话语的高阶统计特性的能力。
令乔姆斯基无法想象的是,如果加上对环境的深度学习和用毕生的经验磨炼出的深度学习的代价函数,像强化学习这样的弱学习系统也可以产生认知行为,包括语言。在20 世纪80 年代,这一点对我来说并不明显,尽管我应该认识到,如果像话语网络这样的小型网络可以处理英语发音,那么很可能在对言语的表征中,学习网络——无论是模型网络还是皮层网络——都对语言有着天然的亲和力。乔姆斯基的立场是基于想象力的匮乏,但从逻辑来说符合了奥格尔的第二定律:进化比你聪明,而这个“你”也包括像乔姆斯基这样的专家。事实上,当一位专家告诉你自然界的某些事情是不可能的时候,你应该保持谨慎——不管这个论证有多么合理或者令人信服。
在20 世纪后半叶,乔姆斯基对语序和句法的强调成为语言学的主导方式。但即使是一个“词袋”(bag of words)模型的神经网络,抛弃单词顺序,也能在判定文章(如体育报道或政论)的主题方面表现出色,并且通过参考直接相邻的文字关系,性能还可以得到进一步的提升。我们通过深度学习获得的经验是,即使词序包含一些信息,但基于单词含义及词间关系的语义更重要。词汇在大脑中被丰富的内部结构所表征。随着我们对在深度学习网络中词汇如何表达语义有了更深入的了解,我们可能会开启一门新的语言学。就像大自然没有理由向我们揭示视觉的工作原理一样,也没有理由认为,我们对语言工作原理的直觉会更好。
我们来考虑一下,在对自然语言任务进行训练的模型网络中,单词的内部结构可能是什么样子。虽然网络可能是针对特定问题进行训练,但网络表征输入的方式可被用于解决其他问题。一个很好的例子就是训练一个网络,来预测句子中的下一个单词。在经过训练的网络中,单词的表征方式具有内部结构(以网络中所有单元的活动模式的形式),可以用来在单词对之间进行类比。11 例如,当这些活动模式被投影到一个平面时,连接国家和首都的矢量都是一样的。在没有任何关于首都城市意味着什么的监督信息的前提下(图17-4),网络学会了自动组织概念并隐式地学习它们之间的关系,这就表明,可以使用无监督学习从文本中提取国家和首都的语义。(www.daowen.com)
图17-4 网络中单词的内部表征被用来训练预测句子中的下一个单词。每个单词都是网络活动的矢量,可以如上所示投影到二维平面上。箭头将国家连接到它们的首都。由于所有这些箭头彼此平行并且长度大致相同,所以单词对也以类似的方式表示。例如,如果你想查找不同国家的首都,可以将此箭头添加到该国家的矢量中,并检索出其首都的矢量。资料来源:T.Mikolov,I.Sutskever,K.Chen,G.Corrado and J.Dean,“Distributed Representations of Words and Phrases and Their Compositionality”,图2。图片来源:杰夫·迪恩。
我在麻省理工学院的一次演讲中,开门见山地说道:“语言太重要了,不能只留给语言学家去研究。”12我的意思是,我们不应该只停留在行为层面描述语言。我们应该理解语言背后的生物学原理和潜在的生物学机制,以及智人的语言能力是如何演变的。使用无创大脑成像,以及直接对癫痫患者的大脑活动进行记录,已经使这一想法成为可能。对大脑研究来说,同等重要的是通过比较人类大脑与黑猩猩和其他高等灵长类大脑的差异,来理解语言是如何形成的;相比在早期经过更加漫长的过程获得感觉运动技能,使用语言的能力发生在进化的某个瞬间。强大的基因工具将使我们能够剖析大脑的发育,并理解进化如何通过在发育中不断修正来形成我们先天的语言学习能力。
语言可以通过诉诸似是而非和源自无知的争论被用来进行误导和控制,这种无知会产生远远超出科学范畴的负面影响。历史上充斥着煽动者,当他们在想象力方面的匮乏被暴露出来,最终就会难逃被抛弃的命运。幸运的是,大脑存在的时间比语言要长很多,如果我们依赖于早在语言出现之前就进化出来的那部分大脑,肯定会从中受益。13
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。