英语语音合成的挑战与突破

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：英语是一种特别难发音的语言，因为规则很复杂，并且有很多例外情况。项目中花费时间最长的部分，是手动将音位与正确的字母相匹配，因为字母的数量与每个单词中音位的数量不同。这种现象与婴儿咿呀学语的状态非常类似。通过将话语网络的输出播放到一个叫作“DECtalk”的语音合成器中，一串音位标签被转换为可听的语音，我记录下了学习阶段中的一系列语音片段。

1984 年，我在普林斯顿听了研究生查尔斯·罗森伯格（Charles Rosenberg）关于玻尔兹曼机的演讲。虽然这通常是我演讲的题目，但这段演讲还是令我印象深刻。查尔斯问他是否可以去我的实验室参与一个夏季研究项目。他来到巴尔的摩时，我们已经转向了反向传播领域，这让我们有可能考虑现实级别的问题，而不是之前处理的那种玩具级别的问题。由于查尔斯是传奇语言专家乔治·米勒（George Miller）的学生，我们想寻找一个恰到好处的语言问题，既不会难到完全找不到头绪，又不会容易到存在现成的解决方法。语言学是一个具有许多分支学科的广阔领域，例如：音韵学（phonology），涉及单词的发音；句法学（syntax），研究单词在一个句子中是如何排列的；语义学（semantics），研究单词和句子的含义；还有语用学（pragmatics），研究语境是如何影响语义的，等等。我们决定从音韵学开始着手。

英语是一种特别难发音的语言，因为规则很复杂，并且有很多例外情况。例如，如果一个单词的最后一个辅音后面跟着一个不发音的字母“e”，则元音大多数情况下都要发长音，如“gave”和“brave”。但是也有例外，例如“have”，这个词的发音就与之前的规则相悖。我在图书馆找到了一本书，在书中音韵学家编纂了这些规则和例外，厚达数百页。通常例外情况中也会有规则，而有时例外的规则中还存在例外情况。总之，对于语言学家来说，“一路下来”都是规则。5 更让人抓耳挠腮的是，同样一个单词，并不是每个人的发音都一样。还存在很多方言，每种方言也都有自己的一套规则。

杰弗里·辛顿在我们计划的早期阶段到约翰·霍普金斯大学拜访了查尔斯和我，跟我们说他认为英语发音太难掌握了。所以我们收小了野心，找了一本总共有大约100 个字的儿童早教读物。我们设计的网络有一个由7 个字母组成的窗口，每个字母由29 个单元（包含空格和标点符号）表示，共203 个输入单元。研究目标是预测窗口中间位置那个字母的读音。输入单元与80 个隐藏单元相连，隐藏单元又投射到26 个输出单元，每个输出单元对应一个基本发音，在英语里被称为“音位”（phonemes）。我们把该字母发音网络叫作“话语网络”（见图8-2）。6 网络中有18629 个权重，按照1986 年的标准衡量，这是个十分庞大的数字。而按照当时的数学统计标准来看，根本没法进行操作。有了这么多的参数，我们被告知训练集可能会被过度拟合，导致网络无法泛化。

当单词在有7 个字母的窗口中依次穿过时，网络为窗口中位于中间的字母分配了一个音位。项目中花费时间最长的部分，是手动将音位与正确的字母相匹配，因为字母的数量与每个单词中音位的数量不同。相比之下，学习过程就发生在我们眼前，其表现随着句子在窗口中循环而变得越来越好。当学习收敛时，网络在有100 个单词的训练集中的表现堪称完美。虽然对新单词进行测试的效果很差，但由于我们对在这样一个小的训练集上成功泛化的预期并不高，所以这个初步结果仍然令人鼓舞。

pagenumber_ebook=157,pagenumber_book=137

图8-2　话语网络前馈网络模型。底层的7 组单元代表在文本间移动的窗口中的字母，每次提取一个字母。该网络的目标是正确预测位于中间位置的字母的声音，在这个例子中就是很难发音的“c”音位。输入层中的每个单元与所有隐藏单元都建立了连接，而后者又会投射到输出层上的所有单元。反向传播学习算法能够使用来自训练者的反馈来训练权重。正确的输出模式会与网络的输出结果进行比较，在这个例子里，输出的是“k”音位，那么误差就会被反向传播给前面若干层上的权重。

随后，我们使用了含有2万个字母的布朗语料库（Brown Corpus）7，并为每个字母指定了音位以及重音标记。字母和声音的对应工作花了几周的时间，但是学习开始后，网络在一个晚上就吸收了整个训练集的信息。那么它能进行泛化吗？结果证明，泛化的结果非常漂亮。该网络已经发现了英语发音的规律性，并且可以识别出例外情况，所有这些都是基于相同的架构和学习算法。虽然按照今天的标准来看，这一成果微不足道，但我们的网络很好地证明了反向传播网络如何能够有效地表征英语音韵。这是我们得到的第一个暗示，即神经网络学习语言（符号表征的典型代表）的方式和人类的学习方式相同。

在获得了大声朗读的能力后，话语网络首先经历了一个胡言乱语的阶段，成功识别了辅音和元音之间的区别，却将音位“b”分配给了所有辅音，将音位“a”分配给了所有的元音。刚开始，它的发音听起来像“ba ba”，经过更多的学习之后，发音偏向了“ba ga da”。这种现象与婴儿咿呀学语的状态非常类似。之后它开始能够正确地说出短词的发音，最后在训练结束时，我们已经可以听懂它说的大多数单词了。

为了测试话语网络在方言上的表现，我们找到了一个来自洛杉矶郊外的拉丁裔男孩接受采访时的音韵翻录材料。训练有素的网络重新创建了一段该男孩带有西班牙语口音的英语，谈论的是他探望自己的祖母时，有时会得到糖果。通过将话语网络的输出播放到一个叫作“DECtalk”的语音合成器中，一串音位标签被转换为可听的语音，我记录下了学习阶段中的一系列语音片段。当我在某次演讲过程中播放这段录音时，台下的观众彻底震惊了——这个网络直接证明了它的语言能力。8这个暑期项目的结果完全超出了我们的预期，并成为神经网络学习领域的第一个实际应用。1986 年，我带着话语网络参加了《今日秀》（Today show）节目，那一期的收视率很惊人。在此之前，神经网络一直是一门神秘的学科。我还遇到过很多人，他们在观看这个节目时是第一次听到神经网络这个概念。(www.daowen.com)

虽然话语网络有力地证明了一个神经网络的确能够对语言的某些方面进行表征，但它并不是反映人类如何获得阅读技能的优质模型。首先，我们在学习阅读之前就先学会了说话。其次，有限的几个语音规则就能帮助我们开启大声精确朗读的复杂任务。但是，大声朗读很快就变成了快速的模式识别，并不需要有意识地应用规则。大多数会说英语的人都会在阅读刘易斯·卡罗尔（Lewis Carroll）的诗Jabberwocky时，不由自主地读出“brillig”、“slithy”和“toves”等无意义的词，就像读正常的词一样，话语网络也是如此。这些虚构的词不存在于任何字典中，但是可以触发由英语中相关字母模式组成的音位。

话语网络给观众留下了深刻的印象，不过现在，查尔斯和我需要对这个网络进行分析，弄清楚它到底是如何工作的。为此，我们对隐藏单元中的活动模式进行了聚类分析（cluster analysis），并发现话语网络察觉到了相似的元音和辅音的分类，这和语言学家们已经识别出的分类相同。马克·塞登伯格（Mark Seidenberg）和詹姆斯·麦克莱兰采用了一种类似的方法作为研究的起点，将其与儿童在学习阅读时经历的一系列阶段进行了详细比较。9

话语网络以出人意料的方式影响了这个世界。作为约翰·霍普金斯大学托马斯·詹金斯（Thomas C.Jenkins）生物物理系的一名教员，我开始对蛋白质折叠的问题产生了兴趣。蛋白质是由一系列氨基酸折叠成的复杂的结构，该结构赋予了蛋白质广泛的功能，例如血红蛋白，它能够与血红细胞中的氧结合。根据氨基酸序列来预测蛋白质的三维形状是一个难度很高的计算问题，对大多数蛋白质来说，即便使用功能最强大的计算机也没办法实现。然而，有一种单元结构相对更容易预测，被称为二级结构（secondary structures）。在二级结构中，氨基酸以螺旋、平面或无规卷曲的方式缠绕。生物物理学家们使用的算法考虑了不同氨基酸的化学性质，但他们的预测还不足以解决三维空间的折叠问题。

钱宁是我实验室的一年级研究生，他是1980 年在中国所有物理系的学生中，为数不多被选中来美国攻读研究生课程的人之一。我们想知道，如果为每个氨基酸分配螺旋、平面或无规卷曲的参数，话语网络是否可以通过一串氨基酸序列来预测蛋白质的二级结构。这是一个重要的问题，因为蛋白质的三维结构决定了它的功能。输入由字母序列变成了氨基酸序列，而预测的结果由音位变成了二级结构。训练集是由X 射线晶体学确定的三维结构。让我们意想不到的是，它对于新蛋白质的二级结构的预测，要远远好于基于生物物理学的最佳方法，10 这一具有里程碑意义的研究是机器学习在分子序列中的首次应用，该领域现在被称为生物信息学（bioinformatics）。

另一个学会了如何形成英语动词过去时的网络，成了认知心理学领域中备受争议的问题，基于规则的保守派与前卫的PDP 研究组展开了激烈的争论。11 形成过去时的常规方法是给英文动词加上后缀“ed”，例如把“train”变成“trained”。但是有不规则形式的例外，例如把“run”变成“ran”。神经网络可以很好地适应规则和例外情况。虽然人们在这一点上已经很少争论了，但关于规则的显式表征（explicit representation）在大脑中的角色这一问题，仍然有待回答。最近利用神经网络学习语言的实验支持了屈折形态学（inflectional morphology）中的逐步获取概念，这与人类的学习方式是一致的。12深度学习与谷歌翻译和其他自然语言应用相结合，在捕捉语言细微差别上获得的成功，进一步支持了大脑不需要使用显式语言规则的可能性，即便其实际行为可能体现了相反的结论。

杰弗里·辛顿、大卫·图雷斯基（David Touretzky）和我于1986年在卡内基-梅隆大学组织了第一期联结主义暑期课程（见图8-3），那时候只有少数几所大学开设了神经网络课程。在一个基于话语网络的小游戏中，学生们逐层列队，每个学生代表网络中的一个单元（尽管他们在传播“Sejnowski”中的“j”时发生了错误，因为它的发音类似于“y”，并不遵循英文发音模式）。这些学生中的许多人随后都陆续获得了重要发现，并开创了各自的事业。1988 年，第二期暑期课程在卡内基-梅隆大学开办，1990 年第三期的举办地是加州大学圣迭戈分校。新的想法在经历了一代人的时间后，才进入主流研究领域。这些暑期课程让所有人受益匪浅，也是我们在早期推广该领域的最佳投资。

pagenumber_ebook=161,pagenumber_book=141

图8-3　卡内基-梅隆大学1986 年联结主义暑期课程的学生。杰弗里·辛顿是第一排右数第三位，他的两边分别是我（右）和詹姆斯·麦克莱兰。这张照片成了当今神经计算领域的“名人录”。20 世纪80 年代的神经网络，很像是存在于20世纪的21世纪科学。图片来源：杰弗里·辛顿。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关深度学习的文章

英语语音合成的挑战与突破

如何撰写2025年银行上班迟到检讨书

2025年上班迟到开会检讨，该如何写

2025年年学生上学迟到反思范文，怎样写更好

2025年年度迟到反思报告怎么写

2025年早晨迟到的检讨书怎么写

2025年自习迟到的反思与改进如何写

2025年高中生迟到检讨书如何撰写

如何撰写2025年单位员工迟到的检讨书

相关推荐