优化(Optimization)是机器学习中一个关键的数学概念:对于许多问题,可以找到一个代价函数(cost function),而问题的解决方案就是代价最低时的系统状态。对于霍普菲尔德网络来说,代价函数就是能量,目标是找到使网络能量最小化的状态(如第6章所述)。对于前馈网络,用于学习的常用代价函数是训练集输出层上的方差之和。“梯度下降”(gradient descent)是一种能够最小化代价函数的通用过程,实现方法是对网络中的权重沿降低代价最快的方向进行逐步修改。3如果将代价函数看作山脉,那么梯度下降就是选择向山脚下滑动的最快路径。
鲁姆哈特发现了如何通过被称为“误差的反向传播”(backpropagation of errors),或简称为“反传”(backprop)的过程来计算网络中每个权重的梯度(见方框8.1)。从误差已知的输出层开始,可以很容易地计算出指向输出单元的输入权重的梯度。下一步就是使用输出层梯度来计算上一层权重的梯度,以此类推,逐层回到输入层。这是一种高效计算误差梯度的方法。
尽管不像玻尔兹曼机学习算法那样拥有优雅和深厚的物理学根源,但是反向传播效率更高,并且推动该领域取得了快速进展。由大卫·鲁姆哈特、杰弗里·辛顿和罗纳德·威廉姆斯(Ronald Williams)合著的经典的反向传播论文于1986 年发表在《自然》杂志上,4 迄今为止,该论文已经在其他研究论文中被引用超过4 万次。(世界上发表的所有论文里有一半从未被引用过,甚至连作者自己都不引用;一篇被引用了100 次的论文都会在领域内产生巨大反响,所以很显然,这篇有关反向传播的文章是一颗重磅炸弹。)
8.1(www.daowen.com)
误差反向传播
反向传播网络的输入是被传播的前馈:在该图中,左侧的输入通过连接(箭头)向前传播到隐藏的单元层,然后投影到输出层。输出结果与训练者给出的值进行比较,差值被用来更新连接输出单元的权重,以减少误差。然后,根据每个权重对误差贡献的多少,通过反向传播误差对输入单元和隐藏层之间的权重进行更新。利用大量样本进行训练,隐藏单元生成了可区分不同输入模式的选择性特征,这样一来它们就能够在输出层中对不同类别进行区分。这一过程被称为“表征学习”(representation learning)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。