理论教育 如何应用感知-行动框架提升工作绩效?

如何应用感知-行动框架提升工作绩效?

时间:2023-06-28 理论教育 版权反馈
【摘要】:当意外奖励发生时,行为正常的多巴胺细胞会向皮层和其他脑部区域短暂释放多巴胺。当实际奖励低于期望时,多巴胺的释放量会减少。感知—行动周期可用于解决任何基于感官数据来计划行动的问题。风险控制也可以在同一个“感知—行动”框架内进行管理。17 通过在每个软件系统中使用“感知—行动”框架来改进它们所管理的领域,可以显著地提高绩效并降低成本。

如何应用感知-行动框架提升工作绩效?

多巴胺神经元构成了控制大脑中动机的核心系统,所有成瘾药物都是通过增加多巴胺的分泌水平起作用。当死亡的多巴胺神经元达到一定数量时,人体就会出现帕金森病的症状、包括运动性震颤,运动迟缓,后期则完全丧失任何活动的快感,即“快感缺失”(anhedonia),最终导致活动和反应能力的彻底缺失,即“紧张性抑郁障碍”(catatonia)。当意外奖励发生时,行为正常的多巴胺细胞会向皮层和其他脑部区域短暂释放多巴胺。当实际奖励低于期望时,多巴胺的释放量会减少。这正是时间差分算法的特征(见图10-5)。

当我们需要做出决定时,都会询问多巴胺神经元。我们应该从菜单中点些什么?当我们想象每个菜品时,多巴胺细胞就会提供对预期奖励的估计。我应该和这个人结婚吗?我们的多巴胺细胞会给我们一个比理性分析更值得信赖的“直觉”建议。最难以决定的则是带有许多不相称维度的问题。在选择配偶时,要如何平衡幽默感和邋遢的生活习惯,或者在正面和负面的特质之间做出数以百计的其他权衡。我们的奖励系统将所有这些维度降低到了一个“通用货币”的范畴,即短暂的多巴胺信号。这种“通用货币”的经济力量在我们发现它之前很长一段时间,就已经被大自然所利用了。

时间差分学习算法中存在两个参数:学习速率α和折扣因子γ(见方框10.1)。某些昆虫具有很高的学习速率,比如蜜蜂,在一次访问后就可以学会将花与奖励联系起来。但哺乳动物的学习速率较低,往往要尝试多次。折扣因子(discount factor)也在很大的范围内变化。当γ=0 时,学习算法是贪婪的,仅仅基于是否能立刻获得奖励做出决定;但是当γ=1时,所有未来奖励都具有相等的权重。在一个经典的实验中,被测试的幼童可以选择是立刻吃掉手里的一颗棉花糖,还是等待15 分钟再吃,到时候就能再得到一颗棉花糖。14 年龄是一个强有力的预测因子,年龄较小的孩子无法延迟满足感。如果认为有必要,我们可以在短期内做出带来负面回报的选择,以交换在遥远的将来所期望获得的更丰厚的奖励。

多巴胺神经元接受来自大脑中被称为“基底神经节”部分的输入(见图10-4),众所周知,这对于顺序学习和习惯行为的形成是很重要的。基底神经节纹状体中的神经元接受来自整个大脑皮层的输入。来自皮叶层后半部分的输入,对于学习动作的顺序以实现某个目标而言十分重要。前额叶皮层对基底神经节的输入更多的是与行动的计划顺序有关。从皮层到基底神经节再返回的循环需要100 毫秒,每秒循环信息10 次。这就允许通过一系列快速决策来实现目标。基底神经节的神经元也会评估皮层状态,并为它们分配一个值。(www.daowen.com)

基底神经节执行的是杰拉德·特索罗在TD-Gammon 中训练的价值函数的高级版本,后者被用来预测棋盘位置的价值。在第1章中描述的由DeepMind 公司开发的AlphaGo所取得的惊人成就,即具备围棋世界冠军级别的能力,是基于与TD-Gammon 相同的体系结构,但前者是后者的加强版。TD-Gammon 价值网络中的一层隐藏单元在AlphaGo中变成了十几层,并经历了数百万次对决,但基本的算法是一样的。这是对神经网络学习算法出色的缩放性的生动演示。如果我们继续增加网络规模和训练时间,性能还会获得多大程度的提升呢?

棋类游戏的规则比现实世界要简单得多。电子游戏世界为迈向更复杂和不确定的环境提供了一块垫脚石。DeepMind 在2015年已经表明,时间差分学习能够以屏幕像素为输入,学习如何在超人的水平上玩像Pong这样的雅达利(Atari)街机游戏。15下一个垫脚石是三维环境中的视频游戏。《星际争霸》(Star Craft)是有史以来最具竞争力的视频游戏之一,DeepMind正在使用它来开发可在该世界纵横捭阖的自主深度学习网络。微软研究院最近购买了另一种流行的视频游戏《我的世界》(Minecraft)的版权,并开放了它的源代码,以便其他人可以对它的三维环境进行个性化修改,从而加快其人工智能的发展进度。

能够像冠军那样下西洋双陆棋和围棋,是一项了不起的成就,玩电子游戏是下一个重要的进步,那么解决现实世界的问题呢?感知—行动周期(见图10-2)可用于解决任何基于感官数据来计划行动的问题。行为的结果可以与预测的结果进行比较,其差值随后被用于更新进行预测的系统的状态;对先前条件的记忆可以被用来优化资源的使用,并预测潜在的问题。

加拿大安大略省汉密尔顿市麦克马斯特大学(McMaster University)的西蒙·赫金(Simon Haykin),曾经使用这个框架来提高几个重要的工程软件系统的性能,16包括:认知无线电,可以动态分配通信渠道;认知雷达,能够动态地移动频带以减少干扰;还有认知电网,可以动态平衡电网电力负载。风险控制也可以在同一个“感知—行动”框架内进行管理。17 通过在每个软件系统中使用“感知—行动”框架来改进它们所管理的领域,可以显著地提高绩效并降低成本。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈