如何应用感知-行动框架提升工作绩效？

时间：2023-06-28 理论教育 版权反馈

【摘要】：当意外奖励发生时，行为正常的多巴胺细胞会向皮层和其他脑部区域短暂释放多巴胺。当实际奖励低于期望时，多巴胺的释放量会减少。感知—行动周期可用于解决任何基于感官数据来计划行动的问题。风险控制也可以在同一个“感知—行动”框架内进行管理。17 通过在每个软件系统中使用“感知—行动”框架来改进它们所管理的领域，可以显著地提高绩效并降低成本。

如何应用感知-行动框架提升工作绩效？

多巴胺神经元构成了控制大脑中动机的核心系统，所有成瘾药物都是通过增加多巴胺的分泌水平起作用。当死亡的多巴胺神经元达到一定数量时，人体就会出现帕金森病的症状、包括运动性震颤，运动迟缓，后期则完全丧失任何活动的快感，即“快感缺失”（anhedonia），最终导致活动和反应能力的彻底缺失，即“紧张性抑郁障碍”（catatonia）。当意外奖励发生时，行为正常的多巴胺细胞会向皮层和其他脑部区域短暂释放多巴胺。当实际奖励低于期望时，多巴胺的释放量会减少。这正是时间差分算法的特征（见图10-5）。

当我们需要做出决定时，都会询问多巴胺神经元。我们应该从菜单中点些什么？当我们想象每个菜品时，多巴胺细胞就会提供对预期奖励的估计。我应该和这个人结婚吗？我们的多巴胺细胞会给我们一个比理性分析更值得信赖的“直觉”建议。最难以决定的则是带有许多不相称维度的问题。在选择配偶时，要如何平衡幽默感和邋遢的生活习惯，或者在正面和负面的特质之间做出数以百计的其他权衡。我们的奖励系统将所有这些维度降低到了一个“通用货币”的范畴，即短暂的多巴胺信号。这种“通用货币”的经济力量在我们发现它之前很长一段时间，就已经被大自然所利用了。

时间差分学习算法中存在两个参数：学习速率α和折扣因子γ（见方框10.1）。某些昆虫具有很高的学习速率，比如蜜蜂，在一次访问后就可以学会将花与奖励联系起来。但哺乳动物的学习速率较低，往往要尝试多次。折扣因子（discount factor）也在很大的范围内变化。当γ=0 时，学习算法是贪婪的，仅仅基于是否能立刻获得奖励做出决定；但是当γ=1时，所有未来奖励都具有相等的权重。在一个经典的实验中，被测试的幼童可以选择是立刻吃掉手里的一颗棉花糖，还是等待15 分钟再吃，到时候就能再得到一颗棉花糖。14 年龄是一个强有力的预测因子，年龄较小的孩子无法延迟满足感。如果认为有必要，我们可以在短期内做出带来负面回报的选择，以交换在遥远的将来所期望获得的更丰厚的奖励。

多巴胺神经元接受来自大脑中被称为“基底神经节”部分的输入（见图10-4），众所周知，这对于顺序学习和习惯行为的形成是很重要的。基底神经节纹状体中的神经元接受来自整个大脑皮层的输入。来自皮叶层后半部分的输入，对于学习动作的顺序以实现某个目标而言十分重要。前额叶皮层对基底神经节的输入更多的是与行动的计划顺序有关。从皮层到基底神经节再返回的循环需要100 毫秒，每秒循环信息10 次。这就允许通过一系列快速决策来实现目标。基底神经节的神经元也会评估皮层状态，并为它们分配一个值。(www.daowen.com)

基底神经节执行的是杰拉德·特索罗在TD-Gammon 中训练的价值函数的高级版本，后者被用来预测棋盘位置的价值。在第1章中描述的由DeepMind 公司开发的AlphaGo所取得的惊人成就，即具备围棋世界冠军级别的能力，是基于与TD-Gammon 相同的体系结构，但前者是后者的加强版。TD-Gammon 价值网络中的一层隐藏单元在AlphaGo中变成了十几层，并经历了数百万次对决，但基本的算法是一样的。这是对神经网络学习算法出色的缩放性的生动演示。如果我们继续增加网络规模和训练时间，性能还会获得多大程度的提升呢？

棋类游戏的规则比现实世界要简单得多。电子游戏世界为迈向更复杂和不确定的环境提供了一块垫脚石。DeepMind 在2015年已经表明，时间差分学习能够以屏幕像素为输入，学习如何在超人的水平上玩像Pong这样的雅达利（Atari）街机游戏。15下一个垫脚石是三维环境中的视频游戏。《星际争霸》（Star Craft）是有史以来最具竞争力的视频游戏之一，DeepMind正在使用它来开发可在该世界纵横捭阖的自主深度学习网络。微软研究院最近购买了另一种流行的视频游戏《我的世界》（Minecraft）的版权，并开放了它的源代码，以便其他人可以对它的三维环境进行个性化修改，从而加快其人工智能的发展进度。

能够像冠军那样下西洋双陆棋和围棋，是一项了不起的成就，玩电子游戏是下一个重要的进步，那么解决现实世界的问题呢？感知—行动周期（见图10-2）可用于解决任何基于感官数据来计划行动的问题。行为的结果可以与预测的结果进行比较，其差值随后被用于更新进行预测的系统的状态；对先前条件的记忆可以被用来优化资源的使用，并预测潜在的问题。

加拿大安大略省汉密尔顿市麦克马斯特大学（McMaster University）的西蒙·赫金（Simon Haykin），曾经使用这个框架来提高几个重要的工程软件系统的性能，16包括：认知无线电，可以动态分配通信渠道；认知雷达，能够动态地移动频带以减少干扰；还有认知电网，可以动态平衡电网电力负载。风险控制也可以在同一个“感知—行动”框架内进行管理。17 通过在每个软件系统中使用“感知—行动”框架来改进它们所管理的领域，可以显著地提高绩效并降低成本。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关深度学习的文章

如何应用感知-行动框架提升工作绩效？

如何优化工作核查，提升团队绩效？

工作分析：提升绩效的关键

如何通过思考与行动来提升悟性？

优化绩效管理：有效面谈提升绩效

如何感知食物的味道？

如何提升工作效率？

如何提升采油厂员工绩效与薪酬？

打造企业绩效评价体系框架

相关推荐