机器的面部表情识别能力已经赶上人类

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：从那以后，其他常见的面部表情也被提取了出来，但人们在对这些表情的理解上并没有达成共识。20随着计算机的速度变得越来越快，CERT已经能够进行实时分析，可以标记视频流中不断变化的人类面部表情。时间轴上显示的是深度学习网络的输出，正在识别面部表情中快乐、悲伤、惊讶、恐惧、愤怒和厌恶的情绪。焦点小组中最强烈的面部表情是愉悦，其次是恐惧。

你能想象当你在iPhone（苹果手机）上看到股价暴跌，iPhone 问你为什么不高兴，会是怎样一种感觉吗？你的面部表情是情绪的窗口，深度学习现在已经可以探进这个窗口了。传统上，人们认为认知和情绪是大脑两个独立的功能。一般认为，认知是皮层功能（cortical function），而情绪是皮层下的功能（subcortical function）。事实上，有些皮层下结构可以调节情绪状态，比如杏仁核（amygdala）。当情绪水平很高，特别是感到恐惧的时候，杏仁核就会起作用，但这些结构与大脑皮层有强烈的相互作用。例如，在社交互动中，杏仁核的参与会增强人脑对该事件的记忆。认知和情绪是彼此交织的。

在20世纪90年代，我与加州大学旧金山分校的心理学家保罗·艾克曼（Paul Ekman）（见图12-5）有过合作。艾克曼是世界著名的面部表情专家，是美剧《别对我撒谎》（Lie to Me）系列中卡尔·莱特曼（Cal Lightman）博士在真实世界中的原型，但他本人比剧中的卡尔要和善很多。艾克曼曾去过巴布亚新几内亚，试图了解前工业时代的文化是否像我们一样，能够做出情绪化的面部表情。他在研究过的所有人类社会中发现了六种普遍的情感表达：快乐、悲伤、愤怒、惊讶、恐惧和厌恶。从那以后，其他常见的面部表情也被提取了出来，但人们在对这些表情的理解上并没有达成共识。有些表达，如恐惧，在一些孤立的社会中有着不同的解释。

1992 年，艾克曼和我组织了一个由美国国家科学基金会（NSF）赞助的关于面部表情理解的规划研讨会。17 在那个时期，要获得对面部表情研究的资金困难重重。我们的研讨会将神经科学、电子工程和计算机视觉等方面的研究人员，连同心理学家聚集到了一起，为表情分析领域揭开了新篇章。这件事对我来说是一个启示，尽管面部表情的分析在科学、医学和经济等诸多领域都扮演着重要角色，但其重要性却一直被基金机构所忽视。

pagenumber_ebook=238,pagenumber_book=218

图12-5　1967 年，保罗·艾克曼和巴布亚新几内亚原住民。他找到了6种常见的面部情感表达的证据，包括快乐、悲伤、愤怒、惊讶、恐惧和厌恶。保罗曾为美剧《别对我撒谎》提供咨询，以保证每一集的内容有科学依据。卡尔·莱特曼博士的角色大致上是以艾克曼为原型塑造出来的。图片来源：保罗·艾克曼。

艾克曼开发了面部动作编码系统（Facial Action Coding System，以下简称FACS）来监控面部44 块肌肉的状态。由艾克曼培训的FACS 专家需要花费一个小时来标记长度为一分钟的视频，每次标记一帧。面部表情是动态的，可以延续若干秒，但是艾克曼发现，有些表情只持续了几帧。这些“微表情”泄露了大脑被抑制的情感状态，常常能说明，有时还会揭示无意识的情绪反应。例如，在婚姻咨询环节中出现的细微的厌恶表情，就是一个预示婚姻会失败的可靠的信号。18(www.daowen.com)

在20 世纪90 年代，我们使用了一些演员的视频录像来训练反向传播神经网络，对FACS 进行自动化。这些训练有素的演员可以像艾克曼那样控制脸上的每一块肌肉。1999 年，由我的研究生玛丽安·斯图尔特-巴特利特（Marian Stewart-Bartlett，见图12-6）利用反向传播训练的网络，在实验室识别面部表情的准确率达到了96%，前提是要具备完美的照明，周正的面部角度，以及对视频进行手动时间分割。19这个网络的识别效果很不错，于是1999年4月5日，玛丽安和我在黛安·索耶（Diane Sawyer）主持的《早安美国》（Good Morning America）节目中向公众展示了这一成果。在成为加州大学圣迭戈分校神经计算研究所的一名教师后，玛丽安接着又开发了计算机表情识别工具箱（Computer Expression Recognition Toolbox，以下简称CERT）。20随着计算机的速度变得越来越快，CERT已经能够进行实时分析，可以标记视频流中不断变化的人类面部表情。

pagenumber_ebook=240,pagenumber_book=220

图12-6　正在演示面部表情分析技术的玛丽安·斯图尔特-巴特利特。时间轴上显示的是深度学习网络的输出，正在识别面部表情中快乐、悲伤、惊讶、恐惧、愤怒和厌恶的情绪。图片来源：玛丽安·斯图尔特-巴特利特，Robert Wright/LDV Vision Summit 2015。

2012 年，玛丽安和哈维尔·莫维兰将面部表情的自动分析技术商业化，创立了一家名为“Emotient”的公司。保罗·艾克曼和我为这家公司担任科学顾问。Emotient 开发的深度学习网络能够以96% 的准确率，在各种不同的照明条件下，利用非正面面部信息实时地对自然行为做出判断。在Emotient 的一个演示中，其网络在几分钟内就检测到唐纳德·特朗普（Donald Trump）在共和党的首场初选辩论中，对一个焦点小组^[1]的情绪影响最大。相比之下，民意调查人员花了数天时间才得出了同样的结论，专家们更是在几个月之后才认识到，情感投入是争取到选民的关键。焦点小组中最强烈的面部表情是愉悦，其次是恐惧。此外，Emotient 的深度学习网络在尼尔森收视率（Nielsen ratings）调查结果发布前的几个月，就预测到了哪些电视剧将大热。Emotient 于2016 年1 月被苹果公司收购，玛丽安和哈维尔现在均在苹果公司任职。

在不久的将来，你的iPhone 可能不仅会问你为什么不高兴，还可能帮助你冷静下来。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关深度学习的文章

机器的面部表情识别能力已经赶上人类

如何撰写2025年银行上班迟到检讨书

2025年上班迟到开会检讨，该如何写

2025年年学生上学迟到反思范文，怎样写更好

2025年年度迟到反思报告怎么写

2025年早晨迟到的检讨书怎么写

2025年自习迟到的反思与改进如何写

2025年高中生迟到检讨书如何撰写

如何撰写2025年单位员工迟到的检讨书

相关推荐