理论教育 情感机器人的主要技术探秘

情感机器人的主要技术探秘

时间:2023-06-17 理论教育 版权反馈
【摘要】:目前情感语音已经被使用在几个机器人系统中。大多数机器人依照Ekman和Frieser的脸部表情编码系统表达情绪。Sparky[57]和Feelix[58]这两个机器人的面部表情比较简单。与Feelix和Sparky机器人相比,Kismet机器人的脸有15个激发器,它们常常协同工作显示专门的表情。图8-7 Sparky机器人相对于采用机械激发的机器人,用计算机图形和动画技术来产生面部表情就要丰富和自然得多。到目前为止,在自然中发生的大多数情绪性身体运动已经被定性。大多数用被动传感器系统仅追踪头的方向。

情感机器人的主要技术探秘

1.语音合成

语音是一个交流情绪的有效方法。语音的基本情绪内容有音高、音调(水平、变调、范围)和韵律。Murray和Arnott认为情绪引起的声音效果是大致相同的,仅有微小差别[53]。尽管综合语音的质量与面部表情的合成和身体语言相比还很欠缺,但已经证明可产生带有情感的语音。Cahn描述了一个系统把情感品质映射到语音综合装置中,包括音阶,声音品质和音调[54]

目前情感语音已经被使用在几个机器人系统中。Breazeal描述了Kismet机器人声音系统的设计,用语音传达机器人的情感状态[55]。Nourbakhsh描述了在一个游客向导机器人中,情绪如何影响语音合成,例如当机器人沮丧时,音阶和音调升高[56]

2.脸部表达

由于机械设计和控制方式的局限,机器人的面部表达行为一般不自然,例如表情转换显得突然、不连贯和剧烈,这些在现实中是很少发生的。一般使用的主要面部部位是嘴、面颊、眼、眼眉和前额。大多数机器人依照Ekman和Frieser的脸部表情编码系统表达情绪。

Sparky[57]和Feelix[58]这两个机器人的面部表情比较简单(见图8-7、图8-8)。Sparky的脸有多个自由度(眼眉、眼睑和嘴唇),表现一系列的基本情绪。Feelix是使用LEGO Mind-storm机器人构造工具包而构建的机器人。Feelix机器人也有4个自由度(两个眼眉、两个嘴唇),设计展示了6个基本表情(生气、难过、恐惧、快乐、惊奇和中性)加上一些复合表情。

与Feelix和Sparky机器人相比,Kismet机器人的脸有15个激发器,它们常常协同工作显示专门的表情。Kismet是基于插补技术在一个三维成分的情感空间来产生面部表情的。面部表情显得更为丰富。

东京理工大学设计的机器人可能是面部表情最生动的机器人(见图8-9)[59]。这些机器人有头发、牙齿和用硅树脂层制作的皮肤,皮肤下面有多个控制器,这些控制器可以使机器人产生丰富的脸部运动和情绪表达。

978-7-111-57267-1-Chapter08-7.jpg

图8-7 Sparky机器人

相对于采用机械激发的机器人,用计算机图形和动画技术来产生面部表情就要丰富和自然得多。例如卡内基梅隆大学开发的Vikia机器人,是基于Delsarte的脸部表情编码系统制作的三维女性面孔(见图8-10)[60]。因为她的脸是采用图像的,用来产生表情的自由度就多一些,表情也显得自然丰富。

978-7-111-57267-1-Chapter08-8.jpg

图8-8 Feelix机器人

978-7-111-57267-1-Chapter08-9.jpg

图8-9 东京理工大学设计的机器人

978-7-111-57267-1-Chapter08-10.jpg(www.daowen.com)

图8-10 Vikia机器人脸部

3.身体语言

除脸部表情之外,手势和身体动作也常用来表现情绪。到目前为止,在自然中发生的大多数情绪性身体运动已经被定性。比如在参考文献[61]中,Frijda描述了一些基本情绪所产生的身体运动。

在参考文献[62]中,提到对于舞蹈的分析显示人会由于身体运动而产生情绪影响。在参考文献[57]中,Scheet介绍了如何给Sparky机器人设计平滑自然的运动。参考文献[63]中,介绍了可以用走步的姿态(脚步迟缓、身体弯曲)来表达情绪。

4.感知环境信息

要想与人有意义的交互,理想的机器人应该能够像人那样感知外部环境,即感知和诠释人所观察到的同样的现象。这就意味着感知除了要求一般的功能(定位、导航、避障),还需要有以人为导向的感知能力。因此智能体需要追踪人的特征(脸、手、身体),也需要诠释人的语言,包括情感语音、分解命令和自然语言。另外,智能体常常需要有能力识别人的表情手势和人的行为,并且像人那样能发现某些显著刺激也是非常重要的。

(1)感知类型 大多数以人为方向的感知属于基于被动传感,典型的是计算机视觉和语音识别。被动传感器,诸如CCD摄像机,因为有结构简单、价格低廉的优点,常常被用作视觉感知的设备。

主动传感器(声呐、红外等)尽管与被动传感器相比缺少灵活性,也已经引起人们的注意。尤其,主动传感器常常被使用在动态环境下检测和定位目标。

(2)一些感知的应用。

1)人体追踪:对于人机交互来说,人体追踪的难点是寻找有效的方法在多光源和多变的背景下对人体进行追踪。参考文献[64]中对人体追踪的方法有概括性的描述。

2)语音识别:语音识别的处理过程一般有两步,即信号处理(把听觉信号转换成特征向量),然后进行搜索匹配发声到词汇。目前大多数系统使用隐马尔可夫链来寻找最可能的匹配。在参考文献[65]中,对语音识别有较好的介绍。

3)手势识别:在人的交流中,常使用手势作为语言的补充,并且能简洁地传达几何信息(定位、方向等)。有很多方法可用来实现手势识别,比如数据手套或电磁波发射器等,但基于视觉的方法不需要硬件,有灵活、自然的优点。对基于视觉的手势识别,比较好的概述可参阅参考文献[66]。

4)人脸检测:识别人最常用的方法是人脸检测。在参考文献[67]中,对人脸检测和识别有一个概述。

5)表情识别:自从有达尔文的研究以来,面部表情已经被认为能够传达情绪的最有效的方式。最近,面部表情也被认为有表明意图的作用。Lisetti.C认为,表情识别有三个基本的方法,即在图像序列中,识别脸部肌肉运动;解剖模型追踪脸部特征,诸如眼和鼻子之间的距离;主成分分析(PCA)把图像的面部描述缩小为几个主要成分进行分析。参考文献[68]中,对其有概述。

6)视线跟踪:视线能指明一个人在看和注意着什么。人的视线方向被两个因素决定,即头的方向和眼的方向。大多数用被动传感器系统仅追踪头的方向。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈