自20世纪80年代开始崛起的各种应用背景下服务于人类的机器人理论研究及应用技术(RT),是人类在制造业领域、信息技术领域、认知心理学领域等多学科共同进步的一个重要里程碑。融合多学科领域的人与机器人交互及共存机制和技术是服务机器人研究内容的重要组成部分,是在时间、空间坐标系上感知、决策、规划、协同、行为等多种理论研究和分析方法的有机融合。一般来说,人与机器人和谐共存的研究主要集中在交互过程中多种模式状态分析和理解的方法及实现等方面,如生物特征信息提取、多模态信息融合、机电系统协同控制理论与方法,以及软硬件协同设计技术等[1]。由于交互过程中的内容是多种多样的,每一种类型应用背景下又有各自的特点,对任意类型内容的人与机器人交互技术研究是一件非常困难的事情,因此往往针对特定应用和利用专业领域知识对给定类型的人与机器人交互及共存中的问题进行分析、理解和实现方法等方面的研究[2]。20世纪90年代初及本世纪初期的近十余年中,研究者们对人与机器(机器人、计算机等)的交互过程中多种状态分析、理解和实现等进行了大量的研究。近几年来,针对在典型背景下的拟人机器人社交能力的理论研究和应用技术逐渐成为研究热点,研究认知与交互、情绪与交互的关系正在成为该领域的前沿问题[3]。这主要是由于拟人机器人的外貌、表情、语言、肢体行为对人类用户来说至关重要,因此对拟人机器人的需求推动着该方向研究的发展。另一方面,拟人机器人与人类用户在共存与交互过程中信息的认知特征和情绪特征的不确定性和多样性等因素,吸引着越来越多的研究者投入到这一领域[4]。
从研究机构方面来看,早在20世纪70年代日本提出了“感性工学(Kansei Engingeer-ing)”的概念,就是将感知、认知科学与相关应用领域结合起来的基础理论与应用技术,是在认知科学的基础上,通过分析人类的感觉、知觉等信息特征,把人类所特有的认知需要加入到商品设计、制造中去。它是一门从工程理论科学的实现角度,能给人类带来喜悦和满足的商品制造的技术科学。在文部省(日本中央政府行政机关,全称“文部科学省”)主导下,20世纪90年代以来,日本各个学术领域积极引入感性工学的观念,尤其在诸如机器人科学与技术﹑人工智能等学科[5]。如20世纪90年代日本的索尼公司,以此为基础研制出AIBO狗机器人,拥有先进的性能和品质,并且是第一个实现规模商品化的宠物机器人,为有社会交互能力的机器人及相关的研究打开了实用的空间。其后大量的宠物机器人不断涌现,其共同特点是对外界刺激有反应能力,能同儿童进行生动的交流。这种交流除了语言,还有面部表情、语调和身体姿态等[6]。而随后NEC公司所开发的PaPeRo儿童家用机器人具有听觉、视觉,是个有个性、有表情的小型机器人,是一个可以与之一块生活、能记住小孩的喜好、让每个人都能在不知不觉间享受相互交流所带来的好处的“伴侣”,是NEC开发的“未来家庭的无键盘计算机”。它具有散步模式和对话模式,在没人与之对话时进入散步模式,可以在房间随意散步。而在看到有小孩时即进入对话模式,可与儿童交流。同时能识别约650个单词,能说3000句话,能辨认人的脸。可以不需操作键盘,一边与之对话,一边进行许多其他的工作,如上网、收发邮件、接收信息,自动传达必要的信息等;利用它的摄录像功能,在孩子们之间传话;能够与儿童猜谜语、跳舞、叫人起床、遥控电视等[7]。从中不难看出,正是以“感性工学”的技术和方法为核心,人类用户与机器人之间可以进行快乐和舒适的交流。
日本大阪大学的石黑浩教授研制的Ac-troid机器人能用坐姿与人类交流。“她”全身安装了31个动作器和11个触觉传感器,有拟人的眼球、睫毛、会动的嘴唇和人造肌肉,具备拟人表情,能听懂4万多个中文、英文、日文和韩文语句,并配备适合于2000多种答案的面部表情,可以容纳更多的元部件,做出更复杂的动作。石黑浩教授应用认知心理学有关理论,将基于行为主义的机制与人工智能联系起来,形成了自己独特的交互技术和方法,并借助奇异谷理论作为评价方法,使得研制的Ac-troid机器人能用坐姿通过多种语言、丰富的表情、恰当的手势等方式与人类进行自然、友好的交流[11]。
日本早稻田大学开发的儿童玩伴机器人有视觉、听觉、触觉和嗅觉传感器来感知外界刺激信号。根据所建立的儿童大脑结构化模型,通过外部和内部的刺激相应地改变其情绪状态,而后用多种方式表达出来,并通过非线性计算所产生的内部钟来表述心境矢量的激活成分。
美国斯坦福大学传播研究所的两位教授克利福德·纳斯和拜伦·里弗斯(Clifford Nass & Byron Reeves)针对人与机器人的交流问题进行了一系列研究,通过理论研究与实验分析得出如下结论:人与机器间的联系有自然性和社会性,在人机交互中所需要解决的问题同人和人交流中的是一致的,关键就是赋予机器人“基于人类认知心理的情感智能”的能力[8]。
美国麻省理工学院(MIT)所研制的Kismet机器人,通过所建立的环境、内部刺激和行为动作的认知心理模型,对外界输入的刺激和内部需要进行综合判断,从而引起表现行为的各种变化。具有与儿童用户相似的行为方式和能力,比如模仿父母与孩子之间表示情绪状态的反馈方式,小孩向父母表达需求和愿望的方式,以及儿童自我学习与人和环境交流的方式等。
德国慕尼黑大学所研制的EDDIE交互机器人,这些执行机构根据特定的人脸运动编码系统来设置,每个表情状态通过数学映射算法将计算出的结果作为给定信号来驱动执行机构进行相应的表情合成,并在与儿童的交流测评中,得到了比较满意的结果[9]。
英国赫特福特大学的研究者将信息科学、认知心理学等多学科结合,在人与机器人交互过程中采用生物启发式的情感建模,并引入了个性的概念,包括感知个性和表达个性。其中,感知个性决定刺激如何影响机器人情感状态,表达个性则影响机器人表情和颈部运动。将此模型算法应用于实际的交互过程之中。根据隐马尔可夫等随机统计模型建立起语言模型和声学模型,并由此获得语言辨识引擎,同时通过基于人类声道的有源滤波模型,实现了语音合成系统,并较好地完成了与儿童用户之间的语言交流。另外,还较为广泛地抽样调查了儿童对于不同形态的机器人的认知方式,并得到了一些有意义的结果[10]。(www.daowen.com)
韩国高级科学与技术研究院与美国汉森机器人公司合作研制的HUBO机器人,具有逼真的人脸、身高137cm、体重57kg,全身具有66个自由度,通过非线性状态空间的统计学模型及表情合成技术,可以表达出喜悦、愤怒、悲伤等几种典型的表情[12],并在相应展览会中,与儿童进行有关科普方面的交流,取得了较好效果。
国内对这项技术的研究起步较晚,我国973、863、“十五”计划均将人机交互列为主要内容。中国科学院软件研究所人机交互方法及智能信息处理实验室是最早开始多模态人机交互研究和开发的单位之一,分别承担了国家自然科学基金资助的重点项目“自然、高效和面向主流的多通道(模态)用户界面研究”,国家重点基础研究发展规划(973)“虚拟现实的基础理论、算法及其实现”中的子课题“自然、和谐的人机交互理论和方法”,国家863高科技发展计划“基于笔和语音的多模式融合的人机交互技术与应用”“基于多功能笔式交互的用户界面”“基于PC的多通道人-机交互开发环境”“虚拟现实中的三维交互技术”等,取得了重要的研究成果,并申请了相关的国家专利。
中国科学院软件研究所和北京大学计算机系、杭州大学工业心理学国家专业实验室合作承担的国家自然科学基金重点项目“多通道用户界面研究”,在我国首次对智能人机界面中多通道交互方式进行了系统性的研究,对多通道用户界面的模型、描述方法及整合算法、多通道用户界面开发环境、多通道用户界面的评估等方面都进行了一定的探索,取得了基础性的研究成果。清华大学计算机系、中科院自动化所、北京大学计算机系、中科院计算所、北京科技大学等单位在智能空间、笔输入用户界面、自然语言交互等方向也都做了大量工作。中科院心理所、浙江大学心理系、北京师范大学心理系,也从认知心理学角度对用户界面进行了研究,取得了许多重要的研究成果。汉王科技推出了具有自主知识产权的手写汉字识别系统。
从技术角度来看,研究的内容已遍及如生物特征信息提取、多模态信息采集、数据融合、信息处理、机电系统协同控制、软硬件协同设计技术、机电系统联合振荡的抑制等诸多领域。
由于人类五种主要的感觉(视觉、听觉、嗅觉、味觉、触觉)中,视觉所接收的信息量居于首位,人体中70%的感觉集中来自眼睛,因此视频图像的采集、特征提取、自动辨识和理解对交互技术的研究起着重要的作用。语音技术同样在交互过程中起着不可忽视的作用,主要包括语音交互内容的研究和语音情感分析技术的研究。
在人与机器人和谐共存理论研究及应用技术领域,国内目前比较有代表性的是哈尔滨工业大学研究的多功能感知机,将人工智能与并行处理相结合,将智能体技术、数字模拟混合计算技术、并行计算技术、实时处理技术以及语音识别、表情识别、人脸识别、人脸检测与跟踪、文字识别、手语识别、手语合成、表情合成、自然语言理解等技术有机结合在一起,构造一个可以研究和开发包括视觉、听觉等人类语言的智能机器人综合交互平台[13];此外,清华大学以认知心理学为基础,对基于人工情感的拟人机器人控制体系结构进行了研究,同时根据其控制结构具有混合分层的特点,研究了典型认知情感状态下,机器人与人类用户交流中的整个信息处理过程的机制与方法[14]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。