“数字化虚拟人”是20世纪后期的新兴前沿学科,在医学、航天、航空、建筑、机电制造、影视制作等领域有广泛应用价值。它是“虚拟可视人”、“虚拟物理人”和“虚拟生物人”的统称,其原理是通过先进的信息技术与生物技术相结合的方式,在计算机上操作可视的模型,包括人体的各器官和细胞等,最终建成生物网络化的流程。而本章讨论的虚拟人技术是针对另一种意义上的虚拟人(虚的人或计算机综合特性)而言,它是人在计算机生成空间(虚拟环境)中的几何特性与行为特性的表示,是多功能感知与情感计算的研究内容。它可以广泛应用于人机交互、运动表示、人机功效、视频压缩、游戏娱乐、军事训练、数字图书馆等领域。
准确地说,虚拟人具有如下特点:
1)有自身的几何模型,在计算机生成的空间与时间内,有自己的几何与时间特性。三维虚拟人是指其自身模型及其所在的空间均为三维的;
2)可以与周围的环境交互感知并影响周围环境;
3)虚拟人的行为可以由计算机程序控制,这种虚拟人被称做智能体(代理),即信息世界中的软件机器人,它是狭义智能代理中的一种。虚拟人的行为也可以由真实人控制,此时虚拟人被称为真实人的化身(化身)。但不论何种情况,其行为都必须表现出与真实人一致的特征;
4)虚拟人之间或虚拟人与真实人之间可以通过自然的方式交流。例如,可以通过自然语言或人体语言(手势)进行交互作用。
虚拟人合成主要研究人在计算机生成空间中的几何特性与行为特性的逼真表示。合成虚拟人可以是特定真实人体在计算机生成空间中的数字化表示,此时的虚拟人有着特定真实人的逼真几何特性,且其行为主要由真实人控制。这种虚拟人称为真实人在计算机生成空间中的化身(化身)。这种合成虚拟人主要应用于远程会议、分布式虚拟环境等应用中;合成虚拟人还可以是完全虚构的人体,其几何特性可以是人类几何特性某种共性的抽象,或者完全是一种艺术创作。这种虚拟人的行为一般由计算机智能程序控制,且在某种程度上表现出与人类行为的相似,是一种智能体(代理)。实际应用中,合成虚拟人还可以是两者在某种程度上的组合,例如几何特性是某个特定真实人的虚拟化,其行为则可以由计算机程序控制。
虚拟人合成技术为人在数字化空间中的生存提供了新的表现形式和交互手段。以合成虚拟人为界面的计算机系统将不仅具有语音交互能力,而且将具有多模式行为交互能力,例如手语交互、人脸表情交互等,这将为建立计算机系统人性化的人机界面、实现和谐的人机交互,提供重要的理论与技术基础。
本节介绍一个具有情感的虚拟人交互系统。首先对和谐人机交互系统、人工心理理论和虚拟人相关技术及发展状况做一个简要的介绍;对主要的三维人脸建模和表情合成技术进行了叙述;应用心理学领域的五要素模型(FFM)对情感虚拟人进行个性化建模,并引入了贝叶斯信念网络(BBN)来构建一种可信的心理模型。最后,介绍了情感虚拟人系统的构成部分及实现过程:通过OpenGL库建立虚拟人的脸部三维造型——包含75个节点的Can-dide人脸模型,根据选择的二维(2D)人脸图像,通过控制AU(Action Unit,动作单元)及其所对应的人脸动画参数(FAP)来计算每个节点运动的范围,从而控制人脸模型的面部表情,达到参数化控制的目的,进而可以精确合成多种表情;构建系统中的情感模型——我们设计了一个对话场景,实现了情感转移概率矩阵和某种心情状态下不同表情输出概率向量的参数估计,即以情绪熵为约束条件之一,构造了情感模型的初始状态转移矩阵,为虚拟人性格形成提供了一种定量的计算方法;最后,对情感模型测试结果的分析表明,由这个模型模拟的情感反应是符合人类情感行为规律的。利用FFM和BBN算法进行情感建模为情感虚拟人系统提供了一种理论设计方法。
人机交互(Human Computer Interaction,HCI)是研究人、计算机以及它们之间相互影响的技术,是21世纪的重要信息技术。广义的人机交互是人机工程学、人类工效学等学科的研究内容;狭义的人机交互是指人与计算机的交互。如图7-1所示,人机交互涉及多学科领域。应该说,自从计算机诞生之日起人们就开始注意人机交互的问题,但真正引起人们广泛的研究兴趣并获得重大发展是20世纪80年代以来的事情。90年代末,国内外对人机交互技术的研究方兴未艾。近年来,包括Microsoft公司、IBM公司、MIT(麻省理工学院)、NSF(美国国家科学基金会)、Cambridge Univ(剑桥大学)、Oxford(牛津大学)、Birming-ham(伯明翰大学)、Tokyo Univ.(东京大学)日本国家工业研究院等著名公司、院校和研究院所都成立了人机交互的专门课题组。
图7-1 人机交互与其他相邻学科的关系
人机交互技术是当前信息产业竞争的一个焦点,世界各国都将人机交互技术作为重点研究的一项关键技术。美国总统信息技术顾问委员会的《21世纪的信息技术报告》中,将“人机交互和信息管理”列为新世纪四项重点发展的信息技术(还包括软件、可伸缩信息基础设施、高端计算)之一,它的目标是研制“能听、能说、能理解人类语言的计算机”,并指出“现在美国40%以上的家庭拥有计算机”。最理想的是,人们可以和计算机交谈,而不像现在这样仅限于窗口、图标、鼠标、指针、界面”。微软中国(后改为亚洲)研究院从成立开始,就将新一代人机交互技术作为其主要研究方向。美国计算机协会(ACM)图灵奖1992年获得者、微软研究院软件总工程师Butler-Lampson在题为“21世纪的计算研究”报告中指出:“计算机有三个作用:第一是模拟;第二是计算机可以帮助人们进行通信;第三个是互动,也就是与实际世界的交流”;“人们希望计算机能够看、听、讲,甚至比人做得更好,并能够进行实时处理”。今后,许多计算装置也会变得就像Xerox公司另一位专家Don Nor-man描述的那样,变成了不可见的计算机,计算也会变成无处不在,不可见的人机交互也会无处不在。就像我们时刻呼吸着氧气一样,我们看不见却可以体验到。这也就是所谓的无处不在的计算(Ubiquitous Computing)。
1.和谐人机交互的发展回顾
1)人机交互的发展历史,是从人适应计算机到计算机不断地适应人的发展史。它经历了几个阶段:
①早期的手工作业阶段:当时交互的特点是由设计者本人(或本部门同事)来使用计算机,他们采用手工操作和依赖机器(二进制机器代码)的方法去适应现在看来是十分笨拙的计算机;
②作业控制语言及交互命令语言阶段:这一阶段的特点是计算机的主要使用者——程序员可采用批处理作业语言或交互命令语言的方式和计算机打交道,虽然要记忆许多命令和熟练地敲键盘,但已可用较方便的手段来调试程序、了解计算机执行情况;
③图形用户界面(GUI)阶段:GUI的主要特点是桌面隐喻、WIMP(Windows、Icon、Menu、Pointing Device,窗口、图标、菜单、指点设备)技术、直接操纵和“所见即所得(WYSIWYG)”。由于GUI简明易学、减少了敲键盘、实现了“事实上的标准化”,因而使不懂计算机的普通用户也可以熟练地使用,开拓了用户人群。它的出现使信息产业得到空前的发展;
④网络用户界面的出现:以超文本标记语言(HTML)及超文本传输协议(HTTP)为主要基础的网络浏览器是网络用户界面的代表,由它形成的WWW网已经成为当今Internet的支柱。这类人机交互技术的特点是发展快,新的技术不断出现,如搜索引擎、网络加速、多媒体动画、聊天工具等;
⑤多通道、多媒体的智能人机交互阶段:以虚拟现实为代表的计算机系统的拟人化和以手持电脑、智能手机为代表的计算机的微型化、随身化、嵌入化,是当前计算机的两个重要的发展趋势,而以鼠标和键盘为代表的GUI技术是影响它们发展的瓶颈。利用人的多种感觉通道和动作通道(如语音、手写、姿势、视线、表情等输入),以并行、非精确的方式与(可见或不可见的)计算机环境进行交互,可以提高人机交互的自然性和高效性。
2)在人机交互的发展中,一大批专家为此做出了卓越的贡献。下面是最有影响的一些事件和成果:
①1945年,美国罗斯福总统的科学顾问Bush(1894~1974年)在《大西洋月刊》上发表的“Aswemaythink”的著名论文,提出了应采用设备或技术来帮助科学家检索、记录、分析及传输各种信息的新思路和名为“Memex”的一种工作站构想,影响着一大批最著名的计算机科学家;
②1963年,美国麻省理工学院Sutherland开创了计算机图形学的新领域,并获1988年ACM图灵奖。他还在1968年开发了头盔式立体显示器,成为现代虚拟现实技术的重要基础;
③1963年,美国斯坦福研究所的Engelbart发明了鼠标器,他预言鼠标器比其他输入设备都好,并在超文本系统、导航工具方面取得了杰出的成果——强化人类智能工程(Aug-mented Human Intellect Project),获1997年ACM图灵奖。10年后,鼠标器经过不断地改进,成为影响当代计算机使用的最重要成果;
④20世纪70年代,当时在Xerox研究中心的Alan Kay提出了Smalltalk面向对象的程序设计等思想,并发明了重叠式多窗口系统,后经苹果、微软、麻省理工学院等单位的不断研究和开发,形成了目前广泛使用的图形用户界面的标准范式;
⑤1989年,Tim Berners Lee在日内瓦的欧洲核子物理研究所(CERN)用HTML及HT-TP开发了WWW网,随后出现了各种浏览器(网络用户界面),使互联网飞速发展起来;(www.daowen.com)
⑥20世纪90年代,美国麻省理工学院Negroponte(他早在30年前就提出了“交谈式计算机”概念)领导的媒体实验室,在新一代多通道用户界面(包括语音、手势、智能体等)方面做了大量开创性的工作,他是畅销书《数字化生存(Being Digital)》的作者;
⑦20世纪90年代,美国Xerox公司PARC(Palo Alto研究中心)的首席科学家Mark Weiser(1952~1999年),首先提出“无所不在计算(Ubiquitous Computing)”思想,并在此领域做了大量开拓性的工作。
2.人机交互的研究内容
目前人机交互技术的研究,大致说来主要涉及以下内容:
(1)用户界面设计原则 用户界面的设计原则研究涉及心理学、人机工程学、人类学、社会学和艺术学等众多学科,其最终目标是产生友好的计算机用户界面。目前广为人知的“以人为中心”的原则、颜色使用规则、屏幕布局、联机帮助等具体设计准则均建立于这些研究成果之上。
(2)人机交互模型 人机交互模型是人与计算机通信的基本形式,已经历了批处理、联机终端、命令驱动、直接操纵等阶段,未来的智能化用户界面将应用图形图像、语音、自然语言甚至手势、眼神等形式。人机交互模型的另一重要方面是交互隐喻,直接操纵技术和桌面隐喻(Desktop Metaphor)相结合的WIMP界面已广为应用。空间隐喻(Spatial Meta-phor)、虚拟现实(Virtual Reality,VR)、自然人工场景(Natural Artifact)等人机交互范型正在发展。
(3)用户界面模型 用户界面模型是交互软件的框架。它从理论上和总体上描述用户和计算机的交互活动,帮助设计者阐明人机交互系统的设计思想、组织和开发过程,是用户界面开发的基础。典型的用户界面模型有语言模型和结构模型、事件模型、面向对象模型、任务分析模型和对话控制模型等。语言模型强调语言层次和相应的设计阶段;结构模型强调交互系统的组成,最有代表性的结构模型是Seeheim模型,它建立在对话独立思想的基础上。
(4)用户界面设计方法 软件工程学的发展形成了较成熟的软件设计方法和开发过程模型,特别是形式化方法在软件工程中占有重要地位。然而用形式化方法设计用户界面并非易事,因为人机对话涉及用户模型、用户知识等与心理学、社会学和艺术等更为广泛的领域,而传统方法则很少考虑这些。目前,人们已经发展了状态转换图法,上下文无关法、面向对象方法和快速原型法等,但尚无一种方法能适应用户界面设计中的各种情况,并且有很好的可用性。
(5)用户界面开发环境 为发挥用户界面模型和设计方法的作用,需要建立用户界面开发工具和环境,以方便用户界面的设计、维护和评价。目前常用的有用户界面开发工具箱(Toolkit)和窗口管理系统,而用户界面管理系统(UIMS)则是研究的重点。UIMS是用来设计、执行、评价、维护及管理最终用户界面的程序,它集成在一个统一的对话模型和表示技术之中。然而UIMS的商品化进程远远落后于窗口管理系统,重要的原因之一就是UIMS本身难以使用。
(6)新型交互设备 新型交互设备的研制涉及心理学、工效学、传感技术、精密机械等多方面理论研究和技术开发,一种新的交互设备能否为大众接受取决于众多因素,只有符合工效学原则和经济技术成本适当的设备才能得到推广。目前尚有许多理论和技术问题没有突破,如自然语言理解的心理机制,语音识别技术,头盔显示器视野和分辨率及成本等。
(7)智能用户界面 真正符合“用户中心”设计原则的用户界面应该是智能用户界面,能够检测用户的知识、技能等特点,建立动态的用户模型,对同一用户或不同用户的特点具有自适应能力。对智能用户界面的研究受到人工智能研究水平的制约,目前尚有许多困难的问题不能得到解决。
(8)拟人化人机交互技术 传统的人机交互技术不可避免地受到计算机硬件技术和水平的限制,用户不得不以用户界面所支持的交互设备(如传统的键盘和鼠标器等)提供的固有方式与计算机对话,使效率受到影响,交互过程不自然,实质上仍不得不适应计算机的特点。如何使人机交互接近人与人之间的自然方式,即实现拟人化的计算机用户界面,是研究者努力追求的目标。在交互设备方面,人们积极研制全新的输入输出设备,包括三维空间控制装置、三维立体图像显示装置、三维立体声装置、语音识别和合成装置及自然语言理解装置等。在人机交互环境和软件方面,人们积极探索开发新颖的、高效的和自然的人机交互技术,包括多媒体技术、多通道技术以及虚拟现实技术等,充分利用人的各种感觉和效应通道进行高效、自然的人机对话,使计算机对用户更易学习和使用。
3.人机交互的发展方向
1)人机交互今后发展的一个主要方向应该是扩大人机之间的信息交流带宽,即提高单位时间内人机信息交换量。
①扩大视野的研究:在空间上扩大视野,如多屏、大屏和全景显示等;复合显示如头盔式显示或座舱平视显示,它将屏幕仪表透明地叠加在外景上。
②扩大信息传送的维数:把视觉显示扩大为三维,如虚拟现实中用的眼机(Eyephone);把听觉和视觉结合起来,如多媒体技术;把听觉扩大为准三维,如三维声频技术;把多维的视觉、听觉等综合起来,如三维感知技术等。三维界面的中心问题是“准实时”交互,意味着系统要有时间优先的能力,即在各种不可预测的用户配置的环境中,要维持多种高性能,首先得保证时间指标。跟踪系统必须是低滞后和高精度的,对于按“时间优先”原则设计一种通用算法是一个明显的挑战。
③增加人向机发布控制指令的方法:应使人脑的决策更快地传给计算机。显然,人脑中的思想转到从键盘敲字符串这种输入方式是慢的,而用语言、手势、体位、眼的动作则很快。以后甚至脑电波信号与皮肤的电流也可能成为输入信号。
④缩短人对输入信息作出响应、发出输出指令的时间:人的各种器官可以同时工作,但人脑的并行处理能力是很差的,这往往是提高人机通信带宽的瓶颈,就要研究人的跟踪模型、决策模型、认识模型和多任务下的模型等,特别要缩短人脑进行分析判断的时间,使操作员直接根据形象的任务进行操作,而无需再进行思索或计算。
2)另外一个主要的方向是扩大计算机与人群的通信范围。
①研究人的智能模型:即研究人脑接受知识的规律(认知工程),人机界面的设计符合这个规律,就容易为人所掌握,并且减少差错。
②自适应人机界面:同一系统往往难以满足不同用户的要求,自适应人机界面将能根据人机间几次交互的情况判断出用户的水平,是新手还是老手,然后自动地进行相应的应答水准,使同一系统能为不同层次的人员满意地使用。
③工作场所的人机界面技术与随时随地的计算:这是针对办公自动化、车间自动化、银行自动化、公共交通和其他公用设施自动化的人机界面设计的。要求特别易学易用,不出差错。而且,因特网、企业网以及计算机支持人协同工作(CSCW)的发展,已经结束了仅是单人、单机交互的时期,需要协调计算机组支持组成员活动。
④扩大对终端编程能力的支持:WWW能如此成功的一个重要原因是用户可方便地创建自己的页面。但若要创建交互式的页面,必须与服务器打交道,这样仍需用Java等语言编程,还得经过训练。将来,终端编程更为重要。目前终端界面的特点是编辑和浏览,以后处理、过滤、分类、查找和安排信息将变得更为重要。系统还可以支持裁剪,以满足不同需要,用户可以选择自己的界面风格,例如图形界面虽然适合于多数人,但盲人宁可要文本的听觉界面。
人机交互技术这一交叉学科在近几十年来发展极为迅速。今后,它一方面是面对批量的、复杂的、分布信息的快速存取与计算机的使用场所的广泛延拓;另一方面,广大的用户却是计算机生手,且具有较多的群体特点,因此需要迅速发展更自然和有效的人机交互手段。这对该领域的研究者们提出了一系列富有挑战性的任务。Xerox公司也提出了自己的看法,即HCI要向着HII(Human Information Interaction,人与信息交互)发展。另一方面,增强现实(Augmented Reality,AR)技术是在虚拟现实技术基础上发展起来的新技术,是通过计算机系统提供的信息增加用户对现实世界感知的技术,并将计算机生成的虚拟物体、场景或系统提示信息叠加到真实场景中,从而实现对现实的“增强”。哈佛大学机器人实验室(HRL)的Ronald Azuma是这样定义增强现实的:虚实结合,实时交互,三维注册。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。