8.1 运动视觉概述
人类接收的外界信息,绝大部分来自视觉,而视觉信息又大多是瞬息万变的。从宏观世界到微观世界,万物都在时刻运动变化着。运动视觉即是对物体随时间在空间位移的视知觉。当物体不断改变它的空间位置,同时我们也觉察到这种变化时,就产生了该物体正在运动的知觉。在动物的视觉功能中,运动视觉起着多种重要功用,包括目标的识别、三维结构与深度运动的感知、目标—背景的分离、眼动控制、感知周围世界的复杂运动等。正因为具备良好的运动视觉功能,多数动物如鸟类、蛙类、昆虫等才得以生存,人类也才得以感受世界的生机盎然。可见,运动视觉具有相当的重要性与普遍性,有关它的信息处理研究,近年已成为一个热门课题。根据视觉刺激的类型及视觉结果的不同,可以将运动视觉分为三种类型。
8.1.1 运动视觉的分类
1.真实运动视觉
周围世界的物体,在空间作连续的真实运动时,运动作为固有的物理刺激作用于视觉,就产生了真实的运动视觉。如钟表指针的走动,电扇的转动,汽车的行驶,火车的奔驰,飞机的飞行(图8‐1),瀑布的下落等。产生真实运动视觉的基本条件是:物体以一定大小的速度在空间连续位移。物体的速度过慢,其运动无法被感知:虽然钟表的三种指针都在走动,但人眼只能感知秒针的运动;自然界禾苗的成长,花朵的开放等,其实都是一种动态过程,只是由于变化的速度太慢,人们不可能觉察出来而已。因此,能引起运动视觉的运动速度有一下限,称为绝对速度阈限。人眼对运动的感知还有一速度上限,速度太快的运动也不能引起真实的运动视觉,除非眼睛有足够的速度跟踪目标。比如出膛的子弹的飞行,落地的一滴牛奶的溅起,跳蚤的弹跳等,人眼都无法觉察到其中的运动变化。只有借助于高速摄影技术,才能清楚展现这些运动的全过程。
视觉对运动方向的响应在总体上是各向同性的,人眼可同样良好地感知各方向的运动。但在细胞水平上,由细胞或细胞群体构成的运动检测器对运动方向有选择性,一个方向的运动引起检测器兴奋,而反方向的运动将使检测器抑制;对某一方向的运动,检测器响应最强烈,对其他方向的运动则响应十分微弱。这决定了人眼对运动方向具有良好的分辨率。
概括起来,产生真实运动视觉的基本刺激是物体的映象以一定的速度和方向在视网膜上连续改变位置。这里的速度是指运动目标相对于人眼的角速度而不是线速度。近处的物体以较慢的线速度运动,就能够引起运动视觉,而远处的物体须以较大的线速度运动才能引起同样的知觉,这其中取决于角速度。人们可以感知近处路人的走动,却无法觉察在太空以极高速度奔驰的日月运动,也是同样的原因。运动视觉对运动速度大小的选择性,可归结为对物体运动变化的时间频率响应的低通或带通特性。
2.表观似动视觉
图8‐1 真实的运动及运动体
图8‐2 表观似动
似动视觉是对没有连续的空间位移的物体所产生的运动视觉。在这种情况下,只有静止的刺激在视野中相继呈现,运动不再是作用于视觉的固有物理刺激。日常的电影、电视与霓虹灯,是此类运动的最典型例子,有时也称这些现象为表观似动(Apparent motion)或视在运动。其含义是指几幅在空间上有位移的静止目标图案,如果在一定时间间隔内相继呈现,则可被视觉感知为目标的连续运动。如图8‐2所示,当左边的圆形与右边的圆形在计算机屏幕上以一定速度相继呈现时,将被感知为一个左右来回运动的圆形,尽管在任何时刻圆形都是静止的,而且在它们之间没有留下任何连续的运动轨迹。传统的理论曾以视觉暂留解释电影等此类现象;但作者认为,视觉残留只能解释电影画面的不闪烁,如同在50Hz的日光灯下无闪烁的感觉,即时间上连续,却无法解释在空间上的连续运动。表观似动虽然与真实运动视觉具有不同的物理刺激,却有与真实运动视觉一样的知觉结果,这提示需要探求一种统一的运动视觉理论来作出解释。
3.运动视错觉
在日常生活与工作中,运动错觉现象非常普遍。这是一种不真实的运动视觉或运动幻觉。如理发馆门口的招牌,其圆柱筒只是绕垂直轴作水平转动,我们所看到的条纹却在垂直方向运动;当天空中一片云彩飘过月亮跟前时,可感知到月亮向反方向运动而云层不动;在电影中,常常可看到飞驰的车轮在倒转的现象(图8‐3)。同时,运动错觉还常常引起人的整体错觉。如坐在静止的火车车厢里,当窗外另一列火车驶过时,往往产生自己的车厢在移动而另一火车静止的错觉;在夜晚或暗室里,长久注视一颗星星或一个静止小光点,将感到光点在移动,称为星漂错觉。这类幻觉可能成为飞机失事的原因。在完全黑暗的夜晚,仅以编队飞行中领航机尾灯作为其他飞机的空间导向指示,飞行员就可能因判断失误而失事。因此也有必要对运动视错觉的起因作出研究。
运动(图形)后效也可归类为运动视错觉,图8‐4模拟了此类运动错觉。将本图置于慢速转动(如每分钟20转)的盘面上,注视旋转中心约一分钟,然后突然停止转动,此时视野中图案并不是静止的,而是会朝反方向转动。需要指出,注视本图一小会后移开视线出现的残留像,是该图形的后像。
图8‐3 运动视错觉示意图
图8‐4 模拟运动后效的图形
8.1.2 运动视觉研究的意义及现状
视觉信息处理是一个迅速发展的多学科交互渗透的研究领域。它既有科学理论的一面,又有工程实用的一面。自19世纪发现虚动态镜效应并导致电影的出现以来,运动视觉就成了视觉研究的主要领域之一。在《Vision Research》、《JOSA》(美国光学学会会刊)和《J.Physiol.Lond.》(生理学杂志)等颇具影响的国际权威刊物上,每年都有相当数量的有关运动视觉研究的论文。在国际视觉与眼科研究协会(ARVO)会刊上,也都有大量有关运动视觉与眼动研究的论文发表。
一方面,视觉科学的发展要求人类全面认识自身视觉系统的结构与功能,并对各类运动视觉与运动视错觉作出正确的解释;另一方面,研究视觉系统的结构与运动信息处理功能,又可资在日常生活及各种工程领域的仿生学应用。例如,利用似动视觉发明了电影与电视;模仿蛙眼只对运动目标敏感而对静物熟视无睹的原理制成的电子蛙眼,可以准确地识别飞行目标;鸽眼具有识别定向运动的特性,据此原理发展的雷达系统,可以对从特定区域如机场与国境线外飞进来的飞机和导弹起反应,而对飞出去的目标无动于衷,从而提高识别精度与灵敏度;在军事上,飞机、坦克、导弹等都处于运动状态,发现并攻击这些目标,与蜜蜂和苍蝇等昆虫的跟踪追逐行为极为相似;利用运动视觉原理,还可以在大大压缩信息处理量的前提下,快速地从航空摄影、卫星遥感与气象云图中获取有效信息;人类的视觉系统具有实时、并行、高效及多功能等优点,研究这一信息处理系统的结构与功能,可直接为神经网络技术、计算机图像处理、光信息处理、机器人视觉及视觉光学等众多领域提供应用基础。因此,研究视觉对运动信息的获取、处理与感知,揭示其时间与空间编码特性,发展有效的、能够实际检测运动的计算理论与工程模型,是对视觉科学的重要增补,也是对神经网络技术等应用领域的贡献。这正是运动视觉研究的理论意义及其实用价值。
前人在视觉研究中确立的数学模型,大都是设计来解释这样或那样的运动视觉与错觉现象的。迄今已有的一些模型,虽能局部地解释一种或几种运动现象,但都不能从整体上描述运动视觉,不能如实反映视觉系统的层次结构与功能完备性。其中各阶段较有代表性的模型有如下几种。
1.方向选择性模型(www.daowen.com)
图8‐5所示的方向选择性模型,由Barlow等人最早提出。这一模型表示的检测器,能够对一个方向的运动兴奋而对相反方向的运动抑制,运动信息取自两个光感受器输出的时间序列信号差异。其中的光感受器对应于视杆或视锥细胞,低通延时功能由水平细胞实现,双极细胞则把来自两个感受器的信息作相乘或类似逻辑“与”的运算。这是一个最小的运动知觉模型,由于它仅基于视网膜的前级结构,它所能完成的运动检测功能显然是极低级的,与整个视觉系统的运动信息处理功能相去甚远。另外,如果一个沿抑制方向运动的光点先经过感受器A,然后在A与B之间稍作停留,再运动到B,则检测器仍将产生兴奋,从而使之陷入自相矛盾之中。
图8‐5 方向选择性模型
在方向选择性模型的基础上,Reichardt等人发展了相关运动检测器模型,可以成功地检测有边缘轮廓或纹理状图像的运动。不过,这类检测模型的依据是昆虫等低等动物的相关运动检测机制,模型也只是在硬件上模拟实现,与人类视觉系统的生理结构与实际功能并不能很好吻合。另外,模型只对特定目标的特定运动良好响应,并不能解释现实世界中的普遍运动。
2.零交叉运动检测模型
关于静态视觉,Marr等提出以二维高斯函数的拉普拉斯变换(LOG)作为神经节细胞与圆对称型皮层细胞在视网膜上的感受野的权函数,并根据感受野尺度(决定于空间分布常数σ)或空间通频带的不同分出不同的空间通道,检测图像中不同尺度的零交叉(Zero‐crossing,即边缘)结构。在此基础上发展了图8‐6所示的运动检测模型。子单元X+和X-分别为兴奋型与抑制型神经节细胞,它们对感受野区内的目标可产生持续放电,Y+和Y-为另一类只产生瞬息放电的神经节细胞。整个检测器的工作原理是,当运动目标如细棒经过检测器所在区域时,X+和X-将检测出目标的存在,子单元Y将检测到目标的运动。若目标从左到右运动,Y产生正响应;从右到左运动时则Y产生负响应,速度为零时Y不起响应。
图8‐6 零交叉运动检测模型
该模型的特点是直接建立在持续型与瞬变型神经节细胞基础上,可以解释运动方向选择性,克服了Barlow模型的缺陷,在检测边缘和细棒的运动时得到了一些支持。但总的而言,它还只停留在视网膜信息处理的水平,只考虑了运动方向性,而忽略了同样重要的速度编码,没能把运动检测与视觉系统的时间响应特性相联系。此外,模型无法解释绝对速度阈限、速度上限以及方向分辨率,因此实质上与方向选择性模型无异。
3.运动矢量检测器模型
1985年,Watson等人提出一个侧重于速度编码的运动检测模型。每个检测器由十个响应方向不同的感受器构成,这些感受器只工作在相同的特定中心空间频率,每个感受器的时间频率响应由“时间频率计”来测定,根据响应峰值的大小与位置确定运动速度与方向。这一模型的特点是第一次把运动速度也列入讨论范畴,并初步提出了时间频率与速度的关系。
然而,模型虽然能够在计算机上硬性实现,但毕竟与视觉系统的实际信息处理过程相去甚远。首先它得不到已有的生理学与心理物理学事实的支持。其次,每一个矢量检测器只能工作在一个狭窄的空间频率区域,要实现复杂结构物体的复杂运动检测,势必要有许许多多这样的检测器。而如何整合这些检测器的响应,模型没能交代,实际上也不可能实现,因为这不符合视觉系统以最少的结构与最短的运算时间完成最有效的信息处理的一般逻辑,也不符合日常的视觉经验与生理学事实。最后,在生理学上无法解释频率计如何实现。如果这是一些时间通道,那么模型中的这些通道只能工作在特定的中心时间频率及中心空间频率区域,并对同一运动方向起响应。这样,在检测复杂运动时,就需要有成千上万个时间通道参与。而Smith等人的工作表明,视觉系统中的时间通道只能是有限的几个。为此模型又一次陷入无法解脱的困境。
4.扩展的零交叉运动检测模型
Harris提出一种扩展的零交叉检测模型。他设想以检测单元的空间与时间响应的导数来实现运动速度与方向的编码。模型具有两个时空通道,每一通道都由空间滤波器与时间滤波器组成。第一通道的空间滤波器为一维高斯函数的二阶导数g″(x),第二通道则为g"'(x)。第二通道的时间脉冲响应为高阶低通滤波器h(t),第一通道则为h′(t)。运动速度大小正比于两通道时空响应之比,运动方向取决于比值的符号。从有关的计算结果看,模型成功适用于一维边缘的一维运动检测。
显然,模型仅考虑了空间一维的情形。一方面,这与视网膜的二维结构及各类感受野的二维响应特性不符,虽然g″(x)可解释为Marr的零交叉检测器的一维等效,但g″(x)的生理学基础无从谈起。另一方面,它丢失了图像的另一维结构信息,没能将静态视觉与运动视觉统一起来。此外,模型仍没有定性或定量解释绝对速度阈限,速度上限,方向分辨率等视觉事实。最后,Harris没有在此基础上探讨运动视觉的更高级功能,如复杂图像的复杂运动检测、三维物体的深度运动检测等。
8.1.3 运动视觉研究存在的问题
在视觉研究中,有关静态图像的模式识别的工作比较充分,已成熟地按视觉系统的层次结构建立了由简单到复杂的各种检测模型,并应用于机器人视觉、计算机图像处理诸方面。但这仍只停留在初级水平,就视觉而言,运动信息更为重要与复杂,静止只是运动的一个特例。而从前面介绍可知,有关运动视觉的研究还很初步,迄今未有一种能完善描述其信息处理过程的理论与模型。所存在的问题概括起来包括如下几个方面。
对视觉系统输入的有关运动的基本信息认识不够准确。在相当长时期,研究者把运动的基本信息归结为视野中光流的连续变化,认为“速度矢量”是最基本的运动输入信息,视觉系统只是把它如实地反映在知觉上而已。由此构造的模型当然就只局限于速度矢量的检测。这些模型虽然在一定程度上可以解释目标的连续运动,但在描述电影电视等同样普遍存在的表观似动现象时陷入困境。在表观似动中,根本不存在连续变化的光流或速度矢量,却产生了极好的视觉效果。为此必须进一步寻找更基本的运动刺激信息,将真实的连续运动视觉与离散的表观似动统一起来。
多数运动视觉模型只涉及运动方向编码。运动方向在视觉运动检测中确实起着重要作用,所以从Barlow的方向选择性模型到Marr的零交叉运动检测模型,莫不着眼于运动方向的检测,却忽略了同等重要的运动速度的编码问题。同时这些研究多局限于最低级的视网膜水平,只对局部运动作检测。显然,不考虑视觉通路从视网膜到视皮层的逐级神经网络的作用,进而从视觉系统总体上分层次揭示运动检测机制,任何模型都站不住脚。
视觉直接接收的刺激应是位于眼前视平面上随时间变化的二维光强分布,作为运动视觉最基本输入的是其中的空间位置、空间频率和时间频率信息。而此前的运动视觉研究,包括静态视觉研究都没能清楚地揭示它们的内在联系,也没能指出它们与运动速度与方向的关系。在讨论各级神经元的感受野特性时,往往只考虑它们对空间位置的响应,而忽视对空间频率的响应,更极少涉及时间和时间频率的响应。因此无法从实质上正确解释空间分辨率、绝对速度阈限、速度上限、方向分辨率等一系列视觉事实。
此前的运动检测模型,其速度检测器的响应与空间频率有关,在检测复杂结构物体的运动时,就需要许多空间尺度不同的速度检测器参与,而这些检测器的响应各不相同。这既与视觉事实不符,最后总合这些响应也变得不可能,从而使模型本身陷入无法克服的矛盾之中。显然,实际的运动检测器的响应都应与速度大小成正比,而且,对于给定速度的运动,不管目标的尺度及大小如何,所有检测器的响应均应相同。
运动视觉的研究没能与静态视觉有机地统一起来。在研究静态视觉检测机制时,只讨论空间响应而忽略时间响应;在研究运动视觉时,又只看重时间与速度信息而忽略空间结构检测。作为完整描述运动视觉的理论与模型,不仅应分层次考虑由点、线直至二维图像的二维运动的检测,还应对三维物体的三维运动及其他更复杂的运动检测作出全面描述。但迄今为止的所有工作,均未能解决这一问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。