5.2 视觉对图像的识别
5.2.1 人眼对图像识别的特点
人类能够从大量的视觉信息中识别出熟悉的图像或客体,这是人类最惊人的认知能力之一。人们日常生活中的各种活动,从人群中认出熟悉的朋友,从一大批自行车中很快找到自己的车子,看懂一幅图画,以及阅读书籍等,都需要依靠图像识别。正因为图像识别在人们的生活和工作中司空见惯,以至于很少有人认真想过这其实是一个相当复杂的过程。到目前为止,人眼对图像的识别问题的探讨仍处在开始阶段。图像与图形及模式都是同义语,只是由于习惯,人们常常将较为复杂和有意义的图形称为图像,或者说,观察者感受一组复杂的刺激,能够认出它是属于经验过的某一客体,这组刺激就成为一个图像。图像识别在英文中也称为模式再认或模式识别(Pattern recognition)。为习惯起见,我们仍采用图像识别的说法。
感觉简单的刺激,只要求一定形式和强度的刺激作用于感觉器官,图像识别则涉及更高级的信息加工。图像识别是一种再认活动,即当图形刺激作用于感觉器官时,人眼辨别出它是经验过的某一图形,所以也叫做图像再认。在图像识别中,既要有当时进入感官的信息,也要有记忆中存储的信息。只有当存储的信息与当前信息进行比较和加工处理后,才能实现图像的识别。所以图像识别不仅仅是视觉过程,也涉及一系列的心理过程,包括感觉、知觉、记忆、认知、搜索、形成概念,直到最后完成刺激的再认。
熟悉的图像,无论落在视网膜的什么位置,人眼都可以快速而准确地识别它们。但是,如果一个图像是全新的,视觉的识别就不那么容易了。例如图5‐16的图像,当它水平呈现给人眼时,往往被看成是一只狗;而当图像垂直呈现时,多数人将它看成是一个厨师的头;倾斜45°时,又变成一个双关图像。一般而言,在被试者观察上述水平或垂直呈现的非双关图像后,便形成一种偏见,并往往以这种偏见去看45°的双关图形。就是说,如果他看过“狗”图像,就容易把双关图像看成“狗”,反之则为“厨师头”。因此,图像的“痕迹”在视觉神经系统中有定向作用。此外在空间上,出现在视网膜相同部位的图像,要比出现在不同部位的图像更容易发生先后影响。
图5‐16 双关图像的识别
日常经验还证明,刺激的旋转能产生知觉的变化。例如,人的面孔是有一定方向的图像。对于人的面孔的识别原则上需要辨认很微细的特征,但由于我们每天在进行面孔的再认,所以并不觉得困难。但是对于不同种族的外国人面孔的辨认就比较困难。我们总觉得外国人的面孔都相似。儿童再认同学的照片并无困难,但是有科学家发现,把同学的相片倒过来让儿童辨认时,他就会感到非常费力,这说明对倒置面孔的记忆要比正立面孔的记忆差得多。也许大多数人会从图5‐17的图像中看到一座孤岛、两棵大树、一条大鱼和一个渔夫等,很难想象这其实也是一只倒立着的大鸟,嘴里叼着这个渔夫。将书本倒过来看,一切就都豁然开朗了。
图5‐17 图像状态对识别的影响
人们识别更复杂的图像,如阅读文字、识别不完整的或不确定的图像,还必须考虑眼睛运动的作用。阅读旋转90°的书页,眼睛需要上下运动,改变这种过渡学习的运动技能是不容易的。而书页旋转180°,阅读时眼球是以相反的方向,即从右向左的运动。对于中国的年轻人而言,阅读时把眼睛的运动改变为从右到左,即阅读我国台湾某些文字从右到左排版的报刊,比改变为上下运动(即阅读古代和近代书籍的方式)要容易一些。这说明了为什么旋转180°(把书页倒置)比旋转90°的书页更容易读些。1976年Kolers发现,被阅读过一次上下反转的文字材料以后,两年之后仍然可以用较快的速度读出相同的材料。(www.daowen.com)
图像方向改变后人眼仍能识别出来,还可能是由于图像特征的作用。一般说来,不管图像怎样转动,它的特征是不变的。一个旋转的A仍然只有一个尖头;一个旋转了的P仍然有一个封闭的圈;一个Y的中心总有一个锐角;一个C总是个没封口的半圆圈等等。如果识别是以这样一些关键特征为基础的话,也同样能够不受旋转的干扰。此外,除了图像方向的变化对识别的影响外,图像的形状和大小恒常性也起着明显的作用。当把书本向后倾斜,使书页上字母的视网膜像变形时,对字母的形状知觉却保持不变。又如当前后移动书本时,尽管文字的视网膜像大小发生了变化,但看起来文字的大小却变化很小。不仅对熟悉图像的识别是这样,就是对不熟悉的图形的知觉也基本上保持了原来的形状和大小。可见,并不是由于再认而保持了恒常性,相反,再识别之前已经有了知觉恒常性。正是由于这种知觉恒常性使得识别成为可能。
对简单图像的识别,人眼不需要努力就能立刻再认出它的某些成分;而对于复杂图像,如潦草的文字材料,则就需要花费一定的努力才能加以识别。要识别这种图像,观察者必须辨别和确认某些字迹或段落,而且往往需要依靠对上下文的理解才能做到。对于难以识别的图像,则需要经过一系列不同层次的信息加工过程才能加以识别。如读书时,一般先识别汉字的一部分,再识别整个汉字,直到整个句子。读者一旦认出汉字的主要特征,并能读出字的音和掌握其意义之后,识别时就不再需要辨别其他细节。在每一本书中总能出现不少的错别字,即使几经勘误,仍然难以完全消除,原因之一就是在已经掌握了字和句子的意义后,校样阅读时往往不再注意句子的结构和字的细节。
5.2.2 模板匹配理论
外界刺激作用于感觉器官,人们认出它是经验过的一个图形或东西,这就完成了对图像的识别。模板匹配(templatematching)理论认为,识别某个图像,必须在过去的经验中有这个图形或东西的“记忆痕迹”或基本模型,这个模型又叫“模板”。当前刺激如果与大脑中的模板符合,就能识别这个刺激是什么。也就是说,一个图像是通过它与模板相匹配而加以识别的。模板匹配的模式在生活中并不罕见。例如,在银行里留下一个图章和签名作标准,在取款时如果所带的图章或签字与原有标准相匹配,取款就发生效力。又如在公安机关已经广泛采用的指纹识别系统,就是根据罪犯在犯罪现场留下的指纹与电脑内已有的指纹档案的匹配来找到罪犯的,电脑内存贮的指纹档案即为模板。应该指出,人眼的模板匹配识别能力,要比电脑和机器人视觉系统完善得多。比如,在人眼前放置一个茶杯,不管茶杯是正的、倒的还是斜的,人们总能毫不费力地立即识别出这是一个茶杯,而电脑却无法识别。因为电脑一般只能识别与其内部所存贮的茶杯模板的大小、形状及取向完全一样的实物。此外,即使茶杯缺了一个角或者已经破损,人们仍然能够立即判别这是一个茶杯,而一般的电脑和机器人视觉无法做到这一点。
当然,完全以模板匹配理论来解释人眼的图像识别能力也是不完备的,或者说是机械的。因为根据这一理论,外界刺激与模板必须完全符合。例如,只有当看到与上文提到的茶杯模板的形状、大小、取向甚至色彩完全相同茶杯实物,人们才能识别出这是茶杯。显然,这不可能是实际的视觉识别过程,因为我们可能见过许多茶杯,但对于某一个特定的茶杯,往往是第一次见到;即使曾经见过同类型的茶杯,它们的形态和它们在视网膜上的位置肯定不同。这样一来,仅仅为了识别茶杯,人的视觉系统或大脑内岂不是要存贮成千上万种茶杯的模板?那样的话,要识别一个茶杯必将十分困难和费时,更不用说要识别现实世界中无数形形式式的实物和图像了。但事实是,人眼在现实中既能很快识别与基本模式一致的图像,也能识别与基本模式不完全吻合的图像。例如字母A,有印刷体的,也有手写的,有罗马字体的,也有空心体的,其中手写的字母形态肯定因人而异,大小与取向可能千差万别,这里的每一种变化,都破坏了模板匹配理论所必需的基本条件,即刺激与基本模式的一致性,但人眼都可以识别它们。因此,模板匹配理论所存在的问题,还必须由其他方法来解释。
格式塔心理学家提出了原型匹配(Prototype matching)理论。这种理论认为,眼前的一个字母A,不管它是什么形状,也不管把它放在什么地方,它都与过去知觉过的A有相似之处。人们在长时记忆中存贮的并不是无数个不同形状的模板,而是从各类图像中抽象出来的相似性特征作为原型,拿它作为识别实物的基本图像。这是所有知觉系统所遵循的节约原则,知觉系统总是以最小的记忆和认知空间,来完成最多最复杂的外界信息的接收和处理的。根据原型匹配理论,如果所需要识别的图像能找到一个与之相似的原型,那么这个图像就被识别了。仍以字母A为例,在人们大脑中存贮有一个理想化的但却包含A的一切主要特征的原型作为A的模板,以后不管是看到印刷体的或是书写体的A字,只要它们具有A的主要特征(图5‐18),视觉系统就可以很快识别这是一个A字。人们之所以不会把Δ看成A字,是因为前者的下部与A字的原型模板不同,此时就要去寻找更符合字符Δ的原型模板了。
图5‐18 字母“A”的模板:A或Δ
尽管原型匹配理论能够更合理地解释图像识别的一些现象,但是它仍然没有说明人眼是怎样对相似的刺激进行辨别和加工的。例如,B、P和R的特征很相似,但人们却能对它们加以区别,而很少把它们混淆起来。原型匹配理论所说的相似性好像只是对所观察的事实加以重述而已,即把那些被识别的刺激说成是相似的,符合原型的;而那些没有被识别了的刺激则被认为是不相似的,不符合原型的。这样,一个刺激能否被识别,就很难加以预测,因为它和原型是否相似,并没有一个严格的标准。原型匹配理论并没有给出一个明确的图像识别的模型或机制,因而也难以在计算机模拟程序中得到实现。我们在日常生活中识别千变万化的图像并不费力,其中必然涉及极其复杂微妙的机制。只有揭示这种机制,才能提出更好的图像识别模型。不过,根据简单的模板匹配理论和模型,人们已经发明了一些图像识别机器,公安部门的指纹识别系统和国外银行采用的眼底识别系统,就是两个典型的例子。现在,指纹识别系统也已经在一些国家应用于海关,出入境人员只要把手指头在扫描器上放一下,指纹识别系统就可在两三秒钟内判别其身份,从而避免了繁琐的证件核对手续。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。