理论教育 图像检索方法的应用与效果

图像检索方法的应用与效果

时间:2023-08-23 理论教育 版权反馈
【摘要】:该方法对图像进行深层次、多维度的丰富标注,再通过关键字检索完成图像的有效检索。通过将两者结合,改善了图像标注的丰富性和完整性,进而提高图像检索的查全率。

图像检索方法的应用与效果

(一)图像检索系统

1.基于文本的图像检索系统(TBIR)

基于文本的图像检索系统主要模块可分为图像标注、建立索引库、搜索引擎三个模块,其功能模块如图9-1所示。

图9-1 基于文本的图像检索模型

图像标注模块的好坏直接决定系统检索的效果,因此TBIR的主要研究都集中在图像标注模块。传统的基于文本的图像检索的关键字标注是在图像上手动注释的,这是非常耗时的费时费力,模糊而乏味。由于图像数据包含非常丰富的信息,很难只使用几个文字关键字描述图像内容,人工的标注往往质量也存在着问题。随着Web图像的爆炸式增长,早期的人工标注已经不再适应,于是研究者们开始研究利用计算机对图像进行自动标注技术,该技术的自动、快捷、高效促使它在Web图像检索上得到了广泛应用。

2.基于内容的图像检索系统(CBIR)

基于内容的图像检索系统主要由特征提取模块、图像检索模块、图像特征库、匹配模块组成,CBIR框架如图9-2所示。

图9-2 基于内容的图像检索系统模型

影响基于内容的图像检索系统结果的主要是图像特征提取模块的效果。通常用于描述图像特征的主要包括颜色、纹理、形状。不同的图像,其颜色各不相同,如天空是蓝的、云是白的,通过颜色的不同是区分图像的一种重要方式。获取图像的颜色特征也非常容易,在计算机视觉上,通常采用颜色直方图作为图像的颜色特征的表征。自然界中的各个物体具有不同的纹理,如天空、大海沙漠田地的纹理各不相同,造成了图像的纹理特征相较于其他特征更加难以度量。一张图像中包含的物体多种多样,因此对于纹理的处理常采用区域分析法,主要包括灰度共生矩阵、视觉纹理描述和随机场模型。形状特征是图像的另一个代表性特征,图像中的物体的形状各异,形状的差异使得人们可以通过形状去区分图像。图像形状往往是通过对图像进行分割得到的,通常采取的方法有形状不变矩和SIFT算法。随着深度学习在图像识别领域取得优异成果,利用若干卷积层和池化层组成的特征提取网络提取图像特征开始被研究者广泛采用。

3.图像标注与图像检索

如上文所述,图像标注的好坏将直接决定图像检索的准确率和检索的完整性,因此图像检索的主要研究工作集中在图像标注上。利用图像标注可以将图像检索转化为更准确、更高效、更方便的文本检索,所以如何准确、丰富地标注图像就成为图像检索的关键一步。

图像标注技术多种多样,从早期的人工标注到现在主流的自动标注技术,在此期间产生了许多图像标注方法。图像自动标注方法是通过已标记的图像样本训练机器学习算法,建立图像低层特征和语义的映射关系,一旦训练好,便可以运用训练好的模型对图像进行语义标签的自动标注。图像自动标注方法根据其适用场景可以分为以下两种类型:第一种类型是使用机器学习算法,该方法严重依赖于训练集,因此不能实用于互联网图像这一数据集。第二种类型是根据互联网图像周围的文本信息,利用文本提取技术自动提取图像的标注。

使用机器算法对图像进行标注的主要思想是:利用图像特征提取算法提取图像低级特征,将这些特征直接送入分类器(支持向量机、人工神经网络、贝叶斯网络等)中,分类器的输出是图像的类别。支持向量机(SVM)针对高维数据具有高效率的分类效果,特别是当训练数据集很小时。SVM优于其他分类器的优点是它通过找到最大值来达到最佳的类之间的距离。它已经成功应用于一些分类问题,如语音识别、对象检测和图像注释。Chapelle(夏佩尔)等人针对14个图像概念分别训练1个SVM分类器。Shi(施)等人一开始先使用k-means(k-均值)对图像做聚类处理,然后将相同类别的图像分割,最后训练23个SVM分类器来学习23个分割区域的概念。Frate(弗莱特)等人使用4层ANN(人工神经网络)识别卫星图像中包含的四种地域:植被、沥青、建筑物和土壤。Kim(基姆)等人使用3层ANN将图像分类为目标和无目标图像。Park(帕克)等人首先使用分割算法来分割图像,选择图像中心的最大区域作为图像的特征。

基于互联网的图像标注方法不需要大量的训练集,提出了一种针对互联网数据集的图像标注方法,该方法主要是通过分析待标注的图像,寻找与它相似的图像,从相似图像的标注中学习出标注词。(www.daowen.com)

(二)基于多源大数据融合图像标注相关理论和技术

1.多源数据融合的图像标注框架

受到基于本书和内容结合的图像检索技术的启发,同时根据Web图像在网络上传播时存在着相同图像经不同用户标注后被多次传播的特点,提出了基于多源大数据融合图像检索方法,方法框架如图9-3所示。该方法对图像进行深层次、多维度的丰富标注,再通过关键字检索完成图像的有效检索。其核心是以下两个图像标注模型:一是基于多源大数据融合图像标注模型,它依靠图像相关多源信息对图像进行标注和标注补偿。二是基于深度学习的图像标注,通过深度学习对图像场景进行图像标注。前者综合分析图像的相关信息(文本信息、图像属性、图像创建者信息)来完成标注。后者完全基于图像自身,通过卷积神经网络技术,对图像进行标注。通过将两者结合,改善了图像标注的丰富性和完整性,进而提高图像检索的查全率

图9-3 图像标注框架

2.多源信息相似度计算方法

相似性计算方法根据其关注角度不同可以分为基于对象内容的方法和基于对象间关系的方法。前者主要是通过计算内容的相似性,后者主要是分析对象之间结构的相似性,如Page Rank,Sim Rank和Page Sim。经研究发现,人认知物体间的相似关系更多的是依靠对象之间关系来判定的。

Sim Rank是一个基于简单直观的图论模型的通用相似性度量算法。Sim Rank适用于任何具有对象与对象关系的领域,这些关系根据对象与其他对象之间的关系度量对象发生的结构上下文的相似性。其基本思想是:如果对象a和b分别与对象c和d关联,如果c与d是相似的,则a与b也是相似的,并且任意节点与其自身拥有最大的相似度值为1。

一个有向图G=(V,E),其中,V是有向图的节点集合,代表某个领域中的所有对象;E是有向图的边的集合,表示对象间的关系。相关符号定义如表9-1所示。

表9-1 Sim Rank符号定义

续表

3.卷积神经网络相关理论

卷积神经网络是一种在人工神经网络上引入卷积、局部视野、权重共享、多卷积核等策略的改进网络。在特征提取后加入池化层,减少了特征的维度,减少过拟合出现的概率。通过上述的策略使得卷积神经网络更易于优化,同时随着网络层数增加依然能够高效地完成图像特征的提取和分类。得益于卷积神经网络良好的特征提取功能,将其应用于模式识别图像处理领域取得了优异的成绩。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈