理论教育 图像特征学习,教育理论与策略研究成果

图像特征学习,教育理论与策略研究成果

时间:2023-08-23 理论教育 版权反馈
【摘要】:(一)基于深度学习的图像特征学习方法电子技术和成像技术的发展不仅满足了人们在日常生活方面使用相机获取图像的需求,更满足了工业、交通、医学、军事等方面对图像采集的需求。因此,如何对图像进行更加合理且准确的表示,才能更好地反映图像的表观信息和语义信息,是图像分析、机器学习等研究领域的关键科学问题。深度学习模型是手段,特征学习是目的。

图像特征学习,教育理论与策略研究成果

(一)基于深度学习的图像特征学习方法

电子技术和成像技术的发展不仅满足了人们在日常生活方面使用相机获取图像的需求,更满足了工业、交通、医学、军事等方面对图像采集的需求。面对海量的图像数据时,如何快速又高效地获取和处理其中有用的信息成为图像语义理解的关键技术。一般而言,原始图像的维数相当大,这些图像数据常处于一个较高维空间中,而图像的语义信息处在低维流行上,若直接采用原始数据进行处理,不但计算复杂性高,而且后续图像的分类和识别都极为困难。因此,如何对图像进行更加合理且准确的表示,才能更好地反映图像的表观信息和语义信息,是图像分析、机器学习等研究领域的关键科学问题。

深度学习的概念由加拿大多伦多大学的Geoffrey Hinton(杰弗里·希尔顿)教授等人发表的一篇论文《深度置信网》(Deep Belief Networks,简写DBN)中提出,该论文于2006年发表在顶尖学术刊物Science上。深度学习的基本思想是采用无监督的方法预训练多个受限玻尔兹曼机(Restricted Boltzmann Machine,简写RBM),然后再将多个RBM组成一个深度网络,网络的初始权值为已训练好的RBM权值,最后采用传统的有监督的反向传播算法对整个网络进行“微调”,用于后续的分类任务。该结构基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习过程,其中很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类,克服了传统神经网络由于层数较大容易陷入局部最优及梯度弥散等缺点。此外,深度神经网络可以通过利用无监督学习实现的“逐层初始化”操作来有效克服训练上的难度。深度学习模型是手段,特征学习是目的。

深度学习作为机器学习的一个分支,可以分为监督学习和无监督学习。根据所使用的学习算法的不同,最后生成的深度模型可以是基于神经网络的判别式模型,也可以是基于含多层隐变量概率图的产生式模型。两种方法都具有其独特的学习模型:多层感知机、卷积神经网络等属于监督学习;深度置信网、自动编码器、去噪自动编码器、稀疏编码等属于无监督学习。无监督的特征学习方法主要适用于训练数据集中有标签数据较少而无标签数据较多的情况,其中主要的三个基本组成模块是受限波尔兹曼机、自编码模型和稀疏编码。

1.受限波尔兹曼机(Restricted Boltzmann Machine,RBM)

RBM是一类无向概率图模型,由可视层v和隐层h构成,其中,v是二值或实值随机变量,h是二值随机变量。隐层h的输出分布表示输入数据v的内部统计模式。这两层模型内,只有层间有连接,而同层内无连接,形成一个二部图。通过此限制使得RBM易于计算隐层单元和可视单元的条件分布。RBM的训练采用Hinton(辛顿)提出近似优化算法的对比散度(contrastive divergence,CD),整个训练方法是无监督的。

2.自编码模型(Auto-Encoder,AE)

AE由编码部分(encoder)和解码部分(decoder)两部分所组成。encoder将输入数据映射到特征空间,decoder将特征映射回数据空间,完成对输入数据的重建。通过最小化重建错误率的约束,学习从数据到特征空间映射的关系。为了防止简单地将输入复制为重建后的输出,需增加一定的约束条件,从而产生了多种AE的不同形式。

深度学习被广泛应用于图像领域。2012年10月,辛顿等人在著名的Image Net(图像网)大规模视觉识别挑战赛上,用深度学习模型在不使用任何的人工特征的情况下,只是输入图像的像素,取得了世界上最好的结果,使得图像识别获得了突破性进展。随后,百度公司将深度学习技术应用于自然图像识别及人脸识别等问题中,成功地推出相应的桌面和移动搜索产品。在2013年,深度学习模型被成功应用于一般图片的识别和理解。从这些应用领域深度学习处理图像的经验来看,深度学习应用于图像特征表示方向,不仅能提升图像分类和识别的准确性,更能够避免人工特征抽取的时间消耗,在很大程度上提高了在线计算效率

2015年12月,3位分别来自纽约大学、多伦多大学及麻省理工学院的学者在Science上发表了一篇文章,引发了业界对于深度学习算法与非深度学习算法之间优劣对比的新一轮讨论。该文构造了一个基于贝叶斯理论的概率模型,在累积足够先验知识的基础上,可以识别只见过一次的字符,也可以依照该字符结构写出新的字符,充分体现了其类人概念学习的思路。辛顿教授在接受《麻省理工学院科技评论》采访时指出,该文的工作是令人印象深刻的,他认为该文中从少量样本进行学习的思路可与深度学习和睦相处,并期望可以对两者的优点进行结合。该文作者与辛顿的观点一致,认为通过分析任务特性,可结合深度学习与此文提供的贝叶斯方法实现更高效率且高精度的感知学习。

(二)基于矩阵分解的图像特征学习方法

图像因其形象化、具体化的特点,本身包含大量的信息,计算机一般将图像数据按照矩阵的形式存放在外存储器设备中。图像一般分为彩色图像和灰度图像。针对图像的存储分析和处理过程都是在矩阵的基础上进行的。表示图像的矩阵元素通常采用整数,一幅图像通过修改变为另外一幅,其过程实质上就是一个二维矩阵变为另一个二维矩阵或者若干个矩阵相乘。针对图像的识别、分析和处理过程都可以在矩阵的基础上进行。

矩阵分解旨在研究如何将矩阵拆解成多个矩阵的加法、乘法、点乘等代数运算。矩阵分解的研究历史久远,其分解方式是人们研究的重点。现已知的分解方式有矢量量化(VQ分解)、判别式分析(LDA)、独立成分分析(ICA)、主元分析或者主成分分析PCA、奇异值分解(SVD)等方法,寻找两个或两个以上的低维矩阵,使得它们的线性组合是对原始数据矩阵的一个很好的近似估计,即一个原始的高维数据矩阵分解为几个矩阵因子,用来实现高维数据矩阵的低维特征表示。

上述这些矩阵分解的目的都是对高维数据进行降维。矩阵分解所增加的约束条件大多是针对原始矩阵和矩阵因子的结构特点,从而衍生出不同的矩阵分解方法。然而,这些方法确有着不足之处,即没有对分解后的矩阵因子中的元素增加任何约束。为此,我们从矩阵分解的角度出发,将图像表示方法简化成“约束条件+矩阵分解模型”的模式,即对分解后矩阵因子中的元素增加不同的限制,生成不同的模型。

低秩性、稀疏性、非负性是图像本身固有的性质,利用这些性质,从矩阵分解的角度出发,研究者们得到了许多新的不同的图像特征表示模型。近年来,矩阵的低秩、稀疏、非负分解等方法的研究更成为图像特征表示领域研究的热点。其主要原因是这三种算法都具有鲁棒性,且存储代价和计算复杂度低。此外,在实际应用中,这三种算法表示图像的性能具有可扩展性,即算法的性能随着训练数据的增加而有明显提高。同样的,本书根据高维图像潜在结构的性质,对分解后的矩阵元素增加低秩性、稀疏性、非负性的约束,围绕图像表示方法中的低秩表示、稀疏表示、非负矩阵分解三个重要的研究方向,展开了进一步的深入研究。

1.低秩表示(www.daowen.com)

从矩阵分解的角度出发,根据高维图像数据的语义信息实质上处于低维流行上的性质,对分解后矩阵的元素增加低秩限制,生成低秩表示(Low Rank Representation,简写LRR)模型。对图像数据矩阵进行SVD分解,那么,非零奇异值的个数便决定了该图像数据矩阵的秩。限制矩阵的低秩性是要求矩阵的秩远小于矩阵的行数和列数。显而易见,低秩图像数据矩阵的秩比原图像数据矩阵的维数要小很多。很多研究表明,低秩性是一种很强的全局约束和很好的二维稀疏测度方式,可以看作稀疏性在矩阵上的拓展。

低秩近似在图像表示领域里是非常有用的。图像本身包含大量的数据,这些数据都处在高维空间中,但却拥有着较低的本征维数,且其样本点都分布于一个低维结构中。例如,人脸图像本质上属于一个低维流形结构,因为它可以被如姿势、光照、表情等几个连续的变量来参数化。乳腺癌染色病理图像也具有很强的低维结构。在现实生活中,大规模的图像数据库通常以矩阵的形式表达,利用限制相应矩阵的秩的方法,可以提高对这些图像数据进行存储和操作的效率。

在高维图像数据的分析中,当污染的噪声服从高斯分布时,一般采用主成分分析(Principal Component Analysis,简写PCA)方法作为寻找矩阵低秩结构的工具。在实际应用中,观测的高维数据会受到噪声的污染,且噪声大多不属于独立同分布的高斯噪声,使得PCA模型不适应。若那些受噪声或奇异点污染的观测数据来自单个或多个线性子空间,John Wright(约翰·赖特)等人提出了鲁棒主成分分析(Robust principal component analysis,简写RPCA)方法,有效地解决了从被严重污染的矩阵中精确恢复出所需低秩矩阵的问题,且还能把稀疏的噪声成分分离出来。RPCA的思想来源于压缩感知技术,我们也称之为“低秩矩阵恢复问题”。

当观测样本数据集来自多个独立线性子空间时,假定同一类的数据样本来自相同的子空间,不同类的数据样本来自不同的子空间。在此基础上,基本的低秩表示模型是一种对矩阵进行低秩和稀疏分解的无监督图像表示模型的拓展,旨在寻找最低秩的矩阵将图像表示成低秩系数矩阵和字典的基的线性组合,且要求在求解的过程中使矩阵的秩尽量低。最近一些理论研究表明,对于矩阵的低秩加稀疏分解问题,若约束其矩阵的秩满足一定低秩条件且噪声项足够稀疏,那么,由范数和秩函数组成的凸包函数中的低秩矩阵可得到精确的恢复。

一般情况下,低秩表示模型在进行求解过程时,每次迭代都要对较大矩阵进行SVD分解,算法的复杂度也很高。针对此不足之处,很多研究者对系数矩阵和字典矩阵加入额外限制,例如,某些学者使用校正后的数据作为字典提出了一个改进的LRR算法,记为“Robust Shape Interaction(RSI)”(稳健型的相互作用);还有的学者利用从训练数据中得到的标签信息学习出一个有结构的字典。由于低秩模型一方面可以减少内存和运行时间,另一方面也保持了学习精度,并提供了一个自然的方式来规范正则参数。低秩表示模型在图像表示领域中是一个热点方向,已经被成功地应用于显著目标检测、背景提取、目标跟踪、3D视觉恢复、移动目标检测等图像处理领域。

2.稀疏表示

从矩阵分解的角度出发,根据Olshausen(奥尔斯豪森)等人在Nature杂志上指出的自然图像本身存在稀疏性的特性,对分解后矩阵的元素增加稀疏限制,生成稀疏表示(Sparsere presentation)模型。图像的稀疏性是指图像数据在某个变换域下的系数矩阵中元素大部分为零。稀疏模型是利用一组基或字典中少量的元素的线性组合来表示图像,算法的关键在于字典的设计,且一般字典都是过完备的。稀疏性约束在本质上是通过正则化约束求解线性方程组,使不定问题转化为适定问题,从而获得稳定的、唯一的解。从统计的角度看,稀疏性约束其实就是一种对图像的先验信息进行正则化处理的过程。

图像的稀疏表示问题最早源于视觉系统的“有效编码假说”。该假说是Barlow(巴洛)基于香农的信息论提出的,他指出:“在神经计算的过程中对信号或者编码的有效性约束尤为重要,即一组神经元只有有效地除去输入信号的统计冗余,才会尽可能多地利用资源进行有效编码。”稀疏表示模型本质上是通过少量的基函数来精确地表示自然图像。一些研究在生物视觉的初级过程中找到了稀疏编码机制的直接证据,从而推动了图像稀疏分解理论的进一步发展。

3.非负矩阵分解

从矩阵分解的角度出发,根据图像数据矩阵中元素的非负性,对分解后矩阵的元素增加非负限制,生成非负矩阵分解(Non-negative Matrix Factorization,简写NMF)模型。从数学角度出发,分解后的矩阵存在负元素是合理的现象,而且具有严格的定义。然而,在现实生活中要处理的诸如图像像素点、文字统计、人口数量等数据往往具有非负性,即若矩阵分解后的元素如果是负数则没有对应的物理含义。因此,非负性是对矩阵分解非常自然的条件限制,符合许多实际问题的要求,具有完全的可解释性。非负性的限制条件使得在对图像数据的处理中只能出现非负组合的加法运算,从而克服了传统矩阵分解算法中出现负值的缺点。

NMF模型是一种结合了非负约束的矩阵分解模型,在矩阵分解时对矩阵及分解后的子矩阵都施以严格的非负性约束,通过少量的基向量的正加性组合来获得原矩阵数据,保证了原矩阵数据的特征不会因为负值被削弱,是一种典型的图像表示方式。NMF方法通过基的线性组合来表示一幅图像,其抽取的特征向量能更好地反映样本的局部特征,例如,从人脸图像中提取的嘴唇,眼睛,鼻子等能表示人脸的部分信息。由于NMF方法对分解的基和系数矩阵加入非负限制,从而要求基图像和系数矩阵中不出现负值,因此只有选取了合适的基图像,通过加法组合所得的最终重构图像才能达到令人满意的效果。NMF为图像表示提供了一种崭新的方法。

NMF思想最早由Paater(帕特)和Tapper(塔珀)在1994年提出,他们考虑了因子分解环境下的正矩阵分解(PMF)方法,由于算法较为复杂且找不到较好的全局最优解,所以该文并未引起广泛关注。随后Lee(李)和Seungs(肖恩斯)在1997年研究编码问题时首次使用了NMF的概念,并在该文中提出了一种基于梯度下降法的交替投影梯度算法。1999年,Lee和Seungs在Nature杂志上正式系统地提出了NMF算法的基本概念框架,并从理论上简洁地描述和定义了两种简化迭代算法。

NMF在寻找一组基和其最优的线性组合来近似原数据矩阵的过程中对基和系数矩阵都增加了非负约束,使得模型具有稀疏和低秩的特性。在算法上,NMF将一个大规模非负矩阵很简捷地分解为两个非负低秩矩阵的乘积,其本质是用少量的数据描述大量的数据,且分解速度较快,实现起来比较简单,便于将高维的数据降维,适合处理大规模数据。

综上所述,图像特征学习的研究是一项十分困难且极具挑战性的课题。在图像特征学习技术发展的过程中,产生了很多新方法、新理论、新模型,对图像的分类和识别领域有极大的推动和促进作用。深度学习在处理自然图像的图像分类、目标识别等应用上,由于其性能与人类的判别力相比,还是有一定差异的,且其内在学习机制缺乏明确的数学理论描述,人们还需要深入思考如何改进深度结构模型及相应的学习算法以提高其性能。因此,本书从矩阵分解的角度出发,研究低秩表示、稀疏表示、非负矩阵分解方法在图像特征学习领域的应用。这三种方法都是基于矩阵分解的机器学习和数据管理的模型,在算法上有着密切的联系。非负矩阵分解被认为是后来矩阵低秩表示和稀疏表示的先驱。该模型的非负约束使得分解因子中的许多元素受到边界限制而为零,使得分解的非负矩阵具有一定稀疏和低秩的特性。从算法上看,低秩表示可以看成是矩阵特征值的稀疏表示,因此在本书中讨论矩阵的低秩表示算法时会混合一些稀疏表示算法的概念和思想。

从矩阵分解的角度出发,对分解后矩阵的元素增加单一的限制,如非负性、稀疏性、低秩性,生成的图像特征学习模型主要存在以下三点缺陷:其一,非负矩阵分解模型可以看成是用图像局部特征的非负线性组合来表达整体特征的一种模型,因此其既可以反映单个图像内的局部特征,又可以反映整体图像数据集之间的关系。但是,非负性是图像本身的共性,针对不同类的图像,如医学细胞数字图像和人脸图像,其不同的图像特征导致不同的数据结构,故需加入非负性约束之外的其他约束。其二,稀疏表示模型对图像局部特征一般采用独立处理的方式,即在表示图像的过程中,算法主要强调样本向量自身在字典下的稀疏表示,会忽略其周围邻域图像的非局部信息,其结果是忽略了图像局部特征之间的相互关系。其三,低秩表示方法是通过对表示图像的线性组合的系数施加全局低秩限制,实现对数据全局结构如聚类信息的捕获,会忽略图像的局部特征。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈