在迁移学习是异构迁移学习中,源和目标之间的特征空间是不等价的,并且通常不重叠。在这种情况下,作为源域和目标域的Xs≠Xt和/或Ys≠Yt可能不共享特征和/或标签,而特征空间的维度也可能不同。因此,该方法需要特征和/或标签空间转换来弥补知识迁移的差距,以及处理跨域数据分布差异。这个案例更具挑战性,因为域之间没有相同的特征表示。换句话说,知识可以从源数据中获得,但它的表示方式不同于目标数据,我们的问题是如何去提取它。
大多数异构迁移学习方法可以在转换特征空间时分为两类:对称变换和非对称变换。图3.9(a)所示的对称变换采用源特征空间Xs和目标特征空间Xt,并学习特征变换,以便于将每个变换投影到公共子空间XC中进行适应转换。这个子空间即为关联跨域数据的域不变的特征子空间,并且实际上减少了边缘分布差异。执行此操作会将两个域的特征空间合并到一个公共特征表示中,在这个公共特征表示中就可以应用传统的机器学习模型,如支持向量机。在最好的情况下,人们还可以应用为同构迁移学习建立的模型,这些模型考虑了在子空间中观察到的分布差异和域迁移能力。如图3.9(b)所示,非对称变换映射将源特征空间与目标特征空间(Xt→TXs)进行对齐转换,或将目标特征空间与源特征空间(Xs→TXt)进行对齐转换。实际上,这弥补了特征空间的差距,并且当需要校正更深层次的分布差异时,将问题转化为同构迁移问题。当源域和目标域具有相同的类标签空间,并且可以在没有上下文特征差异的情况下转换Xs和Xt时,这种方法是最合适的。当域之间存在条件分布差异时,一个域中的特征在另一个域中可能有不同的含义,这样就会出现语义特征偏差。在任一类别中,一旦解决了不同特征空间的问题,我们就可能需要去解决边界和/或条件分布差异。这可以通过同构适应方法来实现,该方法考虑了在跨域的任务中观察到的这些分布差异。
图3.9 异构迁移学习对称和非对称特征变换图解
(a)对称变换;(b)非对称变换(www.daowen.com)
例如,在无约束的用户视频中存在各种复杂背景、镜头抖动的问题以及较大的类间差异,对此类视频中的事件进行标注是一项极具挑战性的工作。为了得到具有泛化性能的模型,传统方法不得不耗费大量的人力、物力来标注种类繁多的用户视频。互联网中存在大量含有丰富事件相关信息的粗标注图像,本章主要研究如何借助这些互联网中的粗标注图像来标注用户视频的方法。从互联网图像中获取知识既方便又有合理性,主要有两方面的优势:①知识更容易获取,通过简单的关键词检索就可以获得所需图像;②具有可扩展性,通过加入新的关键字进行检索就可以获得所需要的知识。另外,由于大部分视频内容基本上可以从单帧图像中获得定义,从互联网上获得的图像可以在很大程度上帮助推导出视频的内容。但是对于一些不能依靠单帧图像简单地定义其内容的视频(如“起立”和“坐下”),视频的运动特征在标注中便起到了至关重要的作用。基于以上的观察,对没有标签的用户视频(目标域)中的事件进行标注,可以从有标签的互联网图像和没有标签的用户视频中获得知识。
将知识从图像迁移到视频中遇到的首要困难是图像数据与视频数据分别处于两个不同的特征空间中。一般来说,不能期望一个较好的图像分类器也可以在视频数据上得到同样好的分类效果。因此需要设计一个连接两个异构特征空间的翻译器,以完成将知识从图像域(源域)迁移到视频域(目标域)的迁移任务。为了使习得的分类器能够适应异构特征空间,通常的做法就是将源域的特征“翻译”到目标特征空间中,或者建立一个共同特征空间,以便将这两个异构的特征空间联系起来。由此,学习过程可以在一个单一的特征空间中完成。这种方法已经在跨语言文本分类[40]的若干应用中被证明是有效的。但是对于更一般的迁移学习问题来说,这个方法可能行不通。这是由于在诸如将文本翻译到图像[41]等非自然语言的情况下,不同的特征空间是很难进行机器翻译的。因此,为不同特征空间习得一个“特征空间翻译器”成为非常具有挑战性的工作。典型相关性分析(canonical correlation analysis,CCA)[41-42]广泛用于获取文本和图像之间相关性。Yamanishi等[43]提出使用基于核方法的典型相关性分析(kernel canonical correlation analysis,KCCA)以习得描述排序标签和图像描述子之间相关性特征表示,并以此计算两个域中数据的相似度。例如,由典型相关性分析习得的两个映射矩阵分别将异构空间的特征翻译到一个共同的特征空间中。由此,源域中的图像特征和目标域中的视频特征可以映射到一个共同的特征空间。在这个空间中习得的源域的分类器可以直接适用于分类目标域的视频。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。