根据源域与目标域的数据和任务的不同,迁移学习设置可以分为归纳式迁移学习(inductive transfer learning)、直推式迁移学习(transductive transfer learning)和无监督迁移学习[4]。
1.归纳式迁移学习
给定源域DS和源域学习任务TS、目标域DT和目标域任务TT,且TS≠TT。归纳式迁移学习使用源域DS和TS中的知识完成或改进目标域DT中目标预测函数fT(·)的学习效果。在归纳式迁移学习中,源域学习任务与目标域学习任务一定不同,但是源域和目标域可以相同也可以不相同。在这种情况下,目标域需要一部分带标签的数据用于建立目标域的目标预测函数fT(·)。
根据源域数据是否有标签,可以把归纳式迁移学习分为两种情况。其中一种情况是当源域有很多标签样本时,归纳式迁移学习与多任务学习(multi-task learning)类似。二者均是从源域迁移知识进行学习,区别在于,归纳式迁移学习只注重改进目标域学习任务的效果;但是多任务学习注重同时提升源任务和目标任务的学习效果。另一种情况是当源域没有标签样本时,归纳式迁移学习与文献[5]中提出的自学习类似。在自学习设置中,源域和目标域之间的标签空间可能不同,这意味着源域的边界概率信息不能直接使用。因此,它类似于源域中的标签数据不可用的归纳迁移学习设置。
在归纳式迁移学习中,目标任务和源任务不同但相关,而目标域与源域可以相同或者不同。为了训练目标决策函数,需要目标域中少量数据带有标签。形式化地定义归纳式迁移学习的设置如下。
定义1.4 归纳式迁移是迁移学习的一种,其目标是通过使用从DS和TS迁移得来的知识来帮助学习目标域的决策函数fT(·)。其中,TS≠TT且训练阶段存在少量带标签的目标域数据。
在此设置中,目标域需要给出带标签的训练数据,源域中是否存在数据以及目标域中是否有标签的数据是可选的。由此,在归纳式迁移的设置下可以存在三种情况。
(1)源域中的数据可用,而目标域中的没有标签数据不可用。
(2)源域中的数据可用,且目标域中的没有标签数据亦可用。
(3)源域中的数据不可用,而目标域中的没有标签数据可用。
归纳式迁移中的大多数迁移学习方法属于上述分类中的前两类。为了同时利用源域和目标域中的有标签训练样本,Daum'eⅢ[6]提出了一种特征复制方法得到增广特征以适应于不同的域,所得到的增广特征可以用于构建核方法中的核函数。使用自适应支持向量机[7](adaptive support vector machine,A-SVM)为目标域习得一个新的SVM(support vector machine,支持向量机)分类器fT(·),该分类器是由源域中训练出来的现有的分类器fS(x)适应得到的。类似于A-SVM,Schweikert等[8]提出先从源域和目标域中通过使用监督学习方法(如SVM)习得一些分类器,然后将这些分类器按照一些预定义参数组合得到最终能够在目标域上进行预测的分类器。TrAdaBoost[9]是一种扩展AdaBoost[10]方法的改进方法,该方法迭代地对源域中的数据重新赋值以自动选择并使源域中的部分数据自动适应为一个较好的目标分类器。Wu和Dietterich[11]直接将源域数据结合到一个SVM框架以习得目标分类器。跨域SVM(cross-domain SVM,CD-SVM)方法[12]使用目标域的k近邻来为每一个源域样本分配权重,然后使用赋予了新权重的源域样本和有标签的目标域样本习得一个类SVM分类器。Jiang等[13]提出通过挖掘不同视觉概念之间的关系来检测食品概念。该方法首次构建了语义图并将其在线地适应为适用于测试数据的新知识。
当源域中没有任何有标签数据时(源域中只有没有标签的数据可用),源域中的信息可以迁移到目标域和目标任务中。Raina等[14]把这种情况称为自学习过程。对应于该情况,他们提出了一种稀疏编码的方式:通过利用目标域中没有标签的数据构建高层特征。
然而,目标域中大量没有标签的样本在上述迁移学习的方法中并未被发掘出来[6,9,11-14]。如文献[15]~文献[18]所述,这些没有标签的样本同样可以用来提高所得分类器的泛化性能。Duan等[15-16]基于最大均值差方法提出使目标域中没有标签数据以更准确地估算源域和目标域的特征之间的不匹配性。
也存在源域与目标域的特征空间不相同的情况(例如,两个域中特征向量的长度不相等)。Dai等[19]提出通过使用马尔可夫链以及最小化风险的语言模型来将不同特征空间中的异构特征联系起来。Saenko等[20]和Kulis等[21]通过基于信息论度量的学习方法[22]来习得距离度量标注已发掘的两个不同特征空间之间的关系。(www.daowen.com)
2.直推式迁移学习
在直推式迁移任务设定下,一般认为源任务和目标任务是相同的,但是源域和目标域是不同的。另外,目标域中不存在任何有标签数据,而源域可以有大量有标签的数据。直推式迁移形式化的定义如下。
定义1.5 直推式迁移是迁移学习的一种,其目标为通过使用从DS和TS迁移得来的知识来帮助学习目标域的决策函数fT(·)。其中,DS≠TS或者TS=TT,且训练过程中可以利用目标域中部分没有标签数据。
在定义1.5中,包含如下两种情况。
(1)源域与目标域的特征空间不同(XS≠XT)。
(2)两个域中数据的边缘分布不同(P(xT)≠P(xS))。
第二种情况与协变量转换(covariate transformation)类似[23-26],协变量转换主要关注训练数据与测试数据分布不相同的情况。另外,协变量转换属于样本选择偏差的概念范畴[27-29]。如果训练任务和测试任务相同(即Ttrain=Ttest),样本选择偏差则成为协变量转换[28]。直推式迁移的第二种情况也同样被认为是自然语言处理(natural language processing,NLP)中的域适应[30]。
研究人员提出了大量的方法,以解决直推式迁移的第二种情况。由于不同域中的数据分布有所不同,仅从源域样本中习得的分类器并不能在目标域中取得同样好的分类效果。为减少这种不同域间的不匹配问题,Huang等[28]提出了核均值匹配(kernel mean matching,KMM)的两步法。第一步通过对源域中样本φ(xi)二次加权为βiφ(xi)来消除重构希尔伯特空间中两个域样本均值不匹配问题,其中βi由最大平均差异(maximum mean discrepancy,MMD)[31]习得。第二步是使用二次加权得到的βi习得决策函数f(x)=w′φ(x)+b以分离D中不同类的样本。通过扩展KMM方法得到的多核均值匹配[7]方法可以解决多域特征不匹配问题。在Multi-KMM方法中,每个源域中的样本在不考虑标签信息的情况下根据目标域数据均值进行一定的偏移。Dai等[32]提出使用基于EM的朴素贝叶斯分类器[33]来进行直推式迁移。Wang等[34]提出了迁移判别式分析(tansferred discriminative analysis,TDA)方法,能够在迁移过程中进行降维:先对目标域中没有标签的数据进行聚类以生成这些没有标签数据的伪标签,再使用TDA方法对目标域中的没有标签数据和源域中的没有标签数据进行降维。迭代地进行这两步以获得对目标域数据更具有判别性的子空间。Blitzer等[35]提出使用结构化对应学习(structural correspondence learning,SCL)算法以获得不同域之间的对应关系;使用一种启发式的方法来选择两个域中频繁出现的轴特征(piovt features)。Duan等[36]认为目标分类器在目标域没有标签样本上的决策值应该与预先学习的分类器得到的决策值类似,基于此平滑性假设他们提出包含一个数据依赖正则项的域适应机器(domain adaptation machine,DAM)。Bruzzone和Marconcini[37]提出了域适应支持向量机(domain adaptation support vector machine,DASVM),该方法迭代式地学习目标分类器。在每一步迭代过程中,DASVM对目标域没有标签样本进行标注,同时移除那些对学习目标分类器帮助不大的有标签源域样本。
3.无监督迁移学习
在无监督迁移中,假定目标任务与源域任务不同但相关,这与归纳式迁移中的假设类似。无监督迁移与归纳式迁移的不同之处在于无监督迁移中源域和目标域中都没有标签的样本。下面给出无监督迁移的形式化定义。
定义1.6 无监督迁移是迁移学习的一种,其目标为通过使用从DS和TS迁移得来的知识来帮助学习目标域的决策函数fT(·)。其中TS≠TT,且训练过程中不论是源域或目标域都没有任何有标签样本。
直观上理解,聚类[38-39]以及降维方法[40-41]都可以被划分为机器学习中的经典的无监督学习方法。然而,至今为止少有工作研究无监督迁移学习。为了在迁移学习设置中聚类数据,Dai等[9]基于协同聚类[42]提出自学习聚类。Pan等[43]提出最大化均值差植入(maximum mean discrepancy embedding,MMDE)法,通过MMD准则[31]的最小二乘以习得降维核矩阵。他们使用习得的核矩阵获得隐含的低维空间以降低源域和目标域特征分布的不匹配性。然而,当训练数据的个数相当大时,MMDE方法的计算量也会相应增大很多。文献[17]进一步提出了一个更有效的算法名为迁移成分分析(transfer component analysis,TCA)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。