在迁移学习的过程中,最直接的想法是如何更有效地重复使用源域中已有的带标签数据以辅助在目标域中训练出更好的模型。当源域和目标域的数据及其分布足够相似时,可以将源域与目标域进行合并。由此,迁移学习问题便转化为传统的机器学习问题。然而,现实场景的应用中,直接重用源域中的样本无法将知识很好地迁移到目标域中。尽管如此,源域中仍然有部分数据通过结合目标域中少量有标签数据被很好地重用起来。
在使用源域中的部分数据的过程中,首先要解决“迁移什么”的问题。如何选择有利于目标域模型学习的部分样本,同时避免使用那些无法提高甚至会损害学习效果的部分样本,是基于样本迁移学习需要解决的主要问题。对于源域中样本的重用,通常根据一定的权重生成规则来进行迁移学习。
图3.1为基于样本迁移学习的基本思想。源域中存在不同种类的图像,如马、大象、鱼、带有条纹的动物等,目标域中所包含的是斑马的图像,该目标集合了马和条纹的特征。在迁移时,为了最大限度地为目标域贡献知识,可以人为地提高源域中条纹动物和马的样本学习权重。
图3.1 基于样本迁移学习的基本思想(www.daowen.com)
基于样本的迁移学习过程中主要涉及两方面的问题。第一个问题是如何准确地挑选出与目标域样本相似的源域样本,这些样本有助于将模型从源域迁移到目标域。第二个问题是如何设计算法以有效地使用挑选出来的那些源域有标签样本来训练出更准确的目标域模型。
一个域D由特征空间X和关于这个特征空间的边缘概率分布P(X)两部分组成。给定域D,任务T也同样由两部分组成,标签空间Y和条件概率分布P(Y|X)。大部分基于样本的迁移学习方法都是基于源域和目标域的输入样本,具有相同组成的假设,即大部分样本的特征取值范围相同。另外,源域和目标域的输出标签也需要具有一致性。这种假设保证了知识可以通过样本在不同的数据域中进行传递。根据前文所述关于域和任务的定义,这种假设认为在基于样本的迁移学习过程中,数据域或者任务之间的差异是由于特征边缘分布的不同或者条件概率不同导致的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。