理论教育 数据域和任务定义及其在迁移学习中的应用

数据域和任务定义及其在迁移学习中的应用

时间:2023-07-01 理论教育 版权反馈
【摘要】:本文遵循文献[4]中对于“数据域”“任务”以及“迁移学习”的符号定义。例如,xi表示第i个样本或特征。例如,在文档分类问题中,Y是所有标签的集合,对于二分类任务,Y为true、false,而yi为“true”或“false”。综上,给出定义1.2:给定一个域D,任务T由一个标签空间Y和一个决策函数f(·)组成,即T={Y,f(·)}。

数据域和任务定义及其在迁移学习中的应用

本文遵循文献[4]中对于“数据域”“任务”以及“迁移学习”的符号定义。数据域(domain)D由一个特征空间(feature space)X和特征空间上的边界概率分布(marginal probability distribution)P(X)两部分组成,即D={X,P(X)},其中X={x1,…,xn}∈X。通俗来讲,域是由数据以及产生这样数据的概率分布(probability distribution)组成。具体来说,x表示数据域上的数据,即输入的每个样本,使用向量作为其表示形式。例如,xi表示第i个样本或特征。X为一个域的数据集合,换句话来说是一个样本集,使用矩阵(matrix)作为其表示形式。而X表示所有数据的特征空间。P(X)是所有数据的概率分布,不同域有不同的概率分布,这种概率分布是逻辑上的概念,很难给出具体形式。举例说明,在文档分类问题中,目标是根据词频把文档分为一个或几个类别。其中需要把每个词转换成二进制特征,X是特定的学习样本,xi对应于某些文档的第i个词向量,而X是所有词向量的空间,P(X)是生成这些词向量的概率分布。

综上,给出定义1.1:一个域D是由服从边缘分布为P(X)的特征空间X中的一组样本组成的集合。也就是D={X,P(X)},其中X∈X。

任务(task)T由一个标签空间(label space)Y和一个目标预测函数f(·)组成,即T={Y,f(·)}。其中f(·)通过大量训练数据(xi,yi),xi∈X,yi∈Y中习得。通俗来讲,学习的目标是得到一个客观预测函数f(·),其作用为能够正确对新样本xj进行分类,也就是为新样本xj找到它所对应的标签f(xj)。传统机器学习模型实际上输出的是样本的条件分布的预测,在这种情况下,f(xj)={P(yk|xj)|yk∈Y,k=1,…,|Y|}。例如,在文档分类问题中,Y是所有标签的集合,对于二分类任务,Y为true、false,而yi为“true”或“false”。我们的目标则是给文档找到正确的标签。(www.daowen.com)

综上,给出定义1.2:给定一个域D,任务T由一个标签空间Y和一个决策函数f(·)组成,即T={Y,f(·)}。决策函数f(·)可以由训练数据集(xi,yi)习得,其中,xi∈X,yi∈Y。该函数通过计算f(xi)预测任意测试样本xi的标签。从统计学的角度来看,f(xi)可以写为P(yi|xi)。

源域(source domain)和目标域(target domain):源域img,其中xSi∈XS表示数据样本,img表示数据样本相应的类标签。目标域DT={(xT1,yT1),img,其中xTi∈XT表示数据样本,img是相应的输出类标签。大多数情况下,0≤nT≪nS。通俗来讲,源域是有大量带标签数据的域,而目标域是最终需要赋予标签的对象。从源域上学习到的知识传递到目标域,便完成了迁移。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈