开集域适应的形式化表示为:给定n个已标注样本构成源域,表示为,和m个未标注样本构成目标域,表示为。源域的条件概率分布p(ys|xs)与目标域的条件概率分布q(yt|xt)相同,但二者的边缘概率分布p(xs)与q(xt)不同。源域与目标域的类别空间满足Ys∩Yt≠Ø,且Ys∩Yt≠Ys≠Yt或Ys⊆Yt。开集域适应的目标就是利用Ds来训练分类器f:x→y,用于预测Dt中样本的标签yt∈Yt。当源域与目标域中的类别集合相同(即Ys=Yt)时,开集域适应问题又称为闭集域适应问题。而在不同类别集合关系下的域适应问题,除了开集域适应问题之外,还包括本书5.1节所介绍的部分域适应[4]和通用域适应[18]。对于部分域适应,其目标域类别集合是源域类别集合的子集,即Yt⊆Ys。对于通用域适应,其源域类别集合和目标域类别集合之间的关系无法确定。图5.6展示了上述域适应问题中源域类别集合与目标域类别集合之间的关系。
图5.6 常见域适应问题中的类别集合[13](www.daowen.com)
在开集域适应任务中,除了需要减少源域和目标域之间的数据分布差异,还需要考虑源域类别集合与目标域类别集合之间的差异。将源域和目标域共有的类别称为共享类别,仅源域存在而目标域没有的类别称为源域外部类别,仅目标域存在而源域没有的类别称为目标域外部类别。为了方便表示,用外部类别代表源域和目标域特有的类别,包括源域外部类别和目标域外部类别。源域与目标域中都存在属于外部类别的样本,如果直接将源域数据分布与目标域数据分布进行对齐,那么就会出现不同类别对齐的错误匹配,导致迁移性能下降,即负迁移[2]。因此,开集域适应的关键问题是如何确定共享类别与外部类别,然后对齐源域和目标域中属于共享类别的样本,从而在类别空间不一致的情况下减少源域和目标域的分布差异。解决这个关键问题的思路是将属于外部类别的样本从所有样本中分离出来,再对齐源域与目标域中属于共享类别的样本。针对分离属于外部类别的样本,目前主要有两种方法,一种是基于分类器方法,另一种是基于相似性度量方法。这两种方法的不同之处在于对类别空间划分的策略不同。基于分类器方法使用分类器的输出来划分类别空间,即使用源域样本训练分类器,进而根据分类器学得的在源域类别空间的类别概率分布来对目标域类别空间进行划分。基于相似性度量方法则使用目标域样本与源域类别间的相似性来划分类别空间。下面介绍几种开集域适应方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。