理论教育 渐进域适应弱监督目标检测技术

渐进域适应弱监督目标检测技术

时间:2023-07-01 理论教育 版权反馈
【摘要】:图7.5为弱监督迁移学习目标检测任务设定,其中目标域图像标注了“狗”和“人”这两个目标,但并没有标注这些目标的边界框。图7.6渐进式两步骤[23]域迁移;伪标签图7.7渐进域适应弱监督目标检测流程[23]1.域迁移在跨域目标检测中,源域与目标域图像的区别主要在于底层特征,如颜色和纹理。

渐进域适应弱监督目标检测技术

7.3.1小节介绍的域适应目标检测属于无监督迁移学习目标检测方法,即源域有实例级标注,目标域是无标注的。Inoue等人[23]提出了一个新的任务,即弱监督迁移学习目标检测。在该任务中,源域是包含实例级标注(即目标边界框标注和类别标注)的图像数据集,目标域是只有图像级标注(即目标类别标注)的图像数据集。目标域的目标类别集合是源域目标类别集合的全集或子集。图7.5为弱监督迁移学习目标检测任务设定,其中目标域图像标注了“狗”和“人”这两个目标,但并没有标注这些目标的边界框。相比于无任何标注的目标域数据,具有图像级标注的目标域数据提供更多的监督信息,能有效提升目标检测的性能。相比于具有实例级标注的目标域数据,具有图像级标注的目标域数据标注代价更小。

图7.5 弱监督迁移学习目标检测任务设定[23]

针对弱监督迁移学习目标检测任务,Inoue等人[23]提出了渐进域适应弱监督目标检测方法,该方法的核心思想是首先利用具有实例级标注的源域数据训练目标检测器,然后利用目标域数据对该目标检测器进行微调,使之适应于目标域任务。由于目标域中并没有可用的实例级标注,Inoue等人提出两步渐进式的检测方法,对在源域上训练所得的目标检测器(下文简称源域检测器)进行微调。第一步采用域迁移方法如图7.6(a)所示,使用循环一致性生成对抗网络(cycle-consistent generative adversarial networks,CycleGAN)[24]学习源域图像到目标域图像的转换,从而生成既具有源域图像的实例级标注又具有目标域特性的图像,并用这些带有标注的生成图像对源域检测器微调。第二步采用伪标签(pseudo-labeling,PL)方法[图7.6(b)],生成目标域图像的实例级标注,进而用生成的实例级标注对源域检测器进一步微调。通过上述两步骤,将源域检测器逐渐适应于目标域,如图7.7所示。

图7.6 渐进式两步骤[23]

(a)域迁移;(b)伪标签

图7.7 渐进域适应弱监督目标检测流程[23]

1.域迁移

在跨域目标检测中,源域与目标域图像的区别主要在于底层特征,如颜色和纹理。域迁移通过将源域图像变换为与目标域图像相似的图像来克服这些差异,并利用生成的图像对源域检测器进行微调,使得源域检测器对底层特征的变化具有鲁棒性,从而提高源域检测器在目标域上的性能。

采用循环一致性生成对抗网络学习从源域图像到目标域图像的变换。具体做法是通过循环一致性约束,学习源域图像xs和目标域图像xt之间的映射函数,包括正映射G:xs→xt和逆映射F:xt→xs。然后利用这两个映射函数,将源域图像转换为与目标域相似的图像,并结合源域图像已有的实例级标注,对源域目标检测器进行微调。图7.8为循环一致性生成对抗网络模型,其中Ds用于区分源域图像和目标域图像通过映射F转换得到的图像,Dt用于区分目标域图像和源域图像通过映射G转换得到的图像。训练该网络的总损失包含两部分,一是促使生成图像分布与真实图像分布尽量匹配的对抗损失,二是确保映射函数G和F循环一致性的损失。这里的循环一致性是指将源域图像xs先经G变换,然后再经F变换,其结果跟原始xs一样,即xs→G(xs)→F(G(xs))≈xs。因为循环一致性约束,学习映射函数G和F时不再约束xs和xt必须成对出现。(www.daowen.com)

图7.8 循环一致性生成对抗网络[24]模型

训练映射函数G:xs→xt和对应域分类器Dt的对抗损失表示为

其中,G试图生成与目标域图像相似的图像;Dt旨在区分生成图像G(xs)与真实图像xt。训练映射函数F:xt→xs和对应域分类器Ds的对抗损失为LGAN(F,Ds),其形式与LGAN(G,Dt)类似。

循环一致性损失表示为

其中,img表示L1范数

2.伪标签

在跨域目标检测中,源域与目标域图像的区别还在于背景和目标类别的组合。通过对目标域图像进行实例级伪标签标注来对源域目标检测器进行微调,可以显著减少这种域差异对检测性能影响。

设xt∈RH×W×3表示目标域图像,其中H和W分别是图像的高度和宽度。C表示所有感兴趣的物体类别集合。z表示图像级标注,即图像xt中所包含物体的类别集合。实例级伪标注G由g=(b,c)组成,其中b∈R4是边界框,c∈C。先用源域目标检测器对xt进行目标检测,得到结果d=(p,b,c),其中c∈C,b∈R4表示边界框;p表示该目标边界框属于类别c的概率。然后,对于每个类别c∈z,选择置信度最高的检测结果d=(p,b,c),将其(b,c)加入实例级伪标注G中。最后,根据图像xt和其实例级伪标注G来调整源域目标检测器。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈