生成对抗学习技术在动作识别中的应用

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：低层条件生成对抗网络学习目标域视频帧特征到视频特征的映射函数，建立起视频帧和视频之间的联系。在前面介绍的层次生成对抗学习中，将视频段特征映射到图像特征时，视频中的运动信息有所损失，这给模型的识别性能带来了影响。图6.12为对称生成对抗网络框架图。

1.层次生成对抗学习

就像本书第4章4.4节所介绍的那样，生成对抗网络近年来在迁移学习领域取得了很大的进展，其中利用样本域标签计算对抗性损失已经成为减少迁移学习中域鸿沟（domain gap）的重要策略。基于生成对抗学习的域适应方法也逐渐在动作识别中得到应用。Yu等人[70]提出层次生成对抗网络（hierarchical generative adversarial networks，HiGANs），实现了从图像到视频的异构域适应动作识别。在源域图像有标注、目标域视频没有标注的情况下，通过学习图像和视频之间的域不变特征表示，将识别模型从图像迁移到视频，最终完成视频域的动作分类。如图6.11所示，该方法包含两个模块：联合适应网络（在本书第4章4.3节已介绍）和层次条件生成对抗网络。联合适应网络负责学习源域图像和目标域视频帧之间的共同特征表示，称为图像-帧特征。层次条件生成对抗网络负责学习图像-帧特征和目标域视频特征之间的共同特征，由低层条件生成对抗网络和高层条件生成对抗网络组成。低层条件生成对抗网络学习目标域视频帧特征到视频特征的映射函数，建立起视频帧和视频之间的联系。高层条件生成对抗网络学习从视频特征到图像-帧特征的映射函数，建立起视频和图像之间的联系。视频帧作为桥梁，层次生成对抗网络可以将目标域视频特征和源域图像特征映射到图像-帧特征空间，在此特征空间中利用源域图像的监督信息训练目标域视频分类器。在训练层次生成对抗网络时，还引入相关性对齐（correlation alignment，CORAL）损失函数[71]以最小化生成特征与真实特征之间的二阶统计差异，进一步提高迁移效果。

图6.11　层次生成对抗网络[70]

1）图像-帧特征

设为源域图像集，其中表示第i张图像，表示的类别标签，ns为图像数量；为目标域无标注视频集，其中表示第j个视频，nt为视频数量。将每个目标域视频分割成长度相同的视频段，组成目标域视频段集，其中表示第k个视频段；nv为视频段数量。对于每个视频段，随机采样一帧组成目标域视频帧集。由于Ds和Df都属于图像集合，使用联合适应模型学习源域图像和目标域视频帧的共同特征，即图像-帧特征。在图像-帧特征空间，源域图像特征表示为，，目标域视频帧特征表示为，其中dh为图像-帧特征维度。

2）视频帧到视频段映射

在目标域，设为视频段特征表示，其中dv为视频段特征维度。设为视频帧特征表示，其中df为视频帧特征维度。视频帧特征和视频段特征属于异构特征，即dv≠df。学习从视频帧到视频段之间的映射函数，就能将视频帧特征F映射到视频段特征V，得到映射后的新特征。

3）视频到图像的映射

对于每个视频帧都有两种不同的特征表示，分别为在视频段特征空间的表示和在图像-帧特征空间的表示。基于这种对应关系，学习从视频段特征Vf到视频帧Hf的映射，其中是映射函数；是由Vf生成的图像-帧特征。由于Hf和Hs都由联合适应网络学得，同时Vf和V也来自相同的特征空间，所以可以被认为是从视频特征到图像特征的映射。通过，视频段特征V被映射到图像-帧特征空间，即，其中表示由目标域视频段V生成的图像-帧特征。平均所有视频段特征，得到视频的最终特征表示。

4）损失函数

设V～Pdata（V）和F～Pdata（F）分别表示视频段特征和视频帧特征的分布，采用生成对抗学习来训练视频帧到视频段的映射函数Gl，其损失函数为

其中，Dl为判别器，用来区分生成特征Gl（F）和真实特征V。Gl的目的是最小化损失函数，而Dl的目的是最大化损失函数，即表示为。同样采用生成对抗学习来训练视频到图像的映射函数Gh，并判别器Dl来区分生成特征Gh（Vf）和真实特征Hf。其优化问题为。

为了进一步提高模型性能，在训练层次生成对抗网络时，还引入了相关性对齐损失来最小化生成特征与真实特征的二阶统计差异。该损失计算简单，效果良好，并且可以很容易地集成到深度模型中。在训练Dl和Gl时，相关性对齐损失由真实特征V和生成特征Vf二阶统计量（协方差）之间的距离定义：

其中，表示Frobenius范数的平方矩阵；EV和分别为真实特征V和生成特征Vf的协方差矩阵。在训练Dh和Gh时，同样引入相关性对齐损失：

因此，总的损失函数为

其中，λ1、λ2、λ3和λ4分别表示控制对抗性损失和CORAL损失重要性的权重；Lreg（Dl，Gl）和Lreg（Dh，Gh）是正则项，防止参数学习过拟合。总体优化目标为

用于图像到视频迁移动作识别的层次生成对抗学习方法如算法6.2所示。

2.对称生成对抗学习

解决图像到视频迁移动作识别的核心思想是学习两个异构域之间具有良好可迁移性的共同特征表示。在前面介绍的层次生成对抗学习中，将视频段特征映射到图像特征时，视频中的运动信息有所损失，这给模型的识别性能带来了影响。在文献[72]中，Yu等人分别对源域图像特征和目标域视频特征进行特征增强，使增强后的特征同时包含图像中的静态表观信息和视频中的时序运动信息，且具有域不变特性。为此，他们提出了对称生成对抗网络（symmetric GANs，Sym-GANs）来构建源域图像和目标域视频特征间的双向映射。在该网络中，两个具有对称结构的生成对抗网络分别学习图像特征到视频特征的映射和视频特征到图像特征的映射。利用这两个映射，可以将源域图像特征用其在视频特征空间中的投影特征进行增强，将目标域的视频特征用其在图像特征空间中的投影特征进行增强，获得域不变的共同特征表示。为了提高该共同特征的判别能力，采用对称生成对抗网络和分类网络的联合优化策略，让源域图像的类别标签信息参与网络的训练。图6.12为对称生成对抗网络框架图。

设表示源域图像特征集合，为目标域无标注视频段特征集合，其中表示第i张图像的特征向量，表示第i个视频段的特征向量，dh≠dv。首先，学习源域图像特征和目标域视频段特征之间双向的映射，即GT：hs→v和GS：v→hs。由此，原始图像特征hs的增强特征表示为。类似地，原始视频段特征v的增强特征表示为。对每个视频段随机采样一帧，组成视频帧特征集合，其中表示第i个视频帧的特征向量。因此，图像特征到视频段特征的映射也可表示为GT：hf→v，视频段特征到图像特征的映射也可表示为GS：v→hf。

图6.12　对称生成对抗网络框架图[72]

1）对称生成对抗网络

对称生成对抗网络由两个具有对称结构的生成对抗网络组成，分别学习图像特征空间和视频段特征空间之间的双向映射。GT为图像特征到视频段特征的映射，设DT为与之相关的判别器。利用成对的hf和v作为训练数据来学习GT和DT，相应的对抗损失函数为

GT的目标是最小化对抗损失，而DT的目标是最大化对抗损失，两者相互博弈，其优化目标为

类似地，学习视频段特征到图像特征的映射函数GS和判别器DS的对抗损失函数为

其优化目标为

通常可以将上述对抗损失函数中的负对数似然目标替换为最小二乘损失以使训练更加稳定、效果更好，即

除了上述的生成对抗损失外，同样引入相关性对齐损失来最小化生成特征和真实特征的二阶统计差异。

2）分类网络

将源域图像特征hs通过GT映射到视频段特征空间得到GT（hs）。将目标域视频段特征v通过GS映射到图像特征空间得到GS（v）。为了进一步提高增强特征的判别能力，将GT（hs）和GS（v）分别通过GS和GT映射回图像特征空间和视频特征空间，生成新的特征GS（GT（hs））和GT（GS（v））。由于生成器GS和GT是与分类网络联合优化，所以GS（GT（hs））和GT（GS（v））比其对应的原始特征hs和v更具有判别性。相应地，源域图像的增强特征表示为h^s=[GS（GT（hs））；GT（hs）]，目标域视频段的增强特征表示为v^=[GS（v）；GT（GS（v））]。这些增强特征具有域不变性，因此在图像域训练的分类器可以很好地对目标域视频进行分类。同时，由于同时捕获静态信息和时序运动信息，增强特征将大大提高分类性能。建立由全连接层构造的分类网络Fc，其输入为增强特征表示，输出为类别概率分布。利用有标注的源域增强特征及其对应的类别标签，训练Fc的交叉熵损失定义为

其中，表示分类器Fc将输入预测成类别ys的概率。

3）训练算法(www.daowen.com)

综上所述，所有损失函数构成了总的损失函数：

其中，Lreg（GT，DT）、Lreg（GS，DS）和Lreg_f（Fc）为正则项，用以防止学习的参数过拟合。通过以下优化目标，可以求得图像和视频之间的双向映射（GT、DT、GS、DS）以及跨域分类器Fc：

本方法采用迭代优化的方式进行求解，首先固定GT、GS和Fc，训练DT和DS；然后固定DT和DS，训练GS和Fc。

3.数据集

为了验证层次生成对抗学习和对称生成对抗学习在迁移学习动作识别上的性能，采用两个标准视频数据集UCF101[73]和HMDB51[74]进行实验。当UCF101作为目标域时，源域图像由数据集Stanford40（S）[75]提供。当HMDB51作为目标域时，源域图像由数据集Standford40和HII[76]提供，即EADs。这两个迁移学习动作识别任务分别表示为S→U和E→H。

UCF101中的视频来自YouTube网站，包含超过13 000个视频，涵盖101个动作类别。该数据集[39]可大致分为五种动作类型，包括人和物体交互、身体运动、人与人的交互、演奏乐器和运动。大部分视频都拍摄自真实场景。由于受到摄像机运动、物体外观和姿态变化、背景嘈杂和光照变化等因素影响，视频数据呈现出较大的类内差异。

HMDB51中的视频来源多样，包括商业电影、YouTube和谷歌视频等公共数据库，包含7 000个手工标注的视频片段，涵盖51个动作类。这些动作类别可分为五种类型，从一般的身体动作（如拍手）到精细的面部动作（如微笑和大笑）。因为HMDB51在光照条件、场景和环境方面呈现出更强的多样性，所以它相比于UCF101包含更复杂的背景和更多的类内变化。

Stanford40中的图像收集自Google、Bing和Flickr网站，包含40类人们日常动作。每类动作约有180张到300张图像，这些图像在人体姿态、外观和背景方面都具有很大的差异性。

EADs由Stanford40和HII组成。HII包含10类人与人之间的交互动作，共计1 972张图像，每一个类别至少包含150张图像。

对于S→U任务，选取UCF101和Stanford40共同的12个动作类别。Stanford40中的图像作为有标注源域。UCF101中的视频作为无标注目标域，其训练集和测试集分别用作目标域训练和测试且不采用任何标注信息。对于E→H任务，选取HMDB51和EDAs共同的13个动作类别。EDAs中的图像作为有标注源域。HMDB51中的视频作为无标注目标域，被划分为测试集和训练集两部分。

4.性能分析

1）特征提取

将目标域每个视频都划分成多个长度为16帧的无重叠片段，并将在Sports-1M数据集[39]上预训练的三维卷积神经网络[42]的第五池化层输出向量作为每个视频段的特征向量。对每个视频段随机抽取一帧组成视频帧域。对于图像和视频帧，采用联合适应网络学习其图像-帧共同特征，将联合适应网络第五池化层的输出作为图像-帧特征向量。

2）实现细节

对于层次生成对抗网络中的两个生成器Gl和Gh，均采用四层全连接网络，其网络结构维度分别为2048→1024→1024→1024→512和512→1024→1024→2048→2048，用ReLU函数作为激活函数。对于层次生成对抗网络中的两个生成器Dl和Dh，均采用三层全连接网络，其网络结构维度为2560→1280→640→1，并在判别器的前两层使用ReLU函数进行激活。由于生成对抗损失和相关性对齐损失数量级不同，而且低层条件生成对抗网络和高层条件生成对抗网络结构相似，所以式（6.26）和式（6.27）中的参数设置为λ2=λ4=100，λ1=λ3=1。使用Adam优化方法[73]训练网络，批处理大小设置为64。低层条件生成对抗网络的学习率为0.000 02，高层条件生成对抗网络的学习率为0.000 008。

对于对称生成对抗网络中的两个生成器GT和GS，均采用三层全连接网络，其网络结构维度分别为2048→1024→1024→512和512→1024→2048→2048，用ReLU函数作为激活函数。对于两个判别器DS和DT，均采用三层全连接网络，其网络结构维度为2560→640→1，并在判别器的前两层使用ReLU函数进行激活。分类网络F采用四层全连网络，其网络结构维度为2560→1280→640→256→类别数。除最后一层，其余层均由ReLU函数激活。使用Adam算法训练所有网络，批处理大小设置为128，学习率设置为0.000 08。由于Sym-GANs中的生成对抗损失和CORAL损失有不同的数量级，所以式（6.37）中的参数设置为λ1=λ2=100。

3）对比方法

首先与同构域适应方法进行对比，包括非深度方法和深度方法。在非深度方法中，源域图像由ResNet模型的第五池化层输出向量表示，目标域视频由所有帧的ResNet模型第五池化层输出向量的均值表示。在深度方法中，源域图像和目标域视频帧作为网络输入进行训练，测试时根据平均视频中所有帧的输出概率（来自最后一个全连层）预测类别标签。同构域适应方法包括：SVM[78]、GFK[66]、JDA[79]、ARTL[80]、TJM[81]、TKL[82]、CORAL[83]、LRSR[84]、BDA[85]、ATI[86]、MEDA[87]、ResNet[88]、DAN[89]、RTN[90]、DANN[91]、JAN[92]、DAL[93]、WDGRL[94]。然后与几种异构域适应非深度方法进行对比。目标域视频由C3D网络的第五池化层输出向量表示。异构域适应方法包括：KCCA[95]、HEMAP[96]、DAMA[97]、HFA[98]、CDLS[99]。

4）结果分析

表6.4展示了与同构域适应方法的比较结果。表中的上半部分是非深度方法的结果，中间部分是深度方法的结果，最后两行为层次生成对抗网络（HiGANs）和对称生成对抗网络（Sym-GANs）的结果。从表6.4中可以看出，与只提取静态帧特征用于视频表示的同构预适应方法相比，层次生成对抗网络和对称生成对抗网络取得了更好的分类结果。在S→U任务中，几乎所有非深度方法和深度方法的性能都优于无迁移学习的SVM和ResNet方法，充分验证迁移源域图像知识能够提高目标域视频分类的准确率。而在E→H任务中，接近一半非深度方法的正确率明显低于SVM，这是由于源域图像与目标域视频帧之间存在较大差异，产生了负迁移。另外，深度方法的性能优于ResNet，这也验证了深度神经网络在解决负迁移问题上的有效性。

表6.4　与同构域适应方法分类准确率对比（目标视频域无标注数据）[70，72]　单位：％

续表

表6.5展示了与异构域适应方法的比较结果。表中的第一行表示只利用目标域视频训练分类模型的准确率。显然，层次生成对抗学习方法和对称生成对抗学习方法均优于所有的对比方法。值得注意的是，HFA（Heterogeneous Feature Augmentation）也采用了特征增强的方式学习域不变特征。与之相比，对称生成对抗网络取得了更高的分类准确率。

表6.5　与异构域适应方法分类准确率对比（目标视频域有部分标注数据）[70，72]

表6.6对比了层次生成对抗学习中对抗损失和相关性对齐损失对网络训练的影响，其中“w/o Adversarial Loss”表示去掉对抗损失，“w/o CORAL Loss”表示去掉相关性对齐损失。从中可以看出，去掉对抗损失和去掉相关性对齐损失都会降低分类性能。

表6.6　层次生成对抗学习中不同损失函数的分类准确率对比[70]　单位：％

为验证对称结构在对称生成对抗网络中的有效性，设计了两个单生成对抗网络进行对比，即只学习从图像特征到视频段特征的映射（GT）和只学习从视频段特征到图像特征的映射（GS）。实验结果如表6.7所示，其中“Only GT”表示只有GT，“Only Gs”表示只有Gs。由表6.7可知，GT和GS是互补的，在它们的共同作用下，对称生成对抗网络才能发挥最大优势。

表6.7　对称生成对抗网络与单生成对抗网络的分类准确率对比（目标视频域无标注数据）[72]

表6.8比较了对称生成对抗网络和另一种称为“对称生成对抗网络-原始特征（Sym-GANs-origin）”的方法的结果。在Sym-GANs-origin方法中，源域和目标域的增强特征分别是由和表示。在对称生成对抗网络中，源域和目标的增强特征分别由和表示。很显然，生成特征GS（GT（hs））和GT（GS（v））比各自对应的原始特征hs和v更具判别性。