自20世纪70年代以来,语义分割因其重要的应用价值引起了研究人员的广泛关注,许多语义分割算法被提出,包括基于阈值[1]、基于区域[2]、基于边缘检测[3-4]的语义分割方法。因受到机器算力的限制,这些传统分割算法只能提取图像的纹理信息、颜色和形状等底层信息进行分割,且需要人工设计特征,导致分割准确度不够理想。随着计算机硬件设备的更新换代以及深度学习技术的快速发展,语义分割进入一个新的发展时期。通过深度神经网络学习图像低层、中层、高层特征,实现对图像端到端的像素级分类,从而大幅度提高了语义分割的精度和效率。
2015年,Long等人[5]提出了一种全卷积网络(fully convolutional networks,FCN)模型,实现对图像进行端到端的语义分割,如图8.2所示。以VGGNet[6]为例,该模型将VGGNet最后三层全连接层变换为等效的三层卷积层,使用在ImageNet[7]上预训练好的VGGNet模型参数作为初始化参数,然后对部分参数进行微调,大幅提升语义分割网络的训练效率。全卷积网络可以接受任意尺寸的输入图像,采用反卷积操作对最后一层卷积层的特征图进行上采样,使其恢复到输入图像尺寸,对每个像素进行类别预测的同时保留了输入图像的空间信息。通过将预测的分割结果与真实分割结果进行比较计算损失,对分割模型进行优化。
图8.2 全卷积网络模型结构[5]
全卷积网络是将深度神经网络应用于语义分割任务的开山之作,在当时达到了PASCAL VOC数据集上的最好分割结果,推动了语义分割任务的发展。但全卷积网络仍然有许多不足之处,如全卷积网络的下采样过程会造成特征图的感受变小,图像的部分空间信息会因此丢失。此外,全卷积网络还缺乏对图像上下文信息的利用。后来,研究者们对全卷积网络进行了改进,比如使用空洞卷积(atrous/dilated convolution,也称扩张卷积)[8-11]、特征融合[12-13]、注意力机制[14-15]等。下面将重点介绍基于空洞卷积的DeepLab系列模型[8-11]。
最有代表性的DeepLab模型是Chen等人提出的DeepLabV1模型[8],其结构如图8.3所示。该模型将深度卷积神经网络的部分卷积改变为空洞卷积,在不增加额外参数的同时,扩大了特征图的感受野,从而获得更多的特征信息。此外,它在卷积神经网络的最后一层添加了全连接条件随机场(fully connected conditional random field,FCCRF)[16]以增强捕获图像细节的能力,优化分割边界,获得更精确的分割结果。(www.daowen.com)
图8.3 DeepLabV1网络语义分割流程[8]
后来,Chen等人对DeepLabV1模型进行了进一步改进,提出了DeepLabV2模型[9],该模型将空洞卷积与空间金字塔池化模型相结合,通过包含带孔空间金字塔池化(atrous spatial pyramid pooling,ASPP)模块,使用多个不同采样率的空洞卷积来获取不同尺度的特征,并将不同尺度的特征融合以获取上下文信息。
2017年,Chen等人在DeepLabV1和DeepLabV2模型的基础上提出了DeepLabV3模型[10],在带孔空间金字塔池化模块中增加了批标准化(batch normalization)层。同时,通过级联多个不同采样率的空洞卷积,更有效地提取特征和建模全局上下文信息,增强模型捕获多尺度信息的能力。相比DeepLabV1模型和DeepLabV2模型,DeepLabV3模型去除了全连接条件随机场,但性能却进一步提高。针对DeepLabV3生成的预测图稀疏以及空洞卷积造成的边界信息丢失等问题,Chen等人又提出了DeepLabV3+模型[11]。它以DeepLabV3的编码网络为基础,建模全局上下文信息。同时引入解码网络模块,将底层特征与高层特征进一步融合来恢复目标的边界细节信息,提升了分割的准确度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。