理论教育 网络微调基本思想优化方案

网络微调基本思想优化方案

时间:2023-07-01 理论教育 版权反馈
【摘要】:参数微调是一种基于模型参数的知识转移的有效方法。简而言之,微调就是利用别人已经训练好的网络,针对自己的任务在进行训练调整。微调的核心思想是利用原有模型的参数信息,作为要训练的新的模型的初始化参数,这个新的模型可以和原来一样也可以增添几个层。目标数据集比较大且和源数据集相似,因为新数据集足够大,可以微调整个网络。本质上微调基本思路都是一样的,就是解锁少数卷积层继续对模型进行训练。

网络微调基本思想优化方案

随着深度学习成为一种流行的机器学习技术,并在许多场景下得到应用,研究人员开始赋予深度学习模型迁移学习能力。参数微调是一种基于模型参数的知识转移的有效方法。简而言之,微调就是利用别人已经训练好的网络,针对自己的任务在进行训练调整。不难理解,微调是迁移学习的一部分。微调的核心思想是利用原有模型的参数信息,作为要训练的新的模型的初始化参数,这个新的模型可以和原来一样也可以增添几个层(进行适当的调整)。

举例说明,在AlexNet网络的基础上,可以重新加上一个层再去训练网络,如在网络末端加入一个全连接层。在训练的过程中,先固定前面的层,让新加的全连接层的损失值降低到一个较低的值;再调低学习率,放开所有层一块去训练,这样可以收敛到一个较好的效果。

那么在什么情况下可以进行微调以及如何微调呢?根据目标数据集的情况可以分以下几种情况进行讨论。

(1)目标数据集比较小且和源数据集相似,因为新数据集比较小(比如<5 000),如果微调可能会过拟合;又因为新旧数据集类似,我们期望高层特征类似,可以使用预训练网络当作特征提取器,用提取的特征训练线性分类器

(2)目标数据集比较大且和源数据集相似(比如>10 000),因为新数据集足够大,可以微调整个网络。(www.daowen.com)

(3)目标数据集比较小且和源数据集不相似,新数据集比较小,最好不要微调。其和原数据集不类似,最好也不要使用高层特征。这时,可以使用前面的特征来训练分类器。

(4)目标数据集比较大且和源数据集不相似。因为新数据集足够大,可以重新训练,但是在实践中微调预训练模型还是有益的。新数据集足够大,可以微调整个网络。

需要注意的是,网络的前几层学到的是通用的特征,后面几层学到的是与类别相关的特征。所以可以冻结去降低成本。本质上微调基本思路都是一样的,就是解锁少数卷积层继续对模型进行训练。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈