理论教育 强化学习的迁移研究与性能改善

强化学习的迁移研究与性能改善

时间:2023-07-01 理论教育 版权反馈
【摘要】:强化学习是一种根据环境反馈进行学习的技术。因此,研究者们针对强化学习中的迁移学习展开了研究,希望能够将知识从源任务迁移到目标任务以改善性能。关于强化学习中的迁移研究已经有很多,这些研究涉及许多不同的迁移问题。强化学习算法依赖于以与马尔可夫决策MDP的直接交互中收集的一组样本来为手头的任务构建解决方案。强化学习算法有大量参数定义了初始化和算法行为。

强化学习的迁移研究与性能改善

即便是深度学习,也存在很多局限性。如表达能力的限制。因为一个模型是一种现实的反映,它能够描述现实的能力越强,基于该模型得到的学习结果就越准确。机器学习通过参数来描述具体问题,然而参数数量是有限的,神经网络的深度也是有限的。另外网络对数据的需求量随着模型的增大而增加,但现实中高质量数据并不是十分充足。因此,对于数据量大小优先、数据复杂度不确定等问题,用固定不变的单一神经网络来描述数据的复杂度还远远不够。

同时,传统的深度学习缺乏反馈机制。目前深度学习对图像识别、语音识别等问题来说较有效,但是还存在不足,特别是有延迟反馈的问题,例如机器人的行动,AlphaGo下围棋不仅仅包含单次深度学习,还有强化学习的一部分,学习的过程中不断接收反馈,直到最后一步才能判断输赢。还有很多其他的学习任务都不一定是简单的单次学习就能完成的。

强化学习是一种根据环境反馈进行学习的技术。强化学习中的agent辨别自身所处的状态(state),按照某种策略决定动作(action),并根据环境提供的奖赏来调整策略,直至达到最优。马尔可夫决策(Markov decision process,MDP)是强化学习任务的标准描述,我们定义一个任务M,用四元组<S,A,T,R>表示,其中S是状态空间,A是动作空间,T是状态转移概率,R是奖赏函数。state-action空间S×A定义了任务的域,状态转移概率T和奖赏函数R定义了任务的目标。当强化学习的状态-动作空间S×A很大时,寻找最优策略的搜索过程非常耗时。此外,学习近似最优解所需的样本数量在实际问题中往往令人望而却步。无论是基于值的方法还是基于策略的方法,只要问题稍稍变动,之前的学习结果就会失效,而重新训练的代价巨大。因此,研究者们针对强化学习中的迁移学习展开了研究,希望能够将知识从源任务迁移到目标任务以改善性能。

关于强化学习中的迁移研究已经有很多,这些研究涉及许多不同的迁移问题。由于在处理这一复杂而具有挑战性的问题时采用的方法和思路大不相同,因此通常很难清晰地了解RL的当前最新技术。从主要的迁移设置、迁移的知识种类以及迁移目标这三个方面,对强化学习中的迁移进行分类[102],根据源任务数量和与目标域之间的差异,强化学习中的迁移设定有以下三种。

(1)从单一源任务到目标任务的固定域迁移(domain transfer,DT)。任务域由其状态-动作空间S×A决定,而任务的具体结构和目标由状态转移概率T和奖励函数R决定。R中迁移学习的早期研究大多任务域是固定的且只涉及两个任务:一个源任务和一个目标任务。

(2)跨多个源任务到目标任务的固定域迁移。在这种情况下,任务共享相同的域,迁移算法将以从一组源任务中收集到的知识作为输入,并使用它来改进在目标任务中的表现。

(3)源任务和目标任务不同域迁移。在该设置中,任务有不同的状态-动作空间S×A,无论是在数量上还是范围上。在这种情况下,大多数迁移方法都着重于如何定义源状态-动作变量和目标变量之间的映射,以便获得有效的知识迁移。

根据迁移知识的种类,强化迁移学习包含以下几种。(www.daowen.com)

(1)样本迁移(instance transfer)。强化学习算法依赖于以与马尔可夫决策MDP的直接交互中收集的一组样本来为手头的任务构建解决方案。这组样本可以用于在基于模型的方法中估计MDP模型,或者在无模型方法中构建值函数或策略的近似。最简单的迁移算法收集来自不同源任务的样本,并将其重用于目标任务的学习。

(2)特征迁移(feature transfer)。每种强化学习算法对于任务和解决方案都使用特定的表示,如神经网络,或一组近似最优值函数的基函数。在不同任务的学习过程中,迁移算法通常会改变任务和解的表示形式以进行目标任务的学习。

(3)参数迁移(parameter transfer)。强化学习算法有大量参数定义了初始化和算法行为。一些迁移方法根据源任务改变和调整算法参数。例如,如果某些状态-动作对中的动作值在所有源任务中都非常相似,则可以据此将目标任务的查询表(Q-table)初始化,从而加快学习过程。初始解决方案(策略或值函数)通常被用来在只有一个源任务的迁移设置中初始化算法。

根据迁移目标,强化迁移学习包含以下几种。

(1)学习速度的提升。学习算法的复杂性通常由实现目标性能所需的样本数量来衡量。在实践中,可以使用时间与阈值,面积比,有限样本分析等来衡量学习速度的提升。通过设置阈值,并测量单任务和迁移算法需要多少经验(如样本、批处理、迭代)来达到这个阈值,以判定迁移效果。面积比度量方法通过考虑迁移学习前后学习曲线下的区域进行度量。

(2)初始提升。通过源任务进行迁移,以agent在目标任务中的初始性能的提升来衡量迁移学习的效果。学习过程通常从假设空间中的随机或任意的假设开始。根据环境的定义,所有的任务都来自同一个分布Ω。

(3)渐进(asymptotic)提升。在大多数实际感兴趣的问题中,最优值函数或策略的完美近似几乎是很难实现的。使用函数逼近技术,近似值越精确,收敛性越好。近似的准确率严格依赖于用于表示解决方案的假设空间的结构。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈