理论教育 主动学习策略及其在数据标注中的应用

主动学习策略及其在数据标注中的应用

时间:2023-07-01 理论教育 版权反馈
【摘要】:主动学习主要是用于帮助解决数据标注问题[18,62-63]。一些研究人员已经提出一些组合迁移学习和主动学习的算法[64-68]。主动学习是一个循环的过程,直至达到某一停止准则为止。图1.10主动学习的过程既然查询函数Q用于查询一个或一批最有用的样本,那么,什么样的样本是有用的呢?在各种主动学习方法中,查询函数的设计最常用的策略是不确定性准则和差异性准则。

主动学习策略及其在数据标注中的应用

主动学习主要是用于帮助解决数据标注问题[18,62-63]。主动学习是指这样一种学习方法:当有标签的数据比较稀少而没有标签的数据较为丰富时,考虑到对数据进行人工标注非常昂贵,学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注。在使用了迁移学习解决源域与目标域数据不匹配的问题后,研究人员能够从目标域中选择具有代表性的样本并标注它们以有效地训练分类器。一些研究人员已经提出一些组合迁移学习和主动学习的算法[64-68]。Rajan等[67]为迁移学习提出一种主动学习算法尽可能少地使用图像中的有标签样本以有效地更新现有分类器。Liao等[66]提出通过使用源域中的数据主动选择并标注目标域中没有标签样本,通过使用迁移学习方法TrAdaBoost[9]和标注支持向量机,Shi等[68]开发了一种能够选择重要目标样本的主动学习算法。

主动学习的模型如果记为A=(C,Q,S,L,U),其中C为机器模型,具体是一组或者一个分类器;L是用于训练的标记样本集;Q是查询函数,用于从未标记样本集U中查询信息量大的信息;S是督导者,可以为U中样本标注正确的标签。学习者通过少量初始(initial)带标签样本L开始学习,通过一定的查询函数Q选择出一个或一批最有用的样本,并向督导者询问标签,然后利用获得的新知识来训练分类器和进行下一轮查询。主动学习是一个循环的过程,直至达到某一停止准则为止。如图1.10所示。

图1.10 主动学习的过程

既然查询函数Q用于查询一个或一批最有用的样本,那么,什么样的样本是有用的呢?即查询函数查询的是什么样的样本呢?在各种主动学习方法中,查询函数的设计最常用的策略是不确定性(uncertainty)准则和差异性(diversity)准则。(www.daowen.com)

对于不确定性,可以借助信息熵的概念来进行理解。信息熵是衡量信息量的概念,也是衡量不确定性的概念。信息熵越大,就代表不确定性越大,包含的信息量也就越丰富。事实上,有些基于不确定性的主动学习查询函数就是使用了信息熵来设计的,比如熵值装袋查询(entropy query-by-bagging)。所以,不确定性策略就是要想方设法地找出不确定性高的样本,因为这些样本所包含的丰富信息量对我们训练模型来说就是有用的。

那么怎么来理解差异性呢?之前说到查询函数每次迭代中查询一个或者一批样本。我们希望所查询的样本提供的信息是全面的,各个样本能够提供非冗余信息,即样本之间具有一定的差异性。在每轮迭代抽取单个信息量最大的样本加入训练集的情况下,每一轮迭代中模型都被重新训练,以新获得的知识去参与对样本不确定性的评估可以有效地避免数据冗余。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈