理论教育 概念漂移数据流分类的问题及优化建议

概念漂移数据流分类的问题及优化建议

时间:2023-06-17 理论教育 版权反馈
【摘要】:已有的各种概念漂移数据流学习算法在处理概念漂移数据流分类时存在以下五个方面的问题:冷启动。由于在一段时间里概念漂移的次数无法预知,学习系统只有在发生分类错误后才能得到调整,这导致了属于新概念的样本在刚开始出现时被分类错误。概念漂移检测难以准确实施。现有的各种概念漂移算法主要依靠最近获得的训练样本集。

概念漂移数据流分类的问题及优化建议

已有的各种概念漂移数据流学习算法在处理概念漂移数据流分类时存在以下五个方面的问题:

(1)冷启动。由于在一段时间里概念漂移的次数无法预知,学习系统只有在发生分类错误后才能得到调整,这导致了属于新概念的样本在刚开始出现时被分类错误。而且在只有部分样本具有类别标志的情形下,学习系统将很难知道是否产生了错误分类。如果将这样的分类器应用于工业流水线生产,将带来巨大的损失。

(2)只能实施单概念学习。目前主要使用滑动窗口、训练样本赋权、分类器自适应调整等方法实现对新概念的学习。这些方法只能跟踪学习一个概念,这导致了已学习知识难以保持。由于某些概念不定期重复出现,其产生的时刻和延续时间未知,导致现有的单概念学习模式无法适应。

(3)概念漂移检测难以准确实施。现有的各种概念漂移算法主要依靠最近获得的训练样本集。当最近获得的训练样本集中存在类别不平衡时会导致对含样本数量少的类别的忽视,当其中只有部分样本具有类别标志时已有概念漂移检测方法将无法实施。(www.daowen.com)

(4)最新采集样本与最近获得训练样本同分布的假设不正确。从某一时刻开始最新采集样本中可能包含有跟最近获得训练样本不同分布的新概念,甚至于既包含有属于新概念的样本又包含属于旧概念的样本。如果最新采集样本与最近获得训练样本总是不同分布,现有概念漂移学习算法将无法实施。

(5)理论基础研究缺乏。尽管概念漂移数据流研究已经取得丰硕的研究成果,然而到目前为止,概念漂移的定义、概念漂移的速度与幅度、概念漂移数据流分类器的错误率的界、概念的容量、概念漂移检测等都还没有得到严格的数学描述,已取得的一些理论上的结果也有待验证和深化。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈