理论教育 数据流分类研究的最新趋势

数据流分类研究的最新趋势

时间:2023-06-17 理论教育 版权反馈
【摘要】:特别是在更有效地处理不平稳性数据流分类问题是目前的备受研究人员关注的热点问题之一。这种增量式的分类器设计是目前的概念漂移数据流分类问题的研究趋势。

数据流分类研究的最新趋势

4.5.3.1 不平稳数据流特征

分类是数据挖掘与机器学习研究领域的一个重要任务与课题,也是当前工商业上应用最多的数据挖掘技术之一,在信息检索、信息过滤等方面有着广泛的应用。特别是在更有效地处理不平稳性数据流分类问题是目前的备受研究人员关注的热点问题之一。

不平稳数据流是至少存在下列特征之一的数据流:

(1)存在概念漂移

(2)存在大量噪声数据;

(3)各类样本数量分布不平衡。

4.5.3.2 数据流分类研究趋势

(1)概念漂移数据流分类研究(www.daowen.com)

现实世界中很多学习问题遇到的一个难题是学习的目标概念往往依赖于隐藏背景,而并不是由预先给定的特征属性明确给出。如天气预报规则会随着不同地域与季节发生改变,客户的消费习惯也会随着时间推移受诸多因素的影响发生改变,垃圾广告发送者可能由于邮件接收人的知识改变、兴趣改变而从黑名单移到白名单等。通常引发这些改变的原因是隐藏的,事先不可预知的。隐藏背景的改变可能会引起目标概念的改变,从而产生概念漂移问题。

从机器学习的观点来看,数据流分类就是一个概念学习过程,它通过搜索训练数据集中蕴含的概念(分类规则),进而预测未来到达数据的概念(分类规则);从空间映射的观点来看,给定一个数据流S={…,xt,x(t+1),…}和一组类标识C={C1,C2,…,Cm},t时刻的训练集Tt,数据流分类问题是通过在训练集Tt上学习得到一个映射f:Tt→C,进而预测t+1时刻数据xt+1的类标识f(xt+1)。但是由于概念漂移的存在,映射关系f可能随着时间推移发生变化。若经过Δt时刻后,概念漂移发生,也就是在训练集Tt+Δt蕴含的映射g:Tt+Δt→C,有g≠f。如果此时仍采用映射f对t+Δt时刻后数据进行预测分类是不合适的。分类系统应该在训练集Tt+Δt上重新(增量)学习得到映射g:Tt+Δt→C,再用映射g对t+Δt时刻后的数据进行预测分类。而在(t,t+Δt)时段内,概念稳定,数据呈稳定分布,采用映射f对此时段内数据进行预测分类是适宜的。这种增量式的分类器设计是目前的概念漂移数据流分类问题的研究趋势。

(2)概念漂移及噪声共存数据流的分类研究

在存在概念漂移的数据流中往往也存在大量的噪声数据,而稳态假设下的集成分类器,其抗噪声能力较差。如果数据流中含有较多的噪声,将造成分类精度的急剧下降。而现实世界的数据流往往是存在大量噪声数据,一个性能良好、适用范围更广的集成分类器应对此有充分考虑,不仅要考虑概念漂移,还应考虑噪声数据引起的概念变化问题。有效解决概念漂移与噪声共存的不平衡数据流分类问题,也是目前的热点问题。

(3)类间不平衡数据流的分类研究

在机器学习领域,鉴于不平衡学习分类的重要现实意义,许多研究者对该问题进行了大量的研究。从通常意义上说,在任何一个数据(样本)数量分布不均衡的数据集上进行学习的问题都可称为不平衡学习问题。然而在机器学习与数据挖掘领域,类间不平衡是指严重的、甚至是极端的不平衡。这种类间的不平衡之比经常达到100∶1、1000∶1、10000∶1甚至更高。称不平衡数据中样本少的类为少数类,样本多的类为多数类。在二分类问题中,又称少数类为正类,多数类为负类。不平衡学习问题在许多实际的应用领域中都大量存在,例如金融领域的信用卡欺诈辨识、网络入侵检测、医疗诊断、信息检索、文本分类等。在这些应用中,少数类的识别率更为重要。如在信用卡欺诈辨识中,如果把信用好误认为欺诈者固然会给他带来精神上的负担,但如果把一个欺诈者误认为正常,就可能给商业机构带来严重的损失,而有时这种损失是不可接受的。传统的分类方法倾向于对多数类有较高的识别率,对于少数类的识别率却很低。如我们采用决策树、简单贝叶斯等传统分类方法对医疗诊断领域的乳腺癌图像数据集进行分类时,对负类具有100%的分类精度,但对正类却分类精度很低。这意味着很多乳腺癌的患者被误诊。在医疗行业,这样一个结果显然是不可接受的,癌症患者被误诊的代价远大于健康人被误诊的代价。因此传统上单一分类精度的评价标准对于不平衡学习问题是不合适的,不平衡数据的分类问题研究需要寻求新的分类方法和分类性能评价准则

目前许多研究者对静态数据集上的不平衡学习分类问题进行了大量的研究,当前研究主要集中于数据层面的处理、分类算法的改进与设计以及分类器性能评价标准设计等几个方面。在机器学习领域,不平衡学习分类的研究对象主要是静态不平衡数据集,对概念漂移数据流的不平衡学习分类研究成果不多,有待于进一步的研究。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈