【摘要】:对于具有概念漂移的数据流,数据流的特征目标变量的统计特性随着时间的推移,变化方式不可预测,模型的预测精度将降低。为随着模型的预测精度的降低,更新白化值以提高聚类精度。作者提出时效加权算法,确定白化值,建立增量式自适应Logistic白化权聚类算法。设聚类样本集S1,S2,…,ST,且每个集合的样本个数相同且为n。,ST为当下T个有效时间段数据流的聚类对象集,超过有效时间段以前的数据集将被遗弃。灰色聚类系数矩阵。
对于具有概念漂移的数据流,数据流的特征目标变量的统计特性随着时间的推移,变化方式不可预测,模型的预测精度将降低。为随着模型的预测精度的降低,更新白化值以提高聚类精度。作者提出时效加权算法,确定白化值,建立增量式自适应Logistic白化权聚类算法。
设聚类样本集S1,S2,…,ST,且每个集合的样本个数相同且为n。这里ST为当下时间段数据流的聚类对象集,ST-1为距离当下时间最近的有效时间段数据流的聚类对象集,以此类推,S1为距离当下时间段最远的有效时间段数据流的聚类对象集。S1,S2,…,ST为当下T个有效时间段数据流的聚类对象集,超过有效时间段以前的数据集将被遗弃。对每一个数据流的聚类对象集St(t=1,2,…,T),计算白化值
其中m为分类个数,p为属性个数,数据T为有效时间长度。且设
增量式自适应Logistic白化权聚类算法步骤如下
算法:增量式自适应Logistic白化权聚类算法。
输入:聚类对象样本数据S1,S2,…,ST,聚类参数m,b,n。
输出:带有集群标签的数据对象。
步骤:(www.daowen.com)
(1)数据清洗和标准化处理。
(2)差分法确定聚类白化值(k=1,2,…,m,j=1,2,…,p,t=1,2,…,T)且计算出λjk。
(3)标定聚类权。
(4)确定类白化函数。
(5)灰色聚类系数矩阵。
(6)给出带有集群标签的数据对象。
(7)停止。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
有关增量式自适应大数据挖掘算法的文章