增量式自适应大数据挖掘算法

样本集合纯度度量方法的探讨

如何对样本集合的纯度进行量化度量,常见的方法有3种:Enreopy,Gini系数以及Classification error等。Classification error=1-max{pj}.这3个量都需要测量样本集合中每个类别样本所占的比例pj(对任意的j都存在(0≤pj≤1)。例如,假设样本集合中共含3种类别的样本,每种类别样本的比例分别为0.3,0.4,0.3,当样本集合中各个类别的数量发生了变化,其比例分别变为0.4,0.2,0.4,则此时Gini系数的变化量为而Classification error的变化量则为0。
理论教育 2023-06-17

增量式自适应Logistic白化权聚类算法的优化设计

对于具有概念漂移的数据流,数据流的特征目标变量的统计特性随着时间的推移,变化方式不可预测,模型的预测精度将降低。为随着模型的预测精度的降低,更新白化值以提高聚类精度。作者提出时效加权算法,确定白化值,建立增量式自适应Logistic白化权聚类算法。设聚类样本集S1,S2,…,ST,且每个集合的样本个数相同且为n。,ST为当下T个有效时间段数据流的聚类对象集,超过有效时间段以前的数据集将被遗弃。灰色聚类系数矩阵。
理论教育 2023-06-17

摩尔定律与大数据:优化商业运营与生命活动

现在人类产生的数据总量每两年翻一番,所有这些都说明一个事情:摩尔定律。换言之,每一美元所能买到的电脑性能,将每隔18~24个月翻一倍以上。蛋白质是我们生命活动的基础,也是我们生命活动主要的承载者。有了大数据这个概念,对于消费者行为的判断、产品销售量的预测、精确的营销范围以及存货的补给已经得到全面的改善与优化。
理论教育 2023-06-17

线性不可分的情况及其优化方法

对于非线性的情况,SVM的处理方法是选择一个核函数k〈·,·〉,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。在线性不可分的情况下,支持向量机通过某种事先选择的非线性映射(核函数)将输入变量映射到一个高维属性空间,在这个空间中构造最优分类超平面。举个例子来说,如图4.3所示的两类数据,分别分布为两个曲线的形状,这样的数据本身就是线性不可分的,此时咱们该如何把这两类数据分开。
理论教育 2023-06-17

TDA并行式挖掘算法优化策略

TDA并行算法的做法就是把连接、剪枝、计数分别放在不同的结点让他们同时进行,进而节约挖掘时间,提高效率。
理论教育 2023-06-17

标志与变量的区别与应用

2.1.2.3计量尺度统计标志有数量标志和品质标志两种,相应地,统计数据也有定量型数据和定性型数据两类,各有不同特点,所以在统计观测中,需要有不同的测定和计量尺度。
理论教育 2023-06-17

IAW加权关联支持度模型优化

由此定义项集X的时效加权支持度,即式中,Count是时间区间ti中包含项集X的交易数,Nv为加权后的总交易数,即式中,Ni是时间间隔ti中的交易数。定义项集X的功效加权支持度如式所示式中,sup为X的支持度,k是项集X的维数,即X中所包含项目的个数。
理论教育 2023-06-17

重构统计学:大数据时代的挑战

事实上,大数据改变的不只是人们的日常生活和工作模式、企业运作和经营模式,甚至还引起科学研究模式的根本性改变。一般意义上,大数据是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据分析离不开统计学,而传统的统计学也无法解决大数据分析的问题,所以数据统计分析的方法不得不随着大数据时代的到来而发生改变。
理论教育 2023-06-17

大数据挖掘的分类研究背景

分类问题是数据挖掘领域研究的历史最为悠长,也是研究的较为透彻的问题。在数据挖掘领域,分类可以看成是从一个数据集到一组预先定义的、非交叠的类别的映射过程。其中映射关系的生成以及映射关系的应用就是数据挖掘分类方法主要的研究内容。另外,概念漂移问题给机器学习带来了巨大的挑战。目前,包含了概念漂移数据流分类的研究动向是对概念漂移数据流分类中的类别不平衡学习、重复概念学习及半监督学习和主动学习等问题的研究。
理论教育 2023-06-17

SLIQ算法简介

SLIQ算法对C4.5决策树分类算法的实现方法进行了改进,在决策树的构造过程中采用了“预排序”和“广度优先策略”两种技术。为此,SLIQ算法采用了预排序技术。SLIQ算法由于采用了上述两种技术,使得该算法能够处理比C4.5大得多的训练集,在一定范围内具有良好的随记录个数和属性个数增长的可伸缩性。
理论教育 2023-06-17

聚类分析挖掘含义的方法与应用

因此,有时聚类分析也被称为非监督分类,相比之下,分类指的是监督分类,也就是使用一个由类标号已知的对象开发的模型,对新的、无标记的对象赋予一个类标号。不同的关于相似度的判断,就形成了不同的聚类算法。
理论教育 2023-06-17

应用领域:大数据挖掘的应用前景

目前,数据挖掘应用最集中的领域包括金融、医疗、零售、电商、电信和交通等,而且每个领域都有特定的应用问题和应用背景。这在很大程度上利于开展数据挖掘工作以及挖掘技术的应用。总之,数据挖掘技术对电信业的发展发挥着非常重要的作用,有利于运营商提高相关资源的利用率、更深入更充分地了解用户行为、获取更好的经济效益。
理论教育 2023-06-17

集中趋势的测量方法

比如定类尺度是四种数据类型中层次最低的数据,其集中趋势的测量方法也适用于定序、定距和定比数据,但定序、定距及定比数据集中趋势的测量方法却不能用于定类尺度。但若选择定序尺度最适宜的集中趋势的测量方法应首选中位数。
理论教育 2023-06-17

数据挖掘与数据分析的差异

数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。而数据挖掘,又使用了数据分析的手段,周而复始。总之,数据挖掘与数据分析的区别主要有以下5个方面。数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的且有价值的信息和知识的过程。
理论教育 2023-06-17

研究背景及其意义探析

关联规则挖掘是数据挖掘领域中一个非常重要的研究课题,是知识发现技术研究的重要内容。关联规则挖掘算法是关联规则挖掘研究的主要内容。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁超市的真实案例,并一直为商家所津津乐道。为回答该问题,可以对商店的顾客购物数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。
理论教育 2023-06-17

关联规则挖掘中的问题及其解决方案

尽管关联规则挖掘研究取得了许多成果,但同时还存在着许多有待于进一步研究的问题。挖掘算法的并行性随着数据库规模的不断扩大,出现并行算法。因此设计加权关联规则算法,可以充分体现算法的公平性,从而挖掘出更多用户关心的规则来。先前挖掘出来的关联规则,对最新的数据和情况并不一定适应,所以研究增量挖掘技术对用户掌握新的信息具有重要作用。
理论教育 2023-06-17
-已经加载完成-