理论教育 大数据挖掘和分析的实现

大数据挖掘和分析的实现

时间:2023-06-15 理论教育 版权反馈
【摘要】:大数据分析的处理,机器学习、数据挖掘方面的算法是重要的理论基础。此外,Mahout为大数据的挖掘与个性化推荐提供了一个高效引擎——Taste,该引擎基于java实现,可扩展性强。它支持多种编程语言,包括java、Scala、Python和R语言,并且由于构建在Spark之上对大量数据进行挖掘处理时具有较高的运行效率。

大数据挖掘和分析的实现

分析沙盒依靠收集多数据源的数据和分析技术,使得应用数据库内嵌处理的高性能计算成为可能,这种方式使得“由分析人员拥有”,而非“由数据库管理员拥有”,使得开发和执行数据分析模型的周期大大加快,另外分析沙盒可以装载各种各样的数据,例如互联网Web数据、元数据和非结构化数据,不仅仅是企业数据仓库中的典型结构化数据。

大数据分析的处理,机器学习、数据挖掘方面的算法是重要的理论基础。而对于这些常用的算法,目前已有许多工具库进行封装,以便在实际中进行调用或进一步扩展,目前比较主流的工具库有:Mahout、MLlib、TensorFlow。

Mahout是Apache软件基金会旗下的一个开源项目提供了一些可扩展的机器学习领域经典算法的实现,主要有分类、聚类、推荐过滤、维数约减等,Mahout可通过Hadoop库有效地扩展到云模型中。此外,Mahout为大数据的挖掘与个性化推荐提供了一个高效引擎——Taste,该引擎基于java实现,可扩展性强。他对于一些推荐算法进行了,MapReduce编程模式的转化,从而可以利用Hadoop进行分布式大规模处理。Taste既实现了最基本的基于用户的和基于内容的推荐算法,同时提供了扩展接口,便于实现自定义的推荐算法。

MLlib是Spark平台中对常用机器学习算法实现的可扩展库。它支持多种编程语言,包括java、Scala、Python和R语言,并且由于构建在Spark之上对大量数据进行挖掘处理时具有较高的运行效率。MLlib支持多种机器学习算法,同时也包括相应的测试和数据生成器,目前包含的常见算法有:分类和回归、协同过滤、聚类、降维和特征抽取和转换、频繁模式挖掘、随机梯度下降等。(www.daowen.com)

TensorFlow最初是由Google Brain团队开发的深度学习框架和大多数深度学习框架一样,TensorFlow是一个用Pythhon API编写,然后通过C/C++引擎加速的框架。它的用途不止于深入学习,还有支持强化学习和其他机器学习算法的工具。主要应用于图像、语音、自然语言处理领域的学术研究,它暂时在工业界还没有得到广泛的应用。使用TensorFlow表示的计算可以在众多异构的系统上方便的移植,从移动设备如手机或者平板电脑到成千的GPU计算集群上都可以执行。

TensorFlow使用的是数据流图的计算方式,使用有向图的节点和边共同描述数学计算。图中的节点代表数学操作,也可以表示数据输入输出的端点,同时表示节点之间的关系,传递操作之间使用多维数组(即张量,tensor),tensor数据流图中流动。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈