大数据概论

互联网搜索:如何保护你的隐私?

例如,患有某些疾病,或有酗酒、赌博等恶习。图8-5的左边部分表示互联网上的三类用户信息被搜索引擎“爬取”,进入索引数据库中。这是进行基于搜索引擎的隐私挖掘攻击的必要启动条件。目前已有的隐私安全保护方法,通常只能解决某一类具体环境中的隐私攻击问题,不适合基于搜索引擎的隐私挖掘攻击涉及整个Web的具体情况。
理论教育 2023-06-14

数据集中与标准化:解决行业数据孤岛问题

在“数据集中与标准化”这一层级中,要实现的是数据的集中管理与相互融合。因而,这一阶段的工作并不只是“数据集中”和“数据标准化”两件事情,需要做的内容包括以下几点。在行业内,经常把每一个包含了大量数据、却又与其他系统无任何连通的数据系统称之为“数据孤岛”。在大多数实体行业中,一个企业内部也不同程度地存在数据孤岛问题。
理论教育 2023-06-14

主流的大数据存储架构

随着大数据的繁盛发展,分布式存储架构在近几年中得到了前所未有的关注。当前市场上比较主流的3种分布式存储文件系统分别有AFS、GFS、Lustre。(二)GFS被称为谷歌文件系统的GFS,是用以实现非结构化数据的主要技术和文件系统。另外,它对源数据独立存储、服务和网络失效的快速恢复、基于意图的分布式锁管理和系统可快速配置方面,表现也十分优异。
理论教育 2023-06-14

关联分析:支持度、可信度、提升度及其应用价值

(二)关联分析中的“三度”关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。(三)关联分析的价值关联分析是一种简单、实用的分析技术,目的是发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。可从数据中关联分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。
理论教育 2023-06-14

优化事务处理:大数据架构带来的新机遇

正是在事务处理过程中对于ACID特性的严格要求,使得关系型数据库的可扩展性极其有限。大数据处理与存储融合的新型架构同样为事务处理与优化带来新的机遇。具体而言,通过重新设计事务和日志管理算法,使得锁操作中的临界区能够直接在内存片上处理器或者专用加速器上执行,从而大大提高并发事务处理的效率。
理论教育 2023-06-14

决策树法及其应用领域

由于这种决策分支画成图形很像一棵树的枝干,故称决策树。(一)决策树的含义决策树一般都是自上而下生成的。决策树法在决策中有着广泛的应用。表6-1企业产品方案一览表根据给出的条件,运用决策树法选择一个最佳决策方案,解题方法如图6-10所示。(六)决策树的适用范围科学的决策是现代管理者的一项重要职责。针对上述问题,用决策树法来解决不失为一种好的选择。应用决策树决策方法必须具备以下条件。
理论教育 2023-06-14

数据发布与分析中的隐私保护策略

对隐私数据的发布和分析均有可能导致个人敏感信息的泄露,发布的数据要能够防止数据收集者与攻击者的攻击;而所设计的分析方法,则要在给出分析结果时防止泄露个人隐私信息。数据拥有者通过差分隐私发布算法来发布数据库的相关统计信息。此外,数据发布过程中,合理的隐私预算分配策略也是保证差分隐私成立的关键。
理论教育 2023-06-14

遗传算法——模拟生物进化的计算模型

遗传算法的这些性质已被广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。遗传算法是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型。其中,选择、交叉和变异构成了遗传算法的遗传操作;参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定五个要素组成了遗传算法的核心内容。,n)组成了遗传算法的初解群,也称为初始群体。遗传算法的具体执行过程如图6-13所示。
理论教育 2023-06-14

简介:分布式系统与Hadoop

横向扩展的分布式系统与纵向扩展大型单机服务器之间的比较,需要考虑现有I/O技术的性价比。前面的解释充分展示了Hadoop相对于单机系统的高效率。现在将Hadoop与其他分布式系统架构进行比较。Hadoop与普适计算不同。Hadoop强调将代码向数据迁移,而不是相反。从图2-4中可以看出,Hadoop的集群内部既包含数据又包含计算环境。程序代码向数据迁移的理念符合Hadoop面向数据密集型处理的设计目标。
理论教育 2023-06-14

如何通过消费行为数据优化销售?

在某超市的一个角落,X品牌的销售品摆放在某处。如果超市、金融公司与销售品有某种渠道来分享信息,如果类似图像、视频和音频资料可以系统分析,如果人的位置有更多的方式可以被监测到,那么摊开在CIO面前的就是一幅基于人消费行为的画卷,而描绘画卷的是一组组复杂的数据。在日常运营中,产生了销售、市场费用、物流、生产、财务等数据,这些数据都是通过工具定时抽取后展现。
理论教育 2023-06-14

大数据分析的原理与概念

(一)大数据分析的概念界定1.何谓大数据分析大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息以及对数据加以详细研究和概括总结的过程。在实际应用中,大数据分析可帮助人们做出判断,以便采取适当行动。所以,无论是“传统数据分析”,还是“大数据分析”,均需要将原始数据按照分析思路进行统计处理,得到概要性的统计结果供人分析。
理论教育 2023-06-14

大数据应用的未来趋势

随着大数据技术逐渐应用于各个行业,基于行业的大数据分析应用需求也日益增长。未来几年中针对特定行业和业务流程的分析应用将以预打包的形式出现,这将为大数据技术供应商打开新的市场。就像计算机和互联网一样,大数据是新一波技术革命。
理论教育 2023-06-14

网络分析常用软件及其特点

但值得注意的是,UCINET软件内不包含网络可视化的图形程序,需要将处理结果通过接口输出至NetDraw、Pajek、Mage等软件进行作图。Net Miner具有高级的图形特性,并提供丰富的网络描述方法和基于过程的分析方法,同时也支持例如描述性统计、相关和回归在内的标准统计过程。MultiNet包含四种统计技术:交叉表和卡方检验、ANOVA、相关和p*指数随机图模型。
理论教育 2023-06-14

解决大数据存储面临的问题

因此,大数据的存储与处理的速度或带宽是其性能上的重要指标。对于传统的数据库,其存储的数据都是结构化数据,格式规整。相反,大数据来源于日志、历史数据、用户行为记录等,少部分是结构化数据,而更多的是半结构化或者非结构化数据,这也正是传统数据库存储技术无法适应大数据存储的重要原因之一。
理论教育 2023-06-14

深入了解大数据的基本概念

本质上,大数据具有以下三方面的内涵,即大数据的“深度”、大数据的“广度”以及大数据的“密度”。面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的数据库技术侧重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。
理论教育 2023-06-14

大数据安全:整合现有工具与制订严格培训计划

为了确保大数据安全仓库位于安全事件生态系统的顶端,还必须整合现有安全工具和流程。当然,这些整合点应该平行于现有的链接,因为企业不能为了大数据的基础设施改组而放弃其安全分析功能。(四)制订严格的培训计划由于大数据在一个新的不同的环境运行,还需要为安全办公人员制订一个培训计划。
理论教育 2023-06-14
-已经加载完成-