1.大数据的关键问题
大数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且重视处理大数据的高效性和可用性。
(1)非结构化和半结构化数据处理
如何处理非结构化和半结构化数据是一项重要的研究课题。如果把通过数据挖掘提取粗糙知识的过程称为一次挖掘过程,那么将粗糙知识与被量化后的主观知识,包括具体的经验、常识、本能、情境知识和用户偏好相结合而产生智能知识的过程就叫作二次挖掘。从一次挖掘到二次挖掘是由量到质的飞跃。
由于大数据所具有的半结构化和非结构化特点,基于大数据的数据挖掘所产生的结构化的粗糙知识(潜在模式)也伴有一些新的特征。这些结构化的粗糙知识可以被主观知识加工处理并转化,生成半结构化和非结构化的智能知识。寻求智能知识反映了大数据研究的核心价值。
(2)大数据复杂性与系统建模
大数据复杂性、不确定性特征描述的方法及大数据的系统建模这一问题的突破是实现大数据知识发现的前提和关键。从长远角度来看,大数据的个体复杂性和随机性所带来的挑战将促使大数据数学结构的形成,从而导致大数据统一理论的完备。从近期来看,应该建立一种一般性的结构化数据和半结构化、非结构化数据之间的转化原则,以支持大数据的交叉工业应用。管理科学,尤其是基于最优化的理论将在发展大数据知识的一般性方法和规律性中发挥重要的作用。
现实世界中的大数据处理问题复杂多样,难以有一种单一的计算模式能涵盖所有不同的大数据计算需求。研究和实际应用中发现,Map Reduce主要适合于进行大数据离线批处理方式,不适应面向低延迟、具有复杂数据关系和复杂计算的大数据处理,Storm平台适合于在线流式大数据处理。
大数据的复杂形式导致许多与粗糙知识的度量和评估相关的研究问题。已知的最优化、数据包络分析、期望理论、管理科学中的效用理论可以被应用到研究如何将主观知识融入数据挖掘产生的粗糙知识的二次挖掘过程中,人机交互将起到至关重要的作用。
(3)大数据异构性与决策异构性影响知识发现
由于大数据本身的复杂性,致使传统的数据挖掘理论和技术已不适应大数据知识发现。在大数据环境下,管理决策面临着两个异构性问题,即数据异构性和决策异构性问题。决策结构的变化要求人们去探讨如何为支持更高层次的决策而去做二次挖掘。无论大数据带来了何种数据异构性,大数据中的粗糙知识仍可被看作一次挖掘的范畴。通过寻找二次挖掘产生的智能知识来作为数据异构性和决策异构性之间的连接桥梁。
寻找大数据的科学模式将带来对大数据研究的一般性方法的探究,如果能够找到将非结构化、半结构化数据转化成结构化数据的方法,已知的数据挖掘方法将成为大数据挖掘的工具。
2.大数据的关键技术(www.daowen.com)
针对上述的大数据关键问题,大数据的关键技术主要包括流处理、并行化、摘要索引和可视化。
(1)流处理
随着业务流程的复杂化,大数据趋势日益明显,流式数据处理技术已成为重要的处理技术。应用流式数据处理技术可以完成实时处理,能够处理随时发生的数据流的架构。
例如,计算一组数据的平均值,可以使用传统的方法实现。对于移动数据平均值的计算,不论是到达、增长还是一个又一个的单元,需要更高效的算法。但是想创建的是一个数据流统计集,那需要对此逐步添加或移除数据块,进行移动平均计算。
(2)并行化
小数据的情形类似于桌面环境,磁盘存储能力为1GB~10GB,中数据的数据量为10GB~1TB,大数据分布式地存储在多台机器上,包含1TB到多个PB的数据。如果在分布式数据环境中工作,并且需要在很短的时间内处理数据,这就需要分布式处理。
(3)摘要索引
摘要索引是一个对数据创建预计算摘要,以加速查询运行的过程。摘要索引的问题是必须为要执行的查询做好计划。数据增长飞速,对摘要索引的要求远不会停止,不论是基于长期还是短期考虑,必须对摘要索引的制定有一个确定的策略。
(4)可视化
数据可视化包括科学可视化和信息可视化。可视化工具是实现可视化的重要基础,可视化工具包括两大类。
①探索性可视化描述工具可以帮助决策者和分析师挖掘不同数据之间的联系,这是一种可视化的洞察力。类似的工具有Tableau、TIBCO和Qlik View等。
②叙事可视化工具可以独特的方式探索数据。例如,如果需要以可视化的方式在一个时间序列中按照地域查看一个企业的销售业绩,可视化格式将被预先创建。数据将按照地域逐月展示,并根据预定义的公式排序。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。