理论教育 大数据分析技术的发展趋势:前景及应用探究

大数据分析技术的发展趋势:前景及应用探究

时间:2023-06-14 理论教育 版权反馈
【摘要】:随着对大数据技术的不断发展和研究,其各个环节的技术呈现出新的发展趋势和挑战。当大数据技术、系统和应用聚集了大量价值时,必然成为被攻击的目标。对大数据的威胁、大数据的副作用、对大数据的极端心智都会阻碍和破坏大数据的发展。以Hadoop为代表的开源技术拉开了大数据技术的序幕,大数据应用的发展又促进了开源技术的进一步发展。

大数据分析技术的发展趋势:前景及应用探究

随着对大数据技术的不断发展和研究,其各个环节的技术呈现出新的发展趋势和挑战。2015年12月,中国计算机学会(CCF)大数据专家委员会发布了中国大数据技术与产业发展报告,并对中国大数据发展趋势进行了展望,主要包含以下6个方面。

(一)可视化推动大数据平民化

近几年大数据概念迅速深入人心,大众直接看到的大数据更多是以可视化的方式体现。可视化是通过把复杂的数据转化为可以交互的图形,帮助用户更好地理解分析数据对象,发现、洞察其内在规律。可视化实际上已经极大拉近了大数据和普通民众的距离,即使对IT技术不了解的普通民众和非技术专业的常规决策者也能够更好地理解大数据及其分析的效果和价值,从而可以从国计、民生两方面都充分发挥大数据的价值。建议在大数据相关的研究、开发和应用中,保持相应的比例用于可视化和可视分析。

(二)多学科融合与数据科学的兴起

大数据技术是多学科多技术领域的融合,数学统计学、计算机类技术、管理类等都有涉及,大数据应用更是与多领域产生交叉。这种多学科之间的交叉融合,呼唤并催生了专门的基础性学科——数据学科。基础性学科的夯实,将让学科的交叉融合更趋完美。在大数据领域,许多相关学科从表面上看,研究的方向大不相同,但是从数据的视角看,其实是相通的。随着社会的数字化程度逐步加深,越来越多的学科在数据层面趋于一致,可以采用相似的思想进行统一研究。从事大数据研究的人不仅包括计算机领域的科学家,也包括数学等方面的科学家。希望业界对于大数据的边界采取一个更宽泛、更包容的姿态,包容所谓的“小数据”,甚至将领域的边界泛化到“数据科学”所对应的整个数据领域和数据产业。建议共同支持“数据科学”的基础研究,并努力将基础研究的成果导入技术研究和应用的范畴中。

图2-2 基于大数据生态的关键技术

(三)大数据安全与隐私令人忧虑

由大数据带来的安全与隐私问题主要包括以下3个方面。第一,大数据所受到的威胁也就是常说的安全问题。当大数据技术、系统和应用聚集了大量价值时,必然成为被攻击的目标。第二,对大数据的过度滥用所带来的问题和副作用。比较典型的就是个人隐私泄露,还包括由大数据分析能力带来的商业秘密泄露和国家机密泄露。第三,心智和意识上的安全问题。对大数据的威胁、大数据的副作用、对大数据的极端心智都会阻碍和破坏大数据的发展。建议在大数据相关的研究和开发中,保持一个基础的比例用于相对应的安全研究,而让安全方面产生实质性进步的驱动力可能是对于大数据的攻击和滥用的负面研究。

(四)新热点融入大数据多样化处理模式(www.daowen.com)

大数据的处理模式更加多样化,Hadoop不再成为构建大数据平台的必然选择。在应用模式上,大数据处理模式持续丰富,批量处理、流式计算、交互式计算等技术面向不同的需求场景,将持续丰富和发展;在实现技术上,内存计算将继续成为提高大数据处理性能的主要手段,相对传统的硬盘处理方式,在性能上有了显著提升。特别是开源项目Spark,目前已经被大规模应用于实际业务环境中,并发展成为大数据领域最大的开源社区。Spark拥有流计算、交互查询、机器学习、图计算等多种计算框架,支持Java、Scala、Python、R等语言接口,使得数据使用效率大大提高,吸引了众多开发者和应用厂商的关注。值得说明的是,Spark系统可以基于Hadoop平台构建,也可以不依赖Hadoop平台独立运行。

很多新的技术热点持续地融入大数据的多样化模式中,形成一个更加多样、平衡的发展路径,也满足大数据的多样化需求。建议将大数据研究和开发有意识地链接和融入大数据技术生态中,或者利用技术生态的成果,或者回馈技术生态。

(五)深度分析推动大数据智能应用

在学习技术方面,深度分析会继续成为一个代表,推动整个大数据智能的应用。这里谈到的智能,尤其强调促进人的相关能力延伸,比如决策预测、精准推荐等。这些涉及人的思维、影响、理解的延展,都将成为大数据深度分析的关键应用方向。

相比于传统机器学习算法,深度学习提出了一种让计算机自动学习产生特征的方法,并将特征学习融入建立模型的过程中,从而减少了人为设计特征引发的不完备等缺陷。深度学习借助深层次神经网络模型,能够更加智能地提取数据不同层次的特征,对数据进行更加准确、有效地表达。而且训练样本数量越大,深度学习算法相对传统机器学习算法就越有优势。

目前,深度学习已经在容易积累训练样本数据的领域(如图像分类、语音识别、问答系统等)中获得了重大突破,并取得了成功的商业应用。预测随着越来越多的行业和领域逐步完善数据的采集和存储,深度学习的应用会更加广泛。由于大数据应用的复杂性,多种方法的融合将是一个持续的常态。建议保持对于智能技术发展的持续关注,在各自的分析领域(如在策划阶段、技术层面、实践环节等)尝试深度学习。

(六)开源、测评、大赛催生良性人才与技术生态

大数据是应用驱动、技术发力,技术与应用一样至关重要。决定技术的是人才及其技术生产方式。开源系统将成为大数据领域的主流技术和系统选择。以Hadoop为代表的开源技术拉开了大数据技术的序幕,大数据应用的发展又促进了开源技术的进一步发展。开源技术的发展降低了数据处理的成本,引领了大数据生态系统的蓬勃发展,同时也给传统数据库厂商带来了挑战。新的替代性技术,都是新技术生态对于旧技术生态的侵蚀、拓展和进化。

对数据处理的能力、性能等进行测试、评估、标杆比对的第三方形态出现,并逐步成为热点。相对公正的技术评价有利于优秀技术占领市场,驱动优秀技术的研发生态。各类创业创新大赛纷纷举办,为人才的培养和选拔提供了新模式。大数据技术生态是一个复杂环境。2016年,“开源”会一如既往占据主流,而测评和大赛将形成突破性发展。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈