理论教育 挑战大数据技术:问题与应对方案

挑战大数据技术:问题与应对方案

时间:2023-06-17 理论教育 版权反馈
【摘要】:数据源头的采集受限将大大限制大数据的商业应用。所以大数据不同类型和格式规范化是建立大数据标准化体系的首要问题。这一环节基于大数据技术的发展但又涉及管理和执行等各方面因素,而人的因素成为制胜关键。此类人才的稀缺性将制约大数据的发展。首先,大数据因为目标大而在网络上更容易被发现;其次,大数据存在更敏感更有价值的数据,对潜在攻击者的吸引力更大。

挑战大数据技术:问题与应对方案

(1)数据采集

尽管大数据技术层面的应用可以无限广阔,但是由于受到数据采集的限制,能够用于商业应用、服务于人们的数据要远远小于理论上大数据能够采集和处理的数据。用于商业行为,制约大数据发展和应用的有三个环节。

第一是数据收集和提取的合法性、数据隐私的保护和数据隐私应用之间的权衡。任何企业或机构从人群中提取私人数据,用户都有知情权,将用户的隐私数据用于商业行为时,都需要得到用户的认可。未来很多大数据业务在最初发展阶段将会游走在灰色地带,当商业运作初具规模并开始对大批消费者和公司都产生影响之后,相关的法律法规以及市场规范才会被迫加速制订出来。数据源头的采集受限将大大限制大数据的商业应用。

第二是大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。大数据对基于其生态圈中的企业提出了更多的合作要求。如果没有对整体产业链的宏观把握,单个企业仅仅基于自己掌握的独立数据是无法了解产业链各个环节数据之间的关系,因此对消费者做出的判断和影响十分有限。在一些信息不对称比较明显的行业,如银行业以及保险业,企业之间数据共享的需求更为迫切。银行业和保险业通常都需要建立一个行业共享的数据库,让其成员能够了解到单个用户的信用记录,消除担保方和消费者之间的信息不对称,让交易进行得更为顺利。然而,在很多情况下,这些需要共享信息的企业之间竞争和合作的关系同时存在,企业在共享数据之前,需要权衡利弊,避免在共享数据的同时丧失了其竞争优势。此外,当很多商家合作起来,很容易形成卖家同盟而导致消费者利益受到损害,影响到竞争的公平性。大数据最具有想象力的发展方向是将不同行业的数据整合起来,提供全方位立体的数据绘图,力图从系统的角度了解并重塑用户需求。然而,交叉行业数据共享需要平衡太多企业的利益关系,如果没有中立的第三方机构出面,协调所有参与企业之间的关系、制订数据共享及应用的规则,将大大限制大数据的用武之地。权威第三方中立机构的缺乏将制约大数据发挥出其最大的潜力。

第三是多源数据采集的规范化问题。大数据时代的数据来源极其广泛,数据有不同的类型和格式,同时呈现爆发性增长的态势,这些对数据收集技术提出了更高的要求。数据收集需要从不同的数据源实时的或及时的收集不同类型的数据并发给存储系统或数据中间系统进行后续处理。所以大数据不同类型和格式规范化是建立大数据标准化体系的首要问题。

第四是大数据可以从数据分析的层面上揭示各个变量之间可能的关联,但是数据层面上的关联如何具象到行业实践中,如何制订可执行方案应用大数据的结论,这些问题要求执行者不但能够解读大数据,同时还需深谙行业发展各个要素之间的关联。这一环节基于大数据技术的发展但又涉及管理和执行等各方面因素,而人的因素成为制胜关键。从技术角度,执行人需要理解大数据技术,能够解读大数据分析的结论;从行业角度,执行人要非常了解行业各个生产环节的流程的关系、各要素之间的可能关联,并且将大数据得到的结论和行业的具体执行环节一一对应起来;从管理的角度,执行人需要制订出可执行的解决问题的方案,并且确保这一方案和管理流程没有冲突,在解决问题的同时,没有制造出新的问题。这些条件,不但要求执行人深谙技术,同时应当是一个卓越的管理者,有系统论的思维,能够从复杂系统的角度关联地看待大数据与行业的关系。此类人才的稀缺性将制约大数据的发展。

(2)数据存储

大数据发展面临的问题是来自不同地方、不同标准、数据量大、多种结构形式、实时性等多样化要求的数据信息。这些问题无疑增加了数据采集和整合的困难,故此应修改基于块和文件的存储系统的架构设计,以克服存在的问题。(www.daowen.com)

(3)数据分析

数据分析是大数据处理流程的核心,因为大数据的价值就产生于分析的过程,但是它同样带来了很大的挑战。首先,数据量大带来更大价值的同时也带来了更多的数据噪声,在进行数据清洗等预处理工作时必须更加谨慎,若清洗的粒度过细,很容易将有用的信息过滤掉,而清洗的粒度过粗,又无法达到理想的清洗效果,因此在质与量之间需要进行仔细地考量和权衡,同时对机器硬件和算法都是严峻的考验。其次,传统的数据仓库系统对处理时间的要求并不高,而在很多大数据应用场景中,不仅要考虑算法的准确性,还要考虑实时性的要求。

(4)数据显示

与数据分析相比,很多用户往往更关心数据结果的显示。传统的以文本形式输出结果或者直接在电脑终端上显示结果的方法在面对小数据量或许是很好的选择,但是对于形式复杂的海量数据是不可行的。这就需要引入可视化技术来可视化最终甚至是中间的计算结果,此外,还需要人机交互技术或者数据起源技术,使得用户在得到结果的同时更好地理解结果的由来。

(5)数据安全

数据的持续增长带来了数据的安全问题。首先,大数据因为目标大而在网络上更容易被发现;其次,大数据存在更敏感更有价值的数据,对潜在攻击者的吸引力更大。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈