在考虑交通运输物流大数据问题时,需要考虑包括数字、字母、文字、图像、视频、声音等形式多样的交通运输物流方面的数据,还需要考虑数据的外联性。这就涉及了泛数据的概念,泛数据的作用是在进行数据分析处理时不只局限于单方面的数据,需要考虑更广泛的数据领域和更全面的数据特征,还需要考虑各种不同的数据源。在做交通运输物流大数据分析时,交通运输物流方面的数据只是一部分,我们还应该考虑物流、银行、政府、第三方支付、供应链、社交网络等各个方面的数据。情况不同,我们考虑泛数据的重点也是不同的,有时需要着重考虑某几个方面的数据,有时又需要考虑更多其他方面,也就是说泛数据不仅数据形式多样,数据来源和收集渠道也有多样性和可扩展性的特点。
随着泛数据概念的提出,泛数据生态圈应运而生。从生态学的角度看,种群是一定环境中同种生物的所有个体,生物群落是一定环境中所有种群的总和,生态圈是生物群落与环境构成的一个统一整体,在这个整体中,生物与环境之间相互影响、相互制约,并保持一个平衡状态。借助生态学的观点,交通运输物流泛数据生态圈涉及泛化数据的采集、存储、处理、分析、控制、可视化等整个生命期,并形成了数据链的闭环,由基础层、分析层、应用层构成,三大系统生态圈的构成如图3.1所示。
从基础层可以看出泛数据具有多源异构的特点。交通运输物流泛数据不仅包括了交通运输物流方面的数据,还包括行业数据、银行数据、第三方支付数据、政府数据、社交网络数据等。基础层的工作主要有以下几点。
1.数据采集
数据量巨大必然伴随着数据来源广泛,包括物流数据、银行数据、第三方支付数据、政府数据、社交网络数据等各个方面的大量数据。这些方面的数据采集都需要在基础层完成,在数据采集的过程中,为了保证数据采集的全面,需要做到多渠道采集,不仅需要收集基础数据,还需要通过实地调查、手机等移动客户端、网络收集等多种方法进行数据采集。
图3.1 泛数据生态圈
2.数据预处理(www.daowen.com)
对采集到的数据进行清理(包括填补遗漏、数据降噪、一致性检查等)、集成和变换(包括平滑、聚焦、数据泛化、规范化、数据标准化以及属性构造)、规约(包括数据聚集、维规约、数据压缩、数值规约、概念分层等)等处理,从而为数据的存储、分析和挖掘做好准备。
3.数据存储与管理
数据存储与管理包括面向结构化、非结构化、半结构化数据的存储与管理,还包括实时数据库、列式存储、大规模并行处理、分布式文件系统、交通运输物流公共信息平台泛化数据等的存储、管理与监控。
4.数据安全管理
数据安全渗透在各个环节中,包括数据处理平台、采集、预处理、存储与管理等是我们时刻需要关注的问题。
分析层包括了大数据处理平台和大数据分析方法、算法、模型资源库以及大数据分析产品库三部分。其中,大数据处理平台包含了大数据基础框架、并行计算模型与框架(包括MapReduce编程模型、流式数据并行处理框架、图运算)等;算法模型库由适用范围广泛的基础算法开发得来,基础算法主要有数据挖掘、指标统计、统计分析、能力分析、语义处理与分析、流处理等数据分析方法,以及数据呈现的可视化算法。
应用层就分为线上应用与线下应用两种情况。线上应用体现在交通运输物流业务应用信息系统上,包括电子政务、决策支持系统等,这将大数据的数据分析、挖掘、预测、推荐等用到极致。线下应用就体现在政府或者企业的决策、规划等核心业务场景上,政府或者企业对大量的数据信息进行分析,根据分析结果做出相应的决策,保证决策的正确性、可靠性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。