随着移动互联时代的到来,特别是虚拟现实、人工智能、物联网和车联网等科学技术的不断发展,使得当今世界对信息技术的依赖程度日渐加深,每天都会产生和存储海量的数据。数据来源多种多样,除了生产过程中的自动检测系统、传感器和科学仪器会产生大量的数据外,日常生活中的网上购物、预订车票、发微信、写微博等,也都会产生大量的数据,处理这些海量数据,并从中提取出有价值的信息的过程就是数据分析。
数据分析是指用适当的统计分析方法对收集来的大量原始数据进行分析,为提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的目的是提取不易推断的信息并加以分析,一旦理解了这些信息,就能够对产生数据的系统的运行机制进行研究,从而对系统可能的响应和演变做出预测。
数据分析最初用作数据保护,现已发展成为数据建模的方法论。模型实际上是指将所研究的系统转化成数学形式,一旦建立了数学或逻辑模型,就能对系统的响应做出不同精度的预测。而模型的预测能力不仅取决于建模的质量,还取决于选择出供分析用的优质数据集的能力。因此,数据采集、数据提取和数据准备等预处理工作也属于数据分析的范畴,它们对最终结果有着重要的影响。(www.daowen.com)
在数据分析中,理解数据的最好方法莫过于将其转变为可视化图形,从而传达出数字中蕴含(有时是隐藏)的信息。因此,数据分析可看成是模型和图形化的展示。根据模型可以预测所研究系统的响应,用已知输出结果的一个数据集对模型进行测试。这些数据不是用来生成模型的,而是用来检验系统能否重现实际观察到的输出,从而掌握模型的误差,了解其有效性和局限性。然后,将新模型与原来模型进行比较,如果新模型胜出,即可进行数据分析的最后一步部署。部署阶段需要根据模型给出预测结果,实现相应的决策,同时还要防范模型预测到的潜在风险。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。