数据分析与建模都是从数据中获得知识:一个是根据原因找结果,一个是根据结果找原因。工业大数据有个标准流程CRISP-DM(图2),但用在实际的工业分析上,效率往往非常低下。
工业对象,尤其是工厂级的对象,是一个高度复杂的大系统,深入掌握工业过程的原理需要花费很长时间。此后,几乎每一步的分析工作完成之后都可能出现反复。验证评估之后可能出现大的反复,导致功亏一篑、从头再来。无效反复多的原因之一是问题分解错误或者定义不当。从某种意义上说,数据分析是一种探索活动,探索不可能完全避免无效活动,但是需要减少无效活动。
与其他行业大数据分析比,工业大数据分析建模还有两个难点:
图2 跨行业数据挖掘标准流程CRISP-DM
首先是目标要求高。分析结果必须在某些方面超越人的认知,否则就是无用的知识。而工业人对工业本身的理解本来就是比较高的。分析结果必须正确可靠,否则会误导后续的工作。
其次是数据分析条件差。问题复杂且影响因素往往数以千计,数据质量差,数据条件不理想是一种常态。
工业过程一般都有机理模型,缺少的是必要的参数。为此,只能借助于可以得到的数据进行建模。所谓的建模条件,就是能够用哪些数据。在一定的场景下,选用的这些数据与机理模型中的参数有一定的相关性,但是相关性的大小、适用的场景都是相对的。因此,数据模型的精度不可能无限高。
另外,在理想的机理模型中,模型正确性、精度、有效范围三个特点本质上是一致的,可以通过一个指标来保证另外的指标。但是,数据建模的时候,这三者的关系决定于选用的数据,往往是不一致的,因为有些关联关系只在特定条件下适用。
传统的数理统计是非常好的办法,有坚实的理论基础,但是这个方法的应用是有条件的,而现实中的数据分析往往不能满足这些条件。我们的办法是:如果条件不满足,就要通过数据的选取来创造条件。(www.daowen.com)
进入大数据时代,我们还可能具备过去不具备的条件。
几十年前人们就提出了近邻算法、基于案例推理等方法。这些方法很好,但数据条件不理想时就难以取得好的结果。在大数据背景下,可以使用这些简单的办法解决复杂的问题。比如,在大数据背景下可以收集到足够多的案例,只要案例足够多,就可以找到能借鉴的先例。
大数据时代,有利于设备生产企业向服务转型。
例如,在设备故障诊断上存在优势。传统的设备诊断往往针对一台设备,因为许多设备出现故障的概率很低、周期很长。如果通过一次故障掌握知识、在第二次故障中应用,那么第二次出现故障时,机器可能已经报废,知识也就没用了。
如今的情况发生了极大的变化。互联网可以连着成千上万台同类的机器。某个设备出现的问题、积累的数据和知识,可以用在其他的设备上,某台设备出现的问题很可能在其他设备上也出现过,这就是大数据对于设备诊断的优势。
按照这个逻辑,工业大数据还可以用于生产过程的优化。遇到一个技术问题,可以从数据库中去寻找历史上出现的成功案例。当然,世界上没有两片完全一样的叶子,遇到的问题也有所差异。遇到这种情况时,可以建立另外一个微调模型(图3),以便于在学习经验的同时也可以对差异进行校正。
图3 模型微调
这时的控制策略就像打高尔夫球:第一杆先打到近处,第二杆、第三杆再进行微调。第一杆是大数据的方法,根据经验找到一个近似解,解决非线性复杂问题;后面往往是普通的线性建模,解决校正出的差异。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。