数据管理是发挥工业大数据价值的前提,也是管理分布式设备所必然面临的挑战。以一个电机为例,假如部署了一个加速度计和电流、电压传感器,每10分钟采集一组高速信号,一天采集的原始数据规模可以达到数十GB;对于整个电厂,所有设备产生的数据每天高达TB量级。海量的工业大数据不仅给存储带来挑战,还给大数据分析的工程师带来了难题。有报告显示,现在很多的企业都不缺数据,但只有22%的企业有结构化的大数据,这意味着信息保存完整,能够用于后续的分析。78%的企业数据并不是结构化后的数据,无法被很好地利用起来。即使22%的结构化数据可以用于分析,但是现在的企业中真正能够把工业大数据利用起来的比例也仅仅是在5%,主要是因为工程师花了太多的时间在收集数据或者在其他的低效、重复性劳动上,没有事先规划好高效的、自动化的大数据管理(图6)。应该怎么样做?我们了解一下工业界测试测量行业的文件格式,包括文本格式、JSON格式、二进制格式等(表2)。
图6 数据记录与分析
表2 存储数据正确文件格式(www.daowen.com)
TDMS文件,即technical data management streaming的结构化二进制文件,这种文件有三层结构,包括文件、组和通道。每一级结构属性都可以自定义,把元数据添加到原始数据当中,让数据结构化,方便后续的快速索引、处理等。TDMS和常见的文件格式对比见表2。由于是二进制文件,它的磁盘空间比其他格式文件更加高效。当然,如果针对网页应用,JSON文件仍是主流,但是TDMS丰富的生态圈也能很方便地找到插件,以更友好的方式连接到网页应用中。TDMS是业界推荐的工程数据格式。选定了标准的、可结构化的文件格式后,接下来如何真正做到企业数据的标准化、自动化?不管是实验室还是产线,都会有数十个供应商,每个供应商的文件格式都是属于自己的格式,如果不同供应商产生的工程数据能够自动转成TDMS,并把事先定义好属于企业自己标准化层级结构的元数据自动写到TDMS文件的三层结构属性之中,同时自动建立索引,让整个企业的工程师能通过服务器-浏览器架构的方式快速地搜索出不同分布式系统、不同供应商产生的数据,这个才是真正的企业级工业大数据管理自动化,这也是NI现在帮助非常多的企业在做的事情(图7)。
关于数据管理的建议:第一,要选用正确的文件格式;第二,数据标准化,元数据标准化是非常重要的,这是工业大数据后续能够发挥价值的基础。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。