从理论到实践：机器学习的五个步骤及企业数据标准化自动化

更新时间：2026-01-12 理论教育 版权反馈

【摘要】：图8总结了机器学习的五个通用步骤。图7企业数据标准化自动化从机器学习理论知识的角度来说，首先要分清楚聚类、分类、异常检测及回归的区别。模型验证需要将已有的历史数据分成训练数据和测试数据，用训练好的模型和测试数据来测试，根据指标来评估模型到底可不可以接受，是不是需要调整参数，甚至是不是要换一种机器学习的算法等。

机器学习该做什么？如何做？能解决什么问题？图8总结了机器学习的五个通用步骤。首先，基础是要有可靠的工业大数据，数据可以来自传感器或数据库/公有云的存储空间；然后进行特征提取和降维，对原始信号进行信号处理，提取出能够有代表意义的特征向量；最后是模型训练、验证和部署。特征向量提取了以后，到底哪些向量适用于后续的模型建模？如果有专家经验，例如，知道某个频率范围的幅值与轴承的故障相关，就可以直接选择该特征；如不具备这样的专业背景知识，机器学习中自动降维的算法也能够自动地筛选出与想要解决的问题最相关的特征向量。

图7　企业数据标准化自动化

从机器学习理论知识的角度来说，首先要分清楚聚类、分类、异常检测及回归的区别。聚类在机器学习里通常称为无监督学习，无监督学习意味着历史数据并没有标签，在工程实践中如果拿到一堆没有标签的历史数据，聚类的算法可以方便地做多维信号工作模式的分离，不同的工况通过聚类可以自动地把多维信号分离出来。分类算法通常称为有监督学习，意味着历史数据有标签，通过分类算法训练建立模型以后，模型能够返回一个概率值，判断新输入的信号与过去哪个类别最相近，这在工程界通常用作故障诊断。异常检测归根到底也是一种无监督学习，是多维信号的智能预警过程。通过历史数据建立一个基准模型，对于新输入的多维信号，能够返回一个与基准模型偏离的量化指标，这个指标可以作为健康指数的概念。

图8　NI平台助力机器学习在工业大数据应用的创新(https://www.daowen.com)

机器学习的本质是纯数据驱动，数据驱动的本质就是要根据历史上发生过的事情，判断新的现象跟过去哪个现象相似，所以历史数据的质量决定最终能达到的效果。如果有的设备非常昂贵，从未发生过故障，那么收集到的永远是健康的数据，这个时候就没有办法通过数据驱动的方式建立故障诊断的模型；只有数据积累得足够多，并且有故障数据，才能进一步演化提升到故障诊断模型。而寿命预测是预测性维护的终极目标，这不仅仅是数据驱动的问题，通常还要结合现场专家的经验和失效物理模型等来进行综合的判断。对于工业物联网中的预测性维护应用，数据驱动只有与多种方式相结合，才能达到最佳的效果。

模型验证需要将已有的历史数据分成训练数据和测试数据，用训练好的模型和测试数据来测试，根据指标来评估模型到底可不可以接受，是不是需要调整参数，甚至是不是要换一种机器学习的算法等。

关于机器学习的建议：机器学习并不是万能的，它只是解决工程问题的一种方式，现在更成功的方式是数据驱动与领域内专家经验相结合的方式；机器学习本身的算法求解过程是迭代的过程，整个方法论也是迭代的过程，需要有不停的尝试和算法求解过程，甚至可能要尝试采集不同的信号、不同的特征提取算法等，才能最终解决工程问题。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

从理论到实践：机器学习的五个步骤及企业数据标准化自动化

机器学习步骤及数据采集需求

从理论到实践的探索

设计管理：从理论到实践

项目管理：从理论到实践

机器学习的关键步骤简介

机器学习：从历史数据中挖掘规律与应用

整车质量评审：从理论到实践

有界机制的问题：从理论到实践

相关推荐