1996年,SPSS、NCR和DaimlerChrysler等公司提出了数据挖掘跨行业标准过程CRISP-DM(Cross-Industry Standard Process for Data Mining)特别兴趣组,将数据挖掘过程定义为6个阶段。从图6.2可看出:
第一,数据挖掘是一个不断循环的过程,而并不是一次性完成的工作(如最外层的循环所示);
第二,数据挖掘过程中的步骤与步骤之间并不是严格的顺序关系,有必要时需要进行回溯(如内层箭头所示);
第三,数据挖掘的主要步骤有6个:业务理解、数据理解、数据准备、建模、评价和部署。
(1)业务理解(Business Understanding)。
数据挖掘工作不能脱离于业务,正确理解业务需求是数据挖掘的重要前提。信息分析师需要从业务视角理解数据挖掘项目的目标和要求,并将业务需求转换为数据挖掘任务。业务理解所涉及的主要工作有:确定业务目标、现状评估、确定数据挖掘目标和制定数据挖掘计划。
图6.2 CRISP-DM数据挖掘步骤
(2)数据理解(Data Understanding)。
在正确理解业务及需求的基础上,信息分析师需要在数据层次理解被挖掘的数据集,包括其格式、数量、模式、位置等。数据理解是选择恰当的数据挖掘算法的关键,可以避免数据算法的盲目选用。数据理解所涉及的主要工作有:收集原始数据、描述和探索数据、检验数据质量等。(www.daowen.com)
(3)数据准备(Data Preparation)。
数据准备的目的是对目标数据集进行清理、整理和归并等处理工作,以便采用具体数据挖掘技术进行信息分析。数据准备的质量将直接影响数据挖掘算法的运行效果和效率。数据准备工作包括:选择、清洗、构建、集成和格式化数据等。
(4)建模(Modeling)。
在数据准备的基础上,采用各种建模技术,建立分析模型,选择或设计具体的数据挖掘算法,确保数据挖掘方法与目标之间的一致性。建模阶段所涉及的主要工作有:选择建模技术、产生检验方案、建立数据挖掘模型和设计评价模型。
(5)评价与解释(Evaluation and Explanation)。
对数据挖掘结果和过程的评价和解释是数据挖掘的重要环节,缺少此项工作,基于数据挖掘的信息分析的质量难以保证,用户无法准确理解数据挖掘的结果。如果评价结果无法满足业务需求,那么应返回到之前的步骤甚至重新开始工作。评价与解释阶段的主要工作有:给出评价结果、评价数据挖掘过程等。
(6)部署(Deployment)。
模型建立并经验证通过后,可以继续应用于两个地方:一种是提供给分析人员做参考,由分析人员通过查看和分析模型后提出行动方案建议;另一种是把此模型部署到不同的数据集或业务环节中,根据应用反馈结果进行调整模型设计。部署阶段的主要工作有:发布部署计划、制定监测与维护计划、撰写数据挖掘最终报告和给出最终评价。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。