跨行业数据挖掘标准流程CRISP-DM
Sklearn是python用于数据挖掘以及机器学习的利器,但是其功能庞杂,初学者很难理清脉络,快速学习其应用精髓。而CRISP-DM(跨行业数据挖掘标准流程)是一套受业界普遍认可、使用范围广的数据挖掘最佳实践方法论,有助于帮助理解Sklearn在数据挖掘/机器学习各个环节的功能实现。
下面来介绍一下什么是CRISP-DM。
第一阶段:商业理解(Business Understanding)
商业理解,即理解你所在领域的业务相关问题,并思考如何从数据挖掘的角度定义和完成目标的初步计划。
- 定义商业需求
- 评估现状
- 定义数据挖掘的目标
- 准备项目计划
第二阶段:数据理解(Data Understanding)
数据理解阶段的主要任务是将业务问题跟数据联系起来。数据可能已经准备就绪,也可能需要进行收集。
- 收集数据
- 描述数据
- 识别探索数据
第三阶段:数据准备(Data Preparation)
数据准备阶段包括从原始数据中构造最终数据集的所有活动,为建模阶段做准备。
这个阶段的任务有可能被执行多次,没有任何规定的顺序。任务包括对表、记录和属性的选择,以及对数据的转换和清洗。
- 数据选择
- 数据清理
- 数据构建(通过已有的数据生成新的有用的数据)
- 数据集成(合并)
- 数据格式化
第四阶段:建立模型(Modeling)
建立模型阶段的主要任务是建立数据与数据之间的关系,各种各样的建模方法都可能会被用到。如果建模方法对数据的形式有额外的要求,则有必要回到数据准备阶段重新调整数据。
- 选择建模技术
- 设计测试(训练集、测试集)
- 建立模型
- 评估模型
第五阶段:模型评估(Evaluation)
尽管在上阶段已经建立了高质量的模型,但在正式部署前,模型还要经受更加全面的评估,以确保模型设计结果符合商业理解目标,避免直接部署后高成本的模型修改。
如果发现模型与实际目标间的确存在差距,则需要折回第一阶段商业理解,继续迭代,直到模型设计趋于完善为止。
- 评价挖掘结果
- 流程复审
- 制定部署计划
第六阶段:结果部署(Deployment)
部署即是把挖掘结果以要求的方式呈现给用户。部署阶段可以简单到仅仅写一份报告,也可以复杂到在企业中进行可重复的数据挖掘程序。
- 部署步骤
- 最终报告
- 最终结果