跨行业数据挖掘标准流程CRISP-DM

Sklearn是python用于数据挖掘以及机器学习的利器,但是其功能庞杂,初学者很难理清脉络,快速学习其应用精髓。而CRISP-DM(跨行业数据挖掘标准流程)是一套受业界普遍认可、使用范围广的数据挖掘最佳实践方法论,有助于帮助理解Sklearn在数据挖掘/机器学习各个环节的功能实现。
下面来介绍一下什么是CRISP-DM。

第一阶段:商业理解(Business Understanding)

商业理解,即理解你所在领域的业务相关问题,并思考如何从数据挖掘的角度定义和完成目标的初步计划。

  • 定义商业需求
  • 评估现状
  • 定义数据挖掘的目标
  • 准备项目计划

第二阶段:数据理解(Data Understanding)

数据理解阶段的主要任务是将业务问题跟数据联系起来。数据可能已经准备就绪,也可能需要进行收集。

  • 收集数据
  • 描述数据
  • 识别探索数据

第三阶段:数据准备(Data Preparation)

数据准备阶段包括从原始数据中构造最终数据集的所有活动,为建模阶段做准备。
这个阶段的任务有可能被执行多次,没有任何规定的顺序。任务包括对表、记录和属性的选择,以及对数据的转换和清洗。

  • 数据选择
  • 数据清理
  • 数据构建(通过已有的数据生成新的有用的数据)
  • 数据集成(合并)
  • 数据格式化

第四阶段:建立模型(Modeling)

建立模型阶段的主要任务是建立数据与数据之间的关系,各种各样的建模方法都可能会被用到。如果建模方法对数据的形式有额外的要求,则有必要回到数据准备阶段重新调整数据。

  • 选择建模技术
  • 设计测试(训练集、测试集)
  • 建立模型
  • 评估模型

第五阶段:模型评估(Evaluation)

尽管在上阶段已经建立了高质量的模型,但在正式部署前,模型还要经受更加全面的评估,以确保模型设计结果符合商业理解目标,避免直接部署后高成本的模型修改。
如果发现模型与实际目标间的确存在差距,则需要折回第一阶段商业理解,继续迭代,直到模型设计趋于完善为止。

  • 评价挖掘结果
  • 流程复审
  • 制定部署计划

第六阶段:结果部署(Deployment)

部署即是把挖掘结果以要求的方式呈现给用户。部署阶段可以简单到仅仅写一份报告,也可以复杂到在企业中进行可重复的数据挖掘程序。

  • 部署步骤
  • 最终报告
  • 最终结果