用管道机制处理数据
指定一个程序的输出为另一个程序的输入,即将一个程序的标准输出与另一个程序的标准输入相连,这种机制就称为管道。管道机制在sklearn中对应的模块是sklearn.pipeline。
指定一个程序的输出为另一个程序的输入,即将一个程序的标准输出与另一个程序的标准输入相连,这种机制就称为管道。管道机制在sklearn中对应的模块是sklearn.pipeline。
特征工程在机器学习中具有重要意义,但是通过手动创造特征是一个缓慢且艰巨的过程。Python的特征工程库featuretools可以帮助我们简化这一过程。Featuretools是执行自动化特征工程的框架,有两类特征构造的操作:聚合(aggregation)和 转换(transform)。
很多数据问题中都会出现时间戳形式的特征,对其不同的处理操作有时会影响整个问题的建模效果,而本文我们就对其展开介绍所有可能的时间戳特征构建技巧。
特征工程之特征筛选。
特征工程之特征衍生。
特征工程之数据预处理。
特征工程是一项特殊的工程活动,其目的是最大限度地从原始数据中提取特征以供算法和模型使用。
在机器学习任务中,我们经常会遇到这种困扰:数据中存在类别标签不平衡的问题。
在机器学习预测任务中,我们需要对模型泛化误差进行评估,选择最优模型。如果我们把所有数据都用来训练模型的话,建立的模型自然是最契合这些数据的,测试表现也好。但换了其它数据集测试这个模型效果可能就没那么好了。为了防止过拟合,就需要将数据集分成训练集、验证集、测试集。
有时候需要一些特定分布的数据,这时候可以采用Sklearn提供的数据生成方法。