非监督学习之降维算法(1)

一、降维的概念

降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。

1、降维的必要性

  • 多重共线性
    预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯
  • 高维空间本身具有稀疏性
    一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。
  • 过多的变量会妨碍查找规律的建立
  • 仅在变量层面上分析可能会忽略变量之间的潜在联系。
    例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。

2、降维的目的

减少变量的个数,缓解”维度灾难”
提供一个框架来解释结果,对数据进行可视化

3、降维算法分类

4、降维效果的评估

降维的好坏没有一个直接的标准。通常通过对数据进行降维,然后用降维后的数据进行学习,再根据学习的效果选择一个恰当的降维方式和一个合适的降维模型参数。