监督学习之线性模型(2)-- 线性回归
线性回归主要用来解决连续值预测的问题,就是根据给出的数据学习出一个线性模型,能使生成的函数值能更贴近目标值。
线性回归主要用来解决连续值预测的问题,就是根据给出的数据学习出一个线性模型,能使生成的函数值能更贴近目标值。
线性模型形式简单、易于建模,但却蕴涵着机器学习中一些重要的基本思想。许多功能更为强大的非线性模型可以在线性模型的基础上通过引入层级结构或高维映射而得。
K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
核函数聚类源于支持向量机(SVM)理论,主要思想是引入基于核函数的相似性测度,从而分辨、提取并放大有用的特征,实现更为准确的聚类。
基于模型的方法(Model-based methods)主要是指基于概率模型的方法和基于神经网络模型的方法。前者的代表是高斯混合模型(GMM,Gaussian Mixture Models),后者的代表是自组织映射网络(SOM,Self Organized Maps)。
基于网格的聚类算法将对象空间量化为有限数量的单元,形成一个网格结构,所有的聚类都在这个网格结构上进行。它的处理速度很快,其处理时间独立于数据对象的数目。
基于划分的方法是用对象之间的距离进行聚类,这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难,因此有人提出了基于密度的另一类聚类方法,其主要思想是:只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤'噪声'孤立点数据,发现任意形状的簇。
层次聚类方法是古老而且常用的聚类方法。层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。
基于划分的方法(Partition-based Methods)原理简单来说就是,想象你有一堆散点需要聚类,想要的聚类效果就是'类内的点都足够近,类间的点都足够远'。
聚类是一种无监督学习,根据样本的内在相似性/距离,将大量未知标记的样本集划分为多个类别,使得同一个类别内的样本相似度较大,而不同类别间的样本相似度较小。