文本预处理之文档汇总
抽取指定目录下的所有txt文档合并成一个文件。
抽取指定目录下的所有txt文档合并成一个文件。
用半监督的方式对任何有监督分类算法进行训练。
sklearn中LabelSpreading的使用示例。
sklearn中LabelPropagation的使用示例。
在sklearn里提供了两种标签传播模型,LabelPropagation和LabelSpreading。
半监督聚类利用已标记的数据样本对聚类过程进行指导,提高了无监督学习的准确率。
半监督分类是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷。
无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到,这就促使能同时利用标记样本和未标记样本的半监督学习技术迅速发展起来。
FunkSVD的python实现。
介绍基于矩阵分解的协同过滤推荐算法发展历程。