0%

分布表示研究了上下文的概率分布,认为上下文相似的词,其语义也相似,由此将语义引入到文本表示中,词与词之间有了距离的概念。

BM25是基于TF-IDF的改进算法,BM 是Best Match最佳匹配的缩写,25指的是第25次算法迭代。

离散表示将文本视为离散的一个个词的组合,词与词之间没有距离的概念,主要有词集模型和词袋模型两种思想。

词的表示,就是把分词之后的字和词语表示成计算机能够计算的类型。

spaCy是世界上最快的工业级自然语言处理工具,支持多种自然语言处理基本功能。