使用gensim训练词向量
使用gensim库中的word2vec函数来训练词向量。
使用gensim库中的word2vec函数来训练词向量。
pytorch训练Skip-Gram模型实践。
pytorch训练CBOW模型实践。
pytorch训练Glove模型实践。
分布表示研究了上下文的概率分布,认为上下文相似的词,其语义也相似,由此将语义引入到文本表示中,词与词之间有了距离的概念。
文本分类是NLP中的最基础的一个任务,很多场景中都涉及到。
离散表示将文本视为离散的一个个词的组合,词与词之间没有距离的概念,主要有词集模型和词袋模型两种思想。
词的表示,就是把分词之后的字和词语表示成计算机能够计算的类型。
四种方法计算中文短句之间的相似度。
LangSegment是一个强大的多语言混合文本自动提取工具。