基于TFIDF编码的文本分类实践
文本分类是NLP中的最基础的一个任务,很多场景中都涉及到。
文本分类是NLP中的最基础的一个任务,很多场景中都涉及到。
离散表示将文本视为离散的一个个词的组合,词与词之间没有距离的概念,主要有词集模型和词袋模型两种思想。
词的表示,就是把分词之后的字和词语表示成计算机能够计算的类型。
四种方法计算中文短句之间的相似度。
LangSegment是一个强大的多语言混合文本自动提取工具。
spaCy是世界上最快的工业级自然语言处理工具,支持多种自然语言处理基本功能。
词干提取是英文中另一项独有的处理技术,作用是去除单词的前后缀得到词根。
词形还原是英文中一项独有的处理技术,作用为在完成英文分词后根据词性将单词还原为字典中原型词汇。
基于paddlenlp的命名实体识别。
命名实体识别(NER),又称作"专名识别",是指识别文本中具有特定意义的实体。