工业级自然语言处理工具spaCy
spaCy是世界上最快的工业级自然语言处理工具,支持多种自然语言处理基本功能。
spaCy是世界上最快的工业级自然语言处理工具,支持多种自然语言处理基本功能。
词干提取是英文中另一项独有的处理技术,作用是去除单词的前后缀得到词根。
词形还原是英文中一项独有的处理技术,作用为在完成英文分词后根据词性将单词还原为字典中原型词汇。
基于paddlenlp的命名实体识别。
命名实体识别(NER),又称作"专名识别",是指识别文本中具有特定意义的实体。
jieba中提供了中文词性标注功能。
词性(part-of-speech)是词汇基本的语法范畴,通常也称为词类,主要用来描述一个词在上下文的作用。nltk提供了英文词性标注功能。
有时我们需要过滤除中英文及数字以外的其他字符。
用FlashText替换文本中的关键词。
去除停用词的方法。