文本预处理之命名实体识别(2)
基于paddlenlp的命名实体识别。
基于paddlenlp的命名实体识别。
命名实体识别(NER),又称作"专名识别",是指识别文本中具有特定意义的实体。
jieba中提供了中文词性标注功能。
词性(part-of-speech)是词汇基本的语法范畴,通常也称为词类,主要用来描述一个词在上下文的作用。nltk提供了英文词性标注功能。
有时我们需要过滤除中英文及数字以外的其他字符。
用FlashText替换文本中的关键词。
去除停用词的方法。
jieba+flask开发分词接口。
应用jieba分词实现中文分词操作。
一些常用的中文分词工具。