文本预处理工具之关键词替换

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
from flashtext import KeywordProcessor

text = 'I love my city and my country.'

kp = KeywordProcessor()
# kp = KeywordProcessor(case_sensitive=True) # 设置为对大小写敏感,默认的是不敏感

#========================================================
# 提取关键词
#========================================================

kp.add_keyword('my city')
kp.add_keyword('my country')

print(kp.extract_keywords(text)) # 提取关键词
print(kp.extract_keywords(text, span_info=True)) # 提取关键词和其位置信息

#========================================================
# 替换关键词
#========================================================

kp.add_keyword('my city', 'beijing') # 更新关键词规则, 加入替换词
kp.add_keyword('my country', 'china')

new_sentence = kp.replace_keywords(text)
print(new_sentence)

#========================================================
# 从关键词集合中移除某个关键词
#========================================================

kp.remove_keyword('my city')

new_sentence2 = kp.replace_keywords(text)
print(new_sentence2) # 'my city'不再被替换了