从html中提取txt文本

HTML2Text是一个强大而实用的Python库,它可以轻松地将HTML文档转换为纯文本或Markdown格式的文本。

安装

1
pip install html2text

使用示例

1
2
3
4
5
6
import html2text

h = html2text.HTML2Text()
# Ignore converting links from HTML
h.ignore_links = True
print(h.handle("<p>Hello, <a href='https://www.google.com/earth/'>world</a>!"))