从html中提取txt文本 发表于 2019-03-09 更新于 2024-01-03 借助HTML2Text实现HTML文档转换为纯文本格式或Markdown格式。 HTML2Text是一个强大而实用的Python库,它可以轻松地将HTML文档转换为纯文本或Markdown格式的文本。 安装1pip install html2text 使用示例123456import html2texth = html2text.HTML2Text()# Ignore converting links from HTMLh.ignore_links = Trueprint(h.handle("<p>Hello, <a href='https://www.google.com/earth/'>world</a>!"))