MarkItDown,把各种文件统一转成markdown
微软开源的 MarkItDown,是一个能把各种文件“喂”给大模型(LLM)的利器。它的核心价值在于:帮你把 PDF、Word、PPT 等非结构化数据,统一转换成 LLM 最擅长处理的 Markdown 格式,是构建 RAG 和 AI 应用的瑞士军刀。
快速上手指南
环境准备
确保已安装 Python 3.10 或更高版本。
安装与验证
1 | pip install 'markitdown[all]' |
基本用法
命令行:这是最直接的方式,适合快速测试。
1 | # 转换 PDF 文件 |
Python API:适合集成到你的 AI 或数据处理流程中。
1 | from markitdown import MarkItDown |
GitHub 开源地址:https://github.com/microsoft/markitdown