MarkItDown,把各种文件统一转成markdown

微软开源的 MarkItDown,是一个能把各种文件“喂”给大模型(LLM)的利器。它的核心价值在于:帮你把 PDF、Word、PPT 等非结构化数据,统一转换成 LLM 最擅长处理的 Markdown 格式,是构建 RAG 和 AI 应用的瑞士军刀。

快速上手指南

环境准备

确保已安装 Python 3.10 或更高版本。

安装与验证

1
2
pip install 'markitdown[all]'
markitdown --version

基本用法

命令行:这是最直接的方式,适合快速测试。

1
2
3
4
# 转换 PDF 文件
markitdown path-to-file.pdf -o output.md
# 转换 Excel 文件
markitdown data.xlsx > data.md

Python API:适合集成到你的 AI 或数据处理流程中。

1
2
3
4
5
6
7
8
9
10
11
12
from markitdown import MarkItDown
from openai import OpenAI

# 基础用法
md = MarkItDown()
result = md.convert("report.docx")
print(result.text_content)
# 高级用法:使用 GPT-4o 生成图片描述
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("diagram.jpg")
print(result.text_content)

GitHub 开源地址:https://github.com/microsoft/markitdown