Files
Personal_Materials/事迹材料_知识库/MinerU输出格式说明.md
2026-05-15 11:06:49 +08:00

27 lines
1.2 KiB
Markdown

# MinerU 输出格式说明
参考来源:<https://github.com/opendatalab/MinerU/blob/master/README.md>
## 关键格式特征
- MinerU 面向 PDF、图片、DOCX、PPTX、XLSX 等文档解析,输出 Markdown、JSON 等机器可读格式。
- Markdown 输出按人类阅读顺序组织,适合后续 RAG、Agent 和知识库处理。
- 输出会尽量保留原始文档结构,包括标题、段落、列表等。
- 图片、图片描述、表格、表格标题和脚注会被提取。
- 公式会转换为 LaTeX。
- 表格会转换为 HTML。
- 扫描件或乱码 PDF 会启用 OCR。
## 对本项目的处理规则
本项目已转换出的 Markdown 主文件作为阅读顺序文本入口;同级 `images/` 文件夹作为图片证据入口;`content_list*.json``middle.json` 作为结构和坐标辅助信息。
图片重命名时需同时维护:
-`.md` 中的 `![](images/...)` 引用。
- `_content_list.json` 中的 `img_path`
- `_content_list_v2.json` 中的 `path`
- `_middle.json` 中的 `image_path`
本次已按以上规则完成 `个人事迹材料文档_MD``其他事迹材料文档_MD` 下 27 张图片重命名与引用更新。