Files
Personal_Materials/事迹材料_知识库/MinerU输出格式说明.md
2026-05-15 11:06:49 +08:00

1.2 KiB

MinerU 输出格式说明

参考来源:https://github.com/opendatalab/MinerU/blob/master/README.md

关键格式特征

  • MinerU 面向 PDF、图片、DOCX、PPTX、XLSX 等文档解析,输出 Markdown、JSON 等机器可读格式。
  • Markdown 输出按人类阅读顺序组织,适合后续 RAG、Agent 和知识库处理。
  • 输出会尽量保留原始文档结构,包括标题、段落、列表等。
  • 图片、图片描述、表格、表格标题和脚注会被提取。
  • 公式会转换为 LaTeX。
  • 表格会转换为 HTML。
  • 扫描件或乱码 PDF 会启用 OCR。

对本项目的处理规则

本项目已转换出的 Markdown 主文件作为阅读顺序文本入口;同级 images/ 文件夹作为图片证据入口;content_list*.jsonmiddle.json 作为结构和坐标辅助信息。

图片重命名时需同时维护:

  • .md 中的 ![](images/...) 引用。
  • _content_list.json 中的 img_path
  • _content_list_v2.json 中的 path
  • _middle.json 中的 image_path

本次已按以上规则完成 个人事迹材料文档_MD其他事迹材料文档_MD 下 27 张图片重命名与引用更新。