1.2 KiB
1.2 KiB
MinerU 输出格式说明
参考来源:https://github.com/opendatalab/MinerU/blob/master/README.md
关键格式特征
- MinerU 面向 PDF、图片、DOCX、PPTX、XLSX 等文档解析,输出 Markdown、JSON 等机器可读格式。
- Markdown 输出按人类阅读顺序组织,适合后续 RAG、Agent 和知识库处理。
- 输出会尽量保留原始文档结构,包括标题、段落、列表等。
- 图片、图片描述、表格、表格标题和脚注会被提取。
- 公式会转换为 LaTeX。
- 表格会转换为 HTML。
- 扫描件或乱码 PDF 会启用 OCR。
对本项目的处理规则
本项目已转换出的 Markdown 主文件作为阅读顺序文本入口;同级 images/ 文件夹作为图片证据入口;content_list*.json 与 middle.json 作为结构和坐标辅助信息。
图片重命名时需同时维护:
- 主
.md中的引用。 _content_list.json中的img_path。_content_list_v2.json中的path。_middle.json中的image_path。
本次已按以上规则完成 个人事迹材料文档_MD 和 其他事迹材料文档_MD 下 27 张图片重命名与引用更新。