27 lines
1.2 KiB
Markdown
27 lines
1.2 KiB
Markdown
# MinerU 输出格式说明
|
|
|
|
参考来源:<https://github.com/opendatalab/MinerU/blob/master/README.md>
|
|
|
|
## 关键格式特征
|
|
|
|
- MinerU 面向 PDF、图片、DOCX、PPTX、XLSX 等文档解析,输出 Markdown、JSON 等机器可读格式。
|
|
- Markdown 输出按人类阅读顺序组织,适合后续 RAG、Agent 和知识库处理。
|
|
- 输出会尽量保留原始文档结构,包括标题、段落、列表等。
|
|
- 图片、图片描述、表格、表格标题和脚注会被提取。
|
|
- 公式会转换为 LaTeX。
|
|
- 表格会转换为 HTML。
|
|
- 扫描件或乱码 PDF 会启用 OCR。
|
|
|
|
## 对本项目的处理规则
|
|
|
|
本项目已转换出的 Markdown 主文件作为阅读顺序文本入口;同级 `images/` 文件夹作为图片证据入口;`content_list*.json` 与 `middle.json` 作为结构和坐标辅助信息。
|
|
|
|
图片重命名时需同时维护:
|
|
|
|
- 主 `.md` 中的 `` 引用。
|
|
- `_content_list.json` 中的 `img_path`。
|
|
- `_content_list_v2.json` 中的 `path`。
|
|
- `_middle.json` 中的 `image_path`。
|
|
|
|
本次已按以上规则完成 `个人事迹材料文档_MD` 和 `其他事迹材料文档_MD` 下 27 张图片重命名与引用更新。
|