Files
Personal_Materials/Mineru_api_client-V2.py
2026-05-15 09:45:09 +08:00

131 lines
5.8 KiB
Python
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
import os
import requests
import zipfile
import io
import shutil # 【新增】用于删除非空文件夹
import argparse # <--- 1. 确保这里导入了
def main():
# 1. 配置命令行参数解析
parser = argparse.ArgumentParser(description="Mineru PDF 转 Markdown 批量处理工具")
# 添加参数
parser.add_argument("-s", "--source", type=str, default="./Papers/ORI_PDF",
help="源 PDF 文件夹路径 (默认: ./Papers/ORI_PDF)")
parser.add_argument("-t", "--target", type=str, default="./Papers/ORI_MD",
help="目标 Markdown 文件夹路径 (默认: ./Papers/ORI_MD)")
parser.add_argument("-u", "--url", type=str, default="http://10.168.1.103:4000/extract",
help="API 服务端地址 (默认: http://10.168.1.103:4000/extract)")
parser.add_argument("--sync", action="store_true",
help="任务完成后是否开启反向同步清理(删除多余的输出文件夹)")
args = parser.parse_args()
# 使用解析后的参数
url = args.url
source_dir = args.source
target_dir = args.target
# 2. 确保源目录存在,避免报错
if not os.path.exists(source_dir):
print(f"错误: 找不到源文件夹 '{source_dir}'")
exit(1)
# 确保目标主文件夹存在
os.makedirs(target_dir, exist_ok=True)
# 3. 遍历源文件夹下的所有文件进行上传处理
for filename in os.listdir(source_dir):
# 只处理 PDF 文件
if not filename.lower().endswith(".pdf"):
continue
file_path = os.path.join(source_dir, filename)
# 获取去掉 .pdf 后缀的文件名
pdf_name_no_ext = os.path.splitext(filename)[0]
# 对应的输出文件夹路径
output_folder = os.path.join(target_dir, pdf_name_no_ext)
# ==========================================
# 检查是否已经处理过
# 如果输出文件夹已存在,且内部有文件,则视为已转换,直接跳过
# ==========================================
if os.path.exists(output_folder) and len(os.listdir(output_folder)) > 0:
print(f"⏩ 已存在转换结果,跳过处理: {filename}")
continue
print(f"正在上传并处理 {filename}...")
try:
# 4. 发送请求
with open(file_path, "rb") as f:
files = {"file": (filename, f, "application/pdf")}
response = requests.post(url, files=files)
# 5. 处理响应结果
if response.status_code == 200:
# 检查服务端是否返回了包含报错信息的 JSON
if response.headers.get('content-type') == 'application/json':
error_msg = response.json()
print(f"❌ 服务端处理失败 ({filename}){error_msg.get('message', '未知错误')}")
continue # 跳过解压,处理下一个
# 确保该 PDF 专属的输出文件夹存在
os.makedirs(output_folder, exist_ok=True)
# 核心:使用 io.BytesIO 直接在内存中读取 zip 内容并解压
try:
with zipfile.ZipFile(io.BytesIO(response.content)) as zip_ref:
zip_ref.extractall(output_folder)
print(f"✅ 成功!已解压并保存至文件夹: {output_folder}")
except zipfile.BadZipFile:
print(f"❌ 失败!{filename} 返回的内容不是有效的 ZIP 格式。")
else:
print(f"❌ 失败!{filename} 状态码: {response.status_code}, 报错: {response.text}")
except requests.exceptions.RequestException as e:
print(f"❌ 网络请求异常 ({filename}): {e}")
except Exception as e:
print(f"❌ 处理 {filename} 时发生未知错误: {e}")
print("-" * 30)
if args.sync:
print("转换任务结束,开始进行文件夹同步清理...")
# ==========================================
# 【新增逻辑】:反向比对,清理多余的 MD 文件夹
# ==========================================
# 1. 收集当前 ORI_PDF 中所有有效的 PDF 名字(不含后缀)
valid_pdf_names = set()
for filename in os.listdir(source_dir):
if filename.lower().endswith(".pdf"):
valid_pdf_names.add(os.path.splitext(filename)[0])
# 2. 遍历 ORI_MD 文件夹
if os.path.exists(target_dir):
for folder_name in os.listdir(target_dir):
folder_path = os.path.join(target_dir, folder_name)
# 仅处理文件夹(以防里面有意外的独立文件)
if os.path.isdir(folder_path):
# 3. 如果这个文件夹的名字不在有效的 PDF 列表中,说明是被删掉的“孤儿”
if folder_name not in valid_pdf_names:
print(f"🧹 发现多余文件,正在清理: {folder_name}")
try:
# 使用 shutil.rmtree 删除整个文件夹及其内部所有内容
shutil.rmtree(folder_path)
except Exception as e:
print(f"❌ 删除 {folder_name} 时发生错误: {e}")
else:
print("转换任务结束,未开启同步清理。")
print("-" * 30)
print("所有批量任务彻底完成!")
if __name__ == "__main__":
try:
main()
except KeyboardInterrupt:
print("\n检测到用户中断,程序退出。")