import os import requests import zipfile import io # 1. 配置基础参数 url = "http://10.168.1.103:4000/extract" # 请确保此处的 IP 和端口与服务端保持一致 source_dir = "./Papers/ORI_PDF" target_dir = "./Papers/ORI_MD" # 2. 确保源目录存在,避免报错 if not os.path.exists(source_dir): print(f"错误: 找不到源文件夹 '{source_dir}'") exit(1) # 确保目标主文件夹存在 os.makedirs(target_dir, exist_ok=True) # 3. 遍历源文件夹下的所有文件 for filename in os.listdir(source_dir): # 只处理 PDF 文件 if not filename.lower().endswith(".pdf"): continue file_path = os.path.join(source_dir, filename) # 获取去掉 .pdf 后缀的文件名 pdf_name_no_ext = os.path.splitext(filename)[0] # 对应的输出文件夹路径 output_folder = os.path.join(target_dir, pdf_name_no_ext) # ========================================== # 【新增逻辑】:检查是否已经处理过 # 如果输出文件夹已存在,且内部有文件,则视为已转换,直接跳过 # ========================================== if os.path.exists(output_folder) and len(os.listdir(output_folder)) > 0: print(f"⏩ 已存在转换结果,跳过处理: {filename}") continue print(f"正在上传并处理 {filename}...") try: # 4. 发送请求 with open(file_path, "rb") as f: files = {"file": (filename, f, "application/pdf")} response = requests.post(url, files=files) # 5. 处理响应结果 if response.status_code == 200: # 【新增防护】:检查服务端是否返回了包含报错信息的 JSON if response.headers.get('content-type') == 'application/json': error_msg = response.json() print(f"❌ 服务端处理失败 ({filename}):{error_msg.get('message', '未知错误')}") continue # 跳过解压,处理下一个 # 确保该 PDF 专属的输出文件夹存在 os.makedirs(output_folder, exist_ok=True) # 核心:使用 io.BytesIO 直接在内存中读取 zip 内容并解压 try: with zipfile.ZipFile(io.BytesIO(response.content)) as zip_ref: zip_ref.extractall(output_folder) print(f"✅ 成功!已解压并保存至文件夹: {output_folder}") except zipfile.BadZipFile: print(f"❌ 失败!{filename} 返回的内容不是有效的 ZIP 格式。") else: print(f"❌ 失败!{filename} 状态码: {response.status_code}, 报错: {response.text}") except requests.exceptions.RequestException as e: print(f"❌ 网络请求异常 ({filename}): {e}") except Exception as e: print(f"❌ 处理 {filename} 时发生未知错误: {e}") print("-" * 30) print("批量处理任务结束!")