Files
REVOXELSEG_DICOM/工程分析/实现方案-2026-05-21-15-50-21.md

2.4 KiB
Raw Blame History

实现方案:系统使用视频配音版生成

实现方案文档路径:工程分析/实现方案-2026-05-21-15-50-21.md

修改目标

生成 5 分钟版和 10 分钟版系统使用视频的中文配音成片,并保证音视频最终时长一致。

涉及路径

  • 视频配音/基于模型逆向体素化及DICOM分割标注系统-使用视频-5min版.mp4
  • 视频配音/基于模型逆向体素化及DICOM分割标注系统-使用视频-10min版.mp4
  • 视频配音/配音生成工作流-Ubuntu-Agent.md
  • 视频配音/Tools_scripts_XunFei-Ubuntu/
  • 视频配音/01_scripts/
  • 视频配音/02_audio/
  • 视频配音/04_intermediate/
  • 视频配音/05_outputs/

技术路线

  1. 使用 ffprobe 获取两个视频的准确时长、分辨率、帧率和音轨信息。
  2. 抽样生成 contact sheet快速阅览视频内容与操作流程。
  3. 根据画面内容分别撰写 5 分钟和 10 分钟配音稿。
  4. 优先检查讯飞 TTS 环境变量;当前环境缺少讯飞凭证时,使用已安装的 edge-tts 生成中文 MP3。
  5. 将 TTS 音频规范化为 48kHz stereo WAV。
  6. 使用 ffmpeg 通过 apadatrim 将旁白音频严格对齐视频时长。
  7. 将原视频静音并合入新旁白,输出 H.264/AAC MP4。
  8. 使用 ffprobe 校验最终视频格式、音轨和时长差。

执行步骤

  • 创建配音工作子目录。
  • 写入 配音稿-5min.md配音稿-10min.md
  • 对配音稿做 TTS 干跑或等效段落检查。
  • 使用 edge-tts 分别生成原始旁白音频。
  • 根据视频时长生成对齐后的 WAV 音轨。
  • ffmpeg -map 0:v:0 -map 1:a:0 -shortest 合成配音版视频。
  • 对原始视频、旁白音频、对齐音频和最终视频做时长比对。

兼容性与回滚方案

  • 原始视频不修改,输出文件单独放在 05_outputs/
  • 如后续提供讯飞凭证,可复用配音稿重新运行 Tools_scripts_XunFei-Ubuntu 的讯飞脚本生成更接近指定工作流的音色。
  • 若用户希望调整语气或文案,只需改 01_scripts/ 下对应配音稿并重新生成音频与合成视频。

预计文件变更

  • 新增视频配音脚本、音频、最终视频和校验记录。
  • 新增三份工程分析文档并追加 经验记录.md

提交与部署策略

  • 本次不需要重新部署 WebSite因为不修改程序服务。
  • 按工作流提交工程分析文档备份,避免把大体积视频产物混入 Git 提交。