2026-05-21-15-50-21 记录系统使用视频配音生成

2026-05-21 16:04:26 +08:00
parent 99f2bc0750
commit 8b4cff8197
4 changed files with 214 additions and 0 deletions
--- a/工程分析/实现方案-2026-05-21-15-50-21.md
+++ b/工程分析/实现方案-2026-05-21-15-50-21.md
@@ -0,0 +1,55 @@
+# 实现方案：系统使用视频配音版生成
+
+实现方案文档路径：`工程分析/实现方案-2026-05-21-15-50-21.md`
+
+## 修改目标
+
+生成 5 分钟版和 10 分钟版系统使用视频的中文配音成片，并保证音视频最终时长一致。
+
+## 涉及路径
+
+- `视频配音/基于模型逆向体素化及DICOM分割标注系统-使用视频-5min版.mp4`
+- `视频配音/基于模型逆向体素化及DICOM分割标注系统-使用视频-10min版.mp4`
+- `视频配音/配音生成工作流-Ubuntu-Agent.md`
+- `视频配音/Tools_scripts_XunFei-Ubuntu/`
+- `视频配音/01_scripts/`
+- `视频配音/02_audio/`
+- `视频配音/04_intermediate/`
+- `视频配音/05_outputs/`
+
+## 技术路线
+
+1. 使用 `ffprobe` 获取两个视频的准确时长、分辨率、帧率和音轨信息。
+2. 抽样生成 contact sheet，快速阅览视频内容与操作流程。
+3. 根据画面内容分别撰写 5 分钟和 10 分钟配音稿。
+4. 优先检查讯飞 TTS 环境变量；当前环境缺少讯飞凭证时，使用已安装的 `edge-tts` 生成中文 MP3。
+5. 将 TTS 音频规范化为 48kHz stereo WAV。
+6. 使用 `ffmpeg` 通过 `apad` 与 `atrim` 将旁白音频严格对齐视频时长。
+7. 将原视频静音并合入新旁白，输出 H.264/AAC MP4。
+8. 使用 `ffprobe` 校验最终视频格式、音轨和时长差。
+
+## 执行步骤
+
+- 创建配音工作子目录。
+- 写入 `配音稿-5min.md` 与 `配音稿-10min.md`。
+- 对配音稿做 TTS 干跑或等效段落检查。
+- 使用 `edge-tts` 分别生成原始旁白音频。
+- 根据视频时长生成对齐后的 WAV 音轨。
+- 用 `ffmpeg -map 0:v:0 -map 1:a:0 -shortest` 合成配音版视频。
+- 对原始视频、旁白音频、对齐音频和最终视频做时长比对。
+
+## 兼容性与回滚方案
+
+- 原始视频不修改，输出文件单独放在 `05_outputs/`。
+- 如后续提供讯飞凭证，可复用配音稿重新运行 `Tools_scripts_XunFei-Ubuntu` 的讯飞脚本生成更接近指定工作流的音色。
+- 若用户希望调整语气或文案，只需改 `01_scripts/` 下对应配音稿并重新生成音频与合成视频。
+
+## 预计文件变更
+
+- 新增视频配音脚本、音频、最终视频和校验记录。
+- 新增三份工程分析文档并追加 `经验记录.md`。
+
+## 提交与部署策略
+
+- 本次不需要重新部署 WebSite，因为不修改程序服务。
+- 按工作流提交工程分析文档备份，避免把大体积视频产物混入 Git 提交。