Files
REVOXELSEG_DICOM/工程分析/实现方案-2026-05-21-15-50-21.md

56 lines
2.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 实现方案:系统使用视频配音版生成
实现方案文档路径:`工程分析/实现方案-2026-05-21-15-50-21.md`
## 修改目标
生成 5 分钟版和 10 分钟版系统使用视频的中文配音成片,并保证音视频最终时长一致。
## 涉及路径
- `视频配音/基于模型逆向体素化及DICOM分割标注系统-使用视频-5min版.mp4`
- `视频配音/基于模型逆向体素化及DICOM分割标注系统-使用视频-10min版.mp4`
- `视频配音/配音生成工作流-Ubuntu-Agent.md`
- `视频配音/Tools_scripts_XunFei-Ubuntu/`
- `视频配音/01_scripts/`
- `视频配音/02_audio/`
- `视频配音/04_intermediate/`
- `视频配音/05_outputs/`
## 技术路线
1. 使用 `ffprobe` 获取两个视频的准确时长、分辨率、帧率和音轨信息。
2. 抽样生成 contact sheet快速阅览视频内容与操作流程。
3. 根据画面内容分别撰写 5 分钟和 10 分钟配音稿。
4. 优先检查讯飞 TTS 环境变量;当前环境缺少讯飞凭证时,使用已安装的 `edge-tts` 生成中文 MP3。
5. 将 TTS 音频规范化为 48kHz stereo WAV。
6. 使用 `ffmpeg` 通过 `apad``atrim` 将旁白音频严格对齐视频时长。
7. 将原视频静音并合入新旁白,输出 H.264/AAC MP4。
8. 使用 `ffprobe` 校验最终视频格式、音轨和时长差。
## 执行步骤
- 创建配音工作子目录。
- 写入 `配音稿-5min.md``配音稿-10min.md`
- 对配音稿做 TTS 干跑或等效段落检查。
- 使用 `edge-tts` 分别生成原始旁白音频。
- 根据视频时长生成对齐后的 WAV 音轨。
-`ffmpeg -map 0:v:0 -map 1:a:0 -shortest` 合成配音版视频。
- 对原始视频、旁白音频、对齐音频和最终视频做时长比对。
## 兼容性与回滚方案
- 原始视频不修改,输出文件单独放在 `05_outputs/`
- 如后续提供讯飞凭证,可复用配音稿重新运行 `Tools_scripts_XunFei-Ubuntu` 的讯飞脚本生成更接近指定工作流的音色。
- 若用户希望调整语气或文案,只需改 `01_scripts/` 下对应配音稿并重新生成音频与合成视频。
## 预计文件变更
- 新增视频配音脚本、音频、最终视频和校验记录。
- 新增三份工程分析文档并追加 `经验记录.md`
## 提交与部署策略
- 本次不需要重新部署 WebSite因为不修改程序服务。
- 按工作流提交工程分析文档备份,避免把大体积视频产物混入 Git 提交。