admin/REVOXELSEG_DICOM

Files

admin 8b4cff8197 2026-05-21-15-50-21 记录系统使用视频配音生成

2026-05-21 16:04:26 +08:00

2.1 KiB

Raw Blame History

需求分析：系统使用视频配音版生成

开始时间：2026-05-21-15-50-21

原始需求摘要

用户要求阅读 视频配音/ 中两个当前系统使用视频：

基于模型逆向体素化及DICOM分割标注系统-使用视频-5min版.mp4
基于模型逆向体素化及DICOM分割标注系统-使用视频-10min版.mp4

并参考 配音生成工作流-Ubuntu-Agent.md 生成带配音的最终视频。要求配音文本、音频与视频长度一致，避免出现视频结束后仍有声音，或声音结束后视频继续播放的情况。

业务目标

为 5 分钟版和 10 分钟版系统使用视频生成中文旁白。
输出两个带配音的 MP4 成片。
最终成片音轨与画面时长严格对齐。
生成过程保留配音稿、音频和校验记录，便于后续复用与调整。

输入与输出

输入：

两个原始系统使用视频。
视频配音/配音生成工作流-Ubuntu-Agent.md。
视频配音/Tools_scripts_XunFei-Ubuntu/ 中的配音与合成工具。

输出：

5 分钟版配音稿、音频和配音成片。
10 分钟版配音稿、音频和配音成片。
本次工程分析记录与测试结果。

影响范围

新增 视频配音/ 下的配音稿、音频、中间文件和最终视频。
新增本次 工程分析/ 文档，追加经验记录。
不修改 WebSite 业务代码。

关键约束

不覆盖原始视频。
最终视频需去除原视频声音，只保留新旁白。
音频总时长必须和输出视频时长一致。
当前环境没有 XF_APPID、XF_APIKEY、XF_APISECRET，若无法调用讯飞 TTS，则使用本机可用中文 TTS 方案完成交付，并记录偏差。

风险点

TTS 服务网络或凭证不可用导致无法按讯飞流程生成。
旁白文案长度与视频长度差距过大，会导致音频拉伸或静音过多。
大视频合成耗时较长，需用 ffprobe 校验最终时长和音轨。

默认假设

允许在讯飞凭证缺失时使用本机已有 edge-tts 作为替代 TTS 引擎。
输出视频可放在 视频配音/05_outputs/，无需覆盖原始视频。