Files
REVOXELSEG_DICOM/工程分析/需求分析-2026-05-21-15-50-21.md

58 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 需求分析:系统使用视频配音版生成
开始时间2026-05-21-15-50-21
## 原始需求摘要
用户要求阅读 `视频配音/` 中两个当前系统使用视频:
- `基于模型逆向体素化及DICOM分割标注系统-使用视频-5min版.mp4`
- `基于模型逆向体素化及DICOM分割标注系统-使用视频-10min版.mp4`
并参考 `配音生成工作流-Ubuntu-Agent.md` 生成带配音的最终视频。要求配音文本、音频与视频长度一致,避免出现视频结束后仍有声音,或声音结束后视频继续播放的情况。
## 业务目标
- 为 5 分钟版和 10 分钟版系统使用视频生成中文旁白。
- 输出两个带配音的 MP4 成片。
- 最终成片音轨与画面时长严格对齐。
- 生成过程保留配音稿、音频和校验记录,便于后续复用与调整。
## 输入与输出
输入:
- 两个原始系统使用视频。
- `视频配音/配音生成工作流-Ubuntu-Agent.md`
- `视频配音/Tools_scripts_XunFei-Ubuntu/` 中的配音与合成工具。
输出:
- 5 分钟版配音稿、音频和配音成片。
- 10 分钟版配音稿、音频和配音成片。
- 本次工程分析记录与测试结果。
## 影响范围
- 新增 `视频配音/` 下的配音稿、音频、中间文件和最终视频。
- 新增本次 `工程分析/` 文档,追加经验记录。
- 不修改 WebSite 业务代码。
## 关键约束
- 不覆盖原始视频。
- 最终视频需去除原视频声音,只保留新旁白。
- 音频总时长必须和输出视频时长一致。
- 当前环境没有 `XF_APPID``XF_APIKEY``XF_APISECRET`,若无法调用讯飞 TTS则使用本机可用中文 TTS 方案完成交付,并记录偏差。
## 风险点
- TTS 服务网络或凭证不可用导致无法按讯飞流程生成。
- 旁白文案长度与视频长度差距过大,会导致音频拉伸或静音过多。
- 大视频合成耗时较长,需用 `ffprobe` 校验最终时长和音轨。
## 默认假设
- 允许在讯飞凭证缺失时使用本机已有 `edge-tts` 作为替代 TTS 引擎。
- 输出视频可放在 `视频配音/05_outputs/`,无需覆盖原始视频。