Files
Pre_Seg_Server/doc/08-current-design-freeze.md
admin 8a9247075e feat: 完善 AI 分割与工作区标注闭环
功能增加:

- 将视频导入和生成帧拆成两个明确动作,项目库生成帧时选择 FPS,工作区不再自动触发拆帧。

- 为工作区新增调整多边形工具,支持选中 mask、拖动顶点、边中点插点、双击边界按位置插点,并保留多 polygon 子区域编辑。

- 打通 AI 页 SAM2/SAM3 结果到工作区的联动,生成 mask 后自动选中,可在右侧分类树换标签,并推送到工作区继续编辑。

- 增强 Dashboard WebSocket 连接状态与心跳,使用真实 onopen/onclose/onerror 状态驱动前端显示。

- 完善 SAM3 external worker 适配,支持 box prompt、semantic 请求级阈值和 video tracker 路径。

bugfix:

- 修复 SAM2 文本语义误走自动分割的问题,改为提示使用点提示或切换 SAM3。

- 修复 SAM2 多候选重叠显示的问题,点提示和 auto fallback 默认只采用最高分候选。

- 修复 SAM2 反向点看起来无效的问题,带负点时启用背景过滤,过滤为空时移除旧候选。

- 修复 SAM3 单个 2D mask 结果无法转 polygon、低阈值 semantic 返回被默认阈值吞掉的问题。

- 修复 AI 页 mask 未选中导致分类树无法修改 SAM2 结果标签的问题。

测试和文档:

- 补充 CanvasArea、AISegmentation、ProjectLibrary、VideoWorkspace、Dashboard、websocket 和 SAM engine/API 测试。

- 新增 backend/tests/test_sam2_engine.py,覆盖 SAM2 单候选请求和 auto fallback 行为。

- 更新 README、AGENTS 和 doc 需求/设计/接口/测试矩阵,按当前实现冻结功能状态。
2026-05-01 21:50:17 +08:00

19 KiB
Raw Blame History

当前设计冻结文档

冻结日期2026-05-01

本文档描述当前代码结构、数据流、接口契约和测试边界。后续实现如果改变这些设计,应同步更新本文档和测试。

总体架构

当前系统由三层组成:

  • React + TypeScript 前端 SPA。
  • FastAPI 后端 API。
  • PostgreSQL、MinIO、Redis、SAM 2 / SAM 3 等外部基础设施。

开发时前端通过 server.ts 启动 Express + Vite middleware后端通过 backend/main.py 启动 FastAPI。前端业务接口主要访问 FastAPI不依赖 server.ts 中保留的旧 mock API。

前端模块

模块 文件 设计职责
应用入口 src/App.tsx 根据登录状态和 activeModule 切换页面
全局状态 src/store/useStore.ts Zustand store保存项目、帧、模板、mask、当前选中 mask ids、工具状态和 mask 撤销/重做历史栈
API 封装 src/lib/api.ts Axios 客户端、字段映射、AI 响应转换
配置 src/lib/config.ts 推导 API 和 WebSocket 地址
WebSocket src/lib/websocket.ts 进度流连接、订阅、连接状态通知、心跳和重连
模型状态 src/components/ModelStatusBadge.tsx 展示 GPU 与当前 SAM 模型真实可用状态
登录页 src/components/Login.tsx 调用登录 API写入 store
Dashboard src/components/Dashboard.tsx 展示统计、任务控制、失败详情和 WebSocket 进度消息
项目库 src/components/ProjectLibrary.tsx 项目列表、新建、导入视频/DICOM、显式生成帧
工作区 src/components/VideoWorkspace.tsx 加载帧和模板组织工具栏、Canvas、本体面板、时间轴
Canvas src/components/CanvasArea.tsx 显示帧、缩放平移、点/框提示、渲染 mask
工具栏 src/components/ToolsPalette.tsx 切换工具、跳转 AI 页面、触发 mask 撤销/重做
时间轴 src/components/FrameTimeline.tsx 帧导航、左右方向键切帧、播放和当前/总时长显示
本体面板 src/components/OntologyInspector.tsx 模板选择、分类树、本地自定义分类
AI 页面 src/components/AISegmentation.tsx 独立 AI 推理视图,使用当前项目帧
模板库 src/components/TemplateRegistry.tsx 模板 CRUD、分类编辑、导入、排序

后端模块

模块 文件 设计职责
应用入口 backend/main.py FastAPI app、CORS、路由注册、健康检查、WebSocket
配置 backend/config.py Pydantic settings
数据库 backend/database.py SQLAlchemy engine、session、Base
模型 backend/models.py Project、Frame、Template、Annotation、Mask、ProcessingTask
Schema backend/schemas.py Pydantic 请求/响应模型
Auth backend/routers/auth.py 开发登录
Projects backend/routers/projects.py 项目与帧 CRUD
Templates backend/routers/templates.py 模板 CRUD 和 mapping_rules 打包/解包
Media backend/routers/media.py 上传媒体和拆帧
AI backend/routers/ai.py SAM 2 / SAM 3 可选推理、视频传播、模型状态和标注保存
Export backend/routers/export.py COCO 和 PNG mask 导出
SAM 2 backend/services/sam2_engine.py SAM 2 懒加载、状态检测、点/框/自动推理和视频 mask 传播
SAM 3 backend/services/sam3_engine.py, backend/services/sam3_external_worker.py, backend/setup_sam3_env.sh SAM 3 状态检测、独立 Python 3.12 环境桥接、本地 checkpoint 加载、文本语义推理、正框几何提示和 video tracker 适配
SAM Registry backend/services/sam_registry.py 模型选择、GPU 状态和推理分发

状态模型

前端 store 的核心对象:

  • Project项目基本信息、状态、帧数、fps、媒体路径。
  • Frame:帧 ID、项目 ID、索引、图片 URL、宽高、序列时间戳和原视频源帧号。
  • Template / TemplateClass:模板和分类定义。
  • Mask:前端渲染用 mask包含 pathDatasegmentationbboxarea
  • selectedMaskIdsCanvas 当前选中的 mask id 列表,供右侧本体面板对已选区域直接换标签。
  • maskHistory / maskFuturemask 编辑历史栈,用于撤销和重做。
  • activeModule:当前页面。
  • activeTool:当前工具。
  • aiModel:当前选择的 AI 模型,取值为 sam2sam3

关键数据流

登录

  1. Login 收集用户名和密码。
  2. login() 调用 POST /api/auth/login
  3. 成功后 store 写入 tokenApp 渲染主界面。

项目导入与生成帧

  1. ProjectLibrary 创建项目。
  2. 导入视频时上传源视频到 /api/media/upload 并关联项目;该步骤不调用 /api/media/parse
  3. 用户在项目卡片点击“生成帧”,在弹窗中选择目标 FPS。
  4. 前端调用 /api/media/parse 创建异步拆帧任务;可通过 parse_fpsmax_framestarget_width 指定标准帧序列参数。
  5. Celery worker 执行 FFmpeg/OpenCV/pydicom 拆帧,视频帧按 frame_%06d.jpgframe_000000.jpg 连续命名,并按目标宽度缩放。
  6. worker 写入 frames.timestamp_msframes.source_frame_number,并在任务 result.frame_sequence 中记录 FPS、帧数、时长、尺寸和对象存储前缀。
  7. worker 持续更新 processing_tasks,并发布 Redis seg:progress
  8. 刷新项目列表。

任务控制

  1. Dashboard 从 GET /api/dashboard/overview 读取 queued/running/failed/cancelled 任务。
  2. 用户取消任务时,前端调用 POST /api/tasks/{task_id}/cancel;后端写入 cancelled、设置 finished_at,并尝试 celery_app.control.revoke(..., terminate=True)
  3. worker 在下载、解析、上传、写帧等关键阶段刷新任务状态;如果发现 cancelled,停止后续写入并发布 cancelled 事件。
  4. 用户重试任务时,前端调用 POST /api/tasks/{task_id}/retry;后端基于原任务 payload 创建新任务,记录 retry_of 并重新投递 Celery。
  5. 用户打开详情时,前端调用 GET /api/tasks/{task_id},弹窗展示 error、payload、result、Celery ID 和时间。
  6. Dashboard 通过 /ws/progress 接收 Redis seg:progress 转发事件;前端 WebSocket 客户端在 onopen/onclose/onerror 主动更新连接状态,并定时发送 ping 心跳,服务端返回 status 确认连接仍活跃。

工作区加载

  1. VideoWorkspace 根据 currentProject.id 调用 getProjectFrames()
  2. 若无帧但项目有 video_path,显示“尚未生成帧”的状态提示,不自动触发 parseMedia()
  3. 帧数据映射为 store Frame[],包含 timestampMssourceFrameNumber,供时间轴和后续视频传播使用。
  4. 当前帧传入 CanvasArea

AI 点/框推理

  1. 用户在 Canvas 选择正向点、反向点或框选。
  2. CanvasArea 读取当前帧 ID 和宽高。
  3. SAM 2 框选会创建一个候选 mask并记录原始框后续正向点/反向点会累计到同一候选上。
  4. predictMask() 归一化坐标并携带当前 model 调用 /api/ai/predict;同时有框和点时发送 interactive prompt。
  5. SAM 2 请求中只要存在反向点,CanvasArea 会额外发送 options.auto_filter_background=trueoptions.min_score=0.05,让后端移除低分结果和包含负向点的 polygon。
  6. 后端加载帧图片并通过 SAM registry 分发到 SAM 2 或 SAM 3。
  7. 前端把 polygons 转为 mask交互式细化会替换同一个候选 mask而不是新增多个 mask。
  8. 若带反向点的 SAM 2 细化返回空结果,前端会删除当前旧候选 mask 并提示反向点已排除该区域。
  9. Canvas 按当前帧过滤并渲染 mask。
  10. 新 mask 会带上当前选择的模板分类元数据,包括 classIdclassNameclassZIndex 和保存状态 draft
  11. 用户点击“结构化归档保存”后,前端将像素 segmentation 转成 normalized mask_data.polygons;未保存 mask 调用 POST /api/ai/annotatedirty mask 调用 PATCH /api/ai/annotations/{annotation_id}
  12. 工作区加载项目帧后通过 GET /api/ai/annotations 取回已保存标注并转成前端 mask。
  13. 工作区“清空遮罩”删除当前帧已保存标注,并清除当前帧本地 mask。

视频片段传播

  1. 用户在工作区选中一个当前帧 mask如果未显式选中前端使用当前帧第一个 mask。
  2. VideoWorkspacebuildAnnotationPayload() 把 seed mask 转成 normalized polygon、bbox、label、color 和 class 元数据。
  3. 前端调用 POST /api/ai/propagate,默认 direction=forwardmax_frames=30include_source=false
  4. 后端按项目帧序列截取片段,下载对应帧到临时 frame_%06d.jpg 目录,保持当前帧在片段中的相对索引。
  5. model=sam2 时,sam2_engine 使用 SAM2VideoPredictor.add_new_mask() 注入 seed mask再用 propagate_in_video() 传播。
  6. model=sam3 时,sam3_engine 将请求交给 sam3_external_worker.py,由独立 Python 3.12 环境调用官方 build_sam3_video_predictor(),以 seed bbox 走 video tracker。
  7. 后端把传播返回的 normalized polygon 保存为后续帧 Annotation,跳过源帧,mask_data.source 记录模型传播来源。
  8. 前端传播完成后重新调用 GET /api/ai/annotations 并回显新标注。

手工绘制与历史栈

  1. 用户在 ToolsPalette 选择多边形、矩形、圆、点或线工具。
  2. CanvasArea 将交互坐标转换成像素 polygon。
  3. 多边形工具逐次记录节点,三点后点击首节点或按 Enter 时生成闭合 polygon。
  4. mask path 只在 moveedit_polygonarea_mergearea_remove 工具下拦截点击;绘制和 AI prompt 工具点击已有 mask 时继续冒泡给 Stage。
  5. 新 mask 写入 pathData、像素 segmentationbboxarea 和当前模板分类元数据。
  6. addMask()setMasks()updateMask()clearMasks() 会维护 maskHistory/maskFuture
  7. 工具栏按钮、AI 页按钮和 Canvas Ctrl+Z/Ctrl+Y 调用 undoMasks() / redoMasks()

Polygon 逐点编辑

  1. 用户选择“调整多边形”或“拖拽/选择”后点击 Canvas 上的 mask pathCanvasArea 记录 selectedMaskId 并显示该 mask 第一条 polygon 的顶点控制点和边中点插入手柄。
  2. 拖动顶点后,前端重算 pathData、像素 segmentationbboxarea
  3. 点击边中点手柄会在该边中点插入新顶点;在“调整多边形”工具下双击 polygon path 会在最接近的线段上按双击位置插入新顶点。
  4. 如果 mask 已有 annotationId,编辑会把 saveStatus 标成 dirtysaved=false
  5. 归档保存时复用现有 PATCH /api/ai/annotations/{annotation_id} 链路,把更新后的 normalized polygon 写回后端。
  6. 选中顶点后 Delete/Backspace 可删除顶点;前端保持 polygon 至少三点。
  7. 未选中具体顶点但选中了 mask 时Delete/Backspace 从前端 store 删除该 mask如果包含 annotationId,通过工作区回调调用后端删除接口。

区域合并与去除

  1. 用户选择 area_mergearea_remove 后,点击多个当前帧 mask 组成选择集。
  2. 合并/去除模式隐藏 polygon 顶点和边中点编辑手柄,并在右下角显示已选数量;少于两个 mask 时操作按钮禁用。
  3. CanvasAreaMask.segmentation 转为 polygon-clipping 的 MultiPolygon。
  4. area_merge 使用 union更新第一个选中的主 mask并从前端 store 移除后续被合并 mask如果被移除 mask 已保存,会调用工作区传入的删除回调删除后端标注。
  5. area_remove 使用 difference从第一个选中的主 mask 中扣除后续选中 mask扣除对象本身保留如果 difference 产生内洞,segmentation 保留外圈和 hole ring渲染时使用 even-odd fill。
  6. 结果会重算 pathDatasegmentationbboxarea,已保存主 mask 会进入 dirty 状态并复用归档 PATCH 链路;带洞结果的面积按外圈减内洞计算。

GT Mask 导入

  1. 工作区“导入 GT Mask”选择图片文件。
  2. 前端 importGtMask() 以 multipart form-data 调用 POST /api/ai/import-gt-mask,携带 project_idframe_id
  3. 后端验证项目、帧、模板后使用 OpenCV 读取灰度 mask。
  4. 后端按非零像素值拆分多类别标签。
  5. 后端对每个类别的前景做 contour 提取,每个连通域保存为一个 Annotation
  6. points 字段保存距离变换中心 seed pointmask_data.polygons 保存 normalized polygonmask_data.gt_label_value 保存原始像素类别值。
  7. 前端重新读取项目标注并回显。
  8. annotationToMask() 会把 normalized seed point 转成像素坐标Canvas 以可拖拽点显示;拖动后 buildAnnotationPayload() 会把点再归一化写回后端。

模板管理

  1. TemplateRegistry 从后端读取模板。
  2. 编辑态在组件本地维护分类列表。
  3. 保存时调用 createTemplate()updateTemplate()
  4. 后端把 classesrules 打包进 mapping_rules
  5. 返回时再解包给前端。
  6. CanvasArea 把当前选中的 mask id 同步到全局 selectedMaskIds;切换工具、切换帧或卸载 Canvas 时会清空选择。
  7. AISegmentation 生成 mask 后会写入全局 masks 并把生成的 mask id 写入 selectedMaskIds;点击 AI 页预览 mask 也会更新 selectedMaskIds
  8. AI 页“推送至工作区编辑”会切换到工作区并把 activeTool 设为 edit_polygonCanvasArea 初始读取全局 selectedMaskIds,让 AI 页选中的 mask 在工作区继续保持选中。
  9. OntologyInspector 可以选择具体分类;选择结果进入全局 storeCanvasAreaAISegmentation 新建/更新 mask 时使用。
  10. 如果 selectedMaskIds 中存在当前 store 的 mask点击分类时会立即更新这些 mask 的 templateIdclassIdclassNameclassZIndexlabelcolor
  11. 已保存 mask 被重新分类后进入 dirtysaved=false,继续复用工作区归档保存的 PATCH 链路。

导出

  1. 后端根据项目、帧、标注和模板生成 COCO JSON。
  2. PNG mask 导出会把 normalized polygon 渲染为单标注二值 mask。
  3. PNG mask 导出还会按 mask_data.class.zIndex 或模板 z_index 从低到高覆盖,生成每帧语义融合 mask。
  4. ZIP 内写入 semantic_classes.json,记录语义值到类别、颜色和 zIndex 的映射。
  5. 前端“导出 JSON 标注集”和“导出 PNG Mask ZIP”按钮都会在导出前保存待归档标注然后下载对应文件。

接口契约

接口详情见 doc/04-api-contracts.md。测试中重点固定以下契约:

  • updateProject() 使用 PATCH /api/projects/{id}
  • exportCoco() 使用 GET /api/export/{projectId}/coco
  • exportMasks() 使用 GET /api/export/{projectId}/masks
  • cancelTask() 使用 POST /api/tasks/{taskId}/cancel
  • retryTask() 使用 POST /api/tasks/{taskId}/retry
  • predictMask() 使用 POST /api/ai/predict,请求体为 image_idprompt_typeprompt_datamodel
  • propagateMasks() 使用 POST /api/ai/propagate,请求体为 project_idframe_idmodelseeddirectionmax_frames
  • saveAnnotation() 使用 POST /api/ai/annotate
  • importGtMask() 使用 POST /api/ai/import-gt-mask multipart form-data。
  • getProjectAnnotations() 使用 GET /api/ai/annotations
  • updateAnnotation() 使用 PATCH /api/ai/annotations/{annotationId}
  • deleteAnnotation() 使用 DELETE /api/ai/annotations/{annotationId}
  • parseMedia() 使用 POST /api/media/parse?project_id=...,可选 parse_fpsmax_framestarget_width,用于生成标准帧序列。
  • getProjectFrames() 返回帧图像 URL、宽高、timestamp_mssource_frame_number
  • 后端 /api/ai/predict 支持 point、box、interactive、semantic 四种 prompt_type并通过 model 选择 SAM 2 或 SAM 3。
  • SAM 2 是点/框交互式分割模型不做文本语义分割AI 页面在 SAM 2 + 纯文本时直接提示用户改用点提示或切换 SAM 3。
  • SAM 2 点提示和 auto fallback 只返回一个最高分候选,避免同一提示产生多个重叠候选 mask。
  • 当前 SAM 3 暴露 semantic 文本语义推理和 box 几何提示;工作区 Canvas 的点交互会在选择 SAM 3 时显示提示,不再静默失败。
  • SAM 3 box prompt 复用后端 /api/ai/predictbox prompt_type输入仍是 normalized [x1, y1, x2, y2],引擎适配层会转换为官方 add_geometric_prompt() 使用的 [center_x, center_y, width, height] 正框。
  • AI 页面选择 SAM 3 时优先发送文本 semantic prompt不会把正/反点误发送为 SAM 3 point prompt空文本、后端错误和空结果都会显示反馈消息。
  • 后端 /api/ai/predict 支持可选 optionscrop_to_prompt 会对 point/box/interactive prompt 做局部裁剪推理并回映射 polygonauto_filter_background 会按 min_score 和负向点过滤结果SAM 3 semantic 会把正数 min_score 传给 external worker 作为 confidence_threshold
  • 后端 /api/ai/propagate 支持 SAM 2 mask seed 视频传播和 SAM 3 external video tracker当前前端默认向后传播 30 帧并保存结果标注。
  • 后端 /api/ai/models/status 返回 GPU、SAM 2、SAM 3 的真实运行状态SAM 3 状态包含外部 Python 环境与 checkpoint access 的可用性。
  • point prompt 支持旧数组形式和 { points, labels } 对象形式。

外部依赖边界

测试不直接依赖以下真实服务:

  • PostgreSQL后端测试使用内存 SQLite。
  • MinIO上传、下载、预签名 URL 使用 monkeypatch。
  • Redis单测使用 monkeypatch 验证进度事件发布,不依赖真实 Redis 服务。
  • SAMAI 推理测试使用 fake registry。
  • 浏览器 Canvas/Konva 图片加载:前端测试 mock react-konvause-image

已知占位设计

以下能力属于当前冻结版本的占位或半可用功能:

  • Dashboard 初始快照来自 GET /api/dashboard/overview;解析队列由 processing_tasks queued/running/failed/cancelled 任务生成。
  • 已保存标注支持通过“应用分类”、polygon 顶点拖动/删除、边中点插入、多 polygon 子区域编辑和区域合并/去除进入 dirty 状态并归档更新;选中整块 mask 可用 Delete/Backspace 删除并同步后端;复杂洞结构编辑尚未实现。
  • SAM 3 文本语义分割取决于官方依赖、GPU 运行环境和本地 checkpoint状态接口会暴露真实可用性运行时缺失时 available=false
  • 自定义分类只存在本地组件状态。
  • GT mask 导入已完成多类别像素值拆分、contour、distance transform seed point 和前端 seed point 拖拽编辑骨架提取、HDBSCAN 聚类和模板自动映射尚未实现。