目标
将 Skill Test 从“输入事件 + 语义期望”升级为“多信道输入 + 阶段型输出”。输出信道中的每个事件代表一个现实任务阶段,可被评估、回放、作为 fork 起点。
需求范围
- 保留现有输入信道:文本、图片、音频、视频。
- 新增输入信道:
- 输出信道事件明确表达“阶段”:
- 阶段时间点
- 阶段期望
- 真实模型输出
- 智能体判定结果
- 人工判定结果占位
- Fork Scenario / Fork Debug 支持基于某个输出阶段事件触发。
- Fork request shape 保持现有
cursor: { time_ms, terminal_seq, snapshot_seq },前端负责从阶段事件反推 cursor。
接口 / 数据影响
- 扩展
psop-skill-test-timeline/v1 lane 定义:增加 sensor lane,并把 expected.semantic 明确为阶段型输出信道。
- Sensor payload 建议:
- GPS:
{ latitude, longitude, altitude?, accuracy_m?, timestamp? }
- 三轴空间定位:
{ x, y, z, roll?, pitch?, yaw?, timestamp? }
- Review DTO 增加阶段输出相关展示数据:期望、真实输出、Judge 结果、人工判定占位。
/fork-scenario 与 /fork-debug 请求结构不变。
验收标准
- 新建测试场景默认能看到 GPS、三轴定位、阶段输出信道。
- GPS/三轴事件可创建、编辑、保存、再次加载。
- Review 中点击阶段输出事件后,可看到阶段 id、时间、期望、真实输出、Judge 结果、人工判定占位。
- 从阶段事件 Fork 时,fork 起点与该阶段时间一致。
测试建议
- 后端单测覆盖 sensor timeline 保存、review DTO、fork cursor。
- 前端 Jest 覆盖 sensor lane 渲染、阶段事件详情、阶段事件 fork。
- 回归现有 skill test timeline normalization 与 review 测试。
约束
- 测试执行仍必须创建真实 invocation/run/terminal session。
- 测试模块不模拟 Runtime,不直接写 Session Token。
- Runtime Kernel 仍是唯一正式状态主权者。
目标
将 Skill Test 从“输入事件 + 语义期望”升级为“多信道输入 + 阶段型输出”。输出信道中的每个事件代表一个现实任务阶段,可被评估、回放、作为 fork 起点。
需求范围
cursor: { time_ms, terminal_seq, snapshot_seq },前端负责从阶段事件反推 cursor。接口 / 数据影响
psop-skill-test-timeline/v1lane 定义:增加 sensor lane,并把expected.semantic明确为阶段型输出信道。{ latitude, longitude, altitude?, accuracy_m?, timestamp? }{ x, y, z, roll?, pitch?, yaw?, timestamp? }/fork-scenario与/fork-debug请求结构不变。验收标准
测试建议
约束