Skip to content

Skill Test 支持阶段型输出事件、传感器输入与基于阶段 Fork #2

@shihao-Liiiii

Description

@shihao-Liiiii

目标

将 Skill Test 从“输入事件 + 语义期望”升级为“多信道输入 + 阶段型输出”。输出信道中的每个事件代表一个现实任务阶段,可被评估、回放、作为 fork 起点。

需求范围

  • 保留现有输入信道:文本、图片、音频、视频。
  • 新增输入信道:
    • GPS 定位
    • 三轴空间定位
  • 输出信道事件明确表达“阶段”:
    • 阶段时间点
    • 阶段期望
    • 真实模型输出
    • 智能体判定结果
    • 人工判定结果占位
  • Fork Scenario / Fork Debug 支持基于某个输出阶段事件触发。
  • Fork request shape 保持现有 cursor: { time_ms, terminal_seq, snapshot_seq },前端负责从阶段事件反推 cursor。

接口 / 数据影响

  • 扩展 psop-skill-test-timeline/v1 lane 定义:增加 sensor lane,并把 expected.semantic 明确为阶段型输出信道。
  • Sensor payload 建议:
    • GPS: { latitude, longitude, altitude?, accuracy_m?, timestamp? }
    • 三轴空间定位: { x, y, z, roll?, pitch?, yaw?, timestamp? }
  • Review DTO 增加阶段输出相关展示数据:期望、真实输出、Judge 结果、人工判定占位。
  • /fork-scenario/fork-debug 请求结构不变。

验收标准

  • 新建测试场景默认能看到 GPS、三轴定位、阶段输出信道。
  • GPS/三轴事件可创建、编辑、保存、再次加载。
  • Review 中点击阶段输出事件后,可看到阶段 id、时间、期望、真实输出、Judge 结果、人工判定占位。
  • 从阶段事件 Fork 时,fork 起点与该阶段时间一致。

测试建议

  • 后端单测覆盖 sensor timeline 保存、review DTO、fork cursor。
  • 前端 Jest 覆盖 sensor lane 渲染、阶段事件详情、阶段事件 fork。
  • 回归现有 skill test timeline normalization 与 review 测试。

约束

  • 测试执行仍必须创建真实 invocation/run/terminal session。
  • 测试模块不模拟 Runtime,不直接写 Session Token。
  • Runtime Kernel 仍是唯一正式状态主权者。

Metadata

Metadata

Assignees

Labels

No fields configured for Feature.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions