Skip to content

checkup 评分由 LLM 计算,存在跳步或算错的风险 #56

@nnn228085-star

Description

@nnn228085-star

问题描述
checkup 命令依赖 LLM 执行 7 项检查、计算 5 个维度的分数、应用权重并写入 JSON。LLM 可能"偷懒"——跳过某些检查、用估算代替实测——导致健康分数不准确,且没有任何提示表明结果是估算出来的。

建议修复方案
agentguard checkup --json 实现为纯脚本模式。LLM 只负责调用脚本、读取结构化输出并提供解读,不参与计算和评分过程。

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions