Skip to content

支持按节点/标签配置 Prometheus 告警阈值 #248

@myrat92

Description

@myrat92

💡 Feature Request

感谢你对 WatchAlert 的关注与支持!如果你有一个改进本项目的想法,请按照以下模板提交你的建议。这将有助于我们更好地评估和实现新功能。


功能名称(Feature Name)

支持按节点/标签配置 Prometheus 告警阈值


功能描述(Description)

希望Prometheus 告警规则支持基于指标标签配置不同的告警阈值。

当前同一条告警规则通常只能配置一组统一阈值,例如所有节点内存使用率 > 95 持续 300 秒告警。但在实际生产环境中,不同节点、不同业务、不同系统类型的告警阈值往往不一样。

例如:

  • 节点 A 内存使用率超过 98% 才告警
  • 节点 B 内存使用率超过 95% 就告警
  • 核心业务节点和普通业务节点的 CPU、内存、磁盘阈值策略不同

希望在保留全局默认阈值的基础上,可以按指标标签覆盖阈值


使用场景(Use Cases)

  • 同一条节点资源告警规则中,不同节点配置不同阈值
  • 按业务标签配置差异化告警策略,例如 service=core
  • 按系统类型配置不同阈值,例如 os_type=Linuxos_type=Windows
  • 减少为了少量特殊节点复制多条告警规则的问题
  • 降低 Prometheus 告警规则维护成本

示例(Examples)(可选)


实现建议(Implementation Suggestions)(可选)


其他信息(Optional)

我已经基于 fork 仓库实现了初步版本,准备分别提交后端和前端 PR。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions