💡 Feature Request
感谢你对 WatchAlert 的关注与支持!如果你有一个改进本项目的想法,请按照以下模板提交你的建议。这将有助于我们更好地评估和实现新功能。
功能名称(Feature Name)
支持按节点/标签配置 Prometheus 告警阈值
功能描述(Description)
希望Prometheus 告警规则支持基于指标标签配置不同的告警阈值。
当前同一条告警规则通常只能配置一组统一阈值,例如所有节点内存使用率 > 95 持续 300 秒告警。但在实际生产环境中,不同节点、不同业务、不同系统类型的告警阈值往往不一样。
例如:
- 节点 A 内存使用率超过 98% 才告警
- 节点 B 内存使用率超过 95% 就告警
- 核心业务节点和普通业务节点的 CPU、内存、磁盘阈值策略不同
希望在保留全局默认阈值的基础上,可以按指标标签覆盖阈值
使用场景(Use Cases)
- 同一条节点资源告警规则中,不同节点配置不同阈值
- 按业务标签配置差异化告警策略,例如
service=core
- 按系统类型配置不同阈值,例如
os_type=Linux、os_type=Windows
- 减少为了少量特殊节点复制多条告警规则的问题
- 降低 Prometheus 告警规则维护成本
示例(Examples)(可选)
实现建议(Implementation Suggestions)(可选)
其他信息(Optional)
我已经基于 fork 仓库实现了初步版本,准备分别提交后端和前端 PR。
💡 Feature Request
感谢你对 WatchAlert 的关注与支持!如果你有一个改进本项目的想法,请按照以下模板提交你的建议。这将有助于我们更好地评估和实现新功能。
功能名称(Feature Name)
支持按节点/标签配置 Prometheus 告警阈值
功能描述(Description)
希望Prometheus 告警规则支持基于指标标签配置不同的告警阈值。
当前同一条告警规则通常只能配置一组统一阈值,例如所有节点内存使用率
> 95持续 300 秒告警。但在实际生产环境中,不同节点、不同业务、不同系统类型的告警阈值往往不一样。例如:
希望在保留全局默认阈值的基础上,可以按指标标签覆盖阈值
使用场景(Use Cases)
service=coreos_type=Linux、os_type=Windows示例(Examples)(可选)
实现建议(Implementation Suggestions)(可选)
其他信息(Optional)
我已经基于 fork 仓库实现了初步版本,准备分别提交后端和前端 PR。
后端支持按指标 labels 匹配阈值覆盖
前端支持标签阈值覆盖配置
前端支持根据 PromQL 自动加载标签
保持旧规则兼容,不影响未开启该功能的规则
后端 PR:feat: 支持按标签配置告警阈值覆盖 #249
前端 PR:feat: 支持标签阈值覆盖配置 WatchAlert-web#111