告警规则评估
确定告警规则何时触发的标准基于两个设置

评估组
每个告警规则都被分配到一个评估组。您可以将告警规则分配到现有评估组或创建一个新组。
每个评估组包含一个评估间隔,用于确定检查告警规则的频率。例如,评估可能每 10s
、30s
、1m
、10m
等进行一次。
评估策略
不同组中的告警规则可以同时评估。
同一组中由 Grafana 管理的告警规则是并发评估的——它们在同一评估间隔的不同时间进行评估,但显示相同的评估时间戳。
同一组中由 数据源管理的告警规则是顺序评估的,一个接一个——这有助于确保在告警规则之前评估录制规则。
从数据源管理的规则导入的由 Grafana 管理的规则可以顺序或并行评估,具体取决于导入方式。更多信息,请参考导入规则的评估。
挂起周期
您可以设置挂起周期,以防止因临时问题而触发不必要的告警。
挂起周期指定了条件在触发前必须满足的时间长度,确保条件在连续的一段时间内持续满足。
您还可以将挂起周期设置为零来跳过它,使告警在条件满足时立即触发。
持续触发时间
您可以设置一个持续触发时间,以便在阈值不再被突破后仍使告警保持触发状态。这将把告警设置为恢复中状态。在恢复中状态下,即使阈值再次被突破,告警也不会再次触发。然后,持续触发计时器会重置,告警会转换回告警状态。
持续触发时间有助于减少由告警抖动(Flapping)引起的重复触发-解决-触发通知场景。
评估示例
请记住
- 一个告警规则可以生成多个告警实例——告警规则查询产生的每个时间序列对应一个实例。
- 来自同一告警规则的告警实例可能处于不同的状态。例如,只有一个被监控的机器可能开始触发告警。
- 只有处于告警中 (Alerting) 和已解决 (Resolved) 状态的告警实例才会被路由来管理它们的通知。

考虑一个告警规则,其评估间隔设置为每 30 秒一次,挂起周期为 90 秒。评估过程如下
时间 | 条件 | 告警实例状态 | 挂起计数器 |
---|---|---|---|
00:30 (第一次评估) | 未满足 | 正常 | - |
01:00 (第二次评估) | 已突破 | 挂起中 | 0 秒 |
01:30 (第三次评估) | 已突破 | 挂起中 | 30 秒 |
02:00 (第四次评估) | 已突破 | 挂起中 | 60 秒 |
02:30 (第五次评估) | 已突破 | 告警中* | 90 秒 |
当告警实例从触发中 (Firing
) 状态转换为正常 (Normal
) 状态时,告警实例被解决。例如,在上面的例子中
时间 | 条件 | 告警实例状态 | 挂起计数器 |
---|---|---|---|
03:00 (第六次评估) | 未满足 | 正常 已解决 * | 120 秒 |
03:30 (第七次评估) | 未满足 | 正常 | 150 秒 |
要了解有关告警规则和告警实例状态变化的更多信息,请参考告警规则的状态和健康状况。