菜单
文档breadcrumb arrow Grafana 文档breadcrumb arrow 告警breadcrumb arrow 介绍breadcrumb arrow 告警规则评估
Grafana Cloud Enterprise 开源 RSS

告警规则评估

确定告警规则何时触发的标准基于两个设置

  • 评估组:告警规则评估的频率。
  • 挂起周期:条件必须满足多长时间才能开始触发。
Set the evaluation behavior of the alert rule in Grafana.
设置告警规则评估

评估组

每个告警规则都被分配到一个评估组。您可以将告警规则分配到现有评估组或创建一个新组。

每个评估组包含一个评估间隔,用于确定检查告警规则的频率。例如,评估可能每 10s30s1m10m 等进行一次。

评估策略

不同组中的告警规则可以同时评估。

  • 同一组中由 Grafana 管理的告警规则是并发评估的——它们在同一评估间隔的不同时间进行评估,但显示相同的评估时间戳。

  • 同一组中由 数据源管理的告警规则是顺序评估的,一个接一个——这有助于确保在告警规则之前评估录制规则。

  • 数据源管理的规则导入的由 Grafana 管理的规则可以顺序或并行评估,具体取决于导入方式。更多信息,请参考导入规则的评估

挂起周期

您可以设置挂起周期,以防止因临时问题而触发不必要的告警。

挂起周期指定了条件在触发前必须满足的时间长度,确保条件在连续的一段时间内持续满足。

您还可以将挂起周期设置为零来跳过它,使告警在条件满足时立即触发。

持续触发时间

您可以设置一个持续触发时间,以便在阈值不再被突破后仍使告警保持触发状态。这将把告警设置为恢复中状态。在恢复中状态下,即使阈值再次被突破,告警也不会再次触发。然后,持续触发计时器会重置,告警会转换回告警状态。

持续触发时间有助于减少由告警抖动(Flapping)引起的重复触发-解决-触发通知场景。

评估示例

请记住

  • 一个告警规则可以生成多个告警实例——告警规则查询产生的每个时间序列对应一个实例。
  • 来自同一告警规则的告警实例可能处于不同的状态。例如,只有一个被监控的机器可能开始触发告警。
  • 只有处于告警中 (Alerting)已解决 (Resolved) 状态的告警实例才会被路由来管理它们的通知。
A diagram of the alert instance states and when to route their notifications.

考虑一个告警规则,其评估间隔设置为每 30 秒一次,挂起周期为 90 秒。评估过程如下

时间条件告警实例状态挂起计数器
00:30 (第一次评估)未满足正常-
01:00 (第二次评估)已突破挂起中0 秒
01:30 (第三次评估)已突破挂起中30 秒
02:00 (第四次评估)已突破挂起中60 秒
02:30 (第五次评估)已突破告警中*90 秒

当告警实例从触发中 (Firing) 状态转换为正常 (Normal) 状态时,告警实例被解决。例如,在上面的例子中

时间条件告警实例状态挂起计数器
03:00 (第六次评估)未满足正常 已解决 *120 秒
03:30 (第七次评估)未满足正常150 秒

要了解有关告警规则和告警实例状态变化的更多信息,请参考告警规则的状态和健康状况