菜单
Grafana Cloud Enterprise 开源 RSS

通知

选择如何、何时以及发送告警通知到哪里,是设置告警系统的重要组成部分。这些决定直接影响你的团队快速解决问题和最小化告警噪音的能力。

开始定义你的联系点,指定如何接收告警通知。然后,配置告警规则,将告警发送到联系点,或者使用通知策略树灵活地将告警路由到联系点。


Configure alert rules to forward firing alerts directly to a contact point or through notification policies
配置告警规则将触发的告警直接转发到联系点或通过通知策略转发

工作原理一览

  • Grafana 告警会定期评估你的告警规则,并为触发和已解决的告警实例触发通知。
  • 你可以将告警规则配置为将通知发送到联系点,或通过通知策略进行路由,以获得更大的灵活性。
  • 为了最小化告警噪音,可以通过对告警标签和通知时间进行分组,将相似的告警合并到单个通知中。

基本概念

联系点

联系点包含发送告警通知的配置,指定诸如电子邮件、Slack、IRM、webhook 等目的地及其通知消息。

联系点是集成的列表,每个集成将消息发送到特定目的地。

默认情况下,通知消息包含常见的告警详情,例如告警数量、告警名称、标签、注释以及其他告警信息。你还可以自定义通知消息并使用通知模板。

首先,创建联系点并测试通知。然后,配置告警规则,将通知发送到联系点或通过通知策略发送。

通知策略

通知策略是全面告警系统的支柱。它们提供了一种灵活有效的方法,将告警路由到不同的联系点,有助于减少告警噪音,同时确保不会遗漏任何告警。

通知策略树负责

  • 定义可以继承或覆盖父通知设置的嵌套策略。
  • 通过将告警标签与相应的通知策略匹配来路由告警。
A diagram displaying how the notification policy tree routes alerts

每个通知策略处理特定任务

  • 决定哪个联系点接收告警通知。
  • 根据其通知时间选项控制何时发送通知。
  • 将多个告警分组到单个通知中以减少告警噪音。
A diagram of the notification policy component

对告警通知进行分组

当我们的系统发生故障时,告警设置很容易触发数百甚至数千个告警实例(通知)。多个告警规则通常同时触发。此外,每个告警规则可能会生成多个告警实例。

对告警通知进行分组通常是必要的,以避免告警收件箱被轰炸。分组将特定时期内相似的告警实例合并到单个通知中。

通知分组使用

  • 标签:使用标签对同类型的告警实例进行分组。
  • 时间选项:在发送通知之前等待指定的时间段,以便对传入的告警实例进行分组。

模板、静默和静音时间

Grafana 告警提供高级通知功能,在你和你的团队完善初始告警系统时会发现这些功能非常有用。

例如,你可以使用共享模板自定义通知,这些模板提供可操作的告警信息,并可重复用于多个通知。

此外,你可以使用静默静音时间来暂停或抑制通知,而不会中断告警评估。

架构

Grafana 告警基于 Prometheus 设计告警系统的模型。其架构将告警生成器与告警通知管理器(称为 Alertmanager)解耦,以增强可扩展性和性能。

A diagram with the alert generator and alert manager architecture

Grafana 提供了一个自定义的 Alertmanager,扩展了 Prometheus Alertmanager,用于管理和发送告警通知。如果你运行 Prometheus 或 Mimir Alertmanager,你可以配置 Grafana 告警来管理它们,并处理 Grafana 管理的告警的通知。详情请参考配置 Alertmanagers