菜单
Grafana Cloud Enterprise 开源 RSS

告警简介

无论您是 Grafana Alerting 的新手还是经验丰富的用户,都可以了解更多基础知识和可用功能,帮助您创建、管理和响应告警;并提高团队快速解决问题的能力。

提示

如需动手实践入门,请参考我们的Grafana Alerting 入门教程

下图概述了 Grafana Alerting,并介绍了其工作原理的一些基本功能。


How Grafana Alerting works

工作原理概览

  • Grafana Alerting 定期查询数据源并评估告警规则中定义的条件
  • 如果条件被违反,将触发一个告警实例
  • 触发(和已解决)的告警实例将发送通知,可以直接发送到联系点,也可以通过通知策略实现更灵活的控制

基础知识

以下概念对于理解 Grafana Alerting 的工作原理至关重要。

告警规则

一个告警规则由一个或多个选择要测量数据的查询和表达式组成。它还包含一个条件,该条件是告警规则触发必须达到或超过的阈值。

在告警规则中,选择联系点或通知策略以确定如何接收告警通知。

告警实例

每个告警规则可以生成多个告警实例(也称为告警)——每个时间序列一个告警实例。这非常强大,因为它允许您在一个表达式中观察多个序列。

promql
sum by(cpu) (
  rate(node_cpu_seconds_total{mode!="idle"}[1m])
)

使用上述 PromQL 表达式的规则在首次评估后会创建与 CPU 数量一样多的告警实例,使得单个规则能够报告每个 CPU 的状态。

Multiple alert instances from a single alert rule
单个告警规则的多个告警实例

告警规则会被频繁评估并相应地更新其告警实例的状态。只有处于触发或已解决状态的告警实例才会发送通知。

联系点

联系点确定通知消息和发送位置。例如,您可以有一个联系点,将通知发送到电子邮件地址、Slack、事件管理系统 (IRM)(例如 Grafana IRM 或 PagerDuty)或 Webhook。

通知消息

默认情况下,通知消息包含告警详情,例如告警数量、状态以及用于帮助响应人员解决告警问题的注释。通知消息也可以自定义。

在告警规则中,您可以选择一个联系点来接收告警通知,或者改用通知策略。

通知策略

通知策略是处理大型系统告警通知的高级选项。

通知策略通过标签匹配将告警路由到联系点。每个通知策略包含一组(0 个或多个)标签匹配器,用于指定它们处理哪些告警实例(通过其标签识别)。通知策略以树形结构定义,其中通知策略树的根节点是默认通知策略,它确保所有告警实例都得到处理。

A diagram displaying how the notification policy tree routes alerts
通过通知策略路由触发的告警实例

每个通知策略决定将告警发送到哪里(联系点)以及何时发送通知(定时选项)。此外,它还可以将多个触发的告警实例分组到单个通知中,以减少告警噪音。

A diagram of the notification policy component

静默和静默时间

静默静默时间允许您暂停通知,而不会中断告警规则评估。使用静默一次性暂停通知,例如在维护窗口期间;使用静默时间按规律间隔暂停通知,例如晚上和周末。

架构

Grafana Alerting 构建在 Prometheus 的告警系统设计模型之上。基于 Prometheus 的告警系统有两个主要组件

  • 一个告警生成器,它评估告警规则,并将触发和已解决的告警发送给告警接收器。
  • 一个告警接收器(也称为 Alertmanager),它接收告警并负责发送它们的通知

设计您的告警系统

监控复杂的IT系统并了解一切是否正常运行是一项困难的任务。因此,建立有效的告警管理系统至关重要,以便在问题开始影响您的业务成果之前通知您。

设计和配置一个有效的告警管理设置需要时间。

以下是为您的业务创建有效告警管理设置的一些技巧

您希望监控和告警的关键业务指标有哪些?

  • 寻找重要到值得了解,同时又不至于琐碎或频繁到收件人忽略它们的事件。
  • 告警只应为需要立即关注或干预的重大事件创建。
  • 重质不重量。

您希望如何组织您的告警和通知?

  • 选择性地设置告警接收者。考虑将告警发送给正确的团队、值班人员以及特定通道。
  • 仔细考虑优先级和严重级别。
  • 尽可能使用API或Terraform自动化配置告警资源。

通知中应包含哪些信息?

  • 考虑告警的接收者和响应者是谁。
  • 分享有助于响应者识别和解决潜在问题的信息。
  • 将告警链接到仪表盘,以指导响应者调查哪些数据。

如何减少告警疲劳?

  • 通过使用静默、静音时间或暂停告警规则评估来避免嘈杂、不必要的告警。
  • 不断调整您的告警规则以审查其有效性。移除重复或无效的告警规则。
  • 不断审查您的阈值和评估规则。