配置 Grafana 管理的警报规则
Grafana 管理的规则可以在单个警报规则中查询来自多个数据源的数据。它们是警报规则类型中最灵活的一种。您还可以添加表达式来转换数据、设置警报条件以及在警报通知中包含图片。
注意
在 Grafana Cloud 中,您可以创建的 Grafana 管理的警报规则数量取决于您的 Grafana Cloud 计划。
- 永久免费计划:您可以创建最多 100 条免费警报规则,每条警报规则最多包含 1000 个警报实例。
- 所有付费计划(Pro 和 Advanced):它们有 2000 条警报规则的软限制,并支持无限的警报实例。要增加限制,请从Cloud 门户提交支持工单。
要创建或编辑 Grafana 管理的警报规则,请按照以下说明操作。有关实际示例,请查看我们的Grafana Alerting 入门教程。
开始之前
验证您计划在警报规则中查询的数据源与 Grafana 管理的警报规则兼容并已正确配置。
权限
只有对存储规则的文件夹拥有编辑权限的用户才能编辑或删除 Grafana 管理的警报规则。只有管理员才能恢复已删除的 Grafana 管理的警报规则。
预配
请注意,如果您删除了在 UI 中创建的警报资源,将无法再检索。
要备份和管理警报规则,您可以使用配置文件、Terraform 或 Alerting API 等选项预配警报资源。
默认选项与高级选项
您可以使用默认选项或高级选项创建 Grafana 管理的警报规则。默认选项通过更简洁的头部以及单个查询和条件简化了规则创建。对于更复杂的规则,请使用高级选项添加多个查询和表达式。
您可以在两个选项之间切换。创建警报规则后,系统会默认使用您上次选择的选项来创建下一个警报规则。
从高级选项切换到默认选项可能导致无法转换的查询和表达式。在这种情况下,会显示警告消息,询问您是否要继续并重置为默认设置。
设置警报规则名称
点击Alerts & IRM -> Alert rules -> + New alert rule。
输入名称以标识您的警报规则。
此名称会显示在警报规则列表中。它也是由此规则创建的每个警报实例的
alertname
标签。
定义查询和条件
定义一个查询以获取您要度量的数据,以及在触发警报规则之前需要满足的条件。
您可以在默认选项和高级选项之间切换。如果您的 Grafana 实例中未启用默认选项与高级选项功能,请按照高级选项的说明进行操作。
选择一个数据源。
从选项下拉菜单中,指定一个时间范围。
请注意,Grafana Alerting 只支持固定的相对时间范围,例如
now-24hr: now
。它不支持绝对时间范围:2021-12-02 00:00:00 to 2021-12-05 23:59:592
或半相对时间范围:now/d to: now
。添加查询。
要添加多个查询,请点击添加查询。
所有警报规则默认由 Grafana 管理。如果您想切换到数据源管理的警报规则,请点击切换到数据源管理的警报规则。
添加一个或多个表达式。
a. 对于每个表达式,选择经典条件以创建单个警报规则,或从数学、归约和重新采样选项中选择,为每个系列生成单独的警报。
使用 Prometheus 时,您可以使用即时向量和内置函数,这样就不需要添加额外的表达式。
b. 点击预览以验证表达式是否成功。
要添加恢复阈值,请启用自定义恢复阈值开关并输入一个值,该值定义了警报何时应恢复 - 从
触发中
或等待中
状态转换到正常
状态。您只能添加一个恢复阈值,并且它必须是警报条件的一部分。
在您要设置为警报条件的查询或表达式上,点击设置为警报条件。
设置文件夹和标签
使用文件夹和标签集组织您的警报规则。
在标签部分,您可以选择是否添加标签来组织您的警报规则及其通知。有关更多详细信息,请参阅警报规则标签。
选择一个文件夹或点击+ 新建文件夹。
如果需要,添加标签。
通过从下拉列表中选择现有的键值对来添加自定义标签,或通过输入新的键或值来添加新标签。
配置警报评估行为
使用警报规则评估来确定警报规则应多久评估一次以及应多快更改其状态。
为此,您需要确保您的警报规则位于正确的评估组中,并设置最适合您的用例的等待周期时间。
选择一个评估组或点击+ 新建评估组。
如果您正在创建一个新的评估组,请指定该组的间隔。
同一组中的所有规则在同一时间间隔内并发评估。
输入等待周期。
等待周期是指警报规则在触发之前处于违反条件状态的时期。
满足条件后,警报进入等待中状态。如果条件在指定持续时间内保持活动状态,则警报转换为触发中状态,否则恢复为正常状态。
如果需要,开启暂停警报通知。
您可以暂停警报规则评估,以防止在调整警报时产生过多通知。暂停会停止警报规则评估,并且不会创建任何警报实例。这与静音时间不同,静音时间会阻止通知发送,但仍允许进行警报规则评估和创建警报实例。
设置警报触发的时间阈值。
您可以设置在违反阈值表达式不再返回任何结果后,警报保持触发状态的最短时间。这将警报设置为“正在恢复”状态,持续此处设置的时间。正在恢复状态可用于减少警报闪烁(flapping alerts)产生的噪音。选择“无”可在违反阈值清除后立即停止警报触发。
在配置无数据和错误处理中,您可以定义两种场景的警报行为和警报状态:
- 当评估返回无数据或所有值都为 null 时。
- 当评估返回错误或超时时。
配置无数据和错误处理
配置 设置警报状态 描述 无数据 无数据 无数据事件的默认选项。
将警报实例状态设置为无数据
。
警报规则在评估后立即创建一个新的DatasourceNoData
警报实例,并带有警报规则的名称、UID 和数据源 UID 作为标签。错误 错误 错误事件的默认选项。
将警报实例状态设置为错误
。
警报规则在评估后立即创建一个新的DatasourceError
警报实例,并带有警报规则的名称、UID 和数据源 UID 作为标签。无数据或错误 警报(Alerting) 将警报实例状态设置为 等待中
,然后在等待周期结束后转换为触发中
。如果将等待周期设置为 0,警报实例状态将立即设置为触发中
。无数据或错误 正常 将警报实例状态设置为 正常
。无数据或错误 保持上次状态 保持警报实例处于其上次状态。对于缓解临时问题非常有用。 有关更多详细信息,请参阅警报实例状态和修改无数据或错误状态。
配置通知
选择直接从警报规则表单中选择联系点,或使用通知策略路由以及设置静音时间和分组。
完成以下步骤以设置通知。
通过选择选择联系点或使用通知策略来配置在警报规则触发时谁会收到通知。
选择联系点
选择此选项以选择现有联系点。
此警报规则的所有通知都会自动发送到此联系点,并且不会使用通知策略。
您还可以选择性地选择静音时间以及分组和时间以定义何时不发送通知。
使用通知策略
选择此选项以使用通知策略树来处理警报通知。
此警报规则的所有通知都由通知策略树管理,该树根据警报的标签路由警报。如果警报不匹配特定策略,则应用默认通知策略,确保所有警报都得到处理。
预览您的警报实例路由设置。
根据添加的标签,警报实例会被路由到显示的以下通知策略。
展开下面的每个通知策略以查看更多详细信息。
点击查看详情以查看警报路由详细信息和电子邮件预览。
配置通知消息
使用标注为警报消息添加有助于响应警报的信息。
标注默认包含在通知消息中,并且可以使用文本或模板来显示查询中的动态数据。
Grafana 提供了几个可选的标注。
可选:添加摘要。
简短总结发生的事情和原因。
可选:添加描述。
描述警报规则的功能。
可选:添加 Runbook URL。
您存储警报 Runbook 的网页
可选:添加自定义标注。
添加任何可能有助于处理警报的附加信息。
可选:链接仪表盘和面板。
将警报规则链接到面板,以方便警报调查。
点击保存规则。
永久删除或恢复已删除的警报规则
只有具有 Admin 角色的用户才能恢复已删除的 Grafana 管理的警报规则。警报规则恢复后,将恢复为一个新的、不同于其之前的 UID。
- 前往Alerts & IRM > Alerting > 最近删除。
- 点击恢复按钮恢复警报规则,或点击永久删除以删除警报规则。
注意
已删除的警报规则将存储 30 天。Grafana Enterprise 和 OSS 用户可以在 Grafana 配置文件中的
[unified_alerting].deleted_rule_retention
字段调整规则存储的时长。有关如何修改 Grafana 配置文件示例,请参阅此处文档示例。