元监控

监控您的告警指标，确保在潜在问题变得严重之前识别它们。

元监控是监控您的监控系统并在监控系统未按预期工作时发出告警的过程。

为了使您能够进行元监控，Grafana 提供了预定义指标。

识别对您的监控系统（即 Grafana）至关重要的指标，然后设置如何监控它们。

您可以通过以下方式使用元监控指标了解告警系统的健康状况

可选：在 Grafana 中创建一个仪表盘，在面板中使用此指标（就像使用任何其他类型的指标一样）。
可选：在 Grafana 中创建一个告警规则，定期检查此指标（就像对任何其他类型的告警规则一样）。
可选：使用 Grafana 中的 Explore 模块。

Grafana 管理的告警指标

要对 Grafana 管理的告警进行元监控，您需要一个 Prometheus 服务器或其他指标数据库来收集和存储 Grafana 导出的指标。

例如，如果您正在使用 Prometheus，请向 Prometheus 添加一个 scrape_config，以从 Grafana、Alertmanager 或您的数据源抓取指标。

示例

- job_name: grafana
  honor_timestamps: true
  scrape_interval: 15s
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: http
  follow_redirects: true
  static_configs:
    - targets:
        - grafana:3000

可用指标列表

负责评估告警规则的 Grafana ruler 和负责发送触发和已解决告警通知的 Grafana Alertmanager 提供了许多指标，使您可以观察它们。

grafana_alerting_alerts

此指标是一个计数器，显示处于 normal、pending、alerting、nodata 和 error 状态的告警数量。例如，您可能希望创建一个告警，当 grafana_alerting_alerts{state="error"} 大于 0 时触发。

grafana_alerting_schedule_alert_rules

此指标是一个仪表，显示已调度告警规则的数量。除非暂停，否则告警规则会被调度，并且此指标的值应与 Grafana 中未暂停告警规则的总数匹配。

grafana_alerting_schedule_periodic_duration_seconds_bucket

此指标是一个直方图，显示调度程序处理评估告警规则的单个 tick 所花费的时间。如果调度程序处理一个 tick 的时间超过 10 秒，则待处理的评估开始累积，导致告警规则可能会比预期晚触发。

grafana_alerting_schedule_query_alert_rules_duration_seconds_bucket

此指标是一个直方图，显示调度程序从数据库获取最新规则所需的时间。如果此指标较高，则也会评估 schedule_periodic_duration_seconds。

grafana_alerting_scheduler_behind_seconds

此指标是一个仪表，显示调度程序落后于应有进度的秒数。如果 schedule_periodic_duration_seconds 持续时间超过 10 秒，此数值会增加；如果小于 10 秒，则会减少。此指标的最小可能值为 0。

grafana_alerting_notification_latency_seconds_bucket

此指标是一个直方图，显示发送触发和已解决告警通知所需的时间（秒）。此指标可让您观察缓慢或过度使用的集成，例如 SMTP 服务器接收电子邮件的速度快于其发送速度。

Mimir 管理的告警指标

要对 Grafana Mimir 管理的告警进行元监控，开源和本地用户需要一个 Prometheus/Mimir 服务器或其他指标数据库来收集和存储 Mimir ruler 导出的指标。

rule_evaluation_failures_total

此指标是一个计数器，显示规则评估失败的总次数。

Alertmanager 指标

要对 Alertmanager 进行元监控，您需要一个 Prometheus/Mimir 服务器或其他指标数据库来收集和存储 Alertmanager 导出的指标。

例如，如果您正在使用 Prometheus，您应该向 Prometheus 添加一个 scrape_config，以从您的 Alertmanager 抓取指标。

示例

- job_name: alertmanager
  honor_timestamps: true
  scrape_interval: 15s
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: http
  follow_redirects: true
  static_configs:
    - targets:
        - alertmanager:9093