Kubernetes 监控

在几分钟而非几天内可视化和警报您的 Kubernetes 集群。

为何在 Grafana Cloud 中使用 Kubernetes 监控?

Accelerate time to value

加速实现价值

使用这个即用型监控工具,可减少部署、设置和故障排除时间,只需运行几条 CLI 命令或对 Helm chart 进行少量更改即可。

Identify root causes faster

更快识别根因

通过集群导航视图深入分析您的基础设施,以便识别和解决问题,无需在不同窗口和监控工具之间切换。

Reduce costs

降低成本

效率和成本监控可视化可提供全面的支出洞察,支持围绕资源分配、扩展策略和技术投资做出数据驱动的决策。

轻松部署

可在任何主要的云托管 Kubernetes 服务和 Kubernetes 发行版上部署 Helm chart。

  • 选择启用哪些功能
  • 获取针对您需求的 Helm 安装说明
easy deployment

成本管理

通过成本监控功能,更好地洞察 Kubernetes 成本、支出趋势和潜在节约,该功能基于开源项目 OpenCost

  • 每个组件级别的使用情况和成本归属
  • 细分跨云提供商的成本和资源分配
  • 可视化成本趋势和预计节约
  • 按资源类型组织 Kubernetes 成本
  • 根据您的资源使用情况获取节约建议
cost management

高优先级问题一览

通过基础设施所有组件的总体快照,即时识别超出预设阈值的集群问题,包括

  • 集群 CPU 和内存使用情况
  • 容器镜像分发
  • 触发中的 Pod 和容器警报
high priority

全面可见性,从 Kubernetes 集群到容器

获取 Kubernetes 集群的完整视图,然后深入查看特定的容器级信息。

  • 每个基础设施级别的成本和资源使用情况归属
  • 颜色编码的资源使用可视化和图标有助于更快识别和解决问题
  • 峰值与平均资源效率的并排比较
full visibility

优化、分析和预测您的资源使用情况

即时分析 CPU 和内存使用趋势。将实际使用情况与限制和请求相关联。主动识别问题以实现优化的资源管理。

  • 每个基础设施级别的详细洞察以及历史趋势
  • 在专用选项卡中深入查看网络、能耗、日志和事件
  • 由机器学习驱动的资源预测
  • 自动 Pod CPU 异常检测
resource usage

kubernetes network stability

网络稳定性与性能洞察

识别何时由于限制导致网络饱和和丢包。

  • 检测带宽限制
  • 防止丢包
  • 优化整个集群的网络性能

了解您的环境足迹和能源消耗

监控您的 Kubernetes 能源消耗,以优化效率、降低成本并增强可持续性。

  • 24 小时 GPU、DRAM 和 Packages 消耗趋势
  • 节点和命名空间能耗细分
resource usage

即时 Prometheus 关联日志

Prometheus 和 Grafana Loki 的元数据为您的 Kubernetes 集群保留相同的标签,因此访问相关的 Kubernetes 指标和日志再简单不过了。

correlated logs

Kubernetes 容器洞察

使用集群到容器导航即时了解容器详情。

  • 容量建议
  • 访问历史数据以精确查找 CPU 限制和重启
kubernetes container insights

精选指标和警报

访问有效监控 Kubernetes 集群所需的 kube-state-metrics 和警报规则。

  • 一套精选指标,避免基数爆炸
  • 社区构建的警报标准
metrics and alerts

轻松上手

了解完整的实施详情和最佳实践

1

注册

创建您的免费 Grafana Cloud 账户

2

连接您的数据

只需点击几下,即可为预构建的可视化和警报规则设置默认配置。

3

部署

数据将从您的集群流式传输到 Grafana Cloud。

Grafana Cloud 的 Kubernetes 监控集成使我们的工程师能够进行原生监控。他们不再需要联系我们的 SRE 团队。相反,他们只需点击 Grafana Cloud 集成选项卡上的按钮,导航到开箱即用的仪表盘,即可看到解决问题所需的所有信息——CPU 使用情况、日志、指标。这非常简单,帮助我们快速发现问题,并节省了大量定制开发时间。
James Wojewoda
首席站点可靠性工程师 | Beeswax

Kubernetes 指标和警报规则

Grafana Cloud 中的 Kubernetes 监控解决方案以 60 秒的采集间隔摄取一组默认指标。警报规则集有助于设置和运行集群及其工作负载的警报。

了解更多关于Kubernetes 指标警报规则的信息

包含的关键警报规则

*可滚动
KubeNodeNotReady
KubeNodeUnreachable
KubeletTooManyPods
KubeNodeReadinessFlapping
KubeletPlegDurationHigh
KubeletPodStartUpLatencyHigh
KubeletClientCertificateExpiration
KubeletServerCertificateExpiration
KubeletClientCertificateRenewalErrors
KubeletServerCertificateRenewalErrors
KubeletDown
KubeVersionMismatch
KubeClientErrors
KubeCPUOvercommit
KubeMemoryOvercommit
KubeCPUQuotaOvercommit
KubeMemoryQuotaOvercommit
KubeQuotaAlmostFull
KubeQuotaFullyUsed
KubeQuotaExceeded
CPUThrottlingHigh
KubePodCrashLooping
KubePodNotRead
KubeDeploymentGenerationMismatch
KubeDeploymentReplicasMismatch
KubeStatefulSetReplicasMismatch
KubeStatefulSetGenerationMismatch
KubeStatefulSetUpdateNotRolledOut
KubeDaemonSetRolloutStuck
KubeContainerWaiting
KubeDaemonSetNotScheduled
KubeDaemonSetMisScheduled
KubeJobCompletion
KubeJobFailed
KubeHpaReplicasMismatch
KubeHpaMaxedOut

包含的关键指标

*可滚动
cluster:namespace:pod_cpu:active:kube_pod_container_resource_limits
cluster:namespace:pod_cpu:active:kube_pod_container_resource_requests
cluster:namespace:pod_memory:active:kube_pod_container_resource_limits
cluster:namespace:pod_memory:active:kube_pod_container_resource_requests
container_cpu_cfs_periods_total
container_cpu_cfs_throttled_periods_total
container_cpu_usage_seconds_total
container_fs_reads_bytes_total
container_fs_reads_total
container_fs_writes_bytes_total
container_fs_writes_total
container_memory_cache
container_memory_rss
container_memory_swap
container_memory_working_set_bytes
container_network_receive_bytes_total
container_network_receive_packets_dropped_total
container_network_receive_packets_total
container_network_transmit_bytes_total
container_network_transmit_packets_dropped_total
container_network_transmit_packets_total
go_goroutines
kube_daemonset_status_current_number_scheduled
kube_daemonset_status_desired_number_scheduled
kube_daemonset_status_number_available
kube_daemonset_status_number_misscheduled
kube_daemonset_updated_number_scheduled
kube_deployment_metadata_generation
kube_deployment_spec_replicas
kube_deployment_status_observed_generation
kube_deployment_status_replicas_available
kube_deployment_status_replicas_updated
kube_horizontalpodautoscaler_spec_max_replicas
kube_horizontalpodautoscaler_spec_min_replicas
kube_horizontalpodautoscaler_status_current_replicas
kube_horizontalpodautoscaler_status_desired_replicas
kube_job_failed
kube_job_spec_completions
kube_job_status_succeeded
kube_namespace_created
kube_node_info
kube_node_spec_taint
kube_node_status_allocatable
kube_node_status_capacity
kube_node_status_condition
kube_pod_container_resource_limits
kube_pod_container_resource_requests
kube_pod_container_status_waiting_reason
kube_pod_info
kube_pod_owner
kube_pod_status_phase
kube_replicaset_owner
kube_resourcequota
kube_statefulset_metadata_generation
kube_statefulset_replicas
kube_statefulset_status_current_revision
kube_statefulset_status_observed_generation
kube_statefulset_status_replicas
kube_statefulset_status_replicas_ready
kube_statefulset_status_replicas_updated
kube_statefulset_status_update_revision
kubelet_certificate_manager_client_expiration_renew_errors
kubelet_certificate_manager_client_ttl_seconds
kubelet_certificate_manager_server_ttl_seconds
kubelet_cgroup_manager_duration_seconds_bucket
kubelet_cgroup_manager_duration_seconds_count
kubelet_node_config_error
kubelet_node_name
kubelet_pleg_relist_duration_seconds_bucket
kubelet_pleg_relist_duration_seconds_count
kubelet_pleg_relist_interval_seconds_bucket
kubelet_pod_start_duration_seconds_count
kubelet_pod_worker_duration_seconds_bucket
kubelet_pod_worker_duration_seconds_count
kubelet_running_container_count
kubelet_running_containers
kubelet_running_pod_count
kubelet_running_pods
kubelet_runtime_operations_duration_seconds_bucket
kubelet_runtime_operations_errors_total
kubelet_runtime_operations_total
kubelet_server_expiration_renew_errors
kubelet_volume_stats_available_bytes
kubelet_volume_stats_capacity_bytes
kubelet_volume_stats_inodes
kubelet_volume_stats_inodes_used
kubernetes_build_info
machine_memory_bytes
namespace_cpu:kube_pod_container_resource_limits:sum
namespace_cpu:kube_pod_container_resource_requests:sum
namespace_memory:kube_pod_container_resource_limits:sum
namespace_memory:kube_pod_container_resource_requests:sum
namespace_workload_pod
namespace_workload_pod:kube_pod_owner:relabel
node_namespace_pod_container:container_cpu_usage_seconds_total:sum_irate
node_namespace_pod_container:container_memory_cache
node_namespace_pod_container:container_memory_rss
node_namespace_pod_container:container_memory_swap
node_namespace_pod_container:container_memory_working_set_bytes
node_quantile:kubelet_pleg_relist_duration_seconds:histogram_quantile
process_cpu_seconds_total
process_resident_memory_bytes
rest_client_request_duration_seconds_bucket
rest_client_requests_total
storage_operation_duration_seconds_bucket
storage_operation_duration_seconds_count
storage_operation_errors_total
up
volume_manager_total_volumes

准备好开始使用 Kubernetes 监控了吗?

要在 Grafana Cloud 中使用 Kubernetes 监控,您有三个选项。所有计划均提供预构建的可视化、指标和警报规则。

Cloud 免费版

永远无需付费。
最适合早期阶段和小型团队,每月最多 3 个活跃用户。
最简单的上手方式

Cloud 专业版

按需付费
最适合需要扩展超过 3 个活跃用户并解锁 8x5 支持的成长中团队。

Cloud 高级版

高级捆绑包
最适合希望连接 Enterprise 插件并解锁 24x7 支持的团队。

有用资源