Kubernetes 监控

在几分钟内(而不是几天)可视化和告警您的 Kubernetes 集群。

为什么在 Grafana Cloud 中使用 Kubernetes 监控?

Accelerate time to value

加速价值实现

使用此即用型监控工具减少部署、设置和故障排除时间,该工具只需运行几个 CLI 命令或对您的 Helm 图表进行一些小的更改。

Identify root causes faster

更快地识别根本原因

通过集群导航视图深入了解您的基础设施,以识别和解决问题,而无需在不同的窗口和监控工具之间切换。

Reduce costs

降低成本

效率和成本监控可视化提供了对您的支出的全面见解,从而能够做出关于资源分配、扩展策略和技术投资的数据驱动决策。

轻松部署

在任何主要的云托管 Kubernetes 服务和 Kubernetes 发行版上部署 Helm 图表。

  • 选择要启用的功能
  • 获取适合您需求的 Helm 安装说明
easy deployment

成本管理

通过基于开源项目 OpenCost 的成本监控功能,更深入地了解您的 Kubernetes 成本、支出趋势和潜在节省。

  • 每个组件级别的使用情况和成本归因
  • 细分跨云提供商的成本和资源分配
  • 可视化成本趋势和预计节省
  • 按资源类型组织 Kubernetes 成本
  • 根据您的资源使用情况获取节省建议
cost management

一目了然的高优先级问题

通过所有基础设施组件的整体快照立即识别集群问题,这些组件已超出以下方面的预设阈值:

  • 集群/s CPU 和内存使用情况
  • 容器镜像分发
  • 触发 Pod 和容器警报
high priority

从 Kubernetes 集群到容器的全方位可见性

全面了解 Kubernetes 集群,然后深入了解以查看特定的容器级信息。

  • 每个基础设施级别的成本和资源使用情况归因
  • 彩色编码的资源使用情况可视化和图标可更快地识别和解决问题
  • 并排显示峰值与平均资源效率比较
full visibility

优化、分析和预测您的资源使用情况

即时分析 CPU 和内存使用趋势。将实际使用情况与限制和请求相关联。主动识别问题以实现优化的资源管理。

  • 每个基础设施级别的详细见解,以及历史趋势
  • 在专用选项卡中深入了解网络、能源、日志和事件
  • 基于机器学习的资源预测
  • 自动 Pod CPU 异常值检测
resource usage

kubernetes network stability

网络稳定性和性能见解

识别限制导致网络饱和和数据包丢失的时间。

  • 检测带宽限制
  • 防止数据包丢失
  • 优化整个集群的网络性能

了解您的环境足迹和能源消耗

监控您的 Kubernetes 能源消耗以优化效率、降低成本和增强可持续性。

  • 24 小时 GPU、DRAM 和封装消耗趋势
  • 节点和命名空间能源消耗细分
resource usage

即时与 Prometheus 相关的日志

Prometheus 和 Grafana Loki 的元数据对您的 Kubernetes 集群保持相同的标签,因此访问相关的 Kubernetes 指标和日志变得前所未有的简单。

correlated logs

Kubernetes 容器见解

使用集群到容器的导航来即时了解容器。

  • 大小调整建议
  • 访问历史数据以查明 CPU 限制和重启
kubernetes container insights

有见地的指标和警报

访问有效监控 Kubernetes 集群所需的 kube-state-metrics 和警报规则。

  • 一组精选的指标,以避免基数爆炸
  • 社区构建的警报标准
metrics and alerts

入门很容易

有关完整的实施细节和最佳实践

1

注册

创建您的 免费 Grafana Cloud 帐户

2

连接您的数据

只需点击几下,即可为预构建的可视化和警报规则设置默认配置。

3

部署

数据将从您的集群流入 Grafana Cloud。

Grafana Cloud 上的 Kubernetes 监控集成使我们的工程师能够进行本地监控。他们不再需要联系我们的 SRE 团队。相反,他们只需点击 Grafana Cloud 集成选项卡上的一个按钮,导航到现成的仪表盘,并查看他们需要自己解决问题的所有信息——CPU 使用率、日志、指标。它非常简单,有助于我们快速发现问题,并节省了我们大量的自定义开发时间。
James Wojewoda
首席站点可靠性工程师 | Beeswax

Kubernetes 指标和警报规则

Grafana Cloud 中的 Kubernetes 监控解决方案以 60 秒的抓取间隔获取一组默认指标。警报规则集有助于设置和运行集群及其工作负载的警报。

了解更多关于Kubernetes 指标告警规则

包含的关键告警规则

*可滚动
KubeNodeNotReady
KubeNodeUnreachable
KubeletTooManyPods
KubeNodeReadinessFlapping
KubeletPlegDurationHigh
KubeletPodStartUpLatencyHigh
KubeletClientCertificateExpiration
KubeletServerCertificateExpiration
KubeletClientCertificateRenewalErrors
KubeletServerCertificateRenewalErrors
KubeletDown
KubeVersionMismatch
KubeClientErrors
KubeCPUOvercommit
KubeMemoryOvercommit
KubeCPUQuotaOvercommit
KubeMemoryQuotaOvercommit
KubeQuotaAlmostFull
KubeQuotaFullyUsed
KubeQuotaExceeded
CPUThrottlingHigh
KubePodCrashLooping
KubePodNotRead
KubeDeploymentGenerationMismatch
KubeDeploymentReplicasMismatch
KubeStatefulSetReplicasMismatch
KubeStatefulSetGenerationMismatch
KubeStatefulSetUpdateNotRolledOut
KubeDaemonSetRolloutStuck
KubeContainerWaiting
KubeDaemonSetNotScheduled
KubeDaemonSetMisScheduled
KubeJobCompletion
KubeJobFailed
KubeHpaReplicasMismatch
KubeHpaMaxedOut

包含的关键指标

*可滚动
cluster:namespace:pod_cpu:active:kube_pod_container_resource_limits
cluster:namespace:pod_cpu:active:kube_pod_container_resource_requests
cluster:namespace:pod_memory:active:kube_pod_container_resource_limits
cluster:namespace:pod_memory:active:kube_pod_container_resource_requests
container_cpu_cfs_periods_total
container_cpu_cfs_throttled_periods_total
container_cpu_usage_seconds_total
container_fs_reads_bytes_total
container_fs_reads_total
container_fs_writes_bytes_total
container_fs_writes_total
container_memory_cache
container_memory_rss
container_memory_swap
container_memory_working_set_bytes
container_network_receive_bytes_total
container_network_receive_packets_dropped_total
container_network_receive_packets_total
container_network_transmit_bytes_total
container_network_transmit_packets_dropped_total
container_network_transmit_packets_total
go_goroutines
kube_daemonset_status_current_number_scheduled
kube_daemonset_status_desired_number_scheduled
kube_daemonset_status_number_available
kube_daemonset_status_number_misscheduled
kube_daemonset_updated_number_scheduled
kube_deployment_metadata_generation
kube_deployment_spec_replicas
kube_deployment_status_observed_generation
kube_deployment_status_replicas_available
kube_deployment_status_replicas_updated
kube_horizontalpodautoscaler_spec_max_replicas
kube_horizontalpodautoscaler_spec_min_replicas
kube_horizontalpodautoscaler_status_current_replicas
kube_horizontalpodautoscaler_status_desired_replicas
kube_job_failed
kube_job_spec_completions
kube_job_status_succeeded
kube_namespace_created
kube_node_info
kube_node_spec_taint
kube_node_status_allocatable
kube_node_status_capacity
kube_node_status_condition
kube_pod_container_resource_limits
kube_pod_container_resource_requests
kube_pod_container_status_waiting_reason
kube_pod_info
kube_pod_owner
kube_pod_status_phase
kube_replicaset_owner
kube_resourcequota
kube_statefulset_metadata_generation
kube_statefulset_replicas
kube_statefulset_status_current_revision
kube_statefulset_status_observed_generation
kube_statefulset_status_replicas
kube_statefulset_status_replicas_ready
kube_statefulset_status_replicas_updated
kube_statefulset_status_update_revision
kubelet_certificate_manager_client_expiration_renew_errors
kubelet_certificate_manager_client_ttl_seconds
kubelet_certificate_manager_server_ttl_seconds
kubelet_cgroup_manager_duration_seconds_bucket
kubelet_cgroup_manager_duration_seconds_count
kubelet_node_config_error
kubelet_node_name
kubelet_pleg_relist_duration_seconds_bucket
kubelet_pleg_relist_duration_seconds_count
kubelet_pleg_relist_interval_seconds_bucket
kubelet_pod_start_duration_seconds_count
kubelet_pod_worker_duration_seconds_bucket
kubelet_pod_worker_duration_seconds_count
kubelet_running_container_count
kubelet_running_containers
kubelet_running_pod_count
kubelet_running_pods
kubelet_runtime_operations_duration_seconds_bucket
kubelet_runtime_operations_errors_total
kubelet_runtime_operations_total
kubelet_server_expiration_renew_errors
kubelet_volume_stats_available_bytes
kubelet_volume_stats_capacity_bytes
kubelet_volume_stats_inodes
kubelet_volume_stats_inodes_used
kubernetes_build_info
machine_memory_bytes
namespace_cpu:kube_pod_container_resource_limits:sum
namespace_cpu:kube_pod_container_resource_requests:sum
namespace_memory:kube_pod_container_resource_limits:sum
namespace_memory:kube_pod_container_resource_requests:sum
namespace_workload_pod
namespace_workload_pod:kube_pod_owner:relabel
node_namespace_pod_container:container_cpu_usage_seconds_total:sum_irate
node_namespace_pod_container:container_memory_cache
node_namespace_pod_container:container_memory_rss
node_namespace_pod_container:container_memory_swap
node_namespace_pod_container:container_memory_working_set_bytes
node_quantile:kubelet_pleg_relist_duration_seconds:histogram_quantile
process_cpu_seconds_total
process_resident_memory_bytes
rest_client_request_duration_seconds_bucket
rest_client_requests_total
storage_operation_duration_seconds_bucket
storage_operation_duration_seconds_count
storage_operation_errors_total
up
volume_manager_total_volumes

准备好开始使用 Kubernetes 监控了吗?

要使用 Kubernetes 监控,您在 Grafana Cloud 中有三个选项。所有计划都包含预构建的可视化效果以及指标和告警规则。

云免费版

无需付费。永久免费。
最适合处于早期阶段和小型团队,每月最多 3 个活跃用户。
最简单的入门方式

云专业版

按需付费
最适合需要扩展到超过 3 个活跃用户并解锁 8x5 支持的成长型团队。

云高级版

高级套餐
最适合希望连接到企业插件并解锁 24x7 支持的团队。

有用的资源