Grafana Labs 通过 OpenTelemetry 和 Kubernetes 监控的重大更新加强云原生生态系统
KUBECON,盐湖城,2024 年 11 月 5 日 – 作为全球最普及、开放且可组合的运维仪表盘背后的可观测性公司,Grafana Labs 今日宣布向开源社区做出重大贡献,以简化 CNCF 生态系统中项目(包括人气持续飙升的 OpenTelemetry 和 Prometheus)的使用。此外,公司还发布了专为使用 Grafana Cloud 的 Kubernetes 平台团队量身定制的新功能。
这些发布恰逢北美 KubeCon + CloudNativeCon 大会之前。该大会是业界规模最大的致力于 Kubernetes、Prometheus 及其他云原生技术的开源会议,将于 11 月 12 日至 15 日在犹他州盐湖城举行。这些新进展将在 Grafana Labs KubeCon 展位(#R7)进行展示。
加强我们对开源创新和互操作性的承诺
根据 Grafana Labs 的《2024 年可观测性调查》,绝大多数受访者正在采用多种可观测性解决方案,其中 89% 投资于 Prometheus,85% 投资于 OpenTelemetry,40% 同时使用两者。Grafana Labs 是少数同时作为 OpenTelemetry 和 Prometheus 核心贡献者的公司之一,其工程师在这些项目的推进和采用方面发挥了关键作用。该团队积极推动主要功能以增强技术间的互操作性,包括在新发布的 Prometheus 3.0 中实现了 OpenTelemetry 兼容性。Grafana Labs 高级软件工程师兼 Prometheus 维护者 Arve Knudsen 和 Jesús Vázquez 在 PromCon 2024 大会上预览了这一功能。
“随着云原生生态系统的发展,我们亲眼看到我们的‘大帐篷’(big tent)方法如何推动创新,这也是我们在 Grafana Labs 秉持的理念。组织不是在 OpenTelemetry 和 Prometheus 之间做选择——他们同时使用两者,以及许多其他工具,来解决实际问题,”Grafana Labs 首席技术官 Tom Wilkie 表示。“在 Grafana Labs,我们拥抱这种技术多样性。我们是 Prometheus 项目的最大贡献者之一,提供名为 Grafana Alloy 的 OpenTelemetry Distributor 支持发行版,并构建了诸如 OpenTelemetry Datadog Receiver 之类的解决方案来体现这一理念:我们正在不同可观测性方法之间构建桥梁,向上游贡献到多个开源社区,并确保团队能够为特定任务选择合适的工具。这才是开源应有的运作方式——包容、互操作且专注于解决真实用户需求。”
随着这些基础开源项目的持续增长和采用,Grafana Labs 的工程师们一直致力于让它们更易于使用,具体包括:
- Grafana Alloy:在今年早些时候的 GrafanaCON 大会上,Grafana Labs 推出了 Grafana Alloy,这是 OpenTelemetry Collector 的一个发行版,100% 兼容 OTLP,并为 OpenTelemetry 和 Prometheus 遥测格式提供原生数据流支持,涵盖指标、日志、追踪和性能分析。它在设计上与供应商无关,兼容任何使用 OpenTelemetry Collector 或 Prometheus Agent 的地方,同时足够灵活,能够满足各种规模的用户在可观测性旅程各个阶段的需求。Grafana Alloy 1.3 最近发布,增强了调试功能。这项新功能提供实时数据监控,帮助可视化数据转换、识别和隔离错误,并分析数据流行为。
- OpenTelemetry Datadog receiver:今年 6 月,Grafana Labs 工程师发布了新的开源代码,允许用户将 Datadog 指标格式转换为原生 OTLP 格式。OpenTelemetry Datadog receiver 收集和转换的这些指标可以发送到任何 OpenTelemetry 兼容的指标系统,无论是 Prometheus、Grafana Mimir 还是其他后端数据库。该接收器标记为实验性,既可以作为 Grafana Alloy 的组件,也可以作为 OpenTelemetry 的组件使用。
- OpenTelemetry 无查询指标探索:今年早些时候推出的 Explore Metrics 提供了一种无需编写 PromQL 查询即可浏览和分析 Prometheus 兼容指标的无代码体验。现在,Explore Metrics 正在 扩展以自动处理 OpenTelemetry 指标,消除了用户为每个系统创建单独查询的需求。这种统一的方法意味着用户可以通过一个单一、一致的界面访问和可视化更多类型的指标,无论数据是 Prometheus 格式还是 OpenTelemetry 格式。该功能在 Grafana 中默认启用,如果存在边缘情况,可以关闭。这一进展代表了 Grafana Labs 更大的承诺,即无论用户使用何种格式,都要提高 OpenTelemetry 和 Prometheus 之间的兼容性,并满足用户的需求。
Grafana Cloud 扩展 Kubernetes 监控能力
Kubernetes Monitoring 是全托管式 Grafana Cloud 可观测性平台中的一种主动监控和故障排除解决方案。它为您的 Kubernetes 基础设施提供单一视图,提供开箱即用的用户数据可视化、成本监控洞察、预配置告警、告警规则、记录规则和 AI/ML 预测,简化了传统上仅靠 kubectl 难以实现且耗时的任务。
该解决方案为 Kubernetes 环境提供的实时可见性、告警和故障排除能力,帮助像 Beeswax 这样的组织高效管理和优化其基于容器的基础设施。Beeswax 的首席站点可靠性工程师 James Wojewoda 表示:“Grafana Cloud 上的 Kubernetes Monitoring 让我们的工程师能够进行原生监控。他们不再需要联系我们的 SRE 团队。相反,他们只需点击 Grafana Cloud 集成选项卡上的一个按钮,导航到开箱即用的仪表盘,就能看到他们自己解决问题所需的所有信息——CPU 使用率、日志、指标。这太简单了,帮助我们快速发现问题,并节省了我们大量的定制开发时间。”
在过去六个月中,Grafana Labs 继续推出了该解决方案的一系列新进展。最新的更新包括:
- 基于 Kubernetes 应用的情境化根本原因分析:在九月份的 ObservabilityCON 大会上,Grafana Labs 宣布在 Grafana Cloud 中推出 一套情境化根本原因分析工作流程。这些工作流程利用 AI/ML 自动化用户 Kubernetes 环境中的根本原因分析,简化故障排除并减少 MTTR(平均修复时间)。过去,诊断复杂的基于 Kubernetes 应用的问题是一项耗时的工作,需要手动关联来自应用层和基础设施层的数据。通过自动识别和关联这些层面的异常,这项技术为团队提供了情境化洞察,从而实现更快、更准确的问题解决。
- 在 AWS Marketplace 上可用:Kubernetes Monitoring 现已在 AWS Marketplace 上架。现在,AWS 用户可以在 AWS 控制台或通过 AWS 命令行界面轻松一步部署该解决方案。
- 通过 Sift 调查改进运维监控:Kubernetes Monitoring 还通过 Sift 调查简化了运维监控,能够即时识别关键部署问题。该平台的智能告警系统自动检测副本不足的部署,并快速定位需要重启的问题部署和 Pod。这种增强的可见性不仅减少了 MTTR,还显著提高了整体系统可靠性。
- 增强历史可见性:传统的 kubectl 命令提供有限的历史数据保留并需要手动干预,而 Grafana Cloud 中的 Kubernetes Monitoring 则 提供自动、全面的 Pod、节点和集群历史跟踪——即使在删除或重新创建后也是如此。这使得 SRE 能够高效地排除部署后问题、优化资源分配并进行彻底的事件分析,而无需维护额外的基础设施或协调多个工具的复杂性。
- 故障排除增强:Kubernetes Monitoring 添加了更多故障排除工具,帮助用户轻松查找已删除对象,放大图表以缩小时间范围进行更多分析,并直接从主页跳转到集群、节点和工作负载。
- 新视图:Kubernetes Monitoring 中最受欢迎的功能之一,成本监控,现在在“成本概览”选项卡中提供总计算成本、每个 Pod 平均成本和平均 Pod 数量的 90 天视图。此外,Kubernetes Monitoring 现在允许用户查看其 Kubernetes 基础设施组件的能源数据。
此外,Grafana Labs 继续秉持其“大帐篷”理念,同时通过主导开发 Kubernetes Monitoring Helm chart——一个用于从 Kubernetes 集群收集全面遥测数据的强大开源解决方案——加强其对开源 Kubernetes 社区的承诺。该 chart 支持收集指标、日志、追踪和性能分析数据,并具备本地处理和灵活的数据路由能力,可发送到您选择的后端数据库。虽然为 Grafana Cloud 进行了优化,但它与 Mimir、Loki、Tempo、Pyroscope 等开源数据库无缝集成。即将发布的 2.0 版本将带来许多改进,包括将数据发送到多个目标的能力、内置服务集成以及简化的配置体验。
资源
现场参加 KubeCon 的与会者可以在以下由 Grafana Labs 工程师主讲的会议中了解更多关于 Grafana Labs 产品和开源贡献的信息:
- 11 月 12 日星期二上午 10:40 MST(可观测性日同期活动):等等!还有更多吗?- 可观测性数据量及其管理策略,主讲人:Éamon Ryan,Grafana Labs 高级首席现场工程师
- 11 月 12 日星期二下午 4:30 MST(Cilium + eBPF 日同期活动):你想用 eBPF 写入内存吗?,主讲人:Nikola Grcevski,Grafana Labs 首席软件工程师;Mike Dame,Google
- 11 月 13 日星期三上午 11:15 MST:解锁成本节约与新可能性:Prometheus Remote Write 2.0 指南,主讲人:Callum Styan,Grafana Labs 高级软件工程师
- 11 月 13 日星期三下午 3:25 MST:OpenTelemetry 项目更新,主讲人:Alolita Sharma (Apple),Juraci Paixão Kröhling (Grafana Labs),Ted Young (ServiceNow),Daniel Gomez Blanco (Skyscanner),Daniel Dyla (Dynatrace)
- 11 月 13 日星期三下午 4:30 MST:监控监控者:我们在 Grafana Labs 如何实现持续可靠性,主讲人:Nicole van der Hoeven,Grafana Labs 高级开发者倡导者
- 11 月 14 日星期四下午 2:30 MST:庆祝 Prometheus 3.0:与维护者的深度探讨,主讲人:Kemal Akkoyun (Falai),Josh Abreu (Grafana Labs)
关于 Grafana Labs
Grafana Labs 提供基于 Grafana 构建的开放且可组合的监控和可观测性技术栈。Grafana 是领先的开源仪表盘和可视化技术。Grafana Labs 拥有超过 5,000 家客户,包括彭博社、花旗集团、戴尔科技、Salesforce 和 TomTom,以及全球超过 2,500 万 Grafana 用户。Grafana Labs 通过 LGTM 技术栈帮助公司实现其可观测性目标。该技术栈包括可扩展的指标 (Grafana Mimir)、日志 (Grafana Loki) 和追踪 (Grafana Tempo),以及丰富的企业级数据源插件、仪表盘管理、告警、报告和安全性功能。全托管式 Grafana Cloud 产品旨在帮助组织更轻松快捷地启动和运行可观测性,提供针对 Kubernetes 和基础设施监控、事件响应管理、负载测试、应用可观测性等领域的交钥匙解决方案。Grafana Labs 由领先投资者 Lightspeed Venture Partners、Lead Edge Capital、GIC、红杉资本、Coatue、摩根大通和 CapitalG 支持。在 LinkedIn 和 Twitter 上关注 Grafana Labs,或访问 grafana.com。
媒体联系人:
Alexa Becker
alexa.becker@grafana.com