Grafana Labs 通过 OpenTelemetry 和 Kubernetes 监控的重大更新加强云原生生态系统

发布日期：2024 年 11 月 5 日

公司在 KubeCon 2024 大会前夕发布开源贡献和平台更新

KUBECON，盐湖城，2024 年 11 月 5 日 – 作为全球最普及、开放且可组合的运维仪表盘背后的可观测性公司，Grafana Labs 今日宣布向开源社区做出重大贡献，以简化 CNCF 生态系统中项目（包括人气持续飙升的 OpenTelemetry 和 Prometheus）的使用。此外，公司还发布了专为使用 Grafana Cloud 的 Kubernetes 平台团队量身定制的新功能。

这些发布恰逢北美 KubeCon + CloudNativeCon 大会之前。该大会是业界规模最大的致力于 Kubernetes、Prometheus 及其他云原生技术的开源会议，将于 11 月 12 日至 15 日在犹他州盐湖城举行。这些新进展将在 Grafana Labs KubeCon 展位（#R7）进行展示。

加强我们对开源创新和互操作性的承诺

根据 Grafana Labs 的《2024 年可观测性调查》，绝大多数受访者正在采用多种可观测性解决方案，其中 89% 投资于 Prometheus，85% 投资于 OpenTelemetry，40% 同时使用两者。Grafana Labs 是少数同时作为 OpenTelemetry 和 Prometheus 核心贡献者的公司之一，其工程师在这些项目的推进和采用方面发挥了关键作用。该团队积极推动主要功能以增强技术间的互操作性，包括在新发布的 Prometheus 3.0 中实现了 OpenTelemetry 兼容性。Grafana Labs 高级软件工程师兼 Prometheus 维护者 Arve Knudsen 和 Jesús Vázquez 在 PromCon 2024 大会上预览了这一功能。

“随着云原生生态系统的发展，我们亲眼看到我们的‘大帐篷’（big tent）方法如何推动创新，这也是我们在 Grafana Labs 秉持的理念。组织不是在 OpenTelemetry 和 Prometheus 之间做选择——他们同时使用两者，以及许多其他工具，来解决实际问题，”Grafana Labs 首席技术官 Tom Wilkie 表示。“在 Grafana Labs，我们拥抱这种技术多样性。我们是 Prometheus 项目的最大贡献者之一，提供名为 Grafana Alloy 的 OpenTelemetry Distributor 支持发行版，并构建了诸如 OpenTelemetry Datadog Receiver 之类的解决方案来体现这一理念：我们正在不同可观测性方法之间构建桥梁，向上游贡献到多个开源社区，并确保团队能够为特定任务选择合适的工具。这才是开源应有的运作方式——包容、互操作且专注于解决真实用户需求。”

随着这些基础开源项目的持续增长和采用，Grafana Labs 的工程师们一直致力于让它们更易于使用，具体包括：

Grafana Alloy：在今年早些时候的 GrafanaCON 大会上，Grafana Labs 推出了 Grafana Alloy，这是 OpenTelemetry Collector 的一个发行版，100% 兼容 OTLP，并为 OpenTelemetry 和 Prometheus 遥测格式提供原生数据流支持，涵盖指标、日志、追踪和性能分析。它在设计上与供应商无关，兼容任何使用 OpenTelemetry Collector 或 Prometheus Agent 的地方，同时足够灵活，能够满足各种规模的用户在可观测性旅程各个阶段的需求。Grafana Alloy 1.3 最近发布，增强了调试功能。这项新功能提供实时数据监控，帮助可视化数据转换、识别和隔离错误，并分析数据流行为。
OpenTelemetry Datadog receiver：今年 6 月，Grafana Labs 工程师发布了新的开源代码，允许用户将 Datadog 指标格式转换为原生 OTLP 格式。OpenTelemetry Datadog receiver 收集和转换的这些指标可以发送到任何 OpenTelemetry 兼容的指标系统，无论是 Prometheus、Grafana Mimir 还是其他后端数据库。该接收器标记为实验性，既可以作为 Grafana Alloy 的组件，也可以作为 OpenTelemetry 的组件使用。
OpenTelemetry 无查询指标探索：今年早些时候推出的 Explore Metrics 提供了一种无需编写 PromQL 查询即可浏览和分析 Prometheus 兼容指标的无代码体验。现在，Explore Metrics 正在扩展以自动处理 OpenTelemetry 指标，消除了用户为每个系统创建单独查询的需求。这种统一的方法意味着用户可以通过一个单一、一致的界面访问和可视化更多类型的指标，无论数据是 Prometheus 格式还是 OpenTelemetry 格式。该功能在 Grafana 中默认启用，如果存在边缘情况，可以关闭。这一进展代表了 Grafana Labs 更大的承诺，即无论用户使用何种格式，都要提高 OpenTelemetry 和 Prometheus 之间的兼容性，并满足用户的需求。

Grafana Cloud 扩展 Kubernetes 监控能力

Kubernetes Monitoring 是全托管式 Grafana Cloud 可观测性平台中的一种主动监控和故障排除解决方案。它为您的 Kubernetes 基础设施提供单一视图，提供开箱即用的用户数据可视化、成本监控洞察、预配置告警、告警规则、记录规则和 AI/ML 预测，简化了传统上仅靠 kubectl 难以实现且耗时的任务。

该解决方案为 Kubernetes 环境提供的实时可见性、告警和故障排除能力，帮助像 Beeswax 这样的组织高效管理和优化其基于容器的基础设施。Beeswax 的首席站点可靠性工程师 James Wojewoda 表示：“Grafana Cloud 上的 Kubernetes Monitoring 让我们的工程师能够进行原生监控。他们不再需要联系我们的 SRE 团队。相反，他们只需点击 Grafana Cloud 集成选项卡上的一个按钮，导航到开箱即用的仪表盘，就能看到他们自己解决问题所需的所有信息——CPU 使用率、日志、指标。这太简单了，帮助我们快速发现问题，并节省了我们大量的定制开发时间。”

在过去六个月中，Grafana Labs 继续推出了该解决方案的一系列新进展。最新的更新包括：

基于 Kubernetes 应用的情境化根本原因分析：在九月份的 ObservabilityCON 大会上，Grafana Labs 宣布在 Grafana Cloud 中推出一套情境化根本原因分析工作流程。这些工作流程利用 AI/ML 自动化用户 Kubernetes 环境中的根本原因分析，简化故障排除并减少 MTTR（平均修复时间）。过去，诊断复杂的基于 Kubernetes 应用的问题是一项耗时的工作，需要手动关联来自应用层和基础设施层的数据。通过自动识别和关联这些层面的异常，这项技术为团队提供了情境化洞察，从而实现更快、更准确的问题解决。
在 AWS Marketplace 上可用：Kubernetes Monitoring 现已在 AWS Marketplace 上架。现在，AWS 用户可以在 AWS 控制台或通过 AWS 命令行界面轻松一步部署该解决方案。
通过 Sift 调查改进运维监控：Kubernetes Monitoring 还通过 Sift 调查简化了运维监控，能够即时识别关键部署问题。该平台的智能告警系统自动检测副本不足的部署，并快速定位需要重启的问题部署和 Pod。这种增强的可见性不仅减少了 MTTR，还显著提高了整体系统可靠性。
增强历史可见性：传统的 kubectl 命令提供有限的历史数据保留并需要手动干预，而 Grafana Cloud 中的 Kubernetes Monitoring 则提供自动、全面的 Pod、节点和集群历史跟踪——即使在删除或重新创建后也是如此。这使得 SRE 能够高效地排除部署后问题、优化资源分配并进行彻底的事件分析，而无需维护额外的基础设施或协调多个工具的复杂性。
故障排除增强：Kubernetes Monitoring 添加了更多故障排除工具，帮助用户轻松查找已删除对象，放大图表以缩小时间范围进行更多分析，并直接从主页跳转到集群、节点和工作负载。
新视图：Kubernetes Monitoring 中最受欢迎的功能之一，成本监控，现在在“成本概览”选项卡中提供总计算成本、每个 Pod 平均成本和平均 Pod 数量的 90 天视图。此外，Kubernetes Monitoring 现在允许用户查看其 Kubernetes 基础设施组件的能源数据。

此外，Grafana Labs 继续秉持其“大帐篷”理念，同时通过主导开发 Kubernetes Monitoring Helm chart——一个用于从 Kubernetes 集群收集全面遥测数据的强大开源解决方案——加强其对开源 Kubernetes 社区的承诺。该 chart 支持收集指标、日志、追踪和性能分析数据，并具备本地处理和灵活的数据路由能力，可发送到您选择的后端数据库。虽然为 Grafana Cloud 进行了优化，但它与 Mimir、Loki、Tempo、Pyroscope 等开源数据库无缝集成。即将发布的 2.0 版本将带来许多改进，包括将数据发送到多个目标的能力、内置服务集成以及简化的配置体验。

资源

现场参加 KubeCon 的与会者可以在以下由 Grafana Labs 工程师主讲的会议中了解更多关于 Grafana Labs 产品和开源贡献的信息：

11 月 12 日星期二上午 10:40 MST（可观测性日同期活动）：等等！还有更多吗？- 可观测性数据量及其管理策略，主讲人：Éamon Ryan，Grafana Labs 高级首席现场工程师
11 月 12 日星期二下午 4:30 MST（Cilium + eBPF 日同期活动）：你想用 eBPF 写入内存吗？，主讲人：Nikola Grcevski，Grafana Labs 首席软件工程师；Mike Dame，Google
11 月 13 日星期三上午 11:15 MST：解锁成本节约与新可能性：Prometheus Remote Write 2.0 指南，主讲人：Callum Styan，Grafana Labs 高级软件工程师
11 月 13 日星期三下午 3:25 MST：OpenTelemetry 项目更新，主讲人：Alolita Sharma (Apple)，Juraci Paixão Kröhling (Grafana Labs)，Ted Young (ServiceNow)，Daniel Gomez Blanco (Skyscanner)，Daniel Dyla (Dynatrace)
11 月 13 日星期三下午 4:30 MST：监控监控者：我们在 Grafana Labs 如何实现持续可靠性，主讲人：Nicole van der Hoeven，Grafana Labs 高级开发者倡导者
11 月 14 日星期四下午 2:30 MST：庆祝 Prometheus 3.0：与维护者的深度探讨，主讲人：Kemal Akkoyun (Falai)，Josh Abreu (Grafana Labs)

关于 Grafana Labs

Grafana Labs 提供基于 Grafana 构建的开放且可组合的监控和可观测性技术栈。Grafana 是领先的开源仪表盘和可视化技术。Grafana Labs 拥有超过 5,000 家客户，包括彭博社、花旗集团、戴尔科技、Salesforce 和 TomTom，以及全球超过 2,500 万 Grafana 用户。Grafana Labs 通过 LGTM 技术栈帮助公司实现其可观测性目标。该技术栈包括可扩展的指标 (Grafana Mimir)、日志 (Grafana Loki) 和追踪 (Grafana Tempo)，以及丰富的企业级数据源插件、仪表盘管理、告警、报告和安全性功能。全托管式 Grafana Cloud 产品旨在帮助组织更轻松快捷地启动和运行可观测性，提供针对 Kubernetes 和基础设施监控、事件响应管理、负载测试、应用可观测性等领域的交钥匙解决方案。Grafana Labs 由领先投资者 Lightspeed Venture Partners、Lead Edge Capital、GIC、红杉资本、Coatue、摩根大通和 CapitalG 支持。在 LinkedIn 和 Twitter 上关注 Grafana Labs，或访问 grafana.com。

媒体联系人：

Alexa Becker
alexa.becker@grafana.com