Grafana Labs

可观测性调查

2024

关于可观测性现状的主要发现和分析

引言

可观测性已成为许多组织构建和维护其系统中不可或缺的一部分,通过更好地利用资源,有助于提高性能、减少重复性劳动并节省资金。然而,这些结果并非总是能保证,许多团队仍然难以适应这个不断发展领域的复杂性。

为了更好地了解组织在可观测性发展历程中的位置,以及由此带来的成功和挑战,我们在第二届年度 Grafana Labs 可观测性调查中向社区征集了反馈。我们听取了 300 多位行业从业者的意见,他们分享了自己的经验,帮助我们生动地描绘了该行业的现状和发展方向。

在本报告中,您将看到调查结果的细分,这些结果表明市场正趋于成熟,团队正在应对数十种工具和数据源。您还将看到,开放标准已成为解决这种复杂性的手段,同时,团队也在不断寻求提高自动化和责任追究水平。

调查快照

79%
拥有集中式可观测性的组织节省了时间或金钱的比例
70%
使用四种或更多可观测性技术的团队比例
62
受访者提及目前正在使用的不同可观测性技术数量
61%
受访者将成本或意外账单列为他们对可观测性最大担忧之一的比例
98%
受访者使用开源可观测性工具的比例

最常用的可观测性技术

Top observability technologies
第 1 部分

5 大关键要点

observability practices are still maturing

可观测性实践仍在走向成熟

我们通过询问受访者采取了哪种方法(反应式、主动式或系统式)来衡量他们在可观测性发展历程中的位置。(这些类别代表了可观测性方法的成熟度范围,从最低到最高。有关类别划分的更多信息,请参阅下一部分。)略多于一半的受访者表示他们的组织采取了主动式方法,这表明该领域正在增长。然而,组织仍然更有可能采用反应式而非系统式方法,这意味着他们通常是从客户那里得知问题,而不是在用户发现问题之前就已经建立了系统来解决问题。
tool and data sprawl remains a major hurdle

工具和数据蔓延仍然是主要障碍

超过三分之二的团队使用至少四种可观测性技术,受访者总共提到了 60 多种目前正在使用的技术。此外,一半的 Grafana 用户表示他们在 Grafana 中配置并积极使用至少六种不同的数据源。大量的工具和数据源会带来相当大的复杂性和开销,因此拥有集中式可观测性的组织中有 79% 节省了时间或金钱也就不足为奇了。
open source is the de facto standard

开源是事实上的标准

Grafana Labs 致力于服务一个充满活力的开源社区。虽然这可能会使我们的调查结果有所偏差,但不可否认开源软件的影响力。绝大多数受访者正在投资 Prometheus (89%) 或 OpenTelemetry (85%)。近 40% 的受访者在他们的运营中同时使用这两者,并且超过 50% 的受访者在过去一年中增加了对这两个项目的使用。
AI could play a big role — eventually

AI 最终可能会扮演重要角色

目前,AI 备受关注,但它在可观测性中的作用在现阶段很大程度上仍是愿景。尽管如此,可观测性从业者对其加速事件响应和简化可观测性采用的潜力感到兴奋。异常检测是受访者表示希望看到的、最常提及的 AI 功能,超过四分之三的受访者提到了它。
cost emerges as a top concern

成本成为首要担忧

超过一半的受访者表示成本是他们对可观测性的最大担忧,而其他相关问题,如基数(cardinality)、不可预测的费用和供应商锁定,也经常被提及。
第 2 部分

可观测性持续(不均衡)成熟

可观测性不再是一个小众话题,它已成为当今许多组织软件开发生命周期中至关重要的一部分。然而,并非所有人都处于相同的采用阶段,策略不太成熟的组织正在努力获得其益处。
more organizations have centralized observability

更多组织实现集中式可观测性

成熟的组织往往拥有所有系统和数据的“单一玻璃窗”视图。76% 的受访者表示他们的组织已实现集中式可观测性,而去年这一比例为 70%。即使在这一方面最落后的行业,能源和公用事业,也有 63% 的受访者表示他们已集中了相关工作。
centralized observability saves time and money

集中式可观测性节省时间和金钱

在拥有集中式可观测性的受访者中,79% 的人表示这带来了时间和成本的节约。当被问及具体细节时,最常见的回答是平均修复时间 (MTTR) 缩短、供应商费用和运营成本降低,以及流程和性能改进。

如果您的组织已实现集中式可观测性,这是否带来了时间/成本的节约?

Time and cost savings

按行业划分

Software and technology
Financial services
Retail/e-commerce
Telecommunications
Energy and utilities

帮助团队对可观测性数据进行插装和存储,意味着他们可以将更多时间花在核心任务上。

- 某欧洲大型科技公司受访者谈集中式可观测性的益处

很少有组织采用系统式方法

组织更有可能采用反应式可观测性方法(成熟度最低)而非系统式方法(成熟度最高),尽管大多数组织处于中间地带并采取主动式方法。(请查阅我们的 可观测性历程成熟度模型 以了解更多关于这些分类的信息。)超大型公司(5,000 名以上员工)最有可能采取系统式方法(28%)。

以下哪项最能描述您组织当前可观测性工作的成熟度?

24%

反应式

在您知晓问题之前,客户已经将问题带给您。时间花在响应用户报告的问题上。

57%

主动式

您努力制定流程并实施工具,以便在用户知晓问题之前了解问题。有时您能够阻止问题影响客户。

19%

系统式

您制定流程并实施工具,以便在用户知晓问题之前了解问题,并且能够将对用户的影响降至最低。可观测性和性能测试在 SDLC 的早期阶段实施,从而防止问题在生产环境中发生。


accountability still lags behind

责任追究仍有待提高

更成熟的组织依赖 SLO 实现数据驱动的责任追究。只有 26% 的受访者在生产环境中积极使用 SLO,尽管有 49% 的受访者表示 SLO 比去年更具相关性。大型企业和小型企业在这一领域存在巨大差异,55% 的大型组织要么在生产环境中使用 SLO,要么正在构建概念验证 (POC),而小型企业只有 28%。
application observability is on the rise

应用程序可观测性呈上升趋势

将应用程序性能纳入整体可观测性工作是衡量组织成熟度的另一个指标,但只有 41% 的组织在积极这样做。尽管如此,53% 的受访者表示它比去年更具相关性。这是大型企业更有可能采用的另一个领域。

组织的可观测性策略越成熟,结果越好

Saved time/money with centralized observability
第 3 部分

真是。太多的。工具。

当今应用程序的分布式特性是监控向可观测性转变的重要因素。组织正在跟踪更多服务并依赖更多数据源,他们为此使用了大量的工具。难怪越来越多的组织正在集中化可观测性。

您的团队使用哪些可观测性技术*?

Observability technologies
*受访者可以选择多种技术

团队依赖大量数据源……

在活跃的 Grafana 用户中,72% 的用户在 Grafana 中配置了至少四个数据源,比去年(68%)略有上升。令人惊讶的是,十分之一的用户从 50 多个数据源中提取数据——这个群体也最有可能实现可观测性的集中化(80%,而总体比例为 60%)。金融服务和科技行业在 Grafana 中拥有 50 个或更多数据源的可能性要大得多,分别为 30% 和 21%。

您/您的团队在 Grafana 中配置并积极使用了多少个数据源?

Data sources configured in Grafana

……还有更多的工具

令人震惊的是,当我们询问他们在团队中使用了哪些技术时,受访者提到了 60 多种不同的技术,这表明该市场仍在不断发展。除此之外,89% 的团队使用 2 到 10 种可观测性技术,15% 的受访者表示他们在整个公司范围内使用 10 种以上的技术。此外,今年使用四种或更多技术的团队数量略有增长,从 66% 增加到 70%。

您正在使用多少种可观测性技术?

How many observability technologies are you using?

公司规模和行业有所差异

公司越大,使用的工具和数据源越多。在两极分化的公司规模中尤其如此。例如,只有 16% 的员工人数少于或等于 10 人的公司在 Grafana 中配置了 10 个以上的数据源,而员工人数超过 5,000 人的公司这一比例为 39%。

六个或更多数据源

31%
小型企业
49%
中型企业
54%
大型企业

六个或更多可观测性技术(团队)

22%
小型企业
36%
中型企业
44%
大型企业

六个或更多可观测性技术(公司)

31%
小型企业
50%
中型企业
61%
大型企业
不同行业之间也存在显著差异。例如,电信公司在其团队中使用的可观测性技术往往较少(16% 使用六种或更多,而总体比例为 35%),而金融服务(30%)和科技(21%)行业在 Grafana 中拥有 50 个或更多数据源的可能性要大得多(总体比例为 10%)。

我们实现了平均修复时间 (MTTR) 显著缩短 34%,增强了系统可靠性并简化了操作流程,从而使总体开销减少了 29%。

- 某亚洲小型软件公司受访者谈集中式可观测性的益处

数据关联具有多重益处

收集所有这些数据的好处之一是能够将基础设施数据与跟其他部门相关的数据进行关联。绝大多数受访者 (81%) 表示他们将数据用于软件开发相关联,其他部门也经常被提及,包括财务、支持、市场营销和销售。受访者表示,资源效率是这种数据关联的最大益处。

如果您以这种方式关联数据,您从中获得了什么价值*?

What value do you get from correlating infrastructure data with data relevant to other departments?
第 4 部分

开源软件是可观测性的事实标准方法

我们社区的性质肯定会使本次调查的结果偏向开源软件,但很难忽视开源软件对当今可观测性领域的基础支撑作用。尽管有许多可用的开源工具,包括我们自己的工具,我们将问题集中在 Prometheus 和 OpenTelemetry 的出现和相互作用上,因为越来越多的用户寻求开放标准作为使所有工具和数据协同工作的一种手段。

前 10 位中的 8 位

Top 10 observability technologies

您使用的可观测性工具是开源许可证还是商业许可证?

32%
仅开源
38%
主要为开源
20%
大致相等:开源和商业
8%
主要为商业
2%
仅商业

Prometheus 仍是可观测性的支柱

四分之三的调查受访者表示他们目前正在生产环境中使用 Prometheus,另有 14% 的受访者正在研究它。这个开源监控系统已有十多年历史,并已成为事实上的标准。它似乎也不会退出舞台,因为只有 3% 的受访者表示他们比一年前使用得少了。
Prometheus

您在 Prometheus 上投入了多少?

Prometheus is a mainstay

您目前的 Prometheus 使用情况与一年前相比如何?

How does your use of Prometheus compare to a year ago?

OpenTelemetry 正在兴起

OpenTelemetry 已成为另一个重要的开源软件项目——它现在是 CNCF 中活跃度仅次于 Kubernetes 的第二大项目。未使用 OpenTelemetry 的受访者比例与 Prometheus 相当(15% vs. 11%),但主要区别在于用户处于采用的哪个阶段(43% 正在研究 OpenTelemetry,而 Prometheus 为 14%)。
OpenTelemetry

您在 OpenTelemetry 上投入了多少?

OpenTelemetry is on the rise

您目前的 OpenTelemetry 使用情况与一年前相比如何?

How does your use of Prometheus compare to a year ago?

Prometheus 和 OpenTelemetry 并非二选一

尽管有些人将 OpenTelemetry 和 Prometheus 视为相互竞争的技术,但许多组织正在同时使用它们。几乎一半的 Prometheus 用户也在使用 OpenTelemetry,而 OpenTelemetry 用户比普通调查受访者更有可能积极使用 Prometheus(85% vs. 75%)。
OpenTelemetry Prometheus

OpenTelemetry 与 Prometheus 的重叠使用情况

36%
在生产环境中同时使用 Prometheus 和 OpenTelemetry 的受访者比例
48%
使用 Prometheus 的用户在生产环境中也使用 OpenTelemetry 的比例
40%
使用 Prometheus 的用户正在研究 OpenTelemetry 的比例
85%
使用 OpenTelemetry 的用户在生产环境中也使用 Prometheus 的比例
7%
使用 OpenTelemetry 的用户正在研究 Prometheus 的比例

开放标准与多种工具并行不悖

Prometheus 和 OpenTelemetry 用户在其团队中使用的可观测性技术比普通受访者更多——35% 的总体受访者使用五种以上,而 Prometheus 用户和 OpenTelemetry 用户分别有 41% 和 44%。
第 5 部分

未来:解决差距并推动创新

数据和技术的涌入——以及这些技术的仍在发展中的特性——正在引发可观测性从业者的一些担忧。然而,对于即将到来的事物,他们也抱有相当大的热情。
Cost and complexity

成本和复杂性仍然是巨大挑战

在我们的调查中,成本是关于可观测性最常被提及的担忧,紧随其后的是复杂性。然而,许多其他问题也被提及,包括基数、信噪比和数据保留时间。

关于可观测性的最大担忧*

Biggest concerns about observability
AI

AI 有望成为可观测性自动化和辅助的福音

AI 有潜力帮助解决可观测性带来的大部分复杂性,尽管存在一些合理的怀疑,但大多数受访者都渴望看到未来的发展,超过四分之三的人表示希望将其用于异常检测,大约一半的人认为预测性洞察、仪表盘生成、查询辅助和自动化事件摘要具有潜在价值。

哪些 AI/ML 驱动的功能*对您的可观测性实践最有价值?

Data sources configured in Grafana
AI

观察 AI 的早期阶段

另一个迹象表明,用于可观测性的 AI 仍处于萌芽阶段,只有 7% 的受访者表示他们正在对 AI 系统和 LLM 进行可观测性,而 46% 的受访者表示他们甚至没有考虑过。
AI

开源软件、AI 和更广泛的采用令人兴奋

我们提出了一个开放式问题,以了解受访者对未来的最大期望,结果与本报告中已经讨论的许多主题密切相关。AI 和开源软件位居榜首,而对更成熟的可观测性方面(性能剖析、追踪、应用程序可观测性)的期望也很高。

受访者最期待的可观测性主题

1
OpenTelemetry
2
AI
3
标准化/互操作性
4
eBPF
5
性能剖析
6
追踪
7
信号/数据关联
8
预测
9
改进的告警
10
应用程序可观测性

第四常被提及的答案 eBPF 是另一个值得关注的话题。虽然只有 7% 的受访者表示他们在生产环境中使用了这项内核级技术,但有 42% 的受访者表示他们正在讨论或构建概念验证 (POC)。

如果能找到让入门更容易的方法就太好了。有很多非常有趣的技术,但在理解可观测性的人和不理解的人之间仍然存在巨大的知识鸿沟。

- 某亚洲大型媒体娱乐公司受访者

第 6 部分

关于受访者和方法

今年,共有 306 人参与了 Grafana Labs 可观测性调查。我们没有委托外部机构征集回复。相反,我们通过我们的网站、社交媒体以及各种 Grafana Labs 和开源软件活动,邀请我们的社区参与。

您的组织属于哪个行业?

Industry

您的组织规模*是?

*为简化本报告,在某些地方我们将受访者归类如下:小型企业(1-100 名员工)、中型企业(101-1,000 名员工)、大型企业(1,001 名及以上)
Size of organization
globe

您所在的地区是?

Region

结论

Grafana Labs 谨代表我们向参与调查的受访者以及抽出时间查看结果的读者表示感谢。开源社区、我们的客户、贡献者和用户都是我们工作中不可或缺的一部分,您的反馈每天都在指导着我们的运营以及项目和产品的改进。

我们很高兴看到可观测性取得了长足的进步,以及各种规模、不同行业的组织如何在全球范围内将这些工具和技术付诸实践。

将此信息与去年的调查结果进行比较
2023 年可观测性调查结果

关于 Grafana Labs

Grafana Labs 提供围绕 Grafana 构建的开放且可组合的监控和可观测性技术栈,Grafana 是领先的开源仪表盘和可视化技术。Grafana Labs 拥有超过 3,000 家客户,包括 Bloomberg、Citigroup、Dell Technologies、Salesforce 和 TomTom,全球有超过 2,000 万 Grafana 用户。Grafana Labs 通过 LGTM 技术栈帮助公司管理其可观测性策略,该技术栈可通过 Grafana Cloud 实现全托管运行,或通过 Grafana Enterprise 产品实现自助管理,两者均提供可扩展的指标 (Grafana Mimir)、日志 (Grafana Loki) 和追踪 (Grafana Tempo),以及丰富的企业数据源插件、仪表盘管理、告警、报告和安全功能。Grafana Labs 的主要投资方包括 Lightspeed Venture Partners、Lead Edge Capital、GIC、Sequoia Capital、Coatue 和摩根大通。关注 Grafana Labs 的 LinkedInX 账号,或访问 https://grafana.org.cn