Grafana Labs

可观测性调查

2024

可观测性现状的关键发现与分析

引言

可观测性已成为许多组织构建和维护其系统的组成部分,通过更好地利用资源帮助提高性能、减少繁重工作并节省资金。然而,这些结果并非一定能实现,许多团队仍在努力适应这个不断演进领域的复杂性。

为了更好地了解各组织在可观测性发展历程中所处的阶段——以及由此带来的成功与失败——我们向社区征集了第二届年度 Grafana Labs 可观测性调查的反馈。我们收到了 300 多位行业从业者的经验分享,这为我们提供了关于行业现状及未来走向的引人入胜的快照。

本报告将对调查结果进行细致分析,这些结果表明市场正在走向成熟,团队同时应对着数十种工具和数据源。您还将看到,开放标准已成为解决这一复杂性的手段,与此同时,团队继续推动更高程度的自动化和责任制。

调查快照

79%
已集中可观测性的组织节省了时间或资金
70%
团队使用四种或更多可观测性技术
62
受访者提到的当前正在使用的不同可观测性技术
61%
受访者认为成本或意外账单是他们对可观测性的最大担忧之一
98%
受访者使用开源可观测性工具

最常用的可观测性技术

Top observability technologies
第 1 部分

5 大主要发现

observability practices are still maturing

可观测性实践仍在走向成熟

我们通过询问受访者采用了哪种方法(反应式、主动式或系统式)来衡量他们在可观测性发展历程中所处的阶段。(这些类别代表了从最不成熟到最成熟的可观测性方法。请参阅下一部分了解更详细的分类。) 略多于半数的受访者表示他们的组织采取了主动式方法,这表明该领域正在增长。然而,组织仍然更倾向于采取反应式而非系统式方法,这意味着他们经常从客户那里得知问题,而不是拥有在用户发现问题之前就解决问题的系统。
tool and data sprawl remains a major hurdle

工具和数据蔓延仍然是主要障碍

超过三分之二的团队使用至少四种可观测性技术,受访者总共提到了当前正在使用的 60 多种技术。此外,一半的 Grafana 用户表示他们在 Grafana 中配置并实际使用了至少六种不同的数据源。大量的工具和数据源可能导致相当大的复杂性和开销,因此 79% 的已集中可观测性的组织节省了时间或资金也就不足为奇了。
open source is the de facto standard

开源是事实上的标准

Grafana Labs 致力于为充满活力的开源社区服务。虽然这可能影响了我们的调查结果,但不可否认 OSS 的影响力。绝大多数受访者正在投资 Prometheus (89%) 或 OpenTelemetry (85%)。近 40% 的受访者在实际运营中同时使用这两种技术,并且超过 50% 的受访者在过去一年中增加了对这两个项目的使用。
AI could play a big role — eventually

AI 最终可能发挥重要作用

AI 近期备受关注,但目前它在可观测性中的作用在很大程度上仍是愿景。尽管如此,可观测性从业者对其在加速事件响应和简化可观测性采纳方面的潜力感到兴奋。异常检测是受访者最希望看到的 AI 增强功能,超过四分之三的受访者提到了这一点。
cost emerges as a top concern

成本成为最受关注的问题

超过半数的受访者表示成本是他们对可观测性的最大担忧,同时还提到了其他相关话题,如基数、不可预测的账单以及厂商锁定。
第 2 部分

可观测性持续(不均衡地)走向成熟

可观测性不再是一个小众话题,如今它已成为许多组织软件开发生命周期的重要组成部分。然而,并非所有人都处于同一采用阶段,策略不够成熟的组织正努力获取其带来的益处。
more organizations have centralized observability

更多组织已集中可观测性

成熟的组织倾向于拥有所有系统和数据的“单一视图”。76% 的受访者表示他们的组织已集中可观测性,而去年的这一比例为 70%。即使在在这方面最落后的能源和公用事业领域,也有 63% 的受访者表示他们已集中了相关工作。
centralized observability saves time and money

集中可观测性节省时间和金钱

在已集中可观测性的受访者中,79% 表示这带来了时间或成本的节省。当被问及具体细节时,最常见的回答是平均修复时间 (MTTR) 的缩短、供应商费用和运营成本的降低,以及流程和性能的改进。

如果您的组织已集中可观测性,这是否带来了时间/成本的节省?

Time and cost savings

按行业划分

Software and technology
Financial services
Retail/e-commerce
Telecommunications
Energy and utilities

帮助团队进行可观测性数据插桩和存储意味着他们可以花更多时间专注于核心任务。

- 一家大型欧洲科技公司的受访者谈论集中可观测性的益处

很少有组织采用系统式方法

与系统式方法(最成熟)相比,组织更可能采取反应式方法(最不成熟),尽管大多数组织处于中间地带并采取主动式方法。(请查看我们的可观测性成熟度模型以了解有关这些分类的更多信息。)超大型公司(5,000+ 员工)最有可能采取系统式方法 (28%)。

哪一项最能描述您的组织当前可观测性工作的成熟度?

24%

反应式

在您发现问题之前,客户已经向您反馈了问题。时间用于响应用户报告的问题。

57%

主动式

您致力于开发流程并实施工具,以便在用户之前了解问题。您有时能够防止问题影响客户。

19%

系统式

您开发流程并实施工具,以便在用户之前了解问题,并能够最大限度地减少对用户的影响。可观测性和性能测试在 SDLC 早期实施,防止问题出现在生产环境中。


accountability still lags behind

责任制仍有待提高

更成熟的组织依靠 SLO 来实现数据驱动的责任制。只有 26% 的受访者在生产环境中实际使用 SLO,尽管 49% 的受访者表示 SLO 比去年更重要。大型企业和小型企业在这一领域差异很大,55% 的大型组织要么在生产环境中使用 SLO,要么正在构建 POC,而小型企业仅为 28%。
application observability is on the rise

应用可观测性正在兴起

将应用性能纳入整体可观测性工作是衡量组织成熟度的另一个指标,但只有 41% 的组织实际在做。尽管如此,53% 的受访者表示它比去年更重要。这也是大型企业更有可能采纳的领域。

组织的可观测性策略越成熟,结果越好

Saved time/money with centralized observability
第 3 部分

如此之多的工具。

当今应用的分布式特性是监控向可观测性转变的重要原因。组织正在跟踪更多服务并依赖更多数据源,为此他们使用了大量工具。难怪越来越多的组织正在集中可观测性。

您的团队使用哪些可观测性技术*?

Observability technologies
*受访者可选择多种技术

团队依赖大量数据源……

在活跃的 Grafana 用户中,72% 的用户在 Grafana 中配置了至少四种数据源,略高于去年的 68%。令人惊讶的是,有十分之一的用户从 50 多个数据源拉取数据——这类用户也最有可能集中可观测性(80% 对比总体 60%)。金融服务和科技行业在 Grafana 中拥有 50 个或更多数据源的可能性要高得多,分别为 30% 和 21%。

您/您的团队在 Grafana 中配置并实际使用了多少数据源?

Data sources configured in Grafana

……以及更多工具

令人震惊的是,当我们询问他们在团队中使用了哪些技术时,受访者提到了 60 多种不同的技术,这表明该市场仍在不断演进。除此之外,89% 的团队使用 2 到 10 种可观测性技术,15% 的受访者表示整个公司使用了 10 种以上。此外,今年使用四种或更多技术的团队数量略有增加,从 66% 增至 70%。

您正在使用多少种可观测性技术?

How many observability technologies are you using?

公司规模和行业有所不同

公司规模越大,使用的工具和数据源越多。在两端尤其如此。例如,只有 16% 的员工人数在 10 人或以下的公司在 Grafana 中配置了 10 个以上的数据源,而员工人数在 5000 人以上的公司这一比例为 39%。

六个或更多数据源

31%
小型企业
49%
中型企业
54%
大型企业

六种或更多可观测性技术(团队)

22%
小型企业
36%
中型企业
44%
大型企业

六种或更多可观测性技术(公司)

31%
小型企业
50%
中型企业
61%
大型企业
不同行业之间也存在显著差异。例如,电信公司在团队中使用的可观测性技术往往较少(16% 使用六种或更多,而总体比例为 35%),而金融服务 (30%) 和科技 (21%) 行业在 Grafana 中拥有 50 个或更多数据源的可能性要高得多(总体比例为 10%)。

我们实现了平均修复时间 (MTTR) 显着减少 34%,增强了系统可靠性并优化了运营流程,从而使总体开销降低了 29%。

- 一家亚洲小型软件公司的受访者谈论集中可观测性的益处

关联数据具有多重益处

收集所有这些数据的好处之一是能够将基础设施数据与相关部门的数据进行关联。虽然绝大多数受访者 (81%) 表示他们关联了软件开发数据,但也提到了其他部门,包括财务、支持、市场营销和销售。受访者表示资源效率是此类数据关联的最大益处。

如果您以这种方式关联数据,您从中获得了哪些价值*?

What value do you get from correlating infrastructure data with data relevant to other departments?
第 4 部分

OSS 是可观测性的事实方法

我们社区的性质无疑会使本次调查结果偏向开源软件,但今天 OSS 在可观测性领域的基础作用是显而易见的。尽管有许多 OSS 工具可用,包括我们自己的,我们将问题重点放在 Prometheus 和 OpenTelemetry 的兴起及相互作用上,因为越来越多的用户寻求开放标准来协同工作所有工具和数据。

前 10 名中的 8 个

Top 10 observability technologies

您是使用开源许可还是商业许可的可观测性工具?

32%
仅使用开源
38%
主要使用开源
20%
大致相等:开源和商业
8%
主要使用商业
2%
仅使用商业

Prometheus 仍然是可观测性的中坚力量

四分之三的受访者表示他们目前在生产环境中使用 Prometheus,另有 14% 的受访者正在研究它。这个开源监控系统已有 10 多年历史,并已成为事实上的标准。它似乎也不会消失,因为只有 3% 的受访者表示他们比一年前使用得少了。
Prometheus

您在 Prometheus 上投入了多少?

Prometheus is a mainstay

您当前的 Prometheus 使用情况与一年前相比如何?

How does your use of Prometheus compare to a year ago?

OpenTelemetry 正在兴起

OpenTelemetry 已成为另一个重要的 OSS 项目——它现在是 CNCF 项目中活跃度排名第二的项目,仅次于 Kubernetes。未使用 OpenTelemetry 的受访者比例与 Prometheus 相当接近(15% 对比 11%),但显著区别在于用户所处的采纳阶段(43% 正在研究 OpenTelemetry,而 Prometheus 为 14%)。
OpenTelemetry

您在 OpenTelemetry 上投入了多少?

OpenTelemetry is on the rise

您当前的 OpenTelemetry 使用情况与一年前相比如何?

How does your use of Prometheus compare to a year ago?

Prometheus 和 OpenTelemetry 并非二选一

尽管有些人认为 OpenTelemetry 和 Prometheus 是相互竞争的技术,但组织正在为两者都预留空间。近一半的 Prometheus 用户也使用 OpenTelemetry,而 OpenTelemetry 用户比普通受访者更倾向于实际使用 Prometheus(85% 对比 75%)。
OpenTelemetry Prometheus

OpenTelemetry 与 Prometheus 的重叠情况

36%
受访者在生产环境中同时使用 Prometheus 和 OpenTelemetry
48%
Prometheus 用户也在生产环境中使用 OpenTelemetry
40%
Prometheus 用户正在研究 OpenTelemetry
85%
OpenTelemetry 用户也在生产环境中使用 Prometheus
7%
OpenTelemetry 用户正在研究 Prometheus

开放标准与多种工具并行不悖

Prometheus 和 OpenTelemetry 用户在其团队中使用的可观测性技术比普通受访者更多——总体受访者中有 35% 使用五种以上,而 Prometheus 用户为 41%,OpenTelemetry 用户为 44%。
第 5 部分

未来展望:弥补差距,推动创新

数据和技术的涌入——以及这些技术仍在发展中的特性——正在导致可观测性从业者的一些担忧。然而,对于未来的发展,人们抱有相当大的热情。
Cost and complexity

成本和复杂性仍然是主要问题

成本是我们调查中关于可观测性最常被提及的担忧,紧随其后的是复杂性。然而,也提到了一些其他话题,包括基数、信噪比和数据保留时间。

关于可观测性的最大担忧*

Biggest concerns about observability
AI

AI 可能对可观测性自动化和辅助带来福音

AI 有潜力帮助解决可观测性带来的许多复杂性,尽管存在一些合理的怀疑,大多数受访者仍期待未来的发展,超过四分之三的受访者表示他们希望将其用于异常检测,约一半的受访者看到了其在预测洞察、仪表盘生成、查询辅助和自动化事件摘要方面的潜在价值。

哪些 AI/ML 增强功能*对您的可观测性实践最有价值?

Data sources configured in Grafana
AI

观察 AI 尚处于早期阶段

另一个迹象表明可观测性领域的 AI 仍处于萌芽阶段:只有 7% 的受访者表示他们正在对 AI 系统和 LLM 进行可观测性实践,而 46% 的受访者表示这甚至不在他们的考虑范围内。
AI

对 OSS、AI 和更广泛的采纳充满期待

我们提出了一个开放性问题,以了解受访者最期待的未来发展方向,结果与本报告中已讨论的许多话题密切相关。AI 和 OSS 位居榜首,同时对可观测性更成熟方面(性能剖析、追踪、应用可观测性)的期待也很高。

受访者最期待的可观测性话题

1
OpenTelemetry
2
AI
3
标准化/互操作性
4
eBPF
5
性能剖析
6
追踪
7
信号/数据关联
8
预测
9
改进的告警
10
应用可观测性

第四个最常被提及的答案 eBPF 是另一个未来值得关注的话题。虽然只有 7% 的受访者表示他们在生产环境中使用这项内核级技术,但 42% 的受访者表示正在讨论或构建 POC。

如果能找到更简便的入门方法就太好了。有很多非常有趣的技术,但在理解可观测性的人和不理解的人之间仍然存在知识障碍。

- 一家亚洲大型媒体娱乐公司的受访者

第 6 部分

关于受访者和方法

今年,306 人参加了 Grafana Labs 可观测性调查。我们没有委托外部机构征集回复。相反,我们通过网站、社交媒体以及在各种 Grafana Labs 和 OSS 活动中联系我们的社区成员参与。

您的组织属于哪个行业?

Industry

您的组织规模*是多少?

*为了简化本报告,我们在某些地方将这些合并,创建了以下称谓:小型企业(1-100 员工)、中型企业(101-1,000 员工)、大型企业(1,001+ 员工)
Size of organization
globe

您所在的地区是?

Region

结论

Grafana Labs 谨代表公司感谢所有参与本次调查的受访者以及花时间查看结果的读者。开源社区、我们的客户、贡献者以及用户都是我们在此所做一切的不可或缺的一部分,您的意见每天都在影响我们如何运营和改进我们的项目及产品。

我们很高兴看到可观测性发展到了怎样的程度,以及各组织在全球各地、不同行业和各种规模的组织中实践这些工具和技术的方式。

将此信息与去年的调查结果进行比较
2023 年可观测性调查结果

关于 Grafana Labs

Grafana Labs 提供了一个围绕 Grafana 构建的开放式可组合监控和可观测性技术栈,Grafana 是领先的开源仪表盘和可视化技术。Grafana Labs 拥有 3,000 多家客户,包括 Bloomberg、Citigroup、Dell Technologies、Salesforce 和 TomTom,全球 Grafana 用户超过 2,000 万。Grafana Labs 通过 LGTM Stack 帮助企业管理其可观测性策略,LGTM Stack 可以通过Grafana Cloud 进行全托管部署,或通过Grafana Enterprise 产品进行自管理部署,两者都提供可伸缩的指标(Grafana Mimir)、日志(Grafana Loki)和追踪(Grafana Tempo),以及丰富的企业级数据源插件、仪表盘管理、告警、报告和安全性。Grafana Labs 由 Lightspeed Venture Partners、Lead Edge Capital、GIC、Sequoia Capital、Coatue 和 J.P. Morgan 等领先投资者提供支持。在 LinkedInX 上关注 Grafana Labs 或访问 https://grafana.org.cn