第三届年度

可观测性调查

由...呈现
Observability Survey 2025

在这份免费报告中,基于 Grafana Labs 通过社区推广和全球行业活动收集的 1255 份回复,您将了解到目前组织如何实践可观测性以及他们期望行业走向何方。

要点速览

工具过载
真实存在

101

不同的可观测性技术
被提及目前正在使用

可观测性运行
在开源之上

71%

的组织表示他们正在使用
Prometheus 和 OpenTelemetry
在某种程度上使用†

成本主导了采购
决策

74%

表示它是选择工具的头等大事
优先于易用性和
互操作性

复杂性
带来的困扰

39%

表示复杂性/开销是他们最大的
可观测性障碍—
最常被提及的障碍

全栈可观测性
成为焦点

85%

的公司正在使用统一的
基础设施和应用
可观测性在某种程度上†

高层视角
顶部

49%

表示“CTO/C级”或“副总裁级”
是认为可观测性对其业务
至关重要的最高层级
对业务至关重要

更多方式探索调查报告

In-depth analysis icon

深度分析

深入了解最重要的要点以及影响可观测性领域的最新趋势。

阅读完整报告
Observability Survey 2024

在 Grafana 中查看数据

在我们的交互式 Grafana Play 仪表盘中,查看您的组织与其他组织的对比情况并深入研究数据。 

探索数据


Observability Survey 2025

可观测性的众多工具

链路追踪越来越受欢迎,超过一半(57%)的组织将其包含在其技术栈中

组织仍然依赖日志和指标,但链路追踪和性能分析正越来越多地被纳入更多技术栈中。然而,这两种新的遥测支柱的采用率在不同行业差异很大。金融服务公司(65%)最有可能使用链路追踪,而电信公司最不可能(37%)。同样,18% 的零售/电商公司使用性能分析,而汽车或制造业的这一比例仅为 9%。

组织用于观察其系统的遥测数据

指标
95%
日志
87%
链路追踪
57%
性能分析
16%

团队正在使用大量可观测性工具,并且进行大量上下文切换

公司平均使用八种可观测性技术。这比去年(九种)略有下降,表明他们正试图减少用于观察其系统的工具数量。尽管如此,他们可选择的工具数量仍然惊人。

101

受访者提及目前正在使用的数量惊人的不同可观测性技术,包括 Prometheus、OpenTelemetry、ELK Stack、Datadog 和 Grafana LGTM Stack

正在使用的可观测性技术数量

Observability Survey 2024

Grafana 用户在该平台中平均配置 16 个数据源

但大型组织往往拥有更多数据源。员工人数超过 5000 人的公司平均使用 24 个数据源,而员工人数在 10 人或以下的公司仅使用 6 个。除了公司规模,受访者的角色也有很大影响,开发人员平均仅使用 10 个数据源,而 SRE 平均使用 18 个。

按公司规模划分的 Grafana 数据源

0
1
2-3
4-5
6-7
8-10
11-20
21-50
51-100
101+
N/A



Observability Survey 2024

团队解决可观测性的方式

成本是公司选择新可观测性工具时最重要的标准

成本是所有角色最看重的标准,但其他采购重点则因工作需求而异。例如,61% 的开发人员提及易用性,而 SRE 的比例为 53%。同时,27% 的工程总监和经理优先考虑 AI/ML 功能,而所有角色的这一比例仅为 19%。

按角色划分的选择新可观测性工具的最重要*标准

成本
易用性/新用户学习曲线
与组织内使用的其他工具的互操作性
基于开源软件/技术
未来切换到其他工具的便捷性
组织内的熟悉度/采用率
AI/ML 能力
其他

*受访者可选择多个标准
†样本数少于 50 位受访者

大多数组织拥有集中式可观测性

组织绝大多数采用 DevOps 模型(集中式团队或内嵌专家)作为其可观测性方法。
38%
集中式可观测性(支持)
集中式可观测性团队负责运行可观测性平台,并向产品团队提供最佳实践和支持,但不直接管理单个服务的可观测性。
23%
集中式可观测性(运维)
集中式可观测性团队负责运行可观测性平台,并处理产品团队的实施、接入、插桩、仪表盘构建以及告警/SLO 设置。

18%
可观测性专家
可观测性专家(例如 SRE)内嵌在各产品团队中,负责实施和管理该团队服务特有的可观测性实践。

15%
运维团队
一个独立于产品开发团队的运维团队负责实施可观测性,并负责生产环境中应用程序的正常运行时间和性能。

4%
尚未进行可观测性建设
我们尚未对我们的生产应用程序建立可观测性。

3%
其他

社区对集中式可观测性的看法

“集中式可观测性将我们的平均故障解决时间 (MTTR) 缩短了 40%,每次事件平均节省了 15 个工程师工时。这相当于每季度节省约 25,000 美元。”
—— 某欧洲大型软件和技术公司的开发人员

转向 SaaS 是一种日益增长的趋势

37% 的受访者表示他们“主要”或“仅”使用 SaaS,同比上升 42%。在 SaaS 和自管之间平均分配的组织比例也大幅下降,从 2024 年的 22% 降至 2025 年的 6%,这可能表明那些先前持观望态度的组织已被 SaaS 说服。但本次调查中的大多数组织仍然自行管理其可观测性设置,57% 的受访者将其可观测性设置描述为“主要”或“仅”自管。最有可能自行管理设置的是哪些组织?欧洲组织(69%)以及政府(77%)和电信(77%)行业的组织。

哪项最能描述您的可观测性设置?

Which best describes your observability setup?


Observability Survey 2024

开源的作用

组织使用开源许可下的可观测性工具的可能性远高于商业许可

76% 的受访者在某种程度上使用开源许可进行可观测性建设(“仅开源”、“主要开源”、“大致相当”),但越来越多的组织优先考虑商业工具——使用“仅”或“主要”商业许可的组织比例翻了一番多(2024 年为 10%,2025 年为 24%)。此外,许可模式与可观测性设置(SaaS vs. 自管)之间存在很强的关联性。

您使用的是开源许可还是商业许可下的可观测性工具?

Are you using observability tools under an open source or a commercial license?

可观测性设置与许可模式之间的关系

仅自管
主要自管
大致相当
主要 SaaS
仅 SaaS

连续第二年,一半的组织在 Prometheus 和 OpenTelemetry 上投入更多

超过三分之二的组织(67%)在某种程度上(“生产环境中使用”、“广泛使用”、“仅使用”)在生产环境中使用 Prometheus,另有 19% 的组织正在研究或构建 POC。相比之下,OpenTelemetry 的生产环境使用率较低(41%),但其未来增长势头似乎更强,超过三分之一(38%)的组织正在研究或构建 POC。
71%
所有受访者中的一部分在某种程度上同时使用 Prometheus 和 OpenTelemetry†
34%
所有受访者中的一部分在生产环境中同时使用 Prometheus 和 OpenTelemetry††
Prometheus logo

您在 Prometheus 上投入了多少?

How much have you invested in Prometheus?
OpenTelemetry logo

您在 OpenTelemetry 上投入了多少?

How much have you invested in OpenTelemetry?

您对 Prometheus 和 OpenTelemetry 的使用情况与去年相比如何?

Prometheus logo
Prometheus
53%
更多
=
30%
相同
7%
更少
?
11%
不知道
OpenTelemetry logo
OpenTelemetry
50%
更多
=
27%
相同
5%
更少
?
17%
不知道

更多公司正在使用 OpenTelemetry,但他们对兼容的后端有不同的优先级

在某种程度上(“生产环境中使用”、“广泛使用”、“仅使用”)在生产环境中使用 OpenTelemetry 的组织与刚开始使用 OpenTelemetry 的组织(“正在研究”、“正在构建 POC”)之间存在一些显著差异。在生产环境中使用 OpenTelemetry 的组织更看重对各种遥测类型的支持(61% vs. 51%)、与现有系统的兼容性(56% vs. 51%)、成本(49% vs. 41%)和可扩展性(44% vs. 36%)。

OpenTelemetry 后端解决方案要求*

57%
确保厂商中立性和灵活性
51%
支持多种遥测类型,包括指标、日志、链路追踪和性能分析
51%
有效的数据探索、可视化和分析能力
49%
与现有监控/可观测性系统的兼容性
42%
成本效益
35%
处理海量遥测数据的可扩展性
32%
易于采用和管理
*受访者可选择多个答案


Challenges icon

仍然存在的挑战

复杂性、噪音和成本被列为可观测性成功的首要障碍

这些顾虑直接影响工具选择。例如,88% 认为可观测性成本过高的受访者也表示成本是选择新工具的重要标准。此外,近三分之二(62%)担心在其组织内推广可观测性的受访者在选择新工具时也优先考虑易用性和互操作性。

最主要的*可观测性顾虑

39%
设置和维护工具的复杂性/开销
38%
噪音过多;信噪比挑战
37%
成本太高
29%
成本难以预测和预算
28%
厂商锁定
24%
在公司内部推广
23%
说服管理层认可价值
*受访者可选择多个答案

成本顾虑在行业、角色、地区和组织规模方面差异很大

认为可观测性成本过高是其最主要顾虑之一的受访者比例

CTO*
50%
工程总监
45%
开发人员
37%
工程经理
37%
平台团队
36%
SRE
35%

*样本数少于 50 位受访者

非洲*
59%
南美*
48%
大洋洲*
45%
亚洲
41%
中东*
39%
北美
37%
欧洲
33%

*样本数少于 50 位受访者

员工人数

<10
46%
11-100
33%
101-500
34%
501-1,000
36%
1,001-2,500
47%
2,501-5,000
39%
5001+
35%

应用科学*
57%
旅游*
50%
零售/电商
48%
物联网*
44%
软件和技术
39%
媒体
37%
其他
36%

*样本数少于 50 位受访者

可观测性成本占基础设施成本的一小部分,但比例差异很大

平均而言,可观测性支出占总计算基础设施支出的 17%,尽管最常见的回复是 10%‡。然而,这个比例差异很大,有些几乎不花钱,有些甚至超过了计算支出。

可观测性支出占总计算基础设施支出的百分比

平均值: 17%,中位数: 10%,众数: 10%

占基础设施支出 0%
占基础设施支出 1-10%
占基础设施支出 11-20%
占基础设施支出 21-30%
占基础设施支出 31-40%
占基础设施支出 41-50%
占基础设施支出 51% 以上

告警疲劳是几乎所有组织层级实现更快事件响应的首要障碍

唯一的例外是工程经理,他们提及“跨团队事件协调困难”(25%)的可能性略高于告警疲劳(24%)。他们也最有可能提及“事件间数据有限”(18%)。

按角色划分的更快事件响应的最大障碍

告警疲劳
缺乏事件响应
跨团队事件协调困难
缺乏随着每次事件改进的文化和流程
事件间数据有限
其他

*样本数少于 50 位受访者



Future icon

未来解决当前问题的方法

SLO 和全栈可观测性是未来的首要任务

大约一半的公司正在对统一应用和基础设施可观测性(51%)、服务水平目标(SLO)(50%)和 LLM 可观测性(47%)进行“研究”或“构建 POC”。超过三分之一(39%)的公司也在对 FinOps 做同样的事情。在这组新兴技术中,LLM 可观测性在生产环境中(“生产环境中使用”、“广泛使用”或“仅使用”)的使用率最低(合计 7%),而统一应用和基础设施可观测性的使用率最高(34%)。

新兴技术和技术对贵公司的相关性

FinOps
LLM Observability
SLO
Unified application and infrastructure observability

最受欢迎的 AI/ML 功能:基于训练的告警和更好的根因分析工具

然而,这两种受欢迎的功能的优先级排序因公司规模(小型组织倾向于基于训练的告警)、技术和数据源数量(数量越多,越倾向于根因分析)以及 SaaS vs. 自管(前者倾向于基于训练的告警,后者倾向于更快的根因分析)等因素而异。
31%
基于训练的告警,当指标偏离其常规模式或在组中是异常值时触发
28%
更快的根因分析:自动化定向检查、帮助解释信号、服务出现故障时的建议

16%
减少未使用的/利用不足的资源和遥测数据

11%
关于设置和理解监控、SLO、告警等的指导

11%
跨服务的持续异常检测和预警

2%
其他


Business icon

可观测性成果如何转化为业务目标

组织优先考虑 SLO,以主动改进 MTTR

拥有成熟可观测性文化的组织倾向于依赖 SLO,因此减少 MTTR(33%)和提高责任感(25%)是这些组织希望实现的首要成果,这一点很合理。有趣的是,成本节约(14%)是最不优先的成果,这表明这些组织可能更注重从可观测性中获取价值,而不是削减成本。

如果您正在积极使用 SLO 或对此感兴趣,您希望实现的最重要成果是什么?

If you’re actively using SLOs or are interested in doing so, what is the most important outcome you hope to achieve?

C 级高管将可观测性视为业务重点

“CTO/C 级高管”最常被提及(33%)为将可观测性视为对业务至关重要的最高层级。这因行业而异,金融服务业(45%)拥有 C 级高管参与度的可能性最高,而医疗保健(20%)和政府(18%)的可能性最低。这也与公司规模有关联,员工人数在 100 人或以下的公司拥有 C 级高管参与度的可能性最高(40%),而员工人数超过 1000 人的公司可能性最低(29%)。

在贵公司内部,将可观测性视为对业务至关重要的最高层级

Highest level at which observability is considered critical to the business within your company

C 级高管参与可能与可观测性成熟度相关

在将可观测性视为对业务至关重要的最高层级时回答“CTO/C 级高管”的受访者与那些拥有更成熟可观测性实践的受访者之间似乎存在关联。

C 级高管支持对各种技术和方法采用的影响

选择 CTO/C 级高管为将可观测性视为对业务至关重要的最高层级
所有其他回复

*在生产环境中使用、广泛使用或仅使用

实践者如何说服(或努力说服)他们的同事接受可观测性

“最好的说服方式是带领他们去体验。当我的团队有机会构建新工具时,我们使用 OTel 对该服务进行了插桩,从而可以清楚地看到该服务中的每一个操作,并能够在几小时内解决错误,其他团队注意到了这一点,也想拥有类似的能力。”
—— 某欧洲小型软件公司的 DevOps 工程师


Demographics icon

关于调查

受访者概况

调查回复收集自世界各地的可观测性实践者和领导者。这些人员来自各种规模和广泛行业的公司。

角色

Role stats

地区

Region stats

组织规模

Size of organization stats

行业

Industry

方法论

本次调查于 2024 年 9 月 18 日至 2025 年 1 月 2 日期间在线和线下进行。我们通过我们的网站、新闻通讯和社交媒体渠道进行了推广。我们还在 Grafana Labs 活动和第三方会议上征集了回复。

更多方式探索调查结果

In-depth analysis icon

深度分析

深入了解最重要的要点以及影响可观测性领域的最新趋势。

阅读完整报告
Observability Survey 2024

在 Grafana 中查看数据

在我们的交互式 Grafana Play 仪表盘中,查看您的组织与其他组织的对比情况并深入研究数据。 

探索数据

† 结合了“正在研究”、“正在构建 POC”、“在生产环境中使用”、“广泛使用”和“仅使用”

†† 结合了“在生产环境中使用”、“广泛使用”和“仅使用”

‡ 这是一个可选的开放式问题。不一致或不准确的回复已从数据集中移除,剩余 294 份回复作为分析基础。