第三届年度

可观测性调查

由...呈现
Observability Survey 2025

在这份免费报告中,基于 Grafana Labs 通过社区外展和全球行业活动收集的 1,255 份回复,您将了解当前组织如何进行可观测性实践以及他们希望行业未来的发展方向。

太长不看 (TL;DR)

工具过多
确实存在

101

不同的可观测性技术
被引用为目前正在使用

可观测性运行
在开源基础上

71%

的组织表示他们正在以某种方式使用
Prometheus 和 OpenTelemetry

成本主导购买
决策

74%

表示它是选择工具的首要优先事项
,优先于易用性和
互操作性

复杂性
难题

39%

表示复杂性/开销是他们面临的
最大的可观测性障碍——最常
被提及的阻碍

全栈
脱颖而出

85%

的公司正在以某种方式使用统一的
基础设施和应用
可观测性†

来自高层
的看法

49%

表示“CTO/C 级别”或“副总裁级别”是可观测性
被认为对业务至关重要的最高级别
可观测性被视为
对业务至关重要

更多探索调查结果的方式

In-depth analysis icon

深入分析

深入了解最重要的发现以及影响可观测性领域的最新趋势。

阅读完整报告
Observability Survey 2024

在 Grafana 中查看数据

了解您的组织表现如何,并在我们交互式的 Grafana Play 仪表盘中深入研究数据。 

探索数据


Observability Survey 2025

多种多样的工具

调用链日益普及,超过一半(57%)的组织将其纳入其技术栈中

组织仍然依赖日志和指标,但调用链和 profiling 越来越多地被纳入更多技术栈。然而,这两种较新的遥测支柱的采用率在不同行业之间差异很大。金融服务公司(65%)最有可能使用调用链,而电信公司最少(37%)。同样,18% 的零售/电子商务公司使用 profiling,而在汽车或制造业中这一比例仅为 9%。

组织用于观察其系统的遥测数据

指标
95%
日志
87%
调用链
57%
Profiling
16%

团队正在同时使用大量可观测性工具——并频繁进行上下文切换

公司平均使用八种可观测性技术。这一数字较去年(九种)略有下降,表明他们正试图缩减用于观察其系统的工具数量。尽管如此,他们可以选择的工具数量仍然惊人。

101

受访者引用目前正在使用的不同可观测性技术的数量令人惊叹,其中包括 Prometheus、OpenTelemetry、ELK Stack、Datadog 和 Grafana LGTM Stack

使用的可观测性技术数量

Observability Survey 2024

Grafana 用户在该平台中平均配置 16 个数据源

但规模较大的组织往往拥有更多数据源。员工数超过 5,000 人的公司平均使用 24 个数据源,而员工数在 10 人或以下的公司仅使用 6 个。除了公司规模,受访者的角色也会产生很大影响,开发者平均仅使用 10 个数据源,而 SRE 平均使用 18 个。

Grafana 中的数据源数量(按公司规模)

0
1
2-3
4-5
6-7
8-10
11-20
21-50
51-100
101+
不适用



Observability Survey 2024

团队处理可观测性的方式

成本是公司选择新可观测性工具时最重要的标准

成本是全面最重要的标准,但其他购买优先事项取决于不同工作角色的需求。例如,61% 的开发者提及易用性,而 SRE 中这一比例为 53%。同时,27% 的工程总监和经理优先考虑人工智能/机器学习功能,而所有角色中这一比例仅为 19%。

选择新可观测性工具时最重要的*标准(按角色)

成本
易用性/新用户的学习曲线
与组织中使用的其他工具的互操作性
基于开源软件/技术
未来切换到其他工具的容易程度
在您组织内的熟悉程度/采用情况
人工智能/机器学习能力
其他

*受访者可以选择多个标准
†受访者基数少于 50 人

大多数组织采用集中式可观测性

组织绝大多数采用 DevOps 模型(集中式团队或嵌入式专家)作为其可观测性方法。
38%
集中式可观测性(支持)
集中式可观测性团队运行可观测性平台,并向产品团队提供最佳实践和支持,但不直接管理单个服务的可观测性。
23%
集中式可观测性(运维)
集中式可观测性团队运行可观测性平台,并负责产品团队的实施、入职、埋点、构建仪表盘以及设置告警/SLO。

18%
可观测性专家
可观测性专家(例如 SRE)嵌入在每个产品团队中,负责实施和管理针对该团队服务的可观测性实践。

15%
运维团队
一个独立的运维团队负责实施可观测性,并负责生产环境中应用程序的正常运行时间和性能。

4%
尚未实施可观测性
我们尚未为生产应用构建可观测性系统。

3%
其他

社区关于集中式可观测性的评价

“集中式可观测性将我们的平均解决时间(MTTR)减少了 40%,每次事件平均节省了 15 个工程师工时。这相当于每季度节省约 25,000 美元的成本。”
— 某大型欧洲软件和技术公司开发者

转向 SaaS 是一个日益增长的趋势

37% 的受访者表示他们“主要”或“只”使用 SaaS,同比增长 42%。SaaS 和自行管理并存的组织数量也大幅下降,从 2024 年的 22% 降至 2025 年的 6%——这可能表明那些此前持观望态度的组织已被 SaaS 所吸引。但本次调查中的大多数组织仍然自行管理其可观测性设置,57% 的受访者将其可观测性设置描述为“主要”或“只”自行管理。最有可能自行管理其设置的是哪些组织?欧洲组织(69%)以及政府(77%)和电信(77%)行业的组织。

哪项最能描述您的可观测性设置?

Which best describes your observability setup?


Observability Survey 2024

开源的作用

组织使用开源许可下的可观测性工具的可能性远高于商业许可

76% 的受访者正在以某种方式使用可观测性的开源许可(“仅使用开源”、“主要使用开源”、“大致相当”),但越来越多的组织正在优先考虑商业工具——那些“仅使用”或“主要使用”商业许可的组织数量翻了一倍多(2024 年为 10%,2025 年为 24%)。此外,许可类型与可观测性设置(SaaS vs. 自行管理)之间存在很强的关联性。

您使用的可观测性工具是开源许可还是商业许可?

Are you using observability tools under an open source or a commercial license?

可观测性设置与许可之间的关系

仅自行管理
主要自行管理
大致相当
主要使用 SaaS
仅使用 SaaS

连续第二年,一半的组织增加了对 Prometheus 和 OpenTelemetry 的投入

超过三分之二 的组织(67%)以某种方式在生产环境中使用 Prometheus(“在生产环境中使用”、“广泛使用”、“专门使用”),另有 19% 正在研究或构建 POC。相比之下,OpenTelemetry 的生产使用率较低(41%),但其未来增长势头似乎更强劲,超过三分之一(38%)正在研究或构建 POC。
71%
的受访者以某种方式同时使用 Prometheus 和 OpenTelemetry†
34%
的受访者在生产环境中同时使用 Prometheus 和 OpenTelemetry††
Prometheus logo

您在 Prometheus 方面投入了多少?

How much have you invested in Prometheus?
OpenTelemetry logo

您在 OpenTelemetry 方面投入了多少?

How much have you invested in OpenTelemetry?

与去年相比,您对 Prometheus 和 OpenTelemetry 的使用情况如何?

Prometheus logo
Prometheus
53%
更多
=
30%
相同
7%
更少
?
11%
不知道
OpenTelemetry logo
OpenTelemetry
50%
更多
=
27%
相同
5%
更少
?
17%
不知道

更多公司正在使用 OpenTelemetry,但他们在兼容后端方面的优先级不同

以某种方式在生产环境中使用 OpenTelemetry(“在生产环境中使用”、“广泛使用”、“专门使用”)的组织与刚开始使用 OpenTelemetry(“正在研究”、“正在构建 POC”)的组织之间存在一些显著差异。在生产环境中使用 OpenTelemetry 的组织更看重对多种遥测类型的支持(61% 对 51%)、与现有系统的兼容性(56% 对 51%)、成本(49% 对 41%)以及可伸缩性(44% 对 36%)。

OpenTelemetry 后端解决方案的要求*

57%
确保供应商中立性和灵活性
51%
支持多种遥测类型,包括指标、日志、调用链和 profiling
51%
有效的数据探索、可视化和分析能力
49%
与现有监控/可观测性系统的兼容性
42%
成本效益
35%
可伸缩性以处理大量遥测数据
32%
易于采用和管理
*受访者可以选择多个答案


Challenges icon

仍然存在的挑战

复杂性、噪音和成本被列为实现可观测性成功的首要障碍

这些担忧可能直接影响工具选择。例如,88% 认为可观测性成本过高的受访者也表示成本是选择新工具的重要标准。近三分之二(62%)对组织内采用情况感到担忧的受访者在选择新工具时也优先考虑易用性和互操作性。

最大的*可观测性担忧

39%
设置和维护工具带来的复杂性/开销
38%
噪音过多;信噪比挑战
37%
成本太高
29%
成本太难预测和预算
28%
供应商锁定
24%
在公司内部获得采用
23%
说服管理层其价值
*受访者可以选择多个答案

成本担忧在不同行业、角色、地区和组织规模中差异很大

引用可观测性成本过高是其最大担忧之一的受访者比例

CTO*
50%
工程总监
45%
开发者
37%
工程经理
37%
平台团队
36%
SRE
35%

*受访者基数少于 50 人

非洲*
59%
南美洲*
48%
大洋洲*
45%
亚洲
41%
中东*
39%
北美洲
37%
欧洲
33%

*受访者基数少于 50 人

员工人数

<10
46%
11-100
33%
101-500
34%
501-1,000
36%
1,001-2,500
47%
2,501-5,000
39%
5001+
35%

应用科学*
57%
旅游*
50%
零售/电子商务
48%
物联网*
44%
软件与技术
39%
媒体
37%
其他
36%

*受访者基数少于 50 人

可观测性成本占基础设施成本的一小部分,但百分比分布很广

平均而言,可观测性支出占总计算基础设施支出的 17%,尽管最常见的回答是 10%‡。然而,这个比例差异很大,有些支出几乎为零,而有些则完全超过其计算支出。

可观测性支出占总计算基础设施支出的百分比

平均值: 17%, 中位数: 10%, 众数: 10%

占基础设施支出的 0%
占基础设施支出的 1-10%
占基础设施支出的 11-20%
占基础设施支出的 21-30%
占基础设施支出的 31-40%
占基础设施支出的 41-50%
占基础设施支出的 51%+

告警疲劳是组织中几乎所有级别更快进行事件响应的第一大障碍

唯一的例外是工程经理,他们提及“跨团队痛苦的事件协调”(25%)的可能性略高于告警疲劳(24%)。他们也最有可能提及“跨事件数据有限”(18%)。

更快进行事件响应的最大障碍(按角色)

告警疲劳
缺乏事件响应
跨团队痛苦的事件协调
缺乏随每次事件改进的文化和流程
跨事件数据有限
其他

*受访者基数少于 50 人



Future icon

解决当下问题的未来方案

SLO 和全栈可观测性是未来的首要任务

大约一半的公司正在“研究”或“构建 POC”,用于统一的应用和基础设施可观测性(51%)、服务等级目标(SLO)(50%)和 LLM 可观测性(47%)。超过三分之一(39%)的公司正在对 FinOps 做同样的事情。在这组新兴技术中,LLM 可观测性在生产环境中“使用”、“广泛使用”或“专门使用”的比例最低(合计 7%),而统一的应用和基础设施可观测性的使用比例最高(34%)。

新兴技术和技术对您公司的相关性

FinOps
LLM Observability
SLO
Unified application and infrastructure observability

最受欢迎的人工智能/机器学习功能:基于训练的告警和更优的根本原因分析工具

然而,这两个备受追捧的功能的优先级排名因公司规模(小型组织倾向于基于训练的告警)、技术和数据源数量(拥有更多技术和数据源的组织倾向于根本原因分析)以及 SaaS vs. 自行管理(前者倾向于基于训练的告警,后者倾向于更快的根本原因分析)等因素而有所不同。
31%
当指标与其通常模式发生变化或在组中成为异常值时触发的基于训练的告警
28%
更快的根本原因分析:自动化目标检查、帮助解释信号、服务失败时的建议

16%
减少未使用/未充分利用的资源和遥测数据

11%
设置和理解监控、SLO、告警等的指导

11%
跨服务的持续异常检测和警告

2%
其他


Business icon

可观测性成果如何转化为业务目标

组织优先使用 SLO 以主动改进 MTTR

拥有成熟可观测性文化的组织倾向于依赖 SLO,因此这些组织希望实现的首要成果是降低 MTTR(33%)和提高责任制(25%)。有趣的是,成本节省(14%)是优先级最低的成果,这表明这些组织更看重从可观测性中获取价值,而不是降低成本。

如果您正在积极使用 SLO 或对此感兴趣,您希望实现的最重要成果是什么?

If you’re actively using SLOs or are interested in doing so, what is the most important outcome you hope to achieve?

C 级高管将可观测性视为业务优先事项

“CTO/C 级别”(33%)最常被提及为可观测性被认为对业务至关重要的最高级别。这因行业而异,金融服务业(45%)拥有 C 级高管参与的可能性最高,而医疗保健(20%)和政府(18%)的可能性最低。这也与公司规模相关,因为员工数在 100 人或以下的企业拥有 C 级高管参与的可能性最高(40%),而员工数超过 1,000 人的企业可能性最低(29%)。

在您公司内可观测性被认为对业务至关重要的最高级别

Highest level at which observability is considered critical to the business within your company

C 级高管参与可能与可观测性成熟度相关

将“CTO/C 级别”作为可观测性被认为对业务至关重要的最高级别的受访者与拥有更成熟可观测性实践的受访者之间似乎也存在关联。

C 级高管支持对各种技术和技术采用的影响

选择“CTO/C 级别”作为可观测性被认为对业务至关重要的最高级别
所有其他回复

*在生产环境中使用、广泛使用或专门使用

实践者如何说服(或难以说服)他们的同事接受可观测性

“说服他们的最好方法是引领他们去实践。当我的团队有机会构建一个新工具时,我们使用 OTEL 对该服务进行了埋点,并获得了该服务中每个操作的可见性,能够在几个小时内解决 bug,其他团队注意到了这一点,并也想要这样的能力。”
— 某小型欧洲软件公司 DevOps 工程师


Demographics icon

关于本次调查

受访者画像

调查回复收集自世界各地的可观测性实践者和领导者。这些个人来自各种规模和广泛行业的公司。

角色

Role stats

地区

Region stats

组织规模

Size of organization stats

行业

Industry

方法论

本次调查于 2024 年 9 月 18 日至 2025 年 1 月 2 日期间在线上和线下进行。我们通过网站、新闻通讯和社交媒体渠道进行推广。我们还在 Grafana Labs 活动和第三方会议上征集回复。

更多探索调查结果的方式

In-depth analysis icon

深入分析

深入了解最重要的发现以及影响可观测性领域的最新趋势。

阅读完整报告
Observability Survey 2024

在 Grafana 中查看数据

了解您的组织表现如何,并在我们交互式的 Grafana Play 仪表盘中深入研究数据。 

探索数据

† 结合了“我们正在研究它”、“我们正在构建 POC”、“我们正在生产环境中使用它”、“我们正在广泛使用它”和“我们正在专门使用它”

†† 结合了“我们正在生产环境中使用它”、“我们正在广泛使用它”和“我们正在专门使用它”

‡ 这是一个可选的开放式问题。数据集中移除了不一致或不准确的回复,剩余有效回复 294 份。