引言
随着从单体向微服务的转变,当今的基础设施和应用程序日益复杂,构建和管理它们变得越来越困难。这就是为什么拥有 SRE 或 DevOps 经验的人对于组织至关重要。这也是为什么可观测性——一个曾被贬低为监控的代名词的术语——在组织努力获得系统可见性并理解随着复杂性增长而出现的意外事件时,已走到前沿。
为了更好地理解可观测性的现状,我们在 Grafana Labs 2023 年可观测性调查中征集了行业从业者的意见。数百人参与了调查,帮助我们更好地描绘出企业在采用之路上的阶段、他们面临的挑战,以及那些已转向集中式可观测性所获得的无数好处。
在整理和分析调查反馈后,我们还对六家 Grafana Labs 客户进行了深入访谈,以获取关于可观测性对其组织影响的更详细信息。
在本报告中,您将一窥行业现状以及未来发展方向。调查受访者——其中 94% 使用 Grafana——拥有基于容器的架构工作经验,这种架构模式需要这种方法来维护复杂系统的健康状况。他们对相应的工具和技术持乐观态度,并且许多人正在积极利用可观测性来节省资金和精力。然而,仍有近三分之一的受访者尚未集中可观测性,许多受访者表示他们渴望市场的持续增长和成熟。

5 个主要收获
公司正在处理大量工具和数据源。
超过三分之二的活跃 Grafana 用户正在向 Grafana 导入四个或更多数据源。此外,大多数团队使用至少四个可观测性工具,而一些组织则使用了数十个。
组织在可观测性旅程中处于不同阶段。
大多数受访者已经集中了可观测性,但近三分之一尚未如此;一些行业比其他行业进展更快。
整合的可观测性节省了时间和金钱。
在已经集中可观测性的公司中,83% 节省了时间或金钱;许多尚未加入的公司表示他们渴望实现同样的目标。
问责制和市场成熟度进入可观测性领域。
大多数公司正在使用或考虑服务级别指标 (SLI) 或服务级别目标 (SLO),受访者渴望看到可观测性市场持续增长和成熟。
并非所有 ROI 都相同。
不同的组织有不同的可观测性策略目标。是的,节省资金是首要目标,但实现该目标有多种途径,包括 MTTx 改进、减少重复劳动和基础设施维护、更好的采用、一致的开发者体验、降低复杂性、SLO、更好的容量规划以及更好的警报和可见性。
集中式可观测性使其他团队不必构建自己的监控基础设施。
— 来自拥有 5000 多名员工、积极使用 SLO/SLI 的金融服务机构受访者
可观测性超载:工具和数据源
凭借其管辖下的众多数据源、环境以及可观测性与监控工具,调查受访者表示他们如今正在使用大量不同的资源。
数据源
在活跃的 Grafana 用户中,68% 表示他们在 Grafana 中配置了至少 4 个数据源,其中 28% 从 10 个或更多数据源中拉取数据。规模较大的组织倾向于使用更多数据源:员工人数超过 1000 人的公司中有 41% 接入了 10 个以上数据源,而员工人数在 100 人及以下的公司仅为 7%。
使用中的工具数量
66% 的受访者在其团队中使用 4 个或更多可观测性工具,而 52% 表示其公司使用 6 个或更多工具,其中 11% 表示其公司使用 16 个或更多可观测性工具。
按行业划分的工具
在许多情况下,使用中的工具数量因行业而异。金融行业 (31%) 和政府部门 (27%) 的受访者中有更高比例(相对于总体 7%)在其团队中使用 10 个或更多可观测性工具,而医疗保健 (44%) 和能源与公用事业 (40%) 倾向于使用 1 到 3 个工具(相对于总体 34%)。
环境数量
大多数受访者 (66%) 将其可观测性工作集中在单个环境上(托管云、自托管云基础设施或自托管本地),而其余受访者在至少两个环境中使用了可观测性,其中 9% 在所有三个环境中都进行了部署。大多数公司也拥有一定的云原生足迹,只有 24% 的公司完全在本地运行。
常用工具
Grafana (94%) 和 Prometheus (79%) 是最常用的可观测性工具,这表明 Kubernetes 使用率很高。但受访者列出了 20 多种正在使用的其他工具,包括 Elastic (44%)、Datadog (19%) 和 Splunk (22%) 等成熟产品,以及 Grafana Loki (44%) 等新兴工具。





集中式日志极大地改善了我们在生产环境中解决任何错误所需的时间。
— 来自运行自管、SaaS 和云环境的金融服务机构受访者
时间、金钱、观点和优先级
可观测性的最终目标是确保您的系统可靠且可扩展,这反过来有助于业务更好地运营。受访者表示可观测性可以节省时间和金钱,但这对于不同的组织意味着不同的事情。
集中化
70% 的受访者已经实现了可观测性集中化。在这些受访者中,83% 节省了时间或金钱。
行业差异
不同行业似乎处于不同的采用阶段。例如,零售或媒体和娱乐行业的集中式可观测性采用率不足一半。与此同时,70% 的金融行业公司已经采用集中式可观测性并因此节省了时间和金钱,而所有行业的平均水平为 58%。
诸多益处
参与者列举了与集中式可观测性相关的诸多益处和用例,包括更好的采用率、更少的重复劳动、MTTx 改进、一致的开发者体验、降低复杂性、SLOs、更少的基础设施维护、更好的容量规划以及更好的警报和可见性。
按部门划分的可观测性
不同的组织将其可观测性策略侧重于业务的不同部分。例如,当被问及哪些部门对于数据关联最重要时,工程和运营是迄今为止最常见的答案(均超过 80%),但也提到了包括市场、销售和支持在内的其他部门。
不同的财务优先级
在所有受访者中,37% 表示他们在关联数据时优先考虑容量规划,25% 优先考虑成本控制,9% 优先考虑盈利能力和利润计算。这些数字有时会因行业而异。例如,旅游运输、媒体和娱乐行业中有 50% 的受访者优先考虑用于成本控制的数据关联。此外,18% 的软件和技术公司优先考虑用于盈利能力和利润计算的数据关联,而所有其他受访者中仅为 5%。


MTTR 在 6 个月内提高了 80%。
— 来自一家已实现可观测性集中化、其团队使用 7 到 9 种工具的软件和技术组织受访者
SLO、市场成熟度以及下一步
尽管调查受访者在可观测性方面可能更具前瞻性,但这个新兴领域仍有增长空间——对于从业者和供应商而言都是如此。
SLI/SLO 的谱系
SLO 的正确执行是衡量可观测性策略成熟度的良好标志。大多数受访者表示他们正在使用或朝着这个方向发展,但并非都处于同一阶段。此外,主动使用 SLI/SLO 的受访者人数(28%)仅略高于那些尚未将其纳入考虑范围的受访者(21%)。
大与小的分歧
拥有 5000 名以上员工的公司在 SLO 方面进展最快,其中 40% 正在积极使用它们。相反,只有 15% 的员工人数在 10 人或以下的公司使用 SLO,而 53% 的公司表示 SLO 不在他们的考虑范围内。
行业差异
一些行业比其他行业更快地采用 SLO。媒体和娱乐公司中只有 7% 表示他们目前正在使用 SLO,而汽车公司则为 0%。与此同时,零售/电商公司中有 38% 使用 SLO。
未来展望
我们提出一个开放式问题,询问人们在这个领域最激动的事情是什么,很明显,受访者渴望看到市场的持续成熟。提到的一些热门事项包括持续集中化、改进易用性和加强数据关联。一些 OSS 工具,包括 OpenTelemetry 和 Grafana Loki,也榜上有名。


一致且愉快的开发者体验;轻松访问重要指标、日志和追踪;更快的调试;更好的警报;更快地升级到 Stack 的新版本。
— 来自一家软件和技术组织受访者,关于在其自管 Stack 和云基础设施中引入集中式可观测性带来的改进
关于受访者
可观测性并非新词,但在不断发展的 IT 环境中,对于不同的人可能意味着不同的事情。因此,我们认为提供有关参与本次调查人员的一些背景信息非常重要,以便您将我们的发现与您组织在可观测性旅程中所处的位置进行比较。首先,我们可以对他们的运营方式进行一些推断:
他们正在构建容器化、分布式应用程序。
79% 的受访者使用 Prometheus,这表明许多受访者将其工作负载运行在 Kubernetes 上。
他们喜欢开源。
Grafana LGTM Stack、InfluxDB、Jaeger、Prometheus 和 Thanos 等开源项目被广泛使用。
他们很可能在大公司工作。
受访者来自各种规模的公司,但 47% 的受访者就职于员工人数超过 1000 人的公司。
他们很可能在技术行业工作。
调查参与者来自 20 多个行业,但一半在软件和技术行业工作。其次是金融服务行业,占受访者的 15%。
总共有 268 人参与了 2022 年 9 月至 2023 年 1 月期间的调查。Grafana Labs 设计了本次调查,并通过新闻通讯、线下活动、社交媒体和自家网站征集了反馈。


我们一直努力将所有解决方案整合到单一视图中。我认为这种方法显著降低了 MTTR。但是,目前由于解决方案仍在成熟,开销降低进展缓慢。随着我们对解决方案投入更多并进行完善,采用率将会提高。
— 来自一家软件和技术组织受访者,该组织为其自管 Stack 和云基础设施使用 7 种可观测性技术
深入探讨
可观测性的可量化影响
对六家 Grafana Labs 客户的访谈提供了他们可观测性旅程的全貌
在收集调查回复并分析数据后,我们决定通过访谈可观测性实践者,进一步探讨他们的公司如何应对报告中关键发现中提到的一些优势和挑战,从而为本报告增加一个维度。
为了获得这种程度的访问和讨论,我们联系了我们的客户,与六家不同公司的技术负责人进行了座谈,以更全面地了解他们的优先级以及他们如何将可观测性最佳实践内化以实现这些目标。更具体地说,我们询问了他们如何利用 Grafana Labs 解决方案通过这些投资来降低 MTTR、提高开发者生产力并节省资金。
我们对公司和个人受访者进行了匿名处理,以便他们可以自由地谈论他们的使用情况和策略。我们希望这些快照对您有所帮助,并可以在您的公司迈向集中式可观测性旅程中作为指引。
跨国软件公司
这家公司拥有数万名员工,年收入数十亿美元,通过从 Datadog 转向 Grafana Labs 解决方案,其可观测性成本降低了约三分之一。除了成本之外,他们还非常赞赏双方建立起来的实践支持和相互信任的关系——或者正如这位可观测性高级经理所说,“吸引我们选择 Grafana 的是非推销的部分。”
尽管如此,可观测性并非总是容易被接受。公司高管期望可观测性占云支出的比例低于 10%,这是可观测性团队一直在努力实现的目标。最终让他们信服的是,他们意识到不可能只使用一种可观测性工具,而 Grafana 的“大帐篷”理念允许他们支持许多不同的数据源,这转化为更好的结果。
衡量可靠性归结为以降低 MTTR 为重点的 KPI。与此同时,他们通过跟踪这些团队在关键服务更新上花费的时间来提高开发者生产力。他们还开始衡量四个 DORA 指标——部署频率、变更平均前置时间、恢复平均前置时间和变更失败率——并希望在明年看到这些努力带来的好处。
企业级电信供应商
这家为全球组织提供客户体验 (CX) 服务的公司,需要优先考虑可观测性,因为它承诺提供 5 个 9 的可用性(99.999% 正常运行时间)。为了兑现这一承诺,它跟踪弹性、可靠性以及 DORA 指标。每周,他们还会审查发生的事件数量、与 SLO 相关的指标、停机分钟数和客户影响分钟数。
虽然 OpEx 节省是可观测性的一个结果,但该公司优先考虑的是通过更好的可观测性实践建立客户信任。这些“成本”被分为三个类别:
- 弹性、可扩展性、性能。他们将信任的侵蚀视为机会成本。他们能够通过其净推荐值 (NPS) 来衡量这种影响,由于他们的高弹性,NPS 已从 50 多分提升到 60 多分。
- 投资回报。通过投资可观测性,他们能够降低信噪比并减少基数。
- 人员配置。转向使用 Grafana Labs 实现可观测性,带来了更多的自动化和成熟度,使该公司能够将全职员工转移到对业务更有价值的项目上。
展望未来,他们渴望继续在公司内部推广其可观测性工具的能力,以倡导在整个组织中预防胜于补救。
抵押贷款机构
这家公司已经促成了数十万笔住房贷款,它通过系统正常运行时间和平台响应时间来定义其成功指标。到目前为止,这种关注点一直集中在内部基准,而非用户体验。
该贷款机构根据业务目标审查 ROI,尤其是在供应商合同续约时给予特别关注。他们会查看全职员工节省、供应商成本、硬件节省、投资回收期等。
他们提到与 Grafana Labs 合作后的一项附带好处是,这种合作关系使员工能够将可观测性添加到他们的技能组合中,这反过来也提升了整个团队的工作效率。这也帮助组织吸引了希望使用最佳技术的新员工。
游戏公司
这家游戏提供商的工程经理表示,客户反馈可能是分析站点可靠性的一个很好的起点,因为用户会迅速指出问题发生的时间。然而,仅仅依靠反馈的作用有限。例如,客户没有告诉他们的那些问题呢?此外,当用户无法登录其账户时,这并不能自动提供关于应用程序哪个部分工作不正常的答案。
为了获得最佳的覆盖范围,可观测性团队专注于衡量任何可能影响用户旅程的因素。他们还跟踪不会必然影响用户应用内体验但仍构成风险的事件,包括任何与安全相关的事情。
他们还开始跟踪 DORA 指标,以期改进其可观测性策略,但仍需努力。他们在零散的工具集中发现问题仍面临挑战。公司每个团队都独立管理可观测性,这使得公司无法对系统健康状况有一个整体的视图。他们还在寻找更多的应用性能监控 (APM) 能力,以更深入地了解特定服务的健康状况。
财富 100 强医疗保健公司
自从切换到 Grafana 后,这家大型医疗健康公司的工程师报告称,集中式可观测性带来了价值,改进了 MTTx,并增加了收入。这首先体现在实际的财务改进上。
虽然该组织将节省成本列为与 Grafana Labs 合作的好处之一,但管理可观测性平台的团队正着眼于更宏大的目标:他们还利用 Grafana 来阐明团队的工作如何影响业务成果。
公司高管定期收到的报告显示,可观测性团队在实施 Grafana 方面采取的措施与公司净推荐值 (NPS) 的改进之间存在直接联系。此外还有间接的好处,例如公司移动应用和其他门户的使用量飙升了 40%,部分原因在于加载时间缩短,以及页面错误率低至 1%。
当事情确实出错时,他们不会惊慌。他们知道可以使用 Grafana 快速查明任何问题的根源,这有助于他们更快地恢复正常运行。例如,页面加载时间曾是一个系统性问题,由于未对相应数据进行分析,一直未能被发现。他们利用 Grafana 解决了这个问题;如今,他们对异常数据有了足够的可见性,改变了进行根因分析的方法。他们不再长时间地在作战室里进行调查,而是通过 30 秒的 Slack 聊天直接向负责的团队解决问题,并附带 Grafana Dashboard 参考。
该公司甚至在投资者会议上使用与 Grafana 合作产生的洞察,以增强利益相关者对其采取行动的信心。从本质上讲,他们收集的数据终于在最高层得到了应有的关注——甚至有要求扩大高层报告的范围——因为它可以用易于理解的格式呈现。
展望未来,他们希望帮助客户也开始追踪这些指标。可观测性团队仍然会承担大部分繁重工作,但通过向用户提供一些可观测性基础知识,可以引发关于评估影响特定项目成功的指标的讨论。
电商公司
这家公司在 D2C(直接面向消费者)领域取得了巨大成功。然而,他们的可观测性旅程才刚刚开始。据该公司托管服务工程经理称,他们已经确立了能够监控端到端业务流程的目标,但到目前为止,他们的监控有些随意。
做好这一点是重中之重,因为系统中断会导致巨大的收入损失。他们拥有解决这些问题所需的数据源,现在关键在于将它们全部整合起来。这意味着跟踪上游和下游数据趋势,以了解哪些业务流程受到影响。他们还为开发者设置了 Dashboard,但希望做更多工作,让他们更好地了解系统健康状况。
尽管刚开始转型,他们已经在开发者生产力和成本方面取得了增量改进。但他们也关注更广阔的视野。最终,他们的可观测性策略归根结底是为业务带来价值。因此,他们认为,投入时间配置、组合和定制他们的 Grafana 设置,比依赖更昂贵的交钥匙解决方案更具 ROI,因为后者并不能真正满足他们的特定需求。
结论
代表 Grafana Labs,我们要感谢参与调查以及花时间查阅结果的人们。开源社区、我们的客户、我们的贡献者以及我们的用户都是我们一切工作不可或缺的一部分,您的意见每天都在影响着我们的运营方式以及我们项目和产品的改进。
我们很高兴看到可观测性取得了如此大的进展,以及全球不同行业和各种规模的组织如何将这些工具和技术付诸实践。
关于 Grafana Labs
Grafana Labs 提供基于领先的开源 Dashboard 和可视化技术 Grafana 构建的开放且可组合的监控和可观测性堆栈。Grafana Labs 拥有 2000 多家客户,包括彭博社、花旗集团、戴尔科技、Salesforce 和 TomTom,全球有超过 100 万个活跃的 Grafana 实例。Grafana Labs 帮助企业通过 LGTM Stack 管理其可观测性策略,LGTM Stack 可以通过Grafana Cloud 进行全面管理,也可以通过Grafana Enterprise 产品进行自托管,两者都具有可伸缩的指标 (Grafana Mimir)、日志 (Grafana Loki) 和追踪 (Grafana Tempo),以及丰富的企业数据源插件、Dashboard 管理、警报、报告和安全性。Grafana Labs 由领先的投资机构 Lightspeed Venture Partners、Lead Edge Capital、GIC、红杉资本、Coatue 和摩根大通提供支持。