引言
随着从单体架构向微服务的转变,当今的基础设施和应用程序日益复杂,这使得构建和管理它们变得越来越困难。这就是 SRE 或 DevOps 经验丰富的人员对组织至关重要的原因。这也是为什么曾经被嘲笑为只是监控换个名字的 可观测性 如今成为焦点,因为组织正努力获得其系统的可见性并理解这种日益增长的复杂性带来的意外事件。
为了更好地了解可观测性的现状,我们向行业从业者征集了对 Grafana Labs 2023 可观测性调查的意见。数百人响应了调查,帮助更好地描绘了公司在可观测性采用旅程中的位置、面临的挑战以及那些转向集中式可观测性所发现的众多益处。
在整理和分析了调查回复后,我们还对六家 Grafana Labs 客户进行了深入访谈,以获取有关可观测性对其组织影响的更细粒度信息。
在本报告中,您将了解到该行业当前的状况以及未来的发展方向。调查受访者(其中 94% 使用 Grafana)拥有容器化架构的工作经验,这需要采用这种方法来维护复杂系统的健康。他们看好相应的工具和技术,许多人正积极利用可观测性来节省资金和精力。尽管如此,仍有近三分之一的组织尚未实现可观测性集中化,许多受访者表示他们渴望市场继续增长和成熟。

5 个关键要点
公司正在管理大量的工具和数据源。
超过三分之二的活跃 Grafana 用户在 Grafana 中导入了四个或更多数据源。此外,大多数团队使用至少四个可观测性工具,而一些组织则使用数十个工具。
组织在其可观测性旅程中处于不同阶段。
大多数受访者已实现可观测性集中化,但仍有近三分之一尚未实现;一些行业比其他行业进展更快。
整合可观测性可以节省时间和金钱。
在已实现可观测性集中化的公司中,83% 节省了时间和金钱;许多尚未跟进的公司表示他们也渴望实现同样的效果。
问责制和市场成熟度正在进入可观测性领域。
大多数公司正在使用或考虑服务水平指标 (SLIs) 或服务水平目标 (SLOs),受访者渴望看到可观测性市场继续增长和成熟。
并非所有投资回报 (ROI) 都相同。
不同组织的可观测性策略有不同的目标。诚然,节省金钱是首要目标,但实现这一目标有多条途径,包括改进 MTTx、减少重复性劳动和基础设施维护、提高采用率、提供一致的开发者体验、降低复杂性、实现 SLO、改进容量规划以及改进告警和可见性。
集中式可观测性使其他团队无需构建自己的监控基础设施。
—— 来自一家拥有 5,000 多名员工并积极使用 SLOs/SLIs 的金融服务组织的受访者
可观测性过载:工具和数据源
在各种数据源、环境以及可观测性和监控工具的管辖下,调查受访者表示他们目前正在处理大量不同的资源。
数据源
在活跃 Grafana 用户中,68% 表示他们在 Grafana 中配置了至少 4 个数据源,其中 28% 从 10 个或更多数据源中拉取数据。大型组织倾向于使用更多数据源:拥有 1,000 名以上员工的公司中,41% 拉取 10 个以上数据源,而员工人数少于 100 人的公司中这一比例仅为 7%。
使用的工具数量
66% 的受访者在其团队内使用 4 个或更多可观测性工具,而 52% 表示其公司使用 6 个或更多工具,其中 11% 表示其公司使用 16 个或更多可观测性工具。
按行业划分的工具使用情况
在许多情况下,使用的工具数量因行业而异。金融业 (31%) 和政府部门 (27%) 的受访者在其团队中使用 10 个或更多可观测性工具的比例较高(总体比例为 7%),而医疗保健 (44%) 和能源与公用事业 (40%) 行业的受访者倾向于使用 1 到 3 个工具(总体比例为 34%)。
环境数量
大多数受访者 (66%) 将其可观测性工作重点放在单一环境(托管云、自管云基础设施或自管本地环境),其余受访者在至少两个环境中使用可观测性,其中 9% 在所有三个环境中部署。大多数公司也拥有一定的云原生足迹,只有 24% 完全在本地运行。
常用工具
Grafana (94%) 和 Prometheus (79%) 是最常用的可观测性工具,这表明 Kubernetes 的使用非常普遍。但受访者列出了 20 多种其他正在使用的工具,包括 Elastic (44%)、Datadog (19%) 和 Splunk (22%) 等成熟产品,以及 Grafana Loki (44%) 等新兴工具。





集中化日志显著缩短了我们解决任何生产错误的时间。
—— 来自一家运行自管、SaaS 和云环境的金融服务组织的受访者
时间、金钱、视角和优先级
可观测性的最终目标是确保您的系统可靠且可伸缩,这反过来有助于业务更好地运营。受访者表示,可观测性可以节省时间和金钱,但这对于不同的组织来说意味着不同的事情。
集中化
70% 的受访者已实现可观测性集中化。其中,83% 节省了时间和金钱。
行业差异
不同行业似乎处于不同的采用阶段。例如,零售、媒体和娱乐行业的受访者中,只有不到一半实现了可观测性集中化。同时,金融行业 70% 的公司采用了集中式可观测性,并因此节省了时间和金钱,而所有行业的这一比例为 58%。
众多益处
参与者列举了与集中式可观测性相关的诸多益处和用例,包括更高的采用率、更少的重复性劳动、MTTx 改进、一致的开发者体验、更低的复杂性、SLOs、更少的基础设施维护、更好的容量规划以及更好的告警和可见性。
按部门划分的可观测性
不同组织的可观测性策略侧重于其业务的不同部分。例如,当被问及哪些部门对于数据关联最重要时,工程和运营部门是迄今为止最重要的答案(均超过 80%),但其他部门,包括市场营销、销售和支持部门,也被提及。
不同的财务优先级
在所有受访者中,37% 表示他们在关联数据时优先考虑容量规划,25% 优先考虑成本控制,9% 优先考虑盈利能力和利润计算。这些数字有时会因行业而异。例如,旅游运输以及媒体和娱乐行业 50% 的受访者优先考虑数据关联用于成本控制。此外,18% 的软件和技术公司优先考虑数据关联用于盈利能力和利润计算,而所有其他受访者的这一比例为 5%。


MTTR 在 6 个月内提高了 80%。
—— 来自一家已实现集中式可观测性,并在其团队中使用 7 到 9 个工具的软件和技术组织的受访者
SLOs、市场成熟度以及接下来的发展
尽管调查受访者在可观测性方面可能更为先进,但在这个新兴领域仍有增长空间——对于从业者和供应商而言都是如此。
SLIs/SLOs 范畴
SLOs 的正确执行是成熟可观测性策略的一个良好标志。大多数受访者表示他们正在使用或正朝着这个方向迈进,但他们并非都处于同一阶段。此外,积极使用 SLIs/SLOs 的比例 (28%) 仅略高于尚未将其纳入考虑范围的比例 (21%)。
大型和小型公司存在差异
拥有 5,000 名以上员工的公司在使用 SLOs 方面进展最快,40% 正在积极使用。相反,员工人数少于 10 人的公司中只有 15% 使用 SLOs,而 53% 表示他们尚未将其纳入考虑范围。
行业差异
一些行业比其他行业更快采用 SLOs。媒体和娱乐行业只有 7% 的公司表示目前使用 SLOs,而汽车行业这一比例为 0%。同时,零售/电子商务行业 38% 的公司使用 SLOs。
展望未来
我们提出了一个开放性问题,询问人们对该领域最感兴趣的是什么,很明显受访者渴望看到市场持续成熟。一些提到的热门话题包括持续集中化、易用性改进和更强的数据关联。一些 OSS 工具也榜上有名,包括 OpenTelemetry 和 Grafana Loki。


一致且令人愉悦的开发者体验;轻松访问重要的指标、日志和追踪数据;更快的调试速度;更好的告警;更快地升级到新版本的 Stack。
—— 来自一家软件和技术组织,关于引入集中式可观测性到其自管 Stack 和云基础设施带来的改进的受访者
关于受访者
可观测性并非一个新名词,但在不断发展的 IT 格局下,它对不同的人可能意味着不同的事情。因此,我们认为提供一些关于参与本次调查的人员的背景信息非常重要,以便您可以将我们的发现与您的组织在可观测性旅程中的位置进行比较。首先,我们可以对他们的运营方式做出几点推断:
他们正在构建容器化、分布式应用程序。
79% 使用 Prometheus,这表明许多受访者在 Kubernetes 上运行其工作负载。
他们喜欢开源。
OSS 项目如 Grafana LGTM Stack、InfluxDB、Jaeger、Prometheus 和 Thanos 被广泛使用。
他们很可能在大型组织工作。
受访者来自各种规模的公司,但 47% 就职于拥有 1,000 名以上员工的公司。
他们很可能在科技行业工作。
调查参与者来自 20 多个行业,但半数在软件和技术行业工作。其次是金融服务业,占受访者的 15%。
共有 268 人参与了 2022 年 9 月至 2023 年 1 月期间的调查。Grafana Labs 设计了本次调查,并通过通讯、线下活动、社交媒体和自有网站征集回复。


我们一直努力将所有解决方案整合到统一视图中。我认为这种方法大大缩短了 MTTR。但是,随着解决方案的成熟,减少开销的速度较慢。随着我们对解决方案的投入和完善,采用率将会提高。
—— 来自一家在其自管 Stack 和云基础设施中使用 7 种可观测性技术的软件和技术组织的受访者
近距离审视
可观测性的量化影响
对六家 Grafana Labs 客户的访谈提供了他们可观测性旅程的全貌
在收集调查回复并分析数据后,我们决定通过采访可观测性从业者,了解他们的公司如何解决我们关键发现中提到的一些益处和挑战,从而为本报告增加一个维度。
为了获得这种级别的访问和讨论,我们转向了我们的客户,与来自六家不同公司的技术负责人进行了访谈,以更全面地了解他们的优先事项以及他们如何内化可观测性最佳实践以实现这些目标。更具体地说,我们询问他们如何使用 Grafana Labs 解决方案通过这些投资来缩短 MTTR、提高开发者生产力并节省资金。
我们对公司和受访者进行了匿名处理,以便他们能够自由地谈论其使用情况和策略。我们希望这些案例快照对您有所帮助,并能作为您公司迈向集中式可观测性旅程的指引。
跨国软件公司
这家拥有数万名员工、年收入数十亿美元的公司通过从 Datadog 转向 Grafana Labs 解决方案,将可观测性成本降低了约三分之一。除了成本之外,他们还赞赏获得的实际支持和建立的互信关系——正如这位可观测性高级经理所说:“Grafana 吸引我们的是‘非销售’的部分。”
尽管如此,可观测性并非总是易于推销。公司高管期望可观测性支出占其云支出的 10% 或更少,这是可观测性团队一直努力实现的目标。最终让他们信服的是他们意识到永远不会只有一个可观测性工具,而 Grafana 的“大帐篷”理念使他们能够支持多种不同的数据源,这带来了更好的结果。
衡量可靠性归结为侧重于缩短 MTTR 的 KPI。同时,他们通过跟踪这些团队在关键服务更新上花费的时间来提高开发者生产力。他们还开始衡量四项 DORA 指标——部署频率、变更平均前置时间、平均恢复时间和变更失败率——并希望明年看到这些努力带来的益处。
企业电信服务提供商
这家公司为全球组织提供客户体验 (CX) 服务,需要优先考虑可观测性,因为它致力于提供五个九 (99.999%) 的可用性。为了兑现这一承诺,它跟踪弹性、可靠性指标以及 DORA 指标。他们每周还会审查发生的事件数量、与 SLOs 相关的指标、停机分钟数以及客户影响分钟数。
虽然运营支出节省是可观测性的成果,但这家公司的首要任务是通过更好的可观测性实践建立客户信任。这些“成本”被分为三个方面:
- 弹性、可伸缩性、性能。他们认为信任受损是一种机会成本。他们能够通过其净推荐值 (NPS) 来衡量这种影响,NPS 得益于其高弹性,已从 50 多分上升到 60 分以上。
- 支出投资回报 (ROI)。通过投资可观测性,他们能够降低信噪比并减少基数。
- 人员分配。向使用 Grafana Labs 的可观测性转型,带来了更多的自动化和成熟度,使这家公司能够将全职员工 (FTE) 转移到对业务价值更高的项目上。
展望未来,他们渴望继续在内部推广其可观测性工具的功能,以在整个组织倡导预防而非补救。
抵押贷款公司
这家公司已促成了数十万笔房屋贷款,它通过系统正常运行时间和平台响应时间来定义其成功指标。到目前为止,这一关注重点一直是内部基准,而非用户体验 (UX)。
该贷款公司根据业务目标审查投资回报 (ROI),特别关注与供应商续签合同时。他们考量全职员工 (FTE) 节省、供应商成本、硬件节省、投资回收期等因素。
他们提到了与 Grafana Labs 合作后获得的一个附加益处是,这种伙伴关系使员工能够将可观测性加入他们的技能组合,这反过来提升了整个团队的努力。这也帮助组织吸引了希望使用最佳新技术的新员工。
游戏公司
这家游戏服务提供商的工程经理表示,在分析站点可靠性时,客户反馈是一个很好的起点,因为用户会很快指出何时出了问题。然而,仅仅依赖反馈作用有限。例如,客户没有告诉他们的那些问题怎么办?此外,当用户无法登录其账户时,这并不能自动提供有关应用程序哪个部分出现问题的答案。
为了获得最佳覆盖范围,可观测性团队专注于衡量任何可能影响用户旅程的因素。他们还跟踪那些不一定会影响用户应用内体验但仍存在风险的事件,包括任何与安全相关的问题。
他们在努力改进可观测性策略时,也开始跟踪 DORA 指标,但仍有工作要做。他们仍然难以跨分散的工具集实现可发现性。公司中的每个团队都自行管理可观测性,这使得公司无法获得系统健康的整体视图。他们还在寻求更多的应用性能监控 (APM) 能力,以便更深入地了解特定服务的健康状况。
财富 100 强医疗保健公司
自从转向 Grafana 以来,这家大型医疗保健和健康公司的工程师们报告称,集中式可观测性带来了价值,改进了 MTTx,并增加了收入。而这一切始于实际的财务改进。
尽管该组织将成本节省列为与 Grafana Labs 合作的一项益处,但管理可观测性平台的团队正在超越盈亏底线:他们还在使用 Grafana 来阐述团队工作如何影响业务成果。
公司高管会定期收到报告,这些报告直接关联了可观测性团队实施 Grafana 所采取的步骤与公司净推荐值 (NPS) 的改进。还有一些间接益处,例如公司移动应用和其他门户的使用量激增了 40%,这部分归功于加载速度更快,页面错误率低至 1%。
即使出了问题,他们也不会惊慌。他们知道可以使用 Grafana 快速找到任何问题的根本原因,这有助于他们更快地恢复正常运营。例如,页面加载时间曾是一个系统性问题,由于相应的数据未被呈现而未被发现。他们使用 Grafana 解决了这个问题;如今,他们对异常数据有足够的可见性,从而改变了他们进行根本原因分析的方法。他们不再长时间地在“战情室”中进行调查,而是通过 30 秒的 Slack 聊天直接向相关团队解决问题,其中包含 Grafana 仪表盘引用。
公司甚至在投资者会议上使用与 Grafana 合作产生的洞察,以增强利益相关者对其所采取行动的信心。本质上,他们收集的数据最终在最高层获得了应有的关注——甚至还有扩大高管层面报告范围的需求——因为这些数据可以以易于理解的格式呈现。
展望未来,他们希望帮助客户也开始跟踪这些测量指标。可观测性团队仍会承担繁重的工作,但通过向用户提供一些可观测性基础知识,可以激发关于评估影响特定项目成功的指标的讨论。
电子商务公司
这家公司在 D2C(直面消费者)领域取得了巨大成功。另一方面,他们的可观测性旅程才刚刚开始。据该公司的托管服务工程经理介绍,他们设定的目标是能够监控端到端业务流程,但到目前为止,他们的监控有些随意。
做好这一点至关重要,因为系统中断会导致巨大的收入损失。他们拥有更快解决这些问题所需的数据源,现在的问题是如何将它们整合起来。这意味着要跟踪上游和下游数据趋势,以了解哪些业务流程受到影响。他们还为开发者设置了仪表盘,但他们希望做得更多,以提高他们对系统健康的可见性。
尽管处于转型初期,他们已经 incremental 地提高了开发者生产力和降低了成本。但他们也关注更广阔的图景。最终,他们的可观测性策略归结为为业务带来价值。因此,他们认为花费时间配置、组合和定制 Grafana 设置比依赖更昂贵但未能根据其特定需求量身定制的“一站式”解决方案能带来更高的投资回报 (ROI)。
结论
Grafana Labs 谨代表全体员工,感谢所有参与本次调查的人员以及花时间查阅结果的各位。开源社区、我们的客户、贡献者和用户是我们一切工作不可或缺的部分,您的意见每天都在塑造我们运营和改进我们的项目及产品的方式。
我们很高兴看到可观测性取得了如此大的进展,以及世界各地、不同行业和各种规模的组织如何将这些工具和技术付诸实践。
关于 Grafana Labs
Grafana Labs 提供一个围绕 Grafana 构建的开放且可组合的监控和可观测性 Stack,Grafana 是用于仪表盘和可视化的领先开源技术。Grafana Labs 拥有 2,000 多家客户,包括 Bloomberg、Citigroup、Dell Technologies、Salesforce 和 TomTom,全球有超过 100 万个活跃的 Grafana 实例。Grafana Labs 通过 LGTM Stack 帮助公司管理其可观测性策略,该 Stack 可以通过 Grafana Cloud 进行完全托管,或通过 Grafana Enterprise 产品进行自托管,两者都具有可伸缩的指标(Grafana Mimir)、日志(Grafana Loki)和追踪(Grafana Tempo),以及广泛的企业数据源插件、仪表盘管理、告警、报告和安全性。Grafana Labs 得到了领先投资机构 Lightspeed Venture Partners、Lead Edge Capital、GIC、Sequoia Capital、Coatue 和 J.P. Morgan 的支持。