Grafana Enterprise 如何成为 Informatica 可观察性策略的“核心”
随着应用程序变得越来越分布式和复杂,集中查看这些应用程序以及支持它们的基础设施的健康状况不再仅仅是偏好,而是必需的。
只需问问 Informatica 的可观察性团队就知道了。
Informatica 团队负责监控和维护包含数百个虚拟机和 Kubernetes 集群的多云基础设施,他们需要一个“单一事实来源”来快速识别和解决问题,并确保其内部平台和面向客户平台的可靠性和性能。
他们发现这个事实来源就是 Grafana——最初是 Grafana OSS,最近则升级到了 Grafana Enterprise。
Informatica 机器学习 (ML) 工程、SRE 和可观察性总监 Amreth Chandrasehar 表示:“我们在不同云提供商上的所有 Kubernetes 和虚拟机集群——所有这些指标都使用 Prometheus 收集,然后通过 Grafana 进行可视化展示。Grafana 确实是我们可观察性平台不可或缺的核心部分。”
目前,Informatica 大约有 300 个活跃的月度 Grafana Enterprise 用户——这个数字自 2019 年以来增长了 10 倍。团队鼓励并授权用户创建他们自己的仪表盘,根据自己的需求进行定制:SRE、QA 测试人员、机器学习工程师以及高层领导都日常依赖 Grafana 仪表盘来获取所需的洞察。
目前,公司内部有超过 1,200 个仪表盘在使用中——其中包括一个恰如其分地被称作 Informatica“可观察性心跳”的仪表盘(详情见下文)——他们预计 Grafana 的使用场景只会继续增长。
从 Grafana OSS 到 Grafana Enterprise
在尝试了不同的托管平台后,Informatica 于 2019 年开始使用 Grafana OSS,并于 2022 年 7 月迁移到 Grafana Enterprise。促使迁移的原因有几个,包括需要更强大的安全功能(例如团队同步),以及访问报告调度和仪表盘洞察等附加功能。
Informatica 的 DevOps 架构师 Kirti Parida 表示,仪表盘洞察是监控整个组织仪表盘使用模式的关键工具,而数据源洞察(另一个 Grafana Enterprise 功能)则帮助团队跟踪包括 Prometheus 在内的 150 个 Grafana 数据源的使用情况。
Parida 说:“如果任何用户运行查询并从数据源获取超时或任何错误,我们都会因为洞察功能而收到通知。” “此外,由于我们授权用户创建他们自己的仪表盘,所以创建了许多仪表盘。有些正在积极使用,有些可能需要清理。我们需要这些信息,因为它能提供关于哪个团队正在积极使用哪些仪表盘、是什么可能阻止他们使用仪表盘以及我们的团队可以在哪里提供帮助的洞察。”
Chandrasehar 表示,Grafana Enterprise 的另一个好处是它提供了两全其美的体验:Informatica 获得了商业产品 SLA 所承诺的 24/7 技术支持,但同时仍然感觉是 Grafana 广泛的 OSS 社区的一部分,与其他成员协作,共同创造一流的可观察性体验。
Chandrasehar 说:“通过与 Grafana Labs 在支持方面的积极互动,我们获得了巨大的价值——不仅如此,我们还想根据我们的使用情况向 Grafana 团队反馈产品意见。” “到目前为止,这些交流都非常有建设性。”
Informatica 的仪表盘:可观察性心跳、Kubernetes 成本、故障排除等等
Informatica 已将数据可视化作为其可观察性策略的基石——并且他们有足够的 Grafana 仪表盘来证明这一点。
公司最广泛使用的仪表盘之一是其“可观察性心跳”,它提供了 Informatica 整个 IT 基础设施部署的统一高层视图,允许用户深入查看与他们最相关的信息。
Chandrasehar 说:“我们在 Grafana 中创建了整个集中式可观察性视图。” “因此,如果任何人在任何时候需要知道 Informatica 正在发生什么,我们都有一个出色的仪表盘,提供关于平台核心部分、Informatica 产品、安全服务以及我们使用的云提供商的信息——所有这些都触手可及。”
图注:Informatica 的“可观察性心跳”仪表盘提供公司云基础设施的统一视图,该基础设施跨越四个 CSP。
除了可观察性心跳外,Informatica 还依赖许多其他 Grafana 仪表盘,例如,用于优化 Kubernetes 成本(该仪表盘每年为公司节省约 50 万美元)、进行容量规划、跟踪云提供商 SSL 证书状态以及简化故障排除流程。
Parida 解释说:“我们有一个仪表盘显示所有这些不同的关联,并覆盖我们的大部分产品。它是故障排除的首选仪表盘。” “例如,在一个仪表盘中,用户可以看到数据库连接数、JVM 资源使用情况、应用程序 Pod——这些信息确实有助于缩短调查问题的时间。”
据该公司称,这个故障排除仪表盘帮助 Informatica IT 运营团队将其 MTTR(平均修复时间)缩短了约 60%。
展望未来
关于 Informatica Grafana 采用之旅的下一阶段,可观察性团队正在考虑从 Thanos 迁移到 Grafana Mimir——无论是 OSS 还是 Grafana Enterprise Metrics——以实现更好的基数管理,并且有兴趣探索使用 Grafana Pyroscope 进行持续性能剖析,以及 OpenTelemetry。
Chandrasehar 说:“我们非常高兴看到 Grafana 的增长和发展势头,我们正在不断增加新的使用场景。”
