Exabeam

Exabeam 如何利用 Grafana Cloud 深入了解并控制 2000 万个活跃时间序列

没有人喜欢迁移,但有时它恰好在你需要的时候出现。

网络安全领域的领导者 Exabeam 对此深有体会。去年,该团队运行着另一个可观测性平台和一个自托管的监控基础设施,但它们已接近极限。他们的本地技术栈在处理 50 万个时间序列指标时已不堪重负,随着 Exabeam 下一代应用的加入,这一数字迅速翻倍。

幸运的是,他们已经在计划迁移到 Grafana Cloud,这是公司层面从本地环境迁移到云端、并将所有可观测性工作流整合到同一平台的一部分。在四个月的时间里,工程师们小心翼翼地将他们的传统技术栈迁移到托管的 Grafana,同时还要为客户维护本地环境。随着发布过程中不断推出新版本,增加了他们对可观测性数据的消耗,他们还必须不断重新配置 Grafana Cloud 中的限制和配额。

他们并非孤军奋战。“Grafana 与我们一起分析我们的使用情况、设置限制,并帮助我们解决基数问题,因此我们的体验从一开始就得到了很大改善,”Exabeam 的首席 SRE Yonit Lustig 表示。Grafana Cloud 现在承载着超过 2000 万个活跃时间序列和数百个仪表盘,用于跟踪 Exabeam 系统中的几乎所有内容。

方形的可观测性方案难以适应圆形的需求

Exabeam 提供多种产品,包括安全分析工具和旨在利用云规模的云原生安全信息和事件管理 (SIEM) 平台。他们从数百家不同的供应商和产品(支持 DNS、防火墙以及云基础设施和应用)摄取 PB 级的日志和事件。然后对这些数据进行标准化、解析和分析,以建立用户行为模型并为 Exabeam 客户提供洞察。这两个主要应用由超过 100 个微服务组成的集群提供支撑,每个微服务都有自己的可观测性需求。

“如果服务宕机或未达到预期的 SLO,我们希望确保能够进行实时警报、调试和调查,”Exabeam 的技术架构师 Dinesh Maheshwari 说。“我们需要收到关于这些情况的警报,并且需要测量所有这一切。”

使用一个力不从心的可观测性技术栈,这很难做到。为了消除这种繁琐,Exabeam 决定转向云优先方法,并开始迁移到云原生解决方案。但有一个注意事项:Exabeam 工程师仍然需要考虑到那些旨在与 Hadoop 和 MongoDB 等现成软件配合使用的旧系统,至少暂时是这样,以确保为客户提供一致的体验。

在管理传统工具的同时,他们也在适应 Google Cloud Storage 和 Cloud Spanner 等云原生服务。这些服务需要不同的可观测性方法,这意味着他们还必须重新评估现有的本地可观测性工具——最终,他们决定将所有可观测性工作整合到一个工具中。

一石二鸟(而且省钱)

Exabeam 进行了概念验证实验,旨在迁移到一个单一平台,该平台具有足够的强大功能和灵活性来应对其不断增长的客户、指标和日志需求。

他们还需要一个专为分布式云原生应用构建的解决方案。

虽然他们在旧技术栈中使用过另一个可观测性工具,但团队最终觉得它缺乏合适的杠杆来控制涌入新的云原生平台的数据流。因此,他们一直在为传输一部分从未真正使用过的数据付费,这仍然增加了他们的成本。将此与他们使用 Grafana Labs 的体验进行比较。当 Exabeam 团队在 Grafana Cloud 中遇到类似的指标意外激增情况时,“Grafana Labs 团队能够排除故障,并最终帮助我们优化了支出,”Maheshwari 说。结果,Exabeam 的可观测性成本大幅降低。“成本的计算方式更加透明和清晰,”Maheshwari 说。

除了成本之外,Exabeam 的工程师几乎立即接受了使用 Grafana Cloud,部分原因在于其 UI 清晰、组织良好且直观。更重要的是,这个开放且可组合的云平台证明它可以满足 Exabeam 团队广泛的需求——而无需做出任何妥协。

现在,通过一个完全托管的 Grafana Cloud 技术栈,利用 Grafana Cloud 指标Grafana Cloud 日志,以及至少八种不同的数据源和四种 Grafana Cloud 集成(包括 Kubernetes 监控AWS CloudWatch),“Grafana 能够支持我们已经构建和将要继续构建的一切,”Maheshwari 说。

大开眼界

虽然有些可观测性平台设计得力求简单,但这对于 Exabeam 这样需要深入研究其多方面系统中存在细微之处的数据驱动型组织来说是远远不够的。

对于 Exabeam 的工程师而言,这个解决方案让他们大开眼界,提高了他们的工作效率,让他们的生活变得更轻松。Lustig 说,她现在每天只花 10% 的时间管理和支持使用基础设施的工程师,整个团队很快就适应了在 Grafana 中构建警报并将其连接到其他工程工具。他们不再整天盯着仪表盘,现在问题出现时更容易进行故障排除,因为他们可以在 Grafana 中快速评估这些问题。

这在云的多租户世界中变得尤为重要,因为一个事件可能同时影响多个客户。

“我们是一家数据驱动型公司;我们的决策更准确,更能代表现实世界的情况,而不是仅仅依赖于传闻,”Maheshwari 说。“当你不是数据驱动时,决策会非常主观,往往导致意想不到的结果。”

随着 Exabeam 的数据和系统不断增长和演进,他们需要一个能够提供必要可见性、帮助他们充满信心地继续扩展的合作伙伴。他们相信 Grafana Cloud 的灵活性和强大功能将帮助他们实现目标,无论他们接下来走向何方。

Exabeam logo
行业
软件与技术
公司规模
500+
总部
Foster City, CA, USA