电信和媒体公司 NOS 如何使用 Grafana 解决其移动网络故障

这可能听起来像是古老的历史,但曾经有一段时间,电信公司只需要担心通过固定电话连接客户。如今,他们的业务依赖于庞大的蜂窝网络,不仅要在无数地点提供强大的无线电话覆盖,还要处理平板电脑、计算机和机器对机器通信的需求。

NOS 是一家葡萄牙电信和媒体公司,除了上述业务外,还提供更多服务。它为客户提供移动和固定网络、有线和卫星电视以及高速互联网。随着 2G 发展到 3G,然后是 4G,现在是 5G,仅移动网络就变得越来越复杂。“我们有更多的服务、更多的节点以及更多的技术,”NOS 移动网络分析和研发主管 Ricardo Dinis 说,他领导着 NOS 最近在移动工程部成立的移动网络分析团队。

电信公司的生存取决于其服务质量,由于掉线和连接不稳定是客户更换服务提供商的主要原因,因此网络监控对于保持行业领先地位至关重要。“我们的主要任务之一是找出客户在哪里遇到服务缺失或问题,”Dinis 说。工程团队还需要关注巨大的流量峰值并加以解决。“我们每天都在优化网络,调整现有容量维度或规划新的网络节点,”他补充道。“最终目标是以客户为中心进行决策。”

为了在现代化、可扩展、灵活的行业中保持敏捷并实现这一目标,NOS 需要同样现代化、灵活、可扩展的技术。“我们需要引入更多的数据处理方法,以便尽快了解网络中出现问题的位置,”他解释道。

自 2017 年以来,该公司一直依赖 Grafana 来监控这些指标。这使得工程师能够更轻松地进行故障排除,他们现在可以在不到一分钟的时间内分析数据。“这太棒了,”Dinis 说。“五年前,如果业务部门向我们提出问题,我们很难解决,而且我们无法像现在这样详细地进行故障排除和数据关联。现在,我们可以更快、更详细地回应业务问题。我们使用 Grafana 的效率大大提高,并且交付了更好的结果。”

深入挖掘数据

Dinis 自 2000 年以来一直在电信领域工作,多年来,他看到了公司运营方式的巨大转变。业务分析和无线网络分析一直很重要,但如今的挑战更加复杂,行业发展也快得多,工作负载向云迁移和人工智能的引入在现代网络管理中发挥着至关重要的作用。

NOS 拥有不同的工程团队来处理其移动、电视和固定网络。移动网络工程团队的职责包括规划、优化和无线网络部署。

优化无线接入网络是相当具有挑战性的。没有大型中央节点,而是塔楼带有基站以及地理上分散的天线,用于在公司拥有客户的区域部署服务。“我们有成千上万个节点和数十万个计数器,通过这些计数器,我们创建了网络的关键性能指标,”Dinis 说。“这是巨大的信息量。”

然后,移动网络工程团队获取这些信息,并使用性能工具创建涵盖主要 KPI 的报告。无线网络工程师通常使用 KPI 仪表盘进行分析,以识别和了解存在问题的区域。然后,他们深入研究这些问题,尝试找出其根本原因,确定哪些用户受到影响,并决定如何弥补性能差距并对其进行优化以改善用户体验。

在 NOS 开始使用 Grafana 之前,他们使用的是 Business Objects 套件,该套件只提供有限信息的静态报告。“你无法轻松过滤并在所有面板和图表中应用过滤器,”他回忆道。此外,随着数据库的增长,访问相关数据所需的时间也越来越长。“如果我们需要每天进行多次分析,这对工程师来说就成了一个痛点,”Dinis 回忆道。

他们开始通过创建数据子集来优化过程。这样,他们就可以提取数据、计算 KPI 并以最有效的方式对其进行聚合。“我们花时间处理这些 ETL 流程,以便在部门数据库中按照我们想要的方式组织数据子集,”他说。

寻找解决方案

一旦 NOS 的移动工程团队确定了如何挖掘无线网络数据,他们就需要一种方式来可视化这些数据。

在 NOS 的漫长职业生涯中,Dinis 一直充当着电信、工具和分析之间的桥梁。他对开源项目产生了浓厚的兴趣,这就是他最初发现 Grafana 的方式。他认为 Grafana 非常适合他团队的需求,原因有几个。“Grafana 支持多种数据库,配置起来相当容易,”他说。它还比 NOS 现有工具具有更多可视化功能。Dinis 之所以被 Grafana 吸引,还因为它是拥有庞大社区的开源项目。

移动网络优化通常在日常周期中执行,而不是实时或近实时故障排除。数据通常聚合为小时和每日 KPI。“当我们刚开始时,问题在于数据流入较慢,因为数据存储在庞大的公司数据库中,”Dinis 说。“现在我们正在处理数据子集并优化数据结构,使其非常易于查询且速度很快。这很重要,因为工程师每天要对不同的小区、不同区域和网络的不同部分进行数十次数据查询。如果速度慢,工作效率就会降低。”

为了测试 Grafana,Dinis 在他部门的数据库上对其进行了配置。大部分数据都在 SQL Server 数据库上。当他们开始测试时,Grafana 尚未支持 SQL Server,因此他们不得不将数据集群复制到 MySQL 数据库,并使用Grafana 的 MySQL 插件直接从 Grafana 查询数据库。他们还依靠 InfluxDB 进行健康检查服务器的监控。

在测试期间,SQL Server 开始获得支持,尽管功能不如其他数据库全面。“但我们很快迁移了仪表盘,一段时间后,我们就在 SQL Server 上运行了 Grafana,”他解释道。

当时 NOS 只有一个仪表盘,但他们立即看到了其功能与之前使用的工具相比存在的差异。“在 Grafana 中,更容易深入研究问题,过滤时间序列,以及交叉检查在同一时间调整的多个面板中的数据,”Dinis 说。

NOS 仍然使用其主要的性能管理工具,因为公司正在处理来自网络的所有计数器。“对于某些类型的故障排除,我们需要深入到一些仅在主数据库中的计数器中获取更多详细信息,”Dinis 解释道。

但是,如果我们将这个庞大的数据库用于所有用例,查询一个大区域可能需要几分钟时间,而在日常分析中我们不能等待 10 或 15 分钟。这是我们的主要问题,也是我们迁移到 Grafana 的原因。现在我们也能以我们需要的方式聚合数据,并且可以更容易地快速调整数据以进行分析。当然,在 Grafana 中速度要快得多,因为数据库经过了优化,所以我们可以在几秒钟内查询数据。

Ricardo Dinis,NOS 移动工程分析和研发主管

与 Grafana 连接

Grafana 为 Dinis 的团队带来了实实在在的价值——而且它非常容易学习——NOS 的其他团队也自然而然地开始使用它,并将其用于各自的目的。目前,该部门约有 30 名无线网络工程师正在使用 Grafana。他们正在创建自己的仪表盘并在此基础上增加新的用例。“最初是我部署并创建了第一个仪表盘,但现在我甚至不知道我们的 Grafana 系统里有什么,”Dinis 笑着承认道。

NOS 工程团队开始使用 Grafana 监控无线接入网络 KPI,并正在逐步添加其他核心网络领域。这样,我们可以获得网络的整体视图,这对于故障排除和跨所有网络领域的关联至关重要。我们还在集中或推送来自其他数据源的数据,例如无线网络追踪(其中包含用户中心信息等)。”他们还在运行用例仪表盘,用于数据不一致检查。

圆满成功

对于 NOS 而言,Grafana 带来了双赢。在技术方面,工程师现在花费在单个问题上的时间更少,这意味着他们可以更自由地帮助分析和优化业务中的其他方面。由于他们能够看到更多数据,他们正在为业务提供更好的连接性——这转化为更满意的客户。

“我们始终关注客户,并努力提供最好的服务,”Dinis 说。“我们也想更好地了解他们。客户的痛点是什么?我们遇到了什么问题?有了 Grafana,我们更了解网络,并且可以对其进行优化,这样我们就不会等着客户投诉——我们的目标是在接到投诉之前就采取行动。”

Dinis 表示仍有改进空间,因此 NOS 现在正在引入机器学习,尝试识别网络上的模式——对客户、性能等进行聚类。“我们还有很长的路要走,但网络节点和配置也在不断演变,”他说。“我们能够从网络中提取比以前更多的信息,因此我们拥有更好的工具,可以从以网络为中心转向以客户为中心的 KPI。”

他指出,尽管工程团队越来越小,网络越来越复杂,“我们已经取得了很大进步。与安装 Grafana 之前相比,我们优化和解决网络故障的方式要好得多。”

拓宽视野

Dinis 和他的团队在可视化时间序列数据方面取得的成功——以及看到堆栈灵活增长的可能性——让他们发现了可以使用更多 Grafana 仪表盘解决的其他问题。同时,团队更专注于分析和自动化,这增加了团队需要管理和维护在服务器上运行的工作负载数量。

“我们正在朝着实现更好的可观测性、可追踪性、指标和日志迈进,”他解释道。

我们的团队以前从未使用过可观测性解决方案,所以这完全是全新的。“我们是电信工程师,所以我们开始编写脚本,而不太关心日志和可观测性的集中化,”Dinis 说。“一旦我们开始增加流程数量,重要的是开始优化我们观察所有运行进程的方式——ETL、自动化脚本等等。”

最近,NOS 部署了 Prometheus 来抓取运行脚本的服务器上的时间序列指标。之后,他们安装了 Loki 来集中管理日志,并使用 Grafana 进行可视化。

有了 Grafana Loki、Prometheus 和 Grafana,我们的可观测性得到了更好的控制。但这不仅仅如此。现在当遇到问题时,故障排除更容易,无需尝试了解脚本在哪里出错以及日志在哪里。一切都集中管理且易于访问。我们还在其上运行告警,这有助于我们更快地采取行动。

Ricardo Dinis,NOS 移动工程分析和研发主管

他补充说,没有 Grafana,“我们肯定会遇到麻烦。我们的日常任务很大程度上依赖于 Grafana 产品,并且我们在此基础上对网络进行关键的日常分析。”

未来计划

选择 Grafana 作为其可观测性工具,NOS 现在已为在电信行业持续取得成功做好了准备。

“我们使用 Grafana 的效率大大提高,并且交付了更好的结果,”Dinis 说。“当然,市场上有其他解决方案,但 Grafana 在集成方面表现出色,部署简单,学习曲线也相当快。”

使用 Grafana 甚至改变了 Dinis 在 NOS 的角色范围。“我现在更专注于分析,并努力改进我们工程师处理数据、优化和自动化流程的方式,”他说。“Grafana 在这方面给了我很大帮助。”

他计划继续关注 Grafana Labs 的其他产品。“Grafana Labs 知道像我这样的工程师需要更好地、更快地完成工作,了解行业如何发展,以及如何定义新产品来解决这些问题。我期待着看到下一步会是什么。”

NOS logo
行业
电信
公司规模
2000+ 名员工
总部
葡萄牙里斯本
80%
切换到 Grafana 和 Grafana Loki 后查询时间减少
30
每天使用 Grafana 的无线电工程师数量