可观测性的价值

IT 系统非常复杂。它们由节点、Pod、服务、系统资源等组成——有时数量可达数千——所有这些都通过复杂的网络关系相互连接。当出现问题时,很难快速确定根本原因并加以修复。考虑以下情况:

  • 应用程序性能缓慢可能是由高负载引起的,也可能是内存泄漏甚至硬件错误。监控您的基础设施可以帮助您快速准确地找到根本原因。
  • 磁盘空间不足对任何环境来说都可能是一场灾难。在问题发生之前了解问题的存在,使您能够预防它。
  • 当应用程序或服务共存时,能够识别它们之间的热点和冲突,可以帮助您妥善重新分配负载。

时间至关重要。系统停机代价高昂。如果您运营面向客户的应用,例如电商网站或金融机构,每分钟的停机都会让您损失金钱。一些估算认为,平均停机成本为每分钟 5,600 美元。如果您是一家大型零售商,这个成本可能会更高。即使您没有运行商业服务,停机也会产生影响。如果您的家庭自动化系统出现问题导致无法开灯,这仍然是个实际问题。

引入……可观测性

可观测性是使系统内部状态更加透明的过程。系统通过它们产生的数据变得可观测,这些数据反过来有助于您确定您的基础设施或应用程序是否健康并正常运行。

可观测性是一种理解和管理复杂系统的整体方法。

它涉及从系统的所有部分收集数据,以深入了解系统的内部运作方式以及它们如何相互作用。可观测性侧重于理解和解释数据,使系统的行为和性能尽可能透明。它还需要一种使数据易于供人类解释的方法。

可观测性系统使系统操作员、DevOps 从业者和网站可靠性工程师能够对收集到的信息进行跨领域提问。这些问题并非预先预料,而是因系统中意外或新颖的事件而产生的。

更多探索内容(可选)

在您当前的学习旅程中,您可以探索以下路径

什么是可观测性?


2 页,共 10