可观测性的价值
IT 系统很复杂。它们包含节点、pod、服务、系统资源——有时多达数千个——所有这些都连接在一个复杂的相互关系网络中。当出现问题时,可能很难快速确定根本原因并修复它。请考虑以下情况:
- 应用性能缓慢可能是由高负载引起,也可能是内存泄漏,甚至硬件错误。监控您的基础设施可以帮助您快速准确地找到根本原因。
- 磁盘空间不足对任何环境来说都可能是灾难。在问题发生之前了解存在问题,可以帮助您预防它。
- 当应用或服务共同部署时,能够识别它们之间的热点和冲突,可以帮助您正确地重新分配负载。
而且时间至关重要。系统停机成本可能非常高昂。如果您运行面向客户的应用,例如电子商务网站或金融机构,每分钟的停机都会让您损失金钱。一些估算表明,平均停机成本为每分钟 5,600 美元。如果您是一家大型零售商,这个成本可能会更高。即使您不运行商业服务,停机也会产生影响。如果您的家庭自动化系统出现问题导致您无法开灯,这仍然是一个实际的问题。
可观测性来了…
可观测性是一种理解和管理复杂系统的整体方法。
它涉及从系统的所有部分收集数据,以深入了解系统的内部运作以及这些部分如何相互作用。可观测性侧重于理解和解释数据,使系统的行为和性能尽可能透明。它还需要一种方法,使数据易于人类解释。
可观测性系统使系统运维人员、DevOps 实践者和站点可靠性工程师能够跨越收集的信息提问。这些问题不是事先预期的,而是由于系统内发生的意外或新颖事件而产生的问题。