可观测性的意义
IT 系统非常复杂。包括节点、Pod、服务、系统资源等等,有时甚至多达数千个,它们都连接在一个复杂的关系网络中。当出现问题时,要快速确定根本原因并修复它可能非常困难。请考虑以下几点:
- 应用程序性能缓慢可能是由高负载引起的,也可能是内存泄漏,甚至硬件错误。监控您的基础设施可以帮助您快速准确地找到根本原因。
- 磁盘空间耗尽对任何环境来说都可能是一场灾难。在问题发生 *之前* 了解问题的存在,可以帮助您预防它。
- 当应用程序或服务位于同一位置时,能够识别它们之间的热点和冲突可以帮助您适当地重新分配负载。
时间至关重要。系统停机可能非常昂贵。如果您运行面向客户的应用程序,如电子商务网站或金融机构,每分钟的停机都会让您损失金钱。一些估计显示,停机的平均成本为每分钟 5,600 美元。如果您是一家大型零售商,此成本可能更高。即使您没有运行商业服务,停机也可能产生影响。如果您的家庭自动化系统出现问题导致无法开灯,这仍然是一个实际问题。
引入……可观测性
可观测性是一种理解和管理复杂系统的整体方法。
它涉及从系统的所有部分收集数据,以深入了解系统的内部工作原理以及它们如何相互作用。可观测性专注于理解和解释数据,以使系统的行为和性能尽可能透明。它还需要一种方法,使数据易于人类理解。
可观测性系统使系统操作员、DevOps 工程师和网站可靠性工程师能够对收集的信息进行提问。这些问题并非事先预料到,而是由于系统中的意外或新颖事件而产生的问题。