关于 Linux 服务器集成预设警报
Linux 服务器集成提供了各种预设警报,您可以立即使用它们来排查问题。在本学习路径的这一步中,您将熟悉这些预设警报,并学习如何使用它们来解决各种问题。
您知道吗?
如果您的机器运行正常,您将不会收到任何警报。没有消息就是好消息!
Node Exporter 警报
描述:高 CPU 使用率
含义:此警报可能意味着某个进程失败或单个节点过载。
处理方法:检查工作负载是否在所有节点之间均匀分布,以及所有进程是否按预期运行。
描述:时钟未同步
含义:系统目前无法与外部时间源同步其内部时钟。如果系统时钟发生漂移,这可能导致时间差异。
处理方法:检查网络时间协议 (NTP) 配置,并确认节点可以访问指定的时间服务器。
描述:检测到时钟偏差
含义:系统内部时钟不准确且未自动校正。
处理方法:检查网络时间协议 (NTP) 服务,确保其正常工作,并且节点可以与指定的时间服务器通信。
描述:磁盘 IO 队列过高
含义:系统目前正在经历大量的磁盘输入/输出操作。这种高水平的磁盘活动会降低系统性能。
处理方法:检查所有进程是否按预期运行,并考虑将磁盘密集型任务分散到多个节点。
描述:内核预计很快将耗尽文件描述符限制
含义:内核是操作系统的核心组件,它只能同时管理有限数量的打开文件。系统正接近此限制,这可能导致无法打开新文件。
处理方法:这通常是由某个进程打开大量文件但未能正确关闭所致。
描述:Conntrack 条目数量正接近限制
含义:Conntrack 是 Linux 防火墙的一个组件,用于跟踪活动网络连接。系统目前正在跟踪大量连接,这可能预示着网络问题或潜在的安全威胁。
处理方法:分析网络流量以确定根本原因。
描述:主机内存不足
含义:程序中的内存泄漏可能导致高内存消耗。
处理方法:检查所有进程是否按预期运行。如果适用,修复内存泄漏并重新启动受影响的进程,或将内存密集型任务分散到多个节点。
描述:内存主要页面错误发生率非常高
含义:系统严重依赖磁盘交换,这意味着它使用的内存超过物理可用内存。这会显著降低性能。
处理方法:一个潜在的原因是内存泄漏,您应该调查并解决。
描述:网络接口报告许多接收错误
含义:检测到网络连接问题。
处理方法:这可能是由硬件故障或恶意攻击引起。
描述:网络接口报告许多发送错误
含义:检测到网络连接问题。
处理方法:这可能是由硬件故障或不正确的网络设置引起。
描述:RAID 阵列已降级
含义:RAID 阵列处于危急状态,存在数据丢失的高风险。
处理方法:为了防止数据丢失,请尽快修复或更换故障磁盘并重建 RAID 阵列。
描述:RAID 阵列中的设备故障
含义:RAID 阵列中的一个磁盘发生故障。
处理方法:尽管阵列目前仍在运行,但更换故障磁盘对于防止潜在的数据丢失至关重要。
描述:系统饱和,每核负载非常高
含义:所有 CPU 核都在以最大容量运行,表明工作负载过高。
处理方法:考虑将任务分散到多台服务器。
描述:Systemd 服务不断重启,可能陷入崩溃循环
含义:某个特定服务正在经历重复崩溃。
处理方法:调查并解决问题以确保服务稳定性。
描述:Systemd 服务已进入失败状态
含义:某个特定服务失败且未自动重新启动。
处理方法:调查并解决问题以恢复服务功能。
描述:Node Exporter 文本文件收集器抓取失败
含义:通常用于为特定指标收集数据的日志文件或状态指示器目前不可用。这导致系统无法收集和报告必要的数据。
处理方法:查阅 Grafana Alloy 和系统日志,以确定哪个特定文件无法访问。
Node Exporter 文件系统警报
描述:文件系统剩余空间不足 5%
含义:磁盘几乎已满,存储空间有限。
处理方法:增加存储容量或删除不必要的文件以释放空间。
描述:文件系统剩余空间不足 3%
含义:磁盘几乎已满,存储空间有限。
处理方法:增加存储容量或删除不必要的文件以释放空间。
描述:预计文件系统将在未来 24 小时内耗尽 inode
含义:设备上可能还有一些可用空间,但可存储的最大文件数量已接近上限。
处理方法:这通常是由大量小文件引起的,可能是某个进程创建文件后未正确清理的症状,尤其是在 /tmp
目录中。
描述:预计文件系统将在未来 4 小时内耗尽 inode
含义:设备上可能还有一些可用空间,但可存储的最大文件数量已接近上限。
处理方法:这通常是由大量小文件引起的,可能是某个进程创建文件后未正确清理的症状,尤其是在 /tmp
目录中。
描述:文件系统剩余 inode 不足 5%
含义:设备上可能还有一些可用空间,但可存储的最大文件数量已接近上限。
处理方法:这通常是由大量小文件引起的,可能是某个进程创建文件后未正确清理的症状,尤其是在 /tmp
目录中。
描述:文件系统剩余 inode 不足 3%。
含义:设备上可能还有一些可用空间,但可存储的最大文件数量已接近上限。
处理方法:这通常是由大量小文件引起的,可能是某个进程创建文件后未正确清理的症状,尤其是在 /tmp
目录中。