菜单
Enterprise 开源

确定您的用例

当您开始调查时,您可能已经知道问题所在(例如,您知道受影响的服务或 CPU 使用率过高),或者您可能希望找出资源热点以便解决它们。

这可能会引出两个不同的起点

  • 用例 1 - 您希望调查问题以确定根本原因。
  • 用例 2 - 您希望研究资源和性能热点,以确定可以优化的领域。

您的用例决定了最重要的事情。例如,在用例 1 中,如果一个服务行为异常,您可能希望查看分析文件类型,以便同时查看 CPU 和内存分析文件。

对于这两种用例,第一步都是通过审查分析文件或单个服务来确定感兴趣的领域。选择不同的分析文件类型使您可以专注于内存分配、CPU 进程、分配大小、块或互斥 (mutex)。

可用的分析文件类型取决于您如何仪表化应用来生成分析数据。有关更多信息,请参阅分析文件类型以获取选择适合您用例的分析文件类型的帮助。请参阅了解分析文件类型,了解分析文件类型和仪表化方法。

在确定问题进程或服务后,您可以使用标签和火焰图进行过滤和探索,以查看更低级别的内容。借助火焰图 AI 解释器GitHub 集成等功能,分析文件下钻可以帮助您找到根本原因以及如何解决它。

用例 1:调查问题

当您知道特定服务或区域存在性能问题时,分析文件数据是理想的选择。可能是 CPU 峰值的警报将您引向了分析文件,或者您的日志显示某个特定服务存在 OOM 问题,您需要对其进行调试。Grafana 分析文件下钻让您可以在这些场景中快速深入到服务并识别性能问题。

示例:知道有问题服务,但不知道原因

如果您知道受影响的服务,您的调查始于查看该服务,然后审查该服务的分析文件。在本例中,您可能已经确定 checkoutservice 存在问题。您可以使用 搜索服务找到 checkoutservice,然后使用 分析文件类型视图检查该服务的所有分析文件。

或者,您可以选择 分析文件类型视图,然后从 服务下拉列表中选择 checkoutservice

示例:知道有问题,需要调查

如果您只知道有问题并且必须进行调查,那么您的调查始于使用 所有服务视图。使用 分析文件类型选择器,您可以检查服务的 CPU 进程、内存分配、块、锁、异常以及其他可用的分析文件类型。

找到存在峰值的分析文件后,选择 分析文件类型视图来检查该服务的所有分析文件类型,或者选择 标签来查看该服务的标签(例如 hostnamespan_name)。

用例 2:研究性能和资源瓶颈

在进行主动分析时,可以从多个维度阐明性能问题。这可能是为了节省成本,或者是在非事件场景中尝试改善延迟或内存使用。此项工作可以跨越多个服务,或在服务内部跨越不同的分析文件类型、标签或它们的组合。

下一步:调查并识别问题