排查网络连接问题

在此用例中,您是网络管理员,负责支持一个包含多个负载平衡应用的网络。您已经收到有关延迟问题的提醒,并被告知贵单位的移动应用间歇性地变慢并且超时。您知道许多不同的用户都受到了影响,而且最近并无部署应用。该问题可能与环境变化有关,而与应用无关。

以下用例演示了网络拓扑如何帮助您快速排查和调查部署中的问题。

拓扑详情

该部署跨越三个 Google Cloud 区域(us-central1europe-west1asia-east1)。所有外部客户端请求均由单个 HTTP(S) 负载平衡器处理,该负载平衡器在三个区域的每个区域中都有多个后端。最近的 Google Cloud 区域中的应用实例负责处理来自三个业务区域(美洲、欧洲、中东和非洲以及亚太地区)之一的客户请求。

下图显示了该部署的顶级层次结构:

网络延迟

在此场景中,假设您有一个名为 shopping-site-lb 的负载平衡器。您检查外部客户端和负载平衡器之间的延迟,以查看它们之间的延迟是否已发生变化。您发现延迟已发生变化,于是决定进一步调查负载平衡器的后端。

  1. 您可以过滤图表以仅显示外部负载平衡器 shopping-site-lb 的流量。

    应用过滤条件后,网络拓扑仅显示与负载平衡器相关的连接,如以下示例所示。

  2. 从美洲的外部客户开始,点击美洲业务区域和负载平衡器之间的流量指标。

    网络拓扑在详情窗格中显示图表。该信息包括所选实体与连接实体之间的入站流量和出站流量。例如,网络拓扑提供每秒查询次数 (QPS) 和 HTTP 请求延迟时间的最新值。

    在请求延迟时间图表中,您可以看到第 50 百分位、第 95 百分位和第 99 百分位的值。在此示例中,假定所有延迟时间值均高于您的预期。

  3. 在详情窗格的顶部,通过点击 6h 将时间序列图扩大到 6 小时。

    1该图仅供参考。它的数据不能反映用例。

    您会看到大约 2 个小时前发生的一次重大跳跃,大约是在报告第一个问题的时候。您确信该问题与负载平衡器的延迟时间增加有关。

  4. 对问题有了高水平的了解后,您通过转到负载平衡控制台来进一步调查负载平衡器。您最终发现负载平衡器后端服务中一个实例的响应时间比正常时间长。您使此实例退出服务,从而解决了该问题。

后续步骤