用例:排查 Network Connectivity 问题

在此用例中,您是网络管理员,负责支持一个包含多个负载均衡应用的网络。您已经收到有关延迟问题的提醒,并被告知贵单位的移动应用间歇性地变慢并且超时。您知道许多不同的用户都受到了影响,而且最近并无部署应用。该问题可能与环境变化有关,而与应用无关。

以下用例演示了网络拓扑如何帮助您快速排查和调查部署中的问题。

拓扑详情

该部署跨越三个 Google Cloud 区域(us-central1europe-west1asia-east1)。所有外部客户端请求均由单个外部应用负载均衡器处理,该负载均衡器在三个区域的每个区域中都有多个后端。最近的 Google Cloud 区域中的应用实例负责处理来自三个业务区域(美洲、欧洲、中东和非洲地区以及亚太地区)之一的客户请求。

下面的拓扑显示了该部署的顶级层次结构:

网络延迟

在此场景中,假设您有一个名为 shopping-site-lb 的负载均衡器。您检查外部客户端和负载均衡器之间的延迟,以查看它们之间的延迟是否已发生变化。您发现延迟已发生变化,于是决定进一步调查负载均衡器的后端。

  1. 您可以过滤拓扑以仅显示外部负载均衡器 shopping-site-lb 的流量。

    应用过滤条件后,网络拓扑仅显示与负载均衡器相关的连接,如以下示例所示。

  2. 从美洲的外部客户开始,点击美洲业务区域和负载均衡器之间的流量指标。

    网络拓扑在详情窗格中显示图表。该信息包括所选实体与连接实体之间的入站流量和出站流量。例如,网络拓扑提供每秒查询次数 (QPS) 和 HTTP 请求延迟时间的最新值。

    在请求延迟时间图表中,您可以看到第 50 百分位、第 95 百分位和第 99 百分位的值。在此示例中,假定所有延迟时间值均高于您的预期。

  3. 如需将时序图表扩展到 6 周,请在详细信息窗格的顶部选择 6 周

    1该图仅供参考。它的数据不能反映具体用例。

    您会看到大约 2 个小时前发生的一次重大跳跃,大约是在报告第一个问题的时候。您确信该问题与负载均衡器的延迟时间增加有关。

  4. 简要了解问题后,您可以转到 Google Cloud Console 中的负载均衡页面,进一步调查负载均衡器。您最终发现负载均衡器后端服务中一个实例的响应时间比正常时间长。您使此实例退出服务,从而解决了该问题。

后续步骤