用例:排查 GKE 连接问题
在此用例中,您是网络管理员,负责支持一个包含多个 GKE 命名空间的网络。您已经收到有关延迟问题的提醒,并被告知贵单位的移动应用间歇性地变慢并且超时。您知道许多不同的用户都受到了影响,而且最近并无部署应用。该问题可能与特定 GKE 集群有关。
以下用例演示了网络拓扑如何帮助您快速排查和调查 GKE 部署中的问题。
拓扑详情
该部署跨越三个 Google Cloud 区域(us-central1
、europe-west1
和 asia-east1
)。所有外部客户端请求均由具有多个命名空间的三个区域内的三个集群处理。最近的 Google Cloud 区域中的应用实例负责处理来自三个业务区域(美洲、欧洲、中东和非洲地区以及亚太地区)之一的客户请求。
下面的拓扑显示了该部署的顶级层次结构:
网络延迟
在此场景中,假设您有一个名为 Online-boutique 的 GKE 集群。您检查外部客户端和 GKE 集群之间的延迟时间,以查看它们之间的延迟时间是否已发生变化。您发现它已更改,并且决定进一步调查集群的节点。
您可以过滤拓扑以仅显示集群
online-boutique
的流量。在过滤条件部分,您可以添加过滤条件以选择节点及其对等方。本部分仅适用于指标视图,不适用于数据分析视图。点击添加过滤条件,然后选择节点类型和节点。
应用过滤条件后,网络拓扑仅显示与集群相关的连接,如以下示例所示。
从美洲的外部客户开始,点击美洲业务区域和 GKE 集群之间的流量指标。网络拓扑在详细信息窗格中显示图表。该信息包括所选实体与连接实体之间的入站流量和出站流量。例如,网络拓扑提供每秒查询次数 (QPS) 和 HTTP 请求延迟时间的最新值。在请求延迟时间图表中,您可以看到第 50 百分位、第 95 百分位和第 99 百分位的值。在此示例中,假定所有延迟时间值均高于您的预期。
如需将时序图表扩展到 6 周,请在详细信息窗格的顶部选择 6 周。
您会看到大约 2 个小时前发生的一次重大跳跃,大约是在报告第一个问题的时候。您确信该问题与 GKE Pod 的延迟时间增加有关。
对问题有了大致的了解后,您就可以进一步调查 GKE 节点。如需详细了解如何排查 GKE 节点问题,请参阅排查 GKE 连接问题。