用途:排解 GKE 連線問題

在這個用途中,您是網路管理員,負責支援包含多個 GKE 命名空間的網路。您已收到延遲問題的警示,並得知貴機構的行動應用程式會間歇性地變慢及逾時。您知道有許多不同的使用者受到影響,且最近並未部署任何應用程式。這個問題可能與特定 GKE 叢集有關。

以下用途說明網路拓撲如何協助您快速排解及調查 GKE 部署中的問題。

拓撲詳細資料

部署作業橫跨三個 Google Cloud 區域 (us-central1europe-west1asia-east1)。所有外部用戶端要求都由三個區域內的三個叢集 (含有多個命名空間) 提供服務。來自三個業務區域 (美洲、歐洲、中東和非洲,以及亞太地區) 的用戶端要求,會由最近的Google Cloud 區域中的應用程式執行個體提供服務。

下列拓撲圖顯示部署作業的頂層階層:

網路延遲

在這個情境中,假設您有一個名為 online-boutique 的 GKE 叢集。您可以檢查外部用戶端和 GKE 叢集之間的延遲時間,看看兩者之間的延遲時間是否有變化。您發現該值已變更,因此決定進一步調查叢集的節點。

  1. 您可以篩選拓樸圖,只顯示叢集 online-boutique 的流量。

    在「Filter」部分,您可以新增篩選器來選取節點及其對等端。這個部分僅適用於指標檢視畫面,不適用於洞察檢視畫面。按一下「新增篩選器」,然後選取節點類型和節點。

    套用篩選器後,Network Topology 只會顯示與叢集相關的連線,如以下範例所示。

  2. 從美洲的外部用戶端開始,您可以點選美洲業務區域和 GKE 叢集之間的流量指標。Network Topology 會在詳細資料窗格中顯示圖表。這項資訊包括所選實體與連結實體之間的輸入和輸出流量。舉例來說,網路拓撲會提供每秒查詢次數 (QPS) 和 HTTP 要求延遲時間的最新值。在要求延遲時間圖表中,您會看到第 50、95 和 99 個百分位數的值。在本例中,假設所有延遲值都高於預期。

  3. 如要將時序圖擴大至 6 週,請在詳細資料窗格頂端選取「6 週」

    您會發現大約兩小時前發生了大幅度的跳升,大約就是第一個問題回報的時間。您確定問題與 GKE Pod 的延遲時間增加有關。

  4. 有了問題的概略視圖,您就可以進一步調查 GKE 節點。如要進一步瞭解如何排解 GKE 節點問題,請參閱「排解 GKE 連線問題」。

後續步驟