ユースケース: GKE 接続のトラブルシューティング

このユースケースは、複数の GKE Namespace が存在するネットワークのネットワーク管理者を対象としています。レイテンシの問題を示すアラートが表示され、組織のモバイルアプリの速度が断続的に低下し、タイムアウトしています。さまざまなユーザーがこの問題の影響を受けています。また、最近はアプリケーションがデプロイされていません。この問題は特定の GKE クラスタに関連している可能性があります。

以下では、ネットワーク トポロジが GKE のデプロイメントで発生した問題の迅速なトラブルシューティングと調査にどのように役立つかについて説明します。

トポロジの詳細

このデプロイメントは 3 つの Google Cloud リージョン(us-central1europe-west1asia-east1)にまたがっています。すべての外部クライアント リクエストは、複数の Namespace が存在する 3 つのリージョン内の 3 つのクラスタによって処理されます。3 つのビジネス リージョン(南北アメリカ、EMEA、APAC)のいずれかからのクライアント リクエストは、最も近い Google Cloud リージョンのアプリケーション インスタンスによって処理されます。

次のトポロジは、デプロイメントの最上位階層を示しています。

ネットワーク レイテンシ

このシナリオでは、online-boutique という名前の GKE クラスタが存在します。外部クライアントと GKE クラスタ間のレイテンシを確認し、レイテンシに変化があるかどうかをチェックしました。変化が確認されたので、クラスタのノードをさらに調査することにしました。

  1. トポロジをフィルタリングして、クラスタ online-boutique のトラフィックのみを表示します。

    [フィルタ] セクションで、ノードとそのピアを選択するフィルタを追加できます。このセクションの内容は指標ビューのみ使用できます。分析情報ビューでは使用できません。[フィルタを追加] をクリックして、ノードの種類とノードを選択します。

    フィルタを適用すると、次の例のように、クラスタに関連する接続のみがネットワーク トポロジに表示されます。

  2. 南北アメリカの外部クライアントから始めて、南北アメリカのビジネス リージョンと GKE クラスタ間のトラフィック指標をクリックします。ネットワーク トポロジでは、詳細ウィンドウにグラフが表示されます。この情報には、選択したエンティティと接続されているエンティティの間の上り(内向き)トラフィックと下り(外向き)トラフィックが含まれます。たとえば、ネットワーク トポロジに秒間クエリ数(QPS)と HTTP リクエストのレイテンシの最新の値が示されます。リクエスト レイテンシ チャートには、50 番目、95 番目、99 番目のパーセンタイルの値が表示されます。この例では、すべてのレイテンシの値が予想を上回っています。

  3. 詳細ペインの上部で、[6 週間] を選択して時系列グラフを 6 週間に広げます。

    最初の問題が報告されたおよそ 2 時間前に値が大きく跳ね上がっています。この問題は、GKE Pod のレイテンシの増加に関連していることは間違いありません。

  4. 問題の概要を把握するために、GKE ノードをさらに調査します。GKE ノードのトラブルシューティングの詳細については、GKE 接続の問題のトラブルシューティングをご覧ください。

次のステップ