ユースケース: GKE 接続のトラブルシューティング

このユースケースは、複数の GKE Namespace が存在するネットワークのネットワーク管理者を対象としています。レイテンシの問題のアラートが通知され、組織のモバイルアプリの速度が断続的に低下し、タイムアウトしたことがわかりました。多数のさまざまなユーザーが影響を受けることと、最近アプリケーションをデプロイしていないことがわかっています。この問題は特定の GKE クラスタに関連している可能性があります。

次のユースケースでは、ネットワーク トポロジが GKE 展開の問題の迅速なトラブルシューティングと調査にどのように役立つかを示します。

トポロジの詳細

このデプロイメントは 3 つの Google Cloud リージョン(us-central1europe-west1asia-east1)にまたがっています。すべての外部クライアント リクエストは、複数の Namespace が存在する 3 つのリージョン内の 3 つのクラスタによって処理されます。3 つのビジネス リージョン(Americas、EMEA、APAC)のいずれかからのクライアント リクエストは、最も近い Google Cloud リージョンのアプリケーション インスタンスによって処理されます。

次のトポロジは、デプロイメントの最上位階層を示しています。

ネットワーク レイテンシ

このシナリオでは、online-boutique という名前の GKE クラスタが存在します。外部クライアントと GKE クラスタ間のレイテンシを確認し、それらの間のレイテンシが変化したかどうかを確認します。変化が確認されたので、クラスタのノードをさらに調査することにしました。

  1. トポロジをフィルタリングして、クラスタ online-boutique のトラフィックのみを表示します。

    [フィルタ] セクションで、ノードとそのピアを選択するフィルタを追加できます。このセクションの内容は指標ビューのみ使用できます。分析情報ビューでは使用できません。[フィルタを追加] をクリックして、ノードの種類とノードを選択します。

    フィルタを適用すると、次の例に示すように、ネットワーク トポロジがクラスタに関連する接続のみを表示します。

  2. Americas の外部クライアントから始めて、Americas のビジネス リージョンと GKE クラスタ間のトラフィック指標をクリックします。ネットワーク トポロジでは、詳細ウィンドウにグラフが表示されます。この情報には、選択したエンティティと接続されているエンティティの間の上り(内向き)トラフィックと下り(外向き)トラフィックが含まれます。たとえば、ネットワーク トポロジにより、秒間クエリ数(QPS)と HTTP リクエストのレイテンシの最新の値が示されます。リクエスト レイテンシ チャートには、50 番目、95 番目、99 番目のパーセンタイルの値が表示されます。この例では、すべてのレイテンシの値が予想よりも大きいと仮定します。

  3. 時系列グラフを 6 週間に拡張するには、詳細ペインの上部で、[6 週間] を選択します。

    最初の問題が報告されたおよそ 2 時間前に、大きく跳ね上がっていることがわかります。この問題は、GKE Pod のレイテンシの増加に関連していることは間違いありません。

  4. 問題の概要を把握するために、GKE ノードをさらに調査します。GKE ノードのトラブルシューティングの詳細については、GKE 接続の問題のトラブルシューティングをご覧ください。

次のステップ