ネットワーク接続のトラブルシューティング

このユースケースは、複数の負荷分散アプリケーションを含むネットワークをサポートするネットワーク管理者を読者として想定しています。レイテンシの問題が通知され、組織のモバイル アプリケーションの速度が断続的に遅くなり、タイムアウトになるとの報告がありました。多くのさまざまなユーザーが影響を受けており、最近デプロイされたアプリケーションはありません。この問題は、アプリケーションではなく、環境の変化に関連している可能性があります。

次のユースケースでは、ネットワーク トポロジが展開の問題の迅速なトラブルシューティングと調査にどのように役立つかを示します。

トポロジーの詳細

デプロイは 3 つの Google Cloud リージョン(us-central1europe-west1asia-east1)にまたがっています。外部クライアントからのすべてのリクエストは、3 つのリージョンのそれぞれに複数のバックエンドを持つ単一の HTTP(S) ロードバランサによって処理されます。3 つのビジネス リージョン(アメリカ、EMEA、APAC)のいずれかからのクライアント リクエストは、最も近い Google Cloud リージョンのアプリケーションインスタンスによって処理されます。

次のグラフは、デプロイメントの最上位階層を示しています。

ネットワーク レイテンシ

このシナリオでは、shopping-site-lb という名前のロードバランサがあると想定しています。外部クライアントとロードバランサー間のレイテンシをチェックして、それらの間のレイテンシが変更されたかどうかを確認します。それを発見し、ロードバランサーのバックエンドをさらに調査することにしました。

  1. グラフをフィルタリングして、外部ロードバランサ shopping-site-lb のトラフィックのみを表示します。

    フィルタを適用すると、次の例に示すように、ネットワークトポロジにはロードバランサに関連する接続のみが表示されます。

  2. 南北アメリカの外部クライアントから始めて、南北アメリカのビジネス リージョンとロードバランサ間のトラフィック指標をクリックします。

    ネットワーク トポロジでは、詳細ウィンドウにグラフが表示されます。この情報には、選択したエンティティと接続されているエンティティの間の上り(内向き)トラフィックと下り(外向き)トラフィックが含まれます。たとえば、ネットワーク トポロジにより、1 秒あたりのクエリ(QPS)と HTTP 要求の待機時間の最新の値が示されます。

    リクエスト レイテンシ チャートには、50 番目、95 番目、99 番目のパーセンタイルの値が表示されます。この例では、すべての待ち時間の値が予想よりも高いと想定しています。

  3. 詳細ペインの上部で、[6h] をクリックして時系列グラフを 6 時間に展開します。

    1 図は参考用です。データはユースケースを反映していません。

    最初の問題が報告されたおよそ 2 時間前に、大きく跳ね上がっていることがわかります。この問題が、ロードバランサのレイテンシの増加に関連していると思われます。

  4. 問題の概要を把握したら、負荷分散コンソールに移動して、ロードバランサをさらに調査します。最終的に、ロードバランサのバックエンド サービスのインスタンスが応答するのに通常より時間がかかっていたことがわかります。そのインスタンスのサービスを停止して問題を解決します。

次のステップ