ネットワーク接続のトラブルシューティング

このユースケースでは、複数の負荷分散アプリケーションを含むネットワークをサポートするネットワーク管理者になった場合を考えます。レイテンシの問題のアラートが通知され、組織のモバイルアプリの速度が断続的に低下し、タイムアウトしたことがわかりました。多数のさまざまなユーザーが影響を受けることと、最近アプリケーションをデプロイしていないことがわかっています。問題は、アプリケーションではなく環境の変化に関連していると思われます。

次のユースケースでは、ネットワーク トポロジが展開の問題の迅速なトラブルシューティングと調査にどのように役立つかを示します。

トポロジの詳細

このデプロイメントは 3 つの Google Cloud リージョン(us-central1europe-west1asia-east1)にまたがっています。すべての外部クライアント リクエストは、3 つの各リージョンに複数のバックエンドを持つ単一の外部 HTTP(S) ロードバランサによって処理されます。3 つのビジネス リージョン(Americas、EMEA、APAC)のいずれかからのクライアント リクエストは、最も近い Google Cloud リージョンのアプリケーションインスタンスによって処理されます。

次のグラフは、デプロイメントの最上位階層を示しています。

ネットワーク レイテンシ

このシナリオでは、shopping-site-lb という名前のロードバランサがあるとします。外部クライアントとロードバランサ間のレイテンシを確認し、それらの間のレイテンシが変化したかどうかを確認します。変化があったことがわかり、ロードバランサのバックエンドを詳しく調査することにします。

  1. グラフをフィルタリングして、外部ロードバランサ shopping-site-lb のトラフィックのみを表示します。

    フィルタを適用すると、次の例に示すように、ネットワーク トポロジがロードバランサに関連する接続のみを表示します。

  2. Americas の外部クライアントから始めて、Americas のビジネス リージョンとロードバランサ間のトラフィック指標をクリックします。

    ネットワーク トポロジでは、詳細ウィンドウにグラフが表示されます。この情報には、選択したエンティティと接続されているエンティティの間の上り(内向き)トラフィックと下り(外向き)トラフィックが含まれます。たとえば、ネットワーク トポロジにより、秒間クエリ数(QPS)と HTTP リクエストのレイテンシの最新の値が示されます。

    リクエスト レイテンシ チャートには、50 番目、95 番目、99 番目のパーセンタイルの値が表示されます。この例では、すべてのレイテンシの値が予想よりも大きいと仮定します。

  3. 詳細ペインの上部で、[6h] をクリックして時系列グラフを 6 時間に拡張します。

    1この図は参考用です。この図のデータはユースケースを反映していません。

    最初の問題が報告されたおよそ 2 時間前に、大きく跳ね上がっていることがわかります。この問題が、ロードバランサのレイテンシの増加に関連していると思われます。

  4. 問題の概要を把握したので、Google Cloud Console の [負荷分散] ページに移動して、ロードバランサを詳しく調べます。最終的に、ロードバランサのバックエンド サービスのインスタンスが応答するのに通常より時間がかかっていたことがわかります。そのインスタンスのサービスを停止して問題を解決します。

次のステップ