ネットワーク パフォーマンスに関するよくある問題とその対応方法
Google Cloud Japan Team
※この投稿は米国時間 2020 年 4 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。
ネットワークで問題が発生して、どこから手を付ければよいかわからなくなったことはありませんか。パフォーマンスの問題をトラブルシューティングしたり、デプロイにおいて最適な決断をするためにネットワーク パフォーマンスを把握したりする必要がある場合があります。Google Cloud には、ネットワークのモニタリング、検証、最適化に使える包括的なツールセットが用意されています。これらのツールを使えば、Google Cloud 上だけでなく、オンプレミスやハイブリッド環境でもネットワーク パフォーマンスの可視化、測定、トラブルシューティング、最適化を行うことができます。
また、ネットワーク パフォーマンスに関するあらゆる質問について、回答を得ることもできます。しかし、お客様と協力して作業をするなかで、ネットワーク パフォーマンスについて同じ質問が何度も繰り返し上がってくることに気付きました。このブログ投稿では、これらのツールを駆け足で紹介しながら、最もよく尋ねられるネットワーク パフォーマンスの質問の回答を得るためのツールの使い方についてご説明します。
Google Cloud とその他のサービスにおけるネットワーク パフォーマンスの管理
ネットワーク チームが直面する、パフォーマンスに関するさまざまなトラブルシューティング シナリオを詳しく見ていく前に、Google Cloud ネットワークやその他のサービスで提供しているトラブルシューティング機能を簡単にご紹介します。
1. Network Intelligence Center は、ネットワークのモニタリング、検証、最適化を包括的に行える Google Cloud のプラットフォームで、オンプレミス環境とクラウド環境にまたがって使うことができます。Network Intelligence Center の目的は、いわゆる「インテリジェント ネットワーク オペレーション」を実現することです。現在は以下の 4 つのモジュールでこの目的が実現されていて、今後もいくつかのモジュールが追加される予定です。
1.接続テスト
2. PerfKit Benchmarker は Google で開発されたオープンソース ツールで、複数のクラウド環境やハイブリッド環境にまたがってパフォーマンスの測定と把握ができます。ネットワーク パフォーマンスを測定して、デプロイにおいて最適な決断を下すのにぴったりのツールです。PerfKit Benchmarker を使うことで、リージョン間のパフォーマンス指標の中央値が測定できるライブ ダッシュボードも導入しました。
ここからは、ネットワーク エンジニアにトラブルシューティングが依頼される、よくあるネットワーク パフォーマンスのシナリオをいくつかご紹介します。
1. アプリケーションが停止している、またはパフォーマンスが悪い
このシナリオでは、基盤ネットワークが根本原因になっているかどうかを、ネットワーク チームで切り分ける必要があります。Network Intelligence Center のパフォーマンス ダッシュボードには、VM を実行しているゾーン間のパフォーマンス指標(レイテンシとパケットロス)がリアルタイムで表示されるので、パケットロスが発生している場所を素早く特定し、そもそもネットワークに問題があるかどうかを判断できます。
AutoTrader UK のシニア ネットワーク エンジニアである Chris McKean 氏は、次のように述べています。「Network Intelligence Center のパフォーマンス ダッシュボードを使うことで、エラーの検索とサポートコールにかかる時間を大幅に削減できました。Google Cloud の特定のゾーンにおけるパケットロスが強調表示されるので、目の前で起こっているネットワークの問題の根本原因を素早く特定できます。」
パフォーマンス ダッシュボードは現在、一般提供が開始されています。Network Intelligence Center コンソールからアクセスできます。
2. 障害の原因がネットワークにあるとみなされている
Network Intelligence Center の接続テスト モジュールを使えば、接続の問題を診断できます。接続テストを使用すると、Google Cloud Platform(GCP)内や GCP から外部 IP アドレス(オンプレミスにあるものや別のクラウドにあるもの)への接続に関する問題を自己診断して、問題が GCP にあるのかどうかを切り分けることができます。構成ミスに関連する接続の問題を診断できるので、接続に対する影響を把握して、パフォーマンスの問題につながる接続の問題を先回りして解決できます。
3. あるリージョンのユーザーに遅延が発生している
Network Intelligence Center のネットワーク トポロジ モジュールを使えば、ネットワークとそれに関連するネットワーク パフォーマンス指標を可視化して、ネットワークの健全性をより適切にモニタリングできます。たとえば、世界中のユーザーへのサービス状況を簡単に可視化して、ユーザーが地理的に最も近いリージョンからサービスを受けているかどうかを把握できます。
4. デプロイにおける決断を下すためにパフォーマンスを測定する必要がある
ワークロードをクラウドに移行した際に予想されるネットワーク パフォーマンス指標を把握することで、自社のユースケースに最適なクラウドとデプロイ アーキテクチャを選択できます。PerfKit Benchmarker では、ネットワークの設定、VM のプロビジョニング、テストの実行を自動化することで、ネットワーク パフォーマンスの測定を簡単かつスピーディーに実施できます。ライブ ダッシュボードで Google Cloud ネットワークにおけるリージョン間のレイテンシとスループットの中央値を確認して、決断に役立てることができます。PerfKit Benchmarker を使ってこれらの結果を再現する方法についてはこちらをご覧ください。こちらのメソドロジー ホワイトペーパーでも、マルチクラウドとハイブリッド クラウドでさまざまなネットワーク パフォーマンス テストを実行する方法をご紹介しています。
適切なツールを使うことで、ネットワーク パフォーマンスを包括的に把握し、十分な情報に基づいてワークロードの配置場所を判断できます。また、障害を防止し、パフォーマンスの問題の優先順位付けとトラブルシューティングに素早く対応することもできるので、ユーザー エクスペリエンスが最大限に高まります。ここでは紹介されていないネットワーク パフォーマンスの質問について対応を希望される場合は、こちらからお問い合わせください。
- By Google Cloud プロダクト マネージャー Manasa Chalasani、Google Cloud プロダクト マーケティング マネージャー Shubhika Taneja