このページは Cloud Translation API によって翻訳されました。

スケーラビリティの高いアプリケーションでの自動スケーリングの使用

このチュートリアルでは、自動スケーリングを使用して、アプリケーションをホストしている VM インスタンスの数を自動的に調整し、アプリケーションがさまざまな量のトラフィックに適応できるようにする方法について説明します。

自動スケーリングを使用するには、マネージドインスタンスグループでアプリケーションをホストします。マネージドインスタンスグループとは、すべてが同じアプリケーションを実行し、単一のエンティティとして管理できる、インスタンスの集まりです。マネージドインスタンスグループで自動スケーリングが有効になっている場合、インスタンスグループ内の VM の数は、自動スケーリングポリシーに指定したターゲット値に従って自動的に増加（スケールアウト）または減少（スケールイン）します。

このチュートリアルでは、マネージドインスタンスグループでウェブアプリケーションを起動する手順、自動スケーリングを設定する手順、ネットワークアクセスを構成する手順、負荷の急激な上昇や下落をシミュレートして自動スケーリングを観察する手順の詳細を示します。このような機能の使用経験にもよりますが、このチュートリアルは約 20 分で完了します。

アプリケーションアーキテクチャ

アプリケーションには、次の Compute Engine コンポーネントが含まれています。

ファイアウォールルール: Google Cloudファイアウォールにより、インスタンスへのトラフィックを許可または拒否できます。
インスタンステンプレート: マネージドインスタンスグループに個々の VM インスタンスを作成するために使用されるテンプレート。
リージョンマネージドインスタンスグループ: 複数のゾーンで同じアプリケーションを実行する VM インスタンスのグループ。

ウェブアプリケーションの起動

このチュートリアルでは、GitHub に保存されているウェブアプリケーションを使用します。アプリケーションの実装方法の詳細については、GoogleCloudPlatform/python-docs-samples GitHub リポジトリをご覧ください。

インスタンステンプレートに起動スクリプトを含めることで、マネージドインスタンスグループ内のすべての VM でウェブアプリケーションを起動します。ウェブアプリケーションへの HTTP トラフィックを許可するには、ファイアウォールルールを作成します。

ファイアウォールルールを作成する

ウェブアプリケーションへの HTTP トラフィックを許可するファイアウォールルールを作成します。

Google Cloud コンソールで、[ファイアウォール] ページに移動します。

[ファイアウォール] に移動
[ファイアウォールルールを作成] をクリックします。
[名前] に「default-allow-http」と入力します。
[ネットワーク] を default に設定します。
[ターゲット] を Specified target tags に設定します。
[ターゲットタグ] に「http-server」と入力します。
[ソースフィルタ] を IPv4 ranges（IP 範囲）に設定します。
[送信元 IPv4 範囲] に「0.0.0.0/0」と入力します。

すべての IP アドレスに対しアクセスを許可します。
[プロトコルとポート] で [指定したプロトコルとポート] をオンにします。次に、[TCP] を選択し、「80」と入力して HTTP トラフィックのアクセスを許可します。
[作成] をクリックします。

インスタンステンプレートの作成

起動時にデモのウェブアプリケーションを起動するインスタンステンプレートを作成します。

Google Cloud コンソールで、[インスタンステンプレート] ページに移動します。

[インスタンステンプレート] に移動
[インスタンステンプレートを作成] をクリックします。
[名前] に「autoscaling-web-app-template」と入力します。
[マシンの構成] で、[マシンタイプ] を e2-standard-2 に設定します。
[ファイアウォール] で、[HTTP トラフィックを許可する] チェックボックスをオンにします。これにより、このテンプレートから作成された各インスタンスに http-server ネットワーキングタグが適用されます。
[詳細オプション] セクションを開き、詳細設定を確認します。
[管理] セクションを開きます。

[自動化] セクションで、次の起動スクリプトを入力します。

sudo apt update && sudo apt -y install git gunicorn3 python3-pip
git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git
cd python-docs-samples/compute/managed-instances/demo
sudo pip3 install -r requirements.txt
sudo gunicorn3 --bind 0.0.0.0:80 app:app --daemon

このスクリプトにより、起動時に各 VM でウェブアプリケーションが実行されます。

[作成] をクリックします。

マネージドインスタンスグループの作成

リージョンインスタンスグループを作成して、ウェブアプリケーションの実行を開始します。

Google Cloud コンソールで、[インスタンスグループ] ページに移動します。

[インスタンスグループ] に移動
[インスタンスグループを作成] をクリックして、新しいインスタンスグループを作成します。
[新しいマネージドインスタンスグループ（ステートレス）] を選択します。
[名前] に「autoscaling-web-app-group」と入力します。
[インスタンステンプレート] で [autoscaling-web-app-template] を選択します。
[ロケーション] で [複数のゾーン] を選択します。

ヒント: ゾーンの停止などの極端なケースでもアプリケーションの可用性を確保するため、Compute Engine のアプリケーションを複数のゾーンに分散することをおすすめします。
[リージョン] で、[us-central1] を選択します。
[ゾーン] で、プルダウンリストから次のゾーンを選択します。
- us-central1-b
- us-central1-c
- us-central1-f
インスタンスグループの自動スケーリングを構成します。
1. [自動スケーリングモード] で [オン: グループに対してインスタンスを追加および削除します] を選択します。
2. [インスタンスの最小数] を 3 に設定します。
  
  ヒント: リージョンマネージドインスタンスグループを作成する際に、Compute Engine で十分な数のインスタンスをプロビジョニングして、1 つのゾーンのすべてのインスタンスが使用できなくなっても、残りのインスタンスが必要最小限のインスタンス数を満たすようにすることをおすすめします。ただし、必要以上にインスタンスをプロビジョニングすると、余分な費用が発生する可能性があります。詳細については、可用性を確保できるようにインスタンスグループのサイズを選択するをご覧ください。
3. [インスタンスの最大数] を 6 に設定します。
4. [初期化期間] を 120 秒に設定します。
  
  上級者向けのヒント: 初期化期間は、インスタンスが作成された後、インスタンスに関する情報をスケーリングの決定に使用するまでに、オートスケーラーが待機する秒数です。VM の初期化中、CPU 使用率は自動スケーリングでの使用には適しません。オートスケーラーが不正確なデータに基づいてスケーリングしないようにするには、初期化期間が、VM の CPU 使用率が最初に安定するまでの時間よりも長いことを確認します。詳細については、初期化期間と自動スケーリンググラフとログのモニタリングをご覧ください。
5. [自動スケーリング指標] で、指標タイプとして [CPU 使用率] を選択します。自動スケーリング指標の詳細については、自動スケーリングポリシーをご覧ください。
6. [CPU 使用率の目標値] を 60 に設定します。
7. [完了] をクリックします。
[自動修復] で、[ヘルスチェック] プルダウンリストから [ヘルスチェックをしない] を選択します。
[作成] をクリックします。[インスタンスグループ] ページにリダイレクトされます。
注: グループ内のすべてのインスタンスが実行されてウェブアプリケーションを表示する準備ができるまで、数分待ちます。
インスタンスが実行されていることを確認します。
1. Google Cloud コンソールの [インスタンスグループ] ページで、autoscaling-web-app-group をクリックしてグループ内のインスタンスを表示します。
2. [外部 IP] で IP アドレスをクリックして、そのインスタンスを接続します。新しいブラウザタブが開き、デモウェブアプリケーションが表示されます。
  注: 数分経過してもウェブアプリケーションに接続できない場合は、次に示すように、インスタンスのステータスとネットワーク設定を確認してください。
  - インスタンスグループの準備ができていることを確認します。アプリケーションが ERR_CONNECTION_REFUSED ステータスで読み込みに失敗した場合は、起動スクリプトの実行が完了するまで数分待ちます。
  - グループのインスタンステンプレートで [HTTP トラフィックを許可する] が有効になっていることを確認します。次に、allow-web-app-http ファイアウォールルールが正しく作成されていることを確認します。
  確認が終わったら、デモウェブアプリケーションのブラウザタブを閉じます。

自動スケーリングの観察

自動スケーリングの動作の詳細については、自動スケーリングの判断についてをご覧ください。

自動スケーリングのモニタリング

作成したインスタンスグループは、CPU 使用率に基づいた自動スケーリングポリシーを使用します。つまり、オートスケーラーが必要に応じてグループを拡大または縮小して、ターゲット CPU 使用率を 60% に維持します。

インスタンスグループのサイズと CPU 使用率をモニタリングするには、 Google Cloud コンソールの自動スケーリンググラフを使用します。

autoscaling-web-app-group インスタンスグループの [インスタンスグループ] ページで、[モニタリング] タブをクリックします。
[グループサイズ] のグラフで自動スケーリングをモニタリングできます。グラフの [インスタンス] に、グループ内の VM インスタンスの数の推移が表示されます。
省略可: 自動スケーリングされた容量と使用率をモニタリングするには、[オートスケーラーの使用率（CPU）] のグラフを確認します。グラフには、グループ内の VM インスタンスの合計 CPU 使用率である使用率と、累積ターゲット CPU 使用率（ターゲット CPU 使用率に VM インスタンス数を掛けた値）を表す容量が表示されます。

自動スケーリングは、可能な場合にインスタンスの数を変更することで、容量を使用率に一致させようとします。

このウィンドウは閉じないでください。

スケールアウトのシミュレーション

スケールアウトは、インスタンスグループの平均 CPU 使用率がターゲット値より大幅に高い場合に発生します。スケールアウトの際、オートスケーラーは、CPU 使用率がターゲット CPU 使用率の値まで減少するか、インスタンスグループサイズがインスタンスの最大数（6 に設定しました）に等しくなるまで、インスタンスグループのサイズを徐々に増やします。

スケールアウトをトリガーするには、インスタンスの CPU 使用率を増やします。

Google Cloud コンソールで Cloud Shell を開きます。

Cloud Shell を開く

Google Cloud コンソールの下部に Cloud Shell が開きます。セッションが初期化されるまで数秒かかることがあります。

上級者向けのヒント:
すべての Google Cloud コンソールページの右上隅にある「Cloud Shell をアクティブにする」ボタンを使用すると、 Google Cloud コンソールのどのページでからでも Cloud Shell を開くことができます。
プロジェクト ID のローカル bash 変数を作成します。
```
export PROJECT_ID=[PROJECT_ID]
```
ここで、PROJECT_ID は、現在のプロジェクトのプロジェクト ID です。この値は Cloud Shell のすべての新しい行に表示されます。
```
user@cloudshell:~ ([PROJECT_ID])$
```

次の bash スクリプトを実行します。このスクリプトにより、デモのウェブアプリケーションインスタンスの負荷が増加し、CPU 使用率が増加します。数分後、CPU 使用率がターゲット値を上回り、自動スケーリングはインスタンスグループのサイズを増やすように促されます。

export MACHINES=$(gcloud --project=$PROJECT_ID compute instances list --format="csv(name,networkInterfaces[0].accessConfigs[0].natIP)" | grep "autoscaling-web-app-group")
for i in $MACHINES;
do
  NAME=$(echo "$i" | cut -f1 -d,)
  IP=$(echo "$i" | cut -f2 -d,)
  echo "Simulating high load for instance $NAME"
  curl -q -s "http://$IP/startLoad" >/dev/null --retry 2
done

Google Cloud コンソールで [モニタリング] タブを開きます。

数分後、[モニタリング] タブに CPU 使用率の増加が表示され、インスタンスの数を増やすことで容量を増やすように自動スケーリングがトリガーされます。
注: 最新のグラフを表示するには、ページの更新が必要になる場合があります。
また、[概要] タブに 6 つのインスタンスが表示されるようになったこともわかります。

両方のウィンドウを開いたままにします。

スケールインのシミュレーション

スケールインは、インスタンスグループの平均 CPU 使用率がターゲット値より大幅に低い場合に発生します。スケールインの際、オートスケーラーは、CPU 使用率がターゲット CPU 使用率まで増加するか、インスタンスグループサイズがインスタンスの最小数（3 に設定しました）に等しくなるまで、インスタンスグループのサイズを徐々に減らします。

スケールインをトリガーするには、インスタンスの CPU 使用率を減らします。

次の bash スクリプトを実行します。このスクリプトにより、デモのウェブアプリケーションインスタンスの負荷が減少し、CPU 使用率が減少します。数分後、CPU 使用率がターゲット値を下回り、オートスケーラーはインスタンスグループサイズを減らすように促されます。

export MACHINES=$(gcloud --project=$PROJECT_ID compute instances list --format="csv(name,networkInterfaces[0].accessConfigs[0].natIP)" | grep "autoscaling-web-app-group")
for i in $MACHINES;
do
  NAME=$(echo "$i" | cut -f1 -d,)
  IP=$(echo "$i" | cut -f2 -d,)
  echo "Simulating low load for instance $NAME"
  curl -q -s "http://$IP/stopLoad" >/dev/null --retry 2
done

Google Cloud コンソールで [モニタリング] タブを開きます。

数分後、[モニタリング] タブに CPU 使用率の減少が表示されます。安定化期間後、負荷が一貫して少ないことを確認するため、自動スケーリングは減少します。容量次の数を減らしてインスタンス。
注: 最新のグラフを表示するには、ページの更新が必要になる場合があります。
また、[概要] タブに 3 つのインスタンスのみが表示されていることもわかります。

終了したら、両方のウィンドウを閉じます。