最小インスタンス数（サービス）を設定する

このページでは、最小インスタンス数の設定を使用して、サービスでアイドル状態のインスタンスを有効にする方法について説明します。

Cloud Run サービスの場合、Cloud Run は受信リクエストの数に基づいてインスタンス数のスケーリングを行います。ただし、サービスでレイテンシの短縮が必要であり、特にアクティブなインスタンスからスケーリングする場合は、ウォーム状態を維持し、いつでもリクエストを処理できるコンテナインスタンスの最小数を指定することで、このデフォルトの動作を変更できます。この最適化の詳細については、全般的な開発のヒントをご覧ください。

Cloud Run は、リクエストを処理していないインスタンス（アイドル状態）を削除します。最小インスタンス数を設定すると、リクエストを処理していなくても、Cloud Run は少なくとも最小のインスタンス数を維持します。min-instances を超えるアクティブなインスタンスは、リクエストを受信していない場合にアイドル状態になる可能性があります。

たとえば、min-instances が 10 で、アクティブなインスタンスの数が 0 の場合、アイドル状態のインスタンスの数は 10 です。アクティブなインスタンスの数が 6 まで増えると、アイドル状態のインスタンスの数は 4 に減ります。

サービスレベルとリビジョンレベルでの最小インスタンス数の適用

最小インスタンス数は、サービスレベルまたはリビジョンレベルで構成できます。最小インスタンス数はサービスレベルで適用し、サービスレベルとリビジョンレベルの最小インスタンス数を組み合わせることは避けることをおすすめします。

リビジョンレベルで最小インスタンス数を適用すると、リビジョンのデプロイ時に設定が有効になります。この機能をサービスレベルで適用すると、新しいリビジョンをデプロイしなくても設定が有効になります。

タグ付きリビジョンとサービスレベルの最小インスタンス数

タグ付きリビジョンは開始されますが、トラフィック分割の一部である場合にのみ、サービスレベルの最小インスタンス数にカウントされます。

課金

最小インスタンスの機能を使用して実行を継続しているインスタンスには、請求が発生します。これらの請求は予測可能であるため、確約利用割引の購入をおすすめします。

最小インスタンス数と常時割り当てられる CPU

リクエスト以外で CPU が必要な場合は、CPU が常に割り当てられるように構成できます。

最小インスタンスの再起動

最小インスタンスはいつでも再起動できます。

リビジョンと最小インスタンス数

サービスレベルで最小インスタンス数が設定されている場合、トラフィックを処理するすべてのリビジョンに、トラフィック分割に比例してインスタンスが分散されます。

リビジョンレベルで最小インスタンス数が設定されている場合、リビジョンがトラフィック分割で参照されるか（0% であっても）、リビジョンにトラフィックタグが割り当てられていると、最小インスタンスが開始されます。

必要なロール

Cloud Run サービスの構成とデプロイに必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。

Cloud Run サービスに対する Cloud Run デベロッパー（roles/run.developer）ロール
サービス ID に対するサービスアカウントユーザー（roles/iam.serviceAccountUser）ロール

Cloud Run に関連付けられている IAM ロールと権限のリストについては、Cloud Run IAM ロールと Cloud Run IAM 権限をご覧ください。Cloud Run サービスが Google Cloud APIs（Cloud クライアントライブラリなど）と連携している場合は、サービス ID の構成ガイドをご覧ください。ロールの付与の詳細については、デプロイ権限とアクセスの管理をご覧ください。

サービスレベルの最小インスタンス数の設定と更新

デフォルトでは、コンテナインスタンスではサービスレベルの最小インスタンス数が無効になっており、0 に設定されています。このデフォルトの数は、Google Cloud コンソール、Google Cloud CLI、または YAML ファイルを使用して変更できます。

コンソール

Google Cloud コンソールで、[Cloud Run] に移動します。

Cloud Run に移動
新しいサービスを構成する場合は、[コンテナをデプロイ] をクリックし、[サービス] を選択して [サービスの作成] フォームを表示します。既存のサービスを構成する場合は、サービスをクリックして詳細パネルを表示し、詳細パネルの右上にある [最小インスタンス数] の横にある鉛筆アイコンをクリックします。
[サービスの自動スケーリング] フォームを見つけます。
- [インスタンスの最小数] フィールドに、ウォームアップ状態を維持し、リクエストを受信できるコンテナインスタンスの数を指定します。
新しいサービスの場合は [作成]、既存のサービスの場合は [デプロイ] をクリックします。

gcloud

次のコマンドを使用して、特定のサービスの service-min-instances を更新します。

gcloud run services update SERVICE --service-min-instances MIN-VALUE

次のように置き換えます。

SERVICE: 実際のサービスの名前。
MIN-VALUE: ウォーム状態を維持し、リクエストを受信できるコンテナインスタンスの数。インスタンスの最小数の設定を消去するには、default を指定します。

また、デプロイ中に次のコマンドを使用して service-min-instances を設定することもできます。

gcloud run deploy --image IMAGE_URL --service-min-instances MIN-VALUE

次のように置き換えます。

IMAGE_URL: コンテナイメージへの参照（us-docker.pkg.dev/cloudrun/container/hello:latest など）。Artifact Registry を使用する場合は、リポジトリ REPO_NAME がすでに作成されている必要があります。URL の形式は LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG です。
MIN-VALUE は、ウォーム状態を維持し、リクエストを受信できるコンテナインスタンスの数に置き換えます。インスタンスの最小数の設定を消去するには、default を指定します。

YAML

新しいサービスを作成する場合は、この手順をスキップします。既存のサービスを更新する場合は、その YAML 構成をダウンロードします。
```
gcloud run services describe SERVICE --format export > service.yaml
```
run.googleapis.com/minScale 属性を更新します。
```
apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: SERVICE
  annotations:
    run.googleapis.com/minScale: 'MIN_INSTANCE'
```
次のように置き換えます。
- SERVICE は、Cloud Run サービスの名前に置き換えます。
- MIN-INSTANCE は、ウォーム状態を維持し、リクエストを受信できるインスタンスの数に置き換えます。
次のコマンドを使用して、サービスを作成または更新します。
```
gcloud run services replace service.yaml
```

クライアントライブラリ

サービスのサービスレベルの最小インスタンスをコードから更新するには:

REST API

特定のサービスでサービスレベルの最小インスタンスを更新するには、PATCH HTTP リクエストを Cloud Run Admin API の service エンドポイントに送信します。

curl の使用例を次に示します。

curl -H "Content-Type: application/json" \
-H "Authorization: Bearer ACCESS_TOKEN" \
-X PATCH \
-d '{ "scaling": { "minInstanceCount": MIN-VALUE }}' \
https://run.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/services/SERVICE?update_mask=scaling.minInstanceCount

次のように置き換えます。

ACCESS_TOKEN は、サービスを更新する IAM 権限を持つアカウントの有効なアクセストークンに置き換えます。たとえば、gcloud にログインしている場合は、gcloud auth print-access-token を使用してアクセストークンを取得できます。Cloud Run コンテナインスタンスから、コンテナインスタンスメタデータサーバーを介してアクセストークンを取得できます。
MIN-VALUE は、ウォーム状態を維持し、リクエストを受信できるコンテナインスタンスの数に置き換えます。
SERVICE は、サービスの名前に置き換えます。
REGION: サービスの Google Cloud リージョン。
PROJECT-ID は、Google Cloud プロジェクト ID に置き換えます。

サービスレベルの最小インスタンス数を表示する

Cloud Run サービスの現在のサービスレベルの最小インスタンス数の設定を表示するには:

コンソール

Google Cloud コンソールで、[Cloud Run] に移動します。

Cloud Run に移動
目的のサービスをクリックして、[サービスの詳細] パネルを開きます。
現在の設定は、サービスの詳細パネルの右上の [最小インスタンス数] の横に表示されます。

gcloud

次のコマンドを使用します。
```
gcloud run services describe SERVICE
```
返された構成で、[サービスレベル最小インスタンス数:] の値を見つけます。

リビジョンレベルの最小インスタンス数の設定と更新

構成を変更すると、新しいリビジョンが作成されます。明示的に更新しない限り、以降のリビジョンでも、この構成が自動的に設定されます。

デフォルトでは 0 が設定され、コンテナインスタンスの min-instances は無効になっています。このデフォルトを変更するには、新しいサービスを作成する、または新しいリビジョンをデプロイする際に、Google Cloud コンソール、Google Cloud CLI、または YAML ファイルを使用します。

コンソール

Google Cloud コンソールで、[Cloud Run] に移動します。

Cloud Run に移動
[コンテナをデプロイ] をクリックし、[サービス] を選択して、新しいサービスを構成します。既存のサービスを構成する場合は、サービスをクリックし、[新しいリビジョンの編集とデプロイ] をクリックします。
新しいサービスを構成する場合は、最初のサービス設定のページに入力してから、[コンテナ、ボリューム、ネットワーキング、セキュリティ] をクリックしてサービス構成ページを開きます。
[コンテナ] タブをクリックします。
- [インスタンスの最小数] フィールドに、ウォームアップ状態を維持し、リクエストを受信できるコンテナインスタンスの数を指定します。
[作成] または [デプロイ] をクリックします。

gcloud

次のコマンドを使用して、指定したサービスの min-instance を更新できます。

gcloud run services update SERVICE --min-instances MIN-VALUE

次のように置き換えます。

SERVICE: 実際のサービスの名前。
MIN-VALUE: ウォーム状態を維持し、リクエストを受信できるコンテナインスタンスの数。インスタンスの最小数の設定を消去するには、default を指定します。

デプロイ中に次のコマンドを使用して min-instance を設定することもできます。

gcloud run deploy --image IMAGE_URL --min-instances MIN-VALUE

次のように置き換えます。

IMAGE_URL: コンテナイメージへの参照（us-docker.pkg.dev/cloudrun/container/hello:latest など）。Artifact Registry を使用する場合は、リポジトリ REPO_NAME がすでに作成されている必要があります。URL の形式は LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG です。
MIN-VALUE: ウォーム状態を維持し、リクエストを受信できるコンテナインスタンスの数。インスタンスの最小数の設定を消去するには、default を指定します。

YAML

新しいサービスを作成する場合は、この手順をスキップします。既存のサービスを更新する場合は、その YAML 構成をダウンロードします。
```
gcloud run services describe SERVICE --format export > service.yaml
```
autoscaling.knative.dev/minScale: 属性を更新します。
```
apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: SERVICE
spec:
  template:
    metadata:
      annotations:
        autoscaling.knative.dev/minScale: 'MIN-INSTANCE'
      name: REVISION
```
次のように置き換えます。
- SERVICE は、Cloud Run サービスの名前に置き換えます。
- MIN-INSTANCE は、ウォーム状態を維持し、リクエストを受信できるインスタンスの数に置き換えます。
- REVISION を新しいリビジョン名に置き換えるか、削除（存在する場合）します。新しいリビジョン名を指定する場合は、次の条件を満たす必要があります。
  - SERVICE- で始まる
  - 小文字、数字、- のみが使用されている
  - 末尾が - ではない
  - 63 文字以内である
次のコマンドを使用して、サービスを作成または更新します。
```
gcloud run services replace service.yaml
```

Terraform

Terraform 構成を適用または削除する方法については、基本的な Terraform コマンドをご覧ください。

次の google_cloud_run_v2_service リソースは、template.scaling の下にある 1 のインスタンスの最小数を指定します。1 は、実際のインスタンスの最小数に置き換えます。

resource "google_cloud_run_v2_service" "default" {
  name     = "cloudrun-service-min-instances"
  location = "us-central1"

  deletion_protection = false # set to "true" in production

  template {
    containers {
      image = "us-docker.pkg.dev/cloudrun/container/hello"
    }
    scaling {
      # Min instances
      min_instance_count = 1
    }
  }
}

リビジョンレベルの最小インスタンス数の設定を表示する

Cloud Run サービスの現在のリビジョンレベルの最小インスタンス数の設定を表示するには:

コンソール

Google Cloud コンソールで、[Cloud Run] に移動します。

Cloud Run に移動
目的のサービスをクリックして、[サービスの詳細] ページを開きます。
[変更内容] タブをクリックします。
右側の詳細パネルの [コンテナ] タブに、リビジョンレベルの最小インスタンス数の設定が表示されます。

gcloud

次のコマンドを使用します。
```
gcloud run services describe SERVICE
```
返された構成で、リビジョンレベルの最小インスタンス数の設定を見つけます。

サービスレベルとリビジョンレベルの両方の最小インスタンス数または最大インスタンス数を使用する

次の表は、サービスレベルの最小インスタンス数と、リビジョンレベルの最小インスタンス数または最大インスタンス数を組み合わせた場合の動作を示しています。

構成設定	動作
サービスレベルの最小インスタンス数とリビジョンレベルの最小インスタンス数の両方が設定されています。	リビジョンの有効な値は、リビジョンレベルの最小インスタンス数とサービスレベルの最小インスタンス数のうち、大きい方の値です。
サービスレベルの最小インスタンス数とリビジョンレベルの最大インスタンス数の両方が設定されています。	リビジョンの有効な値は、リビジョンレベルの最大インスタンス数とサービスレベルの最小インスタンス数のうち小さい方の値です。これは、リビジョンレベルの最大インスタンス数が原因で、サービスレベルの最小インスタンス数に構成されているインスタンス数の上限に達していない場合についても該当します。

構成設定

動作

サービスレベルの最小インスタンス数とリビジョンレベルの最小インスタンス数の両方が設定されています。

リビジョンの有効な値は、リビジョンレベルの最小インスタンス数とサービスレベルの最小インスタンス数のうち、大きい方の値です。

サービスレベルの最小インスタンス数とリビジョンレベルの最大インスタンス数の両方が設定されています。

リビジョンの有効な値は、リビジョンレベルの最大インスタンス数とサービスレベルの最小インスタンス数のうち小さい方の値です。

これは、リビジョンレベルの最大インスタンス数が原因で、サービスレベルの最小インスタンス数に構成されているインスタンス数の上限に達していない場合についても該当します。

トラフィック分割でサービスレベルの最小インスタンス数を使用する

トラフィック分割を使用する場合、サービスレベルの最小インスタンス数は、トラフィック分割の比率に基づいてリビジョン間で分割されます。たとえば、サービスレベルの最小インスタンス数が 10 の場合、50 対 50 のトラフィック分割により、各リビジョンにサービスレベルの最小インスタンス数 5 が割り当てられます。

次の表に、構成シナリオの例を示します。

サンプルのユースケース	構成の例	結果
リビジョンレベルの設定なし	サービスレベルの最小インスタンス数: 10 リビジョン A の最小インスタンス数: 0 リビジョン B の最小インスタンス数: 0 トラフィック分割: 60 対 40	リビジョン A は、トラフィック分割に比例してサービスレベルの最小インスタンス数から 6 つのインスタンスを受け取ります。リビジョン B は、トラフィック分割に比例してサービスレベルの最小インスタンス数から 4 つのインスタンスを受け取ります。
リビジョンレベルの最小インスタンス数が原因で、サービスレベルの最小インスタンス数よりも多くのインスタンスを受け取る	サービスレベルの最小インスタンス数: 10 リビジョン A の最小インスタンス数: 6 リビジョン B の最小インスタンス数: 0 トラフィック分割: 50 対 50	リビジョン A は、リビジョンレベルの最小インスタンス数から 6 個のインスタンスを受け取ります。リビジョン B は、トラフィック分割に比例して、サービスレベルの最小インスタンス数から 5 つのインスタンスを受け取ります。これはサービスレベルの最小インスタンス数を超えており、想定内の動作です。
リビジョンレベルの最大インスタンス数が原因で、受け取るインスタンス数がサービスレベルの最小インスタンス数を下回っています。	サービスレベルの最小インスタンス数: 10 リビジョン A の最小インスタンス数: 0 リビジョン A の最大インスタンス数: 3 リビジョン B の最小インスタンス数: 0 トラフィック分割: 50 対 50	リビジョン A は、トラフィック分割によってサービスレベルの最小インスタンス数から 3 つのインスタンスを受け取りますが、リビジョンレベルの最大インスタンス数に制限されます。リビジョン B は、トラフィック分割に比例してサービスレベルの最小インスタンス数から 5 つのインスタンスを受け取ります。この場合、リビジョン A のリビジョンレベルでの最大インスタンス数が原因で、2 つのサービスレベルインスタンスが失われ、8 つのサービスレベルインスタンスが存在することになります。
サービスレベルの最小インスタンス数がトラフィック分割のリビジョン数より大きく、トラフィック分割に比例してインスタンス数が分割されます。	サービスレベルの最小インスタンス数: 3 リビジョン A の最小インスタンス数: 0 リビジョン B の最小インスタンス数: 0 リビジョン B はサービス構成トラフィックセクションの先頭にあるトラフィック分割: 50 対 50	リビジョン A の最小インスタンス数は 1 に、リビジョン B の最小インスタンス数は 2 になります。サービスのインスタンス数は 3 です。

最小インスタンス数（サービス）を設定する

サービスレベルとリビジョン レベルでの最小インスタンス数の適用

タグ付きリビジョンとサービスレベルの最小インスタンス数

課金

最小インスタンス数と常時割り当てられる CPU

最小インスタンスの再起動

リビジョンと最小インスタンス数

必要なロール

サービスレベルの最小インスタンス数の設定と更新

コンソール

gcloud

YAML

クライアント ライブラリ

REST API

サービスレベルの最小インスタンス数を表示する

コンソール

gcloud

リビジョン レベルの最小インスタンス数の設定と更新

コンソール

gcloud

YAML

Terraform

リビジョン レベルの最小インスタンス数の設定を表示する

コンソール

gcloud

サービスレベルとリビジョン レベルの両方の最小インスタンス数または最大インスタンス数を使用する

トラフィック分割でサービスレベルの最小インスタンス数を使用する

サービスレベルとリビジョンレベルでの最小インスタンス数の適用

クライアントライブラリ

リビジョンレベルの最小インスタンス数の設定と更新

リビジョンレベルの最小インスタンス数の設定を表示する

サービスレベルとリビジョンレベルの両方の最小インスタンス数または最大インスタンス数を使用する