Knative serving で特定のコンテナ インスタンスが、同時に処理できるリクエストの最大数を設定する方法について説明します。同時実行の詳細。
構成を変更すると、新しいリビジョンが作成されます。明示的に更新しない限り、以降のリビジョンでも、この構成が自動的に設定されます。
新しいサービスをデプロイするか、既存のサービスを更新してリビジョンをデプロイする際には、Google Cloud コンソールまたは Google Cloud CLI を使用して同時実行設定を構成できます。
Google Cloud コンソールで Knative serving に移動します。
デプロイ先の新しいサービスを構成する場合は、[サービスを作成] をクリックします。既存のサービスを構成する場合は、そのサービスをクリックし、[新しいリビジョンの編集とデプロイ] をクリックします。
[詳細設定] で [コンテナ] をクリックします。
[コンテナあたりの最大リクエスト数] テキスト ボックスに、同時実行の値を設定します。
[次へ] をクリックして、次のセクションに進みます。
[このサービスをトリガーする方法の構成] セクションで、サービスを呼び出すために使用する接続を選択します。
[作成] をクリックしてイメージを Knative serving にデプロイし、デプロイの完了を待ちます。
既存のサービスの場合は、
--concurrency
パラメータを指定してgcloud run services update
コマンドを実行し、同時リクエストの最大数を設定します。gcloud run services update
SERVICE --concurrencyCONCURRENCY 次のように置き換えます。
- SERVICE は、実際のサービスの名前に置き換えます。
- CONCURRENCY は、コンテナ インスタンスあたりの最大同時リクエスト数に置き換えます。同時実行の設定(
--concurrency default
)をクリアするには、default
を指定します。
新しいサービスの場合は、
--concurrency
パラメータを指定してgcloud run deploy
コマンドを実行し、同時リクエストの最大数を設定します。gcloud run deploy
SERVICE --image=IMAGE_URL --concurrencyCONCURRENCY 次のように置き換えます。
- SERVICE: 実際のサービスの名前。
- IMAGE_URL は、コンテナ イメージへの参照(
gcr.io/cloudrun/hello
など)に置き換えます。 - CONCURRENCY は、コンテナ インスタンスあたりの最大同時リクエスト数に置き換えます。同時実行の設定(
--concurrency default
)をクリアするには、default
を指定します。
--format=export
フラグを使用して、gcloud run services describe
コマンドで既存のサービスの構成を YAML ファイルにダウンロードできます。次に YAML ファイルを変更し、gcloud run services replace
コマンドを使用してこれらの変更をデプロイします。指定した属性のみを変更する必要があります。
ローカル ワークスペースの
service.yaml
という名前のファイルにサービスの構成をダウンロードします。gcloud run services describe
SERVICE --format export > service.yamlSERVICE は、Knative serving サービスの名前に置き換えます。
ローカル ファイルで
containerConcurrency
属性を更新します。apiVersion: serving.knative.dev/v1 kind: Service metadata: name:
SERVICE spec: template: spec: containerConcurrency:CONCURRENCY 次のように置き換えます。
- SERVICE は、Knative serving サービスの名前に置き換えます。
- CONCURRENCY は、コンテナ インスタンスあたりの最大同時リクエスト数に置き換えます。同時実行の設定をクリアするには、
--concurrency default
のようにdefault
を指定します。
次のコマンドを使用して、サービスを新しい構成に置き換えます。
gcloud run services replace service.yaml