Nombre maximal de requêtes simultanées par instance (services)

Pour comprendre le réglage du nombre maximal de requêtes simultanées par instance, consultez le document conceptuel.

Tout changement de configuration entraîne la création d'une révision. Les révisions ultérieures obtiennent aussi automatiquement le même paramètre de configuration, à moins que vous ne le mettiez explicitement à jour.

Pour les services Cloud Run, vous pouvez définir le nombre maximal de requêtes simultanées par instance à l'aide de Google Cloud Console, de la ligne de commande gcloud ou d'un fichier .yaml lorsque vous créez un service ou déployez une nouvelle révision :

Console

Dans la console Google Cloud, accédez à Cloud Run :

Accédez à Cloud Run
Cliquez sur Créer un service si vous configurez un nouveau service sur lequel effectuer un déploiement. Si vous configurez un service existant, cliquez sur celui-ci puis sur Modifier et déployer la nouvelle révision.
Si vous configurez un nouveau service, remplissez la page initiale des paramètres du service selon vos besoins, puis cliquez sur Conteneur(s), volumes, mise en réseau et sécurité pour développer la page de configuration du service.
Cliquez sur l'onglet Conteneur.
- Définissez le nombre maximal de requêtes simultanées par instance dans la zone de texte Nombre maximal de requêtes par conteneur.
Cliquez sur Créer ou Déployer.

Command line

Pour définir le nombre maximal de requêtes simultanées par instance, exécutez la commande suivante :

gcloud run services update SERVICE --concurrency CONCURRENCY

Remplacer

SERVICE par le nom de votre service.
CONCURRENCY par le nombre maximal de requêtes simultanées par instance. Par exemple, la ligne de commande suivante définit un maximum de 1 requête simultanée :
```
gcloud run services update SERVICE --concurrency 1
```

La modification du nombre maximal de requêtes simultanées par instance pour un service donné entraîne la réutilisation de ce paramètre pour toute nouvelle version.

Pour rétablir le nombre maximal de requêtes simultanées par instance par défaut (80), utilisez la commande ci-dessous :

gcloud run services update SERVICE --concurrency default

Remplacez SERVICE par le nom du service que vous configurez.

YAML

Vous pouvez télécharger et afficher les configurations de service existantes à l'aide de la commande gcloud run services describe --format export, qui renvoie les résultats nettoyés au format YAML. Vous pouvez ensuite modifier les champs décrits ci-dessous et importer le fichier YAML modifié à l'aide de la commande gcloud run services replace. Veillez à ne modifier que les champs indiqués.

Pour afficher et télécharger la configuration :

gcloud run services describe SERVICE --format export > service.yaml

Mettez à jour l'attribut containerConcurrency :
```
apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: SERVICE
spec:
  template:
    metadata:
      name: REVISION
    spec:
      containerConcurrency: CONCURRENCY
```
Remplacez
- SERVICE par le nom de votre service Cloud Run
- IMAGE_URL par une référence à l'image de conteneur, par exemple us-docker.pkg.dev/cloudrun/container/hello:latest. Si vous utilisez Artifact Registry, le dépôt REPO_NAME doit déjà être créé. L'URL se présente sous la forme suivante : LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
- CONCURRENCY par le nombre maximal de requêtes simultanées par instance.
- REVISION par un nouveau nom de révision ou supprimez-le (le cas échéant). Si vous indiquez un nouveau nom de révision, il doit répondre aux critères suivants :
  - Commencer par SERVICE-
  - Ne contenir que des lettres minuscules, des chiffres et -
  - Ne pas se terminer par -
  - Ne pas dépasser 63 caractères
Remplacez la configuration du service en utilisant la commande suivante :
```
gcloud run services replace service.yaml
```

Terraform

Pour savoir comment appliquer ou supprimer une configuration Terraform, consultez la page Commandes Terraform de base.

Ajoutez les éléments suivants à une ressource google_cloud_run_v2_service dans votre configuration Terraform, sous template. Remplacez 80 par le nombre maximal de requêtes simultanées souhaité.

resource "google_cloud_run_v2_service" "default" {
  name     = "cloudrun-service-concurrency"
  location = "us-central1"

  template {
    containers {
      image = "us-docker.pkg.dev/cloudrun/container/hello"
    }
    # Maximum concurrent requests
    max_instance_request_concurrency = 80
  }
}

Afficher les paramètres de simultanéité

Pour afficher les paramètres de simultanéité actuels de votre service Cloud Run, procédez comme suit :

Console

Dans la console Google Cloud, accédez à Cloud Run :

Accédez à Cloud Run
Cliquez sur le service qui vous intéresse pour ouvrir la page Informations sur le service.
Cliquez sur l'onglet Révisions.
Dans le panneau de détails sur la droite, le paramètre de simultanéité est répertorié dans l'onglet Conteneur.

Ligne de commande

Exécutez la commande suivante :
```
gcloud run services describe SERVICE
```
Recherchez le paramètre de simultanéité dans la configuration renvoyée.