Nombre maximal de requêtes simultanées par instance (services)

Dans Cloud Run, chaque révision est automatiquement adaptée au nombre d'instances nécessaires pour traiter toutes les requêtes entrantes.

Plus il y a d'instances qui traitent des requêtes, plus le nombre de ressources processeur et mémoire utilisées augmente, ce qui entraîne des coûts plus élevés.

Pour vous offrir davantage de contrôle, Cloud Run fournit un paramètre nombre maximal de requêtes simultanées par instance qui spécifie le nombre maximal de requêtes pouvant être traitées simultanément par une instance donnée.

Nombre maximal de requêtes simultanées par instance

Vous pouvez configurer le nombre maximal de requêtes simultanées par instance. Par défaut, chaque instance Cloud Run peut recevoir jusqu'à 80 requêtes simultanément. Vous pouvez augmenter cette valeur jusqu'à 1 000.

Bien que vous deviez utiliser la valeur par défaut, vous pouvez réduire la simultanéité maximale si nécessaire. Par exemple, si votre code ne peut pas traiter les requêtes parallèles, définissez la simultanéité sur 1.

La valeur de simultanéité spécifiée est une valeur maximale et, si le processeur d'une instance est déjà très sollicité, Cloud Run peut décider de limiter à une valeur inférieure le nombre de requêtes à envoyer à cette instance.

Le schéma suivant montre comment le paramètre de nombre maximal de requêtes simultanées par instance affecte le nombre d'instances nécessaires pour gérer les requêtes simultanées entrantes :

Schéma du nombre maximal de requêtes simultanées par instance

Quand limiter l'accès simultané maximal à une requête à la fois

Vous pouvez limiter la simultanéité de sorte qu'une seule requête à la fois soit envoyée à chaque instance en cours d'exécution. Vous devriez envisager de le faire dans les cas suivants :

Lorsque chaque requête utilise la majeure partie du processeur ou de la mémoire disponible.
Lorsque votre image de conteneur n'est pas conçue pour traiter plusieurs requêtes simultanément, par exemple si votre conteneur repose sur un état global qui deux requêtes ne peuvent pas partager.

Sachez qu'une simultanéité de 1 risque d'affecter négativement les performances de scaling, car le traitement d'un pic de requêtes entrantes nécessitera le démarrage de nombreuses instances.

Étude de cas

Les métriques suivantes illustrent un cas d'utilisation dans lequel 400 clients envoient trois requêtes par seconde à un service Cloud Run dont le nombre maximal de requêtes simultanées est défini sur 1. La courbe verte en haut représente le nombre de requêtes au fil du temps. La courbe bleue en bas représente le nombre d'instances démarrées afin de traiter les requêtes.

Avec une simultanéité définie sur 1

Les métriques suivantes illustrent un cas d'utilisation dans lequel 400 clients envoient trois requêtes par seconde à un service Cloud Run dont le nombre maximal de requêtes simultanées est défini sur 80. La courbe verte en haut représente le nombre de requêtes au fil du temps. La courbe bleue en bas représente le nombre d'instances démarrées afin de traiter les requêtes. Notez que beaucoup moins d'instances sont nécessaires pour gérer le même volume de requêtes.

Avec une simultanéité définie sur 80

Étape suivante

Pour gérer le nombre maximal de requêtes simultanées par instance de vos services Cloud Run, consultez la page Définir le nombre maximal de requêtes simultanées par instance.

Pour optimiser le nombre maximal de requêtes simultanées par instance, consultez les conseils de développement pour le réglage de la simultanéité.