Numero massimo di richieste in parallelo per istanza (servizi)

Per comprendere l'impostazione del numero massimo di richieste in parallelo per istanza, leggi il documento concettuale.

Qualsiasi modifica alla configurazione comporta la creazione di una nuova revisione. Anche per le revisioni successive verrà applicata automaticamente questa impostazione di configurazione, a meno che non apporti aggiornamenti espliciti per modificarla.

Per i servizi Cloud Run, puoi impostare il numero massimo di richieste in parallelo per istanza utilizzando la console Google Cloud, la riga di comando gcloud o un file .yaml quando crei un nuovo servizio o esegui il deployment di una nuova revisione:

Console

  1. Nella console Google Cloud, vai a Cloud Run:

    Vai a Cloud Run

  2. Fai clic su Crea servizio se stai configurando un nuovo servizio in cui stai eseguendo il deployment. Se stai configurando un servizio esistente, fai clic sul servizio e poi su Modifica ed esegui il deployment di nuova revisione.

  3. Se stai configurando un nuovo servizio, compila la pagina iniziale delle impostazioni del servizio in base alle tue esigenze, quindi fai clic su Container, volumi, networking, sicurezza per espandere la pagina di configurazione del servizio.

  4. Fai clic sulla scheda Contenitore.

    immagine

    • Imposta il valore massimo di richieste in parallelo desiderato per istanza nella casella di testo Richieste massime per container.
  5. Fai clic su Crea o Esegui il deployment.

Riga di comando

Per impostare il numero massimo di richieste in parallelo per istanza, utilizza il comando seguente:

gcloud run services update SERVICE --concurrency CONCURRENCY

Sostituisci

  • SERVICE con il nome del servizio.
  • CONCURRENCY con il numero massimo di richieste in parallelo per istanza. Ad esempio, quanto segue imposta un massimo di 1 richiesta in parallelo:

    gcloud run services update SERVICE --concurrency 1

La modifica del numero massimo di richieste in parallelo per istanza di un determinato servizio acquisirà questa impostazione in una nuova revisione.

Per ripristinare il numero massimo di richieste in parallelo predefinito per istanza (80), utilizza il comando

gcloud run services update SERVICE --concurrency default

Sostituisci SERVICE con il nome del servizio che stai configurando.

YAML

Puoi scaricare e visualizzare le configurazioni di servizio esistenti utilizzando il comando gcloud run services describe --format export, che restituisce risultati puliti in formato YAML. Puoi quindi modificare i campi descritti di seguito e caricare il file YAML modificato utilizzando il comando gcloud run services replace. Assicurati di modificare i campi solo come documentato.

  1. Per visualizzare e scaricare la configurazione:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Aggiorna l'attributo containerConcurrency:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
    spec:
      template:
        metadata:
          name: REVISION
        spec:
          containerConcurrency: CONCURRENCY

    Sostituisci

    • SERVICE con il nome del tuo servizio Cloud Run
    • IMAGE_URL con un riferimento all'immagine container, ad esempio us-docker.pkg.dev/cloudrun/container/hello:latest. Se utilizzi Artifact Registry, è necessario già creare il repository REPO_NAME. L'URL ha la forma REGION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
    • CONCURRENCY con il numero massimo di richieste in parallelo per istanza.
    • REVISION con un nuovo nome di revisione oppure eliminala (se presente). Se specifichi un nuovo nome, la revisione deve soddisfare i seguenti criteri:
      • Inizia con SERVICE-
      • Contiene solo lettere minuscole, numeri e -
      • Non termina con -
      • Non supera i 63 caratteri
  3. Sostituisci il servizio con la nuova configurazione utilizzando il seguente comando:

    gcloud run services replace service.yaml

Terraform

Per scoprire come applicare o rimuovere una configurazione Terraform, consulta Comandi Terraform di base.

Aggiungi quanto segue a una risorsa google_cloud_run_v2_service nella tua configurazione Terraform, in template. Sostituisci 80 con il numero massimo di richieste in parallelo desiderato.

resource "google_cloud_run_v2_service" "default" {
  name     = "cloudrun-service-concurrency"
  location = "us-central1"

  template {
    containers {
      image = "us-docker.pkg.dev/cloudrun/container/hello"
    }
    # Maximum concurrent requests
    max_instance_request_concurrency = 80
  }
}

Visualizza impostazioni di contemporaneità

Per visualizzare le impostazioni di contemporaneità attuali per il tuo servizio Cloud Run:

Console

  1. Nella console Google Cloud, vai a Cloud Run:

    Vai a Cloud Run

  2. Fai clic sul servizio che ti interessa per aprire la pagina Dettagli servizio.

  3. Fai clic sulla scheda Revisioni.

  4. Nel riquadro dei dettagli a destra, l'impostazione di contemporaneità è elencata nella scheda Container.

Riga di comando

  1. Utilizza il seguente comando:

    gcloud run services describe SERVICE
  2. Individua l'impostazione di contemporaneità nella configurazione restituita.