Cantidad máxima de solicitudes simultáneas por instancia (servicios)

Para comprender la configuración máxima de solicitudes simultáneas por instancia, lee el documento conceptual.

Cualquier cambio en la configuración conlleva la creación de una revisión nueva. Las revisiones posteriores también adoptarán esta configuración de manera automática, a menos que realices actualizaciones explícitas para cambiarla.

Para los servicios de Cloud Run, puedes establecer solicitudes simultáneas máximas por instancia mediante la consola de Cloud, la línea de comandos de gcloud o un archivo .yaml cuando creas un servicio nuevo o implementas una revisión nueva:

Consola

  1. En la consola de Google Cloud ve a Cloud Run:

    Ir a Cloud Run

  2. Haz clic en Crear servicio si quieres configurar un servicio nuevo en el que realizarás la implementación. Si quieres configurar un servicio existente, haz clic en el servicio y, luego, en implementar y editar la nueva revisión.

  3. Si configuras un servicio nuevo, completa la página de configuración del servicio inicial como desees y haz clic en Contenedor, herramientas de redes, seguridad para expandir la página de configuración del servicio.

  4. Haz clic en la pestaña Contenedor.

    imagen

    • Establece la cantidad máxima deseada de solicitudes simultáneas por valor de instancia en el cuadro de texto Máximo de solicitudes por contenedor.
  5. Haz clic en Crear o Implementar.

Línea de comandos

Para establecer el máximo de solicitudes simultáneas por instancia, usa el siguiente comando:

gcloud run services update SERVICE --concurrency CONCURRENCY

Reemplazar

  • SERVICE por el nombre de tu servicio
  • CONCURRENCY por la cantidad máxima de solicitudes simultáneas por instancia Por ejemplo, lo siguiente establece un máximo de 1 solicitud simultánea:

    gcloud run services update SERVICE --concurrency 1

Si cambias la cantidad máxima de solicitudes simultáneas por instancia de un servicio determinado, las revisiones posteriores adoptarán esta configuración.

Para volver a la cantidad máxima predeterminada de solicitudes simultáneas por instancia (80), usa el comando

gcloud run services update SERVICE --concurrency default

Reemplaza SERVICE por el nombre del servicio que estás configurando.

YAML

Puedes descargar y ver las configuraciones del servicio existente mediante el comando gcloud run services describe --format export, que genera resultados limpios en formato YAML. Luego, puedes modificar los campos que se describen a continuación y subir el YAML modificado mediante el comando gcloud run services replace. Asegúrate de modificar los campos tal como se indica en la documentación.

  1. Para ver y descargar la configuración, ejecuta el siguiente comando:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Actualiza el atributo containerConcurrency:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
    spec:
      template:
        metadata:
          name: REVISION
        spec:
          containerConcurrency: CONCURRENCY

    Reemplaza los siguientes elementos:

    • SERVICE por el nombre del servicio de Cloud Run
    • IMAGE_URL por una referencia a la imagen del contenedor, como us-docker.pkg.dev/cloudrun/container/hello:latest Si usas Artifact Registry, el repositorio REPO_NAME debe estar creado. La URL tiene el formato REGION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG.
    • CONCURRENCY por la cantidad máxima de solicitudes simultáneas por instancia
    • REVISION por un nombre de revisión nuevo o bórralo (si está presente). Si proporcionas un nuevo nombre de revisión, debe cumplir con los siguientes criterios:
      • Comienza con SERVICE-
      • Solo contiene letras minúsculas, números y -
      • No termina con -
      • No supera los 63 caracteres
  3. Reemplaza el servicio por la configuración nueva mediante el comando siguiente:

    gcloud run services replace service.yaml

Terraform

Si deseas obtener más información para aplicar o quitar una configuración de Terraform, consulta los comandos básicos de Terraform.

Agrega lo siguiente a un recurso google_cloud_run_v2_service en la configuración de Terraform, en template. Reemplaza 80 por la cantidad máxima de solicitudes simultáneas que deseas.

resource "google_cloud_run_v2_service" "default" {
  name     = "cloudrun-service-concurrency"
  location = "us-central1"

  template {
    containers {
      image = "us-docker.pkg.dev/cloudrun/container/hello"
    }
    # Maximum concurrent requests
    max_instance_request_concurrency = 80
  }
}

Visualiza la configuración de simultaneidad

Para ver la configuración de simultaneidad actual del servicio de Cloud Run, sigue estos pasos:

Consola

  1. En la consola de Google Cloud ve a Cloud Run:

    Ir a Cloud Run

  2. Haz clic en el servicio que te interesa para abrir la página Detalles del servicio.

  3. Haz clic en la pestaña Revisiones (Revisions).

  4. En el panel de detalles a la derecha, la configuración de simultaneidad aparece en la pestaña Contenedor.

Línea de comandos

  1. Usa el siguiente comando:

    gcloud run services describe SERVICE
  2. Busca la configuración de simultaneidad en la configuración mostrada.