Establece la cantidad máxima de solicitudes simultáneas por instancia (servicios)

Para comprender la configuración máxima de solicitudes simultáneas por instancia, lee el documento conceptual.

Roles obligatorios

Para obtener los permisos que necesitas para configurar y, luego, implementar los servicios de Cloud Run, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para obtener una lista de los roles y los permisos de IAM asociados con Cloud Run, consulta Roles de IAM de Cloud Run y Permisos de IAM de Cloud Run. Si tu servicio de Cloud Run interactúa con las APIs de Google Cloud, como las bibliotecas cliente de Cloud, consulta la guía de configuración de identidades del servicio. Para obtener más información sobre cómo otorgar roles, consulta permisos de implementación y administra el acceso.

Configura la cantidad máxima de solicitudes simultáneas por instancia

Cualquier cambio en la configuración conlleva la creación de una revisión nueva. Las revisiones posteriores también adoptarán esta configuración de manera automática, a menos que realices actualizaciones explícitas para cambiarla.

Para los servicios de Cloud Run, puedes establecer solicitudes simultáneas máximas por instancia mediante la consola de Cloud, la línea de comandos de gcloud o un archivo .yaml cuando creas un servicio nuevo o implementas una revisión nueva:

Console

  1. En la consola de Google Cloud ve a Cloud Run:

    Ir a Cloud Run

  2. Haz clic en Crear servicio si quieres configurar un servicio nuevo en el que realizarás la implementación. Si quieres configurar un servicio existente, haz clic en el servicio y, luego, en implementar y editar la nueva revisión.

  3. Si configuras un servicio nuevo, completa la página de configuración del servicio inicial como desees y haz clic en Contenedor, herramientas de redes, seguridad para expandir la página de configuración del servicio.

  4. Haz clic en la pestaña Contenedor.

    imagen

    • Establece la cantidad máxima deseada de solicitudes simultáneas por valor de instancia en el cuadro de texto Máximo de solicitudes por contenedor.
  5. Haz clic en Crear o Implementar.

gcloud

Para establecer el máximo de solicitudes simultáneas por instancia, usa el siguiente comando:

gcloud run services update SERVICE --concurrency CONCURRENCY

Reemplazar

  • SERVICE por el nombre de tu servicio
  • CONCURRENCY por la cantidad máxima de solicitudes simultáneas por instancia Por ejemplo, lo siguiente establece un máximo de 1 solicitud simultánea:

    gcloud run services update SERVICE --concurrency 1

Si cambias la cantidad máxima de solicitudes simultáneas por instancia de un servicio determinado, las revisiones posteriores adoptarán esta configuración.

Para volver a la cantidad máxima predeterminada de solicitudes simultáneas por instancia (80), usa el comando

gcloud run services update SERVICE --concurrency default

Reemplaza SERVICE por el nombre del servicio que estás configurando.

YAML

  1. Si creas un servicio nuevo, omite este paso. Si actualizas un servicio existente, descarga su configuración de YAML:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Actualiza el atributo containerConcurrency:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
    spec:
      template:
        metadata:
          name: REVISION
        spec:
          containerConcurrency: CONCURRENCY

    Reemplazar

    • SERVICE por el nombre del servicio de Cloud Run
    • IMAGE_URL por una referencia a la imagen del contenedor, como us-docker.pkg.dev/cloudrun/container/hello:latest Si usas Artifact Registry, el repositorio REPO_NAME debe estar creado. La URL tiene el formato LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG.
    • CONCURRENCY por la cantidad máxima de solicitudes simultáneas por instancia
    • REVISION por un nombre de revisión nuevo o bórralo (si está presente). Si proporcionas un nuevo nombre de revisión, debe cumplir con los siguientes criterios:
      • Comienza con SERVICE-
      • Solo contiene letras minúsculas, números y -
      • No termina con -
      • No supera los 63 caracteres
  3. Crea o actualiza el servicio con el siguiente comando:

    gcloud run services replace service.yaml

Terraform

Si deseas obtener más información para aplicar o quitar una configuración de Terraform, consulta los comandos básicos de Terraform.

Agrega lo siguiente a un recurso google_cloud_run_v2_service en la configuración de Terraform, en template. Reemplaza 80 por la cantidad máxima de solicitudes simultáneas que deseas.

resource "google_cloud_run_v2_service" "default" {
  name     = "cloudrun-service-concurrency"
  location = "us-central1"

  template {
    containers {
      image = "us-docker.pkg.dev/cloudrun/container/hello"
    }
    # Maximum concurrent requests
    max_instance_request_concurrency = 80
  }
}

Visualiza la configuración de simultaneidad

Para ver la configuración de simultaneidad actual del servicio de Cloud Run, sigue estos pasos:

Console

  1. En la consola de Google Cloud ve a Cloud Run:

    Ir a Cloud Run

  2. Haz clic en el servicio que te interesa para abrir la página Detalles del servicio.

  3. Haz clic en la pestaña Revisiones (Revisions).

  4. En el panel de detalles a la derecha, la configuración de simultaneidad aparece en la pestaña Contenedor.

gcloud

  1. Usa el siguiente comando:

    gcloud run services describe SERVICE
  2. Busca la configuración de simultaneidad en la configuración mostrada.