Máximo de solicitações simultâneas por instância (serviços)

Para entender o máximo de solicitações simultâneas por instância, leia o documento de conceitos.

Qualquer mudança na configuração leva à criação de uma nova revisão. As próximas revisões também recebem automaticamente essa configuração, a menos que você faça atualizações explícitas para alterá-la.

Para os serviços do Cloud Run, é possível definir o máximo de solicitações simultâneas por instância usando o console do Google Cloud, a linha de comando gcloud ou um arquivo .yaml ao criar um novo serviço ou implantar uma nova revisão:

Console

  1. No console do Google Cloud, acesse o Cloud Run:

    Acesse o Cloud Run

  2. Clique em Criar serviço se estiver configurando um novo serviço em que fará uma implantação. Se você estiver configurando um serviço atual, clique nele e em Editar e implantar nova revisão.

  3. Se você estiver configurando um novo serviço, preencha a página inicial de configurações do serviço conforme preferir e clique em Contêineres, volumes, rede, segurança para expandir a página de configurações do serviço.

  4. Clique na guia Contêiner.

    imagem

    • Defina o máximo de solicitações simultâneas por valor de instância na caixa de texto Máximo de solicitações por contêiner.
  5. Clique em Criar ou Implantar.

Linha de comando

Para definir o máximo de solicitações simultâneas por instância, use o seguinte comando:

gcloud run services update SERVICE --concurrency CONCURRENCY

Substitua

  • SERVICE pelo nome do serviço;
  • CONCURRENCY pelo número máximo de solicitações simultâneas por instância. Por exemplo, o comando a seguir define um máximo de 1 solicitações simultâneas:

    gcloud run services update SERVICE --concurrency 1

Alterar o número máximo de solicitações simultâneas por instância de um determinado serviço captura essa configuração em uma nova revisão.

Para reverter para o máximo de solicitações simultâneas padrão por instância (80), use o comando

gcloud run services update SERVICE --concurrency default

Substitua SERVICE pelo nome do serviço que você está configurando.

YAML

É possível fazer o download e conferir as configurações de serviço usando o comando gcloud run services describe --format export, que produz resultados limpos no formato YAML. Em seguida, modifique os campos descritos abaixo e faça upload do YAML modificado usando o comando gcloud run services replace. Modifique os campos somente conforme documentado.

  1. Para visualizar e fazer o download da configuração:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Atualize o atributo containerConcurrency:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
    spec:
      template:
        metadata:
          name: REVISION
        spec:
          containerConcurrency: CONCURRENCY

    Substituir

    • SERVICE pelo nome do serviço do Cloud Run;
    • IMAGE_URL por uma referência à imagem de contêiner. Por exemplo, us-docker.pkg.dev/cloudrun/container/hello:latest. Se você usa o Artifact Registry, o repositório REPO_NAME já precisará ter sido criado. O URL tem o formato REGION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
    • CONCURRENCY pelo número máximo de solicitações simultâneas por instância.
    • REVISION por um novo nome de revisão ou excluí-lo (se houver). Se você fornecer um novo nome de revisão, ele precisará atender aos seguintes critérios:
      • Começa com SERVICE-
      • Contém apenas letras minúsculas, números e -
      • Não termina com um -
      • Não excede 63 caracteres
  3. Substitua o serviço pela nova configuração usando o seguinte comando:

    gcloud run services replace service.yaml

Terraform

Para saber como aplicar ou remover uma configuração do Terraform, consulte Comandos básicos do Terraform.

Adicione o seguinte a um recurso google_cloud_run_v2_service em template na configuração do Terraform. Substitua 80 pelo número máximo desejado de solicitações simultâneas.

resource "google_cloud_run_v2_service" "default" {
  name     = "cloudrun-service-concurrency"
  location = "us-central1"

  template {
    containers {
      image = "us-docker.pkg.dev/cloudrun/container/hello"
    }
    # Maximum concurrent requests
    max_instance_request_concurrency = 80
  }
}

Ver configurações de simultaneidade

Para ver as configurações de simultaneidade atuais do serviço do Cloud Run:

Console

  1. No console do Google Cloud, acesse o Cloud Run:

    Acesse o Cloud Run

  2. Clique no serviço de seu interesse para abrir a página Detalhes do serviço.

  3. Clique na guia Revisões.

  4. No painel de detalhes à direita, a configuração de simultaneidade está listada na guia Contêiner.

Linha de comando

  1. Use o comando a seguir:

    gcloud run services describe SERVICE
  2. Localize a configuração de simultaneidade na configuração retornada.