Redundância zonal de GPU para serviços

Esta página descreve como definir opções de redundância zonal para GPU no seu serviço do Cloud Run. Por padrão, as GPUs têm a redundância zonal ativada para que os dados e o tráfego sejam balanceados automaticamente entre as zonas de uma região. No caso de uma falha em uma zona específica, o tráfego é roteado automaticamente para outras zonas.

Se você quiser usar a confiabilidade de melhor esforço com um custo por segundo de GPU mais baixo, desative a redundância zonal para a GPU.

Regiões compatíveis

  • us-central1 (Iowa) Ícone de folha Baixo CO2
  • asia-southeast1 (Singapura)
  • europe-west1 (Bélgica) Ícone de folha Baixo CO2
  • europe-west4 (Países Baixos) Ícone de folha Baixo CO2
  • asia-south1 (Mumbai)
    • Observação:essa região está disponível apenas por convite. Entre em contato com sua Equipe de Contas do Google se tiver interesse nessa região

Impacto no preço

Consulte os detalhes de preços de GPU em Preços do Cloud Run para saber o custo da redundância zonal.

Solicitação de cotas

Por padrão, não há cota para redundância zonal ou de zona. Você vai precisar solicitar a cota. Use os links fornecidos nos botões abaixo para solicitar a cota necessária.

cota necessária Link da cota
GPU com redundância zonal ativada Solicitar cota de GPU com redundância zonal
GPU com redundância zonal desativada Solicitar cota de GPU sem redundância zonal
Página de cotas de GPUs (redundância zonal e não zonal) Solicitar cota de GPU

Antes de começar

A lista a seguir descreve os requisitos e as limitações ao usar GPUs no Cloud Run:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Run API.

    Enable the API

Funções exigidas

Para receber as permissões necessárias para configurar e implantar os serviços do Cloud Run, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para uma lista de papéis e permissões do IAM associados ao Cloud Run, consulte Papéis do IAM do Cloud Run e Permissões do IAM do Cloud Run. Se o serviço do Cloud Run interagir com APIsGoogle Cloud , como as bibliotecas de cliente do Cloud, consulte o guia de configuração de identidade de serviço. Para mais informações sobre como conceder papéis, consulte permissões de implantação e gerenciar acesso.

Configurar a redundância zonal para um serviço do Cloud Run com GPU

Qualquer mudança na configuração leva à criação de uma nova revisão. As próximas revisões também recebem automaticamente essa configuração, a menos que você faça atualizações explícitas para alterá-la.

É possível usar o console do Google Cloud, a CLI do Google Cloud ou o YAML para configurar a GPU.

Console

  1. No Google Cloud console, acesse o Cloud Run:

    Acessar o Cloud Run

  2. Clique em Implantar contêiner e selecione Serviço para configurar um novo serviço. Se você estiver configurando um serviço atual, clique nele e em Editar e implantar nova revisão.

  3. Ao configurar um novo serviço, preencha a página inicial de configurações de serviço conforme preferir e clique em Contêineres, volumes, redes e segurança para expandir essa página.

  4. Clique na guia Contêiner.

    imagem

    • Marque a caixa de seleção da GPU para mostrar as opções de redundância de GPU.
      • Selecione Nenhuma redundância na zona para desativar a redundância na zona.
      • Selecione Redundância zonal para ativar a redundância zonal.
  5. Clique em Criar ou Implantar.

gcloud

A redundância zonal da GPU fica ativada por padrão. Para desativar a configuração de redundância zonal de GPU de um serviço ou reativá-la se você a desativou, use o comando gcloud beta run services update:

  gcloud beta run services update SERVICE \
    --image IMAGE_URL \
    --cpu CPU \
    --memory MEMORY \
    --no-cpu-throttling \
    --gpu GPU_NUMBER \
    --gpu-type GPU_TYPE \
    --max-instances MAX_INSTANCE
    --GPU_ZONAL_REDUNDANCY
    

Substitua:

  • SERVICE pelo nome do serviço do Cloud Run;
  • IMAGE_URL por uma referência à imagem de contêiner. Por exemplo, us-docker.pkg.dev/cloudrun/container/hello:latest. Se você usa o Artifact Registry, o repositório REPO_NAME já precisará ter sido criado. O URL tem o formato LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
  • CPU pelo número de CPUs. É necessário especificar pelo menos 4 CPU.
  • MEMORY pela quantidade de memória. É necessário especificar pelo menos 16Gi (16 GiB).
  • GPU_NUMBER com o valor 1 (um). Se isso não for especificado, mas um GPU_TYPE estiver presente, o padrão será 1.
  • GPU_TYPE com o tipo de GPU. Se isso não for especificado, mas um GPU_NUMBER estiver presente, o padrão será nvidia-l4 (nvidia L4 L minúsculo, não o valor numérico 14).
  • MAX_INSTANCE pelo número máximo de instâncias. Esse número não pode exceder a cota de GPU alocada para o projeto.
  • GPU_ZONAL_REDUNDANCY com no-gpu-zonal-redundancy para desativar a redundância zonal ou gpu-zonal-redundancy para ativar.

YAML

  1. Se você estiver criando um novo serviço, pule esta etapa. Se você estiver atualizando um serviço, faça o download da configuração YAML correspondente:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Atualize a anotação run.googleapis.com/gpu-zonal-redundancy-disabled:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
      annotations:
        run.googleapis.com/launch-stage: BETA
    spec:
      template:
        metadata:
          annotations:
            run.googleapis.com/gpu-zonal-redundancy-disabled: GPU_ZONAL_REDUNDANCY
            

    Substitua:

    • SERVICE pelo nome do serviço do Cloud Run;
    • GPU_ZONAL_REDUNDANCY com false para ativar a redundância zonal de GPU ou true para desativar.
  3. Crie ou atualize o serviço usando o seguinte comando:

    gcloud run services replace service.yaml