Redundanza zonale delle GPU per i servizi

Questa pagina descrive come impostare le opzioni di ridondanza zonale per le GPU per il servizio Cloud Run. Per impostazione predefinita, le GPU hanno la ridondanza zonale abilitata, pertanto i dati e il traffico vengono bilanciati automaticamente tra le zone all'interno di una regione. In caso di guasto all'interno di una determinata zona, il traffico viene indirizzato automaticamente ad altre zone.

Se invece vuoi utilizzare l'affidabilità best effort a un costo per secondo GPU inferiore, disattiva la ridondanza zonale per la GPU.

Aree geografiche supportate

  • us-central1 (Iowa) icona foglia Bassi livelli di CO2
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgio) icona foglia Basso livello di CO2
  • europe-west4 (Paesi Bassi) icona foglia Basso livello di CO2
  • asia-south1 (Mumbai)
    • Nota: questa regione è disponibile solo su invito. Contatta il team dedicato all'Account Google se ti interessa questa regione

Impatto sui prezzi

Per informazioni dettagliate sui prezzi delle GPU per il costo della ridondanza zonale, consulta la pagina Prezzi di Cloud Run.

Quota per le richieste

Per impostazione predefinita, non è prevista alcuna quota per la ridondanza zonale o la ridondanza zonale. Dovrai richiedere la quota. Utilizza i link forniti nei seguenti pulsanti per richiedere la quota di cui hai bisogno.

Quota necessaria Link alla quota
GPU con ridondanza zonale attivata Richiedi una quota di GPU con ridondanza a livello di zona
GPU con la ridondanza zonale disattivata Richiedi una quota di GPU senza ridondanza zonale
Pagina della quota di GPU (redundanza sia a livello di zona che non a livello di zona) Richiedi una quota di GPU

Prima di iniziare

Il seguente elenco descrive i requisiti e le limitazioni per l'utilizzo delle GPU in Cloud Run:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Run API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per configurare ed eseguire il deployment dei servizi Cloud Run, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per un elenco dei ruoli e delle autorizzazioni IAM associati a Cloud Run, consulta Ruoli IAM di Cloud Run e Autorizzazioni IAM di Cloud Run. Se il servizio Cloud Run interagisce conGoogle Cloud API, come le librerie client di Cloud, consulta la guida alla configurazione dell'identità di servizio. Per ulteriori informazioni sulla concessione dei ruoli, consulta le autorizzazioni di deployment e gestisci l'accesso.

Configura la ridondanza zonale per un servizio Cloud Run con GPU

Qualsiasi modifica alla configurazione comporta la creazione di una nuova revisione. Anche le revisioni successive acquisiranno automaticamente questa impostazione di configurazione, a meno che non apporti aggiornamenti espliciti per modificarla.

Puoi utilizzare la console Google Cloud, Google Cloud CLI o YAML per configurare la GPU.

Console

  1. Nella Google Cloud console, vai a Cloud Run:

    Vai a Cloud Run

  2. Fai clic su Esegui il deployment del contenitore e seleziona Servizio per configurare un nuovo servizio. Se stai configurando un servizio esistente, fai clic sul servizio, poi su Modifica ed esegui il deployment di una nuova revisione.

  3. Se stai configurando un nuovo servizio, compila la pagina iniziale delle impostazioni del servizio, quindi fai clic su Container, volumi, networking, sicurezza per espandere la pagina di configurazione del servizio.

  4. Fai clic sulla scheda Contenitore.

    immagine

    • Seleziona la casella di controllo GPU per visualizzare le opzioni di redundanza GPU.
      • Seleziona Nessuna ridondanza zonale per disattivare la ridondanza zonale.
      • Seleziona Redundanza zonale per attivare la ridondanza zonale.
  5. Fai clic su Crea o Esegui il deployment.

gcloud

Per impostazione predefinita, la ridondanza zonale della GPU è attiva. Per disattivare la configurazione della ridondanza zonale delle GPU per un servizio o per riattivarla se l'hai disattivata in precedenza, utilizza il comando gcloud beta run services update:

  gcloud beta run services update SERVICE \
    --image IMAGE_URL \
    --cpu CPU \
    --memory MEMORY \
    --no-cpu-throttling \
    --gpu GPU_NUMBER \
    --gpu-type GPU_TYPE \
    --max-instances MAX_INSTANCE
    --GPU_ZONAL_REDUNDANCY
    

Sostituisci:

  • SERVICE con il nome del servizio Cloud Run.
  • IMAGE_URL con un riferimento all'immagine del container, ad esempio us-docker.pkg.dev/cloudrun/container/hello:latest. Se utilizzi Artifact Registry, il repository REPO_NAME deve essere già stato creato. L'URL ha la forma LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG .
  • CPU con il numero di CPU. Devi specificare almeno 4 CPU.
  • MEMORY con la quantità di memoria. Devi specificare almeno 16Gi (16 GB).
  • GPU_NUMBER con il valore 1 (uno). Se non è specificato, ma è presente un valore GPU_TYPE, il valore predefinito è 1.
  • GPU_TYPE con il tipo di GPU. Se non è specificato, ma è presente un valore GPU_NUMBER, il valore predefinito è nvidia-l4 (L minuscola nvidia L4, non il valore numerico quattordici).
  • MAX_INSTANCE con il numero massimo di istanze. Questo numero non può superare la quota di GPU allocata per il progetto.
  • GPU_ZONAL_REDUNDANCY con no-gpu-zonal-redundancy per disattivare la ridondanza zonale o gpu-zonal-redundancy per attivarla.

YAML

  1. Se stai creando un nuovo servizio, salta questo passaggio. Se stai aggiornando un servizio esistente, scarica la relativa configurazione YAML:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Aggiorna l'annotazione run.googleapis.com/gpu-zonal-redundancy-disabled:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
      annotations:
        run.googleapis.com/launch-stage: BETA
    spec:
      template:
        metadata:
          annotations:
            run.googleapis.com/gpu-zonal-redundancy-disabled: GPU_ZONAL_REDUNDANCY
            

    Sostituisci:

    • SERVICE con il nome del servizio Cloud Run.
    • GPU_ZONAL_REDUNDANCY con false per attivare la ridondanza GPU a livello di zona o true per disattivarla.
  3. Crea o aggiorna il servizio utilizzando il seguente comando:

    gcloud run services replace service.yaml