Redundansi zona GPU untuk layanan

Halaman ini menjelaskan cara menetapkan opsi redundansi zona untuk GPU untuk layanan Cloud Run Anda. Secara default, GPU mengaktifkan redundansi zona sehingga data dan traffic akan otomatis di-load balanced di seluruh zona dalam satu region. Jika terjadi kegagalan dalam zona tertentu, traffic akan otomatis dirutekan ke zona lain.

Jika Anda ingin menggunakan keandalan upaya terbaik dengan biaya per detik GPU yang lebih rendah, nonaktifkan redundansi zonal untuk GPU.

Region yang didukung

  • us-central1 (Iowa) ikon daun CO2 Rendah
  • asia-southeast1 (Singapura)
  • europe-west1 (Belgia) ikon daun CO2 Rendah
  • europe-west4 (Belanda) ikon daun CO2 Rendah
  • asia-south1 (Mumbai)
    • Catatan: Region ini hanya tersedia melalui undangan. Hubungi tim Akun Google Anda jika Anda tertarik dengan wilayah ini

Dampak harga

Lihat Harga Cloud Run untuk mengetahui detail harga GPU terkait biaya redundansi zona.

Kuota permintaan

Secara default, tidak ada kuota untuk redundansi zonal atau redundansi zonal. Anda harus meminta kuota. Gunakan link yang disediakan di tombol berikut untuk meminta kuota yang Anda perlukan.

Kuota diperlukan Link kuota
GPU dengan redundansi zonal diaktifkan Meminta kuota GPU dengan redundansi zonal
GPU dengan redundansi zonal dinonaktifkan Meminta kuota GPU tanpa redundansi zonal
Halaman kuota GPU (redundansi zonal dan non-zonal) Meminta kuota GPU

Sebelum memulai

Daftar berikut menjelaskan persyaratan dan batasan saat menggunakan GPU di Cloud Run:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Run API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk mengonfigurasi dan men-deploy layanan Cloud Run, minta administrator untuk memberi Anda peran IAM berikut:

Untuk mengetahui daftar peran dan izin IAM yang terkait dengan Cloud Run, lihat Peran IAM Cloud Run dan Izin IAM Cloud Run. Jika layanan Cloud Run Anda berinteraksi dengan Google Cloud API, seperti Library Klien Cloud, lihat panduan konfigurasi identitas layanan. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat izin deployment dan mengelola akses.

Mengonfigurasi redundansi zonal untuk layanan Cloud Run yang memiliki GPU

Setiap perubahan konfigurasi akan menghasilkan revisi baru. Revisi selanjutnya juga akan otomatis mendapatkan setelan konfigurasi ini, kecuali jika Anda melakukan pembaruan eksplisit untuk mengubahnya.

Anda dapat menggunakan konsol Google Cloud, Google Cloud CLI, atau YAML untuk mengonfigurasi GPU.

Konsol

  1. Di konsol Google Cloud , buka Cloud Run:

    Buka Cloud Run

  2. Klik Deploy container dan pilih Service untuk mengonfigurasi layanan baru. Jika Anda mengonfigurasi layanan yang sudah ada, klik layanan, lalu klik Edit dan deploy revisi baru.

  3. Jika Anda mengonfigurasi layanan baru, isi halaman setelan layanan awal, lalu klik Container, volume, networking, security untuk memperluas halaman konfigurasi layanan.

  4. Klik tab Container.

    gambar

    • Centang kotak GPU untuk menampilkan opsi redundansi GPU.
      • Pilih Tidak ada redundansi zona untuk menonaktifkan redundansi zona
      • Pilih Zonal redundancy untuk mengaktifkan redundansi zona.
  5. Klik Buat atau Deploy.

gcloud

Secara default, redundansi zonal GPU diaktifkan. Untuk menonaktifkan konfigurasi redundansi zonal GPU untuk layanan, atau mengaktifkannya kembali jika Anda sebelumnya telah menonaktifkan redundansi zonal, gunakan perintah gcloud beta run services update:

  gcloud beta run services update SERVICE \
    --image IMAGE_URL \
    --cpu CPU \
    --memory MEMORY \
    --no-cpu-throttling \
    --gpu GPU_NUMBER \
    --gpu-type GPU_TYPE \
    --max-instances MAX_INSTANCE
    --GPU_ZONAL_REDUNDANCY
    

Ganti:

  • SERVICE dengan nama layanan Cloud Run Anda.
  • IMAGE_URL dengan referensi ke image container, misalnya, us-docker.pkg.dev/cloudrun/container/hello:latest. Jika Anda menggunakan Artifact Registry, repositori REPO_NAME harus sudah dibuat. URL memiliki bentuk LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG .
  • CPU dengan jumlah CPU. Anda harus menentukan minimal 4 CPU.
  • MEMORY dengan jumlah memori. Anda harus menentukan minimal 16Gi (16 GiB).
  • GPU_NUMBER dengan nilai 1 (satu). Jika tidak ditentukan, tetapi GPU_TYPE ada, defaultnya adalah 1.
  • GPU_TYPE dengan jenis GPU. Jika tidak ditentukan, tetapi GPU_NUMBER ada, default-nya adalah nvidia-l4 (nvidia L4 huruf kecil L, bukan nilai numerik empat belas).
  • MAX_INSTANCE dengan jumlah maksimum instance. Jumlah ini tidak boleh melebihi kuota GPU yang dialokasikan untuk project Anda.
  • GPU_ZONAL_REDUNDANCY dengan no-gpu-zonal-redundancy untuk menonaktifkan redundansi zonal, atau gpu-zonal-redundancy untuk mengaktifkan redundansi zonal.

YAML

  1. Jika Anda membuat layanan baru, lewati langkah ini. Jika Anda mengupdate layanan yang sudah ada, download konfigurasi YAML-nya:

    gcloud run services describe SERVICE --format export > service.yaml
  2. Update anotasi run.googleapis.com/gpu-zonal-redundancy-disabled:

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
      annotations:
        run.googleapis.com/launch-stage: BETA
    spec:
      template:
        metadata:
          annotations:
            run.googleapis.com/gpu-zonal-redundancy-disabled: GPU_ZONAL_REDUNDANCY
            

    Ganti:

    • SERVICE dengan nama layanan Cloud Run Anda.
    • GPU_ZONAL_REDUNDANCY dengan false untuk mengaktifkan redundansi zona GPU, atau true untuk menonaktifkannya.
  3. Buat atau perbarui layanan menggunakan perintah berikut:

    gcloud run services replace service.yaml