Men-deploy aplikasi Ray Serve dengan model Difusi Stabil di Google Kubernetes Engine (GKE) dengan TPU


Panduan ini menunjukkan cara men-deploy dan menayangkan model Diffusion Stabil di Google Kubernetes Engine (GKE) menggunakan TPU, Ray Serve, dan add-on Ray Operator.

Panduan ini ditujukan untuk pelanggan Generative AI, pengguna baru atau lama GKE, Engineer ML, Engineer MLOps (DevOps), atau administrator platform yang tertarik menggunakan kemampuan orkestrasi penampung Kubernetes untuk menayangkan model menggunakan Ray.

Tentang Ray dan Ray Serve

Ray adalah framework komputasi skalabel open source untuk aplikasi AI/ML. Ray Serve adalah library penayangan model untuk Ray yang digunakan untuk menskalakan dan menayangkan model di lingkungan terdistribusi. Untuk informasi selengkapnya, lihat Ray Serve dalam dokumentasi Ray.

Tentang TPU

Tensor Processing Unit (TPU) adalah akselerator hardware khusus yang dirancang untuk mempercepat pelatihan dan inferensi model machine learning berskala besar secara signifikan. Menggunakan Ray dengan TPU memungkinkan Anda menskalakan aplikasi ML performa tinggi dengan lancar. Untuk mengetahui informasi selengkapnya tentang TPU, lihat Pengantar Cloud TPU dalam dokumentasi Cloud TPU.

Tentang webhook inisialisasi TPU KubeRay

Sebagai bagian dari add-on Ray Operator, GKE menyediakan webhook yang memvalidasi dan memodifikasi yang menangani penjadwalan Pod TPU dan variabel lingkungan TPU tertentu yang diperlukan oleh framework seperti JAX untuk inisialisasi penampung. Webhook TPU KubeRay memutarbelitkan Pod dengan label app.kubernetes.io/name: kuberay yang meminta TPU dengan properti berikut:

  • TPU_WORKER_ID: Bilangan bulat unik untuk setiap Pod pekerja di slice TPU.
  • TPU_WORKER_HOSTNAMES: Daftar nama host DNS untuk semua pekerja TPU yang perlu berkomunikasi satu sama lain dalam slice. Variabel ini hanya dimasukkan untuk Pod TPU dalam grup multi-host.
  • replicaIndex: Label Pod yang berisi ID unik untuk replika grup pekerja tempat Pod berada. Hal ini berguna untuk grup pekerja multi-host, dengan beberapa Pod pekerja mungkin termasuk dalam replika yang sama, dan digunakan oleh Ray untuk mengaktifkan penskalaan otomatis multi-host.
  • TPU_NAME: String yang mewakili PodSlice TPU GKE tempat Pod ini berada, ditetapkan ke nilai yang sama dengan label replicaIndex.
  • podAffinity: Memastikan GKE menjadwalkan Pod TPU dengan label replicaIndex yang cocok di node pool yang sama. Hal ini memungkinkan GKE menskalakan TPU multi-host secara atomik menurut node pool, bukan node tunggal.

Tujuan

  • Buat cluster GKE dengan node pool TPU.
  • Men-deploy cluster Ray dengan TPU.
  • Deploy resource kustom RayService.
  • Berinteraksi dengan server model Stable Diffusion.

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, lihat Pembersihan.

Sebelum memulai

Cloud Shell telah diinstal sebelumnya dengan software yang Anda perlukan untuk tutorial ini, termasuk kubectl, dan gcloud CLI. Jika Anda tidak menggunakan Cloud Shell, instal gcloud CLI.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Install the Google Cloud CLI.
  3. To initialize the gcloud CLI, run the following command:

    gcloud init
  4. Buat atau pilih project Google Cloud.

    • Membuat project Google Cloud:

      gcloud projects create PROJECT_ID

      Ganti PROJECT_ID dengan nama untuk project Google Cloud yang Anda buat.

    • Pilih project Google Cloud yang Anda buat:

      gcloud config set project PROJECT_ID

      Ganti PROJECT_ID dengan nama project Google Cloud Anda.

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Aktifkan API GKE:

    gcloud services enable container.googleapis.com
  7. Install the Google Cloud CLI.
  8. To initialize the gcloud CLI, run the following command:

    gcloud init
  9. Buat atau pilih project Google Cloud.

    • Membuat project Google Cloud:

      gcloud projects create PROJECT_ID

      Ganti PROJECT_ID dengan nama untuk project Google Cloud yang Anda buat.

    • Pilih project Google Cloud yang Anda buat:

      gcloud config set project PROJECT_ID

      Ganti PROJECT_ID dengan nama project Google Cloud Anda.

  10. Make sure that billing is enabled for your Google Cloud project.

  11. Aktifkan API GKE:

    gcloud services enable container.googleapis.com
  12. Grant roles to your user account. Run the following command once for each of the following IAM roles: roles/container.clusterAdmin, roles/container.admin

    gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE
    • Replace PROJECT_ID with your project ID.
    • Replace USER_IDENTIFIER with the identifier for your user account. For example, user:myemail@example.com.

    • Replace ROLE with each individual role.

Memastikan kuota yang memadai

Pastikan project Google Cloud Anda memiliki kuota TPU yang memadai di zona atau region Compute Engine. Untuk mengetahui informasi selengkapnya, lihat Memastikan kuota TPU dan GKE yang memadai dalam dokumentasi Cloud TPU. Anda mungkin juga perlu meningkatkan kuota untuk:

  • SSD Persistent Disk (GB)
  • Alamat IP yang digunakan

Menyiapkan lingkungan Anda

Untuk menyiapkan lingkungan Anda, ikuti langkah-langkah berikut:

  1. Luncurkan sesi Cloud Shell dari konsol Google Cloud, dengan mengklik Ikon aktivasi Cloud Shell Aktifkan Cloud Shell di konsol Google Cloud. Tindakan ini akan meluncurkan sesi di panel bawah konsol Google Cloud.

  2. Menetapkan variabel lingkungan:

    export PROJECT_ID=PROJECT_ID
    export CLUSTER_NAME=ray-cluster
    export COMPUTE_REGION=us-central2-b
    export CLUSTER_VERSION=CLUSTER_VERSION
    

    Ganti kode berikut:

    • PROJECT_ID: project ID Google Cloud Anda.
    • CLUSTER_VERSION: versi GKE yang akan digunakan. Harus 1.30.1 atau yang lebih baru.
  3. Buat clone repositori GitHub:

    git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples
    
  4. Ubah ke direktori kerja:

    cd kubernetes-engine-samples/ai-ml/gke-ray/rayserve/stable-diffusion
    

Membuat cluster dengan node pool TPU

Buat cluster GKE Standard dengan node pool TPU:

  1. Buat cluster mode Standar dengan Operator Ray yang diaktifkan:

    gcloud container clusters create ${CLUSTER_NAME} \
        --addons=RayOperator \
        --machine-type=n1-standard-8 \
        --cluster-version=${CLUSTER_VERSION} \
        --location=${COMPUTE_REGION}
    
  2. Buat node pool TPU host tunggal:

    gcloud container node-pools create tpu-pool \
        --location=${COMPUTE_REGION} \
        --cluster=${CLUSTER_NAME} \
        --machine-type=ct4p-hightpu-4t \
        --num-nodes=1 \
        --tpu-topology=2x2x1
    

Untuk menggunakan TPU dengan mode Standar, Anda harus memilih:

  • Lokasi Compute Engine dengan kapasitas untuk akselerator TPU
  • Jenis mesin yang kompatibel untuk TPU dan
  • Topologi fisik PodSlice TPU

Mengonfigurasi resource RayCluster dengan TPU

Konfigurasikan manifes RayCluster untuk menyiapkan beban kerja TPU:

Mengonfigurasi TPU nodeSelector

GKE menggunakan nodeSelectors Kubernetes untuk memastikan bahwa beban kerja TPU dijadwalkan pada akselerator dan topologi TPU yang sesuai. Untuk mengetahui informasi selengkapnya tentang cara memilih nodeSelector TPU, lihat Men-deploy workload TPU di GKE Standard.

Perbarui manifes ray-cluster.yaml untuk menjadwalkan Pod Anda di podslice TPU v4 dengan topologi 2x2x1:

nodeSelector:
  cloud.google.com/gke-tpu-accelerator: tpu-v4-podslice
  cloud.google.com/gke-tpu-topology: 2x2x1

Mengonfigurasi resource penampung TPU

Untuk menggunakan akselerator TPU, Anda harus menentukan jumlah chip TPU yang harus dialokasikan GKE ke setiap Pod dengan mengonfigurasi google.com/tpuresource limits dan requests di kolom penampung TPU dari manifes RayCluster workerGroupSpecs.

Perbarui manifes ray-cluster.yaml dengan batas dan permintaan resource:

resources:
  limits:
    cpu: "1"
    ephemeral-storage: 10Gi
    google.com/tpu: "4"
    memory: "2G"
   requests:
    cpu: "1"
    ephemeral-storage: 10Gi
    google.com/tpu: "4"
    memory: "2G"

Mengonfigurasi grup pekerja numOfHosts

KubeRay v1.1.0 menambahkan kolom numOfHosts ke resource kustom RayCluster, yang menentukan jumlah host TPU yang akan dibuat per replika grup pekerja. Untuk grup pekerja multi-host, replika diperlakukan sebagai PodSlice, bukan pekerja individual, dengan node pekerja numOfHosts yang dibuat per replika.

Perbarui manifes ray-cluster.yaml dengan kode berikut:

workerGroupSpecs:
  # Several lines omitted
  numOfHosts: 1 # the number of "hosts" or workers per replica

Membuat resource kustom RayService

Buat resource kustom RayService:

  1. Tinjau manifes berikut:

    apiVersion: ray.io/v1
    kind: RayService
    metadata:
      name: stable-diffusion-tpu
    spec:
      serveConfigV2: |
        applications:
          - name: stable_diffusion
            import_path: ai-ml.gke-ray.rayserve.stable-diffusion.stable_diffusion_tpu:deployment
            runtime_env:
              working_dir: "https://github.com/GoogleCloudPlatform/kubernetes-engine-samples/archive/refs/heads/main.zip"
              pip:
                - diffusers==0.7.2
                - flax
                - jax[tpu]==0.4.11
                - -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
                - fastapi
      rayClusterConfig:
        rayVersion: '2.9.0'
        headGroupSpec:
          rayStartParams: {}
          template:
            spec:
              containers:
              - name: ray-head
                image: rayproject/ray-ml:2.9.0-py310
                ports:
                - containerPort: 6379
                  name: gcs
                - containerPort: 8265
                  name: dashboard
                - containerPort: 10001
                  name: client
                - containerPort: 8000
                  name: serve
                resources:
                  limits:
                    cpu: "2"
                    memory: "8G"
                  requests:
                    cpu: "2"
                    memory: "8G"
        workerGroupSpecs:
        - replicas: 1
          minReplicas: 1
          maxReplicas: 10
          numOfHosts: 1
          groupName: tpu-group
          rayStartParams: {}
          template:
            spec:
              containers:
              - name: ray-worker
                image: rayproject/ray-ml:2.9.0-py310
                resources:
                  limits:
                    cpu: "100"
                    ephemeral-storage: 20Gi
                    google.com/tpu: "4"
                    memory: 200G
                  requests:
                    cpu: "100"
                    ephemeral-storage: 20Gi
                    google.com/tpu: "4"
                    memory: 200G
              nodeSelector:
                cloud.google.com/gke-tpu-accelerator: tpu-v4-podslice
                cloud.google.com/gke-tpu-topology: 2x2x1

    Manifes ini menjelaskan resource kustom RayService yang membuat resource RayCluster dengan 1 node head dan grup pekerja TPU dengan topologi 2x2x1, yang berarti setiap node pekerja akan memiliki 4 chip TPU v4.

    Node TPU termasuk dalam satu podslice TPU v4 dengan topologi 2x2x1. Untuk membuat grup pekerja multi-host, ganti nilai gke-tpu nodeSelector, batas dan permintaan penampung google.com/tpu, serta nilai numOfHosts dengan konfigurasi multi-host Anda. Untuk informasi selengkapnya tentang topologi multi-host TPU, lihat Arsitektur sistem dalam dokumentasi Cloud TPU.

  2. Terapkan manifes ke cluster Anda:

    kubectl apply -f ray-service-tpu.yaml
    
  3. Pastikan resource RayService sedang berjalan:

    kubectl get rayservices
    

    Outputnya mirip dengan hal berikut ini:

    NAME                   SERVICE STATUS   NUM SERVE ENDPOINTS
    stable-diffusion-tpu   Running          2
    

    Dalam output ini, Running di kolom SERVICE STATUS menunjukkan bahwa resource RayService sudah siap.

(Opsional) Melihat Dasbor Ray

Anda dapat melihat deployment Ray Serve dan log yang relevan dari Dasbor Ray.

  1. Buat sesi penerusan port ke dasbor Ray dari layanan head Ray:

    kubectl port-forward svc/stable-diffusion-tpu-head-svc 8265:8265
    
  2. Di browser web, buka http://localhost:8265/.

  3. Klik tab Serve.

Mengirim perintah ke server model

  1. Buat sesi penerusan port ke endpoint Serve dari layanan kepala Ray:

    kubectl port-forward svc/stable-diffusion-tpu-serve-svc 8000
    
  2. Buka sesi Cloud Shell baru.

  3. Kirim perintah teks ke gambar ke server model Stable Diffusion:

    python stable_diffusion_tpu_req.py  --save_pictures
    

    Hasil inferensi difusi stabil disimpan ke file bernama diffusion_results.png.

    Gambar yang dihasilkan oleh Stable Diffusion dengan 8 bagian: kursi hijau, pria yang berdiri di luar rumah, robot di jalan, keluarga yang duduk di meja, dokter yang berjalan di taman, naga terbang, potret beruang bergaya Jepang, dan air terjun.

Pembersihan

Menghapus project

    Menghapus project Google Cloud:

    gcloud projects delete PROJECT_ID

Menghapus resource satu per satu

Untuk menghapus cluster, ketik:

gcloud container clusters delete ${CLUSTER_NAME}

Langkah selanjutnya