Halaman ini diterjemahkan oleh Cloud Translation API.

Men-deploy aplikasi Ray Serve dengan model Difusi Stabil di Google Kubernetes Engine (GKE) dengan TPU

Standard

Panduan ini menunjukkan cara men-deploy dan menayangkan model Stable Diffusion di Google Kubernetes Engine (GKE) menggunakan TPU, Ray Serve, dan add-on Ray Operator.

Panduan ini ditujukan bagi pelanggan AI Generatif, pengguna baru atau lama GKE, Engineer ML, engineer MLOps (DevOps), atau administrator platform yang tertarik menggunakan kemampuan orkestrasi container Kubernetes untuk menayangkan model menggunakan Ray.

Tentang Ray dan Ray Serve

Ray adalah framework komputasi skalabel open source untuk aplikasi AI/ML. Ray Serve adalah library inferensi model untuk Ray yang digunakan untuk menskalakan dan menyajikan model dalam lingkungan terdistribusi. Untuk mengetahui informasi selengkapnya, lihat Ray Serve dalam dokumentasi Ray.

Tentang TPU

Tensor Processing Unit (TPU) adalah akselerator hardware khusus yang dirancang untuk mempercepat pelatihan dan inferensi model machine learning berskala besar secara signifikan. Dengan menggunakan Ray bersama TPU, Anda dapat menskalakan aplikasi ML berperforma tinggi dengan lancar. Untuk mengetahui informasi selengkapnya tentang TPU, lihat Pengantar Cloud TPU dalam dokumentasi Cloud TPU.

Tentang webhook inisialisasi TPU KubeRay

Sebagai bagian dari add-on Ray Operator, GKE menyediakan webhook validasi dan mutasi yang menangani penjadwalan Pod TPU dan variabel lingkungan TPU tertentu yang diperlukan oleh framework seperti JAX untuk inisialisasi penampung. Webhook TPU KubeRay mengubah Pod dengan label app.kubernetes.io/name: kuberay yang meminta TPU dengan properti berikut:

TPU_WORKER_ID: Bilangan bulat unik untuk setiap Pod pekerja dalam slice TPU.
TPU_WORKER_HOSTNAMES: Daftar nama host DNS untuk semua pekerja TPU yang perlu berkomunikasi satu sama lain dalam slice. Variabel ini hanya disisipkan untuk Pod TPU dalam grup multi-host.
replicaIndex: Label Pod yang berisi ID unik untuk replika grup pekerja tempat Pod berada. Hal ini berguna untuk grup pekerja multi-host, di mana beberapa Pod pekerja mungkin termasuk dalam replika yang sama, dan digunakan oleh Ray untuk mengaktifkan penskalaan otomatis multi-host.
TPU_NAME: String yang merepresentasikan PodSlice TPU GKE tempat Pod ini berada, ditetapkan ke nilai yang sama dengan label replicaIndex.
podAffinity: Memastikan GKE menjadwalkan Pod TPU dengan label replicaIndex yang cocok di node pool yang sama. Hal ini memungkinkan GKE menskalakan TPU multi-host secara atomik berdasarkan node pool, bukan node tunggal.

Tujuan

Buat cluster GKE dengan node pool TPU.
Deploy cluster Ray dengan TPU.
Deploy resource kustom RayService.
Berinteraksi dengan server model Stable Diffusion.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, lihat Pembersihan.

Sebelum memulai

Cloud Shell telah diinstal dengan software yang Anda perlukan untuk tutorial ini, termasuk kubectl dan gcloud CLI. Jika Anda tidak menggunakan Cloud Shell, instal gcloud CLI.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

Install the Google Cloud CLI.

Catatan: Jika Anda telah menginstal gcloud CLI sebelumnya, pastikan Anda memiliki versi terbaru dengan menjalankan gcloud components update.

Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.

Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Make sure that billing is enabled for your Google Cloud project.

Enable the GKE API:

gcloud services enable container.googleapis.com

Install the Google Cloud CLI.

Catatan: Jika Anda telah menginstal gcloud CLI sebelumnya, pastikan Anda memiliki versi terbaru dengan menjalankan gcloud components update.

Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.

Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Make sure that billing is enabled for your Google Cloud project.

Enable the GKE API:

gcloud services enable container.googleapis.com

Grant roles to your user account. Run the following command once for each of the following IAM roles: roles/container.clusterAdmin, roles/container.admin
```
gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE
```
- Replace PROJECT_ID with your project ID.
- Replace USER_IDENTIFIER with the identifier for your user account. For example, user:myemail@example.com.
- Replace ROLE with each individual role.

Pastikan kuota mencukupi

Pastikan project Anda memiliki kuota TPU yang cukup di region atau zona Compute Engine Anda. Google Cloud Untuk mengetahui informasi selengkapnya, lihat Memastikan kuota TPU dan GKE yang memadai dalam dokumentasi Cloud TPU. Anda mungkin juga perlu meningkatkan kuota untuk:

SSD Persistent Disk (GB)
Alamat IP yang digunakan

Menyiapkan lingkungan Anda

Untuk menyiapkan lingkungan Anda, ikuti langkah-langkah berikut:

Luncurkan sesi Cloud Shell dari Google Cloud konsol, dengan mengklik Aktifkan Cloud Shell di Google Cloud konsol. Tindakan ini akan meluncurkan sesi di panel bawah konsol Google Cloud .
Menetapkan variabel lingkungan:
```
export PROJECT_ID=PROJECT_ID
export CLUSTER_NAME=ray-cluster
export COMPUTE_REGION=us-central2-b
export CLUSTER_VERSION=CLUSTER_VERSION
```
Ganti kode berikut:
- PROJECT_ID: Google Cloud project ID Anda.
- CLUSTER_VERSION: versi GKE yang akan digunakan. Harus 1.30.1 atau setelahnya.

Buat clone repositori GitHub:

git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples

Ubah ke direktori kerja:

cd kubernetes-engine-samples/ai-ml/gke-ray/rayserve/stable-diffusion

Membuat cluster dengan node pool TPU

Buat cluster GKE Standard dengan node pool TPU:

Buat cluster mode Standard dengan Ray Operator diaktifkan:

gcloud container clusters create ${CLUSTER_NAME} \
    --addons=RayOperator \
    --machine-type=n1-standard-8 \
    --cluster-version=${CLUSTER_VERSION} \
    --location=${COMPUTE_REGION}

Buat node pool TPU host tunggal:

gcloud container node-pools create tpu-pool \
    --location=${COMPUTE_REGION} \
    --cluster=${CLUSTER_NAME} \
    --machine-type=ct4p-hightpu-4t \
    --num-nodes=1

Untuk menggunakan TPU dengan mode Standar, Anda harus memilih:

Lokasi Compute Engine dengan kapasitas untuk akselerator TPU
Jenis mesin yang kompatibel untuk TPU dan
Topologi fisik PodSlice TPU

Mengonfigurasi resource RayCluster dengan TPU

Konfigurasi manifes RayCluster untuk menyiapkan workload TPU:

Mengonfigurasi TPU `nodeSelector`

GKE menggunakan nodeSelectors Kubernetes untuk memastikan bahwa beban kerja TPU dijadwalkan pada topologi dan akselerator TPU yang sesuai. Untuk mengetahui informasi selengkapnya tentang memilih nodeSelector TPU, lihat Men-deploy workload TPU di GKE Standard.

Perbarui manifes ray-cluster.yaml untuk menjadwalkan Pod Anda di podslice TPU v4 dengan topologi 2x2x1:

nodeSelector:
  cloud.google.com/gke-tpu-accelerator: tpu-v4-podslice
  cloud.google.com/gke-tpu-topology: 2x2x1

Mengonfigurasi resource container TPU

Untuk menggunakan akselerator TPU, Anda harus menentukan jumlah chip TPU yang harus dialokasikan GKE ke setiap Pod dengan mengonfigurasi google.com/tpuresource limits dan requests di kolom container TPU pada manifes RayCluster workerGroupSpecs.

Perbarui manifes ray-cluster.yaml dengan batas dan permintaan resource:

resources:
  limits:
    cpu: "1"
    ephemeral-storage: 10Gi
    google.com/tpu: "4"
    memory: "2G"
   requests:
    cpu: "1"
    ephemeral-storage: 10Gi
    google.com/tpu: "4"
    memory: "2G"

Konfigurasi grup pekerja `numOfHosts`

KubeRay v1.1.0 menambahkan kolom numOfHosts ke resource kustom RayCluster, yang menentukan jumlah host TPU yang akan dibuat per replika grup pekerja. Untuk grup pekerja multi-host, replika diperlakukan sebagai PodSlice, bukan pekerja individual, dengan node pekerja numOfHosts yang dibuat per replika.

Perbarui manifes ray-cluster.yaml dengan kode berikut:

workerGroupSpecs:
  # Several lines omitted
  numOfHosts: 1 # the number of "hosts" or workers per replica

Buat resource kustom RayService

Buat resource kustom RayService:

Tinjau manifes berikut:

apiVersion: ray.io/v1
kind: RayService
metadata:
  name: stable-diffusion-tpu
spec:
  serveConfigV2: |
    applications:
      - name: stable_diffusion
        import_path: ai-ml.gke-ray.rayserve.stable-diffusion.stable_diffusion_tpu:deployment
        runtime_env:
          working_dir: "https://github.com/GoogleCloudPlatform/kubernetes-engine-samples/archive/refs/heads/main.zip"
          pip:
            - diffusers==0.7.2
            - flax
            - jax[tpu]==0.4.11
            - -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
            - fastapi
  rayClusterConfig:
    rayVersion: '2.9.0'
    headGroupSpec:
      rayStartParams: {}
      template:
        spec:
          containers:
          - name: ray-head
            image: rayproject/ray-ml:2.9.0-py310
            ports:
            - containerPort: 6379
              name: gcs
            - containerPort: 8265
              name: dashboard
            - containerPort: 10001
              name: client
            - containerPort: 8000
              name: serve
            resources:
              limits:
                cpu: "2"
                memory: "8G"
              requests:
                cpu: "2"
                memory: "8G"
    workerGroupSpecs:
    - replicas: 1
      minReplicas: 1
      maxReplicas: 10
      numOfHosts: 1
      groupName: tpu-group
      rayStartParams: {}
      template:
        spec:
          containers:
          - name: ray-worker
            image: rayproject/ray-ml:2.9.0-py310
            resources:
              limits:
                cpu: "100"
                ephemeral-storage: 20Gi
                google.com/tpu: "4"
                memory: 200G
              requests:
                cpu: "100"
                ephemeral-storage: 20Gi
                google.com/tpu: "4"
                memory: 200G
          nodeSelector:
            cloud.google.com/gke-tpu-accelerator: tpu-v4-podslice
            cloud.google.com/gke-tpu-topology: 2x2x1

Manifes ini menjelaskan resource kustom RayService yang membuat resource RayCluster dengan 1 node head dan grup pekerja TPU dengan topologi 2x2x1, yang berarti setiap node pekerja akan memiliki 4 chip TPU v4.

Node TPU termasuk dalam satu podslice TPU v4 dengan topologi 2x2x1. Untuk membuat grup pekerja multi-host, ganti nilai gke-tpu nodeSelector, batas dan permintaan penampung google.com/tpu, serta nilai numOfHosts dengan konfigurasi multi-host Anda. Untuk mengetahui informasi selengkapnya tentang topologi multi-host TPU, lihat Arsitektur sistem dalam dokumentasi Cloud TPU.

Terapkan manifes ke cluster Anda:
```
kubectl apply -f ray-service-tpu.yaml
```
Pastikan resource RayService sedang berjalan:
```
kubectl get rayservices
```
Outputnya mirip dengan hal berikut ini:
```
NAME                   SERVICE STATUS   NUM SERVE ENDPOINTS
stable-diffusion-tpu   Running          2
```
Dalam output ini, Running di kolom SERVICE STATUS menunjukkan bahwa resource RayService sudah siap.

(Opsional) Melihat Dasbor Ray

Anda dapat melihat deployment Ray Serve dan log yang relevan dari Dasbor Ray.

Buat sesi penerusan port ke dasbor Ray dari layanan head Ray:

kubectl port-forward svc/stable-diffusion-tpu-head-svc 8265:8265

Di browser web, buka http://localhost:8265/.
Klik tab Serve.

Mengirim perintah ke server model

Buat sesi penerusan port ke endpoint Serve dari layanan head Ray:

kubectl port-forward svc/stable-diffusion-tpu-serve-svc 8000

Buka sesi Cloud Shell baru.
Kirim perintah teks ke gambar ke server model Stable Diffusion:
```
python stable_diffusion_tpu_req.py  --save_pictures
```
Hasil inferensi stable diffusion disimpan ke file bernama diffusion_results.png.

Pembersihan

Menghapus project

Perhatian: Menghapus project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika menggunakan project yang sudah ada untuk tugas dalam dokumen ini, saat Anda menghapusnya, pekerjaan lain yang telah Anda lakukan dalam project tersebut juga akan terhapus.
Project ID kustom hilang. Saat membuat project ini, Anda mungkin telah membuat project ID kustom yang ingin digunakan di masa mendatang. Untuk mempertahankan URL yang menggunakan project ID, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

Delete a Google Cloud project:

gcloud projects delete PROJECT_ID

Menghapus resource satu per satu

Untuk menghapus cluster, ketik:

gcloud container clusters delete ${CLUSTER_NAME}

Langkah berikutnya

Pelajari Ray di Kubernetes.
Pelajari dokumentasi KubeRay.
Pelajari arsitektur referensi, diagram, dan praktik terbaik tentang Google Cloud. Lihat Cloud Architecture Center kami.

Men-deploy aplikasi Ray Serve dengan model Difusi Stabil di Google Kubernetes Engine (GKE) dengan TPU Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Tentang Ray dan Ray Serve

Tentang TPU

Tentang webhook inisialisasi TPU KubeRay

Tujuan

Biaya

Sebelum memulai

Pastikan kuota mencukupi

Menyiapkan lingkungan Anda

Membuat cluster dengan node pool TPU

Mengonfigurasi resource RayCluster dengan TPU

Mengonfigurasi TPU nodeSelector

Mengonfigurasi resource container TPU

Konfigurasi grup pekerja numOfHosts

Buat resource kustom RayService

(Opsional) Melihat Dasbor Ray

Mengirim perintah ke server model

Pembersihan

Menghapus project

Menghapus resource satu per satu

Langkah berikutnya

Men-deploy aplikasi Ray Serve dengan model Difusi Stabil di Google Kubernetes Engine (GKE) dengan TPU

Mengonfigurasi TPU `nodeSelector`

Konfigurasi grup pekerja `numOfHosts`