Panduan ini menunjukkan cara mengoptimalkan penyediaan Unit Pemrosesan Tensor (TPU) dengan menggunakan pemesanan untuk masa mendatang dalam mode kalender. Pemesanan mendatang dalam mode kalender adalah penasihat dan pemberi rekomendasi kalender bawaan yang dapat membantu Anda menemukan kapasitas TPU dan membuat rencana ke depannya. Anda dapat meminta kapasitas untuk waktu mulai dan durasi yang ditentukan, antara 1 dan 90 hari, dan pemberi rekomendasi akan memberikan saran tanggal.
Panduan ini ditujukan untuk Engineer machine learning (ML), Admin dan operator platform, serta Spesialis Data dan AI yang tertarik untuk menggunakan kemampuan orkestrasi container Kubernetes dalam menjalankan beban kerja batch. Untuk mengetahui informasi selengkapnya tentang peran umum dan contoh tugas yang kami rujuk dalam konten Google Cloud , lihat Peran dan tugas pengguna GKE Enterprise umum.
Untuk mengetahui informasi selengkapnya, lihat Tentang pemesanan untuk masa mendatang dalam mode kalender.
Kasus penggunaan
Reservasi mendatang dalam mode kalender paling cocok untuk beban kerja dengan permintaan terjadwal, jangka pendek, dan permintaan dengan permintaan tinggi, seperti pelatihan, atau model inferensi batch yang memerlukan ketersediaan tinggi pada waktu mulai yang diminta.
Jika workload Anda memerlukan resource yang disediakan secara dinamis sesuai kebutuhan, hingga 7 hari tanpa reservasi jangka panjang atau pengelolaan kuota yang rumit, pertimbangkan untuk menggunakan flex-start. Untuk mengetahui informasi selengkapnya, lihat Tentang penyediaan GPU dan TPU dengan flex-start.
Sebelum memulai
Sebelum memulai, pastikan Anda telah melakukan tugas berikut:
- Aktifkan Google Kubernetes Engine API. Aktifkan Google Kubernetes Engine API
- Jika ingin menggunakan Google Cloud CLI untuk tugas ini,
instal lalu
lakukan inisialisasi
gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan
gcloud components update
.
- Pastikan Anda memiliki salah satu dari hal berikut:
- cluster Standard yang sudah ada dan menjalankan versi 1.28.3-gke.1098000 atau yang lebih baru.
- cluster Autopilot yang ada dan menjalankan versi 1.30.3-gke.1451000 atau yang lebih baru.
Meminta pemesanan untuk masa mendatang dalam mode kalender untuk TPU
Proses untuk meminta TPU dengan pemesanan untuk masa mendatang dalam mode kalender melibatkan langkah-langkah berikut:
- Pastikan Anda memiliki kuota yang cukup untuk resource apa pun yang bukan bagian dari reservasi saat VM dibuat, seperti disk atau alamat IP. Permintaan pemesanan untuk masa mendatang dalam mode kalender tidak memerlukan kuota Compute Engine.
- Selesaikan langkah-langkah di membuat permintaan dalam mode kalender. Langkah-langkah ini mencakup hal-hal berikut:
- Melihat ketersediaan TPU di masa mendatang.
- Buat dan kirimkan permintaan pemesanan untuk masa mendatang dalam mode kalender untuk TPU.
- Tunggu hingga Google Cloud menyetujui permintaan Anda.
- Buat node pool TPU yang menggunakan reservasi Anda.
Membuat node pool
Bagian ini hanya berlaku untuk cluster Standard.
Anda dapat menggunakan reservasi saat membuat node pool slice TPU host tunggal atau multi-host. Misalnya, Anda dapat membuat node pool slice TPU host tunggal menggunakan Google Cloud CLI.
gcloud container node-pools create NODE_POOL_NAME \
--location=LOCATION \
--cluster=CLUSTER_NAME \
--node-locations=NODE_ZONES \
--machine-type=MACHINE_TYPE \
--reservation-affinity=specific \ This is required
--reservation=RESERVATION
Ganti kode berikut:
NODE_POOL_NAME
: nama node pool baru.LOCATION
: nama zona berdasarkan versi TPU yang ingin Anda gunakan. Untuk mengidentifikasi lokasi yang tersedia, lihat Ketersediaan TPU di GKE.CLUSTER_NAME
: nama cluster.NODE_ZONES
: daftar yang dipisahkan koma untuk satu atau beberapa zona tempat GKE membuat node pool.MACHINE_TYPE
: jenis mesin yang akan digunakan untuk node. Untuk mengetahui informasi selengkapnya tentang jenis mesin yang kompatibel dengan TPU, gunakan tabel di Memilih versi TPU.RESERVATION
: nama reservasi kalender yang akan dipakai.
Untuk daftar lengkap semua flag yang dapat Anda tentukan, lihat referensi
gcloud container clusters create
.
Setelah membuat node pool dengan reservasi kalender, Anda dapat men-deploy workload seperti node pool TPU lainnya. Misalnya, Anda dapat membuat Job yang menentukan TPU node pool yang menggunakan TPU yang dipesan.
Langkah berikutnya
Coba contoh deployment GKE untuk model AI generatif yang menggunakan resource TPU yang Anda pesan:
- Menyajikan LLM menggunakan TPU Trillium di GKE dengan vLLM
- Menyajikan LLM menggunakan TPU di GKE dengan KubeRay
- Menyajikan LLM menggunakan TPU di GKE dengan JetStream dan PyTorch
- Menyajikan Gemma menggunakan TPU di GKE dengan JetStream
- Menyajikan Stable Diffusion XL (SDXL) menggunakan TPU di GKE dengan MaxDiffusion
- Menyajikan model open source menggunakan TPU di GKE dengan Optimum TPU
Jelajahi contoh eksperimental untuk memanfaatkan GKE dalam mempercepat inisiatif AI/ML Anda di GKE AI Labs.