Halaman ini menjelaskan teknik yang tersedia yang dapat Anda gunakan untuk mendapatkan akselerator komputasi, seperti GPU atau TPU, berdasarkan persyaratan workload AI/ML Anda. Teknik ini disebut opsi penggunaan akselerator di GKE. Memahami berbagai opsi konsumsi membantu Anda mengoptimalkan pemanfaatan resource untuk menghindari kurangnya pemanfaatan resource, meningkatkan kemungkinan mendapatkan resource, serta menyeimbangkan biaya dan performa.
Halaman ini ditujukan bagi admin dan operator Platform yang berkoordinasi dengan engineer Machine learning (ML) untuk mendapatkan resource yang diperlukan agar berhasil men-deploy workload AI/ML.
Untuk mempelajari lebih lanjut peran umum dan contoh tugas yang kami referensikan dalam konten, lihat Peran dan tugas pengguna GKE umum. Google Cloud
Memahami opsi pemakaian
Anda dapat memilih dari opsi berikut untuk menggunakan akselerator di GKE:
- On-demand: Anda menggunakan TPU atau GPU di GKE tanpa mengatur kapasitas terlebih dahulu. Sebelum meminta resource, Anda harus memiliki kuota sesuai permintaan yang cukup untuk jenis dan jumlah akselerator tertentu. Sesuai permintaan adalah opsi konsumsi yang paling fleksibel; namun, tidak ada jaminan bahwa resource sesuai permintaan yang tersedia akan cukup untuk memenuhi permintaan Anda.
- Reservasi: Anda memesan resource untuk jangka waktu tertentu. Reservasi dapat berupa salah satu dari berikut:
- Pemesanan untuk masa mendatang: Anda memesan resource untuk durasi yang biasanya lebih lama untuk waktu tertentu pada masa mendatang. Anda memiliki akses eksklusif ke resource yang dipesan selama jangka waktu tersebut. Pemesanan untuk masa mendatang memerlukan interaksi dengan Manajer Akun Teknis (TAM). Untuk mengetahui informasi selengkapnya, lihat panduan TPU dan GPU.
- Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender): Anda meminta kapasitas untuk jangka waktu tertentu, dengan penasihat kalender yang menyarankan tanggal yang tersedia. Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender) menawarkan lebih banyak fleksibilitas untuk durasi yang lebih singkat dan penelusuran kapasitas layanan mandiri. Untuk mengetahui informasi selengkapnya, lihat Permintaan pemesanan untuk masa mendatang dalam mode kalender.
- Pemesanan on-demand: Anda dapat meminta pemesanan on-demand untuk disediakan segera setelah kapasitas tersedia, mirip dengan opsi on-demand. Selama pemesanan aktif, Anda membayar resource tersebut, baik Anda menggunakannya atau tidak.
- Mulai fleksibel: Anda mengamankan resource yang dialokasikan secara padat untuk beban kerja berdurasi singkat tanpa reservasi. Anda meminta sejumlah GPU atau TPU tertentu, dan Compute Engine akan menyediakan GPU atau TPU tersebut saat kapasitas tersedia. GPU atau TPU berjalan tanpa gangguan hingga tujuh hari. Untuk mengetahui informasi selengkapnya, lihat penyediaan mulai fleksibel.
- Spot: Anda menyediakan Spot VM, yang memungkinkan Anda mendapatkan diskon yang signifikan, tetapi Spot VM dapat di-preempt kapan saja, dengan peringatan 30 detik. Untuk mengetahui informasi selengkapnya, lihat Spot VM.
Memahami kuota akselerator di GKE
Kuota dan batas sistem membatasi penggunaan resource Anda untuk mendukung ketersediaan resource bagi semua pengguna. Google Cloud Google Cloud Kuota memiliki nilai default, tetapi biasanya Anda dapat meminta penyesuaian. Batas sistem adalah nilai tetap yang tidak dapat diubah. Secara default, project umumnya tidak memiliki kuota akselerator yang signifikan. Anda harus meminta dan menerima persetujuan untuk kuota untuk jenis dan region akselerator tertentu.
Pertimbangkan karakteristik berikut saat mengelola kuota yang dibutuhkan workload Anda:
Anda harus meminta kuota yang diperlukan untuk setiap opsi konsumsi. Untuk mengidentifikasi kuota yang diperlukan untuk setiap opsi penggunaan, lihat parameter "Kuota" yang sesuai yang tercantum dalam tabel pilih opsi penggunaan. Jika kuota tidak mencukupi, upaya untuk membuat cluster, kumpulan node, atau men-deploy beban kerja yang memerlukan akselerator akan gagal dengan error
Quota exceeded
.Anda harus meminta kuota saat menggunakan class komputasi kustom di Autopilot. Node yang disediakan untuk memenuhi persyaratan class komputasi tetap menggunakan kuota project Anda untuk akselerator yang ditentukan.
Google Cloud Akun Uji Coba Gratis memiliki batasan dalam meminta penambahan kuota untuk resource bernilai tinggi seperti GPU dan TPU. Untuk mendapatkan akses ke kuota akselerator, upgrade ke akun berbayar.
Untuk memeriksa dan meminta kuota, buka halaman Quota di Google Cloud console. Anda dapat memfilter kuota akselerator dan meminta penambahan.
Memilih opsi konsumsi
Gunakan pertimbangan berikut untuk memilih opsi penggunaan terbaik bagi workload AI/ML Anda:
- Jenis beban kerja: pertimbangkan jenis beban kerja yang ingin Anda terapkan.
Persyaratan GKE bervariasi jika Anda menjalankan workload pelatihan atau inferensi:
- Pelatihan: memerlukan resource berperforma tinggi dengan memori yang signifikan. Workload pelatihan biasanya memiliki masa aktif yang jelas. Beban kerja ini biasanya lebih mudah direncanakan karena cenderung tidak mengalami lonjakan tiba-tiba dalam konsumsi resource.
- Inferensi: biasanya memerlukan akselerator yang dioptimalkan untuk skalabilitas dan biaya yang lebih rendah. Beban kerja inferensi dapat memerlukan memori akselerator yang signifikan selama lonjakan tiba-tiba dalam konsumsi resource.
- Rentang waktu berdasarkan fase penerapan: pertimbangkan sasaran bisnis Anda jika Anda menjalankan Bukti Konsep (POC), evaluasi platform, pengembangan atau pengujian aplikasi, produksi, atau pengoptimalan.
- Waktu penyediaan: tentukan apakah beban kerja Anda memerlukan eksekusi segera atau dapat dijalankan di masa mendatang. Jika eksekusi di masa mendatang mungkin dilakukan, tentukan seberapa fleksibel waktu mulainya.
- Keseimbangan antara biaya dan performa: evaluasi persyaratan performa workload dan batasan anggaran Anda untuk memilih akselerator yang paling hemat biaya. Pertimbangkan kompromi antara biaya akselerator dan karakteristik performanya. Perlu diingat bahwa akselerator baru dapat memberikan rasio biaya-performa yang lebih baik.
Gunakan tabel berikut untuk memilih opsi penggunaan:
Jenis beban kerja | Waktu untuk menyediakan | Masa pakai | Opsi konsumsi yang direkomendasikan |
---|---|---|---|
|
Segera (dengan reservasi yang disetujui) | Jangka panjang (per reservasi) | Jika Anda ingin menggunakan GPU apa pun (kecuali A4X, A4, atau A3 Ultra), atau TPU apa pun, gunakan Pemesanan sesuai permintaan:
|
Jika Anda ingin menggunakan akselerator G2, A2, A3 High, atau A3 Mega, gunakan Pemesanan untuk masa mendatang:
|
|||
|
Segera (dengan reservasi yang disetujui) | Hingga 90 hari | Reservasi mendatang hingga 90 hari (dalam mode kalender):
|
|
On-demand (tergantung ketersediaan) | Hingga 7 hari per alokasi |
|
|
On-demand (tergantung ketersediaan) | Variabel, dapat dihentikan dengan peringatan 30 detik |
|
|
Segera (tergantung ketersediaan) | Tak terbatas |
Langkah berikutnya
- Pelajari lebih lanjut GPU di GKE.
- Pelajari lebih lanjut TPU di GKE.
- Pelajari lebih lanjut inferensi AI/ML di GKE.