Halaman ini memberikan ringkasan konseptual tentang Google Kubernetes Engine (GKE) untuk workload AI/ML. GKE adalah implementasi platform orkestrasi container open source Kubernetes yang dikelola Google.
Google Kubernetes Engine menyediakan platform yang skalabel, fleksibel, dan hemat biaya untuk menjalankan semua beban kerja dalam container, termasuk aplikasi kecerdasan buatan dan machine learning (AI/ML). Baik Anda melatih model dasar besar, menyajikan permintaan inferensi dalam skala besar, atau membangun platform AI yang komprehensif, GKE menawarkan kontrol dan performa yang Anda butuhkan.
Halaman ini ditujukan untuk spesialis Data dan AI, arsitek Cloud, Operator, dan Developer yang mencari solusi Kubernetes terkelola, otomatis, dan skalabel untuk menjalankan beban kerja AI/ML. Untuk mempelajari peran umum lebih lanjut, lihat Peran dan tugas pengguna GKE umum.
Mulai menggunakan workload AI/ML di GKE
Anda dapat mulai menjelajahi GKE dalam hitungan menit dengan menggunakan paket gratis GKE, yang memungkinkan Anda mulai menggunakan Kubernetes tanpa menimbulkan biaya untuk pengelolaan cluster.
- Coba panduan memulai berikut:
- Inferensi di GKE: men-deploy model bahasa besar (LLM) AI di GKE untuk inferensi menggunakan arsitektur yang telah ditentukan sebelumnya.
- Pelatihan di GKE: men-deploy model pelatihan AI di GKE dan menyimpan prediksi di Cloud Storage.
- Baca Tentang opsi konsumsi akselerator untuk workload AI/ML, yang berisi panduan dan referensi untuk merencanakan dan mendapatkan akselerator (GPU dan TPU) untuk platform Anda.
Kasus penggunaan umum
GKE menyediakan platform terpadu yang dapat mendukung semua workload AI Anda.
- Membangun platform AI: untuk tim platform perusahaan, GKE memberikan fleksibilitas untuk membangun platform multi-tenant yang terstandarisasi dan memenuhi berbagai kebutuhan.
- Penayangan online dengan latensi rendah: Untuk developer yang membangun aplikasi AI generatif, GKE dengan Inference Gateway menyediakan perutean dan penskalaan otomatis yang dioptimalkan yang diperlukan untuk memberikan pengalaman pengguna yang responsif sekaligus mengontrol biaya.
Pilih platform yang tepat untuk workload AI/ML Anda
Google Cloud menawarkan spektrum produk infrastruktur AI untuk mendukung perjalanan ML Anda, mulai dari yang terkelola sepenuhnya hingga yang dapat dikonfigurasi sepenuhnya. Memilih platform yang tepat bergantung pada kebutuhan spesifik Anda untuk kontrol, fleksibilitas, dan tingkat pengelolaan.
Pilih GKE saat Anda memerlukan kontrol mendalam, portabilitas, dan kemampuan untuk membangun platform AI berperforma tinggi yang disesuaikan.
- Kontrol dan fleksibilitas infrastruktur: Anda memerlukan tingkat kontrol yang tinggi atas infrastruktur, perlu menggunakan pipeline kustom, atau memerlukan penyesuaian tingkat kernel.
- Pelatihan dan inferensi skala besar: Anda ingin melatih model yang sangat besar atau menayangkan model dengan latensi minimal, dengan menggunakan penskalaan dan performa tinggi GKE.
- Efisiensi biaya dalam skala besar: Anda ingin memprioritaskan pengoptimalan biaya dengan menggunakan integrasi GKE dengan Spot VM dan VM mulai fleksibel untuk mengelola biaya secara efektif.
- Portabilitas dan standar terbuka: Anda ingin menghindari lock-in vendor dan menjalankan workload di mana saja dengan Kubernetes, dan Anda sudah memiliki keahlian Kubernetes atau strategi multi-cloud.
Anda juga dapat mempertimbangkan alternatif berikut:
Google Cloud service | Paling cocok untuk |
---|---|
Vertex AI | Platform end-to-end yang terkelola sepenuhnya untuk mempercepat pengembangan dan mendelegasikan pengelolaan infrastruktur. Berfungsi dengan baik untuk tim yang berfokus pada MLOps dan waktu pemerolehan manfaat yang cepat. Untuk mengetahui informasi selengkapnya, tonton Memilih antara GKE yang dihosting sendiri dan Vertex AI terkelola untuk menghosting model AI. |
Cloud Run | Platform serverless untuk beban kerja inferensi dalam container yang dapat diskalakan ke nol. Berfungsi dengan baik untuk aplikasi berbasis peristiwa dan menyajikan model yang lebih kecil secara hemat biaya. Untuk pembahasan mendalam yang komparatif, lihat GKE dan Cloud Run. |
Cara GKE mendukung workload AI/ML
GKE menawarkan serangkaian komponen khusus yang menyederhanakan dan mempercepat setiap tahap siklus proses AI/ML, mulai dari pelatihan skala besar hingga inferensi latensi rendah.
Tabel berikut merangkum fitur GKE yang mendukung workload AI/ML atau tujuan operasional Anda.
Workload atau operasi AI/ML | Cara GKE mendukung Anda | Fitur utama |
---|---|---|
Inferensi dan penayangan | Dioptimalkan untuk menayangkan model AI secara elastis, dengan latensi rendah, throughput tinggi, dan efisiensi biaya. |
|
Pelatihan dan penyesuaian | Menyediakan kemampuan penskalaan dan orkestrasi yang diperlukan untuk melatih model yang sangat besar secara efisien sekaligus meminimalkan biaya. |
|
Pengembangan AI/ML terpadu | Dukungan terkelola untuk Ray, framework open source untuk menskalakan aplikasi Python terdistribusi. |
|
Langkah berikutnya
- Untuk menjelajahi koleksi lengkap panduan resmi, tutorial, dan resource lainnya untuk menjalankan workload AI/ML di GKE, buka portal orkestrasi AI/ML di GKE.
- Pelajari teknik untuk mendapatkan akselerator komputasi, seperti GPU atau TPU, untuk workload AI/ML Anda di GKE.
- Pelajari inferensi model AI/ML di GKE.
- Pelajari Ray di GKE.
- Jelajahi contoh eksperimental untuk memanfaatkan GKE dalam mempercepat inisiatif AI/ML Anda di GKE AI Labs.