Pengantar workload AI/ML di GKE

Halaman ini memberikan ringkasan konseptual tentang Google Kubernetes Engine (GKE) untuk workload AI/ML. GKE adalah implementasi platform orkestrasi container open source Kubernetes yang dikelola Google.

Google Kubernetes Engine menyediakan platform yang skalabel, fleksibel, dan hemat biaya untuk menjalankan semua beban kerja dalam container, termasuk aplikasi kecerdasan buatan dan machine learning (AI/ML). Baik Anda melatih model dasar besar, menyajikan permintaan inferensi dalam skala besar, atau membangun platform AI yang komprehensif, GKE menawarkan kontrol dan performa yang Anda butuhkan.

Halaman ini ditujukan untuk spesialis Data dan AI, arsitek Cloud, Operator, dan Developer yang mencari solusi Kubernetes terkelola, otomatis, dan skalabel untuk menjalankan beban kerja AI/ML. Untuk mempelajari peran umum lebih lanjut, lihat Peran dan tugas pengguna GKE umum.

Mulai menggunakan workload AI/ML di GKE

Anda dapat mulai menjelajahi GKE dalam hitungan menit dengan menggunakan paket gratis GKE, yang memungkinkan Anda mulai menggunakan Kubernetes tanpa menimbulkan biaya untuk pengelolaan cluster.

  1. Mulai di Google Cloud konsol

  2. Coba panduan memulai berikut:
    • Inferensi di GKE: men-deploy model bahasa besar (LLM) AI di GKE untuk inferensi menggunakan arsitektur yang telah ditentukan sebelumnya.
    • Pelatihan di GKE: men-deploy model pelatihan AI di GKE dan menyimpan prediksi di Cloud Storage.
  3. Baca Tentang opsi konsumsi akselerator untuk workload AI/ML, yang berisi panduan dan referensi untuk merencanakan dan mendapatkan akselerator (GPU dan TPU) untuk platform Anda.

Kasus penggunaan umum

GKE menyediakan platform terpadu yang dapat mendukung semua workload AI Anda.

  • Membangun platform AI: untuk tim platform perusahaan, GKE memberikan fleksibilitas untuk membangun platform multi-tenant yang terstandarisasi dan memenuhi berbagai kebutuhan.
  • Penayangan online dengan latensi rendah: Untuk developer yang membangun aplikasi AI generatif, GKE dengan Inference Gateway menyediakan perutean dan penskalaan otomatis yang dioptimalkan yang diperlukan untuk memberikan pengalaman pengguna yang responsif sekaligus mengontrol biaya.

Pilih platform yang tepat untuk workload AI/ML Anda

Google Cloud menawarkan spektrum produk infrastruktur AI untuk mendukung perjalanan ML Anda, mulai dari yang terkelola sepenuhnya hingga yang dapat dikonfigurasi sepenuhnya. Memilih platform yang tepat bergantung pada kebutuhan spesifik Anda untuk kontrol, fleksibilitas, dan tingkat pengelolaan.

Praktik terbaik:

Pilih GKE saat Anda memerlukan kontrol mendalam, portabilitas, dan kemampuan untuk membangun platform AI berperforma tinggi yang disesuaikan.

  • Kontrol dan fleksibilitas infrastruktur: Anda memerlukan tingkat kontrol yang tinggi atas infrastruktur, perlu menggunakan pipeline kustom, atau memerlukan penyesuaian tingkat kernel.
  • Pelatihan dan inferensi skala besar: Anda ingin melatih model yang sangat besar atau menayangkan model dengan latensi minimal, dengan menggunakan penskalaan dan performa tinggi GKE.
  • Efisiensi biaya dalam skala besar: Anda ingin memprioritaskan pengoptimalan biaya dengan menggunakan integrasi GKE dengan Spot VM dan VM mulai fleksibel untuk mengelola biaya secara efektif.
  • Portabilitas dan standar terbuka: Anda ingin menghindari lock-in vendor dan menjalankan workload di mana saja dengan Kubernetes, dan Anda sudah memiliki keahlian Kubernetes atau strategi multi-cloud.

Anda juga dapat mempertimbangkan alternatif berikut:

Google Cloud service Paling cocok untuk
Vertex AI Platform end-to-end yang terkelola sepenuhnya untuk mempercepat pengembangan dan mendelegasikan pengelolaan infrastruktur. Berfungsi dengan baik untuk tim yang berfokus pada MLOps dan waktu pemerolehan manfaat yang cepat. Untuk mengetahui informasi selengkapnya, tonton Memilih antara GKE yang dihosting sendiri dan Vertex AI terkelola untuk menghosting model AI.
Cloud Run Platform serverless untuk beban kerja inferensi dalam container yang dapat diskalakan ke nol. Berfungsi dengan baik untuk aplikasi berbasis peristiwa dan menyajikan model yang lebih kecil secara hemat biaya. Untuk pembahasan mendalam yang komparatif, lihat GKE dan Cloud Run.

Cara GKE mendukung workload AI/ML

GKE menawarkan serangkaian komponen khusus yang menyederhanakan dan mempercepat setiap tahap siklus proses AI/ML, mulai dari pelatihan skala besar hingga inferensi latensi rendah.

Dalam diagram berikut, GKE berada dalam Google Cloud
       dan dapat menggunakan berbagai opsi penyimpanan cloud (seperti Cloud Storage FUSE dan Managed Lustre) serta berbagai opsi infrastruktur cloud
       (seperti Cloud TPU dan GPU Cloud). GKE juga kompatibel dengan software dan framework open source untuk deep learning (seperti JAX atau TensorFlow), orkestrasi ML (seperti Jupyter atau Ray), dan inferensi LLM (seperti vLLM atau NVIDIA Dynamo).
Gambar 1: GKE sebagai platform terkelola yang skalabel untuk workload AI/ML.

Tabel berikut merangkum fitur GKE yang mendukung workload AI/ML atau tujuan operasional Anda.

Workload atau operasi AI/ML Cara GKE mendukung Anda Fitur utama
Inferensi dan penayangan Dioptimalkan untuk menayangkan model AI secara elastis, dengan latensi rendah, throughput tinggi, dan efisiensi biaya.
  • Fleksibilitas akselerator: GKE mendukung GPU dan TPU untuk inferensi.
  • GKE Inference Gateway: gateway yang mendukung model yang menyediakan perutean dan load balancing cerdas khusus untuk beban kerja inferensi AI.
  • Panduan Memulai Inferensi GKE: alat untuk menyederhanakan analisis performa dan deployment dengan menyediakan serangkaian profil tolok ukur untuk model AI populer.
  • GKE Autopilot: mode operasional GKE yang mengotomatiskan operasi cluster dan penyesuaian kapasitas, sehingga mengurangi overhead.
Pelatihan dan penyesuaian Menyediakan kemampuan penskalaan dan orkestrasi yang diperlukan untuk melatih model yang sangat besar secara efisien sekaligus meminimalkan biaya.
  • Node startup yang lebih cepat: pengoptimalan yang dirancang khusus untuk workload GPU yang mengurangi waktu startup node hingga 80%.
  • Mode penyediaan mulai fleksibel yang didukung oleh Dynamic Workload Scheduler: meningkatkan kemampuan Anda untuk mengamankan akselerator GPU dan TPU yang langka untuk workload pelatihan berdurasi singkat.
  • Kueue: sistem antrean pekerjaan berbasis Kubernetes yang mengelola alokasi resource, penjadwalan, pengelolaan kuota, dan pemberian prioritas untuk beban kerja batch.
  • Multislice TPU: arsitektur hardware dan jaringan yang memungkinkan beberapa slice TPU berkomunikasi satu sama lain melalui Jaringan Pusat Data (DCN) untuk mencapai pelatihan skala besar.
Pengembangan AI/ML terpadu Dukungan terkelola untuk Ray, framework open source untuk menskalakan aplikasi Python terdistribusi.
  • Add-on Ray di GKE: mengabstraksi infrastruktur Kubernetes, sehingga Anda dapat menskalakan workload seperti pra-pemrosesan data skala besar, pelatihan terdistribusi, dan penayangan online dengan perubahan kode minimal.

Langkah berikutnya