Orkestrasi AI/ML di dokumentasi GKE
Jalankan workload AI/ML yang dioptimalkan dengan kemampuan orkestrasi platform Google Kubernetes Engine (GKE). Dengan Google Kubernetes Engine (GKE), Anda dapat menerapkan platform AI/ML yang tangguh dan siap produksi dengan semua manfaat Kubernetes terkelola dan kemampuan berikut:
- Orkestrasi infrastruktur yang mendukung GPU dan TPU untuk pelatihan dan penyajian workload dalam skala besar.
- Integrasi yang fleksibel dengan framework komputasi dan pemrosesan data terdistribusi.
- Dukungan untuk beberapa tim pada infrastruktur yang sama untuk memaksimalkan penggunaan resource
Mulai bukti konsep Anda dengan kredit gratis senilai $300
- Mendapatkan akses ke Gemini 2.0 Flash Thinking
- Penggunaan bulanan gratis untuk produk populer, termasuk AI API dan BigQuery
- Tidak ada tagihan otomatis, tanpa komitmen
Terus jelajahi dengan lebih dari 20 produk yang selalu gratis
Akses 20+ produk gratis untuk kasus penggunaan umum, termasuk API AI, VM, data warehouse, dan lainnya.
Referensi dokumentasi
Menayangkan model terbuka menggunakan kemampuan AI Generatif GKE
- Baru!
- Baru!
- Baru!
- Tutorial
- Tutorial
- Tutorial
Mengorkestrasi TPU dan GPU dalam skala besar
- Baru!
- Baru!
- Video
- Video
- Video
- Blog
Pengoptimalan biaya dan orkestrasi tugas
- Baru!
- Praktik terbaik
- Blog
- Blog
- Praktik terbaik
- Praktik terbaik
- Praktik terbaik
Referensi terkait
Menyajikan model open source menggunakan TPU di GKE dengan TPU Optimum
Pelajari cara men-deploy LLM menggunakan Tensor Processing Unit (TPU) di GKE dengan framework penayangan TPU Optimum dari Hugging Face.
Membuat dan menggunakan volume yang didukung oleh instance Parallelstore di GKE
Pelajari cara membuat penyimpanan yang didukung oleh instance Parallelstore yang dikelola sepenuhnya, dan mengaksesnya sebagai volume. Driver CSI dioptimalkan untuk workload pelatihan AI/ML yang melibatkan ukuran file yang lebih kecil dan pembacaan acak.
Mempercepat pemuatan data AI/ML dengan Hyperdisk ML
Pelajari cara menyederhanakan dan mempercepat pemuatan bobot model AI/ML di GKE menggunakan Hyperdisk ML.
Menyajikan LLM menggunakan TPU di GKE dengan JetStream dan PyTorch
Pelajari cara menayangkan LLM menggunakan Tensor Processing Unit (TPU) di GKE dengan JetStream melalui PyTorch.
Praktik terbaik untuk mengoptimalkan inferensi LLM dengan GPU di GKE
Pelajari praktik terbaik untuk mengoptimalkan performa inferensi LLM dengan GPU di GKE menggunakan framework penayangan vLLM dan Text Generation Inference (TGI).
Mengelola Stack GPU dengan Operator GPU NVIDIA di GKE
Pelajari kapan harus menggunakan operator GPU NVIDIA dan cara mengaktifkan Operator GPU NVIDIA di GKE.
Mengonfigurasi penskalaan otomatis untuk workload LLM di TPU
Pelajari cara menyiapkan infrastruktur penskalaan otomatis menggunakan Autoscaler Pod Horizontal (HPA) GKE untuk men-deploy Gemma LLM menggunakan JetStream satu host.
Menyesuaikan model terbuka Gemma menggunakan beberapa GPU di GKE
Pelajari cara menyesuaikan Gemma LLM menggunakan GPU di GKE dengan library Hugging Face Transformers.
Men-deploy aplikasi Ray Serve dengan model Stable Diffusion di GKE dengan TPU
Pelajari cara men-deploy dan menayangkan model Diffusion Stabil di GKE menggunakan TPU, Ray Serve, dan add-on Ray Operator.
Mengonfigurasi penskalaan otomatis untuk workload LLM di GPU dengan GKE
Pelajari cara menyiapkan infrastruktur penskalaan otomatis menggunakan Autoscaler Pod Horizontal (HPA) GKE untuk men-deploy Gemma LLM dengan framework penayangan Antarmuka Pembuatan Teks (TGI) Hugging Face.
Melatih Llama2 dengan Megatron-LM di virtual machine A3 Mega
Pelajari cara menjalankan workload PyTorch Megatron-LM berbasis container di A3 Mega.
Men-deploy beban kerja GPU di Autopilot
Pelajari cara meminta akselerator hardware (GPU) di workload Autopilot GKE Anda
Menyajikan LLM dengan beberapa GPU di GKE
Pelajari cara menayangkan Llama 2 70B atau Falcon 40B menggunakan beberapa GPU NVIDIA L4 dengan GKE.
Memulai Ray di GKE
Pelajari cara mudah menggunakan Ray di GKE dengan menjalankan workload di cluster Ray.
Menyajikan LLM di GPU L4 dengan Ray
Pelajari cara menayangkan Falcon 7b, Llama2 7b, Falcon 40b, atau Llama2 70b menggunakan framework Ray di GKE.
Mengorkestrasikan workload TPU Multislice menggunakan JobSet dan Kueue
Pelajari cara mengatur workload Jax di beberapa slice TPU di GKE menggunakan JobSet dan Kueue.
Memantau workload GPU di GKE dengan NVIDIA Data Center GPU Manager (DCGM)
Pelajari cara mengamati workload GPU di GKE dengan NVIDIA Data Center GPU Manager (DCGM).
Panduan memulai: Melatih model dengan GPU di cluster GKE Standard
Panduan memulai ini menunjukkan cara men-deploy model pelatihan dengan GPU di GKE dan menyimpan prediksi di Cloud Storage.
Menjalankan machine learning berskala besar di GKE
Video ini menunjukkan cara GKE membantu memecahkan tantangan umum dalam melatih model AI besar dalam skala besar, dan praktik terbaik untuk melatih dan menyediakan model machine learning berskala besar di GKE.
TensorFlow di Autopilot GKE dengan akselerasi GPU
Postingan blog ini adalah panduan langkah demi langkah untuk pembuatan, eksekusi, dan pembongkaran notebook Jupiter dengan dukungan Tensorflow.
Mengimplementasikan sistem antrean Tugas dengan berbagi kuota antar-namespace di GKE
Tutorial ini menggunakan Kueue untuk menunjukkan cara menerapkan sistem antrean Tugas, serta mengonfigurasi resource workload dan pembagian kuota antar-namespace yang berbeda di GKE.
Membuat chatbot RAG dengan GKE dan Cloud Storage
Tutorial ini menunjukkan cara mengintegrasikan aplikasi Model Bahasa Besar berdasarkan pembuatan yang ditingkatkan pengambilan dengan file PDF yang Anda upload ke bucket Cloud Storage.
Menganalisis data di GKE menggunakan BigQuery, Cloud Run, dan Gemma
Tutorial ini menunjukkan cara menganalisis set data besar di GKE dengan memanfaatkan BigQuery untuk penyimpanan dan pemrosesan data, Cloud Run untuk penanganan permintaan, dan Gemma LLM untuk analisis dan prediksi data.
Prapemrosesan data terdistribusi dengan GKE dan Ray: Penskalaan untuk perusahaan
Pelajari cara memanfaatkan GKE dan Ray untuk memproses data set besar secara efisien untuk machine learning.
Praktik terbaik pemuatan data untuk inferensi AI/ML di GKE
Pelajari cara mempercepat waktu pemuatan data untuk aplikasi machine learning Anda di Google Kubernetes Engine.
Hemat GPU: Penskalaan otomatis yang lebih cerdas untuk workload inferensi GKE Anda
Pelajari cara mengoptimalkan biaya inferensi GPU dengan menyesuaikan Horizontal Pod Autoscaler GKE untuk efisiensi maksimum.
Menayangkan model AI yang dioptimalkan secara efisien dengan microservice NVIDIA NIM di GKE
Pelajari cara men-deploy microservice NVIDIA NIM canggih di GKE dengan mudah dan mempercepat workload AI Anda.
Mempercepat Ray dalam produksi dengan Ray Operator baru di GKE
Pelajari cara Ray Operator di GKE menyederhanakan deployment produksi AI/ML Anda, sehingga meningkatkan performa dan skalabilitas.
Memaksimalkan throughput penayangan LLM untuk GPU di GKE — panduan praktis
Pelajari cara memaksimalkan throughput penayangan model bahasa besar (LLM) untuk GPU di GKE, termasuk keputusan infrastruktur dan pengoptimalan server model.
Mesin telusur yang dibuat sederhana: Pendekatan low code dengan GKE dan Vertex AI Agent Builder
Cara mem-build mesin telusur dengan Google Cloud, menggunakan Vertex AI Agent Builder, Vertex AI Search, dan GKE.
LiveX AI mengurangi biaya dukungan pelanggan dengan agen AI yang dilatih dan ditayangkan di GKE dan NVIDIA AI
Cara LiveX AI menggunakan GKE untuk membuat agen AI yang meningkatkan kepuasan pelanggan dan mengurangi biaya.
Infrastruktur untuk aplikasi AI generatif berkemampuan RAG menggunakan GKE
Arsitektur referensi untuk menjalankan aplikasi AI generatif dengan retrieval-augmented generation (RAG) menggunakan GKE, Cloud SQL, Ray, Hugging Face, dan LangChain.
Berinovasi dalam penelusuran paten: Cara IPRally memanfaatkan AI dengan GKE dan Ray
Cara IPRally menggunakan GKE dan Ray untuk membuat platform ML yang skalabel dan efisien untuk penelusuran paten yang lebih cepat dengan akurasi yang lebih baik.
Pembahasan mendalam performa Gemma di Google Cloud
Manfaatkan Gemma di Cloud GPU dan Cloud TPU untuk efisiensi inferensi dan pelatihan di GKE.
Gemma di pembahasan GKE secara mendalam: Inovasi baru dalam menyajikan model AI generatif terbuka
Gunakan model terbuka Gemma terbaik di kelasnya untuk membuat aplikasi AI yang portabel dan dapat disesuaikan, lalu men-deploynya di GKE.
Penjadwalan lanjutan untuk AI/ML dengan Ray dan Kueue
Mengorkestrasi aplikasi Ray di GKE dengan KubeRay dan Kueue.
Cara mengamankan Ray di Google Kubernetes Engine
Terapkan insight keamanan dan teknik hardening untuk melatih workload AI/ML menggunakan Ray di GKE.
Mendesain penyimpanan untuk workload AI dan ML di Google Cloud
Pilih kombinasi opsi penyimpanan terbaik untuk workload AI dan ML di Google Cloud.
Penginstalan driver otomatis menyederhanakan penggunaan GPU NVIDIA di GKE
Menginstal driver GPU Nvidia secara otomatis di GKE.
Percepat perjalanan AI generatif Anda dengan framework NVIDIA NeMo di GKEE
Melatih model AI generatif menggunakan GKE dan framework NVIDIA NeMo.
Mengapa GKE untuk workload Ray AI Anda?
Tingkatkan skalabilitas, efisiensi biaya, toleransi error, isolasi, dan portabilitas dengan menggunakan GKE untuk workload Ray.
Menjalankan AI di GKE yang terkelola sepenuhnya, kini dengan opsi komputasi, harga, dan reservasi resource baru
Dapatkan dukungan GPU, performa, dan harga yang lebih rendah untuk workload AI/ML dengan GKE Autopilot.
Cara SEEN menskalakan output 89x dan mengurangi biaya GPU sebesar 66% menggunakan GKE
Startup menskalakan output video yang dipersonalisasi dengan GKE.
Cara Spotify meluncurkan Inovasi ML dengan Ray dan GKE
Cara Ray mengubah pengembangan ML di Spotify.
Cara Ordaōs Bio memanfaatkan AI generatif di GKE
Ordaōs Bio, salah satu akselerator AI terkemuka untuk penelitian dan penemuan biomedis, sedang mencari solusi terhadap imunoterapi baru untuk onkologi dan penyakit inflamasi kronis.
GKE dari startup yang sedang berkembang yang didukung oleh ML
Cara Moloco, sebuah startup Silicon Valley, memanfaatkan kecanggihan GKE dan Tensor Flow Enterprise untuk meningkatkan infrastruktur machine learning (ML)-nya.
Contoh Google Kubernetes Engine (GKE)
Lihat contoh aplikasi yang digunakan dalam tutorial produk GKE resmi.
Contoh GKE AI Labs
Lihat contoh eksperimental untuk memanfaatkan GKE guna mempercepat inisiatif AI/ML Anda.