Google Cloud berfokus pada penyediaan kecerdasan buatan (AI) kelas dunia infrastruktur IT untuk mendukung beban kerja Anda yang paling rumit dengan akselerasi GPU di seluruh berbagai segmen. Anda dapat menggunakan GPU di Google Cloud untuk menjalankan AI, learning (ML), ilmiah, analisis, engineering, konsumen, dan perusahaan menggunakan berbagai aplikasi obrolan.
Melalui kemitraan kami dengan NVIDIA, Google Cloud memberikan GPU terbaru sekaligus untuk mengoptimalkan tumpukan perangkat lunak dengan beragam penyimpanan dan jaringan lainnya. Untuk mengetahui daftar lengkap GPU yang tersedia, lihat platform GPU.
Bagian berikut menguraikan manfaat GPU di Google Cloud.
VM yang diakselerasi GPU
Di Google Cloud, Anda dapat mengakses dan menyediakan GPU dengan cara yang paling sesuai dan kebutuhan Anda. Kelompok mesin yang dioptimalkan akselerator khusus tersedia, dengan GPU yang terpasang dan kemampuan jaringan yang ideal untuk memaksimalkan performa. Ini tersedia di mesin A3, A2, dan G2 Workspace kami.
Beberapa opsi penyediaan
Anda dapat menyediakan cluster menggunakan kelompok mesin yang dioptimalkan akselerator dengan salah satu produk open source atau Google Cloud berikut.
Vertex AI
Vertex AI adalah platform machine learning (ML) yang terkelola sepenuhnya dan digunakan untuk melatih dan men-deploy model ML dan aplikasi AI. Di Vertex AI lain, Anda dapat menggunakan VM yang diakselerasi GPU untuk meningkatkan kinerja cara berikut:
- Gunakan VM berkemampuan GPU dalam kumpulan pekerja GKE pelatihan kustom.
- Gunakan model LLM open source dari Vertex AI Model Garden.
- Mengurangi latensi prediksi.
- Meningkatkan performa kode notebook Vertex AI Workbench.
- Meningkatkan performa runtime Colab Enterprise.
GKE dan Slurm
Platform orkestrasi berskala besar, seperti GKE, ideal untuk cluster besar yang dapat digunakan untuk melatih dan meningkatkan kualitas ML skala besar jaringan. Model ML skala besar adalah model yang menggunakan data dalam jumlah besar.
Platform orkestrasi berikut tersedia di Google Cloud.
Google Kubernetes Engine (GKE): adalah layanan yang dapat Anda gunakan gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container berskala besar menggunakan infrastruktur IT.
Slurm: merupakan tugas dan pengelolaan cluster open source penjadwalan. Di Google Cloud, Anda dapat men-deploy cluster Slurm menggunakan Toolkit Cluster.
Jalankan pelatihan dan fine-tuning model berskala besar
Untuk melatih atau melakukan fine-tuning model berskala besar, kami sarankan untuk menggunakan sebuah cluster
a3-megagpu-8g
mesin dan men-deploy dengan penjadwal seperti
GKE atau Slurm.
Opsi deployment |
Panduan deployment |
Slurm |
|
GKE |
Jalankan pelatihan dan fine-tuning model umum
Untuk pelatihan dan penyesuaian model umum, sebaiknya gunakan
a3-highgpu-8g
standar, atau jenis mesin A2 atau G2 apa pun dan men-deploy dengan
seperti GKE atau Slurm.
Opsi deployment |
Panduan deployment |
Beban kerja |
GKE |
Inferensi: Menyajikan model di GKE Pelatihan: Melatih model di GKE |
|
Slurm |
Compute Engine
Anda juga dapat membuat dan mengelola satu VM atau cluster VM yang lebih kecil dengan terpasang GPU di Compute Engine. Metode ini ideal untuk menjalankan workload intensif grafis.
Opsi deployment |
Panduan deployment |
Membuat grup instance terkelola (MIG) |
|
Membuat VM secara massal |
|
Membuat satu VM |
|
Membuat workstation virtual |
Cloud Run
Anda dapat mengonfigurasi GPU untuk layanan Cloud Run. GPU cocok untuk menjalankan workload inferensi AI menggunakan model bahasa besar di Cloud Run.
Di Cloud Run, lihat referensi berikut untuk menjalankan workload AI pada GPU:
- Mengonfigurasi GPU untuk layanan Cloud Run
- Memuat model ML besar di Cloud Run dengan GPU
- Tutorial: Menjalankan inferensi LLM pada GPU Cloud Run dengan Ollama