Tentang GPU di Google Cloud


Google Cloud berfokus pada penyediaan infrastruktur kecerdasan buatan (AI) kelas dunia untuk mendukung workload Anda yang paling membutuhkan akselerasi GPU di berbagai segmen. Anda dapat menggunakan GPU di Google Cloud untuk menjalankan aplikasi AI, machine learning (ML), ilmiah, analisis, engineering, konsumen, dan perusahaan.

Melalui kemitraan kami dengan NVIDIA, Google Cloud memberikan GPU terbaru sekaligus mengoptimalkan stack software dengan berbagai opsi penyimpanan dan jaringan. Untuk mengetahui daftar lengkap GPU yang tersedia, lihat platform GPU.

Bagian berikut menguraikan manfaat GPU di Google Cloud.

VM yang diakselerasi GPU

Di Google Cloud, Anda dapat mengakses dan menyediakan GPU dengan cara yang paling sesuai dengan kebutuhan Anda. Tersedia kelompok mesin yang dioptimalkan akselerator khusus, dengan GPU yang telah terpasang dan kemampuan jaringan yang ideal untuk memaksimalkan performa. Alat ini tersedia dalam seri mesin A3, A2, dan G2.

Beberapa opsi penyediaan

Anda dapat menyediakan cluster menggunakan kelompok mesin yang dioptimalkan akselerator dengan salah satu produk open source atau Google Cloud berikut.

Vertex AI

Vertex AI adalah platform machine learning (ML) terkelola sepenuhnya yang dapat Anda gunakan untuk melatih dan men-deploy model ML dan aplikasi AI. Pada aplikasi Vertex AI, Anda dapat menggunakan VM yang diakselerasi GPU untuk meningkatkan performa dengan cara berikut:

GKE dan Slurm

Platform orkestrasi skala besar, seperti GKE, ideal untuk menyediakan cluster besar yang dapat digunakan untuk melatih dan meningkatkan model ML skala besar. Model ML skala besar adalah model yang menggunakan data dalam jumlah besar.

Platform orkestrasi berikut tersedia di Google Cloud.

  • Google Kubernetes Engine (GKE): adalah layanan yang dapat Anda gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container dalam skala besar menggunakan infrastruktur Google.

  • Slurm: adalah alat pengelolaan cluster dan penjadwalan tugas open source. Di Google Cloud, Anda dapat men-deploy cluster Slurm menggunakan Cloud HPC Toolkit.

Menjalankan pelatihan dan penyempurnaan model skala besar

Untuk melatih atau meningkatkan kualitas model skala besar, sebaiknya gunakan cluster mesin a3-megagpu-8g dan deploy dengan penjadwal seperti GKE atau Slurm.

Opsi deployment

Panduan deployment

Slurm

Men-deploy cluster A3 Mega Slurm

GKE

Men-deploy cluster A3 Mega dengan GKE

Menjalankan pelatihan dan penyempurnaan model umum

Untuk melatih dan menyesuaikan model umum, sebaiknya gunakan a3-highgpu-8g standar, atau jenis mesin A2 atau G2 apa pun, dan lakukan deployment dengan penjadwal seperti GKE atau Slurm.

Opsi deployment

Panduan deployment

Beban kerja

GKE

Men-deploy kumpulan node autopilot atau standar

Inferensi: Menyajikan model di GKE

Pelatihan: Melatih model di GKE

Slurm

Menjalankan fine tuning Llama-2 di cluster G2 Slurm

Compute Engine

Anda juga dapat membuat dan mengelola VM tunggal atau cluster VM yang lebih kecil dengan GPU terpasang di Compute Engine. Metode ini ideal untuk menjalankan beban kerja grafis yang intensif.

Opsi deployment

Panduan deployment

Membuat grup instance terkelola (MIG)

Membuat MIG dengan VM GPU

Membuat VM secara massal

Membuat grup VM GPU secara massal

Membuat satu VM

Membuat VM GPU tunggal

Membuat workstation virtual

Membuat workstation virtual yang diakselerasi GPU