Vertex AI mengalokasikan node untuk menangani prediksi online dan batch.
Saat men-deploy model yang dilatih khusus atau model AutoML ke resource Endpoint
untuk menampilkan prediksi online atau saat meminta prediksi batch, Anda dapat menyesuaikan jenis virtual machine yang digunakan layanan prediksi untuk node ini. Anda dapat mengonfigurasi node prediksi secara opsional untuk menggunakan GPU.
Jenis mesin berbeda dalam beberapa hal:
- Jumlah CPU virtual (vCPU) per node
- Jumlah memori per node
- Harga
Dengan memilih jenis mesin dengan resource komputasi lebih banyak, Anda dapat menyajikan prediksi dengan latensi lebih rendah atau menangani lebih banyak permintaan prediksi secara bersamaan.
Mengelola biaya dan ketersediaan
Untuk membantu mengelola biaya atau memastikan ketersediaan resource VM, Vertex AI menyediakan hal berikut:
Untuk memastikan resource VM tersedia saat tugas prediksi Anda membutuhkannya, Anda dapat menggunakan reservasi Compute Engine. Pemesanan memberikan tingkat jaminan yang tinggi dalam mendapatkan kapasitas untuk resource Compute Engine. Untuk mengetahui informasi selengkapnya, lihat Menggunakan reservasi dengan prediksi.
Untuk mengurangi biaya menjalankan tugas prediksi, Anda dapat menggunakan VM Spot. Spot VM adalah instance virtual machine (VM) yang merupakan kapasitas Compute Engine berlebih. Spot VM memiliki diskon yang signifikan, tetapi Compute Engine dapat menghentikan atau menghapus Spot VM secara preemptive untuk mengklaim kembali kapasitas kapan saja. Untuk mengetahui informasi selengkapnya, baca artikel Menggunakan Spot VM dengan prediksi.
Tempat menentukan resource komputasi
Prediksi online
Jika ingin menggunakan model yang dilatih khusus atau model tabulasi AutoML untuk menyajikan prediksi online, Anda harus menentukan jenis mesin saat men-deploy resource Model
sebagai DeployedModel
ke Endpoint
. Untuk jenis model AutoML
lainnya, Vertex AI mengonfigurasi jenis mesin secara otomatis.
Tentukan jenis mesin (dan, secara opsional, konfigurasi GPU) di
kolom dedicatedResources.machineSpec
DeployedModel
.
Pelajari cara men-deploy setiap jenis model:
- Men-deploy model tabulasi AutoML di Konsol Google Cloud
- Men-deploy model yang dilatih khusus di Konsol Google Cloud
- Men-deploy model yang dilatih khusus menggunakan library klien
Prediksi batch
Jika ingin mendapatkan prediksi batch dari model yang dilatih khusus atau model tabulasi AutoML, Anda harus menentukan jenis mesin saat membuat resource BatchPredictionJob
. Tentukan
jenis mesin (dan, secara opsional, konfigurasi GPU) di
kolom dedicatedResources.machineSpec
pada
BatchPredictionJob
.
Jenis mesin
Tabel berikut membandingkan jenis mesin yang tersedia untuk menyajikan prediksi dari model yang dilatih khusus dan model tabulasi AutoML:
Seri E2
Nama | vCPU | Memori (GB) |
---|---|---|
e2-standard-2 |
2 | 8 |
e2-standard-4 |
4 | 16 |
e2-standard-8 |
8 | 32 |
e2-standard-16 |
16 | 64 |
e2-standard-32 |
32 | 128 |
e2-highmem-2 |
2 | 16 |
e2-highmem-4 |
4 | 32 |
e2-highmem-8 |
8 | 64 |
e2-highmem-16 |
16 | 128 |
e2-highcpu-2 |
2 | 2 |
e2-highcpu-4 |
4 | 4 |
e2-highcpu-8 |
8 | 8 |
e2-highcpu-16 |
16 | 16 |
e2-highcpu-32 |
32 | 32 |
Seri N1
Nama | vCPU | Memori (GB) |
---|---|---|
n1-standard-2 |
2 | 7,5 |
n1-standard-4 |
4 | 15 |
n1-standard-8 |
8 | 30 |
n1-standard-16 |
16 | 60 |
n1-standard-32 |
32 | 120 |
n1-highmem-2 |
2 | 13 |
n1-highmem-4 |
4 | 26 |
n1-highmem-8 |
8 | 52 |
n1-highmem-16 |
16 | 104 |
n1-highmem-32 |
32 | 208 |
n1-highcpu-4 |
4 | 3,6 |
n1-highcpu-8 |
8 | 7,2 |
n1-highcpu-16 |
16 | 14,4 |
n1-highcpu-32 |
32 | 28,8 |
Seri N2
Nama | vCPU | Memori (GB) |
---|---|---|
n2-standard-2 |
2 | 8 |
n2-standard-4 |
4 | 16 |
n2-standard-8 |
8 | 32 |
n2-standard-16 |
16 | 64 |
n2-standard-32 |
32 | 128 |
n2-standard-48 |
48 | 192 |
n2-standard-64 |
64 | 256 |
n2-standard-80 |
80 | 320 |
n2-standard-96 |
96 | 384 |
n2-standard-128 |
128 | 512 |
n2-highmem-2 |
2 | 16 |
n2-highmem-4 |
4 | 32 |
n2-highmem-8 |
8 | 64 |
n2-highmem-16 |
16 | 128 |
n2-highmem-32 |
32 | 256 |
n2-highmem-48 |
48 | 384 |
n2-highmem-64 |
64 | 512 |
n2-highmem-80 |
80 | 640 |
n2-highmem-96 |
96 | 768 |
n2-highmem-128 |
128 | 864 |
n2-highcpu-2 |
2 | 2 |
n2-highcpu-4 |
4 | 4 |
n2-highcpu-8 |
8 | 8 |
n2-highcpu-16 |
16 | 16 |
n2-highcpu-32 |
32 | 32 |
n2-highcpu-48 |
48 | 48 |
n2-highcpu-64 |
64 | 64 |
n2-highcpu-80 |
80 | 80 |
n2-highcpu-96 |
96 | 96 |
Seri N2D
Nama | vCPU | Memori (GB) |
---|---|---|
n2d-standard-2 |
2 | 8 |
n2d-standard-4 |
4 | 16 |
n2d-standard-8 |
8 | 32 |
n2d-standard-16 |
16 | 64 |
n2d-standard-32 |
32 | 128 |
n2d-standard-48 |
48 | 192 |
n2d-standard-64 |
64 | 256 |
n2d-standard-80 |
80 | 320 |
n2d-standard-96 |
96 | 384 |
n2d-standard-128 |
128 | 512 |
n2d-standard-224 |
224 | 896 |
n2d-highmem-2 |
2 | 16 |
n2d-highmem-4 |
4 | 32 |
n2d-highmem-8 |
8 | 64 |
n2d-highmem-16 |
16 | 128 |
n2d-highmem-32 |
32 | 256 |
n2d-highmem-48 |
48 | 384 |
n2d-highmem-64 |
64 | 512 |
n2d-highmem-80 |
80 | 640 |
n2d-highmem-96 |
96 | 768 |
n2d-highcpu-2 |
2 | 2 |
n2d-highcpu-4 |
4 | 4 |
n2d-highcpu-8 |
8 | 8 |
n2d-highcpu-16 |
16 | 16 |
n2d-highcpu-32 |
32 | 32 |
n2d-highcpu-48 |
48 | 48 |
n2d-highcpu-64 |
64 | 64 |
n2d-highcpu-80 |
80 | 80 |
n2d-highcpu-96 |
96 | 96 |
n2d-highcpu-128 |
128 | 128 |
n2d-highcpu-224 |
224 | 224 |
Seri C2
Nama | vCPU | Memori (GB) |
---|---|---|
c2-standard-4 |
4 | 16 |
c2-standard-8 |
8 | 32 |
c2-standard-16 |
16 | 64 |
c2-standard-30 |
30 | 120 |
c2-standard-60 |
60 | 240 |
Seri C2D
Nama | vCPU | Memori (GB) |
---|---|---|
c2d-standard-2 |
2 | 8 |
c2d-standard-4 |
4 | 16 |
c2d-standard-8 |
8 | 32 |
c2d-standard-16 |
16 | 64 |
c2d-standard-32 |
32 | 128 |
c2d-standard-56 |
56 | 224 |
c2d-standard-112 |
112 | 448 |
c2d-highcpu-2 |
2 | 4 |
c2d-highcpu-4 |
4 | 8 |
c2d-highcpu-8 |
8 | 16 |
c2d-highcpu-16 |
16 | 32 |
c2d-highcpu-32 |
32 | 64 |
c2d-highcpu-56 |
56 | 112 |
c2d-highcpu-112 |
112 | 224 |
c2d-highmem-2 |
2 | 16 |
c2d-highmem-4 |
4 | 32 |
c2d-highmem-8 |
8 | 64 |
c2d-highmem-16 |
16 | 128 |
c2d-highmem-32 |
32 | 256 |
c2d-highmem-56 |
56 | 448 |
c2d-highmem-112 |
112 | 896 |
Seri C3
Nama | vCPU | Memori (GB) |
---|---|---|
c3-highcpu-4 |
4 | 8 |
c3-highcpu-8 |
8 | 16 |
c3-highcpu-22 |
22 | 44 |
c3-highcpu-44 |
44 | 88 |
c3-highcpu-88 |
88 | 176 |
c3-highcpu-176 |
176 | 352 |
Seri A2
Nama | vCPU | Memori (GB) | GPU (NVIDIA A100) |
---|---|---|---|
a2-highgpu-1g |
12 | 85 | 1 (A100 40GB) |
a2-highgpu-2g |
24 | 170 | 2 (A100 40GB) |
a2-highgpu-4g |
48 | 340 | 4 (A100 40GB) |
a2-highgpu-8g |
96 | 680 | 8 (A100 40GB) |
a2-megagpu-16g |
96 | 1360 | 16 (A100 40GB) |
a2-ultragpu-1g |
12 | 170 | 1 (A100 80GB) |
a2-ultragpu-2g |
24 | 340 | 2 (A100 80GB) |
a2-ultragpu-4g |
48 | 680 | 4 (A100 80GB) |
a2-ultragpu-8g |
96 | 1360 | 8 (A100 80GB) |
Seri A3
Nama | vCPU | Memori (GB) | GPU (NVIDIA H100) |
---|---|---|---|
a3-highgpu-8g |
208 | 1872 | 8 (H100 80GB) |
Seri G2
Nama | vCPU | Memori (GB) | GPU (NVIDIA L4) |
---|---|---|---|
g2-standard-4 |
4 | 16 | 1 |
g2-standard-8 |
8 | 32 | 1 |
g2-standard-12 |
12 | 48 | 1 |
g2-standard-16 |
16 | 64 | 1 |
g2-standard-24 |
24 | 96 | 2 |
g2-standard-32 |
32 | 128 | 1 |
g2-standard-48 |
48 | 192 | 4 |
g2-standard-96 |
96 | 384 | 8 |
Pelajari harga untuk setiap jenis mesin. Baca selengkapnya tentang spesifikasi mendetail dari jenis mesin ini di dokumentasi Compute Engine tentang jenis mesin.
Menemukan jenis mesin yang ideal
Prediksi online
Untuk menemukan jenis mesin yang ideal untuk kasus penggunaan Anda, sebaiknya muat model Anda pada beberapa jenis mesin dan ukur karakteristik seperti latensi, biaya, konkurensi, dan throughput.
Salah satu cara untuk melakukannya adalah dengan menjalankan notebook ini di beberapa jenis mesin dan membandingkan hasilnya untuk menemukan yang paling cocok untuk Anda.
Vertex AI mencadangkan sekitar 1 vCPU pada setiap replika untuk menjalankan proses sistem. Artinya, menjalankan notebook pada satu jenis mesin inti akan sebanding dengan menggunakan jenis mesin 2 inti untuk menyajikan prediksi.
Saat mempertimbangkan biaya prediksi, ingat bahwa meskipun mesin yang lebih besar memerlukan biaya lebih mahal, biaya keseluruhan dapat diturunkan karena replika yang diperlukan untuk melayani workload yang sama berjumlah lebih sedikit. Hal ini sangat jelas untuk GPU, yang cenderung menghabiskan biaya lebih tinggi per jam, tetapi keduanya dapat memberikan latensi yang lebih rendah dan biaya yang lebih murah secara keseluruhan.
Prediksi batch
Untuk mengetahui informasi selengkapnya, lihat Memilih jenis mesin dan jumlah replika.
Akselerator GPU opsional
Beberapa konfigurasi, seperti seri A2 dan seri G2, memiliki jumlah GPU bawaan tetap.
Konfigurasi lain, seperti seri N1, memungkinkan Anda menambahkan GPU secara opsional untuk mempercepat setiap node prediksi.
Untuk menambahkan akselerator GPU opsional, Anda harus memperhitungkan beberapa persyaratan:
- Anda hanya dapat menggunakan GPU saat resource
Model
didasarkan pada TensorFlow SavedModel, atau saat Anda menggunakan container kustom yang telah dirancang untuk memanfaatkan GPU. Anda tidak dapat menggunakan GPU untuk model scikit-learn atau XGBoost. - Ketersediaan setiap jenis GPU bervariasi, bergantung pada region yang Anda gunakan untuk model. Pelajari jenis GPU apa yang tersedia di region mana.
- Anda hanya dapat menggunakan satu jenis GPU untuk resource
DeployedModel
atauBatchPredictionJob
, dan ada batasan jumlah GPU yang dapat ditambahkan bergantung pada jenis mesin yang Anda gunakan. Tabel berikut menjelaskan batasan ini.
Tabel berikut menunjukkan GPU opsional yang tersedia untuk prediksi online dan jumlah setiap jenis GPU yang dapat Anda gunakan dengan setiap jenis mesin Compute Engine:
Jumlah GPU yang valid untuk setiap jenis mesin | |||||
---|---|---|---|---|---|
Jenis mesin | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA Tesla P4 | NVIDIA Tesla T4 | |
n1-standard-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 | |
n1-highmem-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 | |
n1-highcpu-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 |
GPU opsional dikenai biaya tambahan.
Langkah selanjutnya
- Men-deploy model tabulasi AutoML di Konsol Google Cloud
- Men-deploy model yang dilatih khusus di Konsol Google Cloud
- Men-deploy model yang dilatih khusus menggunakan library klien
- Mendapatkan prediksi batch