Dokumen ini menjelaskan cara menggunakan pemesanan Compute Engine untuk mendapatkan tingkat kepastian yang tinggi bahwa tugas prediksi Anda memiliki resource yang diperlukan untuk dijalankan.
Untuk memastikan bahwa tugas prediksi Anda memiliki resource instance virtual machine (VM) yang tersedia saat dibutuhkan, gunakan reservasi Compute Engine. Pemesanan memberikan tingkat jaminan yang tinggi dalam mendapatkan kapasitas untuk satu atau beberapa VM dengan konfigurasi hardware yang ditentukan. Pemesanan untuk VM akan menimbulkan biaya VM tersebut sejak Anda membuat pemesanan hingga Anda menghapus pemesanan. Namun, saat Anda menggunakan VM tersebut, biaya totalnya setara dengan VM tanpa reservasi. Untuk mempelajari lebih lanjut, lihat Pemesanan resource zona Compute Engine.
Batasan dan persyaratan
Saat menggunakan reservasi Compute Engine dengan Vertex AI, pertimbangkan batasan dan persyaratan berikut:
- Vertex AI hanya dapat menggunakan pemesanan VM yang telah memasang GPU.
- Penggunaan reservasi Compute Engine dengan Vertex AI hanya didukung untuk pelatihan dan prediksi kustom.
- Properti VM pemesanan harus sama persis dengan beban kerja Vertex AI Anda
untuk menggunakan pemesanan. Misalnya, jika reservasi menentukan
jenis mesin
a2-ultragpu-8g
, beban kerja Vertex AI hanya dapat menggunakan reservasi jika juga menggunakan jenis mesina2-ultragpu-8g
. Lihat Persyaratan. - Untuk menggunakan reservasi bersama VM GPU, Anda harus menggunakannya menggunakan project pemiliknya atau project konsumen yang menggunakan reservasi tersebut. Lihat Cara kerja pemesanan bersama.
- Untuk mendukung update reguler deployment Vertex AI, sebaiknya tingkatkan jumlah VM Anda setidaknya 1 VM tambahan untuk setiap deployment serentak.
-
Layanan dan kemampuan berikut tidak didukung saat menggunakan pemesanan Compute Engine dengan prediksi Vertex AI:
- Kepatuhan terhadap Federal Risk and Authorization Management Program (FedRAMP)
Penagihan
Saat menggunakan pemesanan Compute Engine, Anda akan ditagih untuk hal-hal berikut:
- Harga Compute Engine untuk resource Compute Engine, termasuk diskon abonemen (DA) yang berlaku. Lihat harga Compute Engine.
- Biaya pengelolaan prediksi Vertex AI selain penggunaan infrastruktur Anda. Lihat Harga prediksi.
Sebelum memulai
- Tinjau persyaratan dan batasan untuk pemesanan.
- Tinjau persyaratan kuota dan batasan untuk pemesanan bersama.
Mengizinkan reservasi digunakan
Sebelum menggunakan reservasi VM GPU, Anda harus menetapkan kebijakan berbagi untuk mengizinkan Vertex AI menggunakan reservasi. Untuk melakukannya, gunakan salah satu metode berikut:
Mengizinkan penggunaan saat membuat reservasi
Saat membuat VM GPU satu project atau pemesanan bersama, Anda dapat mengizinkan Vertex AI menggunakan pemesanan sebagai berikut:
- Jika Anda menggunakan konsol Google Cloud, di bagian Layanan Google Cloud, pilih Bagikan reservasi.
- Jika Anda menggunakan Google Cloud CLI, sertakan flag
--reservation-sharing-policy
yang ditetapkan keALLOW_ALL
. - Jika Anda menggunakan REST API, dalam isi permintaan, sertakan kolom
serviceShareType
yang ditetapkan keALLOW_ALL
.
Mengizinkan pemakaian dalam reservasi yang ada
Untuk mengizinkan Vertex AI menggunakan reservasi VM GPU yang ada, lihat Mengubah kebijakan berbagi reservasi.Mendapatkan prediksi menggunakan reservasi
Untuk membuat deployment model yang menggunakan pemesanan Compute Engine untuk VM GPU, gunakan REST API atau Vertex AI SDK untuk Python.
REST
Sebelum menggunakan data permintaan mana pun, lakukan penggantian berikut:
- LOCATION_ID: Region tempat Anda menggunakan Vertex AI.
- PROJECT_ID: project tempat reservasi dibuat. Untuk menggunakan pemesanan bersama dari project lain, Anda harus membagikan pemesanan tersebut ke project tersebut. Untuk mengetahui informasi selengkapnya, lihat Mengubah project konsumen dalam pemesanan bersama.
- ENDPOINT_ID: ID untuk endpoint.
- MODEL_ID: ID untuk model yang akan di-deploy.
-
DEPLOYED_MODEL_NAME: Nama untuk
DeployedModel
. Anda juga dapat menggunakan nama tampilanModel
untukDeployedModel
. - MACHINE_TYPE: jenis mesin yang akan digunakan untuk setiap node dalam deployment ini. Setelan default-nya
adalah
n1-standard-2
. Untuk informasi selengkapnya tentang jenis mesin yang didukung, lihat Mengonfigurasi resource komputasi untuk prediksi. - ACCELERATOR_TYPE: jenis akselerator yang akan dipasang ke mesin. Untuk mengetahui informasi selengkapnya tentang jenis GPU yang didukung setiap jenis mesin, lihat GPU untuk beban kerja komputasi.
- ACCELERATOR_COUNT: jumlah akselerator yang akan dipasang ke mesin.
- RESERVATION_AFFINITY_TYPE: Harus berupa
ANY
,SPECIFIC_RESERVATION
, atauNONE
.ANY
berarti VMcustomJob
Anda secara otomatis dapat menggunakan reservasi apa pun dengan properti yang cocok.SPECIFIC_RESERVATION
berarti VMcustomJob
Anda hanya dapat menggunakan reservasi yang secara khusus ditargetkan oleh VM berdasarkan nama.NONE
berarti VMcustomJob
Anda tidak dapat menggunakan pemesanan apa pun. MenentukanNONE
memiliki efek yang sama dengan menghilangkan spesifikasi afinitas reservasi.
- RESERVATION_NAME: nama pemesanan Anda.
- MIN_REPLICA_COUNT: Jumlah minimum node untuk deployment ini. Jumlah node dapat ditambah atau dikurangi sesuai kebutuhan oleh beban prediksi hingga mencapai jumlah maksimum node, dan node tidak pernah kurang dari jumlah ini. Nilai ini harus lebih besar dari atau sama dengan 1.
- MAX_REPLICA_COUNT: Jumlah maksimum node untuk deployment ini. Jumlah node dapat ditingkatkan atau diturunkan sesuai kebutuhan beban prediksi, hingga mencapai jumlah maksimum node dan tidak pernah kurang dari jumlah ini.
- TRAFFIC_SPLIT_THIS_MODEL: persentase traffic prediksi ke endpoint ini yang akan dirutekan ke model yang di-deploy dengan operasi ini. Setelan defaultnya adalah 100. Semua persentase traffic harus berjumlah 100. Pelajari pemisahan traffic lebih lanjut.
- DEPLOYED_MODEL_ID_N: Opsional. Jika model lain di-deploy ke endpoint ini, Anda harus memperbarui persentase pemisahan traffic agar semua persentase berjumlah 100.
- TRAFFIC_SPLIT_MODEL_N: nilai persentase pemisahan traffic untuk kunci ID model yang di-deploy.
- PROJECT_NUMBER: Nomor project yang dibuat secara otomatis untuk project Anda.
Metode HTTP dan URL:
POST https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel
Meminta isi JSON:
{ "deployedModel": { "model": "projects/PROJECT/locations/LOCATION_ID/models/MODEL_ID", "displayName": "DEPLOYED_MODEL_NAME", "dedicatedResources": { "machineSpec": { "machineType": "MACHINE_TYPE", "acceleratorType": "ACCELERATOR_TYPE", "acceleratorCount": ACCELERATOR_COUNT, "reservationAffinity": { "reservationAffinityType": "RESERVATION_AFFINITY_TYPE", "key": "compute.googleapis.com/reservation-name", "values": [ "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME" ] } }, "minReplicaCount": MIN_REPLICA_COUNT, "maxReplicaCount": MAX_REPLICA_COUNT }, }, "trafficSplit": { "0": TRAFFIC_SPLIT_THIS_MODEL, "DEPLOYED_MODEL_ID_1": TRAFFIC_SPLIT_MODEL_1, "DEPLOYED_MODEL_ID_2": TRAFFIC_SPLIT_MODEL_2 }, }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata", "genericMetadata": { "createTime": "2020-10-19T17:53:16.502088Z", "updateTime": "2020-10-19T17:53:16.502088Z" } } }
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.
Sebelum menjalankan skrip berikut, lakukan penggantian berikut:
- DEPLOYED_NAME: nama untuk model yang di-deploy.
- TRAFFIC_SPLIT: nilai persentase pemisahan traffic untuk kunci ID model yang di-deploy.
- MACHINE_TYPE: mesin yang digunakan untuk setiap node deployment ini. Setelan defaultnya adalah
n1-standard-2
. Pelajari jenis mesin lebih lanjut. - ACCELERATOR_TYPE: jenis akselerator yang akan dipasang ke mesin. Untuk mengetahui informasi selengkapnya tentang jenis GPU yang didukung setiap jenis mesin, lihat GPU untuk beban kerja komputasi.
- ACCELERATOR_COUNT: jumlah akselerator yang akan dipasang ke mesin.
- PROJECT_ID: project tempat reservasi dibuat. Untuk menggunakan pemesanan bersama dari project lain, Anda harus membagikan pemesanan tersebut ke project tersebut. Untuk informasi selengkapnya, lihat Mengubah project konsumen dalam pemesanan bersama.
- ZONE: zona tempat pemesanan berada.
- RESERVATION_NAME: nama pemesanan Anda.
- MIN_REPLICA_COUNT: Jumlah minimum node untuk deployment ini. Jumlah node dapat ditingkatkan atau diturunkan sesuai kebutuhan beban prediksi, hingga mencapai jumlah maksimum node dan tidak pernah kurang dari jumlah ini. Nilai ini harus lebih besar dari atau sama dengan 1.
- MAX_REPLICA_COUNT: Jumlah maksimum node untuk deployment ini. Jumlah node dapat ditingkatkan atau diturunkan sesuai kebutuhan beban prediksi, hingga mencapai jumlah maksimum node dan tidak pernah kurang dari jumlah ini.
Bergantung pada jenis reservasi yang ingin Anda gunakan, lakukan salah satu hal berikut:
- Untuk menggunakan reservasi tertentu:
endpoint5.deploy( model = model, deployed_model_display_name=DEPLOYED_NAME, traffic_split=TRAFFIC_SPLIT, machine_type="MACHINE_TYPE", accelerator_type="ACCELERATOR_TYPE", accelerator_count=ACCELERATOR_COUNT, reservation_affinity_type="SPECIFIC_RESERVATION", reservation_affinity_key="compute.googleapis.com/reservation-name", reservation_affinity_values=["projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME"], min_replica_count=MIN_REPLICA_COUNT, max_replica_count=MAX_REPLICA_COUNT, sync=True )
- Untuk menggunakan reservasi yang digunakan secara otomatis:
endpoint5.deploy( model = model, deployed_model_display_name=DEPLOYED_NAME, traffic_split=TRAFFIC_SPLIT, machine_type="MACHINE_TYPE", accelerator_type="ACCELERATOR_TYPE", accelerator_count=ACCELERATOR_COUNT, reservation_affinity_type="ANY_RESERVATION", min_replica_count=MIN_REPLICA_COUNT, max_replica_count=MAX_REPLICA_COUNT, sync=True )
Langkah selanjutnya
- Pelajari lebih lanjut reservasi resource zona Compute Engine.
- Pelajari cara menggunakan reservasi dengan pelatihan Vertex AI.