Vertex AI weist Knoten für die Verarbeitung von Online- und Batchinferenzen zu.
Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein AutoML-Modell für eine Endpoint
-Ressource bereitstellen, um Onlineinferenzen bereitzustellen, oder wenn Sie Batchinferenzen anfordern, können Sie den Typ der virtuellen Maschine anpassen, die der Inferenzdienst für diese Knoten verwendet. Sie können Inferenzknoten optional für die Verwendung von GPUs konfigurieren.
Maschinentypen unterscheiden sich in verschiedener Hinsicht:
- Anzahl der virtuellen CPUs (vCPUs) pro Knoten
- Speichermenge pro Knoten
- Preise
Wenn Sie einen Maschinentyp mit mehr Rechenressourcen auswählen, können Sie Inferenzanfragen mit geringerer Latenz bereitstellen oder mehr Inferenzanfragen gleichzeitig verarbeiten.
Kosten und Verfügbarkeit verwalten
Vertex AI bietet folgende Funktionen, um die Kosten zu kontrollieren und die Verfügbarkeit von VM-Ressourcen zu gewährleisten:
Um sicherzustellen, dass VM-Ressourcen verfügbar sind, wenn Ihre Inferenzjobs sie benötigen, können Sie Compute Engine-Reservierungen verwenden. Reservierungen bieten ein hohes Maß an Sicherheit beim Beschaffen von Kapazitäten für Ressourcen von Compute Engine. Weitere Informationen finden Sie unter Reservierungen mit Inferenz verwenden.
Mit Spot-VMs können Sie die Kosten für die Ausführung Ihrer Inferenzjobs senken. Spot-VMs sind VM-Instanzen, die überschüssige Compute Engine-Kapazität darstellen. Für Spot-VMs gibt es erhebliche Rabatte. Compute Engine kann jedoch Spot-VMs jederzeit vorzeitig beenden oder löschen, um die Kapazität zurückzugewinnen. Weitere Informationen finden Sie unter Spot-VMs für die Inferenz verwenden.
Hier geben Sie Rechenressourcen an
Onlineinferenz
Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein tabellarisches AutoML-Modell für Onlineinferenzen verwenden möchten, müssen Sie einen Maschinentyp angeben, wenn Sie die Model
-Ressource als ein DeployedModel
an einem Endpoint
bereitstellen. Bei anderen Typen von AutoML-Modellen konfiguriert Vertex AI die Maschinentypen automatisch.
Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec
von DeployedModel
an.
Hier können Sie nachlesen, wie Sie die einzelnen Modelltypen bereitstellen:
- Tabellarisches AutoML-Modell in der Google Cloud Console bereitstellen
- Benutzerdefiniert trainiertes Modell in der Google Cloud Console bereitstellen
- Benutzerdefiniertes Modell mit Clientbibliotheken bereitstellen
Batchinferenz
Wenn Sie Batchvorhersagen von einem benutzerdefinierten Modell oder einem AutoML-Tabellenmodell erhalten möchten, müssen Sie beim Erstellen einer BatchPredictionJob
-Ressource einen Maschinentyp angeben. Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec
von BatchPredictionJob
an.
Maschinentypen
In der folgenden Tabelle werden die verfügbaren Maschinentypen für die Bereitstellung von Inferenzanfragen aus benutzerdefinierten Modellen und AutoML-Tabellenmodellen verglichen:
E2-Serie
Name | vCPUs | Arbeitsspeicher (GB) |
---|---|---|
e2-standard-2 |
2 | 8 |
e2-standard-4 |
4 | 16 |
e2-standard-8 |
8 | 32 |
e2-standard-16 |
16 | 64 |
e2-standard-32 |
32 | 128 |
e2-highmem-2 |
2 | 16 |
e2-highmem-4 |
4 | 32 |
e2-highmem-8 |
8 | 64 |
e2-highmem-16 |
16 | 128 |
e2-highcpu-2 |
2 | 2 |
e2-highcpu-4 |
4 | 4 |
e2-highcpu-8 |
8 | 8 |
e2-highcpu-16 |
16 | 16 |
e2-highcpu-32 |
32 | 32 |
N1-Serie
Name | vCPUs | Arbeitsspeicher (GB) |
---|---|---|
n1-standard-2 |
2 | 7,5 |
n1-standard-4 |
4 | 15 |
n1-standard-8 |
8 | 30 |
n1-standard-16 |
16 | 60 |
n1-standard-32 |
32 | 120 |
n1-highmem-2 |
2 | 13 |
n1-highmem-4 |
4 | 26 |
n1-highmem-8 |
8 | 52 |
n1-highmem-16 |
16 | 104 |
n1-highmem-32 |
32 | 208 |
n1-highcpu-4 |
4 | 3,6 |
n1-highcpu-8 |
8 | 7,2 |
n1-highcpu-16 |
16 | 14,4 |
n1-highcpu-32 |
32 | 28,8 |
N2-Serie
Name | vCPUs | Arbeitsspeicher (GB) |
---|---|---|
n2-standard-2 |
2 | 8 |
n2-standard-4 |
4 | 16 |
n2-standard-8 |
8 | 32 |
n2-standard-16 |
16 | 64 |
n2-standard-32 |
32 | 128 |
n2-standard-48 |
48 | 192 |
n2-standard-64 |
64 | 256 |
n2-standard-80 |
80 | 320 |
n2-standard-96 |
96 | 384 |
n2-standard-128 |
128 | 512 |
n2-highmem-2 |
2 | 16 |
n2-highmem-4 |
4 | 32 |
n2-highmem-8 |
8 | 64 |
n2-highmem-16 |
16 | 128 |
n2-highmem-32 |
32 | 256 |
n2-highmem-48 |
48 | 384 |
n2-highmem-64 |
64 | 512 |
n2-highmem-80 |
80 | 640 |
n2-highmem-96 |
96 | 768 |
n2-highmem-128 |
128 | 864 |
n2-highcpu-2 |
2 | 2 |
n2-highcpu-4 |
4 | 4 |
n2-highcpu-8 |
8 | 8 |
n2-highcpu-16 |
16 | 16 |
n2-highcpu-32 |
32 | 32 |
n2-highcpu-48 |
48 | 48 |
n2-highcpu-64 |
64 | 64 |
n2-highcpu-80 |
80 | 80 |
n2-highcpu-96 |
96 | 96 |
N2D-Serie
Name | vCPUs | Arbeitsspeicher (GB) |
---|---|---|
n2d-standard-2 |
2 | 8 |
n2d-standard-4 |
4 | 16 |
n2d-standard-8 |
8 | 32 |
n2d-standard-16 |
16 | 64 |
n2d-standard-32 |
32 | 128 |
n2d-standard-48 |
48 | 192 |
n2d-standard-64 |
64 | 256 |
n2d-standard-80 |
80 | 320 |
n2d-standard-96 |
96 | 384 |
n2d-standard-128 |
128 | 512 |
n2d-standard-224 |
224 | 896 |
n2d-highmem-2 |
2 | 16 |
n2d-highmem-4 |
4 | 32 |
n2d-highmem-8 |
8 | 64 |
n2d-highmem-16 |
16 | 128 |
n2d-highmem-32 |
32 | 256 |
n2d-highmem-48 |
48 | 384 |
n2d-highmem-64 |
64 | 512 |
n2d-highmem-80 |
80 | 640 |
n2d-highmem-96 |
96 | 768 |
n2d-highcpu-2 |
2 | 2 |
n2d-highcpu-4 |
4 | 4 |
n2d-highcpu-8 |
8 | 8 |
n2d-highcpu-16 |
16 | 16 |
n2d-highcpu-32 |
32 | 32 |
n2d-highcpu-48 |
48 | 48 |
n2d-highcpu-64 |
64 | 64 |
n2d-highcpu-80 |
80 | 80 |
n2d-highcpu-96 |
96 | 96 |
n2d-highcpu-128 |
128 | 128 |
n2d-highcpu-224 |
224 | 224 |
C2-Serie
Name | vCPUs | Arbeitsspeicher (GB) |
---|---|---|
c2-standard-4 |
4 | 16 |
c2-standard-8 |
8 | 32 |
c2-standard-16 |
16 | 64 |
c2-standard-30 |
30 | 120 |
c2-standard-60 |
60 | 240 |
C2D-Serie
Name | vCPUs | Arbeitsspeicher (GB) |
---|---|---|
c2d-standard-2 |
2 | 8 |
c2d-standard-4 |
4 | 16 |
c2d-standard-8 |
8 | 32 |
c2d-standard-16 |
16 | 64 |
c2d-standard-32 |
32 | 128 |
c2d-standard-56 |
56 | 224 |
c2d-standard-112 |
112 | 448 |
c2d-highcpu-2 |
2 | 4 |
c2d-highcpu-4 |
4 | 8 |
c2d-highcpu-8 |
8 | 16 |
c2d-highcpu-16 |
16 | 32 |
c2d-highcpu-32 |
32 | 64 |
c2d-highcpu-56 |
56 | 112 |
c2d-highcpu-112 |
112 | 224 |
c2d-highmem-2 |
2 | 16 |
c2d-highmem-4 |
4 | 32 |
c2d-highmem-8 |
8 | 64 |
c2d-highmem-16 |
16 | 128 |
c2d-highmem-32 |
32 | 256 |
c2d-highmem-56 |
56 | 448 |
c2d-highmem-112 |
112 | 896 |
C3-Serie
Name | vCPUs | Arbeitsspeicher (GB) |
---|---|---|
c3-highcpu-4 |
4 | 8 |
c3-highcpu-8 |
8 | 16 |
c3-highcpu-22 |
22 | 44 |
c3-highcpu-44 |
44 | 88 |
c3-highcpu-88 |
88 | 176 |
c3-highcpu-176 |
176 | 352 |
A2-Serie
Name | vCPUs | Arbeitsspeicher (GB) | GPUs (NVIDIA A100) |
---|---|---|---|
a2-highgpu-1g |
12 | 85 | 1 (A100 40GB) |
a2-highgpu-2g |
24 | 170 | 2 (A100 40GB) |
a2-highgpu-4g |
48 | 340 | 4 (A100 40GB) |
a2-highgpu-8g |
96 | 680 | 8 (A100 40GB) |
a2-megagpu-16g |
96 | 1360 | 16 (A100 40GB) |
a2-ultragpu-1g |
12 | 170 | 1 (A100 80GB) |
a2-ultragpu-2g |
24 | 340 | 2 (A100 80GB) |
a2-ultragpu-4g |
48 | 680 | 4 (A100 80GB) |
a2-ultragpu-8g |
96 | 1360 | 8 (A100 80GB) |
A3-Serie
Name | vCPUs | Arbeitsspeicher (GB) | GPUs (NVIDIA H100 oder H200) |
---|---|---|---|
a3-highgpu-1g |
26 | 234 | 1 (H100 80GB) |
a3-highgpu-2g |
52 | 468 | 2 (H100 80GB) |
a3-highgpu-4g |
104 | 936 | 4 (H100 80GB) |
a3-highgpu-8g |
208 | 1872 | 8 (H100 80GB) |
a3-edgegpu-8g |
208 | 1872 | 8 (H100 80GB) |
a3-ultragpu-8g |
224 | 2952 | 8 (H200 141GB) |
A4X-Serie
Name | vCPUs | Arbeitsspeicher (GB) | GPUs (NVIDIA GB200) |
---|---|---|---|
a4x-highgpu-4g |
140 | 884 | 4 |
G2-Serie
Name | vCPUs | Arbeitsspeicher (GB) | GPUs (NVIDIA L4) |
---|---|---|---|
g2-standard-4 |
4 | 16 | 1 |
g2-standard-8 |
8 | 32 | 1 |
g2-standard-12 |
12 | 48 | 1 |
g2-standard-16 |
16 | 64 | 1 |
g2-standard-24 |
24 | 96 | 2 |
g2-standard-32 |
32 | 128 | 1 |
g2-standard-48 |
48 | 192 | 4 |
g2-standard-96 |
96 | 384 | 8 |
Weitere Informationen zu den Preisen für jeden Maschinentyp Weitere Informationen zu den genauen Spezifikationen dieser Maschinentypen finden Sie in der Compute Engine-Dokumentation zu Maschinentypen.
Idealen Maschinentyp ermitteln
Onlineinferenz
Um den idealen Maschinentyp für Ihren Anwendungsfall zu ermitteln, sollten Sie Ihr Modell auf mehreren Maschinentypen laden und Merkmale wie Latenz, Kosten, Gleichzeitigkeit und Durchsatz messen.
Eine Möglichkeit besteht darin, dieses Notebook auf mehreren Maschinentypen auszuführen und die Ergebnisse zu vergleichen, um die für Sie beste Option zu bestimmen.
Vertex AI reserviert auf jedem Replikat ca. 1 vCPU für die Ausführung von Systemprozessen. Dies bedeutet, dass das Ausführen des Notebooks auf einem Maschinentyp mit einem Kern mit der Verwendung eines Maschinentyps mit zwei Kernen für die Bereitstellung von Inferenzen vergleichbar ist.
Wenn Sie die Kosten für die Inferenz bestimmen sollten Sie bedenken, dass größere Maschinen, obwohl sie mehr kosten, die Gesamtkosten senken können, da weniger Replikate erforderlich sind, um dieselbe Arbeitslast zu verarbeiten. Dies ist besonders bei GPUs sichtbar, die in der Regel mehr pro Stunde kosten, aber sowohl niedrigere Latenzen als auch geringere Gesamtkosten bieten können.
Batchinferenz
Weitere Informationen finden Sie unter Maschinentyp und Anzahl der Replikate auswählen.
Optionale GPU-Beschleuniger
Einige Konfigurationen haben eine integrierte Anzahl an GPUs, darunter die Serien A2 und G2.
Für die A4X-Serie (a4x-highgpu-4g
) ist eine Mindestanzahl von 18 Replikaten erforderlich. Diese Maschine wird pro Rack erworben und hat mindestens 18 VMs.
Bei anderen Konfigurationen wie der N1-Serie können Sie GPUs hinzufügen, um jeden Inferenzknoten zu beschleunigen.
Beim Hinzufügen optionaler GPU-Beschleuniger müssen Sie mehrere Anforderungen berücksichtigen:
- Sie können GPUs nur verwenden, wenn Ihre
Model
-Ressource auf einem TensorFlow SavedModel oder auf einem benutzerdefinierten Container basiert, der wurde entwickelt, um GPUs zu nutzen. GPUs können nicht für scikit-learn- oder XGBoost-Modelle verwendet werden. - Die Verfügbarkeit der einzelnen GPU-Typen hängt davon ab, welche Region Sie für Ihr Modell verwenden. Verfügbare GPU-Typen in jeweiligen Regionen
- Sie können nur einen GPU-Typ für Ihre
DeployedModel
-Ressource oderBatchPredictionJob
verwenden. Je nach genutztem Maschinentyp gibt es allerdings Einschränkungen für die Anzahl der GPUs, die sich hinzufügen lassen. In der folgenden Tabelle werden diese Einschränkungen beschrieben.
In der folgenden Tabelle sehen Sie die optionalen GPUs, die für die Onlineinferenz verfügbar sind, und Sie erfahren, wie viele GPUs der einzelnen Typen Sie mit jedem Compute Engine-Maschinentyp verwenden können:
Gültige GPU-Anzahl für Maschinentypen | |||||
---|---|---|---|---|---|
Maschinentyp | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA Tesla P4 | NVIDIA Tesla T4 | |
n1-standard-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 | |
n1-highmem-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 | |
n1-highcpu-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 |
Für optionale GPUs fallen zusätzliche Kosten an.
Mehrere Replikate auf einer einzelnen VM planen
Um die Kosten für die Bereitstellung zu optimieren, können Sie mehrere Replikate desselben Modells auf einer einzelnen VM mit mehreren GPU-Hardwarebeschleunigern bereitstellen, z. B. auf der a3-highgpu-8g
-VM, die acht NVIDIA H100-GPUs hat. Jede Modellreplik kann einer oder mehreren GPUs zugewiesen werden.
Bei kleineren Arbeitslasten können Sie eine einzelne GPU auch mit NVIDIA-GPUs mit mehreren Instanzen (MIG) in mehrere kleinere Instanzen partitionieren. So können Sie Ressourcen auf Sub-GPU-Ebene zuweisen und die Nutzung jedes Beschleunigers maximieren. Weitere Informationen zu GPUs mit mehreren Instanzen finden Sie im NVIDIA-Nutzerhandbuch für GPUs mit mehreren Instanzen.
Beide Funktionen sind darauf ausgelegt, die Ressourcennutzung zu optimieren und die Kosteneffizienz Ihrer Serving-Arbeitslasten zu steigern.
Beschränkungen
Für diese Funktion gelten die folgenden Einschränkungen:
- Alle gemeinsam geplanten Modellreplikate müssen dieselbe Modellversion haben.
- Die Verwendung von Bereitstellungsressourcenpools zum gemeinsamen Nutzen von Ressourcen für mehrere Bereitstellungen wird nicht unterstützt.
Unterstützte Maschinentypen
Die folgenden Maschinentypen werden unterstützt. Bei Maschinentypen mit nur einer GPU ist keine gemeinsame Planung erforderlich.
Maschinentyp | CoSchedule | CoSchedule + MIG |
---|---|---|
a2-highgpu-1g | – | Ja |
a2-highgpu-2g | Ja | Ja |
a2-highgpu-4g | Ja | Ja |
a2-highgpu-8g | Ja | Ja |
a2-highgpu-16g | Ja | Ja |
a2-ultragpu-1g | – | Ja |
a2-ultragpu-2g | Ja | Ja |
a2-ultragpu-4g | Ja | Ja |
a2-ultragpu-8g | Ja | Ja |
a3-edgegpu-8g | Ja | Ja |
a3-highgpu-1g | – | Ja |
a3-highgpu-2g | Ja | Ja |
a3-highgpu-4g | Ja | Ja |
a3-highgpu-8g | Ja | Ja |
a3-megagpu-8g | Ja | Ja |
a3-ultragpu-8g | Ja | Ja |
a4-highgpu-8g | Ja | Ja |
a4x-highgpu-8g | Ja | Nein |
Vorbereitung
Bevor Sie dieses Feature verwenden, lesen Sie den Abschnitt Modell mit der gcloud CLI oder der Vertex AI API bereitstellen.
Modellreplikate bereitstellen
Die folgenden Beispiele zeigen, wie Sie gemeinsam geplante Modellreplikate bereitstellen.
gcloud
Verwenden Sie den folgenden gcloud
-Befehl, um gemeinsam geplante Modellreplikate auf einer VM bereitzustellen:
gcloud ai endpoints deploy-model ENDPOINT_ID \
--region=LOCATION_ID \
--model=MODEL_ID \
--display-name=DEPLOYED_MODEL_NAME \
--min-replica-count=MIN_REPLICA_COUNT \
--max-replica-count=MAX_REPLICA_COUNT \
--machine-type=MACHINE_TYPE \
--accelerator=type=ACC_TYPE,count=ACC_COUNT \
--traffic-split=0=100
Ersetzen Sie Folgendes:
- ENDPOINT_ID: Die ID des Endpunkts.
- LOCATION_ID: Die Region, in der Sie Vertex AI verwenden.
- MODEL_ID: Die Modell-ID des bereitzustellenden Modells.
-
DEPLOYED_MODEL_NAME: Ein Name für
DeployedModel
. Sie können auch den Anzeigenamen vonModel
fürDeployedModel
verwenden. - MIN_REPLICA_COUNT: Die minimale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zur maximalen Anzahl von Knoten und niemals auf weniger als diese Anzahl von Knoten.
- MAX_REPLICA_COUNT: Die maximale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zu dieser Anzahl von Knoten und niemals auf weniger als die minimale Anzahl von Knoten. . Für jeweils zwei Replikate, die bereitgestellt werden sollen, ist eine VM erforderlich.
- MACHINE_TYPE: Der VM-Typ, der für dieses Deployment verwendet werden soll. Muss aus der beschleunigungsoptimierten Familie stammen.
- ACC_TYPE: Der Typ des GPU-Beschleunigers. Sollte der MACHINE_TYPE entsprechen. Verwenden Sie für
a3-highgpu-8g
den Wertnvidia-h100-80gb
. - ACC_COUNT: Die Anzahl der GPUs, die jedes Replikat verwenden kann. Muss mindestens 1 und höchstens die Gesamtzahl der GPUs auf dem Computer sein.
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_NUMBER: Die Projektnummer.
- LOCATION_ID: Die Region, in der Sie Vertex AI verwenden.
- MODEL_ID: Die ID des bereitzustellenden Modells.
-
DEPLOYED_MODEL_NAME: Ein Name für
DeployedModel
. Sie können auch den Anzeigenamen vonModel
fürDeployedModel
verwenden. -
MACHINE_TYPE: Optional. Die für jeden Knoten dieser Bereitstellung verwendeten Maschinenressourcen. Die Standardeinstellung ist
n1-standard-2
. Weitere Informationen zu Maschinentypen. - ACC_TYPE: Der Typ des GPU-Beschleunigers. Sollte der `GPU_PARTITION_SIZE` entsprechen.
- GPU_PARTITION_SIZE: Die Größe der GPU-Partition. Beispiel: „1g.10gb“.
- ACC_COUNT: Die Anzahl der GPUs, die jedes Replikat verwenden kann. Muss mindestens 1 und höchstens die Gesamtzahl der GPUs auf dem Computer sein.
- MIN_REPLICA_COUNT: Die minimale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zur maximalen Anzahl von Knoten und niemals auf weniger als diese Anzahl von Knoten.
- MAX_REPLICA_COUNT: Die maximale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zu dieser Anzahl von Knoten und niemals auf weniger als die minimale Anzahl von Knoten.
HTTP-Methode und URL:
POST https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel
JSON-Text anfordern:
{ "deployedModel": { "model": "projects/PROJECT_NUMBER/locations/LOCATION_ID/models/MODEL_ID", "displayName": "DEPLOYED_MODEL_NAME", "dedicatedResources": { "machineSpec": { "machineType": "MACHINE_TYPE", "acceleratorType": "ACC_TYPE", "gpuPartitionSize": "GPU_PARTITION_SIZE", "acceleratorCount": "ACC_COUNT"" }, "minReplicaCount": MIN_REPLICA_COUNT, "maxReplicaCount": MAX_REPLICA_COUNT, "autoscalingMetricSpecs": [ { "metricName": "aiplatform.googleapis.com/prediction/online/accelerator/duty_cycle", "target": 70 } ] } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten einen erfolgreichen Statuscode (2xx) und eine leere Antwort als Ausgabe erhalten.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.
Verwenden Sie den folgenden Python-Befehl, um gemeinsam geplante Modellreplikate auf einer VM bereitzustellen.
endpoint.deploy(
model=<var>MODEL</var>,
machine_type=MACHINE_TYPE,
min_replica_count=MIN_REPLICA_COUNT,
max_replica_count=MAX_REPLICA_COUNT,
accelerator_type=ACC_TYPE,
gpu_partition_size=GPU_PARTITION_SIZE,
accelerator_count=ACC_COUNT
)
Ersetzen Sie Folgendes:
MODEL: Das Modellobjekt, das vom folgenden API-Aufruf zurückgegeben wird:
model = aiplatform.Model(model_name=model_name)
MACHINE_TYPE: Der VM-Typ, der für dieses Deployment verwendet werden soll. Muss aus der beschleunigungsoptimierten Familie stammen. In der Vorschau wird nur
a3-highgpu-8g
unterstützt.MIN_REPLICA_COUNT: Die minimale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zur maximalen Anzahl von Knoten und niemals auf weniger als diese Anzahl von Knoten.
MAX_REPLICA_COUNT: Die maximale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zu dieser Anzahl von Knoten und niemals auf weniger als die minimale Anzahl von Knoten.
ACC_TYPE: Der Typ des GPU-Beschleunigers. Sollte der GPU_PARTITION_SIZE entsprechen.
GPU_PARTITION_SIZE: Die Größe der GPU-Partition. Beispiel:
"1g.10gb"
Eine vollständige Liste der unterstützten Partitionsgrößen für jeden GPU-Typ finden Sie unter GPU-Partitionen mit mehreren Instanzen.ACC_COUNT: Die Anzahl der GPUs, die jedes Replikat verwenden kann. Muss mindestens 1 und höchstens die Gesamtzahl der GPUs auf dem Computer sein. Geben Sie für
a3-highgpu-8g
einen Wert zwischen 1 und 8 an.
VM-Nutzung überwachen
Folgen Sie der Anleitung unten, um die tatsächliche Anzahl der Maschinen für Ihre bereitgestellten Replikate im Metrics Explorer zu überwachen.
Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf:
Wählen Sie das Projekt aus, für das Sie Messwerte aufrufen möchten.
Klicken Sie im Drop-down-Menü Messwert auf Messwert auswählen.
Geben Sie in der Suchleiste Nach Ressourcen- oder Messwertname filtern den Wert
Vertex AI Endpoint
ein.Wählen Sie die Messwertkategorie Vertex AI-Endpunkt > Vorhersage aus. Wählen Sie unter Aktive Messwerte die Option Anzahl der Maschinen aus.
Klicken Sie auf Übernehmen.
Abrechnung
Die Abrechnung erfolgt auf Grundlage der Anzahl der verwendeten VMs, nicht der Anzahl der GPUs. Sie können die VM-Nutzung mit dem Metrics Explorer überwachen.
Hochverfügbarkeit
Da mehr als ein Replikat auf derselben VM geplant wird, kann Vertex AI Inference Ihre Bereitstellung erst dann auf mehrere VMs und damit auf mehrere Zonen verteilen, wenn die Anzahl der Replikate den einzelnen VM-Knoten überschreitet. Für eine hohe Verfügbarkeit empfiehlt Google die Bereitstellung auf mindestens zwei Knoten (VMs).
Nächste Schritte
- Tabellarisches AutoML-Modell in der Google Cloud Console bereitstellen
- Benutzerdefiniert trainiertes Modell in der Google Cloud Console bereitstellen
- Benutzerdefiniertes Modell mit Clientbibliotheken bereitstellen
- Batchinferenzen abrufen