Diese Seite wurde von der Cloud Translation API übersetzt.

Rechenressourcen für die Inferenz konfigurieren

Vertex AI weist Knoten für die Verarbeitung von Online- und Batchinferenzen zu. Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein AutoML-Modell für eine Endpoint-Ressource bereitstellen, um Onlineinferenzen bereitzustellen, oder wenn Sie Batchinferenzen anfordern, können Sie den Typ der virtuellen Maschine anpassen, die der Inferenzdienst für diese Knoten verwendet. Sie können Inferenzknoten optional für die Verwendung von GPUs konfigurieren.

Maschinentypen unterscheiden sich in verschiedener Hinsicht:

Anzahl der virtuellen CPUs (vCPUs) pro Knoten
Speichermenge pro Knoten
Preise

Wenn Sie einen Maschinentyp mit mehr Rechenressourcen auswählen, können Sie Inferenzanfragen mit geringerer Latenz bereitstellen oder mehr Inferenzanfragen gleichzeitig verarbeiten.

Kosten und Verfügbarkeit verwalten

Vertex AI bietet folgende Funktionen, um die Kosten zu kontrollieren und die Verfügbarkeit von VM-Ressourcen zu gewährleisten:

Mit dem Autoscaling für Vertex AI-Inferenz können Sie dafür sorgen, dass Sie nur für die Rechenressourcen bezahlen, die Sie benötigen. Weitere Informationen finden Sie unter Inferenzknoten für Vertex AI Inference skalieren.
Um sicherzustellen, dass VM-Ressourcen verfügbar sind, wenn Ihre Inferenzjobs sie benötigen, können Sie Compute Engine-Reservierungen verwenden. Reservierungen bieten ein hohes Maß an Sicherheit beim Beschaffen von Kapazitäten für Ressourcen von Compute Engine. Weitere Informationen finden Sie unter Reservierungen mit Inferenz verwenden.
Mit Spot-VMs können Sie die Kosten für die Ausführung Ihrer Inferenzjobs senken. Spot-VMs sind VM-Instanzen, die überschüssige Compute Engine-Kapazität darstellen. Für Spot-VMs gibt es erhebliche Rabatte. Compute Engine kann jedoch Spot-VMs jederzeit vorzeitig beenden oder löschen, um die Kapazität zurückzugewinnen. Weitere Informationen finden Sie unter Spot-VMs für die Inferenz verwenden.

Hier geben Sie Rechenressourcen an

Onlineinferenz

Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein tabellarisches AutoML-Modell für Onlineinferenzen verwenden möchten, müssen Sie einen Maschinentyp angeben, wenn Sie die Model-Ressource als ein DeployedModel an einem Endpoint bereitstellen. Bei anderen Typen von AutoML-Modellen konfiguriert Vertex AI die Maschinentypen automatisch.

Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec von DeployedModel an.

Hier können Sie nachlesen, wie Sie die einzelnen Modelltypen bereitstellen:

Batchinferenz

Wenn Sie Batchvorhersagen von einem benutzerdefinierten Modell oder einem AutoML-Tabellenmodell erhalten möchten, müssen Sie beim Erstellen einer BatchPredictionJob-Ressource einen Maschinentyp angeben. Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec von BatchPredictionJob an.

Maschinentypen

In der folgenden Tabelle werden die verfügbaren Maschinentypen für die Bereitstellung von Inferenzanfragen aus benutzerdefinierten Modellen und AutoML-Tabellenmodellen verglichen:

E2-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`e2-standard-2`	2	8
`e2-standard-4`	4	16
`e2-standard-8`	8	32
`e2-standard-16`	16	64
`e2-standard-32`	32	128
`e2-highmem-2`	2	16
`e2-highmem-4`	4	32
`e2-highmem-8`	8	64
`e2-highmem-16`	16	128
`e2-highcpu-2`	2	2
`e2-highcpu-4`	4	4
`e2-highcpu-8`	8	8
`e2-highcpu-16`	16	16
`e2-highcpu-32`	32	32

N1-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`n1-standard-2`	2	7,5
`n1-standard-4`	4	15
`n1-standard-8`	8	30
`n1-standard-16`	16	60
`n1-standard-32`	32	120
`n1-highmem-2`	2	13
`n1-highmem-4`	4	26
`n1-highmem-8`	8	52
`n1-highmem-16`	16	104
`n1-highmem-32`	32	208
`n1-highcpu-4`	4	3,6
`n1-highcpu-8`	8	7,2
`n1-highcpu-16`	16	14,4
`n1-highcpu-32`	32	28,8

N2-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`n2-standard-2`	2	8
`n2-standard-4`	4	16
`n2-standard-8`	8	32
`n2-standard-16`	16	64
`n2-standard-32`	32	128
`n2-standard-48`	48	192
`n2-standard-64`	64	256
`n2-standard-80`	80	320
`n2-standard-96`	96	384
`n2-standard-128`	128	512
`n2-highmem-2`	2	16
`n2-highmem-4`	4	32
`n2-highmem-8`	8	64
`n2-highmem-16`	16	128
`n2-highmem-32`	32	256
`n2-highmem-48`	48	384
`n2-highmem-64`	64	512
`n2-highmem-80`	80	640
`n2-highmem-96`	96	768
`n2-highmem-128`	128	864
`n2-highcpu-2`	2	2
`n2-highcpu-4`	4	4
`n2-highcpu-8`	8	8
`n2-highcpu-16`	16	16
`n2-highcpu-32`	32	32
`n2-highcpu-48`	48	48
`n2-highcpu-64`	64	64
`n2-highcpu-80`	80	80
`n2-highcpu-96`	96	96

N2D-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`n2d-standard-2`	2	8
`n2d-standard-4`	4	16
`n2d-standard-8`	8	32
`n2d-standard-16`	16	64
`n2d-standard-32`	32	128
`n2d-standard-48`	48	192
`n2d-standard-64`	64	256
`n2d-standard-80`	80	320
`n2d-standard-96`	96	384
`n2d-standard-128`	128	512
`n2d-standard-224`	224	896
`n2d-highmem-2`	2	16
`n2d-highmem-4`	4	32
`n2d-highmem-8`	8	64
`n2d-highmem-16`	16	128
`n2d-highmem-32`	32	256
`n2d-highmem-48`	48	384
`n2d-highmem-64`	64	512
`n2d-highmem-80`	80	640
`n2d-highmem-96`	96	768
`n2d-highcpu-2`	2	2
`n2d-highcpu-4`	4	4
`n2d-highcpu-8`	8	8
`n2d-highcpu-16`	16	16
`n2d-highcpu-32`	32	32
`n2d-highcpu-48`	48	48
`n2d-highcpu-64`	64	64
`n2d-highcpu-80`	80	80
`n2d-highcpu-96`	96	96
`n2d-highcpu-128`	128	128
`n2d-highcpu-224`	224	224

C2-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`c2-standard-4`	4	16
`c2-standard-8`	8	32
`c2-standard-16`	16	64
`c2-standard-30`	30	120
`c2-standard-60`	60	240

C2D-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`c2d-standard-2`	2	8
`c2d-standard-4`	4	16
`c2d-standard-8`	8	32
`c2d-standard-16`	16	64
`c2d-standard-32`	32	128
`c2d-standard-56`	56	224
`c2d-standard-112`	112	448
`c2d-highcpu-2`	2	4
`c2d-highcpu-4`	4	8
`c2d-highcpu-8`	8	16
`c2d-highcpu-16`	16	32
`c2d-highcpu-32`	32	64
`c2d-highcpu-56`	56	112
`c2d-highcpu-112`	112	224
`c2d-highmem-2`	2	16
`c2d-highmem-4`	4	32
`c2d-highmem-8`	8	64
`c2d-highmem-16`	16	128
`c2d-highmem-32`	32	256
`c2d-highmem-56`	56	448
`c2d-highmem-112`	112	896

C3-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`c3-highcpu-4`	4	8
`c3-highcpu-8`	8	16
`c3-highcpu-22`	22	44
`c3-highcpu-44`	44	88
`c3-highcpu-88`	88	176
`c3-highcpu-176`	176	352

A2-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA A100)
`a2-highgpu-1g`	12	85	1 (A100 40GB)
`a2-highgpu-2g`	24	170	2 (A100 40GB)
`a2-highgpu-4g`	48	340	4 (A100 40GB)
`a2-highgpu-8g`	96	680	8 (A100 40GB)
`a2-megagpu-16g`	96	1360	16 (A100 40GB)
`a2-ultragpu-1g`	12	170	1 (A100 80GB)
`a2-ultragpu-2g`	24	340	2 (A100 80GB)
`a2-ultragpu-4g`	48	680	4 (A100 80GB)
`a2-ultragpu-8g`	96	1360	8 (A100 80GB)

A3-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA H100 oder H200)
`a3-highgpu-1g`	26	234	1 (H100 80GB)
`a3-highgpu-2g`	52	468	2 (H100 80GB)
`a3-highgpu-4g`	104	936	4 (H100 80GB)
`a3-highgpu-8g`	208	1872	8 (H100 80GB)
`a3-edgegpu-8g`	208	1872	8 (H100 80GB)
`a3-ultragpu-8g`	224	2952	8 (H200 141GB)

A4X-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA GB200)
`a4x-highgpu-4g`	140	884	4

G2-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA L4)
`g2-standard-4`	4	16	1
`g2-standard-8`	8	32	1
`g2-standard-12`	12	48	1
`g2-standard-16`	16	64	1
`g2-standard-24`	24	96	2
`g2-standard-32`	32	128	1
`g2-standard-48`	48	192	4
`g2-standard-96`	96	384	8

Weitere Informationen zu den Preisen für jeden Maschinentyp Weitere Informationen zu den genauen Spezifikationen dieser Maschinentypen finden Sie in der Compute Engine-Dokumentation zu Maschinentypen.

Idealen Maschinentyp ermitteln

Onlineinferenz

Um den idealen Maschinentyp für Ihren Anwendungsfall zu ermitteln, sollten Sie Ihr Modell auf mehreren Maschinentypen laden und Merkmale wie Latenz, Kosten, Gleichzeitigkeit und Durchsatz messen.

Eine Möglichkeit besteht darin, dieses Notebook auf mehreren Maschinentypen auszuführen und die Ergebnisse zu vergleichen, um die für Sie beste Option zu bestimmen.

Vertex AI reserviert auf jedem Replikat ca. 1 vCPU für die Ausführung von Systemprozessen. Dies bedeutet, dass das Ausführen des Notebooks auf einem Maschinentyp mit einem Kern mit der Verwendung eines Maschinentyps mit zwei Kernen für die Bereitstellung von Inferenzen vergleichbar ist.

Wenn Sie die Kosten für die Inferenz bestimmen sollten Sie bedenken, dass größere Maschinen, obwohl sie mehr kosten, die Gesamtkosten senken können, da weniger Replikate erforderlich sind, um dieselbe Arbeitslast zu verarbeiten. Dies ist besonders bei GPUs sichtbar, die in der Regel mehr pro Stunde kosten, aber sowohl niedrigere Latenzen als auch geringere Gesamtkosten bieten können.

Batchinferenz

Weitere Informationen finden Sie unter Maschinentyp und Anzahl der Replikate auswählen.

Optionale GPU-Beschleuniger

Einige Konfigurationen haben eine integrierte Anzahl an GPUs, darunter die Serien A2 und G2.

Für die A4X-Serie (a4x-highgpu-4g) ist eine Mindestanzahl von 18 Replikaten erforderlich. Diese Maschine wird pro Rack erworben und hat mindestens 18 VMs.

Bei anderen Konfigurationen wie der N1-Serie können Sie GPUs hinzufügen, um jeden Inferenzknoten zu beschleunigen.

Beim Hinzufügen optionaler GPU-Beschleuniger müssen Sie mehrere Anforderungen berücksichtigen:

Sie können GPUs nur verwenden, wenn Ihre Model-Ressource auf einem TensorFlow SavedModel oder auf einem benutzerdefinierten Container basiert, der wurde entwickelt, um GPUs zu nutzen. GPUs können nicht für scikit-learn- oder XGBoost-Modelle verwendet werden.
Die Verfügbarkeit der einzelnen GPU-Typen hängt davon ab, welche Region Sie für Ihr Modell verwenden. Verfügbare GPU-Typen in jeweiligen Regionen
Sie können nur einen GPU-Typ für Ihre DeployedModel-Ressource oder BatchPredictionJob verwenden. Je nach genutztem Maschinentyp gibt es allerdings Einschränkungen für die Anzahl der GPUs, die sich hinzufügen lassen. In der folgenden Tabelle werden diese Einschränkungen beschrieben.

In der folgenden Tabelle sehen Sie die optionalen GPUs, die für die Onlineinferenz verfügbar sind, und Sie erfahren, wie viele GPUs der einzelnen Typen Sie mit jedem Compute Engine-Maschinentyp verwenden können:

Gültige GPU-Anzahl für Maschinentypen
Maschinentyp	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA Tesla P4	NVIDIA Tesla T4
`n1-standard-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-32`	2, 4	4, 8	2, 4	2, 4
`n1-highmem-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-32`	2, 4	4, 8	2, 4	2, 4
`n1-highcpu-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-32`	2, 4	4, 8	2, 4	2, 4

Für optionale GPUs fallen zusätzliche Kosten an.

Mehrere Replikate auf einer einzelnen VM planen

Um die Kosten für die Bereitstellung zu optimieren, können Sie mehrere Replikate desselben Modells auf einer einzelnen VM mit mehreren GPU-Hardwarebeschleunigern bereitstellen, z. B. auf der a3-highgpu-8g-VM, die acht NVIDIA H100-GPUs hat. Jede Modellreplik kann einer oder mehreren GPUs zugewiesen werden.

Bei kleineren Arbeitslasten können Sie eine einzelne GPU auch mit NVIDIA-GPUs mit mehreren Instanzen (MIG) in mehrere kleinere Instanzen partitionieren. So können Sie Ressourcen auf Sub-GPU-Ebene zuweisen und die Nutzung jedes Beschleunigers maximieren. Weitere Informationen zu GPUs mit mehreren Instanzen finden Sie im NVIDIA-Nutzerhandbuch für GPUs mit mehreren Instanzen.

Beide Funktionen sind darauf ausgelegt, die Ressourcennutzung zu optimieren und die Kosteneffizienz Ihrer Serving-Arbeitslasten zu steigern.

Beschränkungen

Für diese Funktion gelten die folgenden Einschränkungen:

Alle gemeinsam geplanten Modellreplikate müssen dieselbe Modellversion haben.
Die Verwendung von Bereitstellungsressourcenpools zum gemeinsamen Nutzen von Ressourcen für mehrere Bereitstellungen wird nicht unterstützt.

Unterstützte Maschinentypen

Die folgenden Maschinentypen werden unterstützt. Bei Maschinentypen mit nur einer GPU ist keine gemeinsame Planung erforderlich.

Maschinentyp	CoSchedule	CoSchedule + MIG
a2-highgpu-1g	–	Ja
a2-highgpu-2g	Ja	Ja
a2-highgpu-4g	Ja	Ja
a2-highgpu-8g	Ja	Ja
a2-highgpu-16g	Ja	Ja
a2-ultragpu-1g	–	Ja
a2-ultragpu-2g	Ja	Ja
a2-ultragpu-4g	Ja	Ja
a2-ultragpu-8g	Ja	Ja
a3-edgegpu-8g	Ja	Ja
a3-highgpu-1g	–	Ja
a3-highgpu-2g	Ja	Ja
a3-highgpu-4g	Ja	Ja
a3-highgpu-8g	Ja	Ja
a3-megagpu-8g	Ja	Ja
a3-ultragpu-8g	Ja	Ja
a4-highgpu-8g	Ja	Ja
a4x-highgpu-8g	Ja	Nein

Vorbereitung

Bevor Sie dieses Feature verwenden, lesen Sie den Abschnitt Modell mit der gcloud CLI oder der Vertex AI API bereitstellen.

Modellreplikate bereitstellen

Die folgenden Beispiele zeigen, wie Sie gemeinsam geplante Modellreplikate bereitstellen.

gcloud

Verwenden Sie den folgenden gcloud-Befehl, um gemeinsam geplante Modellreplikate auf einer VM bereitzustellen:

gcloud ai endpoints deploy-model ENDPOINT_ID \
  --region=LOCATION_ID \
  --model=MODEL_ID \
  --display-name=DEPLOYED_MODEL_NAME \
  --min-replica-count=MIN_REPLICA_COUNT \
  --max-replica-count=MAX_REPLICA_COUNT \
  --machine-type=MACHINE_TYPE \
  --accelerator=type=ACC_TYPE,count=ACC_COUNT \
  --traffic-split=0=100

Ersetzen Sie Folgendes:

ENDPOINT_ID: Die ID des Endpunkts.
LOCATION_ID: Die Region, in der Sie Vertex AI verwenden.
MODEL_ID: Die Modell-ID des bereitzustellenden Modells.
DEPLOYED_MODEL_NAME: Ein Name für DeployedModel. Sie können auch den Anzeigenamen von Model für DeployedModel verwenden.
MIN_REPLICA_COUNT: Die minimale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zur maximalen Anzahl von Knoten und niemals auf weniger als diese Anzahl von Knoten.
MAX_REPLICA_COUNT: Die maximale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zu dieser Anzahl von Knoten und niemals auf weniger als die minimale Anzahl von Knoten. . Für jeweils zwei Replikate, die bereitgestellt werden sollen, ist eine VM erforderlich.
MACHINE_TYPE: Der VM-Typ, der für dieses Deployment verwendet werden soll. Muss aus der beschleunigungsoptimierten Familie stammen.
ACC_TYPE: Der Typ des GPU-Beschleunigers. Sollte der MACHINE_TYPE entsprechen. Verwenden Sie für a3-highgpu-8g den Wert nvidia-h100-80gb.
ACC_COUNT: Die Anzahl der GPUs, die jedes Replikat verwenden kann. Muss mindestens 1 und höchstens die Gesamtzahl der GPUs auf dem Computer sein.

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

PROJECT_NUMBER: Die Projektnummer.
LOCATION_ID: Die Region, in der Sie Vertex AI verwenden.
MODEL_ID: Die ID des bereitzustellenden Modells.
DEPLOYED_MODEL_NAME: Ein Name für DeployedModel. Sie können auch den Anzeigenamen von Model für DeployedModel verwenden.
MACHINE_TYPE: Optional. Die für jeden Knoten dieser Bereitstellung verwendeten Maschinenressourcen. Die Standardeinstellung ist n1-standard-2. Weitere Informationen zu Maschinentypen.
ACC_TYPE: Der Typ des GPU-Beschleunigers. Sollte der `GPU_PARTITION_SIZE` entsprechen.
GPU_PARTITION_SIZE: Die Größe der GPU-Partition. Beispiel: „1g.10gb“.
ACC_COUNT: Die Anzahl der GPUs, die jedes Replikat verwenden kann. Muss mindestens 1 und höchstens die Gesamtzahl der GPUs auf dem Computer sein.
MIN_REPLICA_COUNT: Die minimale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zur maximalen Anzahl von Knoten und niemals auf weniger als diese Anzahl von Knoten.
MAX_REPLICA_COUNT: Die maximale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zu dieser Anzahl von Knoten und niemals auf weniger als die minimale Anzahl von Knoten.

HTTP-Methode und URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel

JSON-Text anfordern:

{
  "deployedModel": {
    "model": "projects/PROJECT_NUMBER/locations/LOCATION_ID/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACC_TYPE",
        "gpuPartitionSize": "GPU_PARTITION_SIZE",
        "acceleratorCount": "ACC_COUNT""
      },
      "minReplicaCount": MIN_REPLICA_COUNT,
      "maxReplicaCount": MAX_REPLICA_COUNT,
      "autoscalingMetricSpecs": [
        {
          "metricName": "aiplatform.googleapis.com/prediction/online/accelerator/duty_cycle",
          "target": 70
        }
      ]
    }
  }
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel"

PowerShell (Windows)

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$headers = @{  }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

Sie sollten einen erfolgreichen Statuscode (2xx) und eine leere Antwort als Ausgabe erhalten.

Python

Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.

Verwenden Sie den folgenden Python-Befehl, um gemeinsam geplante Modellreplikate auf einer VM bereitzustellen.

endpoint.deploy(
    model=<var>MODEL</var>,
    machine_type=MACHINE_TYPE,
    min_replica_count=MIN_REPLICA_COUNT,
    max_replica_count=MAX_REPLICA_COUNT,
    accelerator_type=ACC_TYPE,
    gpu_partition_size=GPU_PARTITION_SIZE,
    accelerator_count=ACC_COUNT
)

Ersetzen Sie Folgendes:

MODEL: Das Modellobjekt, das vom folgenden API-Aufruf zurückgegeben wird:
```
model = aiplatform.Model(model_name=model_name)
```
MACHINE_TYPE: Der VM-Typ, der für dieses Deployment verwendet werden soll. Muss aus der beschleunigungsoptimierten Familie stammen. In der Vorschau wird nur a3-highgpu-8g unterstützt.
MIN_REPLICA_COUNT: Die minimale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zur maximalen Anzahl von Knoten und niemals auf weniger als diese Anzahl von Knoten.
MAX_REPLICA_COUNT: Die maximale Anzahl von Knoten für diese Bereitstellung. Die Knotenzahl kann je nach der Inferenzlast erhöht oder verringert werden, bis zu dieser Anzahl von Knoten und niemals auf weniger als die minimale Anzahl von Knoten.
ACC_TYPE: Der Typ des GPU-Beschleunigers. Sollte der GPU_PARTITION_SIZE entsprechen.
GPU_PARTITION_SIZE: Die Größe der GPU-Partition. Beispiel: "1g.10gb" Eine vollständige Liste der unterstützten Partitionsgrößen für jeden GPU-Typ finden Sie unter GPU-Partitionen mit mehreren Instanzen.
ACC_COUNT: Die Anzahl der GPUs, die jedes Replikat verwenden kann. Muss mindestens 1 und höchstens die Gesamtzahl der GPUs auf dem Computer sein. Geben Sie für a3-highgpu-8g einen Wert zwischen 1 und 8 an.

VM-Nutzung überwachen

Folgen Sie der Anleitung unten, um die tatsächliche Anzahl der Maschinen für Ihre bereitgestellten Replikate im Metrics Explorer zu überwachen.

Rufen Sie in der Console von Google Cloud die Seite Metrics Explorer auf.

Zum Metrics Explorer
Wählen Sie das Projekt aus, für das Sie Messwerte aufrufen möchten.
Klicken Sie im Drop-down-Menü Messwert auf Messwert auswählen.
Geben Sie in der Suchleiste Nach Ressourcen- oder Messwertname filtern den Wert Vertex AI Endpoint ein.
Wählen Sie die Messwertkategorie Vertex AI-Endpunkt > Vorhersage aus. Wählen Sie unter Aktive Messwerte die Option Anzahl der Maschinen aus.
Klicken Sie auf Übernehmen.

Abrechnung

Die Abrechnung erfolgt auf Grundlage der Anzahl der verwendeten VMs, nicht der Anzahl der GPUs. Sie können die VM-Nutzung mit dem Metrics Explorer überwachen.

Hochverfügbarkeit

Da mehr als ein Replikat auf derselben VM geplant wird, kann Vertex AI Inference Ihre Bereitstellung erst dann auf mehrere VMs und damit auf mehrere Zonen verteilen, wenn die Anzahl der Replikate den einzelnen VM-Knoten überschreitet. Für eine hohe Verfügbarkeit empfiehlt Google die Bereitstellung auf mindestens zwei Knoten (VMs).

Rechenressourcen für die Inferenz konfigurieren

Kosten und Verfügbarkeit verwalten

Hier geben Sie Rechenressourcen an

Onlineinferenz

Batchinferenz

Maschinentypen

E2-Serie

N1-Serie

N2-Serie

N2D-Serie

C2-Serie

C2D-Serie

C3-Serie

A2-Serie

A3-Serie

A4X-Serie

G2-Serie

Idealen Maschinentyp ermitteln

Onlineinferenz

Batchinferenz

Optionale GPU-Beschleuniger

Mehrere Replikate auf einer einzelnen VM planen

Beschränkungen

Unterstützte Maschinentypen

Vorbereitung

Modellreplikate bereitstellen

gcloud

REST

curl (Linux, macOS oder Cloud Shell)

PowerShell (Windows)

Python

VM-Nutzung überwachen

Abrechnung

Hochverfügbarkeit

Nächste Schritte