Rechenressourcen für Vorhersagen konfigurieren

Vertex AI weist Knoten für die Verarbeitung von Online- und Batchvorhersagen zu. Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein AutoML-Modell für eine Endpoint-Ressource bereitstellen, um Onlinevorhersagen bereitzustellen, oder wenn Sie Batchvorhersagen anfordern, können Sie den Typ der virtuellen Maschine anpassen, die der Vorhersagedienst für diese Knoten verwendet. Sie können Vorhersageknoten optional für die Verwendung von GPUs konfigurieren.

Maschinentypen unterscheiden sich in verschiedener Hinsicht:

Anzahl der virtuellen CPUs (vCPUs) pro Knoten
Speichermenge pro Knoten
Preise

Wenn Sie einen Maschinentyp mit mehr Rechenressourcen auswählen, können Sie Vorhersagen mit geringerer Latenz bereitstellen oder mehr Vorhersageanfragen gleichzeitig verarbeiten.

Hier geben Sie Rechenressourcen an

Onlinevorhersage

Wenn Sie ein benutzerdefiniert trainiertes Modell oder ein tabellarisches AutoML-Modell für Onlinevorhersagen verwenden möchten, müssen Sie einen Maschinentyp angeben, wenn Sie die Model-Ressource als ein DeployedModel an einem Endpoint bereitstellen. Bei anderen Typen von AutoML-Modellen konfiguriert Vertex AI die Maschinentypen automatisch.

Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec von DeployedModel an.

Hier können Sie nachlesen, wie Sie die einzelnen Modelltypen bereitstellen:

Batchvorhersage

Wenn Sie Batchvorhersagen von einem benutzerdefinierten Modell oder einem AutoML-Tabellenmodell erhalten möchten, müssen Sie beim Erstellen einer BatchPredictionJob-Ressource einen Maschinentyp angeben. Geben Sie den Maschinentyp (und optional die GPU-Konfiguration) im Feld dedicatedResources.machineSpec von BatchPredictionJob an.

Maschinentypen

In der folgenden Tabelle werden die verfügbaren Maschinentypen für die Bereitstellung von Vorhersagen aus benutzerdefinierten Modellen und AutoML-Tabellenmodellen verglichen:

E2-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`e2-standard-2`	2	8
`e2-standard-4`	4	16
`e2-standard-8`	8	32
`e2-standard-16`	16	64
`e2-standard-32`	32	128
`e2-highmem-2`	2	16
`e2-highmem-4`	4	32
`e2-highmem-8`	8	64
`e2-highmem-16`	16	128
`e2-highcpu-2`	2	2
`e2-highcpu-4`	4	4
`e2-highcpu-8`	8	8
`e2-highcpu-16`	16	16
`e2-highcpu-32`	32	32

N1-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`n1-standard-2`	2	7,5
`n1-standard-4`	4	15
`n1-standard-8`	8	30
`n1-standard-16`	16	60
`n1-standard-32`	32	120
`n1-highmem-2`	2	13
`n1-highmem-4`	4	26
`n1-highmem-8`	8	52
`n1-highmem-16`	16	104
`n1-highmem-32`	32	208
`n1-highcpu-4`	4	3,6
`n1-highcpu-8`	8	7,2
`n1-highcpu-16`	16	14,4
`n1-highcpu-32`	32	28,8

N2-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`n2-standard-2`	2	8
`n2-standard-4`	4	16
`n2-standard-8`	8	32
`n2-standard-16`	16	64
`n2-standard-32`	32	128
`n2-standard-48`	48	192
`n2-standard-64`	64	256
`n2-standard-80`	80	320
`n2-standard-96`	96	384
`n2-standard-128`	128	512
`n2-highmem-2`	2	16
`n2-highmem-4`	4	32
`n2-highmem-8`	8	64
`n2-highmem-16`	16	128
`n2-highmem-32`	32	256
`n2-highmem-48`	48	384
`n2-highmem-64`	64	512
`n2-highmem-80`	80	640
`n2-highmem-96`	96	768
`n2-highmem-128`	128	864
`n2-highcpu-2`	2	2
`n2-highcpu-4`	4	4
`n2-highcpu-8`	8	8
`n2-highcpu-16`	16	16
`n2-highcpu-32`	32	32
`n2-highcpu-48`	48	48
`n2-highcpu-64`	64	64
`n2-highcpu-80`	80	80
`n2-highcpu-96`	96	96

N2D-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`n2d-standard-2`	2	8
`n2d-standard-4`	4	16
`n2d-standard-8`	8	32
`n2d-standard-16`	16	64
`n2d-standard-32`	32	128
`n2d-standard-48`	48	192
`n2d-standard-64`	64	256
`n2d-standard-80`	80	320
`n2d-standard-96`	96	384
`n2d-standard-128`	128	512
`n2d-standard-224`	224	896
`n2d-highmem-2`	2	16
`n2d-highmem-4`	4	32
`n2d-highmem-8`	8	64
`n2d-highmem-16`	16	128
`n2d-highmem-32`	32	256
`n2d-highmem-48`	48	384
`n2d-highmem-64`	64	512
`n2d-highmem-80`	80	640
`n2d-highmem-96`	96	768
`n2d-highcpu-2`	2	2
`n2d-highcpu-4`	4	4
`n2d-highcpu-8`	8	8
`n2d-highcpu-16`	16	16
`n2d-highcpu-32`	32	32
`n2d-highcpu-48`	48	48
`n2d-highcpu-64`	64	64
`n2d-highcpu-80`	80	80
`n2d-highcpu-96`	96	96
`n2d-highcpu-128`	128	128
`n2d-highcpu-224`	224	224

C2-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`c2-standard-4`	4	16
`c2-standard-8`	8	32
`c2-standard-16`	16	64
`c2-standard-30`	30	120
`c2-standard-60`	60	240

C2D-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`c2d-standard-2`	2	8
`c2d-standard-4`	4	16
`c2d-standard-8`	8	32
`c2d-standard-16`	16	64
`c2d-standard-32`	32	128
`c2d-standard-56`	56	224
`c2d-standard-112`	112	448
`c2d-highcpu-2`	2	4
`c2d-highcpu-4`	4	8
`c2d-highcpu-8`	8	16
`c2d-highcpu-16`	16	32
`c2d-highcpu-32`	32	64
`c2d-highcpu-56`	56	112
`c2d-highcpu-112`	112	224
`c2d-highmem-2`	2	16
`c2d-highmem-4`	4	32
`c2d-highmem-8`	8	64
`c2d-highmem-16`	16	128
`c2d-highmem-32`	32	256
`c2d-highmem-56`	56	448
`c2d-highmem-112`	112	896

C3-Serie

Name	vCPUs	Arbeitsspeicher (GB)
`c3-highcpu-4`	4	8
`c3-highcpu-8`	8	16
`c3-highcpu-22`	22	44
`c3-highcpu-44`	44	88
`c3-highcpu-88`	88	176
`c3-highcpu-176`	176	352

A2-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA A100)
`a2-highgpu-1g`	12	85	1 (A100 40GB)
`a2-highgpu-2g`	24	170	2 (A100 40GB)
`a2-highgpu-4g`	48	340	4 (A100 40GB)
`a2-highgpu-8g`	96	680	8 (A100 40GB)
`a2-megagpu-16g`	96	1360	16 (A100 40GB)
`a2-ultragpu-1g`	12	170	1 (A100 80GB)
`a2-ultragpu-2g`	24	340	2 (A100 80GB)
`a2-ultragpu-4g`	48	680	4 (A100 80GB)
`a2-ultragpu-8g`	96	1360	8 (A100 80GB)

A3-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA H100)
`a3-highgpu-8g`	208	1872	8 (H100 80GB)

G2-Serie

Name	vCPUs	Arbeitsspeicher (GB)	GPUs (NVIDIA L4)
`g2-standard-4`	4	16	1
`g2-standard-8`	8	32	1
`g2-standard-12`	12	48	1
`g2-standard-16`	16	64	1
`g2-standard-24`	24	96	2
`g2-standard-32`	32	128	1
`g2-standard-48`	48	192	4
`g2-standard-96`	96	384	8

Weitere Informationen zu den Preisen für jeden Maschinentyp Weitere Informationen zu den genauen Spezifikationen dieser Maschinentypen finden Sie in der Compute Engine-Dokumentation zu Maschinentypen.

Idealen Maschinentyp ermitteln

Onlinevorhersage

Um den idealen Maschinentyp für Ihren Anwendungsfall zu ermitteln, sollten Sie Ihr Modell auf mehreren Maschinentypen laden und Merkmale wie Latenz, Kosten, Gleichzeitigkeit und Durchsatz messen.

Eine Möglichkeit besteht darin, dieses Notebook auf mehreren Maschinentypen auszuführen und die Ergebnisse zu vergleichen, um die für Sie beste Option zu bestimmen.

Vertex AI reserviert auf jedem Replikat ca. 1 vCPU für die Ausführung von Systemprozessen. Dies bedeutet, dass das Ausführen des Notebooks auf einem Maschinentyp mit einem Kern mit der Verwendung eines Maschinentyps mit zwei Kernen für die Bereitstellung von Vorhersagen vergleichbar ist.

Wenn Sie die Kosten für die Vorhersage bestimmen sollten Sie bedenken, dass größere Maschinen, obwohl sie mehr kosten, die Gesamtkosten senken können, da weniger Replikate erforderlich sind, um dieselbe Arbeitslast zu verarbeiten. Dies ist besonders bei GPUs sichtbar, die in der Regel mehr pro Stunde kosten, aber sowohl niedrigere Latenzen als auch geringere Gesamtkosten bieten können.

Batchvorhersage

Weitere Informationen finden Sie unter Maschinentyp und Anzahl der Replikate auswählen.

Optionale GPU-Beschleuniger

Einige Konfigurationen haben eine integrierte Anzahl an GPUs, darunter die Serien A2 und G2.

Bei anderen Konfigurationen wie der N1-Serie können Sie GPUs hinzufügen, um jeden Vorhersageknoten zu beschleunigen.

Beim Hinzufügen optionaler GPU-Beschleuniger müssen Sie mehrere Anforderungen berücksichtigen:

Sie können GPUs nur verwenden, wenn Ihre Model-Ressource auf einem TensorFlow SavedModel oder auf einem benutzerdefinierten Container basiert, der wurde entwickelt, um GPUs zu nutzen. GPUs können nicht für scikit-learn- oder XGBoost-Modelle verwendet werden.
Die Verfügbarkeit der einzelnen GPU-Typen hängt davon ab, welche Region Sie für Ihr Modell verwenden. Verfügbare GPU-Typen in jeweiligen Regionen
Sie können nur einen GPU-Typ für Ihre DeployedModel-Ressource oder BatchPredictionJob verwenden. Je nach genutztem Maschinentyp gibt es allerdings Einschränkungen für die Anzahl der GPUs, die sich hinzufügen lassen. In der folgenden Tabelle werden diese Einschränkungen beschrieben.

In der folgenden Tabelle sehen Sie die optionalen GPUs, die für die Onlinevorhersage verfügbar sind, und Sie erfahren, wie viele GPUs der einzelnen Typen Sie mit jedem Compute Engine-Maschinentyp verwenden können:

Gültige GPU-Anzahl für Maschinentypen
Maschinentyp	NVIDIA Tesla K80	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA Tesla P4	NVIDIA Tesla T4
`n1-standard-2`	1, 2, 4, 8	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-4`	1, 2, 4, 8	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-8`	1, 2, 4, 8	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-16`	2, 4, 8	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-32`	4, 8	2, 4	4, 8	2, 4	2, 4
`n1-highmem-2`	1, 2, 4, 8	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-4`	1, 2, 4, 8	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-8`	1, 2, 4, 8	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-16`	2, 4, 8	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-32`	4, 8	2, 4	4, 8	2, 4	2, 4
`n1-highcpu-2`	1, 2, 4, 8	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-4`	1, 2, 4, 8	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-8`	1, 2, 4, 8	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-16`	2, 4, 8	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-32`	4, 8	2, 4	4, 8	2, 4	2, 4

Für optionale GPUs fallen zusätzliche Kosten an.

Rechenressourcen für Vorhersagen konfigurieren

Hier geben Sie Rechenressourcen an

Onlinevorhersage

Batchvorhersage

Maschinentypen

E2-Serie

N1-Serie

N2-Serie

N2D-Serie

C2-Serie

C2D-Serie

C3-Serie

A2-Serie

A3-Serie

G2-Serie

Idealen Maschinentyp ermitteln

Onlinevorhersage

Batchvorhersage

Optionale GPU-Beschleuniger

Nächste Schritte