In diesem Leitfaden werden die Vorteile und Einschränkungen der Verwendung von Flex-Start-VMs mit Vertex AI-Inferenz beschrieben. In diesem Leitfaden wird auch beschrieben, wie Sie ein Modell bereitstellen, das Flex-Start-VMs verwendet.
Übersicht
Mit Flex-Start-VMs, die auf dem Dynamic Workload Scheduler basieren, können Sie die Kosten für die Ausführung Ihrer Inferenzjobs senken. Flex-Start-VMs bieten erhebliche Rabatte und eignen sich gut für Arbeitslasten mit kurzer Laufzeit.
Sie können angeben, wie lange Sie eine Flex-Start-VM benötigen, für einen beliebigen Zeitraum von bis zu sieben Tagen. Nach Ablauf des angeforderten Zeitraums wird Ihr bereitgestelltes Modell automatisch zurückgezogen. Sie können das Modell auch manuell bereitstellen, bevor die Zeit abläuft.
Automatische Aufhebung der Bereitstellung
Wenn Sie eine Flex-Start-VM für einen bestimmten Zeitraum anfordern, wird Ihr Modell nach Ablauf dieses Zeitraums automatisch aus der Bereitstellung entfernt. Wenn Sie beispielsweise eine Flex-Start-VM für fünf Stunden anfordern, wird das Modell fünf Stunden nach der Einreichung automatisch bereitgestellt. Ihnen wird nur die Zeit in Rechnung gestellt, in der Ihre Arbeitslast ausgeführt wird.
Beschränkungen und Anforderungen
Beachten Sie die folgenden Einschränkungen und Anforderungen, wenn Sie Flex-Start-VMs verwenden:
- Maximale Dauer: Flex-Start-VMs haben eine maximale Nutzungsdauer von sieben Tagen. Bereitstellungsanfragen für einen längeren Zeitraum werden abgelehnt.
- TPU-Unterstützung: Die Verwendung von Flex-Start-VMs mit TPU-Pods wird nicht unterstützt.
- Quota: Achten Sie darauf, dass Sie vor dem Starten des Jobs ein ausreichendes Kontingent für unterbrechbare Jobs für Vertex AI haben. Weitere Informationen finden Sie unter Ratenkontingente.
- Bereitstellung per Warteschlange: Die Verwendung von Flex-Start-VMs mit Bereitstellung per Warteschlange wird nicht unterstützt.
- Knoten-Recycling: Das Knoten-Recycling wird nicht unterstützt.
Abrechnung
Wenn Ihre Arbeitslast weniger als sieben Tage lang ausgeführt wird, können Sie Ihre Kosten durch die Verwendung von Flex-Start-VMs senken.
Wenn Sie Flex-Start-VMs verwenden, werden Ihnen die Kosten basierend auf der Dauer Ihres Jobs und dem von Ihnen ausgewählten Maschinentyp in Rechnung gestellt. Sie zahlen nur für die Zeit, in der Ihr Arbeitslast aktiv ausgeführt wird. Sie zahlen nicht für die Zeit, in der der Job in der Warteschlange steht, oder für die Zeit nach Ablauf der angeforderten Dauer.
Die Abrechnung erfolgt über zwei SKUs:
Die Compute Engine-SKU mit dem Label
vertex-ai-online-prediction
. Weitere InformationenDie Abrechnungseinheit für die Vertex AI-Verwaltungsgebühr. Weitere Informationen finden Sie unter Vertex AI-Preise.
Inferenz mit Flex-Start-VMs abrufen
Wenn Sie Flex-Start-VMs verwenden möchten, wenn Sie ein Modell bereitstellen, um Inferenz zu erhalten, können Sie die REST API verwenden.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LOCATION_ID: Die Region, in der Sie Vertex AI verwenden.
- PROJECT_ID: Ihre Projekt-ID.
- ENDPOINT_ID: Die ID des Endpunkts.
- MODEL_ID: Die ID des bereitzustellenden Modells.
-
DEPLOYED_MODEL_NAME: Ein Name für
DeployedModel
. Sie können auch den Anzeigenamen vonModel
fürDeployedModel
verwenden. -
MACHINE_TYPE: Optional. Die für jeden Knoten dieser Bereitstellung verwendeten Maschinenressourcen. Die Standardeinstellung ist
n1-standard-2
. Weitere Informationen zu Maschinentypen. - ACCELERATOR_TYPE: Optional. Der Typ des Beschleunigers, der an die Maschine angehängt werden soll. Weitere Informationen
- ACCELERATOR_COUNT: Optional. Die Anzahl der Beschleuniger, die für jedes Replikat verwendet werden soll.
-
MAX_RUNTIME_DURATION: Die maximale Dauer für die Flex-Start-Bereitstellung.
Das bereitgestellte Modell wird nach diesem Zeitraum automatisch aus der Bereitstellung entfernt. Geben Sie die Dauer in Sekunden an und schließen Sie sie mit
s
ab. Beispiel:3600s
für eine Stunde. Der Höchstwert beträgt604800s
(7 Tage). - PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel
JSON-Text anfordern:
{ "deployedModel": { "model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID", "displayName": "DEPLOYED_MODEL_NAME", "enableContainerLogging": true, "dedicatedResources": { "machineSpec": { "machineType": "MACHINE_TYPE", "acceleratorType": "ACCELERATOR_TYPE", "acceleratorCount": ACCELERATOR_COUNT }, "flexStart": { "maxRuntimeDuration": "MAX_RUNTIME_DURATION" }, "minReplicaCount": 2, "maxReplicaCount": 2 }, }, }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata", "genericMetadata": { "createTime": "2020-10-19T17:53:16.502088Z", "updateTime": "2020-10-19T17:53:16.502088Z" } } }