TPU-Flex-Start-VMs anfordern
TPU-VMs mit Flex-Start, die auf dem Dynamic Workload Scheduler basieren, bieten eine flexible und kostengünstige Möglichkeit, auf TPU-Ressourcen für KI-Arbeitslasten zuzugreifen. Mit Flex-Start-VMs können Sie TPUs nach Bedarf für bis zu 7 Tage dynamisch bereitstellen, ohne langfristige Reservierungen oder eine komplexe Kontingentverwaltung. Bei TPU-VMs mit Flex-Start senden Sie eine TPU-Bereitstellungsanfrage, die bestehen bleibt, bis Kapazität verfügbar ist. Sobald die TPU-VMs verfügbar sind, werden sie für den Zeitraum ausgeführt, den Sie in Ihrer Anfrage angegeben haben.
TPU-VMs mit Flex-Start eignen sich gut für schnelle Experimente, Tests im kleinen Maßstab, dynamische Bereitstellung von TPUs für Inferenzarbeitslasten, Modell-Fine-Tuning und Arbeitslasten, die weniger als 7 Tage dauern. Weitere Informationen zu anderen Optionen für die TPU-Nutzung finden Sie unter Cloud TPU-Nutzungsoptionen.
Sie können Ihre TPU-Ressourcen jederzeit löschen, um die Abrechnung zu beenden. Weitere Informationen zu TPU-Preisen finden Sie unter Cloud TPU-Preise.
Beschränkungen
Für TPU Flex-Start-VMs gelten die folgenden Einschränkungen:
- Sie können TPU-Flex-Start-VMs für einen Zeitraum von bis zu 7 Tagen anfordern.
- Sie können die folgenden Cloud TPU-Versionen und ‑Zonen anfordern:
- Sie müssen die API für in die Warteschlange eingereihte Ressourcen verwenden, um TPU Flex-Start-VMs zu nutzen.
Hinweise
Bevor Sie TPU Flex-Start-VMs anfordern, müssen Sie Folgendes tun:
- Google Cloud CLI installieren
- Google Cloud -Projekt erstellen
- Cloud TPU API aktivieren
Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.
Außerdem sollten Sie darauf achten, dass Sie über ein ausreichendes Kontingent für VMs auf Abruf verfügen, um TPU Flex-Start-VMs zu verwenden. Wenn Sie mehr TPU-Kerne benötigen, als das Standardkontingent vorsieht, müssen Sie eine höhere Kontingentzuweisung anfordern. Weitere Informationen zu Standardwerten und zum Anfordern von zusätzlichem Kontingent finden Sie unter Cloud TPU-Kontingente.
TPU-Flex-Start-VMs anfordern
TPU Flex-Start-VMs verwenden die API für in die Warteschlange gestellte Ressourcen, um TPU-Ressourcen über eine Warteschlange anzufordern. Wenn die angeforderte Ressource verfügbar wird, wird sie Ihrem Google Cloud Projekt zur sofortigen, exklusiven Nutzung zugewiesen.
Nach der angeforderten Ausführungsdauer werden die TPU-VMs gelöscht und die in die Warteschlange gestellte Ressource wechselt in den Status SUSPENDED
. Weitere Informationen zu in die Warteschlange eingereihten Ressourcen finden Sie unter In die Warteschlange eingereihte Ressourcen verwalten.
Wenn Sie TPU Flex-Start-VMs anfordern möchten, verwenden Sie den Befehl gcloud alpha compute tpus queued-resources create
mit dem Flag --provisioning-model
auf flex-start
und dem Flag --max-run-duration
auf die Dauer, die Ihre TPUs ausgeführt werden sollen.
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-id=NODE_ID \ --provisioning-model=flex-start \ --max-run-duration=RUN_DURATION
Ersetzen Sie die folgenden Platzhalter:
- QUEUED_RESOURCE_ID: Eine vom Nutzer zugewiesene ID für die in die Warteschlange gestellte Ressourcenanfrage.
- ZONE: Die Zone, in der die TPU-VM erstellt werden soll.
- ACCELERATOR_TYPE: Gibt die Version und Größe der zu erstellenden Cloud TPU an. Weitere Informationen zu den unterstützten Beschleunigertypen für die einzelnen TPU-Versionen finden Sie unter TPU-Versionen.
- RUNTIME_VERSION: Die Softwareversion der Cloud TPU.
- NODE_ID: Eine vom Nutzer zugewiesene ID für die TPU, die erstellt wird, wenn die in die Warteschlange gestellte Ressourcenanfrage zugewiesen wird.
- RUN_DURATION: Wie lange die TPUs ausgeführt werden sollen. Formatieren Sie die Dauer als Anzahl an Tagen, Stunden, Minuten und Sekunden gefolgt von
d
,h
,m
unds
. Geben Sie beispielsweise72h
für eine Dauer von 72 Stunden oder1d2h3m4s
für eine Dauer von 1 Tag, 2 Stunden, 3 Minuten und 4 Sekunden an. Maximal sind 7 Tage möglich.
Sie können Ihre in die Warteschlange gestellte Ressourcenanfrage mit zusätzlichen Flags weiter anpassen, damit sie zu bestimmten Zeiten ausgeführt wird:
--valid-after-duration
: Die Dauer, vor der die TPU nicht bereitgestellt werden darf.--valid-after-time
: Die Zeit, vor der die TPU nicht bereitgestellt werden darf.--valid-until-duration
: Die Dauer, für die die Anfrage gültig ist. Wenn die Anfrage innerhalb dieses Zeitraums nicht erfüllt wurde, läuft sie ab und wechselt in den StatusFAILED
.--valid-until-time
: Der Zeitraum, für den die Anfrage gültig ist. Wenn die Anfrage bis dahin nicht erfüllt wurde, läuft sie ab und wechselt in den StatusFAILED
.
Weitere Informationen zu optionalen Flags finden Sie in der Dokumentation zu gcloud alpha compute tpus queued-resources
create
.
Status einer Anfrage für TPU Flex-Start-VMs abrufen
Wenn Sie den Status Ihrer Anfrage für TPU Flex-Start-VMs überwachen möchten, verwenden Sie die Queued Resources API, um den Status der Anfrage für die in die Warteschlange eingereihte Ressource mit dem Befehl gcloud alpha compute tpus queued-resources describe
abzurufen:
gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \ --zone ZONE
Eine in die Warteschlange gestellte Ressource kann einen der folgenden Status haben:
WAITING_FOR_RESOURCES
: Die Anfrage hat die erste Validierung bestanden und wurde der Warteschlange hinzugefügt.PROVISIONING
: Die Anfrage wurde aus der Warteschlange ausgewählt und die TPU-VMs werden erstellt.ACTIVE
: Die Anfrage wurde erfüllt und die TPU-VMs sind bereit.FAILED
: Die Anfrage konnte nicht abgeschlossen werden. Weitere Informationen finden Sie im Befehldescribe
.SUSPENDING
: Die mit der Anfrage verknüpften Ressourcen werden gelöscht.SUSPENDED
: Die mit der Anfrage verknüpften Ressourcen wurden gelöscht.
Weitere Informationen finden Sie unter Status- und Diagnoseinformationen zu einer in die Warteschlange eingereihten Ressourcenanfrage abrufen.
Laufzeit von TPU Flex-Start-VMs überwachen
Sie können die Laufzeit von TPU Flex-Start-VMs überwachen, indem Sie den Beendigungszeitstempel der TPU prüfen:
- Details zu Ihrer Ressourcenanfrage in der Warteschlange abrufen
Wählen Sie eine der folgenden Optionen aus, je nachdem, ob Ihre TPUs erstellt wurden:
Wenn die Ressource in der Warteschlange auf Ressourcen wartet: Sehen Sie sich in der Ausgabe das Feld
maxRunDuration
an. In diesem Feld wird angegeben, wie lange die TPUs nach der Erstellung ausgeführt werden.Wenn die mit der in die Warteschlange gestellten Ressource verknüpften TPUs erstellt wurden: Sehen Sie sich in der Ausgabe das Feld
terminationTimestamp
an, das für jeden Knoten in der in die Warteschlange gestellten Ressource aufgeführt ist. In diesem Feld wird angegeben, wann die TPU beendet wird.
In die Warteschlange gestellte Ressource löschen
Sie können eine in die Warteschlange gestellte Ressourcenanfrage und die mit der Anfrage verknüpften TPUs löschen, indem Sie die in die Warteschlange gestellte Ressourcenanfrage löschen und das Flag --force
an den Befehl queued-resources
delete
übergeben:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --force
Wenn Sie die TPU direkt mit dem gcloud compute tpus tpu-vm delete
-Befehl löschen, müssen Sie auch die in die Warteschlange gestellte Ressource löschen, wie im folgenden Beispiel gezeigt.
Wenn Sie die TPU löschen, wechselt die in die Warteschlange gestellte Ressourcenanfrage in den Status SUSPENDED
. Danach können Sie die in die Warteschlange gestellte Ressourcenanfrage löschen.
Verwenden Sie den Befehl gcloud compute tpus tpu-vm
delete
, um eine TPU zu löschen:
gcloud compute tpus tpu-vm delete NODE_ID \ --zone ZONE
Verwenden Sie dann den Befehl gcloud alpha compute tpus queued-resources delete
, um die in die Warteschlange gestellte Ressource zu löschen:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --zone ZONE
Weitere Informationen finden Sie unter Anfrage für eine in der Warteschlange befindliche Ressource löschen.