TPU-Flex-Start-VMs anfordern

TPU-VMs mit Flex-Start, die auf dem Dynamic Workload Scheduler basieren, bieten eine flexible und kostengünstige Möglichkeit, auf TPU-Ressourcen für KI-Arbeitslasten zuzugreifen. Mit Flex-Start-VMs können Sie TPUs nach Bedarf für bis zu 7 Tage dynamisch bereitstellen, ohne langfristige Reservierungen oder eine komplexe Kontingentverwaltung. Bei TPU-VMs mit Flex-Start senden Sie eine TPU-Bereitstellungsanfrage, die bestehen bleibt, bis Kapazität verfügbar ist. Sobald die TPU-VMs verfügbar sind, werden sie für den Zeitraum ausgeführt, den Sie in Ihrer Anfrage angegeben haben.

TPU-VMs mit Flex-Start eignen sich gut für schnelle Experimente, Tests im kleinen Maßstab, dynamische Bereitstellung von TPUs für Inferenzarbeitslasten, Modell-Fine-Tuning und Arbeitslasten, die weniger als 7 Tage dauern. Weitere Informationen zu anderen Optionen für die TPU-Nutzung finden Sie unter Cloud TPU-Nutzungsoptionen.

Sie können Ihre TPU-Ressourcen jederzeit löschen, um die Abrechnung zu beenden. Weitere Informationen zu TPU-Preisen finden Sie unter Cloud TPU-Preise.

Beschränkungen

Für TPU Flex-Start-VMs gelten die folgenden Einschränkungen:

Hinweise

Bevor Sie TPU Flex-Start-VMs anfordern, müssen Sie Folgendes tun:

  • Google Cloud CLI installieren
  • Google Cloud -Projekt erstellen
  • Cloud TPU API aktivieren

Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.

Außerdem sollten Sie darauf achten, dass Sie über ein ausreichendes Kontingent für VMs auf Abruf verfügen, um TPU Flex-Start-VMs zu verwenden. Wenn Sie mehr TPU-Kerne benötigen, als das Standardkontingent vorsieht, müssen Sie eine höhere Kontingentzuweisung anfordern. Weitere Informationen zu Standardwerten und zum Anfordern von zusätzlichem Kontingent finden Sie unter Cloud TPU-Kontingente.

TPU-Flex-Start-VMs anfordern

TPU Flex-Start-VMs verwenden die API für in die Warteschlange gestellte Ressourcen, um TPU-Ressourcen über eine Warteschlange anzufordern. Wenn die angeforderte Ressource verfügbar wird, wird sie Ihrem Google Cloud Projekt zur sofortigen, exklusiven Nutzung zugewiesen. Nach der angeforderten Ausführungsdauer werden die TPU-VMs gelöscht und die in die Warteschlange gestellte Ressource wechselt in den Status SUSPENDED. Weitere Informationen zu in die Warteschlange eingereihten Ressourcen finden Sie unter In die Warteschlange eingereihte Ressourcen verwalten.

Wenn Sie TPU Flex-Start-VMs anfordern möchten, verwenden Sie den Befehl gcloud alpha compute tpus queued-resources create mit dem Flag --provisioning-model auf flex-start und dem Flag --max-run-duration auf die Dauer, die Ihre TPUs ausgeführt werden sollen.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
    --zone=ZONE \
    --accelerator-type=ACCELERATOR_TYPE \
    --runtime-version=RUNTIME_VERSION \
    --node-id=NODE_ID \
    --provisioning-model=flex-start \
    --max-run-duration=RUN_DURATION

Ersetzen Sie die folgenden Platzhalter:

  • QUEUED_RESOURCE_ID: Eine vom Nutzer zugewiesene ID für die in die Warteschlange gestellte Ressourcenanfrage.
  • ZONE: Die Zone, in der die TPU-VM erstellt werden soll.
  • ACCELERATOR_TYPE: Gibt die Version und Größe der zu erstellenden Cloud TPU an. Weitere Informationen zu den unterstützten Beschleunigertypen für die einzelnen TPU-Versionen finden Sie unter TPU-Versionen.
  • RUNTIME_VERSION: Die Softwareversion der Cloud TPU.
  • NODE_ID: Eine vom Nutzer zugewiesene ID für die TPU, die erstellt wird, wenn die in die Warteschlange gestellte Ressourcenanfrage zugewiesen wird.
  • RUN_DURATION: Wie lange die TPUs ausgeführt werden sollen. Formatieren Sie die Dauer als Anzahl an Tagen, Stunden, Minuten und Sekunden gefolgt von d, h, m und s. Geben Sie beispielsweise 72h für eine Dauer von 72 Stunden oder 1d2h3m4s für eine Dauer von 1 Tag, 2 Stunden, 3 Minuten und 4 Sekunden an. Maximal sind 7 Tage möglich.

Sie können Ihre in die Warteschlange gestellte Ressourcenanfrage mit zusätzlichen Flags weiter anpassen, damit sie zu bestimmten Zeiten ausgeführt wird:

  • --valid-after-duration: Die Dauer, vor der die TPU nicht bereitgestellt werden darf.
  • --valid-after-time: Die Zeit, vor der die TPU nicht bereitgestellt werden darf.
  • --valid-until-duration: Die Dauer, für die die Anfrage gültig ist. Wenn die Anfrage innerhalb dieses Zeitraums nicht erfüllt wurde, läuft sie ab und wechselt in den Status FAILED.
  • --valid-until-time: Der Zeitraum, für den die Anfrage gültig ist. Wenn die Anfrage bis dahin nicht erfüllt wurde, läuft sie ab und wechselt in den Status FAILED.

Weitere Informationen zu optionalen Flags finden Sie in der Dokumentation zu gcloud alpha compute tpus queued-resources create.

Status einer Anfrage für TPU Flex-Start-VMs abrufen

Wenn Sie den Status Ihrer Anfrage für TPU Flex-Start-VMs überwachen möchten, verwenden Sie die Queued Resources API, um den Status der Anfrage für die in die Warteschlange eingereihte Ressource mit dem Befehl gcloud alpha compute tpus queued-resources describe abzurufen:

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \
    --zone ZONE

Eine in die Warteschlange gestellte Ressource kann einen der folgenden Status haben:

  • WAITING_FOR_RESOURCES: Die Anfrage hat die erste Validierung bestanden und wurde der Warteschlange hinzugefügt.
  • PROVISIONING: Die Anfrage wurde aus der Warteschlange ausgewählt und die TPU-VMs werden erstellt.
  • ACTIVE: Die Anfrage wurde erfüllt und die TPU-VMs sind bereit.
  • FAILED: Die Anfrage konnte nicht abgeschlossen werden. Weitere Informationen finden Sie im Befehl describe.
  • SUSPENDING: Die mit der Anfrage verknüpften Ressourcen werden gelöscht.
  • SUSPENDED: Die mit der Anfrage verknüpften Ressourcen wurden gelöscht.

Weitere Informationen finden Sie unter Status- und Diagnoseinformationen zu einer in die Warteschlange eingereihten Ressourcenanfrage abrufen.

Laufzeit von TPU Flex-Start-VMs überwachen

Sie können die Laufzeit von TPU Flex-Start-VMs überwachen, indem Sie den Beendigungszeitstempel der TPU prüfen:

  1. Details zu Ihrer Ressourcenanfrage in der Warteschlange abrufen
  2. Wählen Sie eine der folgenden Optionen aus, je nachdem, ob Ihre TPUs erstellt wurden:

    • Wenn die Ressource in der Warteschlange auf Ressourcen wartet: Sehen Sie sich in der Ausgabe das Feld maxRunDuration an. In diesem Feld wird angegeben, wie lange die TPUs nach der Erstellung ausgeführt werden.

    • Wenn die mit der in die Warteschlange gestellten Ressource verknüpften TPUs erstellt wurden: Sehen Sie sich in der Ausgabe das Feld terminationTimestamp an, das für jeden Knoten in der in die Warteschlange gestellten Ressource aufgeführt ist. In diesem Feld wird angegeben, wann die TPU beendet wird.

In die Warteschlange gestellte Ressource löschen

Sie können eine in die Warteschlange gestellte Ressourcenanfrage und die mit der Anfrage verknüpften TPUs löschen, indem Sie die in die Warteschlange gestellte Ressourcenanfrage löschen und das Flag --force an den Befehl queued-resources delete übergeben:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --force

Wenn Sie die TPU direkt mit dem gcloud compute tpus tpu-vm delete-Befehl löschen, müssen Sie auch die in die Warteschlange gestellte Ressource löschen, wie im folgenden Beispiel gezeigt. Wenn Sie die TPU löschen, wechselt die in die Warteschlange gestellte Ressourcenanfrage in den Status SUSPENDED. Danach können Sie die in die Warteschlange gestellte Ressourcenanfrage löschen.

Verwenden Sie den Befehl gcloud compute tpus tpu-vm delete, um eine TPU zu löschen:

gcloud compute tpus tpu-vm delete NODE_ID \
    --zone ZONE

Verwenden Sie dann den Befehl gcloud alpha compute tpus queued-resources delete, um die in die Warteschlange gestellte Ressource zu löschen:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --zone ZONE

Weitere Informationen finden Sie unter Anfrage für eine in der Warteschlange befindliche Ressource löschen.