In diesem Leitfaden wird beschrieben, wie Sie die TPU-Bereitstellung (Tensor Processing Unit) mithilfe der zukünftigen Reservierung im Kalendermodus optimieren. Die vorausschauende Reservierung im Kalendermodus ist ein integrierter Kalenderberater und Empfehlungsdienst, mit dem Sie TPU-Kapazität finden und im Voraus planen können. Sie können Kapazität für eine bestimmte Startzeit und Dauer zwischen 1 und 90 Tagen anfordern. Der Recommender schlägt dann passende Termine vor.
Dieser Leitfaden richtet sich an Entwickler von maschinellem Lernen (ML), Plattformadministratoren und ‑operatoren sowie an Daten- und KI-Spezialisten, die daran interessiert sind, Kubernetes-Container-Orchestrierungsfunktionen zum Ausführen von Batcharbeitslasten zu nutzen. Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir in Google Cloud -Inhalten verweisen, finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.
Anwendungsfälle
Die zukünftige Reservierung im Kalendermodus eignet sich am besten für Arbeitslasten mit geplanten, kurzfristigen Anfragen mit hoher Nachfrage, z. B. Training, oder Batchinferenzmodelle, die zum angeforderten Startzeitpunkt eine hohe Verfügbarkeit erfordern.
Wenn für Ihre Arbeitslast dynamisch bereitgestellte Ressourcen nach Bedarf für bis zu 7 Tage ohne langfristige Reservierungen oder komplexes Kontingentmanagement erforderlich sind, sollten Sie Flex-Start verwenden. Weitere Informationen finden Sie unter GPU- und TPU-Bereitstellung mit Flex-Start.
Hinweise
Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:
- Aktivieren Sie die Google Kubernetes Engine API. Google Kubernetes Engine API aktivieren
- Wenn Sie die Google Cloud CLI für diesen Task verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit
gcloud components update
ab.
- Sie müssen eine der folgenden Voraussetzungen erfüllen:
- Sie benötigen einen Standardcluster mit Version 1.28.3-gke.1098000 oder höher.
- Sie benötigen einen Autopilot-Cluster mit Version 1.30.3-gke.1451000 oder höher.
Zukünftige Reservierung im Kalendermodus für TPUs anfordern
So fordern Sie TPUs mit zukünftiger Reservierung im Kalendermodus an:
- Achten Sie darauf, dass Sie ein ausreichendes Kontingent für alle Ressourcen haben, die nicht Teil einer Reservierung sind, wenn VMs erstellt werden, z. B. für Festplatten oder IP-Adressen. Für zukünftige Reservierungsanfragen im Kalendermodus ist kein Compute Engine-Kontingent erforderlich.
- Führen Sie die Schritte unter Anfrage im Kalendermodus erstellen aus. Dazu gehören die folgenden Schritte:
- Zukünftige TPU-Verfügbarkeit ansehen
- Erstellen und senden Sie eine zukünftige Reservierungsanfrage im Kalendermodus für TPUs.
- Warten Sie, bis Google Cloud Ihre Anfrage genehmigt hat.
- Erstellen Sie einen TPU-Knotenpool, der Ihre Reservierung nutzt.
Knotenpool erstellen
Dieser Abschnitt gilt nur für Standardcluster.
Sie können Ihre Reservierung verwenden, wenn Sie TPU-Slice-Knotenpools mit einem oder mehreren Hosts erstellen. Sie können beispielsweise einen TPU-Slice-Knotenpool mit einem einzelnen Host mithilfe der Google Cloud CLI erstellen.
gcloud container node-pools create NODE_POOL_NAME \
--location=LOCATION \
--cluster=CLUSTER_NAME \
--node-locations=NODE_ZONES \
--machine-type=MACHINE_TYPE \
--reservation-affinity=specific \ This is required
--reservation=RESERVATION
Ersetzen Sie Folgendes:
NODE_POOL_NAME
: der Name des neuen Knotenpools.LOCATION
: Der Name der Zone basierend auf der zu verwendenden TPU-Version. Informationen dazu, wie Sie einen verfügbaren Standort ermitteln, finden Sie unter TPU-Verfügbarkeit in GKE.CLUSTER_NAME
ist der Name des Clusters.NODE_ZONES
: Die durch Kommas getrennte Liste mit einer oder mehreren Zonen, in denen GKE den Knotenpool erstellt.MACHINE_TYPE
: Der Maschinentyp für Knoten. Weitere Informationen zu TPU-kompatiblen Maschinentypen finden Sie in der Tabelle unter TPU-Version auswählen.RESERVATION
: der Name der Kalenderreservierung, die genutzt werden soll.
Eine vollständige Liste aller Flags, die Sie angeben können, finden Sie in der Referenz zu gcloud container clusters create
.
Nachdem Sie einen Knotenpool mit der Kalenderreservierung erstellt haben, können Sie Ihre Arbeitslast wie bei jedem anderen TPU-Knotenpool bereitstellen. Sie können beispielsweise einen Job erstellen, in dem der TPU-Knotenpool angegeben wird, der die reservierten TPUs nutzt.
Nächste Schritte
Probieren Sie GKE-Bereitstellungsbeispiele für generative KI-Modelle aus, die die von Ihnen reservierten TPU-Ressourcen verwenden:
- LLM mit TPU Trillium in GKE mit vLLM bereitstellen
- LLM mithilfe von TPUs in GKE mit KubeRay bereitstellen
- LLM mithilfe von TPUs in GKE mit JetStream und PyTorch bereitstellen
- Gemma mithilfe von TPUs in GKE mit JetStream bereitstellen
- Stable Diffusion XL (SDXL) mit TPUs in GKE mit MaxDiffusion bereitstellen
- Open-Source-Modelle mit TPUs in GKE mit Optimum TPU bereitstellen
In GKE AI Labs finden Sie experimentelle Beispiele dafür, wie Sie GKE nutzen können, um Ihre KI-/ML-Initiativen zu beschleunigen.