Auf dieser Seite werden die verfügbaren Techniken beschrieben, mit denen Sie Computing-Beschleuniger wie GPUs oder TPUs basierend auf den Anforderungen Ihrer KI/ML-Arbeitslasten erhalten können. Diese Techniken werden in GKE als Optionen für die Nutzung von Beschleunigern bezeichnet. Wenn Sie die verschiedenen Verbrauchsoptionen kennen, können Sie die Ressourcennutzung optimieren, um eine Unterauslastung von Ressourcen zu vermeiden, die Wahrscheinlichkeit zu erhöhen, Ressourcen zu erhalten, und Kosten und Leistung in Einklang zu bringen.
Diese Seite richtet sich an Plattformadministratoren und ‑betreiber, die mit Entwicklern für maschinelles Lernen (ML) zusammenarbeiten, um die erforderlichen Ressourcen für die erfolgreiche Bereitstellung von KI-/ML-Arbeitslasten zu erhalten.
Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir in Google Cloud Inhalten verweisen, finden Sie unter Häufig verwendete GKE-Nutzerrollen und ‑Aufgaben.
Nutzungsoptionen
Sie haben die folgenden Optionen, um Beschleuniger in GKE zu verwenden:
- Auf Abruf:Sie nutzen TPUs oder GPUs in GKE, ohne vorab Kapazität zu reservieren. Bevor Sie Ressourcen anfordern, müssen Sie über genügend On-Demand-Kontingent für den jeweiligen Typ und die jeweilige Anzahl von Beschleunigern verfügen. On-Demand ist die flexibelste Verbrauchsoption. Es gibt jedoch keine Garantie dafür, dass genügend On-Demand-Ressourcen verfügbar sind, um Ihre Anfrage zu erfüllen.
- Reservierungen:Sie reservieren Ressourcen für einen bestimmten Zeitraum. Eine Reservierung kann Folgendes sein:
- Vorausschauende Reservierungen:Sie reservieren Ressourcen für in der Regel längere Zeiträume für einen bestimmten Zeitpunkt in der Zukunft. Sie haben in diesem Zeitraum exklusiven Zugriff auf Ihre reservierten Ressourcen. Für zukünftige Reservierungen ist die Zusammenarbeit mit einem Technical Account Manager (TAM) erforderlich. Weitere Informationen finden Sie in den TPU- und GPU-Leitfäden.
- Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus): Sie fordern Kapazität für einen bestimmten Zeitraum an. Ein Kalenderberater schlägt verfügbare Termine vor. Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus) bieten mehr Flexibilität für kürzere Zeiträume und die Möglichkeit, die Kapazität selbst zu prüfen. Weitere Informationen finden Sie unter Vorausschauende Reservierungsanfragen im Kalendermodus.
- On-Demand-Reservierungen:Sie können eine On-Demand-Reservierung anfordern, die bereitgestellt wird, sobald die Kapazität verfügbar ist. Das ist ähnlich wie bei der On-Demand-Option. Solange die Reservierung aktiv ist, zahlen Sie für die Ressourcen, unabhängig davon, ob Sie sie verwenden oder nicht.
- Flex-Start:Sie sichern dicht zugewiesene Ressourcen für Arbeitslasten mit kurzer Laufzeit ohne Reservierung. Sie fordern eine bestimmte Anzahl von GPUs oder TPUs an und Compute Engine stellt sie bereit, sobald Kapazität verfügbar ist. Die GPUs oder TPUs laufen bis zu sieben Tage lang ununterbrochen. Weitere Informationen finden Sie unter Flex-Start-Bereitstellung.
- Spot:Sie stellen Spot-VMs bereit, mit denen Sie erhebliche Rabatte erhalten. Spot-VMs können jedoch jederzeit mit einer 30-sekündigen Warnung vorzeitig beendet werden. Weitere Informationen finden Sie unter Spot-VMs.
Beschleunigerkontingent in GKE
Kontingente und Systemlimits schränken die Nutzung von Google Cloud Ressourcen ein, um die Verfügbarkeit von Ressourcen für alle Google Cloud Nutzer zu gewährleisten. Kontingente haben Standardwerte, aber Sie können in der Regel Anpassungen anfordern. Systemlimits sind feste Werte, die nicht geändert werden können. Standardmäßig haben Projekte in der Regel kein großes Beschleunigerkontingent. Sie müssen Kontingente für bestimmte Beschleunigertypen und Regionen anfordern und genehmigen lassen.
Beachten Sie beim Verwalten der Kontingente, die Ihre Arbeitslasten benötigen, die folgenden Merkmale:
Sie müssen das für jede Verbrauchsoption erforderliche Kontingent anfordern. Die für die einzelnen Verbrauchsoptionen erforderlichen Kontingente finden Sie in der Tabelle Verbrauchsoption auswählen in den entsprechenden „Kontingent“-Parametern. Wenn nicht genügend Kontingent vorhanden ist, schlagen Versuche, Cluster oder Knotenpools zu erstellen oder Arbeitslasten bereitzustellen, für die Beschleuniger erforderlich sind, mit einem
Quota exceeded
-Fehler fehl.Wenn Sie benutzerdefinierte Compute-Klassen in Autopilot verwenden, müssen Sie ein Kontingent anfordern. Die Knoten, die zur Erfüllung der Anforderungen der Rechenklasse bereitgestellt werden, verbrauchen weiterhin das Kontingent Ihres Projekts für die angegebenen Beschleuniger.
Google Cloud Bei Konten im kostenlosen Testzeitraum gibt es Einschränkungen beim Anfordern von Kontingenterhöhungen für hochwertige Ressourcen wie GPUs und TPUs. Wenn Sie Zugriff auf das Kontingent für Accelerators haben möchten, führen Sie ein Upgrade auf ein kostenpflichtiges Konto durch.
Wenn Sie Ihr Kontingent prüfen und anfordern möchten, rufen Sie in der Google Cloud Console die Seite „Kontingente“ auf. Sie können nach Beschleunigerkontingenten filtern und Erhöhungen anfordern.
Nutzungsoption auswählen
Berücksichtigen Sie die folgenden Aspekte, um die beste Verbrauchsoption für Ihre KI/ML-Arbeitslast auszuwählen:
- Arbeitslasttyp:Berücksichtigen Sie den Typ der Arbeitslast, die Sie implementieren möchten.
Die GKE-Anforderungen variieren je nachdem, ob Sie eine Trainings- oder eine Inferenzarbeitslast ausführen:
- Training:Erfordert leistungsstarke Ressourcen mit viel Arbeitsspeicher. Trainingsarbeitslasten haben in der Regel eine genau definierte Lebensdauer. Diese Arbeitslasten lassen sich in der Regel leichter planen, da sie weniger anfällig für plötzliche Spitzen beim Ressourcenverbrauch sind.
- Inferenz:Hierfür sind in der Regel Beschleuniger erforderlich, die für Skalierbarkeit und niedrige Kosten optimiert sind. Bei Inferenzarbeitslasten kann bei plötzlichen Spitzen im Ressourcenverbrauch erheblicher Beschleunigerspeicher erforderlich sein.
- Lebensdauer basierend auf der Implementierungsphase:Berücksichtigen Sie Ihr Geschäftsziel, wenn Sie einen Proof of Concept (POC), eine Plattformbewertung, eine Anwendungsentwicklung oder ‑prüfung, die Produktionsumstellung oder die Optimierung durchführen.
- Bereitstellungszeit:Legen Sie fest, ob Ihre Arbeitslast sofort ausgeführt werden muss oder ob sie in der Zukunft ausgeführt werden kann. Wenn eine zukünftige Ausführung möglich ist, legen Sie fest, wie flexibel die Startzeit sein kann.
- Ausgewogenheit zwischen Kosten und Leistung:Bewerten Sie die Leistungsanforderungen Ihrer Arbeitslast und die Budgetbeschränkungen, um den kostengünstigsten Beschleuniger auszuwählen. Berücksichtigen Sie das Verhältnis zwischen den Kosten der Beschleuniger und ihren Leistungsmerkmalen. Neue Beschleuniger können das Kosten-Leistungs-Verhältnis verbessern.
Wählen Sie anhand der folgenden Tabelle eine Verbrauchsoption aus:
Arbeitslasttyp | Zeit für die Bereitstellung | Lebensdauer | Empfohlene Nutzungsoption |
---|---|---|---|
|
Sofort (bei genehmigter Reservierung) | Langfristig (pro Reservierung) | Wenn Sie eine GPU (außer A4X, A4 oder A3 Ultra) oder eine TPU verwenden möchten, verwenden Sie On-Demand-Reservierungen:
|
Wenn Sie G2-, A2-, A3 High- oder A3 Mega-Beschleuniger verwenden möchten, verwenden Sie vorausschauende Reservierungen:
|
|||
|
Sofort (bei genehmigter Reservierung) | Bis zu 90 Tage | Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus):
|
|
On demand (Verfügbarkeit vorbehalten) | Bis zu 7 Tage pro Zuweisung | Bereitstellungsmodus „Flex-Start“:
|
|
On demand (Verfügbarkeit vorbehalten) | Variabel, kann mit einer 30‑sekündigen Warnung vorzeitig beendet werden |
|
|
Sofort (Verfügbarkeit vorbehalten) | Kein Limit |
Nächste Schritte
- GPUs in GKE
- Mehr über TPUs in GKE erfahren
- Weitere Informationen zur KI-/ML-Inferenz in GKE