Diese Seite wurde von der Cloud Translation API übersetzt.

Optionen für die Nutzung von Beschleunigern für KI-/ML-Arbeitslasten in GKE

Autopilot Standard

Auf dieser Seite werden die verfügbaren Techniken beschrieben, mit denen Sie Computing-Beschleuniger wie GPUs oder TPUs basierend auf den Anforderungen Ihrer KI/ML-Arbeitslasten erhalten können. Diese Techniken werden in GKE als Optionen für die Nutzung von Beschleunigern bezeichnet. Wenn Sie die verschiedenen Verbrauchsoptionen kennen, können Sie die Ressourcenauslastung optimieren, um eine Unterauslastung von Ressourcen zu vermeiden, die Wahrscheinlichkeit zu erhöhen, Ressourcen zu erhalten, und Kosten und Leistung in Einklang zu bringen.

Diese Seite richtet sich an Plattformadministratoren und ‑betreiber, die mit Entwicklern für maschinelles Lernen (ML) zusammenarbeiten, um die erforderlichen Ressourcen für die erfolgreiche Bereitstellung von KI-/ML-Arbeitslasten zu erhalten.

Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir in Google Cloud Inhalten verweisen, finden Sie unter Häufig verwendete GKE-Nutzerrollen und ‑Aufgaben.

Nutzungsoptionen

Sie haben die folgenden Optionen, um Beschleuniger in GKE zu verwenden:

On-Demand:Sie nutzen TPUs oder GPUs in GKE, ohne Kapazität im Voraus zu reservieren. Bevor Sie Ressourcen anfordern, müssen Sie über genügend On-Demand-Kontingent für den jeweiligen Typ und die jeweilige Anzahl von Beschleunigern verfügen. On-Demand ist die flexibelste Nutzungsoption. Es gibt jedoch keine Garantie dafür, dass genügend On-Demand-Ressourcen verfügbar sind, um Ihre Anfrage zu erfüllen.
Reservierungen:Sie reservieren Ressourcen für einen bestimmten Zeitraum. Eine Reservierung kann Folgendes sein:
- Vorausschauende Reservierungen:Sie reservieren Ressourcen in der Regel für längere Zeiträume für einen bestimmten Zeitpunkt in der Zukunft. Sie haben für diesen Zeitraum exklusiven Zugriff auf Ihre reservierten Ressourcen. Für zukünftige Reservierungen ist die Zusammenarbeit mit einem Technical Account Manager (TAM) erforderlich. Weitere Informationen finden Sie in den Anleitungen zu TPU und GPUs.
- Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus): Sie fordern Kapazität für einen bestimmten Zeitraum an. Ein Kalenderberater schlägt verfügbare Termine vor. Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus) bieten mehr Flexibilität für kürzere Zeiträume und die Möglichkeit, die Kapazität selbst zu prüfen. Weitere Informationen finden Sie unter Anfragen für vorausschauende Reservierungen im Kalendermodus.
- On-Demand-Reservierungen:Sie können eine On-Demand-Reservierung anfordern, die bereitgestellt wird, sobald die Kapazität verfügbar ist. Das ist ähnlich wie bei der On-Demand-Option. Solange die Reservierung aktiv ist, zahlen Sie für die Ressourcen, unabhängig davon, ob Sie sie verwenden oder nicht.
Flex-Start:Sie sichern dicht zugewiesene Ressourcen für Arbeitslasten mit kurzer Laufzeit ohne Reservierung. Sie fordern eine bestimmte Anzahl von GPUs oder TPUs an und Compute Engine stellt sie bereit, sobald Kapazität verfügbar ist. Die GPUs oder TPUs werden bis zu sieben Tage lang ohne Unterbrechung ausgeführt. Weitere Informationen finden Sie unter Flex-Start-Bereitstellung.
Spot:Sie stellen Spot-VMs bereit, mit denen Sie erhebliche Rabatte erhalten. Spot-VMs können jedoch jederzeit mit einer 30-sekündigen Warnung vorzeitig beendet werden. Weitere Informationen finden Sie unter Spot-VMs.

Beschleunigerkontingent in GKE

Kontingente und Systemlimits schränken die Nutzung von Google Cloud Ressourcen ein, um die Verfügbarkeit von Ressourcen für alle Google Cloud Nutzer zu gewährleisten. Kontingente haben Standardwerte, aber Sie können in der Regel Anpassungen anfordern. Systemlimits sind feste Werte, die nicht geändert werden können. Standardmäßig haben Projekte in der Regel kein großes Beschleunigerkontingent. Sie müssen Kontingente für bestimmte Beschleunigertypen und Regionen anfordern und genehmigen lassen.

Beachten Sie beim Verwalten der Kontingente, die Ihre Arbeitslasten benötigen, die folgenden Merkmale:

Sie müssen das für jede Verbrauchsoption erforderliche Kontingent anfordern. Die für die einzelnen Verbrauchsoptionen erforderlichen Kontingente finden Sie in der Tabelle Verbrauchsoption auswählen in den entsprechenden „Kontingent“-Parametern. Wenn nicht genügend Kontingent vorhanden ist, schlagen Versuche, Cluster oder Knotenpools zu erstellen oder Arbeitslasten bereitzustellen, für die Beschleuniger erforderlich sind, mit einem Quota exceeded-Fehler fehl.
Wenn Sie benutzerdefinierte Compute-Klassen in Autopilot verwenden, müssen Sie ein Kontingent anfordern. Die Knoten, die zur Erfüllung der Anforderungen der Rechenklasse bereitgestellt werden, verbrauchen weiterhin das Kontingent Ihres Projekts für die angegebenen Beschleuniger.
Google Cloud Bei Konten im kostenlosen Testzeitraum gibt es Einschränkungen beim Anfordern von Kontingenterhöhungen für hochwertige Ressourcen wie GPUs und TPUs. Wenn Sie Zugriff auf das Kontingent für Accelerators haben möchten, führen Sie ein Upgrade auf ein kostenpflichtiges Konto durch.

Wenn Sie Ihr Kontingent prüfen und anfordern möchten, rufen Sie in der Google Cloud Console die Seite „Kontingente“ auf. Sie können nach Beschleunigerkontingenten filtern und Erhöhungen anfordern.

Option für die Nutzung auswählen

Berücksichtigen Sie die folgenden Aspekte, um die beste Nutzungsoption für Ihre KI-/ML-Arbeitslast auszuwählen:

Arbeitslasttyp:Berücksichtigen Sie den Typ der Arbeitslast, die Sie implementieren möchten. Die GKE-Anforderungen variieren je nachdem, ob Sie eine Trainings- oder eine Inferenz-Arbeitslast ausführen:
- Training:Erfordert leistungsstarke Ressourcen mit viel Arbeitsspeicher. Trainingsarbeitslasten haben in der Regel eine genau definierte Lebensdauer. Diese Arbeitslasten lassen sich in der Regel leichter planen, da sie weniger anfällig für plötzliche Spitzen beim Ressourcenverbrauch sind.
- Inferenz:Hierfür sind in der Regel Beschleuniger erforderlich, die für Skalierbarkeit und niedrige Kosten optimiert sind. Bei Inferenzarbeitslasten kann bei plötzlichen Spitzen im Ressourcenverbrauch erheblicher Beschleunigerspeicher erforderlich sein.
Lebensdauer basierend auf der Implementierungsphase:Berücksichtigen Sie Ihr Geschäftsziel, wenn Sie einen Proof of Concept (POC), eine Plattformbewertung, eine Anwendungsentwicklung oder ‑prüfung, die Produktionsumstellung oder die Optimierung durchführen.
Bereitstellungszeit:Legen Sie fest, ob Ihre Arbeitslast sofort ausgeführt werden muss oder ob sie in Zukunft ausgeführt werden kann. Wenn eine zukünftige Ausführung möglich ist, legen Sie fest, wie flexibel die Startzeit sein kann.
Ausgewogenheit zwischen Kosten und Leistung:Berücksichtigen Sie die Leistungsanforderungen Ihrer Arbeitslast und die Budgetbeschränkungen, um den kostengünstigsten Beschleuniger auszuwählen. Berücksichtigen Sie das Verhältnis zwischen den Kosten der Beschleuniger und ihren Leistungsmerkmalen. Neue Beschleuniger können das Kosten-Leistungs-Verhältnis verbessern.

Wählen Sie anhand der folgenden Tabelle eine Option für die Nutzung aus:

Arbeitslasttyp	Zeit für die Bereitstellung	Lebensdauer	Empfohlene Nutzungsoption
Lange laufende, umfangreiche Arbeitslasten wie das Vortraining von Foundation Models oder die Inferenz auf mehreren Hosts. Produktionsarbeitslasten:	Sofort (bei genehmigter Reservierung)	Langfristig (pro Reservierung)	Wenn Sie eine GPU (außer A4X, A4 oder A3 Ultra) oder eine TPU verwenden möchten, verwenden Sie On-Demand-Reservierungen: Kosten:Ihnen wird der gesamte Reservierungszeitraum in Rechnung gestellt. Kontingent:Das Kontingent wird automatisch erhöht, bevor die Kapazität bereitgestellt wird.
	Sofort (bei genehmigter Reservierung)	Langfristig (pro Reservierung)	Wenn Sie G2-, A2-, A3 High- oder A3 Mega-Beschleuniger verwenden möchten, verwenden Sie vorausschauende Reservierungen: Kosten:Ihnen wird der gesamte Reservierungszeitraum in Rechnung gestellt. Kontingent:Das Kontingent wird automatisch erhöht, bevor die Kapazität bereitgestellt wird.
Kurz laufende verteilte Arbeitslasten wie Modellabstimmung, Simulationen oder Batch-Inferenz, bei denen eine genaue Startzeit erforderlich ist. Arbeitslasten für die Plattformbewertung, das Benchmarking oder Optimierungstests.	Sofort (bei genehmigter Reservierung)	Bis zu 90 Tage	Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus): Kosten:ermäßigt (bis zu 53%). Ihnen wird der Reservierungszeitraum in Rechnung gestellt. Kontingent:Es wird kein Kontingent berechnet. Unterstützte Beschleuniger:A4, A3 Ultra, TPU v5e, TPU v5p, TPU Trillium.
Batcharbeitslasten wie das Training kleiner Modelle, die Feinabstimmung oder skalierbare Inferenz, bei denen die Startzeit flexibel ist. Arbeitslasten für Machbarkeitsstudien oder Integrationstests.	On demand (Verfügbarkeit vorbehalten)	Bis zu 7 Tage pro Zuweisung	Bereitstellungsmodus „Flex-Start“: Kosten:ermäßigt (bis zu 53%). Sie zahlen nur für die tatsächliche Nutzung. Kontingent:Das GPU-Kontingent auf Abruf oder das TPU-Kontingent auf Abruf wird in Rechnung gestellt. Unterstützte Beschleuniger:Alle GPU-Familien außer A4X. Alle TPU-Versionen.
Arbeitslasten mit niedrigerer Priorität und fehlertolerante Arbeitslasten wie CI/CD, Datenanalysen oder Hochleistungs-Computing (HPC). Arbeitslasten, die sich leicht unterbrechen lassen.	On demand (Verfügbarkeit vorbehalten)	Variabel, kann mit einer 30‑sekündigen Warnung vorzeitig beendet werden	Spot-VMs: Kosten:stark reduziert (60–91%). Sie zahlen nur für die tatsächliche Nutzung. Kontingent:Das GPU-Kontingent auf Abruf oder das TPU-Kontingent auf Abruf wird in Rechnung gestellt. Unterstützte Beschleuniger:Alle GPU-Familien außer A4X. Alle TPU-Versionen.
Allgemeine Arbeitslasten, die sofort ausgeführt werden müssen.	Sofort (Verfügbarkeit vorbehalten)	Kein Limit	On-Demand (GPUs oder TPUs): Kosten:Sie zahlen nutzungsabhängig. Kontingent:Das GPU- oder TPU>-On-Demand-Kontingent wird in Rechnung gestellt. Unterstützte Beschleuniger:Alle GPU-Familien außer A4X, A4 oder A3 Ultra. Alle TPU-Versionen.

Nächste Schritte

GPUs in GKE
Mehr über TPUs in GKE erfahren
Weitere Informationen zur KI-/ML-Inferenz in GKE