Optionen für die Nutzung von Beschleunigern für KI-/ML-Arbeitslasten in GKE


Auf dieser Seite werden die verfügbaren Techniken beschrieben, mit denen Sie Computing-Beschleuniger wie GPUs oder TPUs basierend auf den Anforderungen Ihrer KI/ML-Arbeitslasten erhalten können. Diese Techniken werden in GKE als Optionen für die Nutzung von Beschleunigern bezeichnet. Wenn Sie die verschiedenen Verbrauchsoptionen kennen, können Sie die Ressourcennutzung optimieren, um eine Unterauslastung von Ressourcen zu vermeiden, die Wahrscheinlichkeit zu erhöhen, Ressourcen zu erhalten, und Kosten und Leistung in Einklang zu bringen.

Diese Seite richtet sich an Plattformadministratoren und ‑betreiber, die mit Entwicklern für maschinelles Lernen (ML) zusammenarbeiten, um die erforderlichen Ressourcen für die erfolgreiche Bereitstellung von KI-/ML-Arbeitslasten zu erhalten.

Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir in Google Cloud Inhalten verweisen, finden Sie unter Häufig verwendete GKE-Nutzerrollen und ‑Aufgaben.

Nutzungsoptionen

Sie haben die folgenden Optionen, um Beschleuniger in GKE zu verwenden:

  • Auf Abruf:Sie nutzen TPUs oder GPUs in GKE, ohne vorab Kapazität zu reservieren. Bevor Sie Ressourcen anfordern, müssen Sie über genügend On-Demand-Kontingent für den jeweiligen Typ und die jeweilige Anzahl von Beschleunigern verfügen. On-Demand ist die flexibelste Verbrauchsoption. Es gibt jedoch keine Garantie dafür, dass genügend On-Demand-Ressourcen verfügbar sind, um Ihre Anfrage zu erfüllen.
  • Reservierungen:Sie reservieren Ressourcen für einen bestimmten Zeitraum. Eine Reservierung kann Folgendes sein:
    • Vorausschauende Reservierungen:Sie reservieren Ressourcen für in der Regel längere Zeiträume für einen bestimmten Zeitpunkt in der Zukunft. Sie haben in diesem Zeitraum exklusiven Zugriff auf Ihre reservierten Ressourcen. Für zukünftige Reservierungen ist die Zusammenarbeit mit einem Technical Account Manager (TAM) erforderlich. Weitere Informationen finden Sie in den TPU- und GPU-Leitfäden.
    • Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus): Sie fordern Kapazität für einen bestimmten Zeitraum an. Ein Kalenderberater schlägt verfügbare Termine vor. Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus) bieten mehr Flexibilität für kürzere Zeiträume und die Möglichkeit, die Kapazität selbst zu prüfen. Weitere Informationen finden Sie unter Vorausschauende Reservierungsanfragen im Kalendermodus.
    • On-Demand-Reservierungen:Sie können eine On-Demand-Reservierung anfordern, die bereitgestellt wird, sobald die Kapazität verfügbar ist. Das ist ähnlich wie bei der On-Demand-Option. Solange die Reservierung aktiv ist, zahlen Sie für die Ressourcen, unabhängig davon, ob Sie sie verwenden oder nicht.
  • Flex-Start:Sie sichern dicht zugewiesene Ressourcen für Arbeitslasten mit kurzer Laufzeit ohne Reservierung. Sie fordern eine bestimmte Anzahl von GPUs oder TPUs an und Compute Engine stellt sie bereit, sobald Kapazität verfügbar ist. Die GPUs oder TPUs laufen bis zu sieben Tage lang ununterbrochen. Weitere Informationen finden Sie unter Flex-Start-Bereitstellung.
  • Spot:Sie stellen Spot-VMs bereit, mit denen Sie erhebliche Rabatte erhalten. Spot-VMs können jedoch jederzeit mit einer 30-sekündigen Warnung vorzeitig beendet werden. Weitere Informationen finden Sie unter Spot-VMs.

Beschleunigerkontingent in GKE

Kontingente und Systemlimits schränken die Nutzung von Google Cloud Ressourcen ein, um die Verfügbarkeit von Ressourcen für alle Google Cloud Nutzer zu gewährleisten. Kontingente haben Standardwerte, aber Sie können in der Regel Anpassungen anfordern. Systemlimits sind feste Werte, die nicht geändert werden können. Standardmäßig haben Projekte in der Regel kein großes Beschleunigerkontingent. Sie müssen Kontingente für bestimmte Beschleunigertypen und Regionen anfordern und genehmigen lassen.

Beachten Sie beim Verwalten der Kontingente, die Ihre Arbeitslasten benötigen, die folgenden Merkmale:

  • Sie müssen das für jede Verbrauchsoption erforderliche Kontingent anfordern. Die für die einzelnen Verbrauchsoptionen erforderlichen Kontingente finden Sie in der Tabelle Verbrauchsoption auswählen in den entsprechenden „Kontingent“-Parametern. Wenn nicht genügend Kontingent vorhanden ist, schlagen Versuche, Cluster oder Knotenpools zu erstellen oder Arbeitslasten bereitzustellen, für die Beschleuniger erforderlich sind, mit einem Quota exceeded-Fehler fehl.

  • Wenn Sie benutzerdefinierte Compute-Klassen in Autopilot verwenden, müssen Sie ein Kontingent anfordern. Die Knoten, die zur Erfüllung der Anforderungen der Rechenklasse bereitgestellt werden, verbrauchen weiterhin das Kontingent Ihres Projekts für die angegebenen Beschleuniger.

  • Google Cloud Bei Konten im kostenlosen Testzeitraum gibt es Einschränkungen beim Anfordern von Kontingenterhöhungen für hochwertige Ressourcen wie GPUs und TPUs. Wenn Sie Zugriff auf das Kontingent für Accelerators haben möchten, führen Sie ein Upgrade auf ein kostenpflichtiges Konto durch.

Wenn Sie Ihr Kontingent prüfen und anfordern möchten, rufen Sie in der Google Cloud Console die Seite „Kontingente“ auf. Sie können nach Beschleunigerkontingenten filtern und Erhöhungen anfordern.

Nutzungsoption auswählen

Berücksichtigen Sie die folgenden Aspekte, um die beste Verbrauchsoption für Ihre KI/ML-Arbeitslast auszuwählen:

  • Arbeitslasttyp:Berücksichtigen Sie den Typ der Arbeitslast, die Sie implementieren möchten. Die GKE-Anforderungen variieren je nachdem, ob Sie eine Trainings- oder eine Inferenzarbeitslast ausführen:
    • Training:Erfordert leistungsstarke Ressourcen mit viel Arbeitsspeicher. Trainingsarbeitslasten haben in der Regel eine genau definierte Lebensdauer. Diese Arbeitslasten lassen sich in der Regel leichter planen, da sie weniger anfällig für plötzliche Spitzen beim Ressourcenverbrauch sind.
    • Inferenz:Hierfür sind in der Regel Beschleuniger erforderlich, die für Skalierbarkeit und niedrige Kosten optimiert sind. Bei Inferenzarbeitslasten kann bei plötzlichen Spitzen im Ressourcenverbrauch erheblicher Beschleunigerspeicher erforderlich sein.
  • Lebensdauer basierend auf der Implementierungsphase:Berücksichtigen Sie Ihr Geschäftsziel, wenn Sie einen Proof of Concept (POC), eine Plattformbewertung, eine Anwendungsentwicklung oder ‑prüfung, die Produktionsumstellung oder die Optimierung durchführen.
  • Bereitstellungszeit:Legen Sie fest, ob Ihre Arbeitslast sofort ausgeführt werden muss oder ob sie in der Zukunft ausgeführt werden kann. Wenn eine zukünftige Ausführung möglich ist, legen Sie fest, wie flexibel die Startzeit sein kann.
  • Ausgewogenheit zwischen Kosten und Leistung:Bewerten Sie die Leistungsanforderungen Ihrer Arbeitslast und die Budgetbeschränkungen, um den kostengünstigsten Beschleuniger auszuwählen. Berücksichtigen Sie das Verhältnis zwischen den Kosten der Beschleuniger und ihren Leistungsmerkmalen. Neue Beschleuniger können das Kosten-Leistungs-Verhältnis verbessern.

Wählen Sie anhand der folgenden Tabelle eine Verbrauchsoption aus:

Arbeitslasttyp Zeit für die Bereitstellung Lebensdauer Empfohlene Nutzungsoption
  • Langlaufende, umfangreiche Arbeitslasten wie das Vortraining von Foundation Models oder die Inferenz auf mehreren Hosts.
  • Produktionsarbeitslasten:
Sofort (bei genehmigter Reservierung) Langfristig (pro Reservierung)

Wenn Sie eine GPU (außer A4X, A4 oder A3 Ultra) oder eine TPU verwenden möchten, verwenden Sie On-Demand-Reservierungen:

  • Kosten:Ihnen wird der gesamte Reservierungszeitraum in Rechnung gestellt.
  • Kontingent:Das Kontingent wird automatisch erhöht, bevor die Kapazität bereitgestellt wird.

Wenn Sie G2-, A2-, A3 High- oder A3 Mega-Beschleuniger verwenden möchten, verwenden Sie vorausschauende Reservierungen:

  • Kosten:Ihnen wird der gesamte Reservierungszeitraum in Rechnung gestellt.
  • Kontingent:Das Kontingent wird automatisch erhöht, bevor die Kapazität bereitgestellt wird.
  • Kurz laufende verteilte Arbeitslasten wie das Feinabstimmen von Modellen, Simulationen oder Batch-Inferenz, bei denen eine genaue Startzeit erforderlich ist.
  • Arbeitslasten für die Plattformbewertung, das Benchmarking oder Optimierungstests.
Sofort (bei genehmigter Reservierung) Bis zu 90 Tage

Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus):

  • Kosten:ermäßigt (bis zu 53%). Der Reservierungszeitraum wird Ihnen in Rechnung gestellt.
  • Kontingent:Es wird kein Kontingent berechnet.
  • Unterstützte Beschleuniger:A4, A3 Ultra, TPU v5e, TPU v5p, TPU Trillium.
  • Batcharbeitslasten wie das Training kleiner Modelle, das Feinabstimmen oder die skalierbare Inferenz, bei denen die Startzeit flexibel ist.
  • Arbeitslasten für Machbarkeitsstudien oder Integrationstests.
On demand (Verfügbarkeit vorbehalten) Bis zu 7 Tage pro Zuweisung

Bereitstellungsmodus „Flex-Start“:

  • Kosten:ermäßigt (bis zu 53%). Sie zahlen nur für die tatsächliche Nutzung.
  • Kontingent:Das GPU-Kontingent auf Abruf oder das TPU-Kontingent auf Abruf wird in Rechnung gestellt.
  • Unterstützte Beschleuniger:Alle GPU-Familien außer A4X. Alle TPU-Versionen.
  • Arbeitslasten mit niedrigerer Priorität und fehlertolerante Arbeitslasten wie CI/CD, Datenanalysen oder Hochleistungs-Computing (HPC).
  • Arbeitslasten, die sich leicht unterbrechen lassen.
On demand (Verfügbarkeit vorbehalten) Variabel, kann mit einer 30‑sekündigen Warnung vorzeitig beendet werden

Spot-VMs:

  • Kosten:stark reduziert (60–91%). Sie zahlen nur für die tatsächliche Nutzung.
  • Kontingent:Das GPU-Kontingent auf Abruf oder das TPU-Kontingent auf Abruf wird in Rechnung gestellt.
  • Unterstützte Beschleuniger:Alle GPU-Familien außer A4X. Alle TPU-Versionen.
  • Allgemeine Arbeitslasten, die sofort ausgeführt werden müssen.
Sofort (Verfügbarkeit vorbehalten) Kein Limit

On-Demand (GPUs oder TPUs):

  • Kosten:Sie zahlen nutzungsabhängig.
  • Kontingent:Das GPU- oder TPU>-On-Demand-Kontingent wird in Rechnung gestellt.
  • Unterstützte Beschleuniger:Alle GPU-Familien außer A4X, A4 oder A3 Ultra. Alle TPU-Versionen.

Nächste Schritte