Aktive GPU-Arbeitslastdaten mit Confidential GKE Nodes verschlüsseln


Auf dieser Seite erfahren Sie, wie Sie aktive GPU-Arbeitslastdaten verschlüsseln, indem Sie die Arbeitslasten auf verschlüsselten Confidential Google Kubernetes Engine-Knoten ausführen. Außerdem erfahren Sie mehr über die Einschränkungen und Überlegungen, die für GPU-Arbeitslasten gelten, die auf diesen verschlüsselten Knoten ausgeführt werden.

Diese Seite richtet sich an Sicherheitsingenieure und ‑operatoren, die die Sicherheit der Daten in beschleunigten Arbeitslasten wie KI-/ML-Aufgaben verbessern möchten. Machen Sie sich vor dem Lesen dieser Seite mit den folgenden Konzepten vertraut:

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

  • Aktivieren Sie die Google Kubernetes Engine API.
  • Google Kubernetes Engine API aktivieren
  • Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.

Verfügbarkeit

Wenn Sie Confidential GKE Nodes zum Ausführen von GPU-Arbeitslasten verwenden möchten, müssen Sie alle folgenden Bedingungen erfüllen:

  • Sie müssen einen GKE-Cluster im Standardmodus verwenden.
  • Auf dem Cluster und den Knoten muss die GKE-Version 1.32.2-gke.1297000 oder höher ausgeführt werden.
  • Die Knoten müssen sich in einer Zone befinden, die NVIDIA Confidential Computing unterstützt. Weitere Informationen finden Sie unter Unterstützte Zonen ansehen.
  • Die Knoten müssen Spot-VMs, VMs auf Abruf oder Flex-Start mit in die Warteschlange gestellter Bereitstellung verwenden.
  • Wenn Sie Flex-Start mit der Bereitstellung in der Warteschlange verwenden möchten, muss auf dem Cluster die GKE-Version 1.32.2-gke.1652000 oder höher ausgeführt werden.
  • Die Knoten dürfen nur eine NVIDIA H100-GPU mit 80 GB und den Maschinentyp a3-highgpu-1g verwenden.
  • Die Knoten müssen die Confidential Computing-Technologie Intel TDX verwenden.
  • Sie benötigen ein Kontingent für H100-80-GPUs auf Abruf (compute.googleapis.com/preemptible_nvidia_h100_gpus) an Ihren Knotenstandorten. Weitere Informationen zum Verwalten Ihres Kontingents finden Sie unter Kontingente aufrufen und verwalten.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Google Cloud Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen vertraulicher GKE-Knoten benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Beschränkungen

  • Cluster im Autopilot-Modus werden nicht unterstützt.
  • GPU-Freigabefunktionen wie die Zeitfreigabe oder GPUs mit mehreren Instanzen werden nicht unterstützt.

Confidential GKE Nodes im Standardmodus aktivieren

Sie können GPU-Arbeitslasten auf Confidential GKE Nodes in Clustern oder Knotenpools im Standardmodus ausführen. Für Confidential GKE Nodes muss die Confidential Computing-Technologie Intel TDX verwendet werden.

Confidential GKE Nodes in neuen Standardclustern aktivieren

Wenn Sie einen neuen Cluster im Standardmodus erstellen, der Confidential GKE Nodes verwendet, müssen Sie die folgenden Clustereinstellungen angeben:

  • Standort: Eine Region oder Zone, die NVIDIA Confidential Computing unterstützt. Weitere Informationen finden Sie unter Unterstützte Zonen ansehen.
  • Confidential Computing-Technologie: Intel TDX
  • Clusterversion: 1.32.2-gke.1297000 oder höher

Eine Anleitung finden Sie unter Confidential GKE Nodes in Standard-Clustern aktivieren.

Confidential GKE Nodes in neuen Standardknotenpools aktivieren

Sie können Confidential GKE Nodes in neuen Knotenpools aktivieren, wenn Confidential GKE Nodes auf Clusterebene nicht aktiviert ist. Der Cluster muss die Anforderungen im Abschnitt Verfügbarkeit erfüllen.

Wählen Sie eine der folgenden Optionen aus, um einen neuen GPU-Knotenpool zu erstellen, der Confidential GKE Nodes verwendet:

Console

  1. Zur Seite "Kubernetes-Cluster"

  2. Klicken Sie auf den Namen des Standardmodus-Clusters, den Sie ändern möchten.
  3. Klicken Sie auf Knotenpool hinzufügen . Die Seite Knotenpool hinzufügen wird geöffnet.
  4. Führen Sie im Bereich Knotenpooldetails die folgenden Schritte aus:
    1. Wählen Sie Knotenstandorte angeben aus.
    2. Wählen Sie nur die unterstützten Zonen aus, die im Abschnitt Verfügbarkeit aufgeführt sind.
    3. Die Version der Steuerungsebene muss 1.32.2-gke.1297000 oder höher sein.
  5. Klicken Sie im Navigationsmenü auf Knoten.
  6. Führen Sie im Bereich Knoteneinstellungen konfigurieren die folgenden Schritte aus:
    1. Klicken Sie im Abschnitt Maschinenkonfiguration auf GPUs.
    2. Wählen Sie im Menü GPU-Typ die Option NVIDIA H100 80 GB aus.
    3. Wählen Sie im Menü Anzahl der GPUs die Option 1 aus.
    4. Achten Sie darauf, dass GPU-Freigabe aktivieren nicht ausgewählt ist.
    5. Wählen Sie im Abschnitt GPU-Treiberinstallation die Option Vom Nutzer verwaltet aus.
    6. Prüfen Sie im Abschnitt Maschinentyp, ob der Maschinentyp a3-highgpu-1g ist.
    7. Wählen Sie Knoten auf Spot-VMs aktivieren aus.
  7. Wenn Sie bereit sind, den Knotenpool zu erstellen, klicken Sie auf Erstellen.

gcloud

Sie können GPU-Knotenpools erstellen, in denen Confidential GKE Nodes auf Spot-VMs oder mit Flex-Start mit Warteschlangenbereitstellung (Vorschau) ausgeführt werden.

  • Erstellen Sie einen GPU-Knotenpool, in dem Confidential GKE Nodes auf Spot-VMs ausgeführt werden:

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --confidential-node-type=tdx --location=LOCATION \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \
        --machine-type=a3-highgpu-1g
    

    Ersetzen Sie Folgendes:

    • NODE_POOL_NAME: Ein Name für den neuen Knotenpool.
    • CLUSTER_NAME ist der Name Ihres vorhandenen Clusters.
    • LOCATION: Der Standort für den neuen Knotenpool. Der Standort muss die Verwendung von GPUs in Confidential GKE Nodes unterstützen.
    • NODE_LOCATION1,NODE_LOCATION2,...: Eine durch Kommas getrennte Liste von Zonen, in denen die Knoten ausgeführt werden sollen. Diese Zonen müssen die Verwendung von NVIDIA Confidential Computing unterstützen. Weitere Informationen finden Sie unter Unterstützte Zonen ansehen.
  • Erstellen Sie einen GPU-Knotenpool, in dem Confidential GKE Nodes ausgeführt werden, indem Sie Flex-Start mit der Warteschlangenbereitstellung verwenden (Vorschau):

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --machine-type=a3-highgpu-1g --confidential-node-type=tdx \
        --location=LOCATION \
        --flex-start --enable-queued-provisioning \
        --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \
        --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \
        --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
    

    Ersetzen Sie TOTAL_MAX_NODES durch die maximale Anzahl von Knoten, auf die der Knotenpool automatisch skaliert werden kann.

    Weitere Informationen zu den Konfigurationsoptionen für den flexiblen Start mit der Bereitstellung in der Warteschlange finden Sie unter Arbeitslasten im großen Maßstab mit flexiblem Start und Bereitstellung in der Warteschlange ausführen.

Confidential GKE Nodes in vorhandenen Standardknotenpools aktivieren

Sie können vorhandene Standard-Knotenpools aktualisieren, um Flex-Start zu verwenden, wenn für den Cluster keine Confidential GKE Nodes auf Clusterebene aktiviert sind. Prüfen Sie, ob der Cluster und der vorhandene Knotenpool die im Abschnitt Verfügbarkeit aufgeführten Anforderungen erfüllen.

Informationen zum Aktualisieren Ihrer Knotenpools für die Verwendung der Intel TDX Confidential Computing-Technologie finden Sie unter Vorhandenen Knotenpool aktualisieren.

GPU-Treiber installieren, die Confidential GKE Nodes unterstützen

Nachdem Sie Confidential GKE Nodes in Ihrem GPU-Knotenpool aktiviert haben, müssen Sie Treiber installieren, die die Ausführung von GPU-Arbeitslasten auf diesen Knoten unterstützen.

Für diese Änderung müssen die Knoten neu erstellt werden, was zu Unterbrechungen Ihrer laufenden Arbeitslasten führen kann. Details zu dieser spezifischen Änderung finden Sie in der entsprechenden Zeile in der Tabelle Manuelle Änderungen, bei denen die Knoten mit einer Knotenupgrade-Strategie neu erstellt werden, ohne die Wartungsrichtlinien zu berücksichtigen. Weitere Informationen zu Knotenupdates finden Sie unter Unterbrechungen durch Knotenupdates planen.

Eine Anleitung finden Sie auf dem Tab „COS“ unter NVIDIA-GPU-Treiber manuell installieren.

Fehlerbehebung

Informationen zur Fehlerbehebung finden Sie unter Fehlerbehebung bei GPUs in GKE.

Nächste Schritte