Fehlerbehebung in AI Platform Pipelines

Beachten Sie die folgenden Tipps, um Probleme in Ihrem AI Platform Pipelines-Cluster zu beheben.

Verstehen, warum eine Pipeline-Ausführung fehlgeschlagen ist

Jeder Schritt in einer Pipeline-Ausführung hat ein Log, das die Aktivität dieses Schritts beschreibt. Lesen und analysieren Sie diese Logs, um besser zu verstehen, warum die Ausführung fehlgeschlagen ist. Prüfen Sie anhand der folgenden Anleitung die Logs für eine Pipeline-Ausführung.

  1. Öffnen Sie AI Platform Pipelines in der Google Cloud Console.

    Zu AI Platform Pipelines

  2. Klicken Sie für den gewünschten Kubeflow Pipelines-Cluster auf Pipelines-Dashboard öffnen. Die Benutzeroberfläche von Kubeflow Pipelines wird in einem neuen Tab geöffnet.

  3. Klicken Sie im linken Navigationsbereich auf Tests. Eine Liste der Pipeline-Tests wird angezeigt.

  4. Klicken Sie auf All runs. Eine Liste mit Pipeline-Ausführungen wird angezeigt.

  5. Klicken Sie auf den Namen der Pipeline-Ausführung, in der Sie Fehler beheben möchten. Eine Grafik mit den Schritten in der Pipeline wird geöffnet.

  6. Pipeline-Schritte mit einem grünen Häkchen wurden erfolgreich abgeschlossen. Schritte mit einem roten Ausrufezeichen sind fehlgeschlagen.

    Klicken Sie auf den Pipelineschritt, bei dem Sie Fehler beheben möchten. Ein Abschnitt mit den Artefakten, Eingaben, Ausgaben, Volumes, Manifests und Logs des Schritts wird angezeigt.

  7. Prüfen Sie die einzelnen Tabs, um sich über Ein- und Ausgaben, die erstellten Artefakte und die im Log erfassten Aktivitäten zu informieren. Möglicherweise müssen Sie in mehreren Schritten nach der Ursache des Fehlers suchen.

Zugriff auf Kubeflow Pipelines-Dashboard verboten

Wenn Sie beim Zugriff auf das Kubeflow Pipelines-Dashboard für einen AI Platform Pipelines-Cluster die Meldung Verboten erhalten, haben Sie keine ausreichenden Berechtigungen für den Zugriff auf den Cluster. Dieses Problem kann auftreten, wenn ein anderer Nutzer einen Google Kubernetes Engine-Cluster erstellt und AI Platform Pipelines für Sie bereitstellt.

Bitten Sie zur Behebung dieses Problems Ihren Google Cloud-Administrator, Ihrem Konto Zugriff auf AI Platform Pipelines zu gewähren:

Gehen Sie nach der folgenden Anleitung vor, um einem Nutzerkonto Zugriff auf Ihren AI Platform Pipelines-Cluster zu gewähren.

  1. Öffnen Sie AI Platform Pipelines in der Google Cloud Console.

    Zu AI Platform Pipelines

  2. Suchen Sie den AI Platform Pipelines-Cluster. Notieren Sie sich den Cluster und die Zone für die nachfolgenden Schritte.

  3. Öffnen Sie eine Cloud Shell-Sitzung.

    Cloud Shell öffnen

    Cloud Shell wird im unteren Bereich der Google Cloud Console in einem Frame geöffnet. Verwenden Sie Cloud Shell, um den Rest dieses Vorgangs abzuschließen.

  4. Führen Sie den folgenden Befehl aus, um das Google Cloud-Standardprojekt für in dieser Cloud Shell-Sitzung.

    gcloud config set project PROJECT_ID
    

    Ersetzen Sie PROJECT_ID durch Ihre Google Cloud-Projekt-ID.

  5. Führen Sie den folgenden Befehl aus, um das Dienstkonto zu finden, das Ihr GKE-Cluster verwendet.

    gcloud container clusters describe CLUSTER_NAME --zone ZONE \
    --format="flattened(nodePools[].config.serviceAccount)"
    

    Ersetzen Sie dabei Folgendes:

    • CLUSTER_NAME: Name Ihres GKE-Clusters.
    • ZONE: Zone, in der der Cluster erstellt wurde.

    Die Antwort kann darauf hinweisen, dass Ihr Cluster ein Dienstkonto mit dem Namen default verwendet. Dieser Wert bezieht sich auf das Standarddienstkonto für Compute Engine. Führen Sie den folgenden Befehl aus, um den vollständigen Namen dieses Dienstkontos zu ermitteln.

    gcloud iam service-accounts list \
    --filter "compute@developer.gserviceaccount.com"
    

    Hier finden Sie weitere Informationen zum Compute Engine-Standarddienstkonto.

  6. Gewähren Sie Ihrem Nutzerkonto die Rolle "Dienstkontonutzer" für das Dienstkonto Ihres GKE-Clusters.

    gcloud iam service-accounts add-iam-policy-binding \
    SERVICE_ACCOUNT_NAME \
    --member=user:USERNAME \
    --role=roles/iam.serviceAccountUser
    

    Ersetzen Sie dabei Folgendes:

    • SERVICE_ACCOUNT_NAME: Name des Dienstkontos Ihres GKE-Clusters, den Sie im vorherigen Schritt gefunden haben. Namen von Dienstkonten sind so formatiert: *@*.gserviceaccount.com.
    • USERNAME: Ihr Nutzername in Google Cloud.
  7. Gewähren Sie Ihrem Nutzerkonto Zugriff auf die Rolle "GKE-Clusterbetrachter" für das Projekt.

    gcloud projects add-iam-policy-binding PROJECT_ID \
    --member user:USERNAME --role roles/container.clusterViewer
    

    Ersetzen Sie dabei Folgendes:

    • PROJECT_ID: ID Ihres Google Cloud-Projekts.
    • USERNAME: Ihr Nutzername in Google Cloud.

Unzureichende Berechtigungen beim Ausführen einer Pipeline

Wenn Sie eine Pipeline ausführen, die auf Google Cloud-Ressourcen zugreift, erhalten Sie möglicherweise den Fehler "Unzureichende Berechtigungen". Beispiel:

Error executing an HTTP request: HTTP response code 403 with body '{
  "error": {
    "errors": [
      {
       "domain": "global",
       "reason": "insufficientPermissions",
       "message": "Insufficient Permission"
      }
    ],
    "code": 403,
    "message": "Insufficient Permission"
  }
}'

Damit im Rahmen eines Pipeline-Schritts auf Google Cloud-Ressourcen oder APIs zugegriffen werden kann, ist Folgendes für den Google Kubernetes Engine-Cluster und die Pipeline erforderlich:

Warnmeldung "Server konnte Ihre Anfrage nur teilweise erfüllen"

Die folgende Meldung wird angezeigt, wenn ein Cluster aktualisiert wird oder wenn AI Platform Pipelines bereitgestellt wird.

Sorry, the server was only able to partially fulfill
your request. Some data might not be rendered.

Wenn diese Meldung angezeigt wird, warten Sie fünf Minuten und aktualisieren Sie dann die Seite.