Dépannage d'AI Platform Pipelines

Suivez les conseils ci-dessous pour résoudre les problèmes rencontrés par votre cluster AI Platform Pipelines.

Comprendre pourquoi une exécution de pipeline a échoué

Chaque étape d'une exécution de pipeline comporte un journal qui décrit l'activité de cette étape. Lisez et analysez ces journaux pour mieux comprendre pourquoi l'exécution a échoué. Suivez les instructions ci-dessous pour vérifier les journaux d'exécution du pipeline.

  1. Ouvrez AI Platform Pipelines dans Google Cloud Console.

    Accéder à AI Platform Pipelines

  2. Cliquez sur Open pipelines dashboard (Ouvrir le tableau de bord des pipelines) pour votre cluster Kubeflow Pipelines. L'interface utilisateur de Kubeflow Pipelines s'ouvre dans un nouvel onglet.

  3. Dans le panneau de navigation de gauche, cliquez sur Tests. Une liste de tests de pipeline s'affiche.

  4. Cliquez sur Toutes les diffusions. Une liste des exécutions de pipeline s'affiche.

  5. Cliquez sur le nom de l'exécution de pipeline que vous souhaitez dépanner. Un graphique affichant les étapes du pipeline s'affiche.

  6. Les étapes du pipeline suivies d'une coche verte ont réussi. Les étapes suivies d'un point d'exclamation rouge ont échoué.

    Cliquez sur l'étape du pipeline que vous souhaitez dépanner. Une section contenant les artefacts, les entrées, les sorties, les volumes, le fichier manifeste et les journaux de l'étape s'affiche.

  7. Examinez chaque onglet pour comprendre les entrées et les sorties, les artefacts créés et l'activité enregistrée dans le journal. Vous devrez peut-être effectuer plusieurs recherches pour trouver la source de l'erreur.

Accès interdit au tableau de bord Kubeflow Pipelines

Si le message Interdit s'affiche lorsque vous accédez au tableau de bord Kubeflow Pipelines pour un cluster AI Platform Pipelines, vous ne disposez pas des autorisations nécessaires pour accéder au cluster. Ce problème peut se produire lorsqu'un autre utilisateur crée un cluster Google Kubernetes Engine et déploie AI Platform Pipelines pour vous.

Pour résoudre ce problème, demandez à votre administrateur Google Cloud d'utiliser les instructions suivantes pour autoriser votre compte à accéder à AI Platform Pipelines :

Suivez les instructions ci-dessous pour autoriser un compte utilisateur à accéder à votre cluster AI Platform Pipelines.

  1. Ouvrez AI Platform Pipelines dans Google Cloud Console.

    Accéder à AI Platform Pipelines

  2. Recherchez votre cluster AI Platform Pipelines. Prenez note du cluster et de la zone à utiliser dans les étapes suivantes.

  3. Ouvrez une session Cloud Shell.

    Ouvrir Cloud Shell

    Cloud Shell s'ouvre dans un cadre au bas de Google Cloud Console. Utilisez Cloud Shell pour effectuer le reste de cette procédure.

  4. Exécutez la commande suivante pour définir le projet Cloud par défaut pour cette session Cloud Shell.

    gcloud config set project PROJECT_ID
    

    Remplacez PROJECT_ID par l'ID de votre projet Cloud.

  5. Exécutez la commande suivante pour trouver le compte de service utilisé par votre cluster GKE.

    gcloud container clusters describe CLUSTER_NAME --zone ZONE \
    --format="flattened(nodePools[].config.serviceAccount)"
    

    Remplacez les éléments suivants :

    • CLUSTER_NAME : nom de votre cluster GKE.
    • ZONE : zone dans laquelle votre cluster a été créé.

    La réponse peut indiquer que votre cluster utilise un compte de service nommé default. Cette valeur fait référence au compte de service par défaut pour Compute Engine. Exécutez la commande suivante pour obtenir le nom complet de ce compte de service.

    gcloud iam service-accounts list \
    --filter "compute@developer.gserviceaccount.com"
    

    Apprenez-en plus sur le compte de service Compute Engine par défaut.

  6. Attribuez à votre compte utilisateur le rôle Utilisateur du compte de service sur le compte de service de votre cluster GKE.

    gcloud iam service-accounts add-iam-policy-binding \
    SERVICE_ACCOUNT_NAME \
    --member=user:USERNAME \
    --role=roles/iam.serviceAccountUser
    

    Remplacez les éléments suivants :

    • SERVICE_ACCOUNT_NAME : nom du compte de service de votre cluster GKE, que vous avez trouvé à l'étape précédente. Le format des noms de compte de service est *@*.gserviceaccount.com.
    • USERNAME : votre nom d'utilisateur sur Google Cloud.
  7. Attribuez à votre compte utilisateur le rôle Lecteur de cluster GKE sur le projet.

    gcloud projects add-iam-policy-binding PROJECT_ID \
    --member user:USERNAME --role roles/container.clusterViewer
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet Google Cloud.
    • USERNAME : votre nom d'utilisateur sur Google Cloud.

Autorisations insuffisantes lors de l'exécution d'un pipeline

Lorsque vous exécutez un pipeline qui accède aux ressources Google Cloud, vous pouvez obtenir une erreur "autorisations insuffisantes". Exemple :

Error executing an HTTP request: HTTP response code 403 with body '{
  "error": {
    "errors": [
      {
       "domain": "global",
       "reason": "insufficientPermissions",
       "message": "Insufficient Permission"
      }
    ],
    "code": 403,
    "message": "Insufficient Permission"
  }
}'

Pour qu'une étape du pipeline puisse accéder aux ressources ou aux API Google Cloud, le pipeline et le cluster Google Kubernetes Engine doivent remplir les conditions suivantes :

Message d'avertissement indiquant que "le serveur n'a pu traiter que partiellement votre demande"

Le message suivant peut s'afficher lorsqu'un cluster est en cours de mise à niveau ou lors du déploiement d'AI Platform Pipelines.

Sorry, the server was only able to partially fulfill
your request. Some data might not be rendered.

Si ce message s'affiche, patientez cinq minutes, puis actualisez la page.