Résoudre les erreurs liées à un type de programme non pris en charge

Cette page explique comment résoudre un problème connu dans Cloud Data Fusion 6.8.0 et 6.8.1 où un pipeline de données échoue avec une erreur de type de programme non compatible dans Cloud Data Fusion. Ce problème est résolu dans la version 6.8.2.

Pour réduire l'heure de début des pipelines, Cloud Data Fusion version 6.8.0 et 6.8.1 les instances mettent en cache les artefacts requis pour démarrer un pipeline dans un Cluster Dataproc dans un bucket Cloud Storage. L'un de ces artefacts mis en cache est application.jar. En fonction de l'ordre dans lequel vous exécutez vos pipelines, certains peuvent échouer avec l'erreur suivante :

Unsupported program type: Spark

Par exemple, après avoir créé une instance 6.8.1 (ou effectué la mise à niveau vers la version 6.8.1), la première fois que vous exécutez un pipeline contenant uniquement des actions, il réussit. Toutefois, les prochaines exécutions de pipeline, qui incluent des sources ou des destinations, peuvent échouer avec cette erreur.

Recommandation

Pour résoudre ce problème, procédez comme suit :

Vous pouvez désactiver la mise en cache pour les éléments suivants:

  • Pour tous les pipelines d'une instance.
  • Pour un espace de noms donné.
  • Pour les profils Dataproc spécifiques qui contiennent les pipelines défaillants.
  • Pour les pipelines défaillants uniquement.

Désactiver la mise en cache Cloud Storage pour tous les pipelines d'une instance

Pour désactiver la mise en cache Cloud Storage pour tous les pipelines d'une instance, procédez comme suit:

Console

  1. Accédez à votre instance:
    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur Administration système > Préférences système, puis définissez la valeur de system.profile.properties.gcsCacheEnabled sur false..

    Boîte de dialogue des préférences

API REST

Pour définir system.profile.properties.gcsCacheEnabled sur false, consultez la section Définir des préférences.

Désactiver la mise en cache Cloud Storage pour un espace de noms donné

Pour désactiver le cache Cloud Storage pour un espace de noms donné, procédez comme suit :

Console

  1. Accédez à votre instance :
    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur Administration système > Espaces de noms, puis sélectionnez votre espace de noms.
  3. Cliquez sur Préférences > Modifier, puis définissez la valeur de system.profile.properties.gcsCacheEnabled sur false.

    Boîte de dialogue "Préférences d'espace de noms"

API REST

Pour définir cela via l'API REST, consultez Définir vos préférences

Désactiver la mise en cache Cloud Storage pour un profil Dataproc

Pour désactiver la mise en cache Cloud Storage pour l'instance les profils Dataproc contenant les pipelines défaillants, suivez les procédez comme suit:

Console

  • Définissez gcsCacheEnabled sur false dans le profil Dataproc.

Désactiver la mise en cache Cloud Storage uniquement pour les pipelines en échec

Pour désactiver la mise en cache Cloud Storage uniquement pour les pipelines en échec, procédez comme suit : procédez comme suit:

Console

  1. Accédez à votre instance:
    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur List (Liste) et sélectionnez le pipeline défaillant.
  3. Cliquez sur Développez à côté de Exécuter et définissez l'argument "environnement d'exécution". De system.profile.properties.gcsCacheEnabled à false.
  4. Répétez l'opération pour tous les autres pipelines défaillants.

Boîte de dialogue d'exécution

API REST

La mise en cache Cloud Storage peut être désactivée lorsque vous démarrez un pipeline via l'API REST, et également en spécifiant éventuellement des arguments d'exécution en tant que mappe JSON dans le corps de la requête. Pour en savoir plus, consultez Démarrer un programme