Pour réduire le temps de démarrage des pipelines, les instances Cloud Data Fusion 6.8.0 et 6.8.1 mettent en cache les artefacts requis pour démarrer un pipeline dans un cluster Dataproc au sein d'un bucket Cloud Storage.
application.jar
est l'un de ces artefacts mis en cache. Selon l'ordre dans lequel vous exécutez les pipelines, certains peuvent échouer et renvoyer l'erreur suivante:
Unsupported program type: Spark
Par exemple, après avoir créé une instance 6.8.1 (ou mis à niveau vers la version 6.8.1), la première fois que vous exécutez un pipeline qui ne contient que des actions, il aboutit. Toutefois, l'exécution du pipeline suivant, qui inclut des sources ou des récepteurs, peut échouer et générer cette erreur.
Recommandation
Pour résoudre ce problème, effectuez l'une des opérations suivantes:
- Recommandé:Mettez à niveau l'instance vers Cloud Data Fusion 6.8.2 ou version ultérieure.
- Désactivez la mise en cache Cloud Storage à l'aide d'une préférence ou d'un argument d'exécution.
Vous pouvez désactiver la mise en cache pour l'un des éléments suivants:
- Pour tous les pipelines d'une instance.
- Pour un espace de noms donné.
- Pour les profils Dataproc spécifiques contenant les pipelines défaillants.
- Pour les pipelines défaillants uniquement.
Désactiver la mise en cache Cloud Storage pour tous les pipelines d'une instance
Pour désactiver la mise en cache Cloud Storage pour tous les pipelines d'une instance, procédez comme suit:
Console
- Accédez à votre instance :
Dans la console Google Cloud, accédez à la page Cloud Data Fusion.
Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.
Cliquez sur Administrateur système > Préférences système et définissez la valeur de
system.profile.properties.gcsCacheEnabled
surfalse.
.
API REST
Pour définir system.profile.properties.gcsCacheEnabled
sur false
, consultez Définir les préférences.
Désactiver la mise en cache Cloud Storage pour un espace de noms donné
Pour désactiver la mise en cache Cloud Storage pour un espace de noms donné, procédez comme suit:
Console
- Accédez à votre instance :
Dans la console Google Cloud, accédez à la page Cloud Data Fusion.
Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.
- Cliquez sur Administrateur système > Espaces de noms, puis sélectionnez votre espace de noms.
Cliquez sur Préférences > Modifier, puis définissez la valeur de
system.profile.properties.gcsCacheEnabled
surfalse
.
API REST
Pour définir ce paramètre via l'API REST, consultez Définir les préférences.
Désactiver la mise en cache Cloud Storage pour un profil Dataproc
Pour désactiver la mise en cache Cloud Storage pour les profils Dataproc spécifiques contenant les pipelines défaillants, procédez comme suit:
Console
- Définissez
gcsCacheEnabled
surfalse
dans le profil Dataproc.
Désactiver la mise en cache Cloud Storage uniquement pour les pipelines défaillants
Pour désactiver la mise en cache Cloud Storage uniquement pour les pipelines défaillants, procédez comme suit:
Console
- Accédez à votre instance :
Dans la console Google Cloud, accédez à la page Cloud Data Fusion.
Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.
- Cliquez sur List (Liste) et sélectionnez le pipeline défaillant.
- Cliquez sur
system.profile.properties.gcsCacheEnabled
surfalse
.
Développer à côté de l'option Exécuter et définissez l'argument d'exécution - Répétez l'opération pour tous les autres pipelines défaillants.
API REST
Vous pouvez désactiver la mise en cache Cloud Storage lors du démarrage d'un pipeline via l'API REST. Vous pouvez également spécifier des arguments d'exécution sous forme de carte JSON dans le corps de la requête. Pour en savoir plus, consultez Démarrer un programme.