Pour réduire l'heure de début des pipelines, Cloud Data Fusion version 6.8.0 et
6.8.1 les instances mettent en cache les artefacts requis pour démarrer un pipeline dans un
Cluster Dataproc dans un bucket Cloud Storage.
L'un de ces artefacts mis en cache est application.jar
. En fonction de l'ordre dans lequel vous exécutez vos pipelines, certains peuvent échouer avec l'erreur suivante :
Unsupported program type: Spark
Par exemple, après avoir créé une instance 6.8.1 (ou effectué la mise à niveau vers la version 6.8.1), la première fois que vous exécutez un pipeline contenant uniquement des actions, il réussit. Toutefois, les prochaines exécutions de pipeline, qui incluent des sources ou des destinations, peuvent échouer avec cette erreur.
Recommandation
Pour résoudre ce problème, procédez comme suit :
- Recommandé : mettez à niveau l'instance vers la version 6.8.2 ou ultérieure de Cloud Data Fusion.
- Désactivez la mise en cache Cloud Storage à l'aide d'une préférence ou d'un argument d'exécution.
Vous pouvez désactiver la mise en cache pour les éléments suivants:
- Pour tous les pipelines d'une instance.
- Pour un espace de noms donné.
- Pour les profils Dataproc spécifiques qui contiennent les pipelines défaillants.
- Pour les pipelines défaillants uniquement.
Désactiver la mise en cache Cloud Storage pour tous les pipelines d'une instance
Pour désactiver la mise en cache Cloud Storage pour tous les pipelines d'une instance, procédez comme suit:
Console
- Accédez à votre instance:
Dans la console Google Cloud, accédez à la page Cloud Data Fusion.
Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.
Cliquez sur Administration système > Préférences système, puis définissez la valeur de
system.profile.properties.gcsCacheEnabled
surfalse.
.
API REST
Pour définir system.profile.properties.gcsCacheEnabled
sur false
, consultez la section Définir des préférences.
Désactiver la mise en cache Cloud Storage pour un espace de noms donné
Pour désactiver le cache Cloud Storage pour un espace de noms donné, procédez comme suit :
Console
- Accédez à votre instance :
Dans la console Google Cloud, accédez à la page Cloud Data Fusion.
Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.
- Cliquez sur Administration système > Espaces de noms, puis sélectionnez votre espace de noms.
Cliquez sur Préférences > Modifier, puis définissez la valeur de
system.profile.properties.gcsCacheEnabled
surfalse
.
API REST
Pour définir cela via l'API REST, consultez Définir vos préférences
Désactiver la mise en cache Cloud Storage pour un profil Dataproc
Pour désactiver la mise en cache Cloud Storage pour l'instance les profils Dataproc contenant les pipelines défaillants, suivez les procédez comme suit:
Console
- Définissez
gcsCacheEnabled
surfalse
dans le profil Dataproc.
Désactiver la mise en cache Cloud Storage uniquement pour les pipelines en échec
Pour désactiver la mise en cache Cloud Storage uniquement pour les pipelines en échec, procédez comme suit : procédez comme suit:
Console
- Accédez à votre instance:
Dans la console Google Cloud, accédez à la page Cloud Data Fusion.
Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.
- Cliquez sur List (Liste) et sélectionnez le pipeline défaillant.
- Cliquez sur
system.profile.properties.gcsCacheEnabled
àfalse
.
Développez à côté de Exécuter et définissez l'argument "environnement d'exécution".
De - Répétez l'opération pour tous les autres pipelines défaillants.
API REST
La mise en cache Cloud Storage peut être désactivée lorsque vous démarrez un pipeline via l'API REST, et également en spécifiant éventuellement des arguments d'exécution en tant que mappe JSON dans le corps de la requête. Pour en savoir plus, consultez Démarrer un programme